AI起跑线原创文章
海豚小号 欢迎关注
先做个调研:
好,进入正题。
之前我们讲到了,人工智能会迎来第三次发展热潮,是因为“机器学习”(Machine Learning)。
也就是说,机器会像人类一样,自行分析信息和数据,从而学会图形识别、聊天对话、玩游戏下棋等传统机器做不到的事情。
今天就来讲讲,这个“机器学习”是如何实现的。
先转换下脑子,跟大家做一个在年会上经常会玩儿的游戏:
一个人抽一张卡片,上面写着某样东西的名称,这个人只能通过描述这样东西来给到提示,让大家来猜这是什么。
比如说,提示这样东西是“红色”的,大家可能会想到很多:消防车、苹果、大红花、灯笼、红旗……等等。
如果,下一个提示说是“一种水果”,那么,大家进一步可能会猜想是:苹果、草莓、樱桃……等等。
如果再进一步给到提示,说“身上有一点点的颗粒,底部有绿色的叶子”,那么估计就有很大的概率会猜测是“草莓”了。
我们假设,之前给到的那些提示,都叫做“特征”(feature)。
然后设想,如果让计算机来玩儿这个游戏会如何?也就是开发一款软件,给到“红色”、“一种水果”、“身上有一点点的颗粒”等这些“特征”(提示),让计算机找到和这些特征最匹配的“草莓”。
可以想象,只有“红色”和“一种水果”,信息量还不够多,如果再加上“身上有一点点的颗粒”和“底部有绿色的叶子”的“特征”,那么计算机能匹配到“草莓”的概率就会大幅上升。
这就是计算机根据“特征”,做“推理”的一个过程。“特征”量越大,正确匹配的概率就越高。
我们之前讲过,使用人工智能技术之前的计算机,都是“规则型”的,也就是说,由人类程序员实现给计算机设定好处理的规则,然后,让计算机按照规则来执行。
在这种方式下,我们就需要人为地给计算机输入尽可能多的草莓的“特征”,这样才能提高计算机正确匹配的概率。
但现实中,在实际的对话里面,可能会出现“一点点”这种表述,也可能会出现“一粒粒”这种表述,也可能会出现“密密麻麻”、“小斑点”…之类的表述。这种意思相近但表述上有细微差异的说法有很多很多。
那怎么办呢?只能尽可能多地去收集对“草莓”的描述中可能存在的“特征”,让这个“特征库”尽可能庞大。
比如说,大量地去采访人,让他们描述他们认为的草莓的样子,然后录音录下来,再把里面的词汇转换成文字,存在数据库里。或者,去网上找百科词典,或者大家发在微信朋友圈、微博里面对草莓的描述,存在数据库里……
但这个事情,无边无际,数据会非常庞大,怎么办呢?就有人会想,“收集特征”这个事情,能不能让机器自动去做?
没错!这就是“机器学习”。
机器收集越多“草莓”的“特征”信息,并自动存到“特征库”里后(这就是一个学习的过程),机器能够识别人类给出的“提示”是不是草莓的成功概率就会越高。
那么,机器如何自动收集信息呢?我们之前讲过“爬虫软件”,通过这个软件,就能把网上大量的信息爬取下来,并归类存储。
比如,你发在朋友圈的信息:
今天去采草莓啦,香香的甜甜的,小朋友吃得满嘴都红了呢~~
这样的信息就就会被爬取下来,被机器所“学习”。
事实上,通过这种方式,机器还能学到很多普通人还不知道的信息。
比如说,我们开头问大家知不知道这个世界上还有白色的草莓。你可能不知道,但是,刷微博的人可能知道。
其实,成熟前的草莓,就是绿色和白色的。所以,如果有人见过这个时候的草莓,并拍下来发在微博上,说:
好神奇耶,今天见到了白色的草莓~~
你或许不知道,但机器能够“学习”到。
这,就是人工智能中“机器学习”的原理。
-End -
推荐两个不错的公众号:
海豚学研社(ID:haitunstudy)
数据魔术师(ID:magicdata)
我们是——
人人能懂的人工智能学习小组
我们还在预热中,赶紧上车!
领取专属 10元无门槛券
私享最新 技术干货