相信我,我会讲的极其通俗易懂。
先用一句话概括“什么是机器学习”:
机器学习就是通过特征向量构建统计模型,从而找出事物之间的相关性。
别被上面这种严肃的定义给吓到了,往下看你就会发现那些满嘴“人工智能”的家伙,他们说的东西,其实也没那么玄奥。
(这里有一个识人小技巧:如果有一个人动不动就大谈特谈“AI”、“人工智能”,那他应该只是个写PPT的。因为真正写代码的,说的都是“机器学习”)
下面我将用一个案例讲清楚,统计模型是如何构建的,特征向量又是什么,以及如何利用特征向量找出事物之间的相关性。
这个案例将是我和“你”之间的一次互动。对,就是我和正在阅读这篇文章的“你”之间的一次互动。
我的任务就是推测出你的性别。
我该怎么推测呢?首先我需要一些特征,比如说身高这个特征。
于是我画了一根横着的坐标轴,来代表“身高”这个特征。
但光这样还不够,我还缺乏一个标准,这个标准的作用就是,让我知道在什么情况下,我可以说这个人是个男的,而又在什么情况下,我可以说这个人是个女的。为了找到这个标准,我需要构建一个统计模型。
首先拿我自己的身高175作为样本数据,来进行数据填充。我身高175,是个男的,用蓝色的点标识。我有一个朋友,182,也是个男的,OK,继续填充数据。哦,我还有一个朋友162,是个女的,用红色点标识。…(继续填充数据)…
最终,我好像找到了一个标准(170)。于是只要大于170,我就说这人是男的,小于170,我就说这人是女的。那么此时此刻阅读文章的你,现在是男是女呢?
我猜应该有人想揍我了。
“老子168,就不是个男人了吗?!”
“老娘172,就是个女汉子了吗?!”
我咽了口唾沫,示意各位稍安勿躁,各位的抱怨我都预料到了。这个问题也是显而易见的:特征太少,导致数据结果之间存在交集,很难得到有效区分。
所以我提议,引入新的特征变量:体重。
于是我加入了一条竖着的坐标轴,来表示体重。接着我身先士卒,用自己的数据进行填充。我身高175,体重120。我将它表示成(175,120),于是新的知识点出现了:特征向量。字面意思理解就行了:特征向量,就是有关特征的向量。(如果向量的概念都忘了,那就太不应该了,同九年,汝何忘?)
接下来当然就是进行大量的数据填充,慢慢地我们找出了规律。好像右上角那一坨,男生居多。左下角那一坨,女生居多。所以这时候,用你的身高和体重进行填充,就知道你是属于哪一坨的了。
当然,我有预感我还是会挨揍。这就涉及到机器学习的一个核心问题了:特征的选取。
我这又是问身高又是问体重的,还不如问一句你罩杯多少,如果屏幕里甩出一个巴掌,那你是女的这个推断基本就稳了。
所以在大数据时代,如何设计优秀的统计模型,是非常值得研究的。产品经理每天都应该对自己进行哲学三问:“目标用户是谁?”“抓取什么特征?”“去哪儿抓取?”
我给大家分享两个实际案例,这两个案例会让你对产品经理思考问题的角度之刁钻拍案叫绝。
第一个案例来自全球第一大XX(根据相关法律,无法显示)网站PxxxHub。
该网站的视频播放进度条是可以显示播放热度的。从字面上理解,播放热度显示的是,当视频播放到进度条的这个位置时,它的热度有多高。
看起来平平无奇的设定,拍案叫绝的地方在于,它对视频“热度”的定义是这样的:按照用户看完它之后关掉视频网站的比例。
我的天,这个产品经理真他娘的是个天才!完美诠释什么叫做“遇见你以后,我再也没有考虑过其他人”。
第二个案例来自Facebook的专利(好像是Facebook,有点忘了)
这个专利技术通俗的说是这样的,比如我用我的手机分别给A和B两个人拍照,然后我将他们各自的照片发给他们。
他们将自己的那张照片发到了自己的Facebook上。然后关键的来了,如果我的手机摄像头的玻璃上有一处有灰尘或者是细微的裂缝,就会呈现在A跟B的两张照片上。Facebook的这个专利可以通过找到这个相似特征,判断出这两张照片是由同一个设备拍摄的,从而得出结论:A和B很可能是认识的,从而将彼此添加进“可能认识的好友名单”。
细思极恐啊,平时我们说什么大数据,指的都是一些显性数据,什么你的身高体重啊,你的收入啊,你的家庭住址啊。但对于优秀的产品经理,他们就像是古龙小说里的侠客:
嗯?
嗯……
嗯~~
然后你的数据就被他抓走了。
对此,我的建议就是,不要和产品经理做朋友,见面绕着走。
就这样,拜。
领取专属 10元无门槛券
私享最新 技术干货