前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >Two Sigma:直觉在机器学习中的重要性!

Two Sigma:直觉在机器学习中的重要性!

作者头像
量化投资与机器学习微信公众号
发布于 2024-07-04 08:04:32
发布于 2024-07-04 08:04:32
3230
举报
量化投资与机器学习微信公众号,是业内垂直于量化投资、对冲基金、金融科技、人工智能、大数据等领域的主流自媒体。公众号拥有来自公募、私募、券商、期货、银行、保险、高校等行业40W+关注者,曾荣获AMMA优秀品牌力、优秀洞察力大奖,连续4年被腾讯云+社区评选为“年度最佳作者”。

前言

即使现在大火的LLM和其他机器学习模型,其有效性还是最终依赖于开发和使用它们的群体的的理解和直观的洞察力。

机器学习任务的一个主要挑战是选择合适的数据,结合正确的算法,得到有效的解决方案。既然这样,那问题要么来自数据的质量,要么来自研究人员对任务的初步概念化。在这些情况下,人类的直觉是至关重要的,这有助于评估现有数据是否能够支持创建一个可靠和稳健的机器学习模型,可以代表人类作出决策和有效行动。

当一个问题肯定不是机器学习问题

机器学习失效的情况是多种多样的,但是,正如前言提到的,它们通常归结为数据——即使有很多数据,最终没有形成模型成功学习的“必要条件”。

在学术上,大家可能都在IID(独立同分布)的假设中去研究,而在现实世界中往往不会遵守这些假设。

在这种情况下,最好的做法是意识到机器学习可能不是唯一解决问题的办法,可以寻找其他解决方案。

当一个问题可能不是机器学习问题

有时候,世界上所有的数据都是不够的!

在某些情况下,没有可供学习的适当数据。选举、自然灾害和其他特殊事件只是过去的例子,未必能为未来提供准确的参考。在这种情况下,类似的事件以前从未发生过,预测此类事件比较好的方法是由人类专家利用大量的经验和直觉来完成。

数据集的有效大小比你想象的要小得多!

例如,在2017-18年冬季,纽约市住房管理局报告称,其约143.5万套公寓中,多达80%的公寓出现了供暖中断。考虑到每间公寓都代表了一系列相关信息(租户人口统计、使用模式等),这似乎是构建一个可以预测供暖中断发生的模型的完美场景。

事实证明,停电实际上不会发生在公寓层面。相反,大约100个老化的锅炉为整个建筑供暖,所以要学习的数据集的有效大小不是1435000行,而是100行。

你的数据里没有信号

例如,研究人员试图创建一种早期预警指标,预测非洲农村等主要农业地区的作物损失。在一次尝试中,对Malawi进行了为期一年的卫星图像和地面调查,该国面积小,年度气候条件相对均匀,因此几乎不可能建立一个可靠的局部预测模型。

在其他情况下,限制因素不在于可用特征的可变性或相关性,而是一个简单的事实,即任务本身就很难预测。

对于金融市场的走势/波动来说,情况也是这样。一个好的模型所需的数据量、模型可用特征数量和数据中的信号量之间存在一个内在联系。有了强信号,就可以在具有相对较大特征集的少数实例上构建模型。但当信号较弱时,要么需要更多的数据,要么必须大幅减少特征的数量。

问题是因果关系,你的数据可能不是

当一个预测可能包括你决定采取行动的影响时,谨慎也是至关重要的。在那一刻,你正在跨越相关性和因果关系之间的鸿沟。

例如,预测earnings surprises:无论研究人员预测或做什么,都不太可能影响意外发生的可能性。但建立一个交易执行模型可能是一个非常不同的故事,因为一笔足够大的交易本身可能会影响金融工具的价格。在给定的市场状态下,预测哪种策略可能成本最低是一个因果关系问题。有时,准确预测效果是可能的,有时则不然。

还有一种情况是,你的模型不太可能比历史平均水平做得更好:比如纽约的交通事故(模型可能“解释”,但不能预测)。

需要找钉子的时候,你只有一把锤子

有时,人类的直觉可以在数据的固有局限性周围找到创造性的解决方案,或是虽然结果看起来有效,但实际上并非如此。

监督模型与其他机器学的方法相比具有巨大的优势。根据一些基本事实(模型是否正确识别了猫的照片?)客观地评估模型的性能是可能的。因此,一个人也能清楚地认识到失败。事实上,即使是LLM也会在训练中使用这个概念。

然而,有时候很难得到这样的基本事实。考虑这样一个案例:一家公司试图为其销售人员预测“best case scenario”销售机会,几乎没人知道这个量。

乍一看,这看起来不像是一个监督机器学习问题。但如果研究人员把问题改成:我能预测一个“realistic wallet”吗?也就是说,如果一个给定的客户想要使用我们的解决方案来满足所有需求,我能否预测他们在我们公司的最大消费金额?有些客户肯定已经与品牌建立了深厚的关系,但公司无法仅凭每位客户的销售数据来判断他们是哪些客户。

事实上,知道这些信息对于一个定义良好的监督学习任务来说并不是必需的。与其预测一些条件期望值,我们实际上只需要估计一个高条件收入百分位数。要做到这一点,所需要做的就是将损失函数从误差平方和改为分位数损失(加权绝对误差和)。或者在回归树的情况下,不是预测叶子节点中的平均值,而是在每个叶子节点中选择一个接近最大值的客户收入数。

决定哪个“错误”的问题是正确的

有时研究人员知道我们要解决什么问题,但我们没有足够的理想数据来解决它。在这些情况下,直觉可以帮助我们找到一个合适的proxy,它有更多的数据,无论是在例子方面还是在标签方面。

假设一名研究人员想要对缺乏可靠经济数据的地区进行建模。也许在夜间测量一个地区的亮度可以很好地反映经济活动。

虽然测量一个地区夜间的亮度可能是衡量经济活动的一个很好的指标,但斯坦福大学的一项研究旨在提供对其他结构性指标的洞察。因此,在白天拍摄的图像中,夜间亮度被用作目标变量,它增加了一些有趣指标,比如游泳池的存在或用于屋顶的材料类型。

迁移学习

考虑一个假设的案例:根据公开的面部照片,为美联储主席杰Jerome Powell建立一个情绪模型。

面部情绪模型需要大量的训练实例,这远远超过Powell面部照片的数量。然而,几乎所有人的脸上都有一个反映情绪的一致的生理机制,,而不仅仅是Powell。

因此,与其从头开始构建模型,不如在从公开可用的数据源中提取的快乐和不太快乐的人脸数据构建初始模型。

下一步可以建立一个更具代表性的样本(男性,穿着正式,年龄相仿)来训练初始模型。

这是一个明确地从错误的数据开始,并试图将从中学到的知识转移到手头实际问题的例子。实际的“转移”将在第二轮训练中进行,因为模型将使用Powell本人手工标记的图像样本进行微调,这些样本要小得多,但更相关。

这两种方法都说明了直观的、人为的指导对于机器学习技术在困难问题上的有效应用是必不可少的。

当“正确”的模型预测错误的事情时

在研究人员要求预测什么的问题上时,预测模型绝对没有常识。一个模型将优化训练数据中提供的任何东西,使其尽可能“好”(根据研究人员的定义),即使它的输出显然是荒谬的。

因此,模型的创建者需要确保指定的任务是正确的。指定这一点可能比人们想象的要困难得多,并且对模型的事后分析可能会有意想不到的结果。

例如,下面的图表显示了根据机器学习模型,哪种类型的移动应用最有可能吸引用户点击广告。有趣的是,这与广告的目的或用户感兴趣的内容无关。最能预测高点击率的是广告所处的环境。

事后看来,手电筒应用脱颖而出的事实可能一点也不令人惊讶。研究表明,大量的广告点击是偶然的。事实上,当使用手电筒应用程序时,人们在黑暗中摸索并不小心点击广告的可能性非常高——如果你是人类,这种几率也非常可预测!

毫不奇怪,这些点击与购买意图毫无关联。事实上,为预测点击而创建的模型(这些模型确实能很好地预测点击)在预测后续购买方面往往不比随机模型好。

撇开点击模型到底有多有用的问题不谈,我们可以从这个例子中学到一个非常重要的教训:模型是“懒惰的”,喜欢专注于容易预测的东西!

再一次让我们意识到:人类的常识和直觉是绝对必要的!

当一个模型的预测可能有偏差时

模型倾向于“简单”预测的一个非常重要的含义是:在预测范围的两端都可能引入偏差。就广告而言,这可能意味着大多数广告针对的是非常偶然的情况(如手电筒应用的用户)。

再考虑一个模型,它的目的是预测谁可能会出现在机场,并可能买东西。如果研究人员缺乏足够的直觉,那么得分最高的人很可能不是挥霍无度的旅行者,而是飞行员、空姐和大批机场工作人员。

模型倾向于以这种方式做出“简单”的预测,这为偏见打开了大门。问题是,今天我们看到这样的模型被用来推荐工作候选人等等。虽然总体证据表明,与人类相比,机器学习模型在公平性方面往往做得更好,但保持警惕对于确保训练数据的公正至关重要!

即便如此,这样的做法可能无法防止模型在不经意间基于最容易预测的东西而产生的偏见。数据科学家可以尝试消除他们数据的偏差,他们也应该这样做。但是这样做并不能免除一项责任,即确保一个模型在其预测中不会仍然存在偏见。把道德责任委托给技术从来都不是一个好主意。在这里,人类的判断真的很重要。

当你的模型好得令人难以置信时

人类直觉的主要应用之一是提供一种感觉,即一个模型可能执行得如何。换句话说,研究人员必须以一种计算机无法做到的方式持怀疑态度。如果一个模型的性能比预期的要好得多,也许值得仔细研究一下!

有时候,知道什么时候应该持怀疑态度是很容易的:预测资产收益是很难的,即使只是比随机情况好几个百分点,也能带来令人难以置信的成功投资策略。但如果比这好得多,就应该总是触发深入分析,以确保没有意外未来函数潜入数据集。弄清楚这一点可能需要好的直觉和判断。

在其他情况下,可能还有其他原因在起作用。例如,一家广告技术公司的数据科学家曾经注意到,在短时间内,预测各种在线行为(注册试用、下载白皮书、访问品牌主页等)的几个模型的预测性能中值显着提高。

是什么导致了这种变化?研究人员发现,这是新一代广告欺诈算法的数据足迹。这些机器人不仅仅是产生虚假点击,实际上,它们设计目的是通过采取品牌希望人们采取的行动。

当你不清楚你的模型是否可以泛化,或者泛化多少的时候

一家医疗设备制造商希望通过创建一个模型来帮助乳腺癌检测,该模型可以根据来自四个不同设施标记的灰度乳房X光检查图像来预测癌症的概率。

该模型似乎表现良好。但研究人员发现,令他们担心的是,当(可能是随机的)患者识别码添加到模型中时具有很强的预测性。

人们通常不会期望患者ID包含与模型相关的信息(也就是说,ID 通常不会表明谁患有癌症,谁没有) ,但在这种情况下,它们确实包含了——这个事实揭示了一个隐藏的关于数据的故事。

数据是从四个不同的乳房X光检查设备中收集的,每个设备都在不同的设施中。每家医院的患者身份号码都有不同的数字范围。数据清楚地显示了这些ID块,但它也显示了它们之间的癌症发病率差异很大。

为什么会这样呢?病人ID如何“预测”癌症发病率?答案是,一个街区来自筛查中心,另一个街区来自治疗机构,后者的癌症发病率自然会比前者高得多。

如果该模型仅用于这四家机构中的一家来预测癌症的概率,它可能还可以。但是这个模型可以在任何有这类设备的设施中使用吗?只有对数据进行更深入的研究,才会发现答案是“可能不是”。

原因是这些图像本身带有关于它们来自的位置的隐含信息——可能源于这些位置的特定乳房X光检查机器的校准,以及每个机器产生的平均灰度的微小差异。

换句话说,这些信息“吸收”了不同的癌症发病率。一个地点的乳房X光检查设备的灰度与地点1相似(癌症发病率接近36%),平均而言,总是比地点4相似的地点产生更高的概率,而地点4的癌症发病率几乎为零。

尽管存在这些扭曲现象,但该模型能可靠地对患者进行排名:分数越高仍然表明患癌症的几率越高。但是,这就足以将模型投入实际中吗?

这个案例说明了做出这样的判断是多么困难,以及为什么人类的直觉和经验对于有效地使用机器学习模型是如此重要。最终,只有对训练数据的特殊性和对用例的理解都有深入了解的人才能进行调用。

总结

在使用前沿的机器学习模型我们应该深刻的意识到: 它们的有效性不仅依赖于算法,而且严重依赖于人类的直觉。创建者对模型及其数据非常熟悉,因此发挥着不可替代的作用。从应对挑战和选择适当的数据到确保合规的使用,人类的判断是至关重要的。随着机器学习的进步,人们的洞察力和技术的结合将继续是成功的基础!

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-07-03,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 量化投资与机器学习 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
【CCCF专栏】人工智能的缘起
作者:尼克 国家千人计划专家。图灵基金合伙人。早年曾任职于哈佛大学和惠普,后连环创业。中文著作包括《UNIX内核剖析》和《哲学评书》等。 背景 1956年的达特茅斯会议(Dartmouth Conf
新智元
2018/03/14
1.2K0
【CCCF专栏】人工智能的缘起
人工智能的缘起:达特茅斯会议
本文探讨了人工智能的发展历史和未来前景,特别关注了达特茅斯会议、符号主义、连接主义和神经网络等关键概念。作者指出,人工智能已经广泛应用于生活和科研领域,但还存在许多挑战和问题。未来,人工智能将不断向强人工智能发展,挑战人类智能的极限。
企鹅号小编
2018/01/03
3.5K0
人工智能的缘起:达特茅斯会议
人工智能简史
《人工智能简史》全面讲述人工智能的发展史,几乎覆盖人工智能学科的所有领域,包括人工智能的起源、自动定理证明、专家系统、神经网络、自然语言处理、遗传算法、深度学习、强化学习、超级智能、哲学问题和未来趋势等,以宏阔的视野和生动的语言,对人工智能进行了全面回顾和深度点评。
iOSDevLog
2018/07/25
2.5K0
人工智能简史
人工智能:高速
本文介绍了人工智能的起源、达特茅斯会议、人工智能的发展、以及人工智能所带来的影响。
企鹅号小编
2018/01/05
1.4K0
人工智能:高速
一场会议,两场棋局,三门学派,5个阶段带你了解波澜壮阔的人工智能发展史(中)
科学只认第一,不认第二。既然都想争第一,必然有纷争。当然,学术界其实既有纷争,也有合作,但是互相合作的故事不吸引人,纷争的故事才有戏剧性。这里,讲一下人工智能领域学派纷争的故事(主要参考自文献[9-11])。
用户9861443
2024/04/15
2140
一场会议,两场棋局,三门学派,5个阶段带你了解波澜壮阔的人工智能发展史(中)
解读人工智能、大数据和云计算的关系,大佬们赌AI竟都输了?
导读:人工智能(Artificial Intelligence,AI)、大数据(Big Data)和云计算(Cloud Computing)是当前最受关注的技术,业内常常取这三个技术英文名的首字母将其合称为ABC。
王知无-import_bigdata
2019/09/08
5490
【AI初识境】从3次人工智能潮起潮落说起
智能,即Intelligence,那什么是智能呢?按照中国古代思想家荀子在《荀子·正名篇》的说法:“所以知之在人者谓之知,知有所合谓之智。所以能之在人者谓之能,能有所合谓之能”。
用户1508658
2019/07/26
6950
【AI初识境】从3次人工智能潮起潮落说起
解读人工智能、大数据和云计算的关系,大佬们赌AI竟都输了?
导读:人工智能(Artificial Intelligence,AI)、大数据(Big Data)和云计算(Cloud Computing)是当前最受关注的技术,业内常常取这三个技术英文名的首字母将其合称为ABC。
IT阅读排行榜
2019/09/04
6550
解读人工智能、大数据和云计算的关系,大佬们赌AI竟都输了?
从马文·明斯基到AlphaGo,人工智能走过了怎样的70年?
从19世纪中叶人工智能的萌芽时期,到现今人工智能的重生,从马文·明斯基到AlphaGo,历史上发生了哪些激动人心的故事?本文以此铺展人工智能发展近70年来背后发生的故事。 前不久,在人工智能领域发生了
新智元
2018/03/14
9990
从马文·明斯基到AlphaGo,人工智能走过了怎样的70年?
如何让机器理解我们的语言(二) 人工智能的映像变迁
工匠的玩具 可能是太过于孤独的缘故,人类很早就开始了对人工智能的想象。大约在公元前900年,在中国的西周时期,据载有个巧匠就发明了一个神奇的机器舞姬,第一是外形和常人无异: 周穆王西巡狩......道有献工名偃师......王荐之,曰:‘若与偕来者何人邪?’对曰:‘臣之所造能倡者。’穆王惊视之,趋步俯仰,信人也。 第二是能歌善舞: 巧夫颔其颐,则歌合律;捧其手,则舞应节。千变万化,惟意所适。”因而周穆王“以为宝人也,与盛姬内御并观之。 第三是还能调戏王的女人: 技将终,倡者瞬其目而招王之左右侍妾。 根据描述
腾讯知文实验室
2018/02/08
1K0
如何让机器理解我们的语言(二) 人工智能的映像变迁
天神荟萃--计算机领域的人类群星闪耀时(上篇)
该系列这几十个人,是计算机领域最高荣誉 "图灵奖" 获得者,ta们的研究领域,在今天仍左右着我们在信息时代的生活和工作。
fliter
2023/09/06
1K0
天神荟萃--计算机领域的人类群星闪耀时(上篇)
AI学术交流——“人工智能”和“神经网络学习”
图灵对于人工智能的发展有诸多贡献,提出了一种用于判定机器是否具有智能的试验方法,即图灵试验,每年都有试验的比赛。此外,图灵提出的著名的图灵机模型为现代计算机的逻辑工作方式奠定了基础。
网络豆
2023/10/17
4040
AI学术交流——“人工智能”和“神经网络学习”
AI领域首位图灵奖得主Marvin Minsky:求索“智能”奥秘的一生 | 人物志
编者按:在70年的人工智能浪潮中,马文·明斯基(Marvin Minsky)是一个如雷贯耳的名字,与机器学习、神经网络、虚拟现实、框架理论等热门名词紧紧联系在一起。他是定义和发展“人工智能”的先驱者之一,也是人工智能领域的首位图灵奖获得者,被尊称为“人工智能之父”。他的学术贡献璀璨夺目,横跨人工智能、机器人、图形与显微镜技术、数学、认知心理学等多个学科领域。
AI科技大本营
2019/05/07
1.5K0
AI领域首位图灵奖得主Marvin Minsky:求索“智能”奥秘的一生 | 人物志
入门必读!写给初学者的人工智能简史!
人们在关注AI,企业在拥抱AI,资本在追逐AI。凡是和AI有关的概念,都会吸引大量的目光。
鲜枣课堂
2024/07/25
1.3K0
入门必读!写给初学者的人工智能简史!
其父其子:AI之父们和他们孩子的坎坷成长之路
GAIR 今年夏天,雷锋网将在深圳举办一场盛况空前的“全球人工智能与机器人创新大会”(简称GAIR)。大会现场,谷歌,DeepMind,Uber,微软等巨头的人工智能实验室负责人将莅临深圳,向我们零距离展示国外人工智能震撼人心、撬动地球的核心所在。在此之前雷锋网将网罗全国顶尖的人工智能和机器人专家和各大公司的首席科学家,同这些国际大拿同台交流。如果你不想错过这个机会,请用邮件直戳我心,lizongren@leiphone.com 人们通常习惯称某事物的发现者为XX之父,但事实上,历史上很多具有深远影响的发明
AI科技评论
2018/03/07
7930
马文·明斯基:一颗人工智能巨星的陨落
本文经湛庐文化授权转载 他,最早联合提出了“人工智能”概念,被尊为人工智能之父; 他,是人工智能领域首位图灵奖获得者; 他,是世界上第一个人工智能实验室MIT人工智能实验室联合创始人; 他,还是虚拟现
大数据文摘
2018/05/22
2.6K0
一文带你了解人工智能:学科介绍、发展史、三大学派
在介绍人工智能之前,我们要先了解智能到底是什么?智能,其实就是智力和能力的总称。世界著名教育心理学家霍华德·加德纳提出了著名的“多元智能理论”,他认为人类个体都独立存在着八种智能,分别如下:
double
2019/08/22
1.7K0
【与机器共舞】一篇文看全人工智能发展史
1.人工智能的漫长萌芽期 (17~20世纪50年代) 17世纪中,莱布尼兹、托马斯·霍布斯和笛卡儿提出形式符号系统假设,为人工智能(AI)的研究打下了基础。 19世纪初,查尔斯·巴贝奇设计了一台机械式可编程计算机(“差分机”),但未能建造出来。 20世纪,布尔的《思维的定律》、弗雷格的《概念文字》、罗素和怀特海的《数学原理》这些著作在数理逻辑研究上有了极大的突破,使得人工智能呼之欲出。 1936年,数学家阿隆佐·邱奇和艾伦·图灵命名邱奇-图灵论题,提出所有计算或算法都可以由一台图灵机来执行,该论题被
新智元
2018/03/13
1.2K0
【与机器共舞】一篇文看全人工智能发展史
一场会议,两场棋局,三门学派,5个阶段带你了解波澜壮阔的人工智能发展史(上)
以你现在的速度你只能逗留原地。如果你要抵达另一个地方,你必须以双倍于现在的速度奔跑! --卡罗尔
用户9861443
2024/04/15
2340
一场会议,两场棋局,三门学派,5个阶段带你了解波澜壮阔的人工智能发展史(上)
【马文·明斯基诞辰92周年】AI先驱传奇一生,亲手导演“人工智能的冬天”
【新智元导读】8月9日是著名计算机科学家、人工智能和人工神经网络的开拓者和奠基人马文·明斯基诞辰日。谨以此文缅怀这位为计算机科学和人工智能学科的建立和发展功勋卓著的先行者和奠基人。
新智元
2018/08/16
4590
【马文·明斯基诞辰92周年】AI先驱传奇一生,亲手导演“人工智能的冬天”
推荐阅读
相关推荐
【CCCF专栏】人工智能的缘起
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档