大数据文摘转载自品玩
作者:紫荆
GPT-4的发布一石激起千层浪,相比GPT-3.5,新一代的GPT不但能看图说话、分析图表,甚至SAT数学能考700分,生物奥林匹克竞赛排名前1%,司法考试排名前10%。GPT正在以一种人类无法匹敌的速度地进化出越来越多让人叹为观止的能力,但这也助长了许多人的失业焦虑、对于数据安全的焦虑,以及对于GPT时代产业发展的焦虑。
于是,未来科技力在上周邀请了山景智能创始人&董事长黄勇,PingCAP副总裁刘松,深势科技战略部负责人王小佛,计算美学Nolibox技术合伙人付博铭,这四位业内大咖做客未来科技力直播间,聊一聊GPT、AIGC和AGI。
智能是观察者的幻象
在科幻小说《三体》中,罗辑从休眠中醒来,看到的一切都是数字化的、自动化的、“先进”的。危机纪年的人类科学早已止步,可还是被基于已知技术开发出来的各种应用所造成的“纷繁闪耀的华丽”迷惑,误以为自己处在科技发展的盛世。
这和当下由GPT引发的,”被AI取代“、”AI改变社会构造“、“AI大洗牌”等种种焦虑有异曲同工之处。人们似乎觉得机器人已经“准备好了”、赛博朋克近在咫尺,可实际上我们所见到的只是一些能够写代码、绘画、做视频和聊天,可谓被予取予求的AI工具。
GPT-4的热度,在计算美学Nolibox技术合伙人付博铭看来,很像三体中这种绚烂的“科技大爆发”。“GPT相关的这些技术的话可能都基于若干年前的深度机器学习模型Transformer,但这个算法其实一直没有更新,“付博铭认为,”GPT的亮点在于有人类监督的强化学习,“而非算法本质的升级。
山景智能创始人黄勇也认可这一点。“通用人工智能其实是个伪命题”,因为“它是一种技术上的发展和变化,但它也是个过渡阶段。”
的确如此。近日微软研究团队的一篇论文,针对GPT的“智能”做出了如下谨慎的描述:”这(GPT-4)可以被合理地看作是人工通用智能(AGI)系统的早期(尚不完整)版本。”
“GPT4的强推理能力其实是一种用参数算法结合数据的反馈构建出来的’伪智能‘,离真正的通用人工智能还远着呢”,PingCAP副总裁刘松说,并引用了机器人专家罗德尼·布鲁克斯的一句话:“智能是观察者的幻象”。
布鲁克斯是MIT人工智能实验室的教授,他的原句是:“每一个机器人看起来都像是按照一套集中的目的行事,但这只是一个幻象,无论是在人造智能物或是自然生命中,智能都出自观察者之所见。“ 他不认为机器要学会思考才能做事,还制造过一系列奇奇怪怪的机器人,虽然没有思考能力,但却能偷桌上的苏打罐,穿越四周发烫的地面等。
这位教授还说过一句话:“AI是工具,不是威胁。”
完形填空和“填鸭式教育”,AGI没你想的那么近
毋庸质疑,GPT是一个里程碑,也是一个拐点,但可能不是你想象的,通用人工智能(AGI)的拐点。
GPT、Stable Diffusion这类大模型的横空出世,极大程度上省去了其他入局者“重复造轮子”,开发自研大模型、底层大模型的功夫。开发自研大模型的说法虽然在投资市场很受欢迎,但如果只是做一些小修改,增加一些业务模块,或者能力不变、在参数量和训练时长上堆积,更像是“浪费资源”, 付博铭分享道。
“具备行业知识的模型价值是会比从头做一个基础大模型的价值要更大。”
为了理解方便,我们暂且把高考能超过半数考生的GPT看作一个具有一定智力的“人”,把给喂AI数据看作是这个“人”学习的内容和方式。那么GPT这个“人”,也更像是通过完形填空和“填鸭式教育”成长起来的应试型人才,而非具有创造力的全方面人才。
据深势科技战略部负责人王小佛描述,近年来一个比较好的AI训练方法就是给AI做“完形填空”。“原来训练的时候,是一个数据用一次就必须要换下一个数据。完形填空的意思是说,一篇文章100个字,把第1个字盖上,剩下的99个字用来预测第1个字。然后再把第2个字盖上,用99个字预测第2个字。”
虽然对于AGI的实现学术上尚存争议,但许多人认为这样的训练方式并不符合AGI的实现路径。理论上来说,AGI的实现首先需要理解人类智能是如何实现的,再将人类智能的实现机制复制到机器上。而GPT-4目前展现出的“类智能”是算法复杂度量变到质变的一种“涌现”。“GPT-4的推理能力有很大进步,但它依然缺少对事实知识的基本常识,”刘松解释道。
“一本正经的胡说八道”也许是产品设计?
人们现在使用AIGC工具经常发现生成的内容有不准确、与事实不符、或自相矛盾之处,通常把这种现象称为“AI在一本正经地胡说八道”。ChatGPT在收获铺天盖地的赞誉的同时,也不少被诟病这个“致命bug”。
但王小佛有不同看法。“这可能是一个产品本身的设计,可以把它定位成一个陪聊。聊天的时候对准确度的要求是没有那么高的。但如果把它变成一个助手,有功能性的要求,不准确的话体验就会差很多。这个不一定是技术的问题,或许是一个产品pm的选择。”
黄勇也认可这种猜测:“它希望更多地得到使用者的反馈,反馈就是对它的一种收敛,能够更好的让产品迭代。”
据黄勇表示,在山景智能针对企业级软件领域的实践过程中,常常会发现金融或是其他细分专业领域虽然门槛高,但是有边界的。因此这类软件的开发“困难没有想象的那么大”,可以人为画出边界,“能够让模型在这个范围内去做收敛,这个时候效率就非常高了。”
所以,GPT这类模型除了chat,能做什么?
AI发展的三大要素,数据,算法,算力,缺一不可。
用黄勇的话来说,“算力是基础,算法是精髓,数据决定了技术发展到什么阶段。”
黄勇分享,作为一家企业级“业务智能决策自动化”平台服务商,山景早期和客户合作时,经常听到对方说”我们的数据不好“,或者觉得门槛太高,无法适用人工智能平台、机器学习平台或者PaaS平台。观察到这类痛点后,山景推出了数据治理的预训练大模型,可以用来解读数据,从而找到数据的标准。同时,为了保证客户的信息安全,也可以做到自动标注、自动脱敏。
这件事相当于把本来杂乱无章,连篇累牍的数据标准化、结构化。结构化的数据加上GPT类模型的自然语言处理功能,就可以把使用门槛降低、效率提升。刘松举了两个例子:“一个企业的CEO想最快地总结出公司目前的情况,可以直接向模型提问,不用翻看报表。一个外卖小哥送餐时,不用看路况和取餐地点,直接问模型如何规划路径。”
“所以未来最有价值的东西一定是以这种 GPT为界面,把结构化数据的严肃性和非结构化数据的补充性结合在一起的产品。”
刘松所在的PingCAP是一家企业级开源分布式数据库厂商。据刘松分享,在ChatGPT问世的第三天,PingCAP就决定将OpenAI的能力集成到自身的数据库服务 TiDB Cloud中,并在1月10号已经上线,能够帮助用户将自然语言转化为 SQL 语言,在数据库中进行查询,可以在几秒钟内分析公司的运营数据。用户可以无需掌握复杂的数据库 SQL语言。
而深势科技的药物计算设计平台Hermite则是通过融合AI模型与分子模拟技术,来加速创新药研发流程中靶点研究、虚拟筛选、先导优化等关键步骤的效率。“这不是一步到位的。并不是比如我有一个病,然后AI直接能生成一个药。”王小佛表示,而是能解决一部分药物研发成本高周期长的痛点。
付博铭则表示类似计算美学Nolibox其他的“画宇宙”和“图宇宙”等AIGC工具能让高质量和低成本划等号,让创意市场从专业化走向全民化,并且让“创意工作者从一些重复繁琐的工作中解放出来,聚焦在创造性的工作上,并且更多的关注工作的商业化成果。”
注:封面图来自于Pexels,版权属于原作者。如果不同意使用,请尽快联系我们,我们会立即删除。
领取专属 10元无门槛券
私享最新 技术干货