首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

“评测” 大模型,另一个视角

好的数据源是提升大模型能力的关键。但据《纽约时报》调查,有公司用各种方法大规模搜集高质量数据,一些手段涉险侵犯版权或用户隐私。而这么做的公司就包括 OpenAI、Google、Meta。

据报道,2021 年底,OpenAI 为了训练 GPT-4,把超过 100 万小时的 YouTube 视频转录成文本。背后用到的工具就是由其总裁格雷格·布罗克曼 (Greg Brockman) 联合同事开发的语音转写模型 Whisper。

报道认为这种做法侵犯了 YouTube 创作者版权和平台数据保护条款。文章称,后来一些 Google 员工知道 OpenAI 的做法但没有阻止,因为他们也在做类似的事情。

GPT-4 发布后,Google 想要迅速追赶,决定修改 Google Docs、Google Map 用户协议,以允许工程师们利用应用中的数据训练大模型,比如公开分享的 Google Doc 文档、Google Map 上用户对餐厅的评论等。

Google 会在周末更新条款,以尽可能降低用户大规模抗议的可能性。

大模型竞赛中落后的 Meta,讨论过各种获取数据的方法。比如收购出版社或者找作家谈判,获得书籍版权。后来他们发现谈版权的流程太慢,直接拿着大量受版权保护的内容训练模型。

过去一年,小说家、作家协会、媒体、程序员等各种主体起诉大模型公司数十次。目前还没有哪起诉讼有明确结果。

竞赛还在继续,大模型公司面临的数据难题更大。研究机构 Epoch 预测,能够用于训练大模型的高质量文本数据到 2026 年就会耗尽。

许多公司尝试用大模型生成数据训练模型。当年 DeepMind 训练围棋 AI AlphaGo 就用了类似方法,让 AI 自我对弈,提升自身实力。

这种方法在大模型领域是否有效,目前还没有形成共识。不少研究者认为,用大模型生成的数据训练大模型,可能会让大模型的缺点变得更突出,比如更容易产生 “幻觉”。但现在大模型公司的选择已经没有太多。(贺乾明)

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OR5I8qdDT9X46h5Q2cmbXHYA0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券