0、前言
近期,吴恩达在圣诞节的《The Batch》特刊上发布了一年一度的年终盘点。在过去一年,生成式AI迎来爆发式增长,由人工智能生成的图片在社交平台疯狂传播,引发大量争议的同时也推动了投资;视觉 Transformer(ViT) 的工作也出现爆炸性增长,在过去一年中,研究人员共计发表超过 17,000 篇 ViT 论文;AlphaCode、Codex 等的推出便利了开发者;与此同时,研究人员也在不断拓宽语言模型的边界,在解决可信度、偏见和实时性等问题方面做出持续不断的努力。如下正文:
亲爱的朋友们:
随着寒假的临近,我突然想到,我们不是在面对人工智能的冬天,而是在一个人工智能炙热的夏天。
今天,人工智能创造的绝大多数经济价值都来自监督式学习工具,经过训练能够生成简短的标签(如判断垃圾邮件/非垃圾邮件)或一系列标签(如一段音频的文本)。今年,建立在监督式学习之上的生成式成为第二个主要工具,使人工智能能够生成复杂且引人注目的图像或文本段落。
以往开发重要新工具(例如强化学习)的一些尝试,尚未取得与其铺天盖地的宣传相称的成果。但是生成式AI做得很好,它为人工智能应用创造了一个新的范式。
而且监督学习还远远没有发挥出它的全部潜力!依靠监督学习,仍然有数以百万计的的应用有待开发。许多团队仍然在试图找出通过监督学习开发产品的最佳实践。
未来,我期待着继续与生成式AI共舞,为每个人创造大量的价值。我感到很幸运能活在这个时代,科技飞速发展,我们有机会一起创造未来!能与我的家人和你们分享这个世界,我感到倍加幸运。
节日快乐,
Andrew
节日将近,人们也许正一边手捧着一杯热可可,一边催促 ChatGPT 建议节日礼物。这个特殊的时刻,让我们回顾这一年人工智能所取得的巨大进步。能够生成类人的文本、图像和代码的系统(视频和音乐也即将推出)让用户倍感惊喜,尽管有人对创造力的未来提出了质疑。
这一年,解码化学和物理学的模型推动了科学发现,同时政府则采取行动推动专用微处理器的供应,使这种创新成为可能。这些科技发展让我们震惊的同时,在这期《 The Batch 》特刊中,我们将着重回顾人工智能在2022年创造的奇迹。
由人工智能制作的图片像病毒一样开始疯狂传播,引发了争议,推动了投资。
大事件: 新一代的文生图工具激发了大量的实验,将文本描述转化为迷人的艺术作品和照片,引发超现实主义的幻想。商业企业迅速将这项技术投入使用,使图像生成成为创建和编辑图形软件的必备功能。
背后的驱动力:由于友好的用户界面、具有高度娱乐性的输出以及开放的 API 和模型,能够生成文字和图像的模型成为人工智能的公众名片。
缺点:这样的模特是在从网上搜刮来的图像上训练的。像大型语言模型一样,他们继承了嵌入在网络内容中的偏见,可能会模仿煽动性的表达风格。
新闻背后: 扩散模型经过一系列步骤有选择地去噪来产生输出。加州大学伯克利分校和斯坦福大学的研究人员于2015年引入了这一技术(http://proceedings.mlr.press/v37/sohl-dickstein15.pdf?),在此之后的几年里,他们一直处于幕后,直到最近的研究表明,他们能够制作出与生成性对抗网络(GAN)输出相竞争的图像。Stability AI 把扩散模型放在核心位置。DALL-E 初始版本基于GAN,OpenAI在大约同一时间用扩散模型对其进行了更新。
现状:来年将迎来一场计算机辅助创造力的革命。生成图像的风潮不会止步于图片。谷歌和 Meta 今年发布了令人印象深刻的文本到视频模型(https://www.deeplearning.ai/the-batch/googles-phenaki-generates-long-form-video-from-text/),而 OpenAI 将文本到 3D物体的生成速度提高到了一个新高度。(https://arxiv.org/abs/2212.08751?)
软件项目进度落后?有个软件可以帮你。
大事件:事实证明,经过计算机代码微调的语言模型能够生成类似于经验丰富的开发人员编写的软件例程ーー尽管结果可能是偶然的。
背后的驱动力:人工智能驱动的代码生成器进入了大公司,甚至小规模公司的开发人员(和非开发人员)也可以访问它们。
新闻背后:OpenAI 的 GPT-3语言模型的用户表明,它最早可以在 2020 年中期生成工作代码。一年后,OpenAI 推出了一个经过微调的版本,名为 Codex,它是 GitHub 的 Copilot 的基础。
缺点:这种技术的广泛使用的版本还不能编写复杂的程序。通常乍一看,它们的输出看起来是正确的,但实际上却存在错误。此外,它们的法律地位可能还有待商榷。一项针对 GitHub、 OpenAI 和微软的集体诉讼声称,Codex 的训练违反了开源许可协议。这一结果可能会对生成文本、图像和其它媒体数据的模型产生法律影响。
现状:人工智能驱动的编程工具不太可能在不久的将来取代人类程序员,但它们可能会取代技术问答网站 Stack Overflow,成为开发人员最依赖的辅助工具。
视觉 Transformer(ViT) 的工作在 2022 年出现爆炸性增长。
大事件:在这一年中,研究人员发表了超过 17,000 篇 ViT 论文。其中一个主题是: 将自注意力和卷积结合起来。
背后的驱动力:谷歌大脑的一个团队在 2020 年引入了视觉 Transformer(ViT,https://arxiv.org/abs/2010.11929?) 。从此,视觉 Transformer 的架构经历了不断的改进。一系列最近的工作使 ViT 适应新的任务并解决其缺点。
新闻背后:尽管许多 ViT 研究旨在超越并最终取代卷积神经网络(CNN) ,但更有力的趋势是将二者结合起来。ViT 的优势在于它能够在小尺度和大尺度上考虑图像中所有像素之间的关系。但这种模型的一个缺点是,它需要通过额外的训练来学习随机初始化后融入 CNN 架构的方法。CNN 的局部上下文窗口(只考虑局部像素问题)和权重共享(使它能够以相同的方式处理不同的图像位置)帮助 Transformer 利用更少的数据中学习更多。
现状:在过去的一年中,视觉 Transformer 的应用范围扩大了。ViT 可以生成逼真的连续视频帧,利用 2D 图像序列生成3D 场景,并在点云中检测目标。很难想象在没有 ViT 的情况下,最近研究者们能够取得基于扩散模型的文本到图像生成器的进展。
研究人员推动了语言模型的边界,以解决可信度、偏见和可更新性等持续存在的问题。
大事件: 许多人工智能实验室的目标是通过改进数据集和训练方法(包括训练 Transformer 翻译1000 种语言的方法)使大规模语言模型更加复杂(https://www.deeplearning.ai/the-batch/machine-learning-model-trained-to-translate-1-000-languages/),而其它实验室则扩展了模型架构,以搜索 Web 网页、查阅外部文档和适应新信息。
背后的驱动力: 语言模型产生似是而非的文本的能力超过了它们辨别事实、避免编造幻想和表达社会偏见的能力。研究人员致力于使他们的研究结果更加可靠,而不是那么具有煽动性。
新闻背后: 进展过程并非一帆风顺。Meta 公开演示的 Galactica 语言模型,被训练用于生成科学和技术主题的文本。在 11 月份上线三天后,开发者因为它容易生成虚假信息和引用不存在的信息来源而停止演示。今年 8 月,同样来自 Meta 的聊天机器人 BlenderBot 3 很快就因滔滔不绝的种族主义成见和阴谋论而饱受争议。
现状: 在过去的一年中,文本生成中考虑生成结果真实、得体的工具箱大幅度增长。成功的技术将在未来的某项“爆款”模型引发的浪潮中找到前进的道路。
大事件:某些多任务深度学习模型在数百个任务中证明了它们所向披靡。多任务模型的范畴在过去的一年里急剧扩大。
背后驱动力:研究人员推动了神经网络可以学习技能数量的极限。他们的灵感来自于大规模语言模型的新兴技能ーー比如,在不调整架构的情况下创作诗歌和编写计算机程序的能力ーー以及经过文本和图像训练的模型找到不同数据类型之间对应关系的能力。
新闻背后: 欧盟拟议的 AI 法案的最新草案可能在 2023 年成为法律,该草案将要求通用 AI 系统的用户向当局注册,评估其系统的潜在的误用可能,并进行定期审计。草案将通用系统定义为那些“执行通用功能的系统,如图像/语音识别、音频/视频生成、模式检测、问答、翻译等”,并且能够“具有多种预期和非预期目的”,一些观察家批评该定义过于宽泛。新出现的真正通用的模型可能促使监管机构收紧其定义。
现状: 我们仍然处于构建算法的早期阶段,这些算法可以泛化到数百个不同的任务上。这一年的进展表明,深度学习有潜力帮助我们实现这一目标。
编辑:智源社区、算法进阶
推荐阅读全网最全速查表:Python 机器学习搭建完美的Python 机器学习开发环境训练集,验证集,测试集,交叉验证AI 绘画,StableDiffusion本地部署
整理不易,点赞三连