前往小程序,Get更优阅读体验!
立即前往
发布
社区首页 >专栏 >Open AI发布GPT-4o,开启新的人机交互革命

Open AI发布GPT-4o,开启新的人机交互革命

作者头像
ToB行业头条
发布2024-11-30 12:52:20
发布2024-11-30 12:52:20
1810
举报
文章被收录于专栏:ToB行业头条ToB行业头条

—、Open AI此次一系列的应用能力展示、API降价、GPT免费,足以说明了Open AI希望推动AI全民应用的决心 来源 / ToB行业头条 (ID:wwwqifu) 作者 / 樊航

北京时间5月14日,在Open AI 发布了全新旗舰大模型GPT-4o之后,有网友在社交媒体上发出这样的评价:“又被Open AI狠狠的上了一课,这种级别的实时反馈太牛了,而且整个思路非常第一性原理,即完善AI的听说看能力,你不需要手里的软件被AI化,而是需要有一个AI陪在你身边帮你看一切”。

而与之相反的声音则认为,比较让人失望的是,这次Open AI没有发布GPT-5.0,甚至没有发布GPT-4.5,如果只是AI Search或者是语音助手,那就说明Open AI落没了。

当然,更多人站前者,猎豹移动董事长兼CEO、猎户星空董事长傅盛早间发短视频表示,此次发布的一项语音助手功能,由于使用了端到端大模型技术,体验已经超越了Siri,也远超于我们以前用过的各种AI助手。

一起回顾一下这个仅有26分钟发布会带来的惊喜。

Open AI CTO米拉·穆拉蒂开口便为整个大会定下基调,此次发布会的目的是为了进一步减小人们使用AI的障碍,让所有人都能在学习、工作、创造中使用AI工具。

为此,Open AI 一共做了三件事,全在易用性上做改变,第一发布全新旗舰大模型GPT-4o;第二更新界面提高用户使用体验;第三免费开放使用,付费用户享有五倍的使用容量限制

01、全新旗舰大模型GPT-4o

丝滑自然可打断

GPT-4o中的“o”代表“Omni”,顾名思义,这是一个基于GPT-4之上的全能型大模型,指的是该模型具备处理文本、语音和视频的任意组合能力,并且无缝衔接图文音频的多种形式输出。

尽管GPT-4o提供的仍然是“GPT-4级别”的智能,但改进了GPT-4跨多种模式和媒体的能力,这样意味着人机交互迈入了一个新的阶段,即有“眼睛(视频实时观看)、耳朵(听懂实时环境语言)、嘴巴(可打断、带一定情感)、大脑(GPT-4级别智能 )”等俱全的人工智能助手。

在语音对话演示的demo中,GPT-4o展示了第一个新能力,即听现场环境音和即时反馈。

比如,操作人员对GPT说,自己有点紧张,然后开始急促地呼吸。GPT识别到了他呼吸的声音,说,别紧张,你喘得像个吸尘器,深呼吸,再吐气。接着GPT开始指导工作人员怎么深吸慢呼平复心情。

第二个能力是随时打断和提出意见。过往在使用大模型应用经常会遇到的问题,其中最让人头疼的就是无法打断对话,一旦开始回答,用户都必须得听完固化且冗长的甚至废话连篇的回答,使语聊过程变得毫无体验。

GPT可以及时打断并提出意见,可以像真实生活里交流一样丝滑。

第三是实时视觉功能,通过手机摄像头实时解决数学问题,仿佛一位真实的数学老师在旁边指导每一步解题步骤。

......

重要的是,GPT-4o将过往的三个独立模型进行了融合接力,比如原本一个模型处理音频转化文本,GPT-4处理文本输入并输出,另一个模型再将文本转换为音频,整个过程会导致其中大量的信息丢失,无法确保准确性。

而GPT-4o通过端到端地训练了一个统一的新模型,实现了所有输入和输出处理都由统一神经网络完成。

此外,GPT-4o还具备更快的响应速度:能够在短至232毫秒内响应音频输入,平均响应时间为320毫秒,接近人类在对话中的响应时间。

更多的性能体现均在Open AI官网发布的数据中有所体现。

比如在传统基准测试中,GPT-4o在文本、推理和编码智能方面,达到了GPT-4 Turbo级别的性能,同时在多语言、音频和视觉能力方面创下了新高。

文本评估中,GPT-4o在0-shot COT MMLU(常识问题)上创下88.7%的高分,此外在传统的5-shot not- COT MMLU上,GPT-4o创下了87.2%的新高。几乎碾压一众模型,包括Claude 3 Opus,Gemini Pro 1.5,甚至是「开源版GPT-4」Llama 3 400B。

比如在视觉理解评估中,GPT-4o实现了最先进的性能

音频翻译能力方面,GPT-4o刷新SOTA,并在MLS基准上超过了Whisper-v3。

在音频ASR表现上,比起Whisper-v3 ,GPT-4o显著提高了所有语言的语音识别性能,尤其是对资源较少的语言。

02、更好用的界面和更低的成本

对于所有用户,无论是否付费,都可以使用 ChatGPT 桌面应用(Mac版)。通过简单的键盘快捷键(Option + Space),可以立即向 ChatGPT 提问。还可以直接在应用程序中拍摄和讨论截图。

使用者不必在网页间进行反复切换,GPT可以融入任何工作流,随时用文本、图像和语音进行交流。

同时,Open AI CTO米拉·穆拉蒂表示,GPT-4o的文本和图像功能已开始向付费的ChatGPT Plus和Teams用户提供,并将很快推广至企业用户。同时,免费用户也将逐步获得使用权限,但需受到速率的限制。GPT-4o的语音功能预计将在未来几周内向用户开放。

对于过往ChatGPT免费用户,可以使用GPT-4o加持下的功能,比如分析数据并创建图表、上传文件以帮助总结、撰写或分析、发现和使用GPTs和GPT Store、用记忆构建更有用的体验等等。

对于开发者,相较于GPT-4 Turbo,GPT-4o推理速度提高2倍,消息现在提高5倍,而且价格还会降低50%。

总体而言,GPT-4o的发布,不仅作为技术革新的一个里程碑,也标志着AI向更智能和实用性迈进了重要一步。

尽管GPT-5或4.5并未如愿登场,但Open AI在易用性上带来的改变也是足够震撼的,Open AI此次一系列的应用能力展示、API降价、GPT免费,足以说明了Open AI希望推动AI全民应用的决心。

如傅盛所言一样,也恰巧说明了,应用在人工智能领域的大有作为。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-05-14,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 ToB行业头条 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档