Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >Open AI发布GPT-4o,开启新的人机交互革命

Open AI发布GPT-4o,开启新的人机交互革命

作者头像
ToB行业头条
发布于 2024-11-30 04:52:20
发布于 2024-11-30 04:52:20
1960
举报
文章被收录于专栏:ToB行业头条ToB行业头条

—、Open AI此次一系列的应用能力展示、API降价、GPT免费,足以说明了Open AI希望推动AI全民应用的决心 来源 / ToB行业头条 (ID:wwwqifu) 作者 / 樊航

北京时间5月14日,在Open AI 发布了全新旗舰大模型GPT-4o之后,有网友在社交媒体上发出这样的评价:“又被Open AI狠狠的上了一课,这种级别的实时反馈太牛了,而且整个思路非常第一性原理,即完善AI的听说看能力,你不需要手里的软件被AI化,而是需要有一个AI陪在你身边帮你看一切”。

而与之相反的声音则认为,比较让人失望的是,这次Open AI没有发布GPT-5.0,甚至没有发布GPT-4.5,如果只是AI Search或者是语音助手,那就说明Open AI落没了。

当然,更多人站前者,猎豹移动董事长兼CEO、猎户星空董事长傅盛早间发短视频表示,此次发布的一项语音助手功能,由于使用了端到端大模型技术,体验已经超越了Siri,也远超于我们以前用过的各种AI助手。

一起回顾一下这个仅有26分钟发布会带来的惊喜。

Open AI CTO米拉·穆拉蒂开口便为整个大会定下基调,此次发布会的目的是为了进一步减小人们使用AI的障碍,让所有人都能在学习、工作、创造中使用AI工具。

为此,Open AI 一共做了三件事,全在易用性上做改变,第一发布全新旗舰大模型GPT-4o;第二更新界面提高用户使用体验;第三免费开放使用,付费用户享有五倍的使用容量限制

01、全新旗舰大模型GPT-4o

丝滑自然可打断

GPT-4o中的“o”代表“Omni”,顾名思义,这是一个基于GPT-4之上的全能型大模型,指的是该模型具备处理文本、语音和视频的任意组合能力,并且无缝衔接图文音频的多种形式输出。

尽管GPT-4o提供的仍然是“GPT-4级别”的智能,但改进了GPT-4跨多种模式和媒体的能力,这样意味着人机交互迈入了一个新的阶段,即有“眼睛(视频实时观看)、耳朵(听懂实时环境语言)、嘴巴(可打断、带一定情感)、大脑(GPT-4级别智能 )”等俱全的人工智能助手。

在语音对话演示的demo中,GPT-4o展示了第一个新能力,即听现场环境音和即时反馈。

比如,操作人员对GPT说,自己有点紧张,然后开始急促地呼吸。GPT识别到了他呼吸的声音,说,别紧张,你喘得像个吸尘器,深呼吸,再吐气。接着GPT开始指导工作人员怎么深吸慢呼平复心情。

第二个能力是随时打断和提出意见。过往在使用大模型应用经常会遇到的问题,其中最让人头疼的就是无法打断对话,一旦开始回答,用户都必须得听完固化且冗长的甚至废话连篇的回答,使语聊过程变得毫无体验。

GPT可以及时打断并提出意见,可以像真实生活里交流一样丝滑。

第三是实时视觉功能,通过手机摄像头实时解决数学问题,仿佛一位真实的数学老师在旁边指导每一步解题步骤。

......

重要的是,GPT-4o将过往的三个独立模型进行了融合接力,比如原本一个模型处理音频转化文本,GPT-4处理文本输入并输出,另一个模型再将文本转换为音频,整个过程会导致其中大量的信息丢失,无法确保准确性。

而GPT-4o通过端到端地训练了一个统一的新模型,实现了所有输入和输出处理都由统一神经网络完成。

此外,GPT-4o还具备更快的响应速度:能够在短至232毫秒内响应音频输入,平均响应时间为320毫秒,接近人类在对话中的响应时间。

更多的性能体现均在Open AI官网发布的数据中有所体现。

比如在传统基准测试中,GPT-4o在文本、推理和编码智能方面,达到了GPT-4 Turbo级别的性能,同时在多语言、音频和视觉能力方面创下了新高。

文本评估中,GPT-4o在0-shot COT MMLU(常识问题)上创下88.7%的高分,此外在传统的5-shot not- COT MMLU上,GPT-4o创下了87.2%的新高。几乎碾压一众模型,包括Claude 3 Opus,Gemini Pro 1.5,甚至是「开源版GPT-4」Llama 3 400B。

比如在视觉理解评估中,GPT-4o实现了最先进的性能

音频翻译能力方面,GPT-4o刷新SOTA,并在MLS基准上超过了Whisper-v3。

在音频ASR表现上,比起Whisper-v3 ,GPT-4o显著提高了所有语言的语音识别性能,尤其是对资源较少的语言。

02、更好用的界面和更低的成本

对于所有用户,无论是否付费,都可以使用 ChatGPT 桌面应用(Mac版)。通过简单的键盘快捷键(Option + Space),可以立即向 ChatGPT 提问。还可以直接在应用程序中拍摄和讨论截图。

使用者不必在网页间进行反复切换,GPT可以融入任何工作流,随时用文本、图像和语音进行交流。

同时,Open AI CTO米拉·穆拉蒂表示,GPT-4o的文本和图像功能已开始向付费的ChatGPT Plus和Teams用户提供,并将很快推广至企业用户。同时,免费用户也将逐步获得使用权限,但需受到速率的限制。GPT-4o的语音功能预计将在未来几周内向用户开放。

对于过往ChatGPT免费用户,可以使用GPT-4o加持下的功能,比如分析数据并创建图表、上传文件以帮助总结、撰写或分析、发现和使用GPTs和GPT Store、用记忆构建更有用的体验等等。

对于开发者,相较于GPT-4 Turbo,GPT-4o推理速度提高2倍,消息现在提高5倍,而且价格还会降低50%。

总体而言,GPT-4o的发布,不仅作为技术革新的一个里程碑,也标志着AI向更智能和实用性迈进了重要一步。

尽管GPT-5或4.5并未如愿登场,但Open AI在易用性上带来的改变也是足够震撼的,Open AI此次一系列的应用能力展示、API降价、GPT免费,足以说明了Open AI希望推动AI全民应用的决心。

如傅盛所言一样,也恰巧说明了,应用在人工智能领域的大有作为。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-05-14,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 ToB行业头条 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
你好GPT-4o——对GPT-4o发布的思考与看法
2024年5月13日,OpenAI官网发布了他们的新一代自然语言处理交互系统——GPT-4o。这是OpenAI继GPT4之后又一个新的旗舰模型。
Skrrapper
2024/06/18
2170
你好GPT-4o——对GPT-4o发布的思考与看法
最新ChatGPT-4o 官方完全免费使用了,OpenAI 2024 春季更新发布会
主要有几个更新:1. 发布了新的Desktop App,可以让你方便的分享屏幕、发送图片和代码给它
硬核编程
2024/05/20
6430
最新ChatGPT-4o 官方完全免费使用了,OpenAI 2024 春季更新发布会
现在,所有人都能免费用GPT-4o了!
「所有ChatGPT免费用户现在都可以使用浏览、视觉、数据分析、文件上传和GPTs。」
新智元
2024/06/05
7220
现在,所有人都能免费用GPT-4o了!
GPT-4o版「Her」终于来了!英伟达股价两周内下跌23%!|AI日报
Apple Intelligence将在今年10月推出?AI毛绒玩具BubblePal回答人类幼崽十万个为什么!|AI日报
可信AI进展
2024/08/01
1200
面壁智能:GPT-4o,我是你的破壁人
面壁智能最近发布了很吊很炸裂的端侧全模态大模型,看演示视频功能很强大,并且支持看图说话、听音说话以及超拟人情感对话支持,参数只有8B!!!
AIGC新知
2025/01/17
1020
面壁智能:GPT-4o,我是你的破壁人
曝光!ChatGPT今年必发布新模型。可能在11月,新模型对GPT-4是降维打击!
在巴黎举办的最大科技活动 VivaTech 上,OpenAI 曝出模型进化线路图,
用户11203141
2025/03/06
640
曝光!ChatGPT今年必发布新模型。可能在11月,新模型对GPT-4是降维打击!
惊掉下巴:GPT-4o现场爆改代码看图导航!OpenAI曝光LLM路线图,GPT Next年底发
这几天,在巴黎举办的最大科技活动VivaTech上,OpenAI再次带来了许多惊喜。
新智元
2024/05/25
1230
惊掉下巴:GPT-4o现场爆改代码看图导航!OpenAI曝光LLM路线图,GPT Next年底发
OpenAI推出最新大模型“GPT-4o”,你的快乐悲伤它都能读懂
如果说黄仁勋(Jensen Huang)是科技届的泰勒·斯威夫特,以亲和力和号召力获得了一众拥趸,那萨姆·奥尔特曼(Sam Altman)就有些像AI届的金·卡戴珊,永远擅长制造话题和抢风头。
数据猿
2024/05/17
2580
OpenAI推出最新大模型“GPT-4o”,你的快乐悲伤它都能读懂
OpenAI 官宣旗舰模型 GPT-4o,完全免费、无障碍与人交谈!奥特曼:这是我们最好的模型
上周,关于 OpenAI 即将发布重大更新的报道层出不穷。有报道称,ChatGPT 制造商 OpenAI 计划通过推出 Google 搜索的竞争对手来增强聊天机器人的功能并开拓新市场。报道还称,这款新搜索产品可能会在 5 月 13 日 Google I/O 大会前一天发布。不过 Altman 否认了此类传言。
深度学习与Python
2024/05/15
1920
OpenAI 官宣旗舰模型 GPT-4o,完全免费、无障碍与人交谈!奥特曼:这是我们最好的模型
OpenAI颠覆世界:GPT-4o完全免费,实时语音视频交互震撼全场,直接进入科幻时代
当各家科技公司还在追赶大模型多模态能力,把总结文本、P 图等功能放进手机里的时候,遥遥领先的 OpenAI 直接开了大招,发布的产品连自家 CEO 奥特曼都惊叹:就像电影里一样。
机器之心
2024/05/14
2990
OpenAI颠覆世界:GPT-4o完全免费,实时语音视频交互震撼全场,直接进入科幻时代
王炸!OpenAI全新模型GPT-4o推出!免费使用,实时语音视频交互来了!
北京时间5月14日凌晨,OpenAI 春季新品发布会举行,新一代旗舰生成模型 GPT-4o来了。GPT-4o 的推出代表着技术进步的一大步,集成了文本、语音和图像三种模态,使人机交互更加自然和高效。
用户6070864
2024/05/18
2230
王炸!OpenAI全新模型GPT-4o推出!免费使用,实时语音视频交互来了!
OpenAI 2024 Spring推出 GPT-4o,这是OpenAI的新旗舰模型,可以实时对音频、视觉和文本进行推理
OpenAI 2024 Spring推出 GPT-4o,这是OpenAI的新旗舰模型,可以实时对音频、视觉和文本进行推理。
小小纽扣
2024/05/14
2040
关于实时语音对话模型GPT-4o,你想说?
今天看了一篇文章,内容是关于利用Snowflake算法生成分布式唯一ID的文章,整个文章标题【分布式唯一ID生成:深入理解Snowflake算法在Go中的实现】,文章链接:https://cloud.tencent.com/developer/article/2466155 整篇文章详细介绍了Snowflake 算法以及雪花算法的 Go 语言实现,内容详尽,可以帮助大家快速理解Snowflake 算法。
六月的雨在Tencent
2024/11/17
2230
一站式落地AI实时语音对话,腾讯云TRTC开启AI交互新玩法
在人工智能技术日益普及的今天,GPT-4o所展现出的实时语音对话能力再次吸引了大量关注。但AI语音助手其实并不新鲜,“你好,Siri”这句话,大家都已经说了好多年。那为什么GPT-4o的发布,仍能够再次唤起人们对AI语音的畅想?答案的关键或许在于GPT-4o比Siri们,快得多。
腾讯云音视频
2024/09/06
3380
一站式落地AI实时语音对话,腾讯云TRTC开启AI交互新玩法
免费GPT-4o来袭,音频视觉文本实现「大一统」
今天凌晨,即北京时间5月14日1点整,OpenAI 召开了首场春季发布会,CTO Mira Murati 在台上和团队用短短不到30分钟的时间,揭开了最新旗舰模型 GPT-4o 的神秘面纱,以及基于 GPT-4o 的 ChatGPT,均为免费使用。
AI科技评论
2024/05/14
2290
免费GPT-4o来袭,音频视觉文本实现「大一统」
我使用 GPT-4o 帮我挑西瓜
hi,这里是小榆。在 5 月 15 日,OpenAI 旗下的大模型 GPT-4o 已经发布,那时网络上已经传开, 但很多小伙伴始终没有看到 GPT-4o 的体验选项。
程序员小榆
2024/05/27
3150
我使用 GPT-4o 帮我挑西瓜
OpenAI一夜改写历史,GPT-4o干翻所有语音助手!丝滑如真人引爆全网科幻成真
看完发布会的观众们,久久未从巨大的震惊中走出——科幻电影中的「Her」,在此刻成真了!
新智元
2024/05/14
2330
OpenAI一夜改写历史,GPT-4o干翻所有语音助手!丝滑如真人引爆全网科幻成真
GPT-4o:深夜炸场,她 来了!
在我们的深夜、太平洋时间的上午 10 点,OpenAI 召开春季发布会,推出了一款名为GPT-4o的“旗舰级”生成式人工智能模型,并将在未来几周内在公司面向开发者和消费者的产品中迭代推出。该模型将向免费客户开放,这意味着任何人都可以通过 ChatGPT 访问 OpenAI 最先进的技术。
NewBeeNLP
2024/05/14
3400
GPT-4o:深夜炸场,她 来了!
[官方]你好 GPT-4o [译]
我们很高兴地宣布,推出了全新的旗舰模型 GPT-4o,能够在音频、视觉和文本之间实时进行推理。
硬核编程
2024/05/20
1430
[官方]你好 GPT-4o [译]
[AI OpenAI] 引入 GPT-4o 及更多工具至免费版 ChatGPT 用户
与我们的使命一致,我们专注于推进人工智能技术,并确保它对所有人都可访问且有益。今天,我们推出了最新的模型 GPT-4o,并将向 ChatGPT 免费用户提供更多智能和高级工具。
从零开始学AI
2024/05/15
2990
[AI OpenAI] 引入 GPT-4o 及更多工具至免费版 ChatGPT 用户
推荐阅读
你好GPT-4o——对GPT-4o发布的思考与看法
2170
最新ChatGPT-4o 官方完全免费使用了,OpenAI 2024 春季更新发布会
6430
现在,所有人都能免费用GPT-4o了!
7220
GPT-4o版「Her」终于来了!英伟达股价两周内下跌23%!|AI日报
1200
面壁智能:GPT-4o,我是你的破壁人
1020
曝光!ChatGPT今年必发布新模型。可能在11月,新模型对GPT-4是降维打击!
640
惊掉下巴:GPT-4o现场爆改代码看图导航!OpenAI曝光LLM路线图,GPT Next年底发
1230
OpenAI推出最新大模型“GPT-4o”,你的快乐悲伤它都能读懂
2580
OpenAI 官宣旗舰模型 GPT-4o,完全免费、无障碍与人交谈!奥特曼:这是我们最好的模型
1920
OpenAI颠覆世界:GPT-4o完全免费,实时语音视频交互震撼全场,直接进入科幻时代
2990
王炸!OpenAI全新模型GPT-4o推出!免费使用,实时语音视频交互来了!
2230
OpenAI 2024 Spring推出 GPT-4o,这是OpenAI的新旗舰模型,可以实时对音频、视觉和文本进行推理
2040
关于实时语音对话模型GPT-4o,你想说?
2230
一站式落地AI实时语音对话,腾讯云TRTC开启AI交互新玩法
3380
免费GPT-4o来袭,音频视觉文本实现「大一统」
2290
我使用 GPT-4o 帮我挑西瓜
3150
OpenAI一夜改写历史,GPT-4o干翻所有语音助手!丝滑如真人引爆全网科幻成真
2330
GPT-4o:深夜炸场,她 来了!
3400
[官方]你好 GPT-4o [译]
1430
[AI OpenAI] 引入 GPT-4o 及更多工具至免费版 ChatGPT 用户
2990
相关推荐
你好GPT-4o——对GPT-4o发布的思考与看法
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
查看详情【社区公告】 技术创作特训营有奖征文