首页
学习
活动
专区
圈层
工具
发布
TVP技术夜未眠TVP技术夜未眠

从“AI解说员”到“AI驾驶员”- 视觉大模型的新时代进化论

累计人气 2005

从GPT-4o到Sora,多模态AI正以前所未有的速度进化。它不再仅仅理解文字,还能“看懂”图像,“听懂”语音,甚至生成流畅的视频。技术层面,模态对齐、语义理解等核心难题逐步被攻克,小模型轻量化多模态成为新趋势。然而,知识图谱和语义结构能否让AI真正理解视觉世界?目前的技术是否解决了语义层对齐的问题?

从GPT-4o到Sora,多模态AI正以前所未有的速度进化。它不再仅仅理解文字,还能“看懂”图像,“听懂”语音,甚至生成流畅的视频。技术层面,模态对齐、语义理解等核心难题逐步被攻克,小模型轻量化多模态成为新趋势。然而,知识图谱和语义结构能否让AI真正理解视觉世界?目前的技术是否解决了语义层对齐的问题?

从GPT-4o到Sora,多模态AI正以前所未有的速度进化。它不再仅仅理解文字,还能“看懂”图像,“听懂”语音,甚至生成流畅的视频。技术层面,模态对齐、语义理解等核心难题逐步被攻克,小模型轻量化多模态成为新趋势。然而,知识图谱和语义结构能否让AI真正理解视觉世界?目前的技术是否解决了语义层对齐的问题?

从GPT-4o到Sora,多模态AI正以前所未有的速度进化。它不再仅仅理解文字,还能“看懂”图像,“听懂”语音,甚至生成流畅的视频。技术层面,模态对齐、语义理解等核心难题逐步被攻克,小模型轻量化多模态成为新趋势。然而,知识图谱和语义结构能否让AI真正理解视觉世界?目前的技术是否解决了语义层对齐的问题?

  • 2025-11-04 周二 19:30-21:30

活动讲师

  • 现任招商局集团人工智能首席科学家,狮子山人工智能实验室主任。北京大学博士,曾任IDEA研究院认知计算与自然语言讲席科学家、微软亚洲研究院研究员、360数科首席科学家、蚂蚁金服资深算法专家等。在自然语言处理、深度学习、分布式系统、物理等领域的顶级学术会议和期刊(NIPS、OSDI、CVPR、SIGMOD、NSDI、AAAI、WWW等)发表论文数十篇,提交七十余项专利。在IDEA研究院期间,带领团队打造“封神榜”大模型开源计划,开源超过100个模型,累计几百万下载量。

  • 腾讯云产品四部总经理,负责腾讯云用户增长及客户经营相关产品。同时也是资深用户增长专家,大数据技术专家,曾任应用宝增长平台总经理,摩拜单车技术副总裁。长期致力于对企业数字化相关研究。

  • 先后在密西根州立大学、马普计算机研究所及萨尔大学、普度大学、电子科技大学等科研单位从事机器学习理论及应用方面的研究。在半监督学习、网络建模、多视图学习、张量网络、神经网络架构、贝叶斯深度学习等方向发表文章100多篇。曾任国际神经网络学会成都分会主席,四川省人工智能学会理事,2015亚洲机器学习会议研讨会共同主席,2019年国AAAI 高级程序委员会委员,2020年IJCAI 高级程序委员等。目前担任 JCR-1 区期刊 《Neural Networks》 以及JCR-2 区期刊《Neurocomputing》编委。

内容纲要

视频生成模型的爆发,让多模态从技术概念迅速渗透至影视、教育、工业等领域。AI如何把非结构化信息转成决策能力?多模态能否成为B端知识工作的统一接口?市面上智能客服、AI会议纪要等如此之多的产品,到底哪类能率先实现商业化闭环?

多模态是AI通向通用人工智能的必经之路吗?当AI具有了行动能力,安全领域的下一个核心问题又应该聚焦在哪里?五年后,“多模态”这个词会不会像“深度学习”一样变得平常?未来的智能体是靠数据驱动,还是知识驱动?

本期 TVP 技术夜未眠,特邀招商局集团人工智能首席科学家、腾讯云TVP 张家兴;文因互联 创始人/董事长、腾讯云TVP 鲍捷 与腾讯云产品四部总经理 田超展开对谈。

11 月 4 日(周二)19:30-21:30, 锁定「腾讯云TVP」视频号,3 位专家将围绕上述问题展开深度交锋,从技术本质到商业路径,从安全问题到未来趋势,为你带来多模态领域最前端的实战经验与市场见解。

扫描二维码关注TVP公众号,获取更多精彩活动详情

活动

主办方

  • 腾讯云 TVP

    腾讯云最具价值专家 用科技影响世界

互动评论

我来说两句

0 条评论
登录 后参与评论
领券