前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >从ChatGPT的短板看AI绘画的未来

从ChatGPT的短板看AI绘画的未来

作者头像
木羊
发布2023-09-09 09:20:55
1350
发布2023-09-09 09:20:55
举报
文章被收录于专栏:睡前机器学习睡前机器学习

Ai绘画在不同人眼里关注点可能完全不同,我研究AI,在我看来,AI绘画是多模态在技术和应用两方面都一举取得里程碑式的成果。这个成果不发展下去,实在是太可惜了,毕竟就我看来,多模态这条科技树点出AGI的可能性,远远高于一味死磕LLM。

什么是多模态?AI研究领域总的来说有两大热门方向,一个叫NLP,主攻文本,另一个叫CV,主攻图像。NLP和CV虽然都是AI下面的研究领域,偶尔也会有一些思想方法,甚至到模型一级的互相借鉴,但总的来说还处于各玩各的状态,也就是搞NLP的朝着一堆目标废寝忘食,搞CV的朝着另一堆目标废寝忘食,交集不能说没有,只能说聊胜于无。

这正常吗?不正常。

要理解这个不正常很简单。人工智能最终的目标是用人工的方式构造智能,目前已知最成功的智能体就是我们人类,回想一下,我们自己是怎么学到知识的?是首先把大脑切成两块,拿出其中一块死磕文本,然后再拿出另一块死磕图像吗?

肯定不是。

就说现在一个很火的AI课题叫NLG,简单来说就是文本生成,特别是ChatGPT刷屏以后,大家都抢着要搞NLG,方法基本都是先搞一个大的高质量数据集,然后搞LLM,最后通过指令对齐和/或RLHF微调。

用了许多新方法,但有没有跳出传统NLP的桎梏呢?没有,用NLP搞NLP,用CV搞CV,楚河汉界半点没碰。

为什么要打破楚河汉界?因为我们人类学习就不存在这条边界。

回想一下,我们人是怎样学文本生成的?我们管这叫另外一个名字,写作文。写作文最开始是怎样学的?不是给个题目要写三百四百五百字,那是后来的事,最开始我们是从看图说话学起的,把图上看到的东西用对应的文字表达出来,用机器学习这边的术语来说,人类做NLG任务,是使用了图像信息参与训练的。

一项任务同时使用了多个方向的信息和知识,这就是多模态。ChatGPT还有很多短板,其中之一就是没法做多模态,别看其它方面有的没的说话一副很专业的样子,看图说话是被小学一年级按在地上摩擦。

AI绘画就是典型的多模态。

AI绘画大致有两个阶段,第一个阶段是输入提示文本,也就是有些人说的“咒语”,第二阶段是模型按照咒语生成对应的图像。这里同时使用了NLP和CV,而且还有新交集。

理解提示文本的语义,这是NLP,生成特定语义的图像,这是CV,怎样把文本语义和图像语义对齐,这是新的研究领域。

多模态未来还有广阔的想象力。现实世界有很多信息是难以言传的,而又有大量的记录是以文字形成保存,想要训练一款真正理解现实世界全貌的AGI,文本信息和图像信息,我想缺了哪一样都不行。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-03-04,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 睡前机器学习 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
大模型图像创作引擎
大模型图像创作引擎是一款提供 AI 图像生成与处理能力的 API 技术服务,可以结合输入的文本或图片智能创作出与输入相关的图像内容,具有更强大的中文理解能力、更多样化的风格选择,更好支持中文场景下的建筑风景生成、古诗词理解、水墨剪纸等中国元素风格生成,以及各种动漫、游戏风格的高精度图像生成和风格转换,为高质量的内容创作、内容运营提供技术支持。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档