通用大模型只拼生成内容,自动写代码,写文档是不行了。现在已经进入新一轮的竞争,就是多模态的大模型,大模型能够阅读和理解图像内容,还要能够创作图像,甚至视频。
OpenAI发布了新的图像生成的模型DALL-E 3,可以直接在ChatGPT里面通过对话,来生成图像,甚至进行创作了。
DALL-E 3看起来不逊色于文生图领域的王者MidJourney。看看用ChatGPT生成图像效果如何。
牛油果看医生的创意
心脏内的小宇宙创意
ChatGPT对图像能力的加强,可能对Midjourney是一个噩耗。不过对于用户来说,估计接下来会创造出茫茫多的有趣玩法。我就观察我9岁的儿子,发微信都是只发表情和动图的。只要大模型对图像和视频的阅读和生成能力上一个台阶,我甚至估计会出现很多有创意的To C的产品出来。
比方说,只是纯图像纯视频的沟通的社交App,不再需要文字了,甚至可以通过手机摄像头阅读用户表情,根据用户的心情随时变换头像的表情,想想就觉得很有趣。
其实OpenAI和Google这两个AI领域的重量级玩家,目前都在大模型的多模态方面持续发力。除了刚刚发布的DALL-E,很可能OpenAI还在研发下一代的GPT-5,代号戈壁(Gobi)。而Google的多模态的AI大模型产品Gemini也会在今年四季度正式发布。此外,今年11月6日,OpenAI在旧金山举办开发者大会,届时不知道会放出来什么大招。
总之,通用大模型下一个竞争热点会从文字转向图像和视频,特别是大模型如果能读懂图像,还是能创造很多新的需求场景的,想象空间真的很大,让我们拭目以待吧。
领取专属 10元无门槛券
私享最新 技术干货