首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

陈根:Bing抢先ChatGPT发布的识图功能

文/陈根

微软悄悄上新了。日前,有网友发现自己的Bing Chat账号新增了一个上传图片的入口。根据用户上传的图片,Bing Chat就能识图回答问题。

早在3月份,OpenAI在发布GPT-4时,特别提出了GPT-4较GPT-3.5最大的亮点是图像输入功能,即GPT-4支持图片输入,可以看懂梗图、看懂物理题,还能看懂论文。不过当时,该多模态功能尚处于研究预览阶段,还不能公开。

如今,微软似乎要抢先ChatGPT一步发布识图功能。在上个月Bing的大更新日志中,微软就提到了会为使用GPT-4模型的Bing Chat加入多模态支持。

那么,“长了眼睛”的Bing Chat到底是怎么样的呢?

首先,针对看梗图功能,Bing Chat根据网友上传的一幅关于机器学习的梗图漫画,或者一张在汽车上烫衣服的梗图,就能准确地答出图中的内容和笑点,基本上可以说是Get到了点位。其次,在识图精确度的评测方面,网友上传了《任天堂大乱斗》游戏的角色图,同一张图上有排列着非常多的角色,Bing Chat对其进行了一一辨认后,从12个角色中认出了7个。结果而论,Bing Chat在二次元问题上还有待进一步提升。再者,在根据手绘图编程网页方面,Bing Chat对于网友给出的手画“试题”,基本能够搭出网页的雏形。

在大语言模型升级的过程中,在文字理解和表达能力的基础上,学习了视觉识别后的Bing Chat将具有更多的功能,给人类的使用带来更大的方便。而曾经一些难以用语言表达的内容,现在都可以通过图片进行解决。甚至,具备了图像识别功能的AI还可以在教育、医疗等领域发挥更大的作用和价值。比如,在教育领域,Bing Chat 将可以担任一个初高中乃至大学老师的角色,帮助学生解答复杂的数理化问题。这将在很大程度上解决教育资源不均衡的问题。在医疗领域,用户还可以用它做基础的医疗诊断,节约就医所需要的金钱和时间。AI应用在社会生活中的价值将由此得到最大化的实现。

由Bing Chat带来的前景功能,无疑令人兴奋的。但是,从目前的小范围测试功能到完全向公众开放识图功能,确保公众不会因为误信Bing Chat的回答而出现安全问题,微软还需要做大量的限制和调试,可谓任重道远。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20230615A02C6Q00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券