首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

谷歌推出AI模型PixelLLM:可描述图像上具体某个位置内容,并精确指出其位置!

导读:

图像推理是人工智能领域的一个重要方向,它涉及到对图像中的目标、属性、关系等进行分析和推断。

图像推理的一个常见任务是图像分割,即将图像划分为若干个区域,每个区域对应一个目标或一个语义类别。

图像分割可以帮助我们更好地理解图像的内容,也可以为其他任务提供有用的信息,例如目标检测、场景理解、图像编辑等。

然而,图像分割并不是一个简单的任务,它面临着多种挑战,图像中的目标可能有多种形状、大小、姿态、遮挡等变化,导致分割边界的不确定性。

为了解决这些挑战,我们需要一种能够充分利用多种信息源,包括图像、文本、用户反馈等,进行像素级推理和理解的方法。这就是 PixelLM 的目标。

什么是 PixelLM?

PixelLM 是一个基于大型多模态模型(LMM)的像素级推理和理解的方法。可以提供对图像上具体某个位置的详细描述,并精确指出其位置!

它主要有两大突出特色:

像素级词汇对齐(精准描述图中内容,并指出具体位置)

根据文字提示描述图片中特定部分,或生成特定位置的描述

官方介绍,视频中准确描述了猫咪在干嘛。

鼠标在图片上划过,根据划过的路径像素点,AI会给出对应的描述。下图就是对划过区域进行精准的描述。达到这个效果,需要进行像素级别的对齐。

还能进行分割图片并且描述

项目目前还未开源,只有论文,没有代码

项目地址:

https://jerryxu.net/PixelLLM/

论文地址:

https://arxiv.org/pdf/2312.09237.pdf

  • 发表于:
  • 原文链接https://page.om.qq.com/page/O4-_7ETzEN43c9VLNZX_kMiQ0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券