Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >一张照片,为深度学习巨头们定制人像图片

一张照片,为深度学习巨头们定制人像图片

作者头像
机器之心
发布于 2024-01-23 12:02:04
发布于 2024-01-23 12:02:04
4390
举报
文章被收录于专栏:机器之心机器之心

机器之心专栏

作者:InstantX 团队

主题驱动的文本到图像生成,通常需要在多张包含该主题(如人物、风格)的数据集上进行训练,这类方法中的代表工作包括 DreamBooth、Textual Inversion、LoRAs 等,但这类方案因为需要更新整个网络或较长时间的定制化训练,往往无法很有效地兼容社区已有的模型,并无法在真实场景中快速且低成本应用。而目前基于单张图片特征进行嵌入的方法(FaceStudio、PhotoMaker、IP-Adapter),要么需要对文生图模型的全参数训练或 PEFT 微调,影响原本模型的泛化性能,缺乏与社区预训练模型的兼容性,要么无法保持高保真度。

为了解决这些问题,来自 InstantX 团队的研究人员提出了 InstantID,该模型不训练文生图模型的 UNet 部分,仅训练可插拔模块,在推理过程中无需 test-time tuning,在几乎不影响文本控制能力的情况下,实现高保真 ID 保持。

  • 论文标题:InstantID: Zero-shot Identity-Preserving Generation in Seconds
  • 论文地址:https://arxiv.org/abs/2401.07519
  • 代码地址:https://github.com/InstantID/InstantID
  • 项目地址:https://instantid.github.io

InstantID 是一个高效的、轻量级、可插拔的适配器,赋予预训练的文本到图像扩散模型以 ID 保存的能力。作者通过(1)将弱对齐的 CLIP 特征替换为强语义的人脸特征;(2)人脸图像的特征在 Cross-Attention 中作为 Image Prompt 嵌入;(3)提出 IdentityNet 来对人脸施加强语义和弱空间的条件控制,从而增强 ID 的保真度以及文本的控制力。

下图为利用 InstantID 进行风格化的结果,输入仅为最左侧的人物图像。

文章的主要贡献如下:

(1) InstantID 作为一种全新的 ID 保留方法,有效弥补了训练效率与 ID 保真度之间的差距。

(2)InstantID 是可插拔的,与目前社区内文生图基础模型、LoRAs、ControlNets 等完全兼容,可以零成本地在推理过程中保持人物 ID 属性。此外,InstantID 保持了良好的文本编辑能力,使 ID 能够丝滑地嵌入到各种风格当中。

(3)实验结果表明,InstantID 不仅超越目前基于单张图片特征进行嵌入的方法(IP-Adapter-FaceID),还与 ROOP、LoRAs 等方法在特定场景下不分伯仲。它卓越的性能和效率激发了其在一系列实际应用中的巨大潜力,例如新颖的视图合成、ID 插值、多 ID 和多风格合成等。

方法介绍

仅给定一张参考 ID 图像,InstantID 的目标是从单个参考 ID 图像生成具有各种姿势或风格的定制图像,同时保证高保真度。上图概述了我们的方法。它包含三个关键组成部分:(1) 鲁棒的人脸表征;(2) 具有解耦功能的交叉注意力,支持 Image Prompt;(3) IdentityNet,引入额外的弱空间控制对参考面部图像的复杂特征进行编码。

1. 由于 CLIP 只提供了弱语义表征,无法在人脸等强语义场景下直接应用,考虑了人脸识别领域已经相当成熟,所以我们采用预训练的人脸编码器来提取人脸特征。在本文中,我们使用来自 insightface 提供的 antelopev2 模型来提取人脸特征。

2. 如先前方法所述,预训练的文本到图像扩散模型中的图像提示功能能够增强了文本提示,特别是对于难以用文字描述的内容,因此,我们采用和 IP-Adapter 一致的具有解耦功能的交叉注意力机制,但差别在于我们使用人脸特征,而非 CLIP 表征。

3. 引入 IdentityNet 来对人脸图像进行编码。在实现中,IdentityNet 采用与 ControlNet 一致的残差结构,从而保持原始模型的兼容性。在 IdentityNet 中,主要有两个对于原版 ControlNet 的修改:1)只使用五个面部关键点,而不是细粒度的 OpenPose 面部关键点 (两个用于眼睛,一个用于鼻子,两个用于嘴巴)用于条件输入。2)我们消除文本提示并使用 ID 嵌入作为条件加入到 ControlNet 中的交叉注意力层。

实验结果

作者首先展示了方法的稳健性、可编辑性和兼容性,分别对应在空文本、编辑文本、额外使用 ControlNets 下的生成效果。可以看到,InstantID 仍然保持了较好的文本控制能力,同时与开源的 ControlNet 模型兼容。

同时该方法也支持多张图注入,来进一步提升效果。

InstantID 与目前社区内主流的三类方法进行对比。

(1)基于单图特征注入(IP-Adapter 与 PhotoMaker)。相比之下,IP-Adapter 具有可插拔性,兼容社区模型,且其 FaceID 版本的人脸保真度有明显提升,但是对于文本的控制能力出现明显退化;而近期新推出的 PhotoMaker,需要训练整个模型(虽然采用了 LoRA 的方式),风格退化问题减弱,但其人脸保真度未见明显提升,甚至不如 IP-Adapter-FaceID。而我们提出的 InstantID 兼顾了人脸保真度和文本控制能力。

(2)基于微调的人物 LoRAs

(3)非扩散模型的换脸模型 inswapper

此外,InstantID 还支持了多视角生成、ID 插值、多 ID 生成,作为潜在应用场景。

(1)多视角生成

(2)ID 插值

(3)多 ID + 多风格的生成

衍生应用玩法

基于高性能的人像注入和编辑能力,InstantID可以支持很多衍生应用玩法

(1)快速低门槛的真人写真

(2)夸张五官人像定制

(3)非人像混合定制

© THE END

转载请联系本公众号获得授权

投稿或寻求报道:content@jiqizhixin.com

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-01-20,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器之心 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
豪威集团发布用于AR/VR/MR和Metaverse的超小尺寸全局快门图像传感器
8月26日消息,近日,豪威集团发布了业界首款也是唯一一款三层堆叠式BSI全局快门(GS)图像传感器OG0TB。这款超小尺寸图像传感器用于AR/VR/MR和Metaverse消费设备中的眼球和面部跟踪,封装尺寸仅为1.64毫米x1.64毫米,采用2.2微米像素尺寸和1/14.46英寸光学格式(OF)。这款CMOS图像传感器具有400x400分辨率和超低功耗,是眼罩、眼镜等电池供电的小尺寸轻型可穿戴设备的理想选择。
芯智讯
2022/08/31
3400
豪威集团发布用于AR/VR/MR和Metaverse的超小尺寸全局快门图像传感器
CMOS图像传感器基础知识和参数理解「建议收藏」
CMOS图像传感器的工作原理:每一个 CMOS 像素都包括感光二极管(Photodiode)、浮动式扩散层(Floating diffusion layer)、传输电极门 (Transfer gate)、起放大作用的MOSFET、起像素选择开关作用的M0SFET.在 CMOS 的曝光阶段,感光二极管完成光电转换,产生信号电荷,曝光结束后,传输电极门打开,信号电荷被传送到浮动式扩散层,由起放大作用的MOSFET电极门来拾取,电荷信号转换为电压信号。所以这样的 CMOS 也就完成了光电转换、电荷电压转换、模拟数字转换的三大作用,通过它我们就能把光信号转化为电信号,最终得到数字信号被计算机读取,这样,我们就已经拥有了记录光线明暗的能力,但这还不够,因为我们需要色彩。现代彩色CMOS 的原理也很简单,直接在黑白图像传感器的基础上增加色彩滤波阵列(CFA),从而实现从黑白到彩色的成像。很著名的一种设计就是Bayer CFA(拜耳色彩滤波阵列)。一个很有趣的事就是,我们用来记录光影的 CMOS, 和我们用来输出光影的显示器,原理也刚好是向相反的,CMOS 把光转化为电信号最后以数字格式记录,显示器把解码的数字格式从电信号重新转化为光。光电之间的转换也就构成了我们人类数字影像的基础。
全栈程序员站长
2022/08/30
4.2K0
CMOS图像传感器基础知识和参数理解「建议收藏」
使用OVM6946和OV426设计内窥镜吧!
这四个型号区别不大,主要是尺寸,不带M的直接一个CMOS,但是这样的尺寸对镜头要求极高,那么带M的就是自带了镜头。另外46和48的CMOS价格差一半,然后就是尺寸上面差一些。
云深无际
2024/08/21
5840
使用OVM6946和OV426设计内窥镜吧!
图像传感器江湖的“三国杀”
北京时间9月8日凌晨1点,苹果秋季新品发布会在线上召开,带来了全新的iPhone 14 系列手机,以及 Apple Watch 系列手表、AirPods Pro 2 耳机等新品。
AI 电堂
2022/12/08
4630
图像传感器江湖的“三国杀”
【业界】新的图像传感器给汽车装上眼睛
【导读】自动驾驶在技术上的进步很大程度上依赖各种传感设备,而各种图像传感器更是汽车能够看清周围世界的眼睛,这一领域也逐渐成为各大芯片公司竞争的焦点,我们来一览这篇文章。 安森美收购仙童半导体公司为该公司在汽车领域打开了市场。但是直到2014年收购镁光图像公司才让该公司成为汽车视觉系统的领头羊:安森美目前占据了将近70%的高级驾驶辅助系统(ADAS)前摄像头市场,以及超过50%的汽车图像传感器市场[1]。 镁光CMOS图像传感器技术是安森美公司最近推出的Hayabusa图像传感器平台的关键,它同时使用120
WZEARW
2018/04/10
1.1K0
【业界】新的图像传感器给汽车装上眼睛
手机摄影三年超越单反?高通副总裁预测:想进步还得靠AI算法
---- 新智元报道   编辑:LRS 【新智元导读】手机摄影近几年的发展神速,未来该走向何方?高通副总裁给出了他的预测:人工智能算法和专用芯片。 从最开始的一无所有,到人生第一个30万,后来慢慢到120万,500万,800万,2000万再到现在的一个亿,真的很不容易。 啊,我说的是手机像素。 智能机时代,各大厂商都在拼拍照能力,直接把「单反相机」当成目标追赶。 单反有光学虚化,手机上立刻安排一个算法虚化,随着算法的进化,如今几乎能以假乱真。 单反在晚上拍照秒杀手机?安排一个超级夜景模式,堆栈降噪
新智元
2022/10/08
7350
手机摄影三年超越单反?高通副总裁预测:想进步还得靠AI算法
图像传感器-RAW格式辨析
图像传感器数据手册里面经常会出现RAW格式,我以前一直在找RAW格式的标准是啥,但是找不到,今天应该算是解惑了。
云深无际
2024/08/21
5440
图像传感器-RAW格式辨析
三星发布全新3D ToF及全局快门传感器
12月28日消息,三星近日发布了两款专为AR/VR头戴装置和智能手机设计的两款新感测器:3D ToF飞行时间传感器ISOCELL Vizion 63D 和全局快门(global shutter)传感器ISOCELL Vizion 931。目前两款传感器正接受全球装置制造商和品牌商的测试,预计会在三星MR混合现实头戴装置等未来产品中使用。
芯智讯
2023/12/29
2540
三星发布全新3D ToF及全局快门传感器
持续占据工业及汽车CIS市场全球第一,安森美是如何做到的?
7月8日,在2024年上海机器视觉展暨机器视觉技术及工业应用研讨会期间,工业及汽车CMOS图像传感器(CIS)及功率半导体大厂安森美召开媒体会,介绍了安森美在工业领域的CIS产品布局,并展示了其最新的面向工业的CIS产品解决方案。
芯智讯
2024/07/12
1740
持续占据工业及汽车CIS市场全球第一,安森美是如何做到的?
iPhone 14系列发布:卫星功能上线,人们却盯着挖孔屏
机器之心报道 编辑:泽南、杜伟 苹果将「药丸」玩出了新花样。 「今天我介绍的产品 iPhone、AirPods 和 Apple Watch,将会成为人们生活的必需品,不论你身处何处,在什么时间。它们配合无间,同时每一件都是业界顶尖水平,」苹果 CEO 蒂姆 · 库克说道。 周四凌晨,今年科技领域最受关注的发布会在加州的苹果总部举行。今年的新一代 iPhone 价格上涨幅度不大,增加了不少关注安全性的功能,跑分水平提升有限,只有 Apple Watch 出了一款「超大」的新品。 和两天前的华为 mate50
机器之心
2022/09/22
7560
iPhone 14系列发布:卫星功能上线,人们却盯着挖孔屏
ov7670图像传感器_cmos图像传感器封装
那么对于像素部分,我们常常听到30万像素,120万像素等等,这些代表着什么意思呢?图37.5解释了这些名词。
全栈程序员站长
2022/09/30
6780
ov7670图像传感器_cmos图像传感器封装
相机图像传感器参数及其对成像的影响分析
导读:手机相机系统由镜头、传感器、光圈和ISP(图像信号处理器,一般集成在SoC中)等部件构成,结合软件算法,这几点的优劣基本决定一部手机的拍照性能。在硬件方面,由于体积和成本限制,手机的镜头和光圈并玩不出什么花样,所以传感器的重要性就更加突出。
小白学视觉
2022/09/28
1.5K0
视觉传感器几大技术要点详解!
视觉传感技术是传感技术七大类中的一个,视觉传感器是指通过对摄像机拍摄到的图像进行图像处理,来计算对象物的特征量(面积、重心、长度、位置等),并输出数据和判断结果的传感器。 什么是视觉传感器? 视觉传感器是整个机器视觉系统信息的直接来源,主要由一个或者两个图形传感器组成,有时还要配以光投射器及其他辅助设备。视觉传感器的主要功能是获取足够的机器视觉系统要处理的最原始图像。 图像传感器可以使用激光扫描器、线阵和面阵CCD摄像机或者TV摄像机,也可以是最新出现的数字摄像机等。 视觉传感技术分类 1、3D视觉传感技术
企鹅号小编
2018/01/23
1.9K0
视觉传感器几大技术要点详解!
2023年全球汽车CIS市场:安森美第一,豪威第二!舜宇主导了车用镜头市场!
近年来,中国新能源汽车产业发展迅猛,已经成为全球汽车产业电动化、智能化转型重要领导力量。
芯智讯
2024/06/07
1970
2023年全球汽车CIS市场:安森美第一,豪威第二!舜宇主导了车用镜头市场!
2022年全球CIS厂商排名:豪威第三,格科微跌出前五!
7月23日消息,近日市场研究机构Yelo Group发布的一份最新报告显示,2022年,全球CMOS图像传感器(CIS)市场达到了213亿美元,恢复了5.1%的同比稳定增长。相比之下,2022年普遍通货膨胀导致了全球智能手机等消费品销售大幅放缓(-10%)。
芯智讯
2023/08/09
1.2K0
2022年全球CIS厂商排名:豪威第三,格科微跌出前五!
【Sensor有点意思】之重要参数理解
通过CMOS图像传感器感受环境光,输出图像供我们分析,通过sensor宣传册了解一下sensor性能和情况。下图以斯特威SC8238为例。
AomanHao
2023/07/20
2.1K0
【Sensor有点意思】之重要参数理解
通过CMOS图像传感器感受环境光,输出图像供我们分析,通过sensor宣传册了解一下sensor性能和情况。下图以斯特威SC8238为例。
AomanHao
2024/08/07
4010
【Sensor有点意思】之重要参数理解
小米米10 Pro相机评测--DXOMARK
小米Mi 10 Pro,提供全方位的高端规格,包括高通公司的最新高端Snapdragon 865芯片组和具有FHD + 分辨率的6.67英寸显示屏。在相机部门,新旗舰使用的硬件与去年的Mi CC9 Pro高级版非常相似,这是一个108MP主拍摄器,带有一个大型1 / 1.33图像传感器,结合了一个20MP超宽镜头和双远摄镜头在各种缩放系数中实现最佳性能。
用户9732312
2022/05/13
4.6K0
小米米10 Pro相机评测--DXOMARK
34. 光场--捕获场景中所有的光线
在27. HDR - 高动态范围成像中,我向你介绍了把多个不同曝光程度的有限动态范围的图像融合起来,我们可以得到高动态范围的图像
HawkWang
2020/04/17
8770
34.  光场--捕获场景中所有的光线
三种常见的3D传感器比较
在过去的十年里,3D传感器已成为机器人技术中最多用途和普及性最广的传感器之一。在许多机器人应用中,3D传感器已成为近场物体检测和避障、表面和物体检测以及地图创建等任务的首选。本文将重点介绍使用的三种最常见的3D传感技术:CMOS双目视觉(主动和被动)、结构光和飞行时间法。尽管激光雷达(LiDAR)的数据也是三维的,但本文不涉及LiDAR。
点云PCL博主
2023/08/21
1.2K0
三种常见的3D传感器比较
推荐阅读
相关推荐
豪威集团发布用于AR/VR/MR和Metaverse的超小尺寸全局快门图像传感器
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档