首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >用AI“大变活人”,快来为你的生意启用虚拟代言人

用AI“大变活人”,快来为你的生意启用虚拟代言人

作者头像
www.tangshuang.net
发布2025-12-29 17:09:59
发布2025-12-29 17:09:59
5820
举报

本篇内容较长,本来可以作为一篇付费内容,但是作为爱分享的人,希望和小伙伴们,一起见证用AI改变我们的生意模式。请提前收藏,分享转发,慢慢阅读。

大家好呀!过去这两周,我已经跑通了让AI帮助商家低成本生成丰富的带货视频的全路径。从现在开始,无论你是电商主、源头工厂、农产品中间商,还是海外仓客、软件出海人,你都可以通过完完全全的AI生成,实现短视频、中视频、长视频的制作,覆盖宣传片、广告片、引流视频、带货视频。而所有这些推广引流的一切源头,都是“人”。我称之为“虚拟IP人物”,只有当你的视频中,有人出镜,才能让短片不至于广告的那么彻底,因为,你可以以分享、推荐的方式呈现你的产品,甚至你可以做剧情视频来完成产品植入。

而通过AI来无中生有大变活人,到让人说话、动起来,都需要用到哪些AI相关的技术呢?这篇文章,我将全面彻底地向你展示,当前市面上能实现我们所有目标的工具。当然,再次强调,工具本身并不是最重要的,使用工具的思路才是最重要的,当我们掌握了实现原理,工具之间就可以随意切换,在开源、闭源,付费、免费之间,我们可以自由选择,混搭使用。

那么,让我们现在开始吧!

人物的诞生

你或许会认为,创建一个人物非常简单,只要在AI工具中,生成一张人物照片即可。然而,事情并没有你想象的那么简单。

市面上的生图工具如此之多,然而,生成逼真的、高清晰度的、画面完整的人物,却非常困难。这既依赖于优秀的prompt设计,也依赖于模型本身的能力。

我推荐使用nano banana来生成人物,因为小香蕉在画面的真实感上,比其他模型更胜一筹。

然而,即便是nano banana的出片,也难以直接被使用,最关键的问题在于,AI出的人物,在肤质上,过于完美,太过完美的皮肤让人一看就很假。如何才能做出真实感的肤质呢?你可以使用visor中的“人肤真实化”工具,它的原理是使用flux的lora,在过度完美的皮肤上增加瑕疵来让皮肤感觉更加真实。我们可以对比一下下面两张照片,看看哪一张给人更加真实的感觉。

图片来自模型工具官方展示

此外,当我们打算创建一个人物时,我们必须考虑到这个人物后续的使用,因此,我们最好生成人物的全身照,通过全身的特质来提供后续人物可扩展的空间。

我开发了“虚拟人物IP”工具,让你可以通过点选的方式,基于你的产品所面向的地域市场、人种特征等来生成全身人像。下面是我录制的一个解释用法的视频,可以了解一下:

另外,在生成时,基于你的产品的特征,生成气质符合所在行业特点的人物,将有利于在将来让人物为你的产品带货。

总而言之,用AI“大变活人”,创建人物形象,是第一步,也是最简单的一步。

人物衍生图

在我们有了人物初始形象之后,接下来,我们就需要让这个人物开始拥有动态。基于人物衍生,包含人物的不同角度照片,将人物融入到不同场景中的生活照,让人物鲜活起来。

此时,我最推荐的工具是seedream 4.0,也就是即梦的API版本。它能够基于人物参考图,给出人物一致性非常高的衍生图。而且,只有API版本拥有sequential_image_generation开关,可以生成系列组图。

以上图片,是我基于seedream4.0生成的同一人物形象生成的一组关联性极强的生活照。

人物的生活照,不仅能够使人物更加丰富,而且将它们发到社交媒体,还能与潜在客户之间建立一种侵入日常生活的情感联系,如果互有评论的话,更能拉近与潜在客户的关系。

人物产品融合图

当时机成熟,我们就可以让我们的主角上货代言,生成包含我们产品的照片。

这里的关键是人物参考图和产品参考图的完美融合,在保证人物一致性的同时,还要保证产品的一致性。seedream 4.0在这一方面,我认为是做的最好的,虽然nano banana也可以做到很好的一致性,但是对于细节控制时,对提示词的遵循就没有那么好。

另外,当我们需要让AI进行细节修改时,标注则是最有效的办法。visor提供了文字、箭头、形状3种标注工具,可以自定义颜色,当我们需要对图片细节进行修改时,可以利用nano banana或seedream 4.0的标注理解能力,对图片中的细节进行调整。

开口说话

让人物开口说话,涉及的东西有点多。

首先,我们需要为我们的人物设计一个特点的声线。虽然市面上有很多TTS工具,其中也有非常多支持克隆的,然而要创造出世界上独一无二的嗓音,而不是使用已有的音色,却不见得那么容易。

目前,我找到了3条路径。

  1. Voice Design工具:通过参数或prompt来创建不存在的音色,目前只有elevenlabs和minimax提供了正式的voice design,且支持API。
  2. 基于音色描述的TTS:通过system_prompt来提供对音色的描述,例如“东北口音,70岁老人,男性,声音带着沙哑”,在TTS生成时,无需参考音色,就可以按照该描述生成对应的音色效果。目前我只看到higgs audio的该功能相对更令人满意一些。
  3. 基于已有音色的混音:通过音色种子混合,调整一些参数,来得到新的音色。这个功能在chatTTS-forge中我有看到过,不过目前chatTTS生态已经慢慢枯萎了。

我最终选择了第2种方案,原因是第1种方案的成本过高。

现在,我们的人物拥有了自己独一无二的声线。接下来,我们让这个声线成为更多内容的原料。也就是使用语音合成工具,以该音色为基础,将我们的文案合成为声音。这里我推荐indexTTS,一方面它的情绪控制可以直接以输入的音频作为参考,也可以通过调参来调节,另一方面是它的参数足够简单,使用方便,效果不错。

这样,我们不仅有了人物的形象,还有了独特的声线。并且,我们让人物开始用声音为我们的产品背书。

人物图片动起来

有了人物和产品的融合图,也有了合成的语音音频。接下来,我们就要向视频迈进。

让人物画面动起来有好几层,这需要根据你的目标场景来选择具体的技术路线。接下来,我就针对这些路线,详细的聊一聊。

图片首尾帧生视频

这个其实不用多说,算是基操。而且目前但凡是个视频生成工具,基本都支持。我们拿着我们生成好的人物图片,作为首帧或首尾帧,即可得到视频。

图片对口型

让图片根据生成好的语音,开口说话,具体体验表现即,上传一张图和一段音频,生成一段视频。这项技术也经历3代:

初代技术称为live portrait,你在网上看到很多让蒙娜丽莎说话或唱歌的,就是这类技术。由于这类技术效果差,只能让照片人物头部(有的可以让上半身)动作,一看就很假,因此,基本被淘汰了。目前,在阿里云百炼上还可使用。

二代技术是早期专项“数字人”avatar技术,这类数字人技术的目标本质上和live portrait的目标一致,只是寻求更好的效果。早期heygen等数字人项目都是此类。即梦的上一代版本的“数字人功能”也是此类技术。不过,随着数字人技术的升级,目前数字人的技术已经进入更高水平,已经脱离了图片对口型的初级需求,同时价格也飙升,因此,目前我们实际不会使用数字人来实现简单的对口型功能,成本太高。

三代技术是当前的最新技术,以阿里的wan-s2v模型以及字节的omni系列产品为代表,它们分别可以在阿里通义和即梦两款产品中体验到。这代技术特点是,输入的音频不限于简单的说话,可以是音乐,同时,人像的运动不再局限于头部,人物全身根据说话气息的运动都可以做的很好。近期出现的新产品,美团的infinitetalk,则是佼佼者,不仅做到了极高的口型一致,还突破了时长限制,理论上可以无限生成,最重要的是开源。

通过上述这些技术方案,我们已经让我们的虚拟人物动起来啦,这可比市面上很多干巴巴的人物不说话,旁白念台词,高级很多了。

图片有动作

让人物说话只是第一步,接下来,我们还需要让人物动起来,而不是一直站在原地说话。

要让图片中的人物按照我们的设想做动作,可不是一件容易的事。目前,技术也迭代了两个代际。

初代技术还是live portrait,除了对口型,live portrait的另一个方向是对表情。具体如下图演示。

通过视频来引导图片中人物头像的表情,已经非常不错了,然而,仔细去看,却发现非常多瑕疵。

二代技术则是更新的视频迁引技术。目前市面上公开的,包括runway的act-two的表情驱动功能,即梦的动作模仿功能,以及阿里的wan2.2-animate系列中的animate-move模型。以及,未公开的luma的modify-video模型,这个模型通过首帧进行牵引。(另外,最近,阿里发布了wan2.5-i2v-preview,它可以通过声音和提示词来牵引首帧画面也是一个备选方案。)

所谓牵引技术,就是通过对视频中人体姿态、表情的建模,来控制图片中人物的动作。在之前,我们经常在viggle、全民舞王等鬼畜类视频中看到效果,现在,这一技术再度升级,已经可以做到电影级效果。

截图来自阿里云官网

但是,在使用这项技术时需要注意,图片画面和牵引视频应该有较高的一致性,避免过度复杂和不匹配的人物肢体范围,不然AI也会晕头转向,找不到应该如何牵引图片中的人物进行动作。这也是为什么,我仍然觉得luma的modify-video非常厉害,它很早就想明白了这个场景的技术性要求,因此,最终的出片效果也非常好。

另外需要注意的一个点是,一段视频要有连贯性,不要跳镜头,我们可以先把牵引视频截断成不同的小节,来生成多条视频,最后再拼接起来。

视频对口型

如果我们通过首尾帧的方式生成了视频,但是是无声的,那么,此时,我们可以使用视频对口型的方法让人物说话。操作模式是,上传视频和音频,得到对好口型的结果视频。目前在即梦上可以免费体验到该能力,在生成好的视频下方,有一个对口型按钮,点击打开即可体验。此外,在任何提供AI服务的地方搜video retalk,也可以得到想要的,包括阿里云上。

视频对口型的方案,灵活性非常大,因为我们可以在无视语音的情况下,按照想要的视频逻辑先生成视频,控制好我们的虚拟人物对产品的介绍的表现力,最后再来对口型,就显得非常的丝滑。但是,对于动作幅度小的视频,视频对口型的缺点就是感觉说的话与做的动作似乎不在一个节拍上。

好了,现在,我们不仅可以让我们的虚拟人物说话,还能让她/他动起来。生成日常视频和带货视频,已经没问题了吧。

视频编辑

在之前的文章中,我提到如何替换带货视频中的人物,来实现短视频出海的想法。编辑视频,特别是我有非常明确的编辑目标时,其实难度还是非常大的,不过好在目前市面上已经有了几款不错的产品可供选择。

首先是来自阿里家的wanx-vace模型,它的开源版本,目前已经成为社区标配,不过我自己的个人体感而言,vace的效果很难控制,使用起来不是很理想。其次就是最近runway发布的gen4-aleph模型,大有成为视频编辑的gpt时刻的意味。

通过视频编辑,我们可以对生成好的视频做微调,这样可以让视频效果更佳。

结语

本文详细阐述了,如何利用AI,创建一个虚拟人物,为它生成照片、视频,并让虚拟人物为你的产品代言的实操以及工具推荐。

利用AI创作图片、短视频为电商、实体商铺引流获客,是当下非常有意义的一个话题,它不仅能大幅降低商户们的引流成本,同时还能超越现有的创作形式,通过多种爆款模式的结合,以及与自己产品品牌故事的结合,实现更为精准高效的获客模式。

好啦,今天就聊到这里。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-09-26,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 唐霜 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档