用AI“大变活人”，快来为你的生意启用虚拟代言人

www.tangshuang.net

发布于 2025-12-29 17:09:59

5820

本篇内容较长，本来可以作为一篇付费内容，但是作为爱分享的人，希望和小伙伴们，一起见证用AI改变我们的生意模式。请提前收藏，分享转发，慢慢阅读。

大家好呀！过去这两周，我已经跑通了让AI帮助商家低成本生成丰富的带货视频的全路径。从现在开始，无论你是电商主、源头工厂、农产品中间商，还是海外仓客、软件出海人，你都可以通过完完全全的AI生成，实现短视频、中视频、长视频的制作，覆盖宣传片、广告片、引流视频、带货视频。而所有这些推广引流的一切源头，都是“人”。我称之为“虚拟IP人物”，只有当你的视频中，有人出镜，才能让短片不至于广告的那么彻底，因为，你可以以分享、推荐的方式呈现你的产品，甚至你可以做剧情视频来完成产品植入。

而通过AI来无中生有大变活人，到让人说话、动起来，都需要用到哪些AI相关的技术呢？这篇文章，我将全面彻底地向你展示，当前市面上能实现我们所有目标的工具。当然，再次强调，工具本身并不是最重要的，使用工具的思路才是最重要的，当我们掌握了实现原理，工具之间就可以随意切换，在开源、闭源，付费、免费之间，我们可以自由选择，混搭使用。

那么，让我们现在开始吧！

人物的诞生

你或许会认为，创建一个人物非常简单，只要在AI工具中，生成一张人物照片即可。然而，事情并没有你想象的那么简单。

市面上的生图工具如此之多，然而，生成逼真的、高清晰度的、画面完整的人物，却非常困难。这既依赖于优秀的prompt设计，也依赖于模型本身的能力。

我推荐使用nano banana来生成人物，因为小香蕉在画面的真实感上，比其他模型更胜一筹。

然而，即便是nano banana的出片，也难以直接被使用，最关键的问题在于，AI出的人物，在肤质上，过于完美，太过完美的皮肤让人一看就很假。如何才能做出真实感的肤质呢？你可以使用visor中的“人肤真实化”工具，它的原理是使用flux的lora，在过度完美的皮肤上增加瑕疵来让皮肤感觉更加真实。我们可以对比一下下面两张照片，看看哪一张给人更加真实的感觉。

图片来自模型工具官方展示

此外，当我们打算创建一个人物时，我们必须考虑到这个人物后续的使用，因此，我们最好生成人物的全身照，通过全身的特质来提供后续人物可扩展的空间。

我开发了“虚拟人物IP”工具，让你可以通过点选的方式，基于你的产品所面向的地域市场、人种特征等来生成全身人像。下面是我录制的一个解释用法的视频，可以了解一下：

另外，在生成时，基于你的产品的特征，生成气质符合所在行业特点的人物，将有利于在将来让人物为你的产品带货。

总而言之，用AI“大变活人”，创建人物形象，是第一步，也是最简单的一步。

人物衍生图

在我们有了人物初始形象之后，接下来，我们就需要让这个人物开始拥有动态。基于人物衍生，包含人物的不同角度照片，将人物融入到不同场景中的生活照，让人物鲜活起来。

此时，我最推荐的工具是seedream 4.0，也就是即梦的API版本。它能够基于人物参考图，给出人物一致性非常高的衍生图。而且，只有API版本拥有sequential_image_generation开关，可以生成系列组图。

以上图片，是我基于seedream4.0生成的同一人物形象生成的一组关联性极强的生活照。

人物的生活照，不仅能够使人物更加丰富，而且将它们发到社交媒体，还能与潜在客户之间建立一种侵入日常生活的情感联系，如果互有评论的话，更能拉近与潜在客户的关系。

人物产品融合图

当时机成熟，我们就可以让我们的主角上货代言，生成包含我们产品的照片。

这里的关键是人物参考图和产品参考图的完美融合，在保证人物一致性的同时，还要保证产品的一致性。seedream 4.0在这一方面，我认为是做的最好的，虽然nano banana也可以做到很好的一致性，但是对于细节控制时，对提示词的遵循就没有那么好。

另外，当我们需要让AI进行细节修改时，标注则是最有效的办法。visor提供了文字、箭头、形状3种标注工具，可以自定义颜色，当我们需要对图片细节进行修改时，可以利用nano banana或seedream 4.0的标注理解能力，对图片中的细节进行调整。

开口说话

让人物开口说话，涉及的东西有点多。

首先，我们需要为我们的人物设计一个特点的声线。虽然市面上有很多TTS工具，其中也有非常多支持克隆的，然而要创造出世界上独一无二的嗓音，而不是使用已有的音色，却不见得那么容易。

目前，我找到了3条路径。

Voice Design工具：通过参数或prompt来创建不存在的音色，目前只有elevenlabs和minimax提供了正式的voice design，且支持API。
基于音色描述的TTS：通过system_prompt来提供对音色的描述，例如“东北口音，70岁老人，男性，声音带着沙哑”，在TTS生成时，无需参考音色，就可以按照该描述生成对应的音色效果。目前我只看到higgs audio的该功能相对更令人满意一些。
基于已有音色的混音：通过音色种子混合，调整一些参数，来得到新的音色。这个功能在chatTTS-forge中我有看到过，不过目前chatTTS生态已经慢慢枯萎了。

我最终选择了第2种方案，原因是第1种方案的成本过高。

现在，我们的人物拥有了自己独一无二的声线。接下来，我们让这个声线成为更多内容的原料。也就是使用语音合成工具，以该音色为基础，将我们的文案合成为声音。这里我推荐indexTTS，一方面它的情绪控制可以直接以输入的音频作为参考，也可以通过调参来调节，另一方面是它的参数足够简单，使用方便，效果不错。

这样，我们不仅有了人物的形象，还有了独特的声线。并且，我们让人物开始用声音为我们的产品背书。

人物图片动起来

有了人物和产品的融合图，也有了合成的语音音频。接下来，我们就要向视频迈进。

让人物画面动起来有好几层，这需要根据你的目标场景来选择具体的技术路线。接下来，我就针对这些路线，详细的聊一聊。

图片首尾帧生视频

这个其实不用多说，算是基操。而且目前但凡是个视频生成工具，基本都支持。我们拿着我们生成好的人物图片，作为首帧或首尾帧，即可得到视频。

图片对口型

让图片根据生成好的语音，开口说话，具体体验表现即，上传一张图和一段音频，生成一段视频。这项技术也经历3代：

初代技术称为live portrait，你在网上看到很多让蒙娜丽莎说话或唱歌的，就是这类技术。由于这类技术效果差，只能让照片人物头部（有的可以让上半身）动作，一看就很假，因此，基本被淘汰了。目前，在阿里云百炼上还可使用。

二代技术是早期专项“数字人”avatar技术，这类数字人技术的目标本质上和live portrait的目标一致，只是寻求更好的效果。早期heygen等数字人项目都是此类。即梦的上一代版本的“数字人功能”也是此类技术。不过，随着数字人技术的升级，目前数字人的技术已经进入更高水平，已经脱离了图片对口型的初级需求，同时价格也飙升，因此，目前我们实际不会使用数字人来实现简单的对口型功能，成本太高。

三代技术是当前的最新技术，以阿里的wan-s2v模型以及字节的omni系列产品为代表，它们分别可以在阿里通义和即梦两款产品中体验到。这代技术特点是，输入的音频不限于简单的说话，可以是音乐，同时，人像的运动不再局限于头部，人物全身根据说话气息的运动都可以做的很好。近期出现的新产品，美团的infinitetalk，则是佼佼者，不仅做到了极高的口型一致，还突破了时长限制，理论上可以无限生成，最重要的是开源。

通过上述这些技术方案，我们已经让我们的虚拟人物动起来啦，这可比市面上很多干巴巴的人物不说话，旁白念台词，高级很多了。

图片有动作

让人物说话只是第一步，接下来，我们还需要让人物动起来，而不是一直站在原地说话。

要让图片中的人物按照我们的设想做动作，可不是一件容易的事。目前，技术也迭代了两个代际。

初代技术还是live portrait，除了对口型，live portrait的另一个方向是对表情。具体如下图演示。

通过视频来引导图片中人物头像的表情，已经非常不错了，然而，仔细去看，却发现非常多瑕疵。

二代技术则是更新的视频迁引技术。目前市面上公开的，包括runway的act-two的表情驱动功能，即梦的动作模仿功能，以及阿里的wan2.2-animate系列中的animate-move模型。以及，未公开的luma的modify-video模型，这个模型通过首帧进行牵引。（另外，最近，阿里发布了wan2.5-i2v-preview，它可以通过声音和提示词来牵引首帧画面也是一个备选方案。）

所谓牵引技术，就是通过对视频中人体姿态、表情的建模，来控制图片中人物的动作。在之前，我们经常在viggle、全民舞王等鬼畜类视频中看到效果，现在，这一技术再度升级，已经可以做到电影级效果。

截图来自阿里云官网

但是，在使用这项技术时需要注意，图片画面和牵引视频应该有较高的一致性，避免过度复杂和不匹配的人物肢体范围，不然AI也会晕头转向，找不到应该如何牵引图片中的人物进行动作。这也是为什么，我仍然觉得luma的modify-video非常厉害，它很早就想明白了这个场景的技术性要求，因此，最终的出片效果也非常好。

另外需要注意的一个点是，一段视频要有连贯性，不要跳镜头，我们可以先把牵引视频截断成不同的小节，来生成多条视频，最后再拼接起来。

视频对口型

如果我们通过首尾帧的方式生成了视频，但是是无声的，那么，此时，我们可以使用视频对口型的方法让人物说话。操作模式是，上传视频和音频，得到对好口型的结果视频。目前在即梦上可以免费体验到该能力，在生成好的视频下方，有一个对口型按钮，点击打开即可体验。此外，在任何提供AI服务的地方搜video retalk，也可以得到想要的，包括阿里云上。

视频对口型的方案，灵活性非常大，因为我们可以在无视语音的情况下，按照想要的视频逻辑先生成视频，控制好我们的虚拟人物对产品的介绍的表现力，最后再来对口型，就显得非常的丝滑。但是，对于动作幅度小的视频，视频对口型的缺点就是感觉说的话与做的动作似乎不在一个节拍上。

好了，现在，我们不仅可以让我们的虚拟人物说话，还能让她/他动起来。生成日常视频和带货视频，已经没问题了吧。

视频编辑

在之前的文章中，我提到如何替换带货视频中的人物，来实现短视频出海的想法。编辑视频，特别是我有非常明确的编辑目标时，其实难度还是非常大的，不过好在目前市面上已经有了几款不错的产品可供选择。

首先是来自阿里家的wanx-vace模型，它的开源版本，目前已经成为社区标配，不过我自己的个人体感而言，vace的效果很难控制，使用起来不是很理想。其次就是最近runway发布的gen4-aleph模型，大有成为视频编辑的gpt时刻的意味。

通过视频编辑，我们可以对生成好的视频做微调，这样可以让视频效果更佳。

结语

本文详细阐述了，如何利用AI，创建一个虚拟人物，为它生成照片、视频，并让虚拟人物为你的产品代言的实操以及工具推荐。

利用AI创作图片、短视频为电商、实体商铺引流获客，是当下非常有意义的一个话题，它不仅能大幅降低商户们的引流成本，同时还能超越现有的创作形式，通过多种爆款模式的结合，以及与自己产品品牌故事的结合，实现更为精准高效的获客模式。

好啦，今天就聊到这里。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2025-09-26，如有侵权请联系 cloudcommunity@tencent.com 删除