蚂蚁集团最近推出了一个名为EchoMimic的新技术项目,该技术能够结合音频和面部特征生成逼真的配嘴型视频。这一技术通过整合面部标志点(眼睛、鼻子、嘴巴等位置的关键特征)和音频信息,创造出既稳定又自然的视频效果。EchoMimic不仅支持多种语言和风格,还能应对如唱歌等不同场景。
EchoMimic的独特之处在于它的高稳定性和自然度。该技术能够精准捕捉细微的面部运动和表情变化,如嘴角微笑和眼神转动,从而生成高度逼真的动画效果。此外,EchoMimic支持独立使用音频或面部标志点来生成视频,或者结合二者生成配嘴型效果。
领取专属 10元无门槛券
私享最新 技术干货