偶然看到一个公众号介绍一款开源数字人产品(VideoChat),打开数字人产品在线演示地址试用了一下,所有参数均为默认参数,本来以为输入的内容会转为数字人视频读出来,结果,输入内容后得到了一段不可描述的内容,并生成了不可描述内容的视频(虽然文字都用了错别字,但不影响观看和理解视频,看图下,哈哈):
生成的视频不放了,怕被封了,语音很流畅,视频也较自然。呵呵
话说,这个模型用小电影训练的吗?
开源数字人地址:https://github.com/Henry-23/VideoChat
在线演示地址:https://www.modelscope.cn/studios/AI-ModelScope/video_chat
下面是开源数字人介绍:
实时语音交互数字人,支持端到端语音方案(GLM-4-Voice - THG)和级联方案(ASR-LLM-TTS-THG)。可自定义形象与音色,支持音色克隆,首包延迟低至3s。