
数字人, AI
HeyGen, Video Translator的开源工具链
利用开源repo搭建类heygen视频翻译的工具链
10次点击1分钟阅读
HeyGen推出了Video Translator,成片质量非常好,表情自然,语调顺畅不突兀,大多数镜头下看不出AI加工的痕迹。
这类工具在跨境电商真人说明、真人教程教学方面有应用场景,我们尝试用开源repo搭建一个类似的工具,业务流程如下:
1、首先保证原视频每一帧都有脸部
2、利用Whisper抽取语音生成字幕,13B的模型对中文处理应该足够
3、需要截取一段语音作为参考文件,在第6步使用
4、用OpenAI、Bing或DeepL翻译字幕到目标语言
5、可能需要人工介入精修字幕
6、利用VALL-E-X根据字幕生成语音。测试下来VALL-E-X的效果不太好。
6、利用第2步的语音文件保留原音调,用TTS将字幕转成语音
7、利用Wav2Lip将新的语音和原视频合成
8、CodeFormer对视频超分辨率,结束
目前卡在第5个步骤,需找到质量不错的开源声音克隆repo,Bark对中文支持不太好,Bark-Voice-Cloning支持中文,目前未尝试



