原音色语音克隆与多角色配音
一:基于视频的原音色语音克隆
原音色语音克隆是指:使用原始视频中说话人的音色进行配音,例如中文翻译到英文,就像是同一个人从说中文变成了说英文。
软件配音渠道中,凡是配音角色列表中有
clone的均支持语音克隆,选中clone即代表配音时进行语音克隆操作。克隆原理是: 取出待配音的字幕数据,循环每一条字幕,根据该字幕的起始时间,到原始视频中截取对应时间段的音频,作为参考音频,然后将该参考音频和字幕文本一起发给配音渠道进行配音。
支持语音克隆的渠道

- OmniVoice(本地API):支持所有语言(推荐)
- Qwen-TTS(本地内置):支持中英日韩等10多种常见语言(推荐)
- GPT-SoVITS(本地API):支持中英日韩(推荐)
- F5-TTS(本地API):支持中英(推荐)
- VoxCPM-TTS(本地API):支持10多种语言(推荐)
- Chatterbox(本地内置):支持10多种语言(推荐)
- Index-TTS(本地API):支持中英(推荐)
- CosyVoice(本地API):支持中英日韩等10多种常见语言
- Spark-TTS(本地API):支持英语
- Dia-TTS(本地API):支持英语
- clone-voice(本地API):支持10多种语言(已不维护,不推荐使用)
使用方法
因为需要有原始视频,因此仅在
翻译视频和音频功能中才可用
- 首先在
目标语言下拉框中选择想配音到的语言 - 在
配音渠道中选择某个想使用的渠道,标有(本地API)的配音渠道,必须自行在本地计算机上部署相应服务,部署方法查看对应文档,部署后将 API或WebUI地址填写到软件-TTS设置--对应渠道的设置界面--URL中。 - 然后在
配音角色中选择clone角色。
最佳克隆配置
建议进行如下设置,以便保证克隆效果
- 不要使用
LLM重新断句,因为该功能会重新划分时间轴,导致从原始视频中截取参考音频时时间混乱 - 保证每条字幕时长为
3-10s, 过短的参考音频,例如短于3s可能导致克隆结果完全是噪音,同样过长的参考音频,例如大于10s,某些渠道也会报错,打开菜单-工具/选项-高级选项-语音识别参数,将最长语音持续秒数设为6-10的数字,最短语音持续毫秒设为3000-4000的数字,设定字幕的最大最小范围,同时应该选中合并过短字幕选项,以便程序自动将过短字幕合并到前后字幕中。 - 翻译渠道 使用AI引擎,例如 DeepSeek 或 OpenAI ChatGPT 等, 并且选中
发送完整字幕 - 语音识别渠道 对于中文建议
Qwen-ASR/豆包语音大模型极速版/阿里百炼等,英文Faster-whisper+large-v3模型 - 点击
设置更多参数选中分离人声背景声,以便得到不含背景噪声的清晰人声,提高克隆质量
如果你的字幕很多都小于3s,建议使用 OmniVoice-TTS 配音渠道,在短参考音频下能避免出错
使用参考音频
有时你可能不希望克隆原始视频中的音色,而是使用某个你本地有的音频里的音色,或者干脆使用你自己的声音。
- 首先录制或其他方法得到一段
5-10s的wav格式音频,确保该音频内是清晰准确的单一人声,没有背景噪声,开头结尾没有多余静音。 例如可以使用剪映等从一些长音频或视频中分离出10s的说话声作为参考音频 - 确保该音频是
wav格式,命名为简短名称,例如myaudio1.wav,然后将它复制到本软件/f5-tts文件夹内。 接着打开软件菜单-TTS设置-设置参考音频,在文本框内新起一行,填写myaudio1.wav#该音频里的说话文本内容,保存即可。 例如
myaudio1.wav#你说四大皆空,却为何,紧闭双眼,若你睁开眼睛看看我,我不相信你,两眼空空。注意: GPT-SoVITS 配音的参考音频需要放在 GPT-SoVITS 软件的根目录下,而不是 f5-tts 文件夹内
- 保存后回到主界面配音角色下拉框中选择这个
myaudio1.wav即可使用
wav格式音频后缀是
.wav,如果你无法看到,请打开任意一个文件夹,点击该文件夹导航栏的查看--文件扩展名选中它即可,Win11系统是查看--显示--文件扩展名
二:基于字幕的多角色配音
从 v3.74 后新增了"字幕多角色配音"功能,点击左侧工具栏的字幕多角色配音按钮,在弹出的窗口中,导入需要配音的 srt 字幕,然后为每条字幕分别设置一个角色,即可实现多角色发音。

