Skip to content

原音色语音克隆与多角色配音

一:基于视频的原音色语音克隆

原音色语音克隆是指:使用原始视频中说话人的音色进行配音,例如中文翻译到英文,就像是同一个人从说中文变成了说英文。

软件配音渠道中,凡是配音角色列表中有clone的均支持语音克隆,选中clone即代表配音时进行语音克隆操作。

克隆原理是: 取出待配音的字幕数据,循环每一条字幕,根据该字幕的起始时间,到原始视频中截取对应时间段的音频,作为参考音频,然后将该参考音频和字幕文本一起发给配音渠道进行配音。

支持语音克隆的渠道

  • OmniVoice(本地API):支持所有语言(推荐)
  • Qwen-TTS(本地内置):支持中英日韩等10多种常见语言(推荐)
  • GPT-SoVITS(本地API):支持中英日韩(推荐)
  • F5-TTS(本地API):支持中英(推荐)
  • VoxCPM-TTS(本地API):支持10多种语言(推荐)
  • Chatterbox(本地内置):支持10多种语言(推荐)
  • Index-TTS(本地API):支持中英(推荐)
  • CosyVoice(本地API):支持中英日韩等10多种常见语言
  • Spark-TTS(本地API):支持英语
  • Dia-TTS(本地API):支持英语
  • clone-voice(本地API):支持10多种语言(已不维护,不推荐使用)

使用方法

因为需要有原始视频,因此仅在翻译视频和音频功能中才可用

  1. 首先在目标语言下拉框中选择想配音到的语言
  2. 配音渠道中选择某个想使用的渠道,标有(本地API)的配音渠道,必须自行在本地计算机上部署相应服务,部署方法查看对应文档,部署后将 API或WebUI地址填写到软件-TTS设置--对应渠道的设置界面--URL中。
  3. 然后在配音角色中选择clone角色。

最佳克隆配置

建议进行如下设置,以便保证克隆效果

  1. 不要使用LLM重新断句,因为该功能会重新划分时间轴,导致从原始视频中截取参考音频时时间混乱
  2. 保证每条字幕时长为 3-10s, 过短的参考音频,例如短于3s可能导致克隆结果完全是噪音,同样过长的参考音频,例如大于10s,某些渠道也会报错,打开菜单-工具/选项-高级选项-语音识别参数,将最长语音持续秒数设为 6-10 的数字,最短语音持续毫秒设为3000-4000的数字,设定字幕的最大最小范围,同时应该选中合并过短字幕选项,以便程序自动将过短字幕合并到前后字幕中。
  3. 翻译渠道 使用AI引擎,例如 DeepSeek 或 OpenAI ChatGPT 等, 并且选中发送完整字幕
  4. 语音识别渠道 对于中文建议Qwen-ASR/豆包语音大模型极速版/阿里百炼等,英文 Faster-whisper+large-v3模型
  5. 点击设置更多参数选中分离人声背景声,以便得到不含背景噪声的清晰人声,提高克隆质量

如果你的字幕很多都小于3s,建议使用 OmniVoice-TTS 配音渠道,在短参考音频下能避免出错

使用参考音频

有时你可能不希望克隆原始视频中的音色,而是使用某个你本地有的音频里的音色,或者干脆使用你自己的声音。

  1. 首先录制或其他方法得到一段 5-10s 的wav格式音频,确保该音频内是清晰准确的单一人声,没有背景噪声,开头结尾没有多余静音。 例如可以使用剪映等从一些长音频或视频中分离出10s的说话声作为参考音频
  2. 确保该音频是wav格式,命名为简短名称,例如myaudio1.wav,然后将它复制到本软件/f5-tts文件夹内。 接着打开 软件菜单-TTS设置-设置参考音频,在文本框内新起一行,填写myaudio1.wav#该音频里的说话文本内容,保存即可。 例如
myaudio1.wav#你说四大皆空,却为何,紧闭双眼,若你睁开眼睛看看我,我不相信你,两眼空空。

注意: GPT-SoVITS 配音的参考音频需要放在 GPT-SoVITS 软件的根目录下,而不是 f5-tts 文件夹内

  1. 保存后回到主界面配音角色下拉框中选择这个myaudio1.wav即可使用

wav格式音频后缀是.wav,如果你无法看到,请打开任意一个文件夹,点击该文件夹导航栏的查看--文件扩展名选中它即可,Win11系统是查看--显示--文件扩展名


二:基于字幕的多角色配音

从 v3.74 后新增了"字幕多角色配音"功能,点击左侧工具栏的字幕多角色配音按钮,在弹出的窗口中,导入需要配音的 srt 字幕,然后为每条字幕分别设置一个角色,即可实现多角色发音。

tts-duo