使用 AI 🔊 克隆任何声音

深度伪造的语音是通过使用文本到语音转换模型从文本生成语音来创建的。训练模型后，它可用于生成具有任何语音的语音。通常这样的模型分为语音编码器，合成器和声码器。语音编码器学习创建潜在的固定维度嵌入（矢量），以捕获特定人声的各种特征。合成器学习从特定声音的文本脚本创建 mel 频谱图。声码器从 mel 频谱图生成音频波形
这些代码通过colab运行，在运行界面我们能看到作者已为我们编译和写了代码释意
通过理解释意，简单的来说就是通过采样【我们已上传的声音】来训练加强模型，使用时注意请先拷贝到自己的空间再点击运行
使用地址：https://colab.research.google.com/drive/1NxiY3zHN4Nd8J3YAqFsbYaOB71IiLE04
来自youtuber Martin Thissen的教程：https://www.youtube.com/watch?v=Kfr_FZof_hs

0 条评论