VALL-E X-轻便快速且强大的AI声音克隆
介绍
此实现支持三种语言(英语、中文、日语)的零镜头、单语言/跨语言文本到语音转换功能
GitHub:https://github.com/Plachtaa/VALL-E-X
演示页面:https://plachtaa.github.io/
特征
-
多语言TTS:用三种语言 – 英语,中文和日语 – 自然和富有表现力的语音合成。
-
零镜头语音克隆:注册一个看不见的演讲者的短短 3~10 秒录音,并观看 VALL-E X 创建听起来像他们的个性化、高质量的语音!
使用
必备环境: python3.10、git、FFmpeg6.0
安装
git clone https://github.com/Plachtaa/VALL-E-X.git
cd VALL-E-X python -m venv venv call venv\scripts\activate.bat
pip install -r requirements.txt
运行 python -X utf8 launch-ui.py
首次运行程序时,它会自动下载相应的模型。
如果下载失败并报告错误,请按照以下步骤手动下载模型。
(请注意文件夹的大小写)
-
检查安装目录中是否有文件夹。 如果没有,请在安装目录中手动创建一个文件夹 ()。
checkpoints``checkpoints``./checkpoints/
-
检查文件夹中是否有文件。 如果没有,请从(https://huggingface.co/Plachta/VALL-E-X/resolve/main/vallex-checkpoint.pt)手动下载文件并将其放入文件夹中。
-
检查安装目录中是否有文件夹。 如果没有,请在安装目录中手动创建一个文件夹
-
检查文件夹中是否有文件。 如果没有,请从(https://openaipublic.azureedge.net/main/whisper/models/345ae4da62f9b3d59415adc60127b97c714f32e89e936602e85993674d08dcb1/medium.pt)手动下载文件并将其放入文件夹中。
Nvidia显卡加速
pip list pip uninstall torch torchvision torchaudio
pip install torch torchvision torchaudio –index-url