菜单导航

技术文档
AI视频自动化二创
技术文档

AI视频自动化二创

NoiseNoise
2023-09-10

这是一个早期的新项目,由StartHua进行开发

地址:https://github.com/StartHua/AI-

功能

支持youtobe,titko,抖音,bilibili视频下载(youtobe,tiko需要翻墙注意不要全局,因为sd Fooocus 会报错)并借助GPT自动化二次创作,支持SD创作

实现步骤:

(1).下载视频.

(2).预处理: 1.分解出视频 mute.mp4静音视频 + 语音sound.mp3 2.使用openai-whisper对mp3文件进行翻译获取原始字幕文件srt和内容文件txt. (3).用户选择视频国家,进行二次创作。 1.对分离出来的mute.mp4进行二次创作,支持基础功能: a.添加背景音乐(背景音乐放到assets/bg_sound目录下随机的) b.添加水印右下方(图标mark放到assets/mark目录洗随机) c.添加字幕 b.添加头尾(随机添加)这里分横竖屏幕,视频头放到assets/head/head_L(横屏) head_V(竖屏) 尾部:assets/bottom/bottom_L(横) bottom_V(竖) 注意:默认视频1280768 ,7681280 c.强制横屏:本身是横屏情况下不处理,如果是竖屏就是添加一个背景底图(asset/bg_image随机)
d.删除头尾(秒):一些视频有开始会有一些频道介绍就可以使用这功能,注意尾部是倒数开始切的。 e.保留视频宽高:一般情况下宽不变计算是从中心开始把两边按比例去掉,高保留不同是从底部开始计算为了去掉一些视频字幕区域。 一般情况不需要改宽保持1. 2.开启GPT润色。(使用GPT+提示词prompt对分离出来的内容文件txt进行处理重新生成相识的文案生成embellish.txt) 3.经行国家处理。 a.使用google_tran和GPT对之前生成的润色文案或者是原本的sound.txt经行翻译成该国语音。 b.使用egg_tts对生成文案生成选择国家的语音文件mp3,再使用openai-whisper对音频生产字幕文件 . c.使用 ffmpeg 经行视频处理(基于上面选项经行一步步处理会比较慢,其实可以优化多步合并)

开启SD创作(最好使用sd创作关闭二创)sd_task.py: (1).预处理和上面一样. (2).使用sd(Stable Diffusion)调用api形式生产图片。这里我使用不是Stable Diffusion而是https://github.com/lllyasviel/Fooocus可以算sd子项目原理一样 好处是简单。自己搭建。端口:7860 (3).写好一个功能强大的提示词整个sd创作精华去访问GPT让它生产一个sd_video.json创作脚本。这个去看config/config.py里面SD_PROMPT。 (4).对刚刚sd_video.json进行处理,api调用sd生产图片序列帧存放到img目录下。egg_tts生产每一句话的语言存放到sound目录下。代码处理文本生成每一句的字幕文件放到srt目录下。 判断上面对应数据合并成一个小视频放到video目录下.最后把所有的小视频合并成完整视频。

安装

1.环境python3.9 ,安装cuda环境https://pytorch.org/get-started/locally/,推荐使用conda

2.pip install -r requirements.txt (国内网络不行加上-i https://pypi.douban.com/simple) 遇到包安装问题自行解决百度谷歌,GPT去问。

3.安装ffmpeg环境添加到环境变量里。

4.这里需要用到openai-whisper 模型放到model下 model/large-v2.pt model/medium.pt 5.python app.py(网页) 或者python main.py(exe版本没有sd功能建议app.py)

目前我遇到的一些问题

我使用M1 MAC进行本地搭建,在搭建过程中出现了httpcore版本不兼容

解决:使用以下命令来安装最新版本的httpcore模块:

pip install --upgrade httpcore

googletrans模块中的httpcore引用不兼容

解决:更新googletrans模块:尝试使用以下命令将googletrans模块更新到最新版本:

pip install --upgrade googletrans

streamlit模块要求使用的gitpython版本与当前安装的版本不兼容。

解决:更新gitpython模块:根据错误信息,streamlit模块要求使用的是3.1.19版本以下的gitpython。你可以使用以下命令将gitpython更新到符合要求的版本:

pip install --upgrade "gitpython<3.1.19"

此外MAC提示CPU上使用FP16(半精度浮点数)时不受支持,最后下载无问题,但运算后出现了无法合成视频

Whisper 模型、WhisperDesktop

Whisper的安装方法:

pip install -U openai-whisper

也可以从github代码仓库pull安装(需要安装git)

pip install git+https://github.com/openai/whisper.git

使用以下命令强制更新到当前代码仓库的版本

pip install --upgrade --no-deps --force-reinstall git+https://github.com/openai/whisper.git

模型文件官方下载地址 "tiny.en": "https://openaipublic.azureedge.net/main/whisper/models/d3dd57d32accea0b295c96e26691aa14d8822fac7d9d27d5dc00b4ca2826dd03/tiny.en.pt", "tiny": "https://openaipublic.azureedge.net/main/whisper/models/65147644a518d12f04e32d6f3b26facc3f8dd46e5390956a9424a650c0ce22b9/tiny.pt", "base.en": "https://openaipublic.azureedge.net/main/whisper/models/25a8566e1d0c1e2231d1c762132cd20e0f96a85d16145c3a00adf5d1ac670ead/base.en.pt", "base": "https://openaipublic.azureedge.net/main/whisper/models/ed3a0b6b1c0edf879ad9b11b1af5a0e6ab5db9205f891f668f8b0e6c6326e34e/base.pt", "small.en": "https://openaipublic.azureedge.net/main/whisper/models/f953ad0fd29cacd07d5a9eda5624af0f6bcf2258be67c92b79389873d91e0872/small.en.pt", "small": "https://openaipublic.azureedge.net/main/whisper/models/9ecf779972d90ba49c06d968637d720dd632c55bbf19d441fb42bf17a411e794/small.pt", "medium.en": "https://openaipublic.azureedge.net/main/whisper/models/d7440d1dc186f76616474e0ff0b3b6b879abc9d1a4926b7adfa41db2d497ab4f/medium.en.pt", "medium": "https://openaipublic.azureedge.net/main/whisper/models/345ae4da62f9b3d59415adc60127b97c714f32e89e936602e85993674d08dcb1/medium.pt", "large-v1": "https://openaipublic.azureedge.net/main/whisper/models/e4b87e7e0bf463eb8e6956e646f1e277e901512310def2c24bf0e11bd3c28e9a/large-v1.pt", "large-v2": "https://openaipublic.azureedge.net/main/whisper/models/81f7c96c852ee8fc832187b0132e569d6c3065a3252ed18e56effd0b6a73e524/large-v2.pt", "large": "https://openaipublic.azureedge.net/main/whisper/models/81f7c96c852ee8fc832187b0132e569d6c3065a3252ed18e56effd0b6a73e524/large-v2.pt",

WhisperDesktop 主页:

https://github.com/Const-me/Whisper

ggml格式模型下载:

官方下载地址: https://huggingface.co/datasets/ggerganov/whisper.cpp/tree/main

注意:如果你按安装步骤操作无误且环境依赖都有但没有安装模型时会自动下载模型

目前该项目处于早期阶段,如果你在使用中遇到了和我相同的一些问题,欢迎随时和我讨论沟通。

版权声明

本文为「Noise」原创内容或编译整理;除特别说明外,文中图片并非个人手绘,可能来源于网络、AI 生成、截图等,后期使用 PhotoMator / Procreate 进行处理,仅用于学习与交流。如涉及版权或来源标注不全,请联系处理。未经授权,禁止用于商业用途,禁止抹除水印。转载请注明出处与链接并保留本声明。

...

评论 (0)

评论功能加载中...
Noise

Noise

执迷不悟