菜单导航

auto-video-generateor AI自动解说类视频生成器
AIGC

auto-video-generateor AI自动解说类视频生成器

NoiseNoise
2024-08-22

介绍

该项目是一个自动视频生成器,它可以根据给定的主题自动生成解说视频。用户输入主题文字后,系统会调用大型语言模型生成相应的故事或解说文本,随后利用语音合成接口生成解说的语音,并通过图像生成接口创建与文本内容相符的配图。最后,系统将语音和配图融合在一起,生成完整的解说视频。

项目地址:https://github.com/kuangdd2024/auto-video-generateor

实现这个系统需要多个步骤,包括生成故事文本、分句、语音合成、图像生成、生成视频,以及使用Gradio进行交互。。

  • 步骤 1: 生成故事文本 为了简化,我们先手动创建一个示例故事文本。
  • 步骤 2: 分句 使用re库或自然语言处理工具将文本分句。
  • 步骤 3: 语音合成 使用pyttsx3库或其他语音合成模型进行语音合成。
  • 步骤 4: 文生图 使用pillow库或其他文生图模型生成图片。
  • 步骤 5: 生成视频 使用moviepy库将图片和音频组合成视频。
  • 步骤 6: 使用Gradio实现交互 使用gradio库创建一个简单的交互界面。

资源校对交互页面

校对用于合成视频的文本、语音和图像资源,可以进行修改或重新生成,直到满意为止。。

resource_checking.png

使用方法

执行代码

# 参数可选:1 2 3 4
python main.py 4

打开浏览器

http://127.0.0.1:8000/

界面:

web11ui

交互操作

用户在gradio界面输入主题文字,生成并编辑故事文本,然后生成语音、图片资源,最终合成视频。

注意事项

  1. 生成视频后会把生成的文本、语音、图片的多媒体材料保存到目录中(默认:mnt/materials/[时间戳])。
  2. 保存多媒体材料的目录结构样例如下:
2024-08-12_18.29.54
│  story.txt
│  video.mp4
├─audio
│      audio_0.wav
│      audio_1.wav
│      audio_2.wav
│      audio_3.wav
│      audio_4.wav
├─image
│      image_0.png
│      image_1.png
│      image_2.png
│      image_3.png
│      image_4.png
└─text
        text_0.txt
        text_1.txt
        text_2.txt
        text_3.txt
        text_4.txt
版权声明

本文为「Noise」原创内容或编译整理;除特别说明外,文中图片并非个人手绘,可能来源于网络、AI 生成、截图等,后期使用 PhotoMator / Procreate 进行处理,仅用于学习与交流。如涉及版权或来源标注不全,请联系处理。未经授权,禁止用于商业用途,禁止抹除水印。转载请注明出处与链接并保留本声明。

...

评论 (0)

评论功能加载中...
Noise

Noise

执迷不悟

推荐阅读

X Voice 一键 AI 语音克隆工具
AIGC

X Voice 一键 AI 语音克隆工具

Noise | 2026-06-03

X Voice 是一款支持 30 种语言的多语言文本转语音系统,兼容 Python 跨平台环境。安装需先检查 ESpeak 并运行打包脚本。开源项目提供 GitHub 链接及网盘资源。

12
VoxCPM整合包
AIGC

VoxCPM整合包

Noise | 2026-06-03

VoxCPM2 统一端到端语音合成大模型,支持中英文零样本克隆、情感可控。新版本重构 UI 训练场景分类,新增复杂场景极致的可控与极致克隆方式,并升级了 Excel 模板与 API 功能。

12
Bao-一个会记住你、会学习、会成长的AI助手
AIGC

Bao-一个会记住你、会学习、会成长的AI助手

Noise | 2026-03-16

一个下载即用的开源跨平台桌面 AI 助手, 真正的持久记忆 · 从经验中学习 · 长任务不阻塞 · 9 大平台 · MCP 生态,可从 GitHub Releases 下载桌面端,双击安装,3 分钟配置完成。无需命令行,无需配置文件,开箱即用。 仓库: https://github.com/Suge8/Bao 🎯 三

95