介绍

FunClipper是一款自动化视频剪辑工具,通过调用阿里巴巴通义实验室开源的FunASR Paraformer系列模型进行视频的语音识别,随后用户可以自由选择识别结果中的片段,点击裁剪按钮即可获取对应片段的视频(快速体验)。

项目地址:https://github.com/alibaba-damo-academy/FunClipper

在上述基本功能的基础上,FunClipper有以下特色:

  • FunClipper集成了阿里巴巴开源的工业级模型Paraformer-Large,是当前识别效果最优的开源中文ASR模型之一,Modelscope下载量1300w+次,并且能够一体化的准确预测时间戳。

  • FunClipper集成了SeACo-Paraformer的热词定制化功能,在ASR过程中可以指定一些实体词、人名等作为热词,提升识别效果。

  • FunClipper集成了CAM++说话人识别模型,用户可以将自动识别出的说话人ID作为裁剪目标,将某一说话人的段落裁剪出来。

  • 通过Gradio交互实现上述功能,安装简单使用方便,并且可以在服务端搭建服务通过浏览器使用。

  • FunClipper支持多段自由剪辑,并且会自动返回全视频SRT字幕、目标段落SRT字幕,使用简单方便。

  • 使用FunClipper进行视频剪辑✂️

    安装

    # 安装FunASR(必须)
    pip install -U funasr
    # 安装FunClipper的Python依赖(必须)
    pip install -r ./requirments.txt
    

    安装imagemagick(可选)

    如果你希望使用自动生成字幕的视频裁剪功能,需要安装imagemagick

    • Ubuntu
    apt-get -y update && apt-get -y install ffmpeg imagemagick
    sed -i 's/none/read,write/g' /etc/ImageMagick-6/policy.xml
    
    • MacOS
    brew install imagemagick
    sed -i 's/none/read,write/g' /usr/local/Cellar/imagemagick/7.1.1-8_1/etc/ImageMagick-7/policy.xml 
    

    并且下载你需要的字体文件,这里我们提供一个默认的黑体字体文件

    wget https://isv-data.oss-cn-hangzhou.aliyuncs.com/ics/MaaS/FunClipper/STHeitiMedium.ttc -O font/STHeitiMedium.ttc
    

    使用FunClipper

    A.在本地启动Gradio服务

    python FunClipper/launch.py
    

    随后在浏览器中访问localhost:7860即可看到如下图所示的界面,按如下步骤即可进行视频剪辑

    1. 上传你的视频(或使用下方的视频用例)
    2. (可选)设置热词,勾选是否使用说话人识别功能
    3. 点击识别按钮获取识别结果
    4. 将识别结果中的选段复制到对应位置,或者将说话人ID输入到对应为止
    5. (可选)配置剪辑参数,偏移量与字幕设置等
    6. 点击“裁剪”或“裁剪并添加字幕”按钮
    img
    img

    B.通过命令行调用使用FunClipper的相关功能(更新中)

    # 步骤一:识别
    python funclipper/videoclipper.py --stage 1 \
                           --file examples/2022云栖大会_片段.mp4 \
                           --output_dir ./output
    # ./output中生成了识别结果与srt字幕等
    # 步骤二:裁剪
    python funclipper/videoclipper.py --stage 2 \
                           --file examples/2022云栖大会_片段.mp4 \
                           --output_dir ./output \
                           --dest_text '我们把它跟乡村振兴去结合起来,利用我们的设计的能力' \
                           --start_ost 0 \
                           --end_ost 100 \
                           --output_file './output/res.mp4'
    

    C.通过Modelscope创空间体验FunClipper

    FunClipper创空间

    通过FunASR了解语音识别相关技术

    FunASR是阿里巴巴通义实验室开源的端到端语音识别工具包,目前已经成为主流ASR工具包之一。其主要包括Python pipeline,SDK部署与海量开源工业ASR模型等。

来自NOISE资源阁-noisevip.cn
NOISE宝藏阁 » FunClipper-开源语音识别模型的自动化视频剪辑工具

发表回复

微信
我会尽快回复。
取消