VideoLingo: 连接世界的每一帧
QQ 群:875297969
🌟 项目简介
VideoLingo 是一站式视频翻译本地化配音工具,旨在生成 Netflix 级别的高质量字幕,告别生硬机翻,告别多行字幕,还能加上高质量的配音,让全世界的知识能够跨越语言的障碍共享。通过直观的 Streamlit 网页界面,只需点击两下就能完成从视频链接到内嵌高质量双语字幕甚至带上配音的整个流程,轻松创建 Netflix 品质的本地化视频。
主要特点和功能:
-
🎥 使用 yt-dlp 从 Youtube 链接下载视频
-
🎙️ 使用 WhisperX 进行单词级时间轴字幕识别
-
📝 使用 NLP 和 GPT 根据句意进行字幕分割
-
📚 GPT 总结提取术语知识库,上下文连贯翻译
-
🔄 三步直译、反思、意译,媲美字幕组精翻效果
-
✅ 按照 Netflix 标准检查单行长度,绝无双行字幕
-
🗣️ 使用 GPT-SoVITS 等方法对齐配音
-
🚀 整合包一键启动,在 streamlit 中一键出片
-
📝 详细记录每步操作日志,支持随时中断和恢复进度
-
🌐 全面的多语言支持,轻松实现跨语言视频本地化
与同类项目的主要区别:绝无多行字幕,最佳的翻译质量
🎥 效果演示
语言支持:
当前输入语言支持和示例:
*中文需单独配置whisperX模型,仅适用于本地源码安装,配置过程见安装文档,并注意在网页侧边栏指定转录语言为zh
翻译语言支持大模型会的所有语言,配音语言取决于选取的TTS方法。
⚠️ 当前限制
-
不同设备运行 whisperX 效果不同,v1.7 会先进行 demucs 人声分离,但可能会导致分离后转录效果不如分离前,原因是 whisper 本身是在带 bgm 的环境下训练的,分离前不会转录bgm的歌词,但是分离后可能会转录歌词。
-
配音功能的质量可能不完美,仍处于测试开发阶段,正在尝试接入 MascGCT。目前为获得最佳效果,建议根据原视频的语速和内容特点,选择相近语速的 TTS,效果见 demo (opens in a new tab)。
-
多语言视频转录识别仅仅只会保留主要语言,这是由于 whisperX 在强制对齐单词级字幕时使用的是针对单个语言的特化模型,会因为不认识另一种语言而删去。
-
多角色分别配音正在开发,whisperX 具有 VAD 的潜力,但是具体需要一些施工,暂时没有支持此功能。
🚗 路线图
- VAD 区分说话人,多角色配音
- 用户术语表
- SaaS 版本
- 配音视频唇形同步
📄 许可证
本项目采用 Apache 2.0 许可证。使用本项目时,请遵循以下规定:
- 发表作品时建议(不强制要求)标注字幕由 VideoLingo 生成。
- 遵循使用的大模型和TTS条约进行备注。
- 如拷贝代码请包含完整的 Apache 2.0 许可证副本。
我们衷心感谢以下开源项目的贡献,它们为 VideoLingo 的开发提供了重要支持:
- whisperX (opens in a new tab)
- yt-dlp (opens in a new tab)
- json_repair (opens in a new tab)
- GPT-SoVITS (opens in a new tab)
- BELLE (opens in a new tab)
📬 联系我们
- 加入我们的 QQ 群:875297969
- 在 GitHub 上提交 Issues (opens in a new tab) 或 Pull Requests (opens in a new tab)
- 关注我的 Twitter:@Huanshere (opens in a new tab)
- 访问官方网站:videolingo.io (opens in a new tab)
- 联系邮箱:team@videolingo.io
⭐ Star History
如果觉得 VideoLingo 有帮助,请给我们一个 ⭐️!