Violin：打破语言障碍的开源视频翻译技能

![Image 7 无服务器推理高性能 API 推理](https://www.together.ai/serverless-inference)
![Image 8 批量推理批量工作负载推理](https://www.together.ai/batch-inference)
![Image 9 专用模型推理自定义硬件上的推理](https://www.together.ai/dedicated-model-inference)
![Image 10 专用容器推理自定义模型推理](https://www.together.ai/dedicated-container-inference)

![Image 11 MiniMax M2.5 Nano Banana Pro Qwen3.5-397B GLM-5 kimi k2.5 gpt-oss-120B 模型库探索顶级开源模型](https://www.together.ai/models)

计算

加速计算

![Image 17 GPU 集群可靠的大规模 GPU 集群](https://www.together.ai/gpu-clusters)
![Image 18 AI 工厂定制前沿规模基础设施](https://www.together.ai/ai-factory)

开发环境

![Image 19 沙盒构建 AI 开发环境](https://www.together.ai/sandbox)

存储

![Image 20 管理存储安全存储模型权重和数据](https://www.together.ai/managed-storage)

模型塑造

![Image 21 精调使用您的数据塑造模型](https://www.together.ai/fine-tuning)
![Image 22 评估测量模型质量](https://www.together.ai/evaluations)

![Image 23 DeepSeek V3.1 GLM 5 FP4 Qwen3-VL 32B gpt-oss-120b kimi k2.5 Llama 4 Maverick 模型库细调顶级开源模型](https://www.together.ai/models)

研究

![Image 29 生产级 AI 研究系统](https://www.together.ai/research)
![Image 30 研究博客所有研究出版物](https://www.together.ai/research-blog)

精选出版物

显示全部

开发者

![Image 31 文档 Together AI 技术文档](https://docs.together.ai/)
![Image 32 示例我们的开源示例应用](https://www.together.ai/demos)
![Image 33 实用指南实践实现指南](https://www.together.ai/cookbooks)
![Image 34 语音代理构建生产级语音代理](https://www.together.ai/solutions/voice)

公司

资源

![Image 35 客户故事来自 AI 原生用户的评价](https://www.together.ai/customers)
![Image 36 初创加速器构建和扩展您的初创公司](https://www.together.ai/startup-accelerator)
![Image 37 客户支持查找问题的答案](https://www.together.ai/support)
![Image 38 博客最新的新闻与博文](https://www.together.ai/blog)
![Image 39 活动浏览我们的活动日历](https://www.together.ai/events)

公司

![Image 40 关于我们了解我们](https://www.together.ai/about-us)
![Image 41 职业加入我们的使命](https://www.together.ai/careers)

定价

*

![Image 42 无服务器推理高性能 API 推理](https://www.together.ai/serverless-inference)
![Image 43 批量推理批处理工作负载的推理](https://www.together.ai/batch-inference)
![Image 44 专用模型推理自定义硬件上的推理](https://www.together.ai/dedicated-model-inference)
![Image 45 专用容器推理自定义模型的推理](https://www.together.ai/dedicated-container-inference)

![Image 46 MiniMax M2.5 Nano Banana Pro Qwen3.5-397B GLM-5 kimi k2.5 gpt-oss-120B 模型库探索顶级开源模型](https://www.together.ai/models)

* 加速计算

![Image 52 GPU 集群可靠的大规模 GPU 集群](https://www.together.ai/gpu-clusters)
![Image 53 AI 工厂定制前沿规模的基础设施](https://www.together.ai/ai-factory)

开发者环境

![Image 54 沙盒构建用于 AI 的开发环境](https://www.together.ai/sandbox)

存储

![Image 55 托管存储安全存储模型权重和数据](https://www.together.ai/managed-storage)

*

![Image 56 微调使用您的数据塑造模型](https://www.together.ai/fine-tuning)
![Image 57 评估测量模型质量](https://www.together.ai/evaluations)

![Image 58 DeepSeek V3.1 GLM 5 FP4 Qwen3-VL 32B gpt-oss-120b kimi k2.5 Llama 4 Maverick 模型库微调顶级开源模型](https://www.together.ai/models)

*

![Image 64 研究系统生产级 AI 研究](https://www.together.ai/research)
![Image 65 研究博客我们所有的研究出版物](https://www.together.ai/research-blog)

精选出版物

显示全部

*

![Image 66 文档 Together AI 技术文档](https://docs.together.ai/)
![Image 67 示例我们的开源示例应用](https://www.together.ai/demos)
![Image 68 实用指南实践实现指南](https://www.together.ai/cookbooks)
![Image 69 语音代理构建生产级语音代理](https://www.together.ai/solutions/voice)

* 资源

![Image 70 客户故事来自 AI 原生用户的评价](https://www.together.ai/customers)
![Image 71 初创加速器构建和扩展您的初创公司](https://www.together.ai/startup-accelerator)
![Image 72 客户支持查找问题的答案](https://www.together.ai/support)
![Image 73 博客我们的最新新闻与博文](https://www.together.ai/blog)
![Image 74 活动浏览我们的活动日历](https://www.together.ai/events)

公司

![Image 75 关于我们了解我们](https://www.together.ai/about-us)
![Image 76 职业加入我们的使命](https://www.together.ai/careers)

联系销售

登录

所有博客文章

研究

发布于 2026 年 5 月 14 日

Violin：一个打破语言障碍的开源视频翻译工具

作者朱尚、林庆鸿（牛津大学）、周詹姆斯
目录
40+ 模型用于生产...40+ 模型用于生产...40+ 模型用于生产...

本文链接尝试 Violin

代码库

视频已成为信息共享最受欢迎的媒介之一。然而，互联网上流行视频内容的语言分布并不一定反映全球观众的多样性。例如，一项先前的研究发现，来自 YouTube 上排名前 250 的频道中，66% 的视频是英语，而西班牙语——第二常见的语言——仅占 15% [1,2]，这使得大量内容对世界各地的观众来说无法访问。这种差距凸显了对可扩展视频翻译解决方案的需求。

前沿 AI 是否能够帮助打破语言障碍，使视频内容更易于全球观众访问？

今天，我们很高兴推出 Violin —— 一款完全开源的视频翻译工具，由 Together API 提供支持。Violin 管道使用最先进的语音识别、大语言模型和语音合成技术，实现高质量的视频翻译。

除了标准翻译外，我们还开发了交互式和个性化的功能，例如基于视频内容的聊天助手和自然语言语音选择器。我们希望 Violin 能够赋予不同语言的用户更轻松地获取信息的能力，并帮助高质量的视频内容在互联网上进一步传播。

Violin：打破视频分享的语言障碍

为了展示 Violin 的能力，我们选取了 Together AI 的最近一次技术演讲，并将其翻译成另一种语言。

翻译前

翻译后（中文）

观看 Dr. Percy Liang 的 Together Talks 系列介绍视频，在翻译前（左）和翻译后（右，中文）。

‍与视频对话。 Violin 还包含一个内置的多模态聊天助手，可以根据视频内容回答问题。用户可以从视频中查询细节、请求摘要或深入探讨特定主题——所有这些都在同一界面内完成。

_Violin 视频助手：关于视频的任何问题都可以得到基于音频和视觉内容的回答。_

Violin 的工作原理

_Violin 的工作原理：从输入视频到完全翻译的输出，Violin 协调三个核心阶段：ASR（自动语音识别）、LLM 翻译和 TTS（文本转语音）语音合成，同时支持视频聊天助手和语音风格个性化。全部运行在 Together AI 云平台上。_

Violin 的工作分为三个简单的阶段：

首先，它提取并转录视频中的音频为带时间戳的文本。我们使用 Together 的 Whisper V3 大型端点，该端点以优化的速度提供高质量的多语言转录。

然后，大型语言模型翻译该转录文本。在这里，我们默认使用 Deepseek V4 Pro 的最新进展作为翻译器。我们还允许用户输入预定义的翻译规则列表，以保持翻译的忠实性和准确性。

最后，TTS 模型生成翻译后的语音，允许用户以纯文本形式指定所需的语音特征。Together 托管的 Cartesia Sonic 3 支持多种母语者的语音，如韩语、荷兰语、意大利语和中文，使翻译后的视频听起来自然。请注意，我们的工具不允许语音克隆，而是使用与原说话者不同的独特声音，默认情况下将新声音叠加在原始声音之上，音量较低。

此外，视频聊天模块允许你对视频提问，其功能由一个能够理解音频内容和屏幕显示内容的视觉-语言模型提供支持。这是通过采样最近的视频帧以及字幕上下文，并将其发送到像 Qwen3.5-397B-A17B 这样的视觉-语言模型来实现自由形式的问题回答。通过这种方式，模型可以根据这些上下文返回适当的响应。

为每个人设计：Web 应用、CLI 和代理技能

我们在设计 Violin 时将易用性放在首位。无论你是喜欢简单网页界面的内容创作者，是生活在命令行中的开发者，还是将工具集成到自主代理中的 AI 实践者，Violin 都能满足你的需求：

Web 应用 – 一个简洁、极简的前端，用于上传视频、选择翻译选项、预览结果并与视频助手互动。无需编写代码。
CLI 工具 – 一个简单的命令行界面，用于脚本编写、批量处理和集成到现有管道中。
代理技能 – 我们将 Violin 的功能打包为一项技能，可以轻松集成到常见的代理框架中。

从 GUI 到后端模型再到代理技能，所有内容都是完全开源的。我们以宽松的 MIT 许可证发布代码库，邀请社区进行调整、扩展和改进。我们相信开放协作是实现视频内容真正无语言障碍的最快途径。

参与其中

我们才刚刚开始，非常希望得到你的帮助。如果你觉得 Violin 有用，或者你有让它变得更好的想法：

访问我们的 GitHub 仓库：github.com/shang-zhu/violin
给我们发邮件：[heyviolinai@gmail.com](mailto:heyviolinai@gmail.com)
开启一个 GitHub issue 或开始讨论 —— 我们重视每一条反馈。
尝试我们的演示应用这里(发布后短时间内会保持可用)

致谢

我们要感谢 Martijn Bartelds、Yongchan Kwon、Federico Bianchi 和 Kaitlyn Zhou 提供的宝贵反馈。我们还要感谢 Whisper、DeepSeek、Qwen 和 Cartesia 背后的开源模型构建者，他们的工作构成了 Violin 的基础。特别感谢 Hassan El Mghari 和 Percy Liang 在开发过程中提供的视频和反馈。

免责声明

Violin 提供翻译工具；用户对其翻译的内容负全责，包括遵守版权和其他适用法律。在演示应用中，上传的视频将在 24 小时后删除。

[1] Wikipedia, "互联网上使用的语言," 访问日期：2026 年 5 月 8 日。https://en.wikipedia.org/wiki/Languages_used_on_the_Internet

[2] Brian Yang, "顶级 250 个 YouTube 频道的 6 个常见特征," Twinword, 访问日期：2026 年 5 月 12 日。https://www.twinword.com/blog/features-of-top-250-youtube-channels/

开始在 Together AI 上构建

从优化训练和模型塑造到大规模生产推理

立即开始

* 产品

模型

查看所有模型 DeepSeek Meta Qwen Google OpenAI Mistral AI 自定义模型 * 开发者

定价

定价概览

* 资源

[](https://discord.gg/9Rk6sSeWEG)
[](https://x.com/togethercompute)
[](https://www.linkedin.com/company/togethercomputer/)

Violin：打破语言障碍的开源视频翻译技能

TL;DR · AI 摘要

核心要点

结构提纲

思维导图

金句 / Highlights

小提琴：打破语言障碍的开源视频翻译技能

Violin：一个打破语言障碍的开源视频翻译工具

**Violin：打破视频分享的语言障碍**

**Violin 的工作原理**

**为每个人设计：Web 应用、CLI 和代理技能**

**参与其中**

致谢