你正在和一位圣保罗的供应商开 Zoom 会议,对方时不时切换到葡萄牙语。或者你在看一场日本的产品发布会,而自动字幕始终慢半拍。又或者你习惯用西班牙语思考,但客户希望收到英文邮件。
三个完全不同的问题,却都被笼统地塞进了「Mac 上的实时语音翻译」这个话题里,所以网上大多数指南才会读得让人云里雾里。合适的工具,取决于你究竟想解决其中哪一个。
Apple 在去年秋天的 macOS 26 中推出了 Live Translation。Whisper 也发布了 Turbo 模型,能在 MacBook Air 上流畅运行而不至于发烫。曾经鱼龙混杂、几乎只有发烧友才会折腾的听写工具,如今真的好用起来了。这份指南会带你看清都有哪些选择、每种方案在什么场景下真正合适,以及如何避开演示视频里那些一上手就翻车的坑。
「实时」到底意味着什么
在挑工具之前,先把你的工作流程说清楚。Mac 上的「实时」其实有三种截然不同的形态,需要不同的软件来支撑:
实时字幕 —— 别人在说话,你想要字幕(可能还要翻译)随着对方的话同步出现。电话、会议、讲座、直播。延迟非常关键。延迟 4 秒已经让人难受;延迟 10 秒就彻底没用。
听写 —— 说话的人是你,你希望最终得到另一种语言的整洁文本。邮件、Slack 消息、文档。当你停止说话的那一刻,转录和翻译一气呵成。比起边说边流式输出文字,你说完那一瞬间的响应速度更重要。
文件转录 —— 你手上有一段录音(Zoom 导出文件、语音备忘录、播客),想要一份翻译好的文字稿。这并不算真正的「实时」。直接交给精度最高的模型,等上两分钟就好。
把这三种混为一谈,就是为什么有人会拿会议转录工具来写简短邮件,或者拿听写应用去给 YouTube 视频加字幕。先选对类别,再挑工具。
macOS 内置的方案
如果你用的是搭载 Apple Silicon 的 macOS 26,Apple 提供了两款内置工具,外加一个不容忽视的盲区。
Live Translation(macOS 26)
Live Translation 已经接入了 Messages、FaceTime,以及 Mac 上新出的电话应用。它由 Apple Intelligence 驱动,完全在设备端运行,所以没有任何数据会离开你的电脑。在 FaceTime 通话中,点一下菜单按钮、选择 Live Captions,翻译后的文字就会显示在屏幕顶部附近。
问题在于语言列表。FaceTime 和电话应用中的 Live Translation 目前支持英语、法语、德语、葡萄牙语(巴西)和西班牙语(西班牙),普通话、意大利语、日语和韩语正在陆续推出。Messages 覆盖的语言更广,包括丹麦语、荷兰语、挪威语、瑞典语、土耳其语和越南语。
它免费、私密,延迟也不错。但它只在 Apple 自家的应用里工作。Zoom、Google Meet、Slack 群聊语音、YouTube —— 这些都不会走 Live Translation。
Live Captions
在「系统设置 → 辅助功能 → 实时字幕」中开启 Live Captions,就能得到一个悬浮窗,把 Mac 听到的任何声音都转写出来 —— 系统音频、麦克风,或两者皆可。它在任何应用里都能用:Zoom、YouTube、播客,甚至坐在你旁边说话的同事。
Live Captions 只转写,不翻译。截至撰稿时它也只支持英语。如果你的会议是英文的,只是需要文字来跟上对话,那它就是答案。如果会议是葡萄牙语,Live Captions 帮不了你。

面向通话和视频的实时字幕与翻译
当 Apple 内置工具覆盖不到你的通话场景时,有一小批第三方应用正好补上这块空白。它们会接入系统音频(也就是 Mac 扬声器正在播放的内容)或麦克风,用本地 Whisper 模型转录,并可选地进行翻译。下面这三款都在设备端运行,如果你正处于保密通话中,这一点尤其重要。
MacWhisper —— 这是 Mac 上在该领域深耕最久的应用之一。带翻译的实时字幕,基于 Whisper 和 Nvidia Parakeet,支持各种会议工具的系统音频捕获。在 Zoom、Meet、Teams 中表现稳定。Pro 版是一次性买断。
Superwhisper —— 把实时转录和基于 Whisper 的听写流程结合在一起。支持 100 多种语言,并能把其中任何一种翻译成英语。它试图同时充当字幕工具和听写工具,如果你想一款应用搞定两件事,确实可行,但这也意味着它在听写方面比专门的工具更重。
Transcrybe —— 更新、更轻量,专注于实时翻译。仅在设备端运行。它的整个界面就是围绕「有人在说一门我听不懂的语言 —— 告诉我他说了什么」这个场景设计的。适合旅行、客服通话,以及看外语内容。
根据你遇到这种场景的频率来选。如果你天天都在打国际电话,MacWhisper 或 Superwhisper 值得长期挂在你的菜单栏里。如果只是偶尔需要,Apple 在 FaceTime 里内置的 Live Translation 可能就够了。
用一种语言说话,用另一种语言写作
最常见的「实时翻译」需求,其实和别人说话毫无关系。它关乎*你自己* —— 你用母语思考,却必须在页面上写出英文,因为工作就是这么要求的。
如果你是说西班牙语、法语或波兰语的人,平时工作要写大量英文邮件,你一定深有体会。你在脑子里用母语把句子先组好,在心里翻译一遍,再把译文敲到键盘上。每封邮件其实都是两稿:一稿在你脑子里写好,另一稿才是你手指打出来的。
在这种场景下,合适的工具应该是另一种形态。你不需要流式字幕。你需要的是:按住一个键,用自己的语言自然地说出来,松开后,精修过的目标语言文本就落在剪贴板上,可以粘贴到任何地方(Gmail、Slack、Notion、Jira 工单)。
这正是 Voicr 填补的空白。按住 FN,用 100 种语言中的任意一种说话,把英语设为目标语言,粘贴出来的就是干净的英文,而不是把原始转录稿再扔进另一个翻译工具的产物。转录和翻译在一步内完成,而不是「说话 → 转录 → 复制 → 翻译器 → 粘贴」。整个过程的耗时和你开口说话的时间差不多。
还有一个 Auto-detect 模式,能从音频本身判断你说的是哪种语言。所以如果你在私人 Slack 中讲西班牙语、给客户写英文邮件之间不断切换,就完全不用再去打开语言选择器。这个小细节,在功能列表里很容易被忽略。在 Mac 上用 100 种语言进行语音输入 一文有更详细的展开。
转录预先录制的音频
如果你手上是一份文件(Zoom 录像、语音备忘录、采访录音、播客),「实时」就不是合适的视角了。把文件交给一款以全质量运行的 Whisper 工具,让它跑上两分钟即可。这里最重要的是准确率。
MacWhisper 和 Whisper Transcription 都能很好地胜任。如果你不介意写脚本,直接调用 OpenAI API 也行。具体到翻译,要注意 Whisper 内置的翻译只支持一个方向:任意语言 → 英语。如果你需要反方向(比如英语 → 日语),就得把转录稿再丢给另一个翻译模型,比如 Claude、GPT 或 DeepL。
如果你的输入永远都是实时的,跳过这一节即可。但如果你会录采访、或把以前会议的录音翻出来整理,离线工作流仍然更便宜、更准确,也比流式更容易修订。
为你的工作流程挑选合适的方案
一个快速的决策树:
1. 我想在 FaceTime 或 Messages 对话中看到字幕 → Apple Live Translation。免费、内置、设备端运行。 2. 我想在 Zoom/Meet/Teams 通话中看到一门我不会说的语言的字幕 → MacWhisper、Superwhisper 或 Transcrybe,挑一个。 3. 我想用母语听写,然后把英文文本粘贴到任何地方 → 像 Voicr 这样的一键听写工具。这是双语职场人的日常主力场景。 4. 我想把一段其他语言的录音转录成英文 → MacWhisper 或任何基于 Whisper 的桌面应用。离线、全质量模型,等两分钟。
大多数人最终会用两款工具,而不是一款:一个用于偶尔需要的实时字幕,一个用于每天高频使用的听写。这种分工很正常。字幕工具和听写工具优化的目标完全不同,硬要让一款工具兼顾两边,通常意味着两边都做得更差。
对效果建立合理预期
有几件事每个演示视频都不会告诉你,在你下决心之前最好心里有数:
延迟是真实存在的。 即便是设备端的 Whisper,实时字幕也会有 1–3 秒的延迟。云端工具会再加上 1–2 秒。请把这个时间预留好。别指望用实时字幕跟上一场节奏飞快的政治辩论,你一定会跟丢。
前 10 种语言之外,翻译质量会下降。 Whisper 本身在英语、西班牙语、法语、德语、葡萄牙语、意大利语、普通话、日语上的表现都很优秀,但在泰语、粤语、越南语,以及大多数非洲语言上明显变弱。如果你的语言属于长尾,务必先测试再依赖。
系统音频捕获需要授权。 macOS 默认不允许应用监听系统音频。实时字幕类的每款工具,都会在你第一次使用时引导你授予屏幕录制或音频环回(loopback)权限。这是正常的。也正因为如此,有些应用需要你一次性安装一个虚拟音频设备。
隐私情况因工具而异。 Apple 自家的工具,以及大多数基于 Whisper 的应用,都完全在设备端运行。任何会把音频上传到云端 API 的方案(比如部分「AI 会议助手」),则是另一种取舍。如果你在法律、医疗或其他受监管的行业,在客户通话中启用任何工具之前,务必先确认清楚。

一个实用的起点
无论你的终极目标是什么,最容易上手的方式都是:挑出本周你遇到频率最高的那个具体场景,而不是少见的那个。要选日常的。
如果你经常开国际会议,装一款实时字幕工具,把它放在菜单栏里,先用两周再下结论。如果你需要边用其他语言思考边写大量英文,那就把接下来要写的十封邮件,全部换成用母语听写,看看工具产出的英文是否过关。
Voicr 专门解决听写这块需求。按住 FN,用你的母语说话,把英语设为目标语言,粘贴到任何地方。它有一个免费层级(每月 5,000 词,无需信用卡),足以让你判断这个工作流程是否真的契合你的写作方式。对于实时字幕场景,MacWhisper 也提供免费版本(自带基础 Whisper 模型),足以让你在付费前体验一遍。
技术早就不再是瓶颈。如今真正值得问的问题是:你究竟会把哪种工作流真正搭起来、长期用下去 —— 而这又取决于你能否针对自己反复遇到的具体摩擦,选对那把合适的钥匙。关于听写这一面,Mac 上的语音听写到底是怎么运作的 详细讲解了从你开口说话,到剪贴板上出现精修文本之间发生了什么。

