Mac 上的 AI 语音听写：它到底是怎么工作的

你盯着空邮件里闪烁的光标。你知道自己想说什么。你只是不想打字。

Mac 听写功能从 2012 年就有了，大多数人早在几年前就放弃了它。过去 18 个月里，真正改变这一切的是 Mac 上的 AI 语音听写。那种「对着麦克风讲话、然后看着满屏错别字」的体验被悄悄换成了真正像在写作的东西。

大多数文章都跳过了关键的一点：现在难点已经不再是转写本身，那个问题早就被解决了。真正改变的是它上面那一层——把你东拉西扯的想法在抵达屏幕之前就整理成干净文字的那一层。这篇文章会一步一步带你过完整条管线，让你看清楚 Mac 在你开口的那一刻到精修文字出现在草稿里的那一刻之间，到底做了些什么。

为什么 Mac 听写终于变得好用了

有两个数字可以解释为什么大家又回来用听写了。普通人每分钟大约能打 40 个英文单词，而说话速度大约是 150 个。也就是说，你打一个词的工夫，嘴里能说出大约四个。

但速度从来不是真正的问题，问题在于输出结果。过去的听写会把你说的每一个「呃」、每一次重新开始、每一句「等下，不对，划掉」全都原样转给你。你省下 30 秒口述，最后要花 90 秒去清理。

现代 AI 听写应用通过加一道工序解决了这个问题：语音先像以前那样经过转写，然后被交给一个语言模型，由它像一位严谨的编辑那样重写一遍。废话被清掉，语法被修好，没说完的句子被补完整。等文字出现在你屏幕上时，它读起来就像你状态好时亲手写的一样。

Mac 上 AI 语音听写背后的五个步骤

这条管线很短，只有五步，其中大多数你都看不见： 1. 采集：Mac 接收你的语音。 2. 转写：把音频变成原始文字。 3. 润色：AI 模型把原始文字整理干净。 4. 应用上下文：根据文字要去的地方调整写作风格。 5. 投递：润色后的文字落到你的光标处。

每一步都有自己的模型、自己的取舍，也有自己容易出错的地方。值得一个一个拆开讲。

第 1 步：采集，Mac 如何接收你的语音

这一步并不复杂。你按下一个快捷键（FN、Option+Space 或者应用所用的任何组合），麦克风就开始监听。应用把音频录进内存，通常是 16 位、16 kHz——这是转写模型所期望的格式。

现在多数 Mac 听写应用并不依赖语音活动检测来判断开始和结束，而是用快捷键：按住说话，松手停止。原因是稳定性。在咖啡馆开着的麦克风上做语音检测，基本是在掷硬币；按键则不会。

采集过程中有一些你看不见的事情：音频会被缓冲，通常会用 Apple 内置的音频框架做降噪，然后被切成小段。如果你说话的时间超过单段长度（一般是 30 秒），应用就可能在发送之前先把录音切开。

第 2 步：转写，Whisper 如何把声音变成文字

这是大多数 AI Mac 听写应用都会汇聚到同一项技术的地方：OpenAI 的 Whisper 模型。Whisper 是一套语音识别系统，用 99 种语言、大约 500 万小时的音频训练而成。当前版本 large-v3 在干净的英语音频上词错率约 2.7%，在嘈杂的真实场景录音上约为 8% 到 12%。

说白了：自然地讲话，开箱即用大约 92% 到 97% 的词都能被正确转写。这是一个跟 Apple 原生听写引擎完全不在一个量级的准确度，也正是第三方应用爆发的原因。

Whisper 对你音频做的事情大致是这样的： - 把录音切成 30 秒的片段。 - 把每个片段转成频谱图，也就是声音在频率和时间维度上的可视化表示。 - 把频谱图喂给一个已经学会把音频模式映射成文字的神经网络。 - 同时预测语言、标点，以及句子的结束位置。

这个模型既可以在你的 Mac 本地运行（Apple Silicon 跑起来毫不费力），也可以放在云端。本地的好处是私密、离线可用；云端则在老硬件上更快，还能支持更大的模型。很多应用允许你自己选。

这一步结束时，你拿到的是一段原始转写：有标点，大体准确，但通常有点乱。Apple 内置的听写到这里就停了，而真正有意思的应用并不会。

第 3 步：润色，改变一切的那一层

正是这一步，让 Mac 听写从「还算有点用」变成了「我已经好几个星期没自己打过邮件了」。

转写之后，原始文字会被送到一个语言模型——通常是 GPT-4 级别或 Claude，并附上一条这样的指令： ``` Rewrite this as polished, professional text. Remove filler words and false starts. Keep the meaning. Don't add anything. ```

实际效果是这样的。

你嘴里说出来的

*「好，那个，呃，我想跟进一下，呃，上周那份提案。我觉得，你懂的，我们大概应该按方案二走？对，方案二。你能、你能在周五之前把合同发给我吗？」*

落到你剪贴板里的

*「跟进一下上周那份提案，我想按方案二推进。你能在周五前把合同发给我吗？」*

意思一样，阅读体验完全不同。而且整个过程在两秒之内完成。

这种感觉很难在没用过之前讲清楚。你不再去想自己讲得好不好听，也不再边说边自我编辑，你只是把那件事像跟同事聊天一样讲出来，而出来的结果，正是你在有时间的时候本来会写出来的那一版。

如果你已经在用听写，但事后总是要花时间整理，那 Voicr 填的正是这道缝。按住 FN，怎么舒服怎么说，落到剪贴板里的就是润色过的版本。不用再过第二遍，也不用「这句我得改一下」，直接是干净文字，粘贴就行。

第 4 步：上下文感知，不同应用用不同风格

这一步比较新，也是把优秀的 Mac 听写应用和只是「能用」的应用区分开的关键。

礼貌、正式的语气适合写给客户的邮件，放到给同事的 Slack 消息里就显得别扭，放在代码注释里就完全不对。一款好的听写应用会判断你当前在哪个应用里，并据此调整。

机制其实很简单：应用读取当前获得焦点的程序，查找你为这个程序保存的风格规则，然后把这条规则塞进送给润色模型的提示词里。

比如一条 Slack 规则可能是这样的： ``` Keep it casual and brief. No corporate phrasing. Use contractions. One or two short sentences max. ``` 而邮件规则可能是这样的： ``` Write in a professional tone. Full sentences. Add a greeting and sign-off if the content warrants it. ```

同一段语音输入，根据你打开的是哪个窗口，会出两段截然不同的文字。你什么都不用切换，只管开口，合适的语气就自动出来了。

第 5 步：投递，文字如何抵达它该去的地方

最后一步是花了最久才打磨好的一步。文字已经润色完了，现在它怎么进到你正在用的输入框里？

常见有两种做法： 1. 走剪贴板。 应用把润色后的文字复制到剪贴板，再通过 macOS 的辅助功能 API 触发一次粘贴命令（Cmd+V）。速度快、稳定，几乎在任何应用里都能用。 2. 模拟按键。 应用用 AppleScript 或同样的辅助功能框架，一个字符一个字符地模拟键盘输入。慢一些，但能在那些禁止粘贴的应用里使用（部分网银网站、某些远程桌面、密码管理器等）。

大多数应用默认走剪贴板粘贴，只在必要时退回到模拟按键。从你的视角看：松开快捷键大约半秒后，文字就出现在光标处了。不用切换应用，不用手动复制，也不用再校对一遍。

本地还是云端：到底发生了什么

很多人都会问的一个问题：我的声音到底去哪儿了？

其实只有两种真正的选择。本地处理指的是 Whisper 模型在你自己的 Mac 上运行，音频从不离开设备。在 Apple Silicon（M1 及之后）上，本地 Whisper 跑得足够快，可以做到几乎实时的听写，通常延迟在一秒以内。代价是：润色那一步通常仍然要走云端，因为在一台普通笔记本上跑一个 700 亿参数的语言模型并不现实。少数应用提供完全本地的方案，但会用更小的润色模型，质量也要相应打折扣。

云端处理则把音频和润色都送到远程 API。在老 Mac 上更快，还能用上最大、最准的模型。代价是隐私：你的语音会离开设备，哪怕转写完就被立刻删掉也是如此。

对大多数人来说，「本地 Whisper + 云端润色」是合适的默认搭配。但只要你处理的是敏感内容（病历、法律文件、公司内部资料），完全本地带来的那一点点质量损失就完全值得。一款好应用会让你按次选择，或设置一个默认值。

AI 听写目前仍会翻车的地方

说点实话。这条管线已经很好了，但还没到完美。

同音词依然会出错。 「Their」「there」「they're」大多数时候能选对，但并非总是如此。润色环节通常可以从上下文里补救，但如果句子本身就模糊，就救不回来。

专有名词和行话则碰运气。 Whisper 见过大多数常见姓名和技术术语，但只要够专业就会被它写得面目全非：药品名、代码库名、你某位同事不常见的姓氏，都很容易翻车。一些应用允许你添加自定义词典，把它们一并塞进提示词。

嘈杂环境会让准确率迅速下滑。 Whisper 应付咖啡馆的背景音算意外地好，但旁边两米外的电话铃声或者别人正在说话，就会把你的词从转写里「带走」。

长段独白容易跑偏。 这个模型在 10 到 30 秒的短段里表现非常好；超过 90 秒之后，它有时会丢失思路、重复片段或漏掉短句。解决办法很简单：分段录，停一下再开始。

刚开始用的时候，这些限制都值得留意，但只要你知道它们存在，就没有一个是致命问题。如果你正在挑选工具，我们这篇Mac 最佳语音转文字应用指南会带你看主流应用是如何处理这些取舍的。

如何今天就开始在 Mac 上使用 AI 语音听写

按顺序来三步即可。

1. 选一件每天都要做的事，连续一周用听写完成它。 邮件是不错的入门选择，因为它的「打字-说话」转换率最高（反正你下笔前通常也会先想清楚）。别想一次把所有事情都改成听写，那样你只会放弃。

2. 适应对着「没人」说话。 头几次听写的时候，在安静的房间里大声说话会让你觉得有点怪。这种感觉大概四天就会消失。

3. 选一款应用，坚持用下去。 从 Apple 自带听写、到各种开源 Whisper 工具、再到完整管线的应用，各价位都有不错的选择。如果你想要上面描述的那种「转写完直接润色粘贴」的流程，Voicr 做的正是这件事：按住 FN，开口说，粘贴。用 Whisper 做转写，用一个强语言模型做润色，再配上一套会根据光标所在位置自适应的应用级写作风格。免费版每月给你 5,000 词，无需绑定信用卡。

整条管线背后的技术终于成熟到，听写不再是一种妥协。你不再需要拿质量换速度，两边都能拿到。剩下最难的，无非是下决心停止打字。