你盯着空邮件里闪烁的光标。你知道自己想说什么。你只是不想打字。
Mac 听写功能从 2012 年就有了,大多数人早在几年前就放弃了它。过去 18 个月里,真正改变这一切的是 Mac 上的 AI 语音听写。那种「对着麦克风讲话、然后看着满屏错别字」的体验被悄悄换成了真正像在写作的东西。
大多数文章都跳过了关键的一点:现在难点已经不再是转写本身,那个问题早就被解决了。真正改变的是它上面那一层——把你东拉西扯的想法在抵达屏幕之前就整理成干净文字的那一层。这篇文章会一步一步带你过完整条管线,让你看清楚 Mac 在你开口的那一刻到精修文字出现在草稿里的那一刻之间,到底做了些什么。
为什么 Mac 听写终于变得好用了
有两个数字可以解释为什么大家又回来用听写了。普通人每分钟大约能打 40 个英文单词,而说话速度大约是 150 个。也就是说,你打一个词的工夫,嘴里能说出大约四个。
但速度从来不是真正的问题,问题在于输出结果。过去的听写会把你说的每一个「呃」、每一次重新开始、每一句「等下,不对,划掉」全都原样转给你。你省下 30 秒口述,最后要花 90 秒去清理。
现代 AI 听写应用通过加一道工序解决了这个问题:语音先像以前那样经过转写,然后被交给一个语言模型,由它像一位严谨的编辑那样重写一遍。废话被清掉,语法被修好,没说完的句子被补完整。等文字出现在你屏幕上时,它读起来就像你状态好时亲手写的一样。
Mac 上 AI 语音听写背后的五个步骤
这条管线很短,只有五步,其中大多数你都看不见: 1. 采集:Mac 接收你的语音。 2. 转写:把音频变成原始文字。 3. 润色:AI 模型把原始文字整理干净。 4. 应用上下文:根据文字要去的地方调整写作风格。 5. 投递:润色后的文字落到你的光标处。
每一步都有自己的模型、自己的取舍,也有自己容易出错的地方。值得一个一个拆开讲。
第 1 步:采集,Mac 如何接收你的语音
这一步并不复杂。你按下一个快捷键(FN、Option+Space 或者应用所用的任何组合),麦克风就开始监听。应用把音频录进内存,通常是 16 位、16 kHz——这是转写模型所期望的格式。
现在多数 Mac 听写应用并不依赖语音活动检测来判断开始和结束,而是用快捷键:按住说话,松手停止。原因是稳定性。在咖啡馆开着的麦克风上做语音检测,基本是在掷硬币;按键则不会。
采集过程中有一些你看不见的事情:音频会被缓冲,通常会用 Apple 内置的音频框架做降噪,然后被切成小段。如果你说话的时间超过单段长度(一般是 30 秒),应用就可能在发送之前先把录音切开。
第 2 步:转写,Whisper 如何把声音变成文字
这是大多数 AI Mac 听写应用都会汇聚到同一项技术的地方:OpenAI 的 Whisper 模型。Whisper 是一套语音识别系统,用 99 种语言、大约 500 万小时的音频训练而成。当前版本 large-v3 在干净的英语音频上词错率约 2.7%,在嘈杂的真实场景录音上约为 8% 到 12%。
说白了:自然地讲话,开箱即用大约 92% 到 97% 的词都能被正确转写。这是一个跟 Apple 原生听写引擎完全不在一个量级的准确度,也正是第三方应用爆发的原因。
Whisper 对你音频做的事情大致是这样的: - 把录音切成 30 秒的片段。 - 把每个片段转成频谱图,也就是声音在频率和时间维度上的可视化表示。 - 把频谱图喂给一个已经学会把音频模式映射成文字的神经网络。 - 同时预测语言、标点,以及句子的结束位置。
这个模型既可以在你的 Mac 本地运行(Apple Silicon 跑起来毫不费力),也可以放在云端。本地的好处是私密、离线可用;云端则在老硬件上更快,还能支持更大的模型。很多应用允许你自己选。
这一步结束时,你拿到的是一段原始转写:有标点,大体准确,但通常有点乱。Apple 内置的听写到这里就停了,而真正有意思的应用并不会。
第 3 步:润色,改变一切的那一层
正是这一步,让 Mac 听写从「还算有点用」变成了「我已经好几个星期没自己打过邮件了」。
转写之后,原始文字会被送到一个语言模型——通常是 GPT-4 级别或 Claude,并附上一条这样的指令: ``` Rewrite this as polished, professional text. Remove filler words and false starts. Keep the meaning. Don't add anything. ```
实际效果是这样的。
你嘴里说出来的
*「好,那个,呃,我想跟进一下,呃,上周那份提案。我觉得,你懂的,我们大概应该按方案二走?对,方案二。你能、你能在周五之前把合同发给我吗?」*
落到你剪贴板里的
*「跟进一下上周那份提案,我想按方案二推进。你能在周五前把合同发给我吗?」*
意思一样,阅读体验完全不同。而且整个过程在两秒之内完成。

这种感觉很难在没用过之前讲清楚。你不再去想自己讲得好不好听,也不再边说边自我编辑,你只是把那件事像跟同事聊天一样讲出来,而出来的结果,正是你在有时间的时候本来会写出来的那一版。
如果你已经在用听写,但事后总是要花时间整理,那 Voicr 填的正是这道缝。按住 FN,怎么舒服怎么说,落到剪贴板里的就是润色过的版本。不用再过第二遍,也不用「这句我得改一下」,直接是干净文字,粘贴就行。
第 4 步:上下文感知,不同应用用不同风格
这一步比较新,也是把优秀的 Mac 听写应用和只是「能用」的应用区分开的关键。
礼貌、正式的语气适合写给客户的邮件,放到给同事的 Slack 消息里就显得别扭,放在代码注释里就完全不对。一款好的听写应用会判断你当前在哪个应用里,并据此调整。
机制其实很简单:应用读取当前获得焦点的程序,查找你为这个程序保存的风格规则,然后把这条规则塞进送给润色模型的提示词里。
比如一条 Slack 规则可能是这样的: ``` Keep it casual and brief. No corporate phrasing. Use contractions. One or two short sentences max. ``` 而邮件规则可能是这样的: ``` Write in a professional tone. Full sentences. Add a greeting and sign-off if the content warrants it. ```
同一段语音输入,根据你打开的是哪个窗口,会出两段截然不同的文字。你什么都不用切换,只管开口,合适的语气就自动出来了。
第 5 步:投递,文字如何抵达它该去的地方
最后一步是花了最久才打磨好的一步。文字已经润色完了,现在它怎么进到你正在用的输入框里?
常见有两种做法: 1. 走剪贴板。 应用把润色后的文字复制到剪贴板,再通过 macOS 的辅助功能 API 触发一次粘贴命令(Cmd+V)。速度快、稳定,几乎在任何应用里都能用。 2. 模拟按键。 应用用 AppleScript 或同样的辅助功能框架,一个字符一个字符地模拟键盘输入。慢一些,但能在那些禁止粘贴的应用里使用(部分网银网站、某些远程桌面、密码管理器等)。
大多数应用默认走剪贴板粘贴,只在必要时退回到模拟按键。从你的视角看:松开快捷键大约半秒后,文字就出现在光标处了。不用切换应用,不用手动复制,也不用再校对一遍。

本地还是云端:到底发生了什么
很多人都会问的一个问题:我的声音到底去哪儿了?
其实只有两种真正的选择。本地处理指的是 Whisper 模型在你自己的 Mac 上运行,音频从不离开设备。在 Apple Silicon(M1 及之后)上,本地 Whisper 跑得足够快,可以做到几乎实时的听写,通常延迟在一秒以内。代价是:润色那一步通常仍然要走云端,因为在一台普通笔记本上跑一个 700 亿参数的语言模型并不现实。少数应用提供完全本地的方案,但会用更小的润色模型,质量也要相应打折扣。
云端处理则把音频和润色都送到远程 API。在老 Mac 上更快,还能用上最大、最准的模型。代价是隐私:你的语音会离开设备,哪怕转写完就被立刻删掉也是如此。
对大多数人来说,「本地 Whisper + 云端润色」是合适的默认搭配。但只要你处理的是敏感内容(病历、法律文件、公司内部资料),完全本地带来的那一点点质量损失就完全值得。一款好应用会让你按次选择,或设置一个默认值。
AI 听写目前仍会翻车的地方
说点实话。这条管线已经很好了,但还没到完美。
同音词依然会出错。 「Their」「there」「they're」大多数时候能选对,但并非总是如此。润色环节通常可以从上下文里补救,但如果句子本身就模糊,就救不回来。
专有名词和行话则碰运气。 Whisper 见过大多数常见姓名和技术术语,但只要够专业就会被它写得面目全非:药品名、代码库名、你某位同事不常见的姓氏,都很容易翻车。一些应用允许你添加自定义词典,把它们一并塞进提示词。
嘈杂环境会让准确率迅速下滑。 Whisper 应付咖啡馆的背景音算意外地好,但旁边两米外的电话铃声或者别人正在说话,就会把你的词从转写里「带走」。
长段独白容易跑偏。 这个模型在 10 到 30 秒的短段里表现非常好;超过 90 秒之后,它有时会丢失思路、重复片段或漏掉短句。解决办法很简单:分段录,停一下再开始。
刚开始用的时候,这些限制都值得留意,但只要你知道它们存在,就没有一个是致命问题。如果你正在挑选工具,我们这篇Mac 最佳语音转文字应用指南会带你看主流应用是如何处理这些取舍的。
如何今天就开始在 Mac 上使用 AI 语音听写
按顺序来三步即可。
1. 选一件每天都要做的事,连续一周用听写完成它。 邮件是不错的入门选择,因为它的「打字-说话」转换率最高(反正你下笔前通常也会先想清楚)。别想一次把所有事情都改成听写,那样你只会放弃。
2. 适应对着「没人」说话。 头几次听写的时候,在安静的房间里大声说话会让你觉得有点怪。这种感觉大概四天就会消失。
3. 选一款应用,坚持用下去。 从 Apple 自带听写、到各种开源 Whisper 工具、再到完整管线的应用,各价位都有不错的选择。如果你想要上面描述的那种「转写完直接润色粘贴」的流程,Voicr 做的正是这件事:按住 FN,开口说,粘贴。用 Whisper 做转写,用一个强语言模型做润色,再配上一套会根据光标所在位置自适应的应用级写作风格。免费版每月给你 5,000 词,无需绑定信用卡。
整条管线背后的技术终于成熟到,听写不再是一种妥协。你不再需要拿质量换速度,两边都能拿到。剩下最难的,无非是下决心停止打字。

