返回博客

Voicr Team · 2026年5月23日

我如何用 Mac 语音输入把写作速度提升 3 倍

我花了一个月用说话代替打字。下面是真实复盘——哪些有效、哪些无效,以及 3 倍背后的算账。

我如何用 Mac 语音输入把写作速度提升 3 倍

那天我正在回一条 Slack 消息,回到一半突然意识到一件事:同一句话我在脑子里已经想了十二秒,手指才打到第四个词。大脑空转着,等着双手追上来。

就是从那一刻起,我决定认真试一次语音输入。不是那种「下次开会做个会议记录用一下」的敷衍尝试——那种我之前已经放弃过两次了。这次是整整一个月,每一条长消息、每一封邮件、每一个文档,全部用语音。下面是我真正得到的结论。

光看宣传像是吹牛,看数字就明白了。普通人打字大概每分钟 40 个英文单词,而说话的速度是 130 到 150。斯坦福的研究人员在 2017 年做过这组对比,结论是即便对方是打字很快的人,语音输入在手机上也大约比键盘快 3 倍。在 Mac 键盘上,这个倍数基本也成立。

数字很扎心:40 词/分钟 vs 150 词/分钟

先把这部分讲清楚。大多数没接受过训练的成年人打字速度在每分钟 38 到 40 词;盲打熟手能到 65 左右;而日常对话的语速是 130 到 150 词/分钟。哪怕对手是打字飞快的人,这也是 2 倍以上的差距。对普通人来说,差距接近 3.75 倍。

这是理论。实际情况更有意思。你第一次真的拿秒表对比「口述一封邮件」和「打字一封邮件」时,会发现差距没有理论上那么夸张。为什么?因为打字是一个连贯动作,而口述是:先说出来,再校对,可能还要重念一句,然后粘贴。这部分「清理税」会吃掉你的速度优势。

解药藏在工具里。老式的语音输入只会给你一段原始转写,里面满是「呃」「嗯」「就是我想说的是」这种填充词。新一代工具会把这些一步润色成干净的文本。当清理这一步自动完成,3 倍才是真的 3 倍。

「快 3 倍」在真实工作日里到底是什么样

切换之前,我一个普通周二大概是这样:6 条比较长的 Slack 消息(每条约 80 词)、4 封邮件(每封约 120 词)、2 个短文档(每个约 400 词),再加一些一句话的回复。总输出大约 1,800 词。不算思考时间,光是在键盘上的时间,大约 45 分钟。

换成语音之后,同样的工作量,带润色的口述总耗时大约 14 分钟。几乎正好 3 倍。让我意外的不是省下来的时间,而是这些时间去了哪儿。我不再是「打开草稿、走开、回来、整段重写」的循环。一个想法从脑子里出来,一遍就落到屏幕上。

并排对比:打字 45 分钟 vs 说同样内容 14 分钟

我觉得语音输入特别好用的场景: - 较长的 Slack 串 - 超过两句话的邮件回复 - 开会时同步做会议记录 - 任何东西的初稿 - 想到哪写到哪的脑暴文档 - 之后会变成正式文档的语音笔记

不太合适的场景: - 短回复(「收到」「谢啦」) - 写代码 - 结构化表格 - 密码 - 任何需要逐字斟酌的内容

第一周很糟糕,我来说说哪里出了问题

第三天我差点放弃。第一个问题是——对着电脑说话本身就别扭。感觉很「做作」。我会说一句话,中途泄气、停下来,最后留下半截转写好的句子,改它比直接打字还慢。

第二个问题是「用力过猛」。我把自己当成是在口述一封正式信函,说得又慢又小心,每个字都咬得清清楚楚。结果输出听上去像机器人,速度优势全没了——我只是在「用嘴打字」,而且打得很差。

解决办法跟我想的恰好相反:说得快一点,而不是慢一点。要像跟同事解释事情那样自然地说,允许有结巴,允许中途说「算了我换个说法」。好的润色工具会替你清理掉这些。别再想着「口述」,就当成讲话。

真正的突破:知道什么时候不该用语音

让语音输入从「偶尔试一下的实验」变成「默认的输入方式」的,是一个心智模型:语音用于*初稿*,键盘用于*修改*。键盘擅长精确,语音擅长速度。先把粗糙的版本说出来,再用键盘修掉那一两个不对的词。

现在回头看这条很显然,但当时一点都不显然。我一直想着用语音直接说出完美的句子,一旦润色出的结果跟我心里想的*差一点点*就特别挫败。真正帮到我的,是把对「口述初稿」的期望降下来。先把意思说出来,再用键盘两秒钟修一下,翻篇。

这也是「边说边润色」工作流之所以重要的原因。如果你得先口述,再手动清理填充词,再修语法,再调整成当前 App 适用的格式,那点速度优势早就没了。重点就在于:清理这一步要自动完成。等你说完话,文字已经可以直接粘贴了。Voicr 在 Mac 上做的正是这件事:按住 FN,说话,松手,粘贴。润色在后台完成。

最后留下来的工作流(Slack、邮件、文档)

一个月之后,有三种工作流稳定下来了。每一种都需要稍微不一样的配置。

三个应用窗口(Slack、邮件、文档),每个都带一个麦克风图标和不同的写作语气标签

Slack 和聊天

这是收益最大的一块。我会写很多偏长的 Slack 消息:决策说明、复盘、长串讨论。以前每条要十分钟,现在三分钟。我一口气把消息说完,粘贴,扫一眼有没有错别字,发出去。(在 Mac 上用语音输入到 Slack 这篇讲了各个频道的具体配置。)

邮件

邮件是我原本最期待提速的地方,但一开始的结果最乱。问题在于:邮件是有语气的。你不能用跟队友发 Slack 一样的方式去口述一封给老板的回信。解决办法是按 App 设置不同的风格——邮件用正式,聊天用随意。(如何在 Mac 上用语音写邮件 里有详细做法。)

文档和笔记

文档是最微妙的一种。短笔记很顺手:口述、粘贴、搞定。长文档不行,因为长文档的思考是结构性的——你不是在写句子,而是在搭章节、调顺序、改框架。所以长文档我是一段一段口述,但结构这部分留给键盘。

除了速度之外的额外收获

3 倍是标题。真正没想到的好处比这更大。

未完成的草稿少了。当打字是瓶颈时,每一条长消息都会以「先存草稿,晚点写完」开头。然后大多数都死在了草稿箱里。语音把「想到」和「输出」之间的距离压扁了。现在我会发出那些过去会拖两天还没发出去的内容。

手腕没那么累了。我不会硬说语音输入治好了我的手。但「打 6 小时字」和「打 2 小时字」的差别是真实的,我的手腕在周五晚上能感觉得到。

初稿更好了。这点让我意外。当你把一个想法说出来,你会很自然地按「向别人解释」的方式去组织它。打字初稿往往更僵——因为它读起来就像「写出来的」,事实也是如此。口述出来的初稿读起来像一个人在说话,而这通常就是你想要的。

没人提前告诉你的那些坑

两个真实存在的缺点,都有应对方法,但开始之前最好先知道。

开放式办公室里没法用,咖啡馆也不行。只要周围有人能听见,就不太行。这听上去是废话,但实际限制比想象中大。如果你的工作环境是共享的,那么语音输入就是一个「只能在家用」的工具,生产力提升的天花板会被拉低。

即便用好工具,也仍然有清理成本。只是小而已。可能从「每句要改一处」降到「每段要改一处」,但不是零。整体账还是大幅有利,但如果你期待清理完全是零,大概会失望。

如何上手才不会三天就放弃

有几条规则,我希望第一天就有人告诉我。

先从一个 App 开始,而不是所有 App。挑一个你写得最多、压力又最小的长文本 App。对我来说是 Slack。先用一周只在那个 App 里用语音,别想着一次把整个工作流全切过去。

给自己一周的怀疑期。第三天会很糟,第五天能凑合,第七天你切回键盘的时候会明显感到落差。如果你第三天就放弃,你就永远到不了第七天。

用一个默认就会帮你润色的工具。这是最关键的一条。纯转写工具会让你把节省下来的时间全花在清理上。一个会自动去掉填充词、修语法、把输出整理好的工具,才是那种能让 3 倍真的兑现的工具。

别在别人面前用,任何时候都别。不是因为它声音大(它不大),而是因为「被人看到」的尴尬感会拖垮你的速度。第一个月先找个安静的地方用。

从哪里开始

实话实说:语音输入是有用的。不是营销文案里那种「这改变了一切」的有用,而是「我现在下午 4 点就能收工」的那种有用。3 倍是真的;而那些不替你处理清理这一步的工具,正是大多数人在第一周就放弃语音输入的原因。

想自己验证一下,最快的办法就是把你下一条比较长的 Slack 消息用说的,而不是用打的。如果你想要的是「自动处理清理、一步把语音变成可粘贴文本、还能按 App 切换风格」,Voicr 在 Mac 上正是这么做的:在任何界面按住 FN,说三十秒,松手,粘贴。明天早上挑一条消息试一下,一周之后你就知道 3 倍对你是不是真的。