返回博客

Voicr Team · 2026年5月23日

我如何用 AI 缩短从思考到写作之间的距离

以第一人称视角分享一套 AI 工作流,让脑中所想能够以接近思考的速度落到纸面上。

我如何用 AI 缩短从思考到写作之间的距离

大多数早晨,我打开笔记本电脑时,脑海里已经清楚想写什么。第一封邮件已经在脑子里草拟好了。可等手指放到键盘上,内容已经溜走了一半。我把还记得的那部分敲出来,盯着屏幕,试图把剩下的找回来。

在「知道自己想说什么」和「把它写到纸上」之间的那段距离,我称之为「间隔」。多年来我一直把它当成写作的一部分。其实不是。那是工具带来的代价。AI 是第一个真正帮我缩短这段间隔的东西。

这是一篇第一人称的分享,不是清单文,也不是工具盘点。只是我过去一年沉淀下来的工作流——哪些有效,哪些还不行。

没人谈论的速度问题

数字能解释这段间隔为什么会存在。一个普通的桌面打字员速度大约是每分钟 40 个单词。熟练的职业人士能到 60 或 70。日常对话不费力气就能达到大约 150 wpm。而内心独白——也就是你在心里默默组织一句话时的那个声音——上限估计能到 300 wpm。

所以粗略比例是:思考 300、说话 150、打字 40。打字是这条链路里最慢的一环,差距还很大。你为之等待的一切都是摩擦,而摩擦正是想法溜走的地方。

对我来说改变的不是打字速度。我的键盘没有更快。改变的是把瓶颈换了一个位置。我不再硬撑着用打字速度去写,而是让自己用说话的速度去写,让 AI 在背后帮我做清理。

打字为什么会悄悄让你变小

打字的代价不只是慢。代价是你会下意识地把想法削减到能塞进瓶颈的大小。你写一个更短的版本,跳过细节,删掉那个例子。点完发送之后还隐隐觉得自己说得不够真。

我在 Slack 里最能感受到这一点。我会开始打一段认真的回复,看着光标停在那里,在脑子里反复改这句话,然后整段删掉,只发三个字。「好的。」「收到。」「在做。」很多工作对话就死在了这里——不是我没什么可说,而是把它说出来的代价比说出来本身更贵。

当我不再用打字而是用说话来回这些消息时,内容变长了,变得更有温度,也更清晰。同一个大脑,只是换了一条输出通道。

「间隔被填上」时的真实感受

举一个星期二上午的场景。客户发来一封邮件,问项目为什么延期。其实是有完整答案的:一部分是我们这边的需求变更,一部分是他们审批太慢,一部分是节假日。这不是一句话能说完的事,而是三段话——既要委婉,又不能含糊其辞。

以前的我会打开回复框,把第一句话敲两遍又删掉,然后花十五分钟憋出四段客气却没说清的话。

现在的我按住一个键,讲九十秒,松开。回复已经躺在邮件里,段落分好了,语气也理顺了,「呃」「那个」之类的口头禅都没了。我读一遍,改一处措辞,点发送。整封邮件只花了两分钟而不是十五分钟,而且更接近我真正想表达的意思——因为我从来不需要把想法压缩到打字的速度。

左边一个凌乱的语音气泡,被 AI 打磨成右边一封干净、结构清晰的邮件

第一次成功的时候我有点愣住。倒不是因为这项技术有多神奇,其实它并不。原因更简单:那些我一直以为是写作必经之苦的摩擦,原来是可以省去的。

让一切真正成立的两层 AI

我花了一段时间才意识到,我的工作流里其实有两层 AI 在协作,而且两层都在出力。大家通常只谈其中一层,很少有人把两层都讲清楚。

第一层:语音进、干净文字出

第一层是带 AI 润色的语音听写。我按住一个键,正常地说话(带着「呃」、重新开头、半截句子),最后落到剪贴板里的文字已经被整理过了。口头禅去掉了,语法修好了,长句被切成了真正的段落。

这跟系统自带的听写不一样。Apple Dictation 给你的是带着「呃」的原始转写,AI 润色则是在保留原意的前提下,把转写重写一遍。前者是录音,后者已经是一稿。

第二层:文字进、更好的文字出

第二层是原地文本修正。我选中一段已经写好的内容(一段话、一个句子、一整封邮件),按一个快捷键,挑一个指令,比如「让它更精炼」或者「让语气更柔和」,然后选中的部分会就地被改写。不需要切应用,不需要把内容复制到聊天机器人里。原来的文字直接被一个更好的版本替换掉。

语音听写负责把想法快速送到纸面上。原地修正负责最后那 10% 的打磨。两者合在一起,比任何单独一层都更接近「以说话的速度写作」。

我每天真正在用的工作流

下面是普通一天的样子。没有任何理论成分,这就是我现在写作的实际形态。

早晨处理收件箱。每封邮件读完,我就口述回复。大多数是一段话,少数会更长,几乎没有再用键盘敲的。以前要吃掉一小时的那一批邮件,现在大约二十分钟就能处理完。

Slack,全天。短回复还是用键盘,因为摩擦小、动脑也少。任何超过两句话的内容我都用说的。语气会自动随意一些,因为我平时在 Slack 里就是这么说话的。

文档和笔记。初稿几乎都是口述出来的。我新建一个空白文档,围绕要写的主题随意讲五到十分钟,然后就有一份可以动手改的真实草稿。改稿比从零开始写要快得多,而思考与写作之间的间隔,正是在空白页阶段最宽。

修订阶段。这是第二层 AI 派上用场的地方。读起来生硬的句子,我选中,要求一个更紧凑的版本;过于拘谨的段落,我选中,要求一个更有温度的版本。每次修改两秒钟,就地完成,完全不用切应用。

有件事让我有点意外:我现在写的总字数变多了,不是变少了。AI 没有取代我的产出,它只是把那部分纯粹的「敲键盘税」拿掉了。

如果你想看一看这种工作流在邮件场景下的具体玩法,我在在 Mac 上口述邮件里写得更细。

让这一切跑起来的那个设置

有一个设置,我刚开始尝试这种工作流的时候差点跳过,最后发现它才是让整件事真正可用的关键:按应用区分写作风格。

Slack 和邮件需要的语气不一样。一封正式求职信和一份 Notion 头脑风暴也不可能用同一种语气。如果 AI 润色把一切都磨成同一个声音,输出虽然变快了,质量却变差,你会很快不再信任它。

这正是 Voicr 提供智能规则(Smart Rules)的原因。给 Slack 设一个随意的语气,给 Mail 设一个更正式的,给终端设一个不带任何修饰的。Voicr 会检测当前应用,自动套用对应的风格,你什么都不用做。我在每个应用里用同样的方式说话,输出会自动适配。就是这一点,让我不再在「重要」消息上退回到键盘。

原始听写会在哪里崩掉(以及润色如何救场)

原始听写有一种很典型的失败方式,试过的人都不陌生。你说了一段话,转写回来,「呃」一个不少地保留,两次重头开始的内容被拼在一起,还有一个因为你没停顿而拖了四十个字的长句。

你当然可以去改它。但改一份原始转写本身就是另一种活儿,有时候比你一开始好好把内容打出来还慢。这就是为什么大多数试用自带听写的人,坚持不过一周。

润色改变了这道数学题。当 AI 把口头禅去掉、把语法修好、把整面墙似的语流切成段落,出来的内容就是我可以直接发出去、不用再改写的东西。听写这一步不再是「零号稿」,而更接近一份成稿。

这是其他文章常常一笔带过的地方。语音相对打字的速度优势是真的,但只有在你不需要把节省下来的时间还回去做清理时,它才真正有用。

诚实的取舍

并不是处处都赢。有几类内容仍然更适合用键盘:

- 高度技术性的文本,带代码、命令名或产品 SKU。听写能识别词,但符号未必总能对。我还是用键盘写代码。 - 嘈杂环境。咖啡馆、飞机、合用办公室。在安静的房间里对着电脑说话没问题,在旁边有人开会的地方就不行。 - 跟身边人有关的敏感话题。分手邮件,或者很难开口的反馈意见,这种内容我宁愿打字,也不想在可能被听到的地方说出来。 - 深度编辑。当文档已经基本成型,我更愿意用键盘做精细的小改动。语音是用来把内容送到纸上的,不是用来挪逗号的。

知道什么时候该切回键盘,本身就是这套工作流的一部分。键盘没有消失,只是不再是默认选项。

这件事到底让我什么变了

实话实说,答案不是「我的产出翻了四倍」。比那要小,也要奇怪一些。

我在 Slack 上发的回复变长了,因为写它的成本下降了。我留下的半截笔记变少了,因为口述完整一个想法比敲一个片段还快。我会在想法冒出来的当天就写初稿,而不是把它留给那个其实从来不会真正到来的「专注时段」。「有了想法」到「有了草稿」之间的距离,从几天缩短到了几分钟。

这是速度数字捕捉不到的部分。真正要问的不是「我能不能写得更快」,而是「写作这件事是不是已经便宜到我想写就写,而不是攒着等一个从来不会到的整块时间」。

如何今天就试一下

如果你想测一测这套方式适不适合你,不要试图把整个工作流推倒重来。挑一个场景就够了。

1. 找下一封需要写超过两句话的邮件回复。 2. 别用键盘,按住听写键,把你想说的话说出来。别在心里先打草稿,就直接说。 3. 松开按键,读一下落到输入框里的内容。 4. 如果接近你想表达的意思,改一两个不顺的措辞,然后发送。

这样做五次。第一天结束时你就会知道,我说的那段「间隔」是不是也是你的间隔。

如果你不想自己拼凑上面这套工作流,Voicr 就是我自己在用的应用。按住 FN,说话,粘贴。输出已经润色好,语气会跟着你所在的应用自动调整,选中文字加 ⌥Space 还能完成第二步的原地修改。每月有五千字免费额度,先试试看它是不是适合你。

键盘不会消失。但二十年在电脑前写东西的日子里,这是第一次,它不再是我必须迁就的那个瓶颈。