试着大声说一句话:「嘿,有空的时候把最新的数据发给我哈。」这句话该变成什么样,取决于它要去哪里。丢进 Slack,它已经够用了。放进给客户的邮件里,就得加上称呼,把请求说得更委婉。作为 Jira 评论提交时,它应该缩成三个词:「需要最新数据。」
你做这种调整时根本不用多想。你的大脑会读懂场合——哪个应用、对哪个人、有多正式——然后在话说出口的瞬间重新组织措辞。情境感知 AI 做的是同样的事,只不过是自动完成,针对的是你口述的语音。
现在值得关注这件事,是因为语音转写终于变好用了。你能以每分钟约 150 个词的速度说话,是大多数人每分钟 40 个词的打字速度的三到四倍。但原始语音和任何单个应用希望你采用的写法都对不上。重写这一层,正是用来弥合这道鸿沟的。
同一句话,六种不同的消息
语音是不分语体的。说话时,你不会去挑格式。你只是把意思说出来,格式是事后才被套上去的——由你决定,在你想好它该落在哪里的时候。
写作恰好相反。你打字的每一个应用都有自己一套无声的规矩,规定文字该是什么模样、该怎么读。
拿同一句要数据的话,看它如何随着窗口变换形态: - Slack:「嘿,有空把最新数据发我一下?」 - 邮件:「Maria 你好,方便的时候能把最新数据发给我吗?谢谢!」 - Jira:「需要最新数据。」 - 给自己的便签:「待办:向 Maria 要最新数据。」 - 发给同事的短信:「能发下最新数据不」
每一次的意图都一样。五种场合,五个不同的正确答案。这些你早就能随手写出来。问题在于,每一种都要你做一点几乎察觉不到的微调,而且这事一直在发生。《哈佛商业评论》的一项研究测算出,员工每天在应用之间切换约 1200 次,差不多每 24 秒一次。其中很多次切换,都附带着一种全新的写作风格。
转写与情境感知重写的区别
把两件常被混为一谈的事分开看,会很有帮助。转写是把声音变成文字。情境感知重写则是把这些文字变成适合目的地的正确消息。
普通转写到第一步就停了。Apple 自带的听写、大多数语音转文字工具、手机上的实时字幕——它们交给你的是一份你所说内容的逐字记录,连语气词和说错重来的部分都一并保留。
一个随口想法的原始转写,实际上长这样: ``` 嗯就是吧我在想我们大概应该把发布往后推到下周吧因为那个那个 QA 还没做完你懂的 ```
情境感知重写会拿同一段音频,再问第二个问题:这要去哪里,到了那里该是什么口吻?发往给团队的一条 Slack 消息时,它会变成: ``` 我们把发布推到下周吧,QA 还没做完。 ```
进去的是同样的话,出来的却是不同的文字,由目的地塑形而成。前者是一份录音。后者是你真能发出去的东西。关于这种润色环节,可以参阅我们对AI 语音听写工作原理的拆解。

「情境」对 AI 来说究竟意味着什么
在你看清这些工具读取的具体线索之前,「情境感知」听起来挺玄乎。其实它一点也不神秘。所谓情境,就是 AI 在动笔修改之前会检查的一份简短信号清单。
当前活跃的应用
最响亮的信号,是你说话时哪个应用处于焦点。工具能看出前台是 Slack、还是 Gmail、还是 VS Code。这一个事实就能大幅缩小风格范围。聊天要短而随意,邮件要有条理、有礼貌,代码编辑器要简练、要直白。
光标周围的文字
有些工具会读取你即将输入位置附近的一点文字。如果上面那条消息以「尊敬的 Katz 博士:」开头,AI 就会保持正式,并把名字拼写正确。如果整段对话是一堆一行一句的玩笑,它就改成与之相称的口吻。
看的是网站,而不只是浏览器
在浏览器里,应用识别会变得含糊,因为 Gmail、X 和一份 Google 文档全都藏在同一个窗口背后。更好的工具会查看 URL 来区分它们,于是 Gmail 标签页得到邮件式处理,X 标签页得到一条干脆利落的帖子。
应用类别
大多数系统不会为有史以来的每一个应用都留一条规则,而是把应用归入少数几个类别:邮件、工作聊天、私人通讯、文档、代码,再加一个收纳其余一切的兜底类别。每个类别有一种风格。一个落入已知类别的新应用,从第一天起就继承了该类别的风格。
把这些信号叠加起来,AI 就对场合有了过得去的判断:是发给某个具名对象的正式邮件,还是随意对话里一句随手丢出的话。它正是依据这个判断来重写的。
你的语音如何变成正确的消息
把各个环节排好,整件事不过是四个快步骤,全都发生在你说完一句话到文字出现之间的那一两秒里。 1. 采集。你按住一个键开始说话。工具一直录到你松手。 2. 转写。语音模型把音频变成原始文字,一字不差地是你说的话。 3. 识别情境。工具检查当前活跃的应用、光标附近的文字,以及该应用落入哪个类别。 4. 重写。语言模型拿到原始转写加上这份情境,写出最终消息,按目的地裁好长度、定好口吻。
第四步是大语言模型挑大梁的地方。它拿到你那份乱糟糟的转写,外加一条归结起来就是「这要发进一封工作邮件,把它写得像那么回事」的指令,然后返回长度、语气和形态都恰到好处的文字。结果会因模型而异,所以把输出当作一份很不错的初稿,而不是金科玉律。
这正是 Voicr 在 macOS 上运行的流程。你按住 FN 键,在任意应用里说话。Voicr 识别出前台是哪个应用,通过它的 Smart Rules 应用相应的风格,再把润色好的文字放到你的剪贴板上:在 Slack 里随意,在 Gmail 里专业,在编辑器里简短。你从不需要打开菜单去挑口吻。如果你想看看这些针对每个应用的风格是怎么写出来的,我们这篇智能写作规则指南会带你了解一条好规则该包含什么。

两种风格:自动识别与显式规则
并非所有情境感知都以同样的方式运作。工具分成两派,区别主要在于由谁来决定风格。
自动那一派替你拿主意。它读取应用,归入某个类别,再套用内置风格,完全不用设置。你装上它,它就直接管用。代价是控制权:当它对「邮件口吻」的理解和你的不一致时,你就只能靠手动一点点去拨正输出。
显式那一派把方向盘交给你。你为每个应用写一条简短的指令,用大白话描述清楚它该是什么口吻。前期要多花点功夫,但输出会合你口味,因为口味是你定的。一条 Slack 规则也许会这样写: ``` 重写成一条随意的 Slack 消息。两三句话,可以用缩写口语,不要称呼或落款。只在合适时配一个轻量表情。 ```
更好的工具会把两者糅合起来:开箱即用的合理默认值,外加你愿意上心时可以写的针对每个应用的规则。那些你几乎不碰的应用,靠默认值就行;至于那两三个你的写作真正要紧的应用,就给它们设上显式规则。
它擅长什么,又会在哪儿翻车
情境感知重写确实很顺手,但它是个起点,不是会读心术。知道它在哪儿会跌跤,能让你不至于盲目信任它。
格式它拿捏得稳,意图它只能靠猜
AI 能看出你在写邮件,给你加上称呼。但它没法可靠地分辨你是真心还是在阴阳怪气,也分不清「行吧」是真的行,还是你在默默动怒。同一语体之内的语气,仍然得你自己来把控。
含糊的应用会把它搞晕
一个兜底类的浏览器、一个跑着聊天客户端的终端、一个你拿来记一切的笔记应用:这些给出的信号都很弱。当情境一片浑浊,重写就会退回到一种通用润色,正式程度可能比你想要的高,也可能低。
它会把你的语气磨平
重写用力过猛,你的消息就会开始听起来跟所有人的一个样——圆滑、得体,又有点死气沉沉。好的工具会把你的语气挪进合适的语体,而不是用一套公司腔的默认口吻把它换掉。如果输出听起来不再像你,就把规则放松一些。
发送前你仍然得读一遍
名字可能写错。数字可能出岔。发出去之前先扫一眼结果,就像你按发送前会瞄一眼被自动更正过的短信那样。
把情境感知重写用起来
想今天就试试?从你写得最多的两个应用入手,通常是一个聊天工具和邮件。接下来的那几条消息,在那里用口述代替打字,然后看看事后你其实需要改的有多少。
然后留意那些没说中的地方。输出不对劲时,那是有用的信息。它在告诉你:这个应用的风格需要调,或者你该把意图更直白地说出口。你越清楚地告诉这些工具每个应用该是什么口吻,它们就越锋利。这一招在你写字的任何应用里都管用,不只是那两个显而易见的,正如我们在用一个按键在任意 Mac 应用里听写中讲过的那样。
真正的赢面不只是速度,尽管以三倍于打字的速度说话本身就是个不错的起跑优势。真正改变的是,你不再把格式扛在脑子里。你想到这个念头,说一次,再让工具去理清哪个版本该去哪儿。
说一次,处处落位
旧习惯是把消息和格式在同一刻一起写出来:措辞、语气、称呼、落款,全在一遍里搞定,对每个应用如此,一整天都如此。情境感知 AI 把这桩苦差事一分为二。你负责提供念头,它负责提供格式。
感受这种差别最快的办法,就是把你的下一封邮件用口述代替打字。如果你想让语音一出现就已经为目的地塑好了形,Voicr 能在你的 Mac 上做到这一点:按住 FN,开口说,文字就会以贴合当前应用的口吻落下。一句话从你嘴里出来,每个窗口里都是恰当的那条消息。

