情境感知 AI 如何为每个应用重写你的语音

试着大声说一句话：「嘿，有空的时候把最新的数据发给我哈。」这句话该变成什么样，取决于它要去哪里。丢进 Slack，它已经够用了。放进给客户的邮件里，就得加上称呼，把请求说得更委婉。作为 Jira 评论提交时，它应该缩成三个词：「需要最新数据。」

你做这种调整时根本不用多想。你的大脑会读懂场合——哪个应用、对哪个人、有多正式——然后在话说出口的瞬间重新组织措辞。情境感知 AI 做的是同样的事，只不过是自动完成，针对的是你口述的语音。

现在值得关注这件事，是因为语音转写终于变好用了。你能以每分钟约 150 个词的速度说话，是大多数人每分钟 40 个词的打字速度的三到四倍。但原始语音和任何单个应用希望你采用的写法都对不上。重写这一层，正是用来弥合这道鸿沟的。

同一句话，六种不同的消息

语音是不分语体的。说话时，你不会去挑格式。你只是把意思说出来，格式是事后才被套上去的——由你决定，在你想好它该落在哪里的时候。

写作恰好相反。你打字的每一个应用都有自己一套无声的规矩，规定文字该是什么模样、该怎么读。

拿同一句要数据的话，看它如何随着窗口变换形态： - Slack：「嘿，有空把最新数据发我一下？」 - 邮件：「Maria 你好，方便的时候能把最新数据发给我吗？谢谢！」 - Jira：「需要最新数据。」 - 给自己的便签：「待办：向 Maria 要最新数据。」 - 发给同事的短信：「能发下最新数据不」

每一次的意图都一样。五种场合，五个不同的正确答案。这些你早就能随手写出来。问题在于，每一种都要你做一点几乎察觉不到的微调，而且这事一直在发生。《哈佛商业评论》的一项研究测算出，员工每天在应用之间切换约 1200 次，差不多每 24 秒一次。其中很多次切换，都附带着一种全新的写作风格。

转写与情境感知重写的区别

把两件常被混为一谈的事分开看，会很有帮助。转写是把声音变成文字。情境感知重写则是把这些文字变成适合目的地的正确消息。

普通转写到第一步就停了。Apple 自带的听写、大多数语音转文字工具、手机上的实时字幕——它们交给你的是一份你所说内容的逐字记录，连语气词和说错重来的部分都一并保留。

一个随口想法的原始转写，实际上长这样： ``` 嗯就是吧我在想我们大概应该把发布往后推到下周吧因为那个那个 QA 还没做完你懂的 ```

情境感知重写会拿同一段音频，再问第二个问题：这要去哪里，到了那里该是什么口吻？发往给团队的一条 Slack 消息时，它会变成： ``` 我们把发布推到下周吧，QA 还没做完。 ```

进去的是同样的话，出来的却是不同的文字，由目的地塑形而成。前者是一份录音。后者是你真能发出去的东西。关于这种润色环节，可以参阅我们对AI 语音听写工作原理的拆解。

左侧一条杂乱的语音转写，分叉成右侧三条干净的消息：一条随意的 Slack 便条、一封正式的邮件，以及一条简短的工单评论

「情境」对 AI 来说究竟意味着什么

在你看清这些工具读取的具体线索之前，「情境感知」听起来挺玄乎。其实它一点也不神秘。所谓情境，就是 AI 在动笔修改之前会检查的一份简短信号清单。

当前活跃的应用

最响亮的信号，是你说话时哪个应用处于焦点。工具能看出前台是 Slack、还是 Gmail、还是 VS Code。这一个事实就能大幅缩小风格范围。聊天要短而随意，邮件要有条理、有礼貌，代码编辑器要简练、要直白。

光标周围的文字

有些工具会读取你即将输入位置附近的一点文字。如果上面那条消息以「尊敬的 Katz 博士：」开头，AI 就会保持正式，并把名字拼写正确。如果整段对话是一堆一行一句的玩笑，它就改成与之相称的口吻。

看的是网站，而不只是浏览器

在浏览器里，应用识别会变得含糊，因为 Gmail、X 和一份 Google 文档全都藏在同一个窗口背后。更好的工具会查看 URL 来区分它们，于是 Gmail 标签页得到邮件式处理，X 标签页得到一条干脆利落的帖子。

应用类别

大多数系统不会为有史以来的每一个应用都留一条规则，而是把应用归入少数几个类别：邮件、工作聊天、私人通讯、文档、代码，再加一个收纳其余一切的兜底类别。每个类别有一种风格。一个落入已知类别的新应用，从第一天起就继承了该类别的风格。

把这些信号叠加起来，AI 就对场合有了过得去的判断：是发给某个具名对象的正式邮件，还是随意对话里一句随手丢出的话。它正是依据这个判断来重写的。

你的语音如何变成正确的消息

把各个环节排好，整件事不过是四个快步骤，全都发生在你说完一句话到文字出现之间的那一两秒里。 1. 采集。你按住一个键开始说话。工具一直录到你松手。 2. 转写。语音模型把音频变成原始文字，一字不差地是你说的话。 3. 识别情境。工具检查当前活跃的应用、光标附近的文字，以及该应用落入哪个类别。 4. 重写。语言模型拿到原始转写加上这份情境，写出最终消息，按目的地裁好长度、定好口吻。

第四步是大语言模型挑大梁的地方。它拿到你那份乱糟糟的转写，外加一条归结起来就是「这要发进一封工作邮件，把它写得像那么回事」的指令，然后返回长度、语气和形态都恰到好处的文字。结果会因模型而异，所以把输出当作一份很不错的初稿，而不是金科玉律。

这正是 Voicr 在 macOS 上运行的流程。你按住 FN 键，在任意应用里说话。Voicr 识别出前台是哪个应用，通过它的 Smart Rules 应用相应的风格，再把润色好的文字放到你的剪贴板上：在 Slack 里随意，在 Gmail 里专业，在编辑器里简短。你从不需要打开菜单去挑口吻。如果你想看看这些针对每个应用的风格是怎么写出来的，我们这篇智能写作规则指南会带你了解一条好规则该包含什么。

用一组友好的图标展示的四步流程：一个采集语音的麦克风、一份转写、一个识别当前应用的放大镜，以及一条落入剪贴板的润色好的消息

两种风格：自动识别与显式规则

并非所有情境感知都以同样的方式运作。工具分成两派，区别主要在于由谁来决定风格。

自动那一派替你拿主意。它读取应用，归入某个类别，再套用内置风格，完全不用设置。你装上它，它就直接管用。代价是控制权：当它对「邮件口吻」的理解和你的不一致时，你就只能靠手动一点点去拨正输出。

显式那一派把方向盘交给你。你为每个应用写一条简短的指令，用大白话描述清楚它该是什么口吻。前期要多花点功夫，但输出会合你口味，因为口味是你定的。一条 Slack 规则也许会这样写： ``` 重写成一条随意的 Slack 消息。两三句话，可以用缩写口语，不要称呼或落款。只在合适时配一个轻量表情。 ```

更好的工具会把两者糅合起来：开箱即用的合理默认值，外加你愿意上心时可以写的针对每个应用的规则。那些你几乎不碰的应用，靠默认值就行；至于那两三个你的写作真正要紧的应用，就给它们设上显式规则。

它擅长什么，又会在哪儿翻车

情境感知重写确实很顺手，但它是个起点，不是会读心术。知道它在哪儿会跌跤，能让你不至于盲目信任它。

格式它拿捏得稳，意图它只能靠猜

AI 能看出你在写邮件，给你加上称呼。但它没法可靠地分辨你是真心还是在阴阳怪气，也分不清「行吧」是真的行，还是你在默默动怒。同一语体之内的语气，仍然得你自己来把控。

含糊的应用会把它搞晕

一个兜底类的浏览器、一个跑着聊天客户端的终端、一个你拿来记一切的笔记应用：这些给出的信号都很弱。当情境一片浑浊，重写就会退回到一种通用润色，正式程度可能比你想要的高，也可能低。

它会把你的语气磨平

重写用力过猛，你的消息就会开始听起来跟所有人的一个样——圆滑、得体，又有点死气沉沉。好的工具会把你的语气挪进合适的语体，而不是用一套公司腔的默认口吻把它换掉。如果输出听起来不再像你，就把规则放松一些。

发送前你仍然得读一遍

名字可能写错。数字可能出岔。发出去之前先扫一眼结果，就像你按发送前会瞄一眼被自动更正过的短信那样。

把情境感知重写用起来

想今天就试试？从你写得最多的两个应用入手，通常是一个聊天工具和邮件。接下来的那几条消息，在那里用口述代替打字，然后看看事后你其实需要改的有多少。

然后留意那些没说中的地方。输出不对劲时，那是有用的信息。它在告诉你：这个应用的风格需要调，或者你该把意图更直白地说出口。你越清楚地告诉这些工具每个应用该是什么口吻，它们就越锋利。这一招在你写字的任何应用里都管用，不只是那两个显而易见的，正如我们在用一个按键在任意 Mac 应用里听写中讲过的那样。

真正的赢面不只是速度，尽管以三倍于打字的速度说话本身就是个不错的起跑优势。真正改变的是，你不再把格式扛在脑子里。你想到这个念头，说一次，再让工具去理清哪个版本该去哪儿。

说一次，处处落位

旧习惯是把消息和格式在同一刻一起写出来：措辞、语气、称呼、落款，全在一遍里搞定，对每个应用如此，一整天都如此。情境感知 AI 把这桩苦差事一分为二。你负责提供念头，它负责提供格式。

感受这种差别最快的办法，就是把你的下一封邮件用口述代替打字。如果你想让语音一出现就已经为目的地塑好了形，Voicr 能在你的 Mac 上做到这一点：按住 FN，开口说，文字就会以贴合当前应用的口吻落下。一句话从你嘴里出来，每个窗口里都是恰当的那条消息。