返回博客

Voicr Team · 2026年5月23日

如何用一个按键在任意 Mac 应用中口述输入

设置一个 Mac 按键,在 Mail、Slack、备忘录、浏览器和代码编辑器中随时口述。选对快捷键,避开冲突,省去事后整理。

如何用一个按键在任意 Mac 应用中口述输入

你已经在 Slack 里回了三条消息,早晨的邮件刚处理了十封,手腕已经在抗议。每条要说的话其实都很清楚,只是不想再一个字一个字地敲出来。

口述本该解决这个问题。你的 Mac 现在就能做到,而且在任何打开的应用里都行。但大多数人从来不用,试过的人也通常在一周后就放弃了。

原因是摩擦。从「我想说这句话」到「文字出现」之间多出来的每一秒,都是你的大脑花在工具而不是想法上的一秒。解决方法是一个按键。一个能在你所处的任何应用里打开口述的按键,不需要菜单,不需要点击,不需要等待。

这份指南会告诉你怎么把它设置好、该选哪个按键,以及为什么光有按键还不够。

为什么一个按键就能改变一切

说话的速度大约是打字的三倍。普通人打字大概每分钟 40 个词,说话则是 150 个词。斯坦福大学的一项研究在测量人们用语音和键盘撰写短信时,也发现了类似的差距。

你得到的不只是速度。打字会把你的手和你的思路逼到两条不同的轨道上。你先想好一句话,再把它翻译成按键,然后盯着屏幕看有没有打错。口述跳过了中间那一步——你想到一句话,它就出现在屏幕上。

但这种加速只有在触发动作完全隐形时才成立。如果你要点麦克风图标、要切到口述应用、要等窗口弹出来,你的大脑就会从句子里被拽进工具里,整个意义就破坏了。

一个你不用看就能按到、又能在任何应用里用的按键,才能让触发动作保持隐形。按下、说话、松开——整个交互就这么简单。

macOS 内置的口述快捷键

macOS 自带口述功能,而且是免费的。默认快捷键取决于你的硬件: - MacBook Pro 和 Air(2021 年及以后): 按功能键行上的专用麦克风键,也就是过去 F5 的位置。 - 较旧的 Mac: 快速双击 Fn 键。 - 外接键盘: 双击 Control 键,或者按你的设置里的对应键。

要打开它,进入 系统设置 → 键盘 → 听写,然后把开关打开。第一次启用时,macOS 会下载一个本地语言模型。之后,在 Apple Silicon 的 Mac 上,口述就能离线运行。

启用后,点进任何文本框(Mail、备忘录、浏览器标签页、Pages、Slack、Discord),触发快捷键。你会看到一个小麦克风图标,听到一声提示音。说完后,按 Escape 或者再次按下快捷键就能停止。

如何自定义你的口述快捷键

Fn-Fn 这个默认设置有个问题。你得按同一个键两次,而且时机要刚刚好。一半的时间它会被识别成单次按下,尤其是在 Fn 键和其他修饰键挤在一起的笔记本电脑上。

换成单键就能解决。做法如下: 1. 打开 系统设置 → 键盘 → 听写。 2. 找到 快捷键 下拉菜单。 3. 选一个预设,或者选择 自定 然后按下你想用的组合键。

你可以选任何 macOS 接受的按键或组合。单键可以,修饰键加普通键也可以。唯一的规则是这个快捷键必须空闲。如果已经被别的应用或系统功能占用,macOS 会提示你。

选一个不会冲突的按键

这一步是大多数教程会跳过的。选错了快捷键,你在 Photoshop 里每按一次 Cmd+D 就会意外触发口述。或者更糟,你的口述键会触发别的功能。

Mac 键盘上有一个键被高亮,展示如何为口述选择单一快捷键

选键时可以考虑这几点: - F13 到 F19 是最稳的选择。 大多数外接键盘都有这些键,而且 macOS 默认没有给它们分配功能。F13 尤其干净,在原生 macOS 里零冲突。F14 和 F15 默认被分配给屏幕亮度调节,所以你得先在 系统设置 → 键盘快捷键 → 显示器 里把它们关掉。 - 避开 Cmd、Option 和 Control 加字母的组合。 几乎每个应用都用这些来设自己的快捷键,你会一直在和冲突搏斗。 - F1 到 F12 这些功能键有风险,前提是你关掉了「将 F1、F2 等键用作标准功能键」选项。它们同时也是亮度、音量和媒体控制键。 - Caps Lock 这个思路 在你完全不用大写锁定的情况下行得通。像 Karabiner-Elements 这类工具可以把它重新映射成一个 Hyper 修饰键(Cmd+Ctrl+Option+Shift),给你一个完全没有冲突的触发键。之后 Hyper+D 就成了你的口述快捷键,地球上没有任何应用会用 Hyper+D 做别的事。

如果你用的 MacBook 没有 F13 到 F19,右 Option 键是另一个被低估的选项。大多数笔记本用户的右 Option 键基本上从来没碰过。

不管你选哪个,检验标准都一样:你能不能不看键盘、不大幅移动手就按到它,而且不会误触?如果可以,这就是你的键。

问题来了:macOS 口述做不到的事

好,你有了一个按键。你按下去,macOS 把你说的话转成文字。结束了?

并不完全。内置口述在你真正拿它干活的第一周,会暴露几个限制: - 它大约在 30 到 60 秒后会超时。 苹果从未公布过确切的数字,但这个限制是真实存在的,而且没有任何设置可以更改。一两句话和短消息没问题,完整一段就到头了。 - 它会逐字转录。 每个「呃」、每个「嗯」、每句「我是说,其实,让我重新说」都会进到文本里。你说了,它就在那里。 - 它不感知应用。 它分不清你是在写 Slack 消息还是正式邮件,无论哪种情况都给你同样的原始转录。 - 它不做整理。 拖沓的长句、缺失的标点、奇怪的大小写,这些都得你自己来修。

快捷键让你做到「在任意应用里说话」,但它产出的文字才是你真正要粘贴、发送或保存的东西。这就是大多数人放弃口述的地方。他们按下键、自然地说出来,看了一眼结果,发现自己直接打字反而更快。如果就是这个落差一直让你卡壳,这篇关于 Voicr 与苹果内置口述对比 的文章详细拆解了到底缺了什么。

一种说完即净的单键工作流

这就是我们做 Voicr 的初衷。快捷键是 FN。在 Mac 的任何位置按住它,说话,松开。剪贴板里的文字已经被整理好——填充词清掉了,语法修好了,句子也补完了,直接可以粘贴。

对比插图:一边是杂乱的原始语音气泡,另一边是干净润色后的段落

Voicr 的不同之处不在转录环节,而在转录和粘贴之间。Voicr 会让你的语音经过一层 AI 润色,这层模型知道你不是在朗读有声书。你可以漫谈、重启、说到一半改主意,产出的文字依然读起来像你认真写出来的。(如果你想看这套流程在底层怎么运作的深入版本,我们在这里讲过:Mac 上的 AI 语音口述,它是怎么工作的。)

对于「任何应用」这个承诺,有几个细节很关键: - 它在每个有文本框的应用里都能用——Slack、Mail、备忘录、Pages、浏览器标签页、代码编辑器、Notion。你能粘贴的地方,你就能口述。 - 它有 Smart Rules,可以根据当前应用调整语气。Slack 偏口语,Mail 偏正式,代码编辑器偏技术。规则设一次,应用切换时自动适配。 - FN 键是按住录音,不是双击。没有时机的玄学,也没有第二次按键。按下、说话、松开。 - 单独的 听写模式 给你的是原始的、标点正确的转录,不做润色,适合你只想要逐字记录的时候。

如果内置口述一直让你别扭,缺的通常就是这一步润色。快捷键只是工作流的一半,另一半是真正落进剪贴板里的内容。

让语音输入感觉自然的小技巧

快捷键设置好之后,下一个要调整的是你的思路。大多数刚开始用口述的人,都会像对着手机讲话一样:慢慢地、小心地、一个词一个词地说。这种本能是错的。

几个有用的习惯: 1. 以完整的意思来说,而不是一个词一个词。 别在词与词之间停顿,在想法与想法之间停顿。模型对结巴和重复的处理能力比你想的要好。 2. 不要手动报标点。 说「逗号」「句号」「换段」在内置口述里能用,但会打断你的节奏。会润色的工具会替你加好标点。 3. 把它用在初稿上,不要用在终稿上。 当你把结果当成起点时,口述最快。按下键,把话先说出来,再读一遍调整。 4. 挑场景。 长邮件、Slack 消息、Notion 文档、日记,是口述真正赚到的地方。密码、代码和精确的技术术语,还是打字更靠谱。 5. 训练你的反射。 头一周,强迫自己只要超过两句话就用快捷键。之后它就会变成本能。

最大的转变是心态上的。你不再在心里把句子预先写好再说出来,而是边想边说,文字自己会跟上。

你用口述包办一切的第一天

选一个键。今天,现在。打开 系统设置 → 键盘 → 听写,点自定,绑一个你不用想就能按到的键。有 F13 就用 F13,没有就用右 Option。

然后承诺把它用在一件真实的事情上。下面三封邮件用语音回。下面五条 Slack 消息用语音发。下一条笔记用语音写。别给自己的输出打分,只去感受想法从大脑到屏幕的速度快了多少。

如果 macOS 自带的口述就够你用了,那挺好。如果你发现自己每次发送之前都得改一遍转录文本,说明快捷键这一步已经做好了它的工作——你的瓶颈往后移了。现在的瓶颈是粗糙的语音和成形的文字之间那段距离,而这段距离正是 Voicr 要补上的。按住 FN,自然地说,粘贴润色好的文字。一个键,任何应用,没有清理这一步。

无论你选哪条路,当你不再事事都用键盘敲出来的那一天,你会发现自己的一周里多出了一大块真正属于自己的时间。