你在 Mac 上按住 FN 键。苹果听写的小麦克风图标弹了出来。你开始对着邮件口述一段话,结果说到第一分钟左右,它就这么不听了。
于是你再触发一次。又触发了三次。识别准确率还行,但标点不对,语气词和废话都还在,等这封邮件真正能发出去的时候,你直接打字反而更快。
这是 macOS 听写功能中苹果官网从不提的部分。说一句话还行,一旦你想用它写真正的内容——一条长消息、文档里的一段话,或者任何涉及多语言的东西——问题就暴露出来了。下面诚实地聊聊苹果听写究竟差在哪、现代 AI 听写应用的做法有何不同,以及哪些场景下苹果自带的工具依然是更合适的选择。
苹果听写做得不错的地方
该夸还得夸。苹果听写每台 Mac 都自带,免费,而且在 Apple Silicon 上完全在本地运行,你的音频永远不会离开笔记本。无需订阅,无需 API key,也不用注册账号。你只要在「系统设置 → 键盘」里打开,选一个快捷键(通常是 FN 或者连按两下 Control),它就会在所有地方出现:邮件、备忘录、信息,甚至第三方应用里也能用。
用来说短句完全够用。「提醒我给妈妈打电话」、在搜索框里随手输点东西、给 Slack 回个一句话的消息。「逗号」「句号」「另起一段」这些标点指令大体上都能按预期工作。在安静环境下,对着干净、语速慢、没口音的英文说话,准确率也还不错。
如果你的听写需求又少又偶尔,苹果听写就是那个不用动脑筋的免费选择。完全没必要花钱或者另外装别的。
问题是,一旦你不再只是口述短句,而是把语音当作主要的写作方式,麻烦就来了。
苹果听写不够用的地方
有几个具体的限制反复出现。这些不是苹果下个季度会修掉的 bug,而是这款工具在设计时就定下的取舍。
60 秒超时。苹果自己的官方支持文档和社区帖子都印证了这一点:Mac 听写是为短促的发言设计的。大约说上 30 到 60 秒之后,或者你停顿了几秒钟,它就会自动关闭,哪怕你的话还没说完。搜索框查个东西没问题,但要写一封真正的邮件或者一段文档,单条消息里你就得反复触发这个快捷键好几次。

完全没有润色。苹果听写交给你的是一段未经加工的原始转录文本。里面包括你的语气词、说错重来的句子、各种「嗯」「等等,刚才那句不算」,还有你边想边说时蹦出的那种又长又绕的句子。你怎么说的,它就给你怎么呈现。所以接下来你要花好几分钟把它编辑成型——而这本来就是语音功能应该帮你省下的活儿。
标点不稳定。你说「逗号」「句号」,多数情况下能用,但前提是你得记得说。没有显式指令的长句子常常变成一整段连在一起的流水文。更糟的是,macOS Sequoia 15.x 上的用户反映过相反的情况:「另起一行」和「另起一段」这类命令会被静默忽略,文本根本不分段。
没有按应用区分上下文。不管你是在 Slack、邮件、代码注释还是备忘录里口述,输出的都是同样一段平铺的转录文本。它没有「这条 Slack 消息要随意点」和「这封邮件要正式一点」的概念。如果你想要不同的语气,那就是每次都要手动改的工作量。
没有自定义词库。项目代号、技术术语、同事的奇怪拼写的名字——苹果听写完全无法学习这些。它会一次又一次地以同样的方式听错。
不同 macOS 版本间的准确度还会反复。社区帖子记录了苹果听写在近几次 macOS 更新后要么倒退、要么悄无声息地坏掉的情况。Sonoma 和 Sequoia 上的 M1/M2/M3 用户反映过麦克风图标出现了,但一个字都没识别出来。网上能找到的所谓修复都是绕过办法,而不是苹果给出的正经修复。
多语言用户得手动切换语言。它支持很多语言,但一次只能用一种。在英语和西班牙语之间切换,意味着你得停下来、打开「系统设置」、选另一种语言、然后从头再来。它不会从你的声音里识别出语言,也没有「说西班牙语、输出英文」这种模式。
其中一些限制如果你只是偶尔用用倒也无妨。但只要语音变成你日常写作的默认方式,这些限制大多就难以接受了。
Voicr 的不同思路
Voicr 正是围绕苹果工具忽略的那些环节做出来的。它是一款 macOS 菜单栏应用:没有 Dock 图标、没有窗口,只有屏幕顶部一个小图标,在你说话时会亮起。
你按住 FN(也就是苹果默认用的那个键),然后像平时一样自然地说话。语气词、说错重来、想到哪说到哪都没关系。松开按键。Voicr 会捕获音频、转录、用 AI 润色,然后把整理好的结果直接粘贴到你刚才正在输入的那个输入框里。不经剪贴板,不用 ⌘V。
润色才是最关键的部分。它会把你说的话改写成像是你坐下来认真打字打出来的样子。诸如「呃,那啥,我刚才在想,就,要不咱们把会推迟一下?你觉得呢?」会被改成「嘿,我在想能不能把会议往后推一下,你怎么看?」
你不用再去编辑。你说话,润色后的版本就出现在输入框里,然后继续下一件事。
Smart Rules(智能规则)解决了按应用区分的问题。你给每个应用指定一种写作风格(Slack 用随意风、邮件用正式风、VSCode 用技术风、Apple Notes 用原始笔记风),Voicr 会检测当前活跃的应用并自动套用对应规则。同一句话说进 Slack 和邮件里,会得到两种不同的输出。
Pure Dictation Mode(纯听写模式)覆盖了苹果式的使用场景。打开它之后,Voicr 会给你一份带正确标点、完全不经过 AI 改写的逐字转录。这适合用来录引语、原始笔记,或任何 AI 润色反而碍事的场景。
自动识别语种省去了切换语言的麻烦。Voicr 会听你的音频、识别语种并相应地转录。把目标语言设为英文,Voicr 就会边转录边翻译,你可以用俄语、西班牙语或法语思考,一次按键就直接输出英文。
另外没有 60 秒的截断。你按住按键多久,Voicr 就听多久。
并排对比:差异出现在哪里
三个快速场景。
写一条 Slack 消息
苹果听写:触发听写,说出消息,手动清理「嗯啊」之类的废话和错位的标点,然后发送。
Voicr:按住 FN,说话,松开。润色好的随意风格消息已经出现在输入框里。Smart Rules 保证了它读起来像一条 Slack 消息,而不是一封邮件。
起草一封长度超过一段话的邮件
苹果听写:口述前 30 到 45 秒,看它被截断,重新触发,继续,再看它被截断,最后再把所有的语气词都编辑掉。
Voicr:整封邮件按住 FN,松开一次,润色好的草稿已经在邮件正文里了。由于邮件应用的 Smart Rule,语气也是「邮件」风格。
用西班牙语说话,输出英文笔记
苹果听写:把系统听写语言切到西班牙语,口述,复制文本,粘贴到翻译工具里,再把结果粘到你真正想要的位置。
Voicr:目标语言已经设为英文,按住 FN,说西班牙语,英文文本直接出现在输入框里。

单次看差距好像不大。但当你一天要口述三十次时,差距就累积起来了。
如果你已经在用苹果听写,并且每次都要花时间清理输出,那 Voicr 要补的就是这道缝。转录和润色一次按键就完成,结果直接落在输入框里,而不是剪贴板里。
什么时候苹果听写仍然是更合适的选择
也得说句公道话。确实有一些场景,你根本不需要再装别的。
你只是偶尔口述。一天就那么几句话,偶尔在搜索框里说点东西。苹果听写处理这些毫无负担。
你只要原始转录。逐字笔记、录引语,或者任何 AI 清理反而会帮倒忙的场合。Voicr 有 Pure Dictation Mode 能干这事,但如果苹果自带的工具就在手边、又能用,那就没必要换。
你没法安装第三方应用。有些公司根本不允许装额外软件。苹果听写是 Mac 出厂自带的,而且在 Apple Silicon 上音频不会离开你的笔记本。
你用的是 Intel Mac。老款 Mac 拿不到苹果听写的本地版本,而 Voicr 是围绕 Apple Silicon 构建的。在 Intel 硬件上玩语音,怎么用都得有些妥协。
对其他所有人——也就是任何在 M 系列 Mac 上用语音真正写邮件、消息或文档的人——「带 60 秒超时的原始转录」和「知道你在哪个应用里的润色文本」之间的差距,会很快被拉大。
Voicr Free 能给你什么
顺便说一下定价,因为「苹果听写是免费的」往往是人们不去试别的方案的常见理由。
Voicr 的 Free 套餐每月 5,000 字,所有功能全部包含: - 按应用区分写作风格的 Smart Rules - 用于原始转录的 Pure Dictation Mode - 覆盖 100 种语言的自动语种识别 - 在口述时翻译为英文 - 自定义提示词的文本修正(在任意选中文本上按 ⌥Space) - 录音历史与笔记 全都给。不用信用卡。
切换过来的人大多会发现自己每月用语音说出来的字数大约在 3,000 到 8,000 字之间。如果超出 Free 套餐,GO 是 $3/mo,每月 20,000 字;PRO 是 $10/mo,每月 100,000 字。每个套餐都包含全部功能。没有任何功能被锁在更高的套餐后面。
相比苹果那种「免费,但在根本上受限」的方式,Voicr Free 给你的是一份完整的、可以真正上手试的应用。
实用建议:什么时候该换
诚实的判断方法是这样:用苹果听写口述一封真正的、三到五句话的邮件。然后看看在你动手修改之前,它给出的是什么。
如果答案是「基本上可以直接发了」,那你不需要任何别的。苹果听写已经在好好干活了。
如果答案是「它说到一半就停了、标点不对、我在发出去之前把一半都重写了一遍」,那正是 Voicr 要补的那道缝。最快验证的方法就是装一下,把 FN 设为触发键,再用语音写同样那封邮件。粘进草稿里的那个版本,就是你原本要发出去的那个版本,只是少了清理那一步。
Voicr 也能和苹果听写很好地共存。你可以两个都留着;它们用的是不同的快捷键。有的人保留苹果听写用来在搜索框里说单个词,超过一句话的就交给 Voicr。如果你想更深入地看看 Voicr 与其他付费方案的对比,可以读一读Voicr 对比 Wispr Flow。
说话代替打字
你心里已经知道那条消息要写什么。你不该再把它打两遍——一遍靠嘴说出来,再一遍去清理屏幕上你说出来变成的那段文字。
用 Voicr:按住 FN,像跟朋友聊天一样说话,松开。落下的文本就是一个更细致的你本来会打出来的版本,并且匹配你当前所在应用的语气。苹果听写把你带到一半,剩下的那一半——润色、按应用感知、愿意听你说超过一分钟——它放在桌上没接手。这正是 Voicr 接过来的地方。

