返回博客

Voicr Team · 2026年5月13日

如何在 Mac 上即时将语音转为文字

别再打字了。按住一个键,说话,干净的文字就会出现在屏幕上——Mac 的任何地方,几秒搞定。

如何在 Mac 上即时将语音转为文字

你思考的速度比打字快。这不是你的问题,是基本算术。人均说话速度大约每分钟 150 个词,打字大约 40 个。三个小时的打字,可能只是一个小时的说话。

那你为什么还在敲键盘?大概是因为你以前试过的听写工具给了你一份满是「嗯」「啊」、标点缺失、勉强能读的稿子,清理它比直接打字还慢。能理解。但在 Mac 上,这早已不是唯一的选择。

这篇指南会带你走一遍 Mac 上即时把语音转成文字的每一种方式,从大多数人都没正确设置过的系统自带功能,到那些一边出文字一边帮你润色的 AI 听写工具。读完之后,你会拥有一套一键工作流,几乎所有你平常写的东西都比打字更快。

在 Mac 上「即时」到底意味着什么

「Mac speech to text」的搜索结果常常把两件完全不同的事混在一起。一种是实时听写:你一边说,文字一边出现在你当下用的 App 里,跟打字一样。另一种是文件转录:你上传一段录音,等它出稿。

这篇文章讲的是第一种。如果你想转录一期播客或者一段 Zoom 录像,你需要的是另一类工具。Apple Silicon 上的「语音备忘录」现在原生支持,也有大量上传等待型的应用处理较长文件。如果你想用说的代替打——邮件、Slack 消息、笔记、初稿——那就接着往下看。

系统自带方案:macOS 听写

从 OS X 10.8 开始,每台 Mac 都有听写功能。大多数人不用,要么是不知道它在那儿,要么是早年试过觉得很差。在 macOS Sequoia 或 Sonoma 上是这样打开的:

1. 打开系统设置键盘 2. 滚动到听写,打开开关 3. 选一个快捷键。默认是连按两次 Control,你可以改成连按两次 Fn 或者任意自定义 4. 在任何能输入文字的地方点一下,按快捷键,开始说话

就这样。你可以在 Mac 上任何文本框里听写:备忘录、邮件、Slack、Pages、Safari 地址栏,哪里都行。要停下来,再按一次快捷键,或者按 Esc。标点得自己念出来:「逗号」「句号」「另起一段」。

系统自带听写哪里不够用

短短一句话,Apple 的听写够用。一旦你真要把内容发给另一个人,问题就开始冒出来了。它在三个方面会掉链子。

第一,真实语音下准确率会下降。在带口音或技术内容的音频上,Apple Dictation 的词错率大约在 15–18% 左右,差不多每六个词错一个。GPT-4o Transcribe 和 Deepgram Nova-3,也就是大多数第三方 AI 听写应用背后的引擎,在同类音频上词错率在 5–9% 之间。这就是「勉强能用」和「根本看不出来是听写的」之间的差距。

第二,没有润色。Apple 是你说什么它就一字一句转什么。你说「那个,嗯,我在想我们要不要把会议挪到周二」,落到文本框里的就是这一整串。还是得你自己收拾。

第三,所有 App 用同一种风格。一条随意的 Slack 私聊和一封正式的客户邮件被一视同仁。你想要不同的语气,事后只能手动调整。

一键 AI 听写工作流

Mac 上更新一代的听写应用把这三件事都解决了。它们用更强的模型(通常是 Whisper 或 GPT-4o-Transcribe)处理音频,再把转录稿喂给一个语言模型做清理。整个循环只要几秒钟。流程在每一款应用里都差不多:

1. 按住一个键。通常是 Fn,或者你自己指派的某个功能键。一个键,不是组合键。 2. 说。自然地说。可以有口头禅。也不用想标点。 3. 松开键。App 在后台转录并润色。 4. 粘贴。最终文本进入剪贴板,或者直接落到你光标所在的位置。

Mac 一键听写工作流的四步示意图:按键、对着麦克风说话、AI 润色、粘贴干净的文字

如果你已经在用 Apple 的听写,但还得花时间编辑结果,那这就是升级版。润色这一步会去掉「嗯」「啊」,修正语法,加上标点,把絮絮叨叨变成清爽的句子。你怎么说话就怎么说,输出读起来却像你写出来的。

Voicr 就是围绕这种模式做的应用之一。按住 FN、说话、粘贴润色好的文字。还有其他值得对比的工具,Mac 语音转文字应用横评梳理了整个市场。

5 分钟搞定即时听写设置

动手之前先做三个决定。

挑一个「按住说话」的快捷键。一个键,不是组合键。Fn 是最理想的——它就在你左手大拇指底下,默认也没绑定别的功能。避开 Command、Option 和 Control,它们会和你常用的系统快捷键打架。

挑一个模型。大多数应用会提供几种选择。截至 2026 年,GPT-4o-Transcribe 是云端最准的选项。Whisper large-v3-turbo 是开源主力:快、支持约 100 种语言,云端或本地都能跑。如果你处理的内容比较敏感,找一款能在 Mac 本地跑 Whisper 的应用,这样数据不出设备。

决定要不要润色。有的应用默认输出润色版:清理过、专业。有的默认输出原始转录:你说什么就是什么,只是标点齐全。邮件和文档用润色版,引用原话或者要逐字记下某个想法时用原始版。好的工具允许你按会话切换。

今天就能让你说得更快的小技巧

哪怕工具选对了,头一个礼拜也会有点别扭。你会发现自己用打字的方式听写:字斟句酌,断句精确,句子说一半就想改。别这样。像打电话那样去说。

几个能缩短学习曲线的习惯: - 以短句为单位,而不是整段。按快捷键、说一两句、松开、粘贴。重复。一口气听写一封 500 词的邮件,太难。 - 别说到一半就回头改。把整段先说出来,再回去编辑。回头改会把速度优势全吃掉。 - 较长的听写留给不被打扰的时候。走路、踱步、看看窗外。任何离开屏幕的地方。思路会更清楚。

真正改变一切的,是不同 App 配不同风格。Slack 消息要随意简短,给客户的邮件要有体面的称呼和落款,代码注释又是完全另一种语气。所以 Voicr 有 Smart Rules:每个 App 设一次风格,之后会根据你当前聚焦的窗口自动切换。不用手动切换,也不用每次都补一句「请把这条改成轻松的 Slack 风格」。

系统自带 vs AI 听写:什么时候用哪个

两种方案都有它的位置。坦诚对比一下:

你想零配置、只听写一两句、不介意事后清理,就用 Apple 听写。免费,Apple Silicon 上可离线工作,不用装第三方。记一条备忘录、回一句简短消息,绰绰有余。

每天要跨多个应用写几百词以上、想直接得到无需编辑的成稿,或者需要在带口音或技术内容上保持准确——那就用 AI 听写应用。配置大约花五分钟。装完之后,你基本就感觉不到它的存在了。

想看和系统听写更细致的逐项对比,可以读Voicr 与 Apple Dictation 对比

下一封邮件,用说的,不用打的

最快搞清楚语音转文字会不会改变你的工作方式的办法,是今天就挑一件事,用说的代替打的去完成。一封邮件回复。一条长 Slack 消息。一段早晨的日记。第一次会觉得比打字慢,到第三次就不会了。

如果你想要一款能自动润色、在任何 App 里一键就能用的工具,Voicr 正是这样。按住 FN、说话、粘贴。每月 5000 词免费,不用绑卡。这才是真正配得上「在 Mac 上即时语音转文字」这个说法的版本。