Mac 上 100 种语言的语音转文字：完整指南

你用英文起草一封邮件，再切到西班牙语给马德里的同事发条消息，然后在 Slack 上用法语回复。三个应用、三种语言、十分钟。其中一半时间花在打字上，另一半花在 Mac 听写的语言菜单上。

如果你会多种语言，苹果自带的听写功能简直像是为只会一门语言的人设计的。你先选好语言，开始口述，然后跑到“系统设置”里，或者点击光标旁边那个小得可怜的菜单去切换。一旦忘了切，法语就会被识别成一串没有意义的英文。

过去一年，事情悄悄起了变化。如今有一小批 Mac 应用可以在大约 100 种语言之间识别并润色你的语音，自动识别会判断你在说哪种语言，根本不用你碰菜单。这篇指南会讲清楚 2026 年这件事到底意味着什么、究竟覆盖了哪些语言、苹果的工具在哪里失灵，以及如何在 Mac 上搭建一套切换语言也不会崩的多语言听写流程。

2026 年“Mac 上 100 种语言”到底是什么意思

你在各家应用官网上看到的 100 种语言并不是营销说辞。它来自一个具体的模型：OpenAI 的 Whisper，使用约 68 万小时的多语言音频训练而成。目前广泛使用的版本 large-v3-turbo 支持 99 种语言，大多数应用就把它凑成了“100”。

这份名单大致包括以下内容。欧洲语言基本全覆盖，包含北欧语和斯拉夫语系。主要的亚洲语言：普通话、日语、韩语、越南语、泰语、印尼语、他加禄语、马来语。南亚语言：印地语、孟加拉语、泰米尔语、乌尔都语、马拉地语、尼泊尔语。中东语言：阿拉伯语、希伯来语、波斯语、土耳其语、阿塞拜疆语。非洲语言：斯瓦希里语、南非荷兰语。还有一些没那么常见的，比如威尔士语、毛利语、白俄罗斯语、马其顿语、哈萨克语和缅甸语。

但这份名单里的质量并不一致。英语、西班牙语、法语、德语、意大利语、葡萄牙语、荷兰语、日语和普通话稳居第一梯队：在干净音频上的词错误率在 4%–8% 左右。比较冷门或训练数据稀少的语言，比如威尔士语或毛利语，可能高达 15%–25%。仍然够用，只是没那么宽容。

更大的变化在于：这一切现在都能在一台普通的 Mac 上跑起来。Apple Silicon 已经强到能让 Whisper 的 large 模型在本地两秒内转写完一段 30 秒的音频，根本不用云端往返。这就是为什么这么多 Mac 应用突然长得很像——它们底层都是同一个模型。

苹果自带听写在哪里碰到天花板

Apple Dictation 从 2012 年就有了，而且免费。如果只用一种语言、在一个应用里听写，它够用。一旦涉及多语言工作，就会卡在三个地方。

语言数量。 苹果支持的语言和方言大约在 50–60 种之间，具体取决于 macOS 版本。在欧洲和亚洲的主要市场还算够用，但如果你需要乌克兰语、他加禄语或威尔士语，或者想用苹果不带的细分方言，就只能干瞪眼。

没有自动语言识别。 Apple Dictation 用的是你上次选的语言。一旦忘了切换，法语就会过英语模型，输出一串和你说的押韵的乱码。要换语言，得点击光标旁边那个迷你的语言指示器再从列表里挑。每次切换都是一次手动操作。

只给原始转写，没有润色。 你怎么说就怎么出，包含“呃”“那个”、重复开头，还有那句你说了半截又改主意的废话。这在单语言里就够烦了，多语言场景更糟，因为你为了配合模型，往往说得格外小心。

如果你只用英语听写，事后愿意再花时间整理文字，苹果的工具够用。但只要你需要第二种语言，或者希望复制出来的内容可以直接粘贴而不用再读一遍，你就已经从它那里毕业了。

Whisper 是如何在底层处理 100 种语言的

稍微了解一下你按住按键说话时背后发生了什么，会有用——这能解释为什么有些事情顺畅，有些却卡壳。

Whisper 是一个用 99 种语言音频训练出来的单一神经网络。它没有为每种语言单独跑一个模型，而是一次性学会了识别所有语言。这种共享训练其实带来好处：一句意大利语和一句葡萄牙语在声学特征上有不少共同点，学会其中一种会帮助另一种。代价是所有语言要争抢同一个模型的容量，因此越冷门的语言越弱。

音频进入后，模型会在一次前向传播里做三件事： 1. 根据音频前几秒预测语言。 2. 转写出文字。 3. 加上标点和大小写。

语言识别正是自动模式得以成立的关键。模型已经学会哪种语言听起来是什么感觉，通常你开口一两秒就能判断对。它会绊倒的地方：太短的发言（一两个词）、词汇高度相似的语言（西班牙语和意大利语、挪威语和瑞典语），以及句子中途换语言。Whisper 的设计是一段音频识别一种语言，并不擅长跟着你在两种语言间来回跳。

如果你想完整了解原始语音是如何变成干净文字的，这篇 AI 语音听写流程把每一步都讲了一遍。

自动识别 vs 手动选择语言：什么时候各自更合适

现代的多语言听写应用都给你两种模式。知道什么时候用哪种，决定了体验是顺畅还是憋屈。

适合自动识别的场景：

你一天里频繁切换语言，但每次听写都只用一种语言。你是柏林的开发者，写英文代码注释，也用德语发 Slack 消息。你是一名记者，需要在英语和日语来源之间穿梭。你处理四种语言的客服工单。这些情况下，每段录音都是单一语言，只是来回切换不同语言。自动识别让你免去每次找菜单的麻烦。

适合手动选择语言的场景：

你在使用识别效果较弱的小众语言（威尔士语、毛利语、白俄罗斯语）。你在嘈杂环境里听写，开头一两秒可能是环境音而不是人声。你只录一两个词，音频量不够让模型识别语种。或者你用的语言和模型熟悉的另一种高度重叠（比如它有时会把加利西亚语错猜成葡萄牙语）。

仍然不太行的地方：

句子中途切换语言。你用西班牙语开头，中间夹一个英文品牌名，模型能搞定。但如果你以西班牙语开头、以英语结尾，往往其中一种会被另一种语言的模型识别成乱码。比较实在的解决办法：在语言切换点结束这段录音，然后重新开一段。

边说边译：“说 X 语言，输出英文”的工作流

现代 Mac 听写里最被低估的功能之一就是“边说边译”。你用母语说，出现在屏幕上的已经是另一种语言。这个目标语言最常见的是英语。

背后有两种实现方式。第一种是 Whisper 早期的多语言模型内置了翻译任务：你用 99 种语言中的任意一种说话，模型直接输出英语。新一代的 turbo 版没带这个任务，所以现在大多数应用走另一条路：先用 Whisper 把源语言转写出来，再让一个语言模型来翻译。第二种方法质量更高，还能顺带做润色，这也是它如今成为标准做法的原因。

这把原本要三步的真实流程压缩成了一步。老办法：用母语听写，复制文字，粘进翻译工具，再复制结果，粘进邮件。大约 30 秒、四次上下文切换。新办法：按住一个键，用母语说话，光标处就出现润色过的英文。大约 4 秒。

如果你工作中要写英文，但用另一种语言思考更快，单凭这一点就值得搭一套现代听写。Voicr 用一个快捷键就能搞定：把输入语言设为 Auto、润色输出设为英语，那么不管你说什么语言，每次录音落地的都是可以直接发送的英文。

Mac 上真实的多语言工作流

理论不值钱。下面是真正帮真人省时间的几种模式。

双语笔记和日记

如果你用母语记笔记，但工作环境是英语，听写能两头都顾到。把源语言和输出语言都设成你的母语（不翻译），打字就可以彻底告别了。如果开会笔记既要原文又要英文版，用两套不同的输出设置各录一次就行。

用母语写注释的代码

在非英语团队里，开发者常常代码本身写英文，注释用团队的语言。自动识别处理这种切换毫无压力——你在编辑器里口述英文的代码描述、函数名，又用本族语言口述注释，每一段都是单一语言，模型每次都能挑对。

横跨四个时区的客服

处理英语、西语、法语、德语工单的客服人员通常要在各种工具的语言配置之间反复切换。有了多语言听写，看到什么语言的工单就用什么语言回，回完直接看下一条。不用切配置、不用点菜单。润色这一步在这里同样关键：客服回复需要在每种语言里都保持稳定的专业语气，原始转写远远不够。

语言学习者和语言老师

如果你在学一门语言，用它来听写会强迫你练发音和节奏。模型听不懂你，就是一种反馈。如果你是教这门语言的老师，用听写录例句能省下打重音、特殊字符和音调符号的时间——模型会自动加对。对两种角色来说，“边说边译”都顺带成了即时理解工具：用你正在学的语言开口，看看英文是否和你想表达的意思对得上。

跨语言写作者和记者

长文写作者用一种语言思考、用另一种语言出版时，往往要一边打字一边在脑子里翻译。这非常累。用你思考的那门语言口述初稿，让工具产出英文，再去修改。第一稿能快 3–4 倍，而且修改时脑子更清醒，因为初稿阶段没在做翻译。

如何在 Mac 上搭建多语言听写

有两条路：最简单的情况走苹果自带工具，其他情况都用第三方应用。

为多语言配置 Apple Dictation

打开“系统设置”，进入“键盘”，点击“听写”，把它打开。点击“语言”下拉菜单，添加你需要的语言。最多大约能加六种。从此以后，启动听写时，光标旁会出现一面小旗子或语言代码，点它就能切换语言。限制： - 没有自动识别。每次切换都得点一下。 - 只有大约 50–60 种语言。 - 只给原始转写，没有润色，没有针对应用的格式适配。 - 老版本 macOS 还有 60 秒的听写时长上限。

配置第三方多语言应用

现代的 Mac 听写应用大多是菜单栏小工具，在任何应用的任何文本框里都能用。配置过程大致如下： 1. 安装应用，授予麦克风和辅助功能权限。 2. 设置或接受快捷键（通常是 FN 或 Option+Space，按住录音）。 3. 选择输入语言。多语言场景下设为 Auto。 4. 选择输出语言。和输入一致表示只做转写；选英语（或任何其他语言）就能顺带翻译。 5. 可选：设置润色提示（“专业”“随意”“保留原样”），让输出符合你想要的读感。从此以后，凡是能打字的地方就能听写。按住快捷键，说话，松开，文字出现在光标处。

如果你在不同应用里写不同语气的内容（正式邮件、随意的 Slack 消息、技术文档），这就是智能规则发挥作用的地方：按当前应用自动套用对应的写作风格。规则设一次就行，之后不用再想。同一个多语言模型会处理所有这些场景。

实用要点

在 Mac 上搭建多语言听写时，有三件事值得记住：

一段录音一种语言是铁律。 模型能处理 100 种语言，但每段录音只挑一种。要换语言时，结束这段录音，而不是想在一句话中间切换。

日常多语言工作的默认配置就是自动识别。 只有在录的内容很短、语种很冷门或环境嘈杂可能导致误判时，手动选择才划算。

“边说边译”并不是另一个工具。 如果你的输出语言设为英语、输入语言设为母语，每一次录音都自动完成翻译。没有额外步骤、没有第二个应用、不用复制粘贴。

一个按键，任意语言

如果你看到这里，那么“在 2026 年的 Mac 上怎么用 100 种语言听写”的答案非常简单：装一个基于 Whisper 的第三方应用，把输入语言设为 Auto，按住一个键，开口。系统会一次完成语言识别、转写、润色，可选还会加上翻译。

Voicr 在 Mac 上用一个快捷键就能在任何应用里做到这一切。按住 FN，用 100 种语言中的任意一种说话，松开，润色过的文字就出现在光标处。把输出语言设成另一种就能边说边译，保持和源语言一致就是纯转写。免费层每月有 5,000 词，所以想知道多语言听写值不值得纳入工作流，最便宜的办法就是明早第一封邮件试一下。

如果你想看看现代 Mac 听写和你目前用的工具相比表现如何，这篇 Voicr 与 Apple Dictation 对比会逐项拆解两者的差异。