你用英文起草一封邮件,再切到西班牙语给马德里的同事发条消息,然后在 Slack 上用法语回复。三个应用、三种语言、十分钟。其中一半时间花在打字上,另一半花在 Mac 听写的语言菜单上。
如果你会多种语言,苹果自带的听写功能简直像是为只会一门语言的人设计的。你先选好语言,开始口述,然后跑到“系统设置”里,或者点击光标旁边那个小得可怜的菜单去切换。一旦忘了切,法语就会被识别成一串没有意义的英文。
过去一年,事情悄悄起了变化。如今有一小批 Mac 应用可以在大约 100 种语言之间识别并润色你的语音,自动识别会判断你在说哪种语言,根本不用你碰菜单。这篇指南会讲清楚 2026 年这件事到底意味着什么、究竟覆盖了哪些语言、苹果的工具在哪里失灵,以及如何在 Mac 上搭建一套切换语言也不会崩的多语言听写流程。
2026 年“Mac 上 100 种语言”到底是什么意思
你在各家应用官网上看到的 100 种语言并不是营销说辞。它来自一个具体的模型:OpenAI 的 Whisper,使用约 68 万小时的多语言音频训练而成。目前广泛使用的版本 large-v3-turbo 支持 99 种语言,大多数应用就把它凑成了“100”。
这份名单大致包括以下内容。欧洲语言基本全覆盖,包含北欧语和斯拉夫语系。主要的亚洲语言:普通话、日语、韩语、越南语、泰语、印尼语、他加禄语、马来语。南亚语言:印地语、孟加拉语、泰米尔语、乌尔都语、马拉地语、尼泊尔语。中东语言:阿拉伯语、希伯来语、波斯语、土耳其语、阿塞拜疆语。非洲语言:斯瓦希里语、南非荷兰语。还有一些没那么常见的,比如威尔士语、毛利语、白俄罗斯语、马其顿语、哈萨克语和缅甸语。
但这份名单里的质量并不一致。英语、西班牙语、法语、德语、意大利语、葡萄牙语、荷兰语、日语和普通话稳居第一梯队:在干净音频上的词错误率在 4%–8% 左右。比较冷门或训练数据稀少的语言,比如威尔士语或毛利语,可能高达 15%–25%。仍然够用,只是没那么宽容。
更大的变化在于:这一切现在都能在一台普通的 Mac 上跑起来。Apple Silicon 已经强到能让 Whisper 的 large 模型在本地两秒内转写完一段 30 秒的音频,根本不用云端往返。这就是为什么这么多 Mac 应用突然长得很像——它们底层都是同一个模型。
苹果自带听写在哪里碰到天花板
Apple Dictation 从 2012 年就有了,而且免费。如果只用一种语言、在一个应用里听写,它够用。一旦涉及多语言工作,就会卡在三个地方。
语言数量。 苹果支持的语言和方言大约在 50–60 种之间,具体取决于 macOS 版本。在欧洲和亚洲的主要市场还算够用,但如果你需要乌克兰语、他加禄语或威尔士语,或者想用苹果不带的细分方言,就只能干瞪眼。
没有自动语言识别。 Apple Dictation 用的是你上次选的语言。一旦忘了切换,法语就会过英语模型,输出一串和你说的押韵的乱码。要换语言,得点击光标旁边那个迷你的语言指示器再从列表里挑。每次切换都是一次手动操作。
只给原始转写,没有润色。 你怎么说就怎么出,包含“呃”“那个”、重复开头,还有那句你说了半截又改主意的废话。这在单语言里就够烦了,多语言场景更糟,因为你为了配合模型,往往说得格外小心。
如果你只用英语听写,事后愿意再花时间整理文字,苹果的工具够用。但只要你需要第二种语言,或者希望复制出来的内容可以直接粘贴而不用再读一遍,你就已经从它那里毕业了。
Whisper 是如何在底层处理 100 种语言的
稍微了解一下你按住按键说话时背后发生了什么,会有用——这能解释为什么有些事情顺畅,有些却卡壳。
Whisper 是一个用 99 种语言音频训练出来的单一神经网络。它没有为每种语言单独跑一个模型,而是一次性学会了识别所有语言。这种共享训练其实带来好处:一句意大利语和一句葡萄牙语在声学特征上有不少共同点,学会其中一种会帮助另一种。代价是所有语言要争抢同一个模型的容量,因此越冷门的语言越弱。

音频进入后,模型会在一次前向传播里做三件事: 1. 根据音频前几秒预测语言。 2. 转写出文字。 3. 加上标点和大小写。
语言识别正是自动模式得以成立的关键。模型已经学会哪种语言听起来是什么感觉,通常你开口一两秒就能判断对。它会绊倒的地方:太短的发言(一两个词)、词汇高度相似的语言(西班牙语和意大利语、挪威语和瑞典语),以及句子中途换语言。Whisper 的设计是一段音频识别一种语言,并不擅长跟着你在两种语言间来回跳。
如果你想完整了解原始语音是如何变成干净文字的,这篇 AI 语音听写流程 把每一步都讲了一遍。
自动识别 vs 手动选择语言:什么时候各自更合适
现代的多语言听写应用都给你两种模式。知道什么时候用哪种,决定了体验是顺畅还是憋屈。
适合自动识别的场景:
你一天里频繁切换语言,但每次听写都只用一种语言。你是柏林的开发者,写英文代码注释,也用德语发 Slack 消息。你是一名记者,需要在英语和日语来源之间穿梭。你处理四种语言的客服工单。这些情况下,每段录音都是单一语言,只是来回切换不同语言。自动识别让你免去每次找菜单的麻烦。
适合手动选择语言的场景:
你在使用识别效果较弱的小众语言(威尔士语、毛利语、白俄罗斯语)。你在嘈杂环境里听写,开头一两秒可能是环境音而不是人声。你只录一两个词,音频量不够让模型识别语种。或者你用的语言和模型熟悉的另一种高度重叠(比如它有时会把加利西亚语错猜成葡萄牙语)。
仍然不太行的地方:
句子中途切换语言。你用西班牙语开头,中间夹一个英文品牌名,模型能搞定。但如果你以西班牙语开头、以英语结尾,往往其中一种会被另一种语言的模型识别成乱码。比较实在的解决办法:在语言切换点结束这段录音,然后重新开一段。
边说边译:“说 X 语言,输出英文”的工作流
现代 Mac 听写里最被低估的功能之一就是“边说边译”。你用母语说,出现在屏幕上的已经是另一种语言。这个目标语言最常见的是英语。
背后有两种实现方式。第一种是 Whisper 早期的多语言模型内置了翻译任务:你用 99 种语言中的任意一种说话,模型直接输出英语。新一代的 turbo 版没带这个任务,所以现在大多数应用走另一条路:先用 Whisper 把源语言转写出来,再让一个语言模型来翻译。第二种方法质量更高,还能顺带做润色,这也是它如今成为标准做法的原因。
这把原本要三步的真实流程压缩成了一步。老办法:用母语听写,复制文字,粘进翻译工具,再复制结果,粘进邮件。大约 30 秒、四次上下文切换。新办法:按住一个键,用母语说话,光标处就出现润色过的英文。大约 4 秒。
如果你工作中要写英文,但用另一种语言思考更快,单凭这一点就值得搭一套现代听写。Voicr 用一个快捷键就能搞定:把输入语言设为 Auto、润色输出设为英语,那么不管你说什么语言,每次录音落地的都是可以直接发送的英文。
Mac 上真实的多语言工作流
理论不值钱。下面是真正帮真人省时间的几种模式。
双语笔记和日记
如果你用母语记笔记,但工作环境是英语,听写能两头都顾到。把源语言和输出语言都设成你的母语(不翻译),打字就可以彻底告别了。如果开会笔记既要原文又要英文版,用两套不同的输出设置各录一次就行。
用母语写注释的代码
在非英语团队里,开发者常常代码本身写英文,注释用团队的语言。自动识别处理这种切换毫无压力——你在编辑器里口述英文的代码描述、函数名,又用本族语言口述注释,每一段都是单一语言,模型每次都能挑对。
横跨四个时区的客服
处理英语、西语、法语、德语工单的客服人员通常要在各种工具的语言配置之间反复切换。有了多语言听写,看到什么语言的工单就用什么语言回,回完直接看下一条。不用切配置、不用点菜单。润色这一步在这里同样关键:客服回复需要在每种语言里都保持稳定的专业语气,原始转写远远不够。
语言学习者和语言老师
如果你在学一门语言,用它来听写会强迫你练发音和节奏。模型听不懂你,就是一种反馈。如果你是教这门语言的老师,用听写录例句能省下打重音、特殊字符和音调符号的时间——模型会自动加对。对两种角色来说,“边说边译”都顺带成了即时理解工具:用你正在学的语言开口,看看英文是否和你想表达的意思对得上。
跨语言写作者和记者
长文写作者用一种语言思考、用另一种语言出版时,往往要一边打字一边在脑子里翻译。这非常累。用你思考的那门语言口述初稿,让工具产出英文,再去修改。第一稿能快 3–4 倍,而且修改时脑子更清醒,因为初稿阶段没在做翻译。
如何在 Mac 上搭建多语言听写
有两条路:最简单的情况走苹果自带工具,其他情况都用第三方应用。
为多语言配置 Apple Dictation
打开“系统设置”,进入“键盘”,点击“听写”,把它打开。点击“语言”下拉菜单,添加你需要的语言。最多大约能加六种。从此以后,启动听写时,光标旁会出现一面小旗子或语言代码,点它就能切换语言。 限制: - 没有自动识别。每次切换都得点一下。 - 只有大约 50–60 种语言。 - 只给原始转写,没有润色,没有针对应用的格式适配。 - 老版本 macOS 还有 60 秒的听写时长上限。
配置第三方多语言应用
现代的 Mac 听写应用大多是菜单栏小工具,在任何应用的任何文本框里都能用。配置过程大致如下: 1. 安装应用,授予麦克风和辅助功能权限。 2. 设置或接受快捷键(通常是 FN 或 Option+Space,按住录音)。 3. 选择输入语言。多语言场景下设为 Auto。 4. 选择输出语言。和输入一致表示只做转写;选英语(或任何其他语言)就能顺带翻译。 5. 可选:设置润色提示(“专业”“随意”“保留原样”),让输出符合你想要的读感。 从此以后,凡是能打字的地方就能听写。按住快捷键,说话,松开,文字出现在光标处。
如果你在不同应用里写不同语气的内容(正式邮件、随意的 Slack 消息、技术文档),这就是智能规则发挥作用的地方:按当前应用自动套用对应的写作风格。规则设一次就行,之后不用再想。同一个多语言模型会处理所有这些场景。
实用要点
在 Mac 上搭建多语言听写时,有三件事值得记住:
一段录音一种语言是铁律。 模型能处理 100 种语言,但每段录音只挑一种。要换语言时,结束这段录音,而不是想在一句话中间切换。
日常多语言工作的默认配置就是自动识别。 只有在录的内容很短、语种很冷门或环境嘈杂可能导致误判时,手动选择才划算。
“边说边译”并不是另一个工具。 如果你的输出语言设为英语、输入语言设为母语,每一次录音都自动完成翻译。没有额外步骤、没有第二个应用、不用复制粘贴。
一个按键,任意语言
如果你看到这里,那么“在 2026 年的 Mac 上怎么用 100 种语言听写”的答案非常简单:装一个基于 Whisper 的第三方应用,把输入语言设为 Auto,按住一个键,开口。系统会一次完成语言识别、转写、润色,可选还会加上翻译。
Voicr 在 Mac 上用一个快捷键就能在任何应用里做到这一切。按住 FN,用 100 种语言中的任意一种说话,松开,润色过的文字就出现在光标处。把输出语言设成另一种就能边说边译,保持和源语言一致就是纯转写。免费层每月有 5,000 词,所以想知道多语言听写值不值得纳入工作流,最便宜的办法就是明早第一封邮件试一下。
如果你想看看现代 Mac 听写和你目前用的工具相比表现如何,这篇 Voicr 与 Apple Dictation 对比 会逐项拆解两者的差异。

