你打开 App Store,搜索“Mac AI 听写”,反复出现的两个名字是 Voicr 和 SuperWhisper。截图看起来相似,功能列表也高度重叠。两者都承诺把你说的话变成漂亮的文字。
把两款都装上用十分钟,差别立刻显现。一款让你选择 Whisper 模型大小、配置自定义模式、粘贴你常用 LLM 的 API key,并用 XML 给提示词打标签。另一款只让你按住一个键开始说话。
两种思路都没错,只是面向不同的人。下面是一份诚实的并排拆解,看看 Voicr 和 SuperWhisper 在哪里分道扬镳,以及哪一款更适合哪类 Mac 用户。
一句话版本
如果不想读完全文: - SuperWhisper 适合喜欢折腾的人,想完全掌控模型、提示词和 AI 提供商。离线能力很强,配置面也很陡。支持 Mac、Windows 和 iOS。 - Voicr 适合希望润色和分应用规则开箱即用的 Mac 用户。按住 FN、说话、松手、粘贴。没有模型选择器,没有自带 key。仅限 Apple Silicon。 - 两者都用 Whisper 转写,都支持 100 种语言。分歧在于:它们要求你做多少配置。
SuperWhisper 是为谁打造的
SuperWhisper 是一个可配置的框架。本地 Whisper 模型负责转写,可选的云端 LLM 负责后处理,再加上一套 Custom Modes 系统,让你精确定义每个任务的运行方式。
Custom Modes 是它的招牌功能。你可以为邮件建一个模式,为会议纪要再建一个,为代码注释再建一个,为 Slack 建第四个。每个模式有自己的提示词、自己的格式规则、自己的 AI 提供商。你可以接入 OpenAI、Anthropic、Google、Mistral、Groq,或本地 Llama,完全取决于哪个模式在运行。官方文档建议:只要提示词超过几行,就用 XML 标签。
本地优先的转写。SuperWhisper 把 Whisper 模型下载到你的机器上。tiny、base、small、medium、large-v3 和 large-v3-turbo 都可用,更大的模型对 Pro 用户开放。在 Apple Silicon 上,large-v3-turbo 本地运行,准确率非常出色。转写这一步音频不会离开你的笔记本。公司拥有 SOC 2 Type II 认证并符合 HIPAA,这让它更容易通过企业安全审查。
跨平台。SuperWhisper 在 macOS、Windows 和 iOS 上运行,一份授权通用。如果你在 MacBook 和 Windows 桌面之间切换,这是个实打实的优势。
终身定价。一次付款(撰写本文时为 $249.99,不过 2026 年价格有所调整)换永久使用。对每天高强度使用的用户来说,这笔账从第二年起就比大多数订阅划算。
这种强大的代价是设置界面非常密集。多篇评测把上手过程比作「配置一台服务器」——挑选合适的模型大小、决定哪个模式用哪个 LLM 提供商、写提示词、调快捷键。一旦调教好,确实强大。但调教好它需要一个周末。
Voicr 是为谁打造的
Voicr 从相反的一端出发。大多数人并不想自己组装听写工具,他们想装上一个已经能很好润色语音的东西,语气贴合所在的应用,只需一个键。
在 macOS 任何地方按住 FN。Voicr 捕捉音频,用 Whisper large-v3-turbo 转写,经过一次 AI 润色,再把清理好的结果粘贴到你正在打字的输入框里。不会弹窗,不走剪贴板,不用切换应用。
润色这一步已经替你做好了。Voicr 自带完整的 AI 管线——不需要 API key,不需要选择提供商,不需要写提示词。重写你的语音用的是哪个模型不用你决定,应用会自己挑,采用的润色风格读起来就像你坐下来认真敲出来的。
Smart Rules 解决了分应用的问题,而不用你手动搭建模式。你给每个应用分配一种写作风格——Slack 用随意、Mail 用正式、VSCode 用技术、Apple Notes 保留原始草稿——Voicr 会检测当前活跃的应用并自动套用对应风格。规则有专门的编辑界面,没有 XML,没有要学的提示词语法。
Pure Dictation Mode 是一键替代方案,适合你想要带标点的原始转写、不要 AI 重写的时候。引用、原始笔记、原话采集都用得上。
自动语种识别会从音频里识别出你说的是哪种语言,覆盖 100 种语言。把目标语言设为英文,Voicr 就会边转写边翻译。用西班牙语思考,用英文输出,一个按键搞定。
代价正好与 SuperWhisper 相反。Voicr 是有主见的。你拿到的是团队认为好的润色风格。如果想微调语气,可以编辑 Smart Rules 的提示词,但不能挑底层模型,也不能跑本地 Llama。而且仅限 Apple Silicon Mac,没有 Windows,没有 iOS。
体验分歧在哪里
三个简短的场景。
首次设置
SuperWhisper:装好,下载一个 Whisper 模型(根据硬件和精度需求决定大小——tiny、base、small、medium、large-v3-turbo、large-v3),打开设置,选默认模式,决定是否启用云端 LLM 润色,粘贴 OpenAI 或 Anthropic 的 API key,写或导入自定义提示词,配置触发键,然后测试。预留一晚。
Voicr:装好,授予麦克风和辅助功能权限,按住 FN,开始说。Smart Rules 已经预配置好常见应用。预留两分钟。
连续写一条 Slack 消息和一封邮件
SuperWhisper:如果你已经建好了两个自定义模式(一个给 Slack,一个给 Mail),你要么用不同的快捷键手动切换模式,要么靠 Super Mode 检测应用并选对应的提示词。无论哪种方式,模式都得先存在。
Voicr:在 Slack 里按住 FN,得到随意版本;在 Mail 里按住 FN,得到邮件版本。同一个按键,不同的输出,因为 Smart Rules 已经知道你在哪个应用里。
润色输出
SuperWhisper:AI 润色这一步只有在你配置了 LLM 之后才会跑。本地 Whisper 默认只给你一份原始转写;重写需要你自带 API key,按次付费给 LLM 提供商。多篇用户评测指出:除非主动接好这一步,否则转写稿往往还是要手动清理。
Voicr:润色默认开启。语气词去掉、语法修好、结构收紧。不会另外产生 API 费用。如果想要原始输出,Pure Dictation Mode 一键切换。

如果你一直在用 SuperWhisper 听写,而转写稿还很粗糙,只是因为你一直没腾出手去接 Custom Modes 和 API key,那么 Voicr 的润色正好就是你打算自己配的那一步。它已经替你做好了。按住 FN,说话,松手——清理好的版本就在输入框里。
隐私和离线模式
这是 SuperWhisper 真正占优的领域,值得诚实地承认。
SuperWhisper 的转写跑在本地 Whisper 模型上。语音转文字这一步,音频不离开你的机器。如果你不开启云端 LLM 润色,整条流程就完全在设备上。对于身处受监管行业、网络不稳定,或对隐私要求严格的用户来说,这是个有分量的差别。
Voicr 使用云端转写和云端润色。音频会被发送到服务器处理,再把结果返回。没有纯本地模式。如果你不能、或不愿意把听写音频送到服务器,那 SuperWhisper 才是更稳妥的选择——而且无论本文还说了什么,这都应该是决定性因素。
有个小细节:SuperWhisper 一直以来默认把每段录音保存到磁盘上,这是另一种隐私维度(本地留存,而非网络外发)。如果你选 SuperWhisper,在假定“本地”等于“不留痕”之前,值得到设置里确认一下当前的行为。
价格对比
标价并不是全部,因为 SuperWhisper 的润色依赖你自带的 LLM key。总成本取决于你接了哪个提供商以及你听写多少。
SuperWhisper
SuperWhisper Free 跑本地 Whisper,但只放出小模型(tiny 和 base)和三个自定义模式。Pro 是每月 $8.49 或每年 $84.99,解锁所有 Whisper 模型大小,取消模式数量上限,并启用云端 LLM 后处理。终身版在最新报价里是一次性 $249.99。无论哪个套餐,云端润色都意味着按请求支付给 OpenAI、Anthropic、Google 或你接入的任何提供商。
Voicr
Voicr 的 Free 计划每月 5,000 字,所有功能都包含在内,免信用卡。GO 是 $3/mo,每月 20,000 字。PRO 是 $10/mo,每月 100,000 字。润色每个套餐都包含,不会再有单独的 AI 提供商账单。
对轻度用户而言,两款几乎都是免费。对每天高强度听写的人,数学题就变成:你更愿意一次性付 SuperWhisper Lifetime 加上持续的 LLM 费用,还是一笔包含润色的月度 Voicr 订阅。Voicr 的 Free 套餐比 SuperWhisper Free 更接近完整版应用——没有模型门槛、没有自定义模式上限、也不用另外付钱给 AI 提供商才能拿到润色。

什么时候应该选 SuperWhisper
确实有一些场景,SuperWhisper 是更合适的工具,而且差距不小。
你在 Windows 上,或者在 Mac 和 Windows 之间来回切换。Voicr 仅限 Apple Silicon Mac。如果你需要一款跨操作系统的应用,SuperWhisper 能覆盖。
你有硬性的离线要求。合规、敏感内容、某台机器无法联网。本地 Whisper 转写、不接云端 LLM,正是 SuperWhisper 最擅长的场景。
你想自带模型。用本地 Llama 做润色,按任务在 GPT 和 Claude 之间切换,像写系统提示一样写 XML 标签提示词。SuperWhisper 就是为此设计的,Voicr 不是。
你想要终身定价。如果你打算连年高强度听写,SuperWhisper Lifetime 加上你自己的 API 开销,长期可能比按月订阅更便宜。值得算一笔账。
什么时候应该选 Voicr
大多数日常 Mac 用户落在这里,同样值得说清楚为什么。
你不想管 API key。你希望润色默认就开,而不是装好后的一个配置步骤。
你想一个按键就在每个应用里做对事。不用切换模式,不用手动触发——按住 FN,在 Slack 里听起来就像 Slack,在 Mail 里听起来就像 Mail。
你在用 Apple Silicon Mac,而且会一直留在 Mac 上。没有跨平台需求,没有一台等着同样设置的 Windows 机器。
你想五分钟上手,而不是五小时。装好,授权,按住 FN。默认效果就足够立刻用起来,以后想微调语气,再去调 Smart Rules。
如果这副画像对得上,Voicr 用起来会像是一个有人已经替你配置好的 SuperWhisper。同样的 Whisper 转写质量,润色已经接好,分应用的感知是核心能力,而不是从自定义模式里拼出来的。
诚实的测试方法
如果你真的在两者之间难以抉择,公平的做法是:在两款应用里听写同一段真实写作。别用一句话——挑三到五句的内容,比如一封邮件或一条 Slack 串里的回复。自然地说,带上你平时会编辑掉的语气词和说错重来的部分。
先别动结果,看看每款应用的输出。两个问题: 1. 这段文字是不是已经可以直接发出去了? 2. 工具有没有意识到你在哪个应用里?
如果 SuperWhisper 的输出可以直接发出去,因为你花了一个周末把自定义模式和提示词调好了,那是个真实的成果——继续用它。如果它还是一份你得手动清理的原始转写,那么 Voicr 和 SuperWhisper 的差别基本就是「润色自动发生」和「你将来要把润色配出来」之间的差别。
最快的验证办法是:装上 Voicr,把 FN 设为触发键,把同一封邮件再说一遍。如果你更愿意自己掌控每条提示词和每个模型,SuperWhisper 是更好的工具。如果你更愿意按住一个键,让润色好的版本直接落进输入框,那 Voicr 就是你要找的东西。
想从另一个角度看这个问题——Voicr 与苹果自带工具的对比——请看 Voicr 对比 Apple Dictation 拆解。

