返回博客

Voicr Team · 2026年6月5日

十年后我们还会打字吗?语音优先的计算时代

十年来,语音一直比打字更快。唯一拖住它后腿的问题刚刚被解决。这是关于语音优先计算的一篇诚实之作。

十年后我们还会打字吗?语音优先的计算时代

差不多十五年来,语音一直被视为计算的未来。Siri 于 2011 年问世。此后每一年,总有人撰文宣告键盘的末日将至。可每一年,你还是照样在打字。

所以有个值得质疑的问题:凭什么接下来这十年就能打破这个循环?我认为它会,但原因和那些炒作文章给出的不一样。语音输给这么多年,并不是因为它慢,而是因为你说完话*之后*发生的事。

这个空档值得好好琢磨。真正拖住语音的那个问题,已经悄悄被解决了,而大多数人还没反应过来。这就是语音优先计算的理由,连同那些诚实的部分一起摆出来。

那个一再落空的预言

有一个科技预言每隔几年就像彗星一样回归:打字正在消亡,语音即将取而代之。它随着 Siri 出现,又随着 Alexa,再随着此后一波又一波的听写应用反复登场。键盘总是即将被取代,却始终没有。

想知道为什么,就看看有人第一次用 Mac 自带听写功能时会发生什么。他说了一段话,转录文字回来时每一个「呃」都原封不动,两个重新开口的开头被拼在一起,还有一句因为没停顿而拖了四十个词的长句。他花几分钟把它整理干净,然后判定打字会更快,于是不出一周就悄悄回到了键盘。

这就是语音一再失利的全部缘由。它承诺的是「别再打字」,现实却是「少打字、多修改」。人们抛弃语音,并不是因为它跟不上自己,而是因为整理的代价把说话省下的时间又赔了回去。

慢的从来不是语音

这里有个在来回争论中被忽略的事实。单论速度,这场争论十年前就有了定论,而且语音轻松胜出。

一个熟练的桌面打字员大约能达到每分钟 40 个词。轻松的口语则毫不费力地接近每分钟 150 个词。你脑海里那个声音,那个在手指还没跟上之前就已经把句子组好的声音,跑得还要更快。在这条链路里,打字是慢得最离谱的那一环。

这并不只是随手一算的猜测。2016 年,斯坦福、百度和华盛顿大学的研究者做了一次正面对比:对着手机说出文字比用拇指打字快三倍,而且口语版本的错误率还*低了 20%*。在同一场测试里,又快又准,那是十年前。

所以阻碍从来不是速度。瓶颈藏在下游一步,就在事后递到你手上的那段乱糟糟的转录文字里。修好这一步,整个等式就变了。

真正改变的东西:语音与文字之间的 AI 层

缺失的那一环从来不是更好的麦克风,而是一个能把原始语音变成成品文字、不用你亲自去收尾的层。两样东西在差不多同一时间成熟,才让这成为可能。

首先,转录变得真的很好。领先的语音模型在清晰的对话式英语上如今词错误率已低于 5%,而像 Whisper 这样的开放模型接近 3%。原始采集已经不再是薄弱环节。

其次,也是真正的转折,大语言模型已经强到可以*重写*一段转录,而不只是把它存下来。同一种能帮你起草邮件的模型,能接过你随口说出的一通话,删掉口头废话,修好语法,把那一堵话墙拆成真正的段落。输出不再是你所说内容的录音,而开始变成你想表达内容的草稿。

第二个层才是全局的胜负手。这就是「递给你一份还要做的功课」的听写,和「递给你一份可以直接发出去的东西」的听写之间的区别。这正是 Voicr 在做的事:你按住一个键正常说话,到达剪贴板的文字已经打磨好了,「呃」声没了,句子也理顺了。那个把语音害了二十年的整理税,正是它替你悄悄消化掉的部分。

这个转变已经写在数据里

如果这只是个动听的理论,你会预期使用数据是平的。可它们并不平。

美国的语音助手使用人数预计在 2026 年突破 1.57 亿,如今大约三分之一的人每天用语音而非打字来做搜索。已经有数十亿台支持语音的设备躺在口袋里、摆在桌面上。这种行为并不在等谁批准,它正在扩散。

最清晰的信号来自最年轻的职场人。《财富》报道的一项研究指出,Alpha 世代可能在进入职场时从未写过一封正式邮件,而是默认给老板发语音消息。无论邮件最终是否还在,方向都很难看错:对那些从小按住录音键说话长大的人来说,打一段字本身就已经是那个慢选项了。

一张由小小的对话气泡组成的上升折线图,显示语音输入的采用率随时间攀升

这一切并不意味着键盘下个季度就会消失。它意味着默认选项正在移动。语音优先不再是一种预测,而是一条你已经能描出来的趋势线,而且它只指向一个方向。

语音优先计算到底是什么样子

「语音优先」听起来像是一间会跟你对话的科幻厨房。真实的版本要安静得多,说实话也更有用。

它意味着语音成为你把一个念头落到纸面上的默认方式,而键盘变成你拿来打磨它的工具。你说出邮件、Slack 回复、粗糙的初稿、给自己留的便条。然后你回头读一遍,用几下键盘改掉那句没说对的话。用语音捕捉,用手修订。

让这一切真正可行的关键在于语气。你跟老板说话的方式和在群聊里不一样,一个把所有内容都压成同一种腔调的工具会很快被弃用。语音优先的配置会让输出适应它要去的地方:群聊里随意,邮件里正式,代码注释里平实。你每次都用同样的方式说话,文字却会自动变得合适。我在我如何用 AI 弥合思考与写作之间的鸿沟一文里写过这是怎样改变了我自己的日常工作流。

注意这幅图景不是什么。它不是一个没有键盘的世界,而是一个你先说话、再打字的世界,而不是凡事都从零开始敲。

键盘保留下来的部分

一份假装键盘会变得毫无用处的语音优先论,不值得信任。有些活儿语音确实干不好,而且短期内也不会变。

有些事打字依然更快: - 代码以及任何符号密集的内容。 听写能拿下词,却会在括号、下划线和精确的变量名上栽跟头。代码你还是得打。 - 嘈杂或共享的空间。 在安静的房间里对着笔记本电脑说话没问题,在挤满人的地铁上,或在开放式办公室里紧挨着一个正在通话的同事时,就不行了。 - 任何你不想说出口的内容。 严厉的反馈、敏感的回复、不想被邻座听到的消息。键盘有一种语音给不了的私密性。 - 精细编辑。 一旦草稿大体可用,挪一个逗号或换一个词,用键盘比用一整句话要快。

一幅亲切的分屏画面,麦克风用于说话,键盘用于编辑,二者并肩协作

所以对「我们还会打字吗」这个问题,答案的一部分干脆就是:会,为了这些场景。变的是键盘不再是你事事都用的那个工具,而成了语音不合适时你才拿起来的专用工具。这是降级,不是绝迹。

语音之后是什么

如果把眼光放到整整十年,语音甚至都不是终点。更具未来感的输入方式已经在实验室里了。

Meta 展示过一款能读取你肌肉电信号的腕带,让你在任何表面上用微小的手指动作「打字」,无需键盘。这是一项真正令人印象深刻的研究。但留意这些数字:早期测试者用手势书写大约达到每分钟 21 个词。这超过了部分拇指打字,作为辅助工具更是远胜一筹,但它仍然只是你单凭说话就能达到的每分钟 150 个词的一小部分。

这就是这一切中那个安静的要点。在可预见的未来,你的声音是从一个念头到成品文字之间最快的通道,前提是不动手术、不靠科幻。神经输入正在到来,它最重要的意义在于帮助那些无法舒适地说话或打字的人。而对其他所有人来说,语音是我们最先跨过的那座桥,而且它已经在这里了。

那么,我们还会打字吗?

会。但在十年之内,打字会从一种反射变成一种例外。它会变成你在语音不合时宜时才伸手去用的东西,就像你今天伸手去拿一支笔:有用、刻意,但不再是你大多数写作的方式。

这次之所以不同,跟语音变得更快毫无关系。它一直都更快。不同之处在于整理终于被搞定了,所以说话不再意味着事后要报名参加一场编辑课。去掉那笔税,你桌上那个最慢的工具,在日常写作里就几乎没什么可推荐的理由了。

你不必盲信这个十年预测,也能验证它的前提。挑出你下一条需要写两行以上的回复。别打字,按住一个听写键,不打草稿地把你想说的说出来,再读一遍落到屏幕上的内容。如果你想让它出来时是打磨过的而不是粗糙的,那正是 Voicr 存在的全部理由:按住 FN,说话,粘贴,文字就会干净利落地出现,并且贴合你正在使用的应用。免费档每月覆盖 5,000 个词,足够你弄清楚自己是不是已经活在那些标题一再许诺的未来里了。