10年後、私たちはまだタイピングしているのか？音声ファーストの時代へ

音声は、もう15年ほど「コンピューティングの未来」と言われ続けてきた。Siriが登場したのは2011年。それ以来、毎年のように誰かが「キーボードの時代は終わりだ」という記事を書いてきた。そして毎年、あなたはタイピングを続けてきた。

だからこそ、疑ってかかる価値のある問いがある。なぜこれからの10年は、このパターンを破るのだろうか？私は破ると思っているが、それは話題先行の記事が語る理由とは違う。音声がこの長い年月を負け続けたのは、遅かったからではない。負けたのは、あなたが話し*終わった後*に起きることのせいだ。

このギャップは、じっくり考えてみる価値がある。音声を本当に足止めしていた唯一のものが、ひっそりと解決された。そしてほとんどの人は、まだそれに気づいていない。これは音声ファーストのコンピューティングを擁護する話だが、正直な部分も残したままにしておく。

ずっと外れ続ける予言

数年ごとに彗星のように戻ってくるテクノロジーの予言がある。タイピングは死につつあり、音声が取って代わる、というものだ。Siriのときに現れ、次にAlexa、そしてその後に続くあらゆるディクテーションアプリの波とともに現れた。キーボードはいつも「もうすぐ置き換えられる」とされていた。だが一度もそうはならなかった。

その理由を知りたければ、誰かが初めてMac標準のディクテーションを試したときに何が起きるかを見ればいい。一段落しゃべる。返ってきた文字起こしには、「えーと」がすべてそのまま残り、二つの言い直しがつなぎ合わされ、息継ぎをしなかったせいで40語にもわたって続く文がある。数分かけて整える羽目になり、タイピングのほうが速かったと判断し、一週間も経たないうちにそっとキーボードに戻る。

音声が負け続けた理由は、ほぼこれに尽きる。約束は「タイピングをやめよう」だった。現実は「タイピングは減るが、編集は増える」だった。人々が音声を拒んだのは、それが自分のスピードについてこられなかったからではない。後始末のコストが、しゃべることで節約した時間をまた奪い返したからだ。

音声は、遅い部分だったことなど一度もない

この議論で見落とされがちな部分がここにある。純粋なスピードでいえば、この勝負は10年前に決着がついていて、音声が楽勝した。

しっかりしたデスクトップのタイピストでも、おおよそ毎分40語あたりだ。気楽な会話のスピードは、何の努力もなしに毎分150語近くに達する。頭の中の声、つまり指が追いつく前に文を組み立てているあの声は、さらに速く回っている。この連鎖の中で、タイピングは断トツで最も遅い区間なのだ。

これは単なる大雑把な推測ではない。2016年、スタンフォード大学、Baidu、ワシントン大学の研究者たちが直接対決の実験を行った。スマホにテキストを話し込むほうが、親指でタイプするより3倍速く、しかも話した版のエラー率は*20パーセント低かった*。同じテストで、速くて正確。10年前の話だ。

だから、スピードが足かせだったことなど一度もない。ボトルネックはその一歩下流、つまり後から手渡される散らかった文字起こしの中にあった。そのステップを直せば、方程式全体が変わる。

実際に変わったもの — 音声とテキストのあいだのAIレイヤー

足りなかったピースは、より良いマイクなどでは決してなかった。あなた自身が仕上げをしなくても、生の音声を完成されたテキストに変えてくれるレイヤーだった。それを可能にする二つのものが、ほぼ同じ時期に成熟した。

まず、文字起こしが本物に良くなった。最先端の音声モデルは、明瞭な会話調の英語で単語エラー率5パーセント未満で動作するようになり、Whisperのようなオープンモデルは3パーセント近くに達する。生の取り込みは、もはや弱点ではない。

次に、これが本当の転換点なのだが、大規模言語モデルが、文字起こしをただ保存するのではなく*書き直す*のに十分なほど賢くなった。メールの下書きを書くのと同じ種類のモデルが、あなたの口から出たとりとめのない話を受け取り、つなぎ言葉を落とし、文法を直し、ひと続きの話のかたまりを本物の段落に区切ってくれる。出力は「あなたが言ったこと」の記録であることをやめ、「あなたが言いたかったこと」の下書きになり始める。

この第二のレイヤーこそが、すべての勝敗を決める。それは、宿題を手渡してくるディクテーションと、そのまま送れるものを手渡してくれるディクテーションの違いだ。これこそまさにVoicrがやってくれる仕事だ。キーを一つ押さえながら普通に話すだけで、クリップボードに届くテキストはすでに磨かれていて、「えーと」は消え、文も整っている。20年にわたって音声を葬ってきた後始末の税金、その部分をVoicrはひっそりとあなたの代わりに処理してくれる。

この変化は、すでにデータに表れている

もしこれが単なる耳ざわりのいい理論にすぎないなら、利用数の推移は横ばいのはずだ。だが、そうではない。

米国における音声アシスタントの利用者は2026年に1億5,700万人を超えると予測されており、いまやおよそ3人に1人が、タイプする代わりに音声で日常的に検索している。音声に対応した端末は、すでに何十億台もポケットの中やデスクの上にある。この行動は許可を待ってなどいない。ただ広がっているのだ。

最も明確なシグナルは、最も若い世代の働き手から来ている。Fortuneが報じた調査によれば、ジェネレーションアルファは、正式なメールを一度も書いたことがないまま社会に出るかもしれず、その代わりに上司へボイスメッセージを送ることを当たり前にするという。メールが生き残るかどうかはともかく、方向性は見間違えようがない。録音ボタンを押さえながら話すのが当たり前に育った人々にとって、一段落をタイプすることは、すでに「遅いほうの選択肢」に感じられているのだ。

小さな吹き出しでできた右肩上がりの折れ線グラフが、音声入力の普及が時間とともに伸びていく様子を示している

これは、来四半期にキーボードが消える、という意味ではない。デフォルトが動きつつある、という意味だ。音声ファーストはもはや予報ではない。すでになぞれるトレンドラインであり、その向きは一方向を指している。

音声ファーストのコンピューティングは、実際にはどう見えるのか

「音声ファースト」と聞くと、話しかけると返事をしてくるSF映画のキッチンを思い浮かべるかもしれない。実際の姿はもっと静かで、正直なところ、もっと役に立つ。

それは、考えをページに乗せるための既定の手段が音声になり、それを練り上げるために手を伸ばす道具がキーボードになる、ということだ。メールを、Slackの返信を、荒っぽい初稿を、自分宛てのメモを、まず話す。それから読み返して、ひとつだけ収まりの悪い言い回しを数回のキー操作で直す。音声で捉え、手で整える。

これを本当に実用に耐えるものにしているのは、トーンだ。上司に話すときと、グループチャットで話すときとでは、言葉づかいが違う。そして、何もかもを一つの声に平坦化してしまう道具は、すぐに見捨てられる。音声ファーストの仕組みは、出力を行き先に合わせて変える。チャットではくだけた調子に、メールではきちんとした調子に、コードのコメントでは素っ気ない調子に。あなたは毎回同じように話すだけで、文章のほうがその場にふさわしく変化する。これが自分自身の日々のワークフローをどう変えたかについては、思考と執筆のあいだのギャップをAIで埋める方法に書いた。

この絵が「何でないか」に注目してほしい。これはキーボードのない世界ではない。何もかもをまっさらな状態からタイプするのではなく、まず話して、それからタイプする世界だ。

キーボードが手放さないもの

キーボードが無用の長物になるかのように装う「音声ファースト擁護論」は、信用するに値しない。音声が苦手な、本物の仕事があり、それらは当分どこにも行かない。

いくつかのものは、タイプしたほうが速いままだ。 - コード、そして記号の多いものすべて。 ディクテーションは単語は拾うが、かっこやアンダースコア、変数名の正確な綴りでつまずく。コードはやはりタイプすることになる。 - 騒がしい場所、人のいる場所。 静かな部屋でノートパソコンに話しかけるのは問題ない。だが、混んだ電車の中や、通話中の人の隣にいるオープンプランのオフィスでやるのは無理だ。 - 口に出したくないこと。 厳しいフィードバック、デリケートな返信、隣の人に聞かれたくないメッセージ。キーボードは、音声にはない形で「内緒」を保てる。 - 外科手術のような編集。 下書きがおおむね形になったあとで、カンマを一つ動かしたり、一語だけ入れ替えたりするのは、文を一つ話すよりキー一つのほうが速い。

話すためのマイクと、編集するためのキーボードが、横並びで仲良く協力している親しみやすい分割シーン

だから「私たちはまだタイピングするのか」という問いへの答えの一部は、これらについては単純に「イエス」だ。変わるのは、キーボードが「何でもこなす道具」であることをやめ、音声が合わないときに手に取る専門の道具になる、という点だ。それは降格であって、絶滅ではない。

音声のその先に来るもの

丸10年先を見据えるなら、音声でさえ終着点ではない。より未来的な入力方法は、すでに研究室の中にある。

Metaは、筋肉の電気信号を読み取るリストバンドを披露した。指のわずかな動きで、どんな面の上でも、キーボードなしに「タイプ」できるというものだ。文句なく見事な研究だ。だが数字に注目してほしい。初期のテスターが手のジェスチャーで書いて到達したのは、毎分21語あたり。これは一部の親指タイピングを上回り、アクセシビリティのツールとしては群を抜いている。それでも、ただ話すだけで得られる毎分150語のごく一部にすぎない。

ここに、このすべての静かな要点がある。当面のあいだ、あなたの声は、外科手術もSFも要らずに、思考と完成されたテキストとを結ぶ最速のチャネルだ。神経入力はやってくるし、話すことも快適にタイプすることもできない人々にとって、それは最も大きな意味を持つだろう。それ以外のすべての人にとって、音声は私たちが最初に渡る橋であり、しかもそれはもう、ここにある。

で、私たちはまだタイピングするのか？

イエス。だが10年のうちに、タイピングは反射ではなく例外になる。それは、音声がその場にそぐわないときに手を伸ばすものへと変わる。ちょうど今日あなたがペンに手を伸ばすように。役に立ち、意図的で、けれどもう、ほとんどの書きものをこなす手段ではなくなる。

今回が違う理由は、音声が速くなったこととは何の関係もない。音声はいつだって速かった。違うのは、後始末がついに片づいたことだ。だから、話すことが、その後の編集セッションに申し込むことを意味しなくなった。その税金を取り除けば、あなたのデスクの上で最も遅い道具には、日常の書きものに勧められる理由がほとんど残らない。

10年後の予報を鵜呑みにしなくても、この前提は試せる。次に書く、二行以上必要な返信を一つ選んでほしい。それをタイプする代わりに、ディクテーションのキーを押さえ、台本なしに言いたいことを言って、出てきたものを読み返す。それを生のままではなく磨かれた形で出したいなら、まさにそのためにVoicrは存在する。FNを押さえ、話し、貼り付ける。テキストはきれいに整い、いま使っているアプリに合わせて出てくる。無料プランでは月5,000語まで使えるので、見出しが約束し続けているあの未来に、自分がもう住んでいるのかどうかを確かめるには十分だ。