LLMが音声入力を本当に使えるものに変えた理由

あなたもおそらく音声入力を一度試して、諦めて、キーボードに戻ったのではないでしょうか。多くの人がそうでした。不思議なのは、その理由がたいてい「言葉が間違って出てくる」こととはまったく関係なかったという点です。

音声認識の精度は何年も前に十分になりました。最新のモデルは、きれいな発話を約95%の精度で文字起こしします。それでも音声入力が使えないと感じられたのは、あなたが実際に話す通りの正確な文字起こしが、ぐちゃぐちゃだからです。大規模言語モデルこそが、その問題を解決し、音声入力の用途そのものを変えたピースでした。

音声入力はその歴史のほとんどを通じて、たった一つの基準で評価されてきました。それは「言葉を正しく聞き取れたか」です。ところが、それは間違った問いでした。言葉を正しく聞き取ることは、あなたと「声で書くこと」の間に立ちはだかっていた壁ではなかったのです。実際に変わったのは何かを見ていきましょう。

音声入力は、もともと文字起こしの問題ではなかった

数十年にわたり、あらゆる音声認識チームが同じ数字を追いかけてきました。単語誤り率、つまりWERです。これはシステムが間違える単語の数を数えるもので、低いほど良く、この分野全体がこの数字の最適化に注力してきました。

そして、おおむね勝利しました。OpenAIのWhisperは、きれいな音声をおよそ2.7%の単語誤り率で文字起こしします。会議や喫茶店、電話など、より雑然とした現実の録音では、8〜12%あたりまで上がります。人間の書き起こし担当者は4〜6%程度です。その差はわずかで、今も縮まり続けています。

つまり、精度はだいたい解決しました。しかし、2018年に音声入力をやめた人に理由を聞いてみると、「誤字が多すぎた」と答える人はほとんどいません。みんな、ぎこちなかったとか、出力の手直しが多すぎて割に合わなかった、と言うのです。

それが答えのヒントです。ボトルネックは文字起こしではありませんでした。言葉がすでに正しくなった後に起こる、すべてのことだったのです。

あなたの発話を素のまま文字起こしすると、どうなるか

誰も警告してくれないことがあります。あなたはきれいな文章で話していません。誰も話していないのです。

自然に話すとき、人は言い直し、話し始めを変え、語尾を濁し、「えーと」や「なんか」や「ほら」を挟みます。あなたの脳はそれらをすべてその場で編集していて、本人はまったく気づきません。文字起こしエンジンはすべてに気づき、その一つひとつを残らず書き起こします。

たとえば、同僚に手早くメッセージを口述したとします。純粋な文字起こしエンジンから出てくるのは、こんな感じです。

*「えーとあの昨日のその例の件、あの報告書について確認したかったんだけど、手が空いたときにあの送ってもらえるかな、別に急ぎとかじゃないんだけど」*

どの単語も正しいです。でも、使い物になりません。これを直すのに、声に出した分よりも多くの時間がかかってしまうでしょう。多くの人が音声入力に完全に見切りをつけたのが、まさにこの瞬間でした。

左側にフィラー語だらけの雑然とした素の音声文字起こし、右側にきれいに整えられたメッセージを並べた比較

大規模言語モデルが実際に付け加えるもの

文字起こしエンジンが答えるのは一つの問いです。この人はどんな音を出したか。言語モデルが答えるのは別の問いです。この人は何を意味していたのか、そしてそれはどう読めるべきか。

この二つ目の問いこそ、すべての核心です。LLMは雑然とした文字起こしを受け取り、丁寧な編集者がするように書き直します。フィラーを取り除き、言いかけの文を完成させ、文法を直し、あなたの意図はそのまま保ちます。先ほどのメッセージは、こうなります。

*「お疲れさまです。手が空いたときに、昨日の報告書を送っていただけますか。急ぎではありません。」*

意図は同じで、一読で頭に入ります。ここで文字起こしの精度が上がったわけではありません。変わったのは、その上に乗っている二つ目の層が、本来あなた自身がやるはずだった編集をこなしているという点です。

これは単なる製品上の小細工ではありません。研究者たちがまさにこのテーマを直接調べています。ACMのCHIカンファレンスで発表された2024年の論文Ramblerは、人にゆるく話させ、LLMでその「要旨」を作り直させると、タイプ入力や素の音声入力よりも少ない労力で良い文章が生まれることを明らかにしました。話すことは、私たちが声に出して考える方法です。私たちの脳がふだん飛ばしている部分を、モデルが引き受けてくれるのです。

他の研究も同じ方向を指しています。LLMによる文字起こしの精緻化に関する研究は、認識後の音声を言語モデルに通すことで誤りが減り、読みやすさが向上することを示しています。とりわけ、素の文字起こしエンジンだけでは判断できない同音異義語や文脈依存の言い回しで効果が大きいのです。

文脈は、もう半分のカギ

文字起こしを整えるのが一つ目の仕事です。あなたがどんな種類の文章を書きたかったのかを理解するのが二つ目の仕事で、ここから面白くなります。

「終業までに資料送って」は、チームメイトへのSlackメッセージなら通用します。でも、クライアントへのメールには無遠慮すぎます。言葉そのものは問題なく、ずれているのは語調です。言語モデルはその状況を読み取り、トーンを調整できます。音だけでなく、文脈を理解しているからです。

実際、同じ話し言葉の一文が、あるアプリでは砕けた調子で、別のアプリでは整った調子で出てきます。あなたは話し方を変えません。テキストがどこへ向かうかに応じて、モデルが書き方を変えるのです。

これこそ、VoicrのSmart Rulesがやっていることです。Slackにはくだけたトーン、メールにはフォーマルなトーンを一度設定しておけば、Voicrが今どのアプリにいるかを察知し、適切なスタイルを自動で適用します。FNを押して、言いたいことを話すだけで、クリップボードに収まるバージョンは、貼り付けようとしている先にすでにぴったり合っています。

本当の変化：あなたはコンピューターに話しかけるのをやめる

昔の音声入力は、あなたに「演技」を強いました。完成した文で話さなければならず、「読点」や「改行」と声に出して言い、ふだんの話し方の癖を捨てる必要がありました。あなたは話しながら、頭の中でリアルタイムに編集をしていたのです。それは疲れるもので、だからこそ定着しませんでした。

LLMベースの音声入力は、その仕事をあなたの肩から下ろします。だらだら話していい。文の途中で気が変わってもいい。友達に何かを説明するように話しても、きれいなバージョンがちゃんと出てきます。

ささいなことに聞こえるかもしれません。でもこれは、道具を操作することと、ただ声に出して考えることの違いそのものなのです。

速さも本物です。多くの人は1分間に約150語話し、約40語タイプします。スタンフォード大学の研究では、スマホでの音声入力はタイプより3倍速く、しかも誤りが少ないことがわかりました。とはいえ、出力が良くなった今、速さが一番の魅力ではなくなりました。本当の魅力は、キーボードのせいで思考の流れを途切れさせなくて済むことです。この計算についてはなぜ声はキーボードより速いのかで詳しく掘り下げています。

LLMでも、まだ音声入力を間違えるところ

これは確かに改善ですが、魔法ではありません。あなたの文章を整える同じ知性が、行き過ぎることもあります。それがどこで起こるかを知っておく価値はあります。

意味を変えてしまうことがある。 モデルが文を「直す」とき、あなたが残したかった細部をならして消してしまったり、意図を取り違えたりすることがあります。言い回しが専門的だったり風変わりだったりするほど、リスクは高まります。大事なものは送る前にさっと読み返しましょう。

固有名詞や専門用語は、いまだに苦手。 文字起こしは一般的な単語はうまく扱いますが、固有名詞や製品名、専門用語には苦戦します。モデルは文脈から推測できますが、同僚の名字を自信たっぷりに間違えたりします。

同音異義語は完全には解決していない。 「橋」「箸」「端」のような語は、文脈が助けてくれるのでたいていは正しく収まりますが、毎回とはいきません。

わずかな遅延が加わる。 純粋な文字起こしエンジンはほぼ瞬時です。仕上げのために二つ目のモデルを動かすと、コンマ数秒から数秒ほどかかります。品質に見合う価値はありますが、タダではありません。

これらはどれも、存在を知ってさえいれば致命的な欠点ではありません。送る前にさっと読む習慣が今も役に立つのは、これが理由です。このパイプラインが端から端までどう動くのか、全体像を知りたい方は、Macでの音声入力AIの仕組みをステップごとに解説したガイドを書きました。

音を言葉に変える文字起こし層と、言葉をきれいな文章に変える言語層という、2つに積み重なった層を示した図

これは、あなたの書き方にとって何を意味するか

持っておくと役立つ考え方は、音声入力が今や2つの道具を積み重ねたものだ、というものです。

1. 音を正確な言葉に変える文字起こし層。 2. その言葉を、ちゃんと読める文章に変える言語層。

正確な記録が必要なときは、いまでも純粋な文字起こしが正解です。インタビュー、法的な記録、あらゆる「えーと」の一つひとつが意味を持つもの。それ以外のすべて、たとえばメールやメッセージ、ドキュメント、メモなどでは、仕上げの層こそが、話すことを単に散らかすのではなく、タイプより速くしてくれるものなのです。

だから、道具を選ぶとき、本当の問いは「文字起こしの精度はどれくらいか」ではありません。今ではどれも近い水準です。問うべきは「その上に乗る層がどれだけ良いか」です。Mac向けのベスト音声入力アプリ比較で、その部分をうまくこなすのはどれかを詳しく分析しています。

LLMで仕上げる音声入力を試す方法

違いを一番早く実感する方法は、次のメールをタイプする代わりに口述してみて、下書きに何が現れるかを見ることです。それは、何年も前に覚えている素の文字起こしではありません。調子のいい日に自分で書いたかのように読めるはずです。

ツールをつなぎ合わせる手間なしにそれを実現したいなら、Voicrは両方の層を1ステップでこなします。FNを押し、好きなように話し、離すだけで、貼り付ければすぐ使える整った文章がクリップボードに収まります。文字起こしにはWhisperを、仕上げには言語モデルを使い、アプリごとのスタイルで、書いている場所に合ったトーンにします。無料プランは月5,000語まで、クレジットカードは不要です。

音声入力は、ようやく本来あるべき形で機能するようになりました。機械があなたの声をより上手に聞き取れるようになったからではなく、あなたが何を意味していたのかを、ついにうまく理解できるようになったからです。