Macで100言語の音声入力:完全ガイド

メールを英語で書き始め、マドリードのチームメイトへのひと言だけスペイン語に切り替え、最後にフランス語でSlackに返信する。アプリ3つ、言語3つ、所要10分。そのうち半分は実際の入力時間で、残り半分はMacディクテーションの言語メニューと格闘する時間だ。

複数の言語を使う人にとって、Appleの標準ディクテーションは「一言語しか話さない人向け」に設計されているように感じる。言語を選び、話し、システム設定を開くか、カーソル横の小さなメニューをクリックして切り替える。切り替えを忘れれば、フランス語は英語として認識されてしまい、ただの意味不明な文字列が出力される。

この1年でひっそりと状況が変わった。ごく一部のMacアプリが、約100言語にわたる音声を書き起こし、さらに整文までしてくれるようになった。しかも、メニューに触れずに何の言語を話しているかを自動で判別する。本ガイドでは、2026年時点でそれが実際に何を意味するのか、どの言語が本当にカバーされているのか、Appleのツールがどこで限界に達するのか、そして言語を切り替えるたびに破綻しない多言語ディクテーション環境の整え方を順に見ていく。

2026年、Macで「100言語」が実際に意味するもの

アプリの公式サイトに並ぶ「100言語」という数字は誇大広告ではない。これは特定のモデル、OpenAIのWhisperに由来している。約68万時間の多言語音声で学習されたモデルで、現在広く使われているlarge-v3-turboは99言語をサポートしており、多くのアプリはそれを「100」と切り上げて表記している。

カバーされる言語のおおまかな内訳はこうだ。ヨーロッパ言語はほぼ全域、北欧語派とスラブ語派も含む。主要なアジア言語、中国語(普通話)、日本語、韓国語、ベトナム語、タイ語、インドネシア語、タガログ語、マレー語。南アジア系では、ヒンディー語、ベンガル語、タミル語、ウルドゥー語、マラーティー語、ネパール語。中東系では、アラビア語、ヘブライ語、ペルシャ語、トルコ語、アゼルバイジャン語。アフリカ系では、スワヒリ語、アフリカーンス語。さらに、ウェールズ語、マオリ語、ベラルーシ語、マケドニア語、カザフ語、ビルマ語といった意外な言語まで含まれる。

ただし、品質はすべての言語で均一というわけではない。英語、スペイン語、フランス語、ドイツ語、イタリア語、ポルトガル語、オランダ語、日本語、中国語は最上位グループで、クリーンな音声なら単語誤り率は4〜8%程度。学習データが乏しい少数言語、たとえばウェールズ語やマオリ語などは15〜25%まで上がる。それでも十分使えるが、認識の許容度は下がる。

もう一つの大きな変化は、これらすべてが普通のMacの上で動くようになったことだ。Apple SiliconはWhisperの大規模モデルが30秒のクリップを2秒未満でローカル処理できる水準に達した。クラウド往復は不要だ。Mac向けディクテーションアプリが急に似たような顔をし始めた理由はここにある。みんな同じモデルの上に立っているからだ。

Appleの標準ディクテーションが頭打ちになるところ

Apple Dictationは2012年からあり、無料だ。単一言語で、単一アプリで使う分には問題ない。多言語の作業になると、3つの点で流れが止まる。

言語数。 Appleがサポートしているのは、macOSのバージョンにもよるが、おおよそ50〜60言語と方言にとどまる。主要なヨーロッパ系・アジア系の市場には十分だが、ウクライナ語、タガログ語、ウェールズ語が必要だったり、Appleが提供する以上にきめ細かい方言が欲しかったりすると、すぐに行き詰まる。

言語の自動検出がない。 Apple Dictationは最後に選んだ言語をそのまま使う。切り替え忘れると、フランス語が英語モデルに通されて、それっぽい韻だけ残った意味不明な文字列になる。言語を変えるには、カーソル横の小さな言語インジケーターをクリックしてリストから選ぶ。切り替えのたびに手動操作だ。

生の書き起こし、整文なし。 話した内容がそのまま出る。「えーと」「まあ」、言い直し、途中で考えを変えて止めた半端な文まで全部だ。1言語でも厄介で、多言語の現場ではさらに厳しい。モデルに認識させるためについ慎重に話すからだ。

英語でしか話さず、後から手で直すのが苦にならないなら、Appleのツールで足りる。2つ目の言語が必要になった瞬間、あるいは読み返さずに貼り付けられる文章が欲しくなった瞬間、限界が来る。

Whisperが内部で100言語をどう扱っているか

キーを押して話したときに何が起きているのか、おおまかに知っておくと役に立つ。動くものと動かないものの理由がそれで説明できるからだ。

Whisperは99言語の音声で学習された単一のニューラルネットワークだ。言語ごとに別のモデルを動かすのではなく、すべてを一度に認識することを学習している。この共有学習には利点がある。イタリア語の文とポルトガル語の文には共通する音響的な特徴が十分あって、片方を学ぶことがもう一方の助けになるのだ。欠点は、すべての言語が同じモデル容量を取り合うため、データの少ない言語ほど弱くなる点。

さまざまな言語の音声がひとつの書き起こしモデルに流れ込み、整文されたテキストとして出力される様子のイラスト

音声が入力されると、モデルは1回の処理で3つのことを行う: 1. 最初の数秒の音声から言語を予測する。 2. 単語を書き起こす。 3. 句読点と大文字小文字を整える。

この言語検出が、自動モードを成立させている。モデルは「どの言語がどのように聞こえるか」を学んでいる。話し始めて1〜2秒以内に正解にたどり着くのが普通だ。つまずくのは、極端に短い発話(1〜2語)、語彙が大量に重なる言語ペア(スペイン語とイタリア語、ノルウェー語とスウェーデン語)、そして文の途中で言語を切り替えるケース。Whisperはあくまでクリップ1つに対して1言語を検出する設計で、話者が言語間を行き来するのを追跡するようには作られていない。

生の音声がきれいなテキストになるまでの全体像を詳しく知りたい場合は、AI音声ディクテーションのパイプライン解説で各ステップを追っている。

自動検出と手動選択:それぞれが活きる場面

現代の多言語ディクテーションアプリは、両方のモードを用意している。どちらをいつ使うか分かっていると、快適さと苛立ちの差が大きく変わる。

自動検出を使う場面

1日の中で言語を頻繁に切り替えるが、1回のディクテーションは1言語で完結する場合だ。ベルリン在住の開発者が、コードコメントは英語、Slackのメッセージはドイツ語で書く。ジャーナリストが英語と日本語の取材をまたいで作業する。サポート担当が4言語のチケットをさばく。いずれも個々の録音は1言語で、変わるのは「どの言語か」だけ。自動検出ならメニュー探しの手間がなくなる。

手動で言語を選ぶ場面

検出が不安定な少数言語(ウェールズ語、マオリ語、ベラルーシ語)で作業するとき。最初の1秒が音声ではなく環境音になりそうな騒がしい場所で録音するとき。検出に必要な音量が足りない短い発話を扱うとき。あるいは、モデルがよく知っている別の言語と重なりやすい言語を使うとき(ガリシア語を話したのにポルトガル語と判定されることがある)。

今もうまくいかないこと

文の途中での言語切り替えだ。スペイン語で話している途中に英語のブランド名が混じる程度なら、モデルは処理してくれる。しかし、スペイン語で文を始めて英語で終わると、どちらかが他方の言語の意味不明な文字列として書き起こされることが多い。素直な対処法は、言語の境目で録音を止めて、新しい録音を始めること。

話しながら翻訳する:「Xで話して英語で出す」ワークフロー

現代のMacディクテーションで意外と見過ごされているのが、話しながら翻訳する機能だ。母語で話すと、別言語のテキストが出てくる。多くの場合、出力先は英語になる。

これを実現する仕組みは2通りある。1つ目は、Whisperの古い多言語版に組み込まれていた翻訳タスクで、99言語のいずれかで話すと、モデルが直接英語を出力する。新しいturbo版にはこれがないため、現在の多くのアプリは別の方法を取る。Whisperで原語のまま書き起こし、その後で言語モデルがテキストを翻訳するというものだ。この2つ目の方式の方が品質が高く、整文も同時に行えるため、今や標準的な手法になっている。

これは、かつて3ステップを要していた現実のワークフローを一気に縮める。従来:母語で話してテキストを書き、それをコピーして翻訳ツールに貼り、結果をまたコピーしてメールに貼る。約30秒、4回のコンテキストスイッチ。新方式:キーを1つ押さえて母語で話せば、整文された英語のテキストがそのままカーソル位置に現れる。約4秒。

仕事で英語を書く時間があるが、考えるときは別の言語の方が速いという人なら、現代のディクテーション環境を整える理由はこの機能だけで十分だ。Voicrは1つのホットキーでこれを実現する。入力言語をAutoに、整文出力を英語に設定すれば、何語で話そうとも、毎回「そのまま送れる英語」が出力される。

Macでのリアルな多言語ワークフロー

理屈は安い。実際に時間が浮く具体的なパターンを紹介する。

バイリンガルのメモとジャーナリング

母語でメモを取りつつ、職場は英語環境という人なら、ディクテーションは両方のいいとこ取りができる。入力言語を母語、出力も母語に設定すれば(翻訳なし)、タイピングそのものから解放される。会議メモのように原文と英語版の両方が欲しい場合は、出力設定を変えて2回ディクテーションすればいい。

コードを書きつつ、母語でコメント

非英語圏のチームの開発者は、コードは英語、コメントはチームの言語、という形を取ることが多い。エディタで英語のコードや関数名を口述する場面と、母語でコメントを口述する場面を切り替えても、自動検出なら考えずに済む。1回の録音は1言語、モデルはそのつど正しい方を選ぶ。

4つのタイムゾーンをまたぐカスタマーサポート

英語、スペイン語、フランス語、ドイツ語のチケットをさばくサポート担当は、ツール内で言語プロファイルを切り替えることが多い。多言語ディクテーションなら、チケットを読み、その言語のまま返信し、次へ進む。プロファイル切り替えもメニュー操作もない。整文の段階もここでは重要だ。サポート返信は、どの言語でも一貫したプロフェッショナルなトーンが求められる。生の書き起こしのままでは出せない。

語学学習者と語学教師

言語を学習中なら、その言語でディクテーションすることで発音とテンポを鍛えられる。モデルが認識できなければ、それはフィードバックだ。教える側なら、例文をディクテーションすることでアクセント記号、特殊文字、ダイアクリティカルマークのタイピングから解放される。モデルが正しく付けてくれる。どちらの立場でも、話しながら翻訳する機能は即時の理解度チェックとして機能する。学習中の言語で話して、英語が自分の意図と合っているか確かめられる。

国際的なライターとジャーナリスト

ある言語で考え、別の言語で出版する長文ライターは、タイピングしながら頭の中で翻訳していることが多い。これはかなり消耗する。考える言語で初稿を話し、ツールに英語を出させて、それを編集する。初稿の速度は3〜4倍に上がり、翻訳作業に脳のリソースを取られないので、編集脳もフレッシュなままだ。

Macで多言語ディクテーションを設定する手順

ルートは2つある。一番シンプルな用途ならApple標準のツール、それ以外はサードパーティ製アプリだ。

Apple Dictationを複数言語で使う設定

システム設定を開き、キーボード、ディクテーションの順に進む。オンにする。Languagesのドロップダウンを開き、使いたい言語を追加する。最大6つほど追加できる。これ以降、ディクテーション開始時にカーソル付近に小さな旗または言語コードが表示される。クリックすると言語を切り替えられる。制約: - 自動検出なし。切り替えは毎回クリック。 - 言語数は約50〜60。 - 生の書き起こしのみで、整文もアプリごとのフォーマット調整もなし。 - 古いmacOSでは60秒で打ち切られる。

サードパーティの多言語アプリを設定する

現代のMacディクテーションアプリのほとんどは、メニューバーに常駐し、あらゆるアプリのあらゆるテキストフィールドで動くユーティリティだ。設定は次のような流れになる: 1. アプリをインストールし、マイクとアクセシビリティの権限を付与する。 2. ホットキーを設定または承認する(通常はFNまたはOption+Spaceの長押し録音)。 3. 入力言語を選ぶ。多言語運用なら、ここをAutoにする。 4. 出力言語を選ぶ。入力と同じなら書き起こしのみ、英語(または別の言語)を選べば翻訳になる。 5. 任意で整文プロンプト(「professional」「casual」「keep raw」など)を設定し、出力のテイストを好みに揃える。これ以降、テキストを入力できる場所ならどこでもディクテーションできる。キーを押し、話し、離すと、カーソル位置にテキストが現れる。

アプリごとにトーンを変えて書く人(フォーマルなメール、カジュアルなSlack、技術ドキュメント)にとって出番なのが、Smart Rulesだ。アクティブなアプリに応じて自動で適用される、アプリ単位の文体プロファイルだ。一度設定すれば後は意識しなくていい。同じ多言語モデルが、すべてのアプリに対して機能する。

押さえておきたい実践ポイント

Macで多言語ディクテーションを構築するときに覚えておきたい3つのこと:

1回の録音につき1言語、が原則。 モデルは100言語を扱えるが、選ぶのはクリップごとに1つだ。文の途中で切り替えようとせず、言語の境目で録音を区切ること。

日常的な多言語業務では、自動検出をデフォルトに。 手動選択が報われるのは、短い発話、少数言語、検出ミスが起きそうな騒音環境のときだけ。

話しながらの翻訳は、別ツールではない。 出力言語を英語に、入力言語を母語に設定しておけば、毎回の録音がそのまま翻訳になる。追加ステップなし、別アプリなし、コピペなし。

1つのキーで、どんな言語でも

ここまで読んだ人にとって、「2026年のMacで100言語をディクテーションするには?」への答えは短い。Whisperを使ったサードパーティ製アプリを入れ、入力言語をAutoに設定し、キーを押さえて話す。言語検出、書き起こし、整文、そして必要なら翻訳まで、システムが1往復で処理してくれる。

Voicrはこれを、Mac上のあらゆるアプリから1つのホットキーで実現する。FNを押さえ、100言語のうちのどれかで話し、離せば、整文されたテキストがカーソル位置に届く。話しながら翻訳したいなら出力言語を変えるだけ、原語のままきれいに書き起こしたいなら入力と同じ言語にしておけばいい。月5,000ワードまでの無料プランがあるので、多言語ディクテーションが自分のワークフローに合うかどうかを確かめる一番安上がりな方法は、明日の最初のメールで試してみることだ。

現代のMacディクテーションが、今の手元の環境と比べて具体的にどう違うのかを見たい場合は、VoicrとApple Dictationの比較で機能ごとに整理している。