ブログに戻る

Voicr Team · 2026年5月23日

Macで音声をリアルタイムに翻訳・文字起こしする方法

ライブ字幕、オンデバイス翻訳、100言語対応のワンキー音声入力。自分のワークフローに合うツールを選ぶためのガイド。

Macで音声をリアルタイムに翻訳・文字起こしする方法

サンパウロのサプライヤーとZoomで話していて、相手がついポルトガル語に切り替わってしまう。あるいは日本語の製品発表を見ているのに、自動字幕がまったく追いついてこない。あるいは頭の中ではスペイン語で考えているのに、クライアントには英語のメールを送らなければならない。

まったく別の3つの問題です。それなのにどれも「Macでの音声リアルタイム翻訳」というひと言でまとめられてしまうので、この手のガイドはたいてい分かりにくくなります。正しいツールは、3つのうち実際にどれを解決したいかで決まります。

Appleは昨秋、macOS 26でLive Translationを投入しました。WhisperにはMacBook Airでも熱暴走させずに動くTurboモデルが登場。かつては好事家向けのごちゃごちゃした世界だった音声入力ツールも、今や本当に実用的なレベルになっています。この記事では、何が使えるのか、どの選択肢がどんな場面に本当にフィットするのか、デモ動画の罠にハマらずに設定する方法を整理します。

「リアルタイム」とは実際には何を指すのか

ツールを選ぶ前に、ワークフローに名前をつけましょう。Macでいう「リアルタイム」には大きく3つのタイプがあり、必要なソフトウェアもそれぞれ違います。

ライブ字幕 — 誰かが話していて、その内容を(できれば翻訳付きで)話している最中に字幕として読みたいケース。通話、会議、講義、ライブ配信などです。レイテンシーが命。4秒の遅延でもイライラしますし、10秒遅れたらもう使い物になりません。

音声入力(ディクテーション) — 話しているのは自分で、話し終わったときに別の言語のきれいなテキストが欲しいケース。メール、Slackのメッセージ、ドキュメントなど。文字起こしも翻訳も、話し終えた瞬間に一気に確定します。話しながら単語が流れるよりも、話し終わった瞬間にコンマ何秒で結果が出ることのほうが大事です。

ファイルの文字起こし — 録音データ(Zoomの書き出し、ボイスメモ、ポッドキャストなど)があって、翻訳済みのトランスクリプトが欲しいケース。実はリアルタイムではありません。手に入る範囲で一番精度の高いモデルに投げ込んで、2分待てばよいだけの話です。

ここを混同すると、会議用の文字起こしツールでサクッとメールを書こうとしたり、音声入力アプリでYouTube動画に字幕を付けようとしたりすることになります。まずカテゴリを正しく選んでから、ツールを選びましょう。

macOS標準の選択肢

Apple SiliconのMacでmacOS 26を使っているなら、Appleは標準で2つのツールを提供しています。そして、見落としやすい1つの大きな穴もあります。

Live Translation(macOS 26)

Live TranslationはMessages、FaceTime、そしてMac版の新しいPhoneアプリで動作します。Apple Intelligenceで動いており、処理はすべてオンデバイス。データは端末から外に出ません。FaceTime通話中であれば、メニューボタンからLive Captionsを選ぶと、翻訳済みのトランスクリプトが画面上部に表示されます。

問題は対応言語の少なさです。FaceTimeとPhoneのLive Translationは、英語、フランス語、ドイツ語、ポルトガル語(ブラジル)、スペイン語(スペイン)に対応しており、中国語(普通話)、イタリア語、日本語、韓国語が順次追加予定です。Messagesはもう少し広く、デンマーク語、オランダ語、ノルウェー語、スウェーデン語、トルコ語、ベトナム語などにも対応しています。

無料で、プライバシーも守られ、レイテンシーも良好。ただし、Apple純正アプリの中でしか動きません。Zoom、Google Meet、Slackのハドル、YouTube — このあたりはLive Translationの守備範囲外です。

Live Captions

システム設定 → アクセシビリティ → Live CaptionsからLive Captionsをオンにすると、フローティングウィンドウが表示され、Macが拾うあらゆる音声 — システム音声、マイク、あるいはその両方 — を文字起こししてくれます。アプリを選ばず動作するので、Zoom、YouTube、ポッドキャスト、隣で話している同僚の声まで対応できます。

Live Captionsは文字起こし専用で、翻訳はしません。執筆時点では英語のみ対応です。英語の会議で、内容を追うためにテキストが欲しいだけならこれで十分。ただ、会議がポルトガル語ならLive Captionsは役に立ちません。

Macにおける3種類のリアルタイム音声翻訳ワークフローの比較:会議のためのライブ字幕、ライティングのための音声入力、ファイル文字起こし

通話や動画のためのライブ字幕と翻訳

Apple標準ツールでカバーできない通話には、サードパーティのアプリ群が穴を埋めてくれます。これらはシステム音声(Macのスピーカーから流れている音すべて)やマイク入力を取り込み、ローカルのWhisperモデルで文字起こしし、必要に応じて翻訳します。以下に挙げる3つはどれもオンデバイスで動くので、機密性の高い通話でも安心です。

MacWhisper — このジャンルでは長く続いているMacアプリのひとつ。WhisperとNvidia Parakeetで動作する翻訳付きのライブ字幕機能を備え、どの会議ツールでもシステム音声をキャプチャできます。Zoom、Meet、Teamsで安定して動作。Pro版は買い切りです。

Superwhisper — ライブ文字起こしとWhisperベースの音声入力フローを一体化したアプリ。100以上の言語に対応し、そのほぼすべてを英語に翻訳できます。字幕ツールと音声入力ツールの両方を兼ねようとしているので、1本で済ませたい人には便利ですが、ディクテーション専用アプリよりは音声入力側が重めになります。

Transcrybe — 比較的新しく、軽量で、リアルタイム翻訳に特化したアプリ。オンデバイス専用です。インターフェースは「知らない言語で誰かが話している、その内容を見せてくれ」というニーズを中心に作られています。旅行、サポート通話、外国語コンテンツの視聴などで活躍します。

このシーンの頻度に応じて選びましょう。海外との通話で一日が終わるような人なら、MacWhisperかSuperwhisperをメニューバーに常駐させる価値があります。たまにしか必要ないなら、FaceTime内のApple Live Translationで十分かもしれません。

ある言語で話して、別の言語で書く

実は、もっとも多い「リアルタイム翻訳」のニーズは、相手が話していることとは何の関係もありません。母語で考えているのに、仕事で求められるから英語で書かなければならない*自分自身*に関するものです。

スペイン人、フランス人、ポーランド人で、仕事で大量に英語を書くなら、その「税金」を肌で知っているはずです。頭の中で母語で文を組み立て、それを脳内で英語に変換し、最後にその訳をタイプする。メールはどれも下書きが2回分です。頭の中で書いたものと、指が打ち出したもの。

このユースケースに必要なツールの形は、ライブ字幕とはまったく違います。ストリーミング字幕は必要ありません。必要なのは、キーをひとつ押し、自分の言語で自然に話し、離した瞬間にクリップボードへ目的言語の整ったテキストが乗っていて、どこにでも(Gmail、Slack、Notion、Jiraチケット)貼り付けられる状態です。

ここを埋めるのがVoicrです。FNを押しっぱなしにして、100言語のいずれかで話し、ターゲットを英語に設定すれば、貼り付けられるのはクリーンな英語。生の文字起こしを別の翻訳サービスに通したものではありません。文字起こしと翻訳が、音声 → 文字起こし → コピー → 翻訳サービス → 貼り付け、ではなく1ステップで終わります。所要時間は、話す時間とほぼ同じです。

また自動検出モードもあり、音声から話している言語を判別します。たとえばプライベートのSlackはスペイン語、クライアント向けメールは英語といった切り替えがあっても、ピッカーを開く必要はありません。小さなことですが、機能リストでは見落とされがちな差です。詳しい解説はMac上で100言語の音声入力を扱うにあります。

事前録音された音声を文字起こしする

ファイルがある場合(Zoomの録画、ボイスメモ、インタビュー、ポッドキャストなど)、「リアルタイム」というフレームはそぐいません。フルクオリティで動作するWhisperベースのツールに投げ込み、2分待たせるのが正解です。ここで効くのは精度です。

MacWhisperやWhisper Transcriptionはどちらも得意とする領域。スクリプトに抵抗がなければOpenAI APIを直接叩いてもよいでしょう。翻訳に関して注意点をひとつ。Whisperに組み込みの翻訳機能は一方向のみで、任意言語 → 英語にしか変換できません。逆方向(たとえば英語 → 日本語)が必要なら、文字起こし後にClaude、GPT、DeepLなど別の翻訳モデルに通してください。

入力が常にライブなら、ここは読み飛ばして構いません。ただ、インタビューを録音したり過去の会議の音声を文字起こししたりするなら、オフラインのワークフローのほうが安く、精度も高く、修正もしやすいままです。

自分のワークフローに合うセットアップを選ぶ

ざっくりした決定木は次のとおりです。

1. FaceTimeやMessagesでのやり取りに字幕が欲しい → Apple Live Translation。無料、標準搭載、オンデバイス。 2. Zoom/Meet/Teamsで自分の知らない言語の通話に字幕が欲しい → MacWhisper、Superwhisper、Transcrybeのいずれかから選ぶ。 3. 母語で話して、英語のテキストを得てどこにでも貼り付けたい → Voicrのようなワンキーの音声入力ツール。バイリンガルなプロフェッショナルにとっての日常的な使い方です。 4. 他言語で録音されたファイルを文字起こしして英語で得たい → MacWhisperなど、Whisperベースのデスクトップアプリ。オフライン、フルクオリティモデル、2分待ち。

多くの人は最終的に1つではなく2つのツールに落ち着きます。たまに必要になるライブ字幕用のツールと、日常的に使う音声入力用のツールです。この棲み分けはごく普通のこと。字幕ツールと音声入力ツールは最適化のポイントが違うので、1本で両方をこなそうとすると、両方とも中途半端になりがちです。

現実的な期待値を持っておく

どのデモ動画も触れない、けれど導入前に知っておきたいポイントがいくつかあります。

レイテンシーは確実にある。 オンデバイスのWhisperでも、ライブ字幕には1〜3秒の遅延があります。クラウド系のツールはそこにさらに1〜2秒乗ります。そのつもりで使いましょう。テンポの速い政治討論をライブ字幕で追おうとしないこと。すぐに置いていかれます。

上位約10言語を外れると翻訳品質は落ちる。 Whisper自体は英語、スペイン語、フランス語、ドイツ語、ポルトガル語、イタリア語、中国語(普通話)、日本語で非常に優秀です。一方、タイ語、広東語、ベトナム語、ほとんどのアフリカ系言語では明らかに弱くなります。自分の言語がロングテール側にあるなら、本番で頼る前にテストを。

システム音声のキャプチャには権限が必要。 macOSはデフォルトでは、アプリにシステム音声を聞かせません。ライブ字幕系のツールはどれも、初回起動時に画面収録権限やオーディオループバックの許可を案内してくれます。これは正常な動作で、一部のアプリが一度だけ仮想オーディオデバイスのインストールを求めるのも同じ理由です。

プライバシーはツールによって違う。 Appleのツールと多くのWhisperベースのアプリは、すべてオンデバイスで完結します。クラウドAPIに音声を送るタイプのもの(いわゆる「AIミーティングアシスタント」系)は、別のトレードオフを選んでいることになります。法務、医療、その他規制業界にいるなら、クライアント通話でツールを起動する前に必ず確認しましょう。

バイリンガルのプロフェッショナルが母語で話している間、Macのメール下書きにクリーンな英語のテキストが現れる様子

現実的な始め方

最終的な目的が何であれ、いちばん始めやすいのは、今週いちばん多く直面したユースケースを1つだけ選ぶことです。レアなものではなく、日常的なほうを。

海外との会議が多いなら、ライブ字幕ツールを1本入れてメニューバーに常駐させ、2週間使ってから判断しましょう。母語で考えながら英語をたくさん書くタイプなら、次に打つ10通のメールを、母語で音声入力して英語に変換するワークフローに置き換えてみてください。

Voicrは音声入力のユースケースに特化しています。FNを押して自分の言語で話し、ターゲットを英語にすれば、どこにでも貼り付けられる英語が手に入ります。月5,000ワードまで使えるクレジットカード不要のFreeプランがあるので、このワークフローが自分の書き方に合うかどうかを試すには十分です。ライブ字幕側であれば、MacWhisperにベーシックなWhisperモデルが使える無料版があり、有料に進む前に使用感を確かめられます。

技術はもうボトルネックではありません。面白いのはここから、つまり実際にどのワークフローを組んで使い続けるかという話で、それは自分が日々ぶつかる具体的な摩擦に対して、適切なツールを選べるかどうかにかかっています。音声入力側についてさらに知りたい方は、Macでの音声入力は実際どう動いているのかで、声からクリップボード上のきれいなテキストまでに何が起きているかを掘り下げています。