Tu es en visio Zoom avec un fournisseur à São Paulo qui glisse sans cesse vers le portugais. Ou tu regardes un keynote produit japonais et les sous-titres automatiques traînent à la ramasse. Ou tu penses en espagnol mais ton client attend des e-mails en anglais.
Trois problèmes complètement différents. Les trois sont regroupés sous l'étiquette « traduction vocale en temps réel sur Mac », et c'est pour ça que la plupart des guides sur le sujet sont confus. Le bon outil dépend de celui que tu cherches vraiment à résoudre.
Apple a livré Live Translation dans macOS 26 l'automne dernier. Whisper a sorti un modèle Turbo qui tourne sur un MacBook Air sans le faire fondre. Les outils de dictée, autrefois bricolés par des passionnés, sont devenus vraiment bons. Ce guide passe en revue ce qui existe, quand chaque option correspond vraiment à ton besoin, et comment les configurer sans tomber dans le piège de la vidéo de démo.
Ce que « temps réel » veut vraiment dire
Avant de choisir un outil, nomme le scénario. Il existe trois variantes distinctes de « temps réel » sur un Mac, et chacune demande un logiciel différent :
Sous-titrage en direct — quelqu'un d'autre parle et tu veux des sous-titres, éventuellement traduits, pendant qu'il parle. Appels, réunions, conférences, livestreams. La latence compte. Un décalage de 4 secondes est pénible ; un décalage de 10 secondes est inutilisable.
Dictée — c'est toi qui parles, et tu veux un texte propre dans une autre langue à la fin. E-mails, messages Slack, documents. La transcription et la traduction se font d'un seul coup quand tu arrêtes de parler. Une réponse sous la seconde quand tu finis compte plus que voir les mots défiler en streaming.
Transcription de fichiers — tu as un enregistrement (export Zoom, mémo vocal, podcast) et tu veux une transcription traduite. Ce n'est pas vraiment du temps réel. Balance-le dans le modèle le plus précis possible et attends deux minutes.
Mélanger ces cas, c'est comme ça qu'on finit par utiliser un outil de transcription de réunion pour écrire un e-mail rapide, ou par tenter de sous-titrer une vidéo YouTube avec une app de dictée. Choisis d'abord la bonne catégorie, ensuite l'outil.
Les options intégrées à macOS
Si tu es sur macOS 26 avec un Mac Apple Silicon, Apple te donne deux outils intégrés, plus un manque important.
Live Translation (macOS 26)
Live Translation fonctionne dans Messages, FaceTime et la nouvelle app Téléphone pour Mac. C'est propulsé par Apple Intelligence et tourne sur l'appareil, donc rien ne quitte ta machine. Dans un appel FaceTime, tu cliques sur le bouton menu, choisis Sous-titres en direct, et une transcription traduite apparaît en haut de l'écran.
Le hic, c'est la liste des langues. Pour Live Translation dans FaceTime et Téléphone, Apple prend en charge l'anglais, le français, l'allemand, le portugais (Brésil) et l'espagnol (Espagne), avec le mandarin, l'italien, le japonais et le coréen en cours de déploiement. Messages couvre un éventail plus large, dont le danois, le néerlandais, le norvégien, le suédois, le turc et le vietnamien.
C'est gratuit, privé, et la latence est bonne. Ça ne marche qu'à l'intérieur des apps d'Apple. Zoom, Google Meet, les huddles Slack, YouTube — rien de tout ça ne passe par Live Translation.
Sous-titres en direct
Active les Sous-titres en direct dans Réglages Système → Accessibilité → Sous-titres en direct et tu obtiens une fenêtre flottante qui transcrit n'importe quel son capté par ton Mac — audio système, microphone, ou les deux. Ça marche dans n'importe quelle app : Zoom, YouTube, un podcast, un collègue qui parle à côté de toi.
Les Sous-titres en direct transcrivent mais ne traduisent pas. Au moment où j'écris, c'est aussi uniquement en anglais. Si ta réunion est en anglais et que tu veux juste suivre par écrit, c'est la bonne réponse. Si la réunion est en portugais, les Sous-titres en direct ne t'aideront pas.

Sous-titres et traduction en direct pour les appels et les vidéos
Quand les outils intégrés d'Apple ne couvrent pas ton appel, un petit groupe d'apps tierces comble le vide. Elles captent l'audio système (tout ce qui sort des haut-parleurs de ton Mac) ou ton microphone, le transcrivent avec un modèle Whisper local et le traduisent en option. Les trois ci-dessous tournent sur l'appareil, ce qui compte si tu es dans un appel confidentiel.
MacWhisper — Une des apps Mac les plus anciennes du domaine. Sous-titrage en direct avec traduction, tourne sur Whisper et Nvidia Parakeet, prend en charge la capture audio système pour n'importe quel outil de réunion. Solide pour Zoom, Meet, Teams. La version Pro est un achat unique.
Superwhisper — Combine transcription en direct et flux de dictée basé sur Whisper. Prend en charge plus de 100 langues et peut en traduire n'importe laquelle vers l'anglais. Essaie d'être à la fois un outil de sous-titrage et de dictée, ce qui marche si tu veux une seule app pour les deux mais signifie que la partie dictée est plus lourde qu'un outil dédié.
Transcrybe — Plus récent, plus léger, centré spécifiquement sur la traduction en temps réel. Sur l'appareil uniquement. L'interface est pensée autour de « quelqu'un parle une langue que je ne comprends pas — montre-moi ce qu'il dit ». Bien pour les voyages, le support client, le visionnage de contenu en langue étrangère.
Choisis selon la fréquence du scénario. Si tu vis dans les appels internationaux, MacWhisper ou Superwhisper méritent leur place dans ta barre de menus. Si tu en as besoin seulement de temps en temps, Live Translation d'Apple dans FaceTime suffit peut-être.
Dicter dans une langue, écrire dans une autre
Le besoin de « traduction en temps réel » le plus courant n'a rien à voir avec d'autres gens qui parlent. Il s'agit de *toi*, qui penses dans ta langue maternelle mais qui dois rendre de l'anglais à l'écrit parce que c'est ce que le travail attend.
Si tu es espagnol, français ou polonais et que tu écris beaucoup d'anglais au boulot, tu connais la taxe. Tu composes la phrase dans ta tête dans ta langue, tu la traduis mentalement, puis tu tapes la traduction. Chaque e-mail, c'est deux brouillons : celui que tu as écrit dans ta tête, et celui que tes doigts ont produit.
La forme du bon outil ici est différente du sous-titrage en direct. Tu n'as pas besoin de sous-titres en streaming. Tu as besoin de ceci : tu maintiens une touche, tu parles naturellement dans ta langue, tu relâches, et un texte soigné dans la langue cible atterrit dans ton presse-papiers, prêt à coller n'importe où (Gmail, Slack, Notion, un ticket Jira).
C'est le manque que comble Voicr. Maintiens FN, parle dans n'importe laquelle de 100 langues, définis l'anglais comme cible, et ce qui se colle, c'est de l'anglais propre, pas ta transcription brute passée à travers un traducteur séparé. La transcription et la traduction se font en une étape au lieu de parole → transcription → copie → traducteur → coller. L'ensemble prend à peu près le temps qu'il te faut pour parler.
Il y a aussi un mode Détection automatique qui devine la langue parlée à partir de l'audio lui-même, donc si tu passes, disons, de l'espagnol pour Slack perso à l'anglais pour les e-mails clients, tu n'ouvres pas de menu déroulant. Petit détail, facile à manquer dans une liste de fonctionnalités. Le décryptage complet est dans Voice-to-Text dans 100 langues sur Mac.
Transcrire des fichiers audio préenregistrés
Si tu as un fichier (un enregistrement Zoom, un mémo vocal, un entretien, un podcast), le « temps réel » n'est pas le bon cadre. Balance le fichier dans un outil basé sur Whisper qui tourne à pleine qualité et laisse-le prendre deux minutes. Ce qui compte, c'est la précision.
MacWhisper et Whisper Transcription gèrent bien ça. L'API OpenAI aussi, directement, si tu es à l'aise avec un script. Pour la traduction spécifiquement, note que la traduction intégrée de Whisper ne va que dans un sens : n'importe quelle langue → anglais. Si tu as besoin de l'autre direction (anglais → japonais, par exemple), passe la transcription dans un modèle de traduction séparé après, comme Claude, GPT ou DeepL.
Saute cette section si ton entrée est toujours en direct. Mais si tu enregistres des entretiens ou récupères des transcriptions de vieilles réunions, le flux hors ligne reste moins cher, plus précis et plus facile à corriger que le streaming.
Choisir la bonne configuration pour ton scénario
Un arbre de décision rapide :
1. Je veux des sous-titres pendant une conversation FaceTime ou Messages → Apple Live Translation. Gratuit, intégré, sur l'appareil. 2. Je veux des sous-titres pendant un appel Zoom/Meet/Teams dans une langue que je ne parle pas → MacWhisper, Superwhisper ou Transcrybe. Choisis-en un. 3. Je veux dicter dans ma langue maternelle et obtenir du texte anglais à coller n'importe où → Un outil de dictée en une touche comme Voicr. C'est le cas quotidien pour les professionnels bilingues. 4. Je veux transcrire un fichier enregistré dans une autre langue et obtenir de l'anglais → MacWhisper ou n'importe quelle app desktop basée sur Whisper. Hors ligne, modèle pleine qualité, deux minutes d'attente.
La plupart des gens finissent avec deux outils, pas un : un pour les sous-titres en direct quand ils en ont besoin (occasionnellement), et un pour la dictée quotidienne (constamment). Cette séparation est normale. Un outil de sous-titrage et un outil de dictée optimisent pour des choses différentes, et essayer d'en faire faire les deux à un seul revient généralement à faire les deux moins bien.
Garder les attentes réalistes
Quelques détails que toute vidéo de démo passe sous silence et qu'il vaut mieux connaître avant de s'engager :
La latence existe vraiment. Même Whisper en local a 1 à 3 secondes de délai pour les sous-titres en direct. Les outils dans le cloud ajoutent encore 1 à 2 secondes. Prévois-le. N'essaie pas de suivre un débat politique rapide avec du sous-titrage en direct, tu vas décrocher.
La qualité de traduction chute en dehors des ~10 grandes langues. Whisper est excellent pour l'anglais, l'espagnol, le français, l'allemand, le portugais, l'italien, le mandarin, le japonais. Il devient nettement plus faible sur le thaï, le cantonais, le vietnamien et la plupart des langues africaines. Si ta langue est dans la longue traîne, teste avant d'en dépendre.
La capture audio système demande une autorisation. macOS ne laisse pas une app écouter l'audio système par défaut. Chaque outil de la catégorie sous-titrage en direct te guidera pour accorder l'autorisation Enregistrement de l'écran ou loopback audio la première fois. C'est normal. C'est aussi pour ça que certaines apps demandent l'installation ponctuelle d'un périphérique audio virtuel.
La confidentialité varie. Les outils d'Apple et la plupart des apps basées sur Whisper tournent entièrement sur l'appareil. Tout ce qui envoie l'audio à une API cloud (certains outils « d'assistant IA de réunion ») fait un compromis différent. Si tu es dans le juridique, la santé ou un domaine régulé, vérifie avant d'activer un outil dans un appel client.

Un point de départ concret
Le plus facile pour démarrer, quel que soit ton objectif final, c'est de choisir le seul cas d'usage que tu rencontres le plus souvent cette semaine. Pas le rare. Le quotidien.
Si tu es dans beaucoup de réunions internationales, installe un seul outil de sous-titrage en direct, laisse-le dans la barre de menus et utilise-le pendant deux semaines avant de décider. Si tu écris beaucoup d'anglais en pensant dans une autre langue, essaie de remplacer les dix prochains e-mails que tu taperais normalement par de la dictée dans ta langue maternelle et laisse l'outil produire l'anglais.
Voicr gère spécifiquement le cas de la dictée. Maintiens FN, parle dans ta langue, définis l'anglais comme cible, colle n'importe où. Il y a une offre gratuite (5 000 mots par mois, sans carte bancaire) qui suffit à voir si le flux colle vraiment à ta façon d'écrire. Pour le cas du sous-titrage en direct, MacWhisper a une version gratuite avec le modèle Whisper de base qui suffit à tester l'expérience avant de payer.
La technologie a cessé d'être le goulot d'étranglement il y a un moment. La question intéressante maintenant, c'est quel flux tu mets vraiment en place et tu utilises, et ça revient à choisir le bon outil pour la friction précise que tu rencontres tout le temps. Pour aller plus loin côté dictée, Comment fonctionne vraiment la dictée vocale sur Mac détaille ce qui se passe entre ta voix et le texte soigné dans ton presse-papiers.

