Dictée vocale par IA sur Mac : comment ça marche vraiment

Tu fixes le curseur qui clignote dans un e-mail vide. Tu sais ce que tu veux dire. Tu n'as juste pas envie de le taper.

La dictée sur Mac existe depuis 2012, et la plupart des gens ont laissé tomber il y a des années. La dictée vocale par IA sur Mac, c'est ce qui a changé la donne ces 18 derniers mois. L'ancienne expérience du « tu parles dans un micro et tu vois apparaître un mur de fautes » a été discrètement remplacée par quelque chose qui ressemble enfin à de l'écriture.

Voilà la partie que la plupart des articles passent sous silence. Le problème, ce n'est plus la transcription, c'est réglé. Ce qui a changé, c'est la couche au-dessus, celle qui prend tes pensées décousues et les transforme en texte propre avant qu'elles n'atteignent ton écran. Cet article retrace tout le pipeline, étape par étape, pour que tu voies ce que ton Mac fait réellement entre le moment où tu commences à parler et celui où un texte impeccable atterrit dans ton brouillon.

Pourquoi la dictée sur Mac devient enfin utilisable

Deux chiffres expliquent pourquoi les gens reviennent à la dictée. Une personne moyenne tape environ 40 mots par minute. Une personne moyenne parle à environ 150. Soit à peu près quatre mots prononcés dans le temps d'en taper un seul.

Mais la vitesse n'a jamais vraiment été le problème. Le problème, c'était le résultat. L'ancienne dictée te rendait une transcription littérale de chaque euh, de chaque redémarrage, de chaque « attends, non, oublie ça ». Tu gagnais 30 secondes à dicter et tu en passais 90 à nettoyer.

Les applis de dictée modernes basées sur l'IA ont réglé ça en ajoutant une deuxième étape. La parole passe par la transcription, comme avant. Puis elle est transmise à un modèle de langage qui la réécrit comme le ferait un éditeur soigneux. Mots de remplissage supprimés. Grammaire corrigée. Phrases terminées. Au moment où le texte apparaît à l'écran, on dirait que tu l'as écrit un jour où tu étais inspiré.

Les cinq étapes derrière la dictée vocale par IA sur Mac

Le pipeline est court. Cinq étapes, dont la plupart sont invisibles : 1. Capture, où ton Mac capte ta voix. 2. Transcription, où l'audio devient du texte brut. 3. Polissage, où le texte brut est nettoyé par un modèle d'IA. 4. Mise en contexte, où le style d'écriture s'adapte à l'endroit où le texte va atterrir. 5. Livraison, où le texte impeccable apparaît à ton curseur.

Chaque étape a son propre modèle, ses propres compromis et ses propres points de défaillance. Ça vaut le coup de les comprendre une par une.

Étape 1 : capture, comment ton Mac capte ta voix

Cette partie n'a rien de sophistiqué. Tu appuies sur un raccourci (FN, Option+Espace, ou autre selon l'appli) et le micro se met à écouter. L'appli enregistre l'audio en mémoire, généralement en 16 bits à 16 kHz, le format que le modèle de transcription attend.

La plupart des applis de dictée modernes sur Mac n'utilisent pas la détection d'activité vocale pour démarrer et s'arrêter. Elles utilisent le raccourci. Tu maintiens pour parler, tu relâches pour arrêter. La raison, c'est la fiabilité. La détection vocale sur un micro ouvert dans un café, c'est à pile ou face. Un appui sur une touche, non.

Quelques choses se passent pendant la capture sans que tu les voies. L'audio est mis en tampon, souvent débruité grâce au framework audio intégré d'Apple, puis découpé en morceaux. Si tu parles plus longtemps que la taille d'un morceau, généralement 30 secondes, l'appli peut diviser l'enregistrement avant de l'envoyer.

Étape 2 : transcription, comment Whisper transforme le son en mots

C'est là que la plupart des applis de dictée IA pour Mac convergent vers une même technologie : le modèle Whisper d'OpenAI. Whisper est un système de reconnaissance vocale entraîné sur environ 5 millions d'heures d'audio dans 99 langues. La version actuelle, large-v3, atteint environ 2,7 % de taux d'erreur sur des mots en anglais propre et 8 à 12 % sur des enregistrements bruyants du quotidien.

Concrètement : parle naturellement et environ 92 à 97 pour cent des mots seront transcrits correctement sans rien régler. C'est un niveau de précision tout autre que celui du moteur de dictée d'origine d'Apple, et c'est pour ça que les applis tierces ont décollé.

Voilà en gros ce que Whisper fait de ton audio : - Découpe l'enregistrement en morceaux de 30 secondes. - Convertit chaque morceau en spectrogramme, une représentation visuelle du son selon la fréquence et le temps. - Envoie le spectrogramme dans un réseau de neurones qui a appris à associer des motifs audio à des mots. - Prédit aussi la langue, la ponctuation et la fin des phrases.

Le modèle peut tourner en local sur ton Mac (Apple Silicon le gère sans broncher) ou dans le cloud. Le local reste privé et fonctionne hors ligne. Le cloud est plus rapide sur du matériel ancien et accepte des modèles plus gros. Beaucoup d'applis te laissent choisir.

Ce que tu obtiens à la fin de cette étape, c'est une transcription brute. Ponctuée, plutôt précise, souvent un peu en vrac. C'est là que la dictée intégrée d'Apple s'arrête. Les applis intéressantes, non.

Étape 3 : polissage, la couche qui a tout changé

C'est l'étape qui a fait passer la dictée sur Mac de « plus ou moins utile » à « je n'ai pas tapé un e-mail depuis des semaines ».

Après la transcription, le texte brut est envoyé à un modèle de langage, généralement de la classe GPT-4 ou Claude, avec une instruction du genre : ``` Réécris ce texte de manière soignée et professionnelle. Supprime les mots de remplissage et les faux départs. Conserve le sens. N'ajoute rien. ```

Voilà ce que ça donne en pratique.

Ce que tu as dit

*« Bon alors euh, je voulais revenir sur, euh, la proposition de la semaine dernière. Je pense, tu vois, qu'on devrait sans doute partir sur l'option deux ? Ouais, l'option deux. Tu peux, tu peux m'envoyer le contrat d'ici vendredi ? »*

Ce qui atterrit dans ton presse-papiers

*« Pour faire suite à la proposition de la semaine dernière, j'aimerais partir sur l'option deux. Peux-tu m'envoyer le contrat d'ici vendredi ? »*

Même sens. Lecture totalement différente. Et tout ça en moins de deux secondes.

Illustration avant-après montrant à gauche un discours brut bourré de mots de remplissage qui se transforme à droite en un texte propre et soigné

C'est la partie difficile à décrire tant que tu n'as pas essayé. Tu arrêtes de penser à comment tu rends. Tu arrêtes de t'auto-corriger en parlant. Tu dis juste la chose, comme tu la dirais à un collègue, et ce qui sort, c'est la version que tu aurais écrite si tu avais eu le temps.

Si tu dictes déjà mais que tu perds du temps à nettoyer après coup, c'est exactement le trou que Voicr vient combler. Tu maintiens FN, tu parles comme tu veux, et ce qui arrive dans ton presse-papiers est déjà soigné. Pas de deuxième passe, pas de « il faut que je corrige cette phrase », juste un texte propre prêt à coller.

Étape 4 : conscience du contexte, des styles différents selon l'appli

Cette étape est plus récente. C'est aussi celle qui sépare les meilleures applis de dictée Mac des simplement correctes.

Un ton poli et formel convient à un e-mail client. Il devient bizarre dans un message Slack à un collègue. Il est carrément à côté de la plaque dans des commentaires de code. Une bonne appli de dictée détecte dans quelle appli tu es et s'adapte.

Le mécanisme est simple. L'appli lit quelle application est au premier plan. Elle va chercher la règle de style que tu as enregistrée pour cette appli. Puis elle intègre cette règle dans le prompt envoyé au modèle de polissage.

Une règle Slack pourrait dire : ``` Reste décontracté et bref. Pas de formulations corporate. Utilise des contractions. Une ou deux phrases courtes maximum. ``` Une règle e-mail pourrait dire : ``` Écris sur un ton professionnel. Phrases complètes. Ajoute une formule d'appel et une signature si le contenu le justifie. ```

Même entrée vocale. Deux sorties très différentes selon la fenêtre ouverte. Tu ne bascules rien manuellement. Tu parles, et le bon ton sort.

Étape 5 : livraison, comment le texte arrive là où tu en as besoin

La dernière étape, c'est celle qui a mis le plus de temps à être au point. Tu as un texte soigné. Maintenant, comment arrive-t-il dans ton champ de saisie actif ?

Il y a deux approches courantes : 1. La voie du presse-papiers. L'appli copie le texte soigné dans ton presse-papiers, puis déclenche une commande de collage (Cmd+V) via les API d'accessibilité de macOS. Rapide, fiable, fonctionne dans presque toutes les applis. 2. L'injection de frappes. L'appli simule la frappe de chaque caractère un par un, via un outil comme AppleScript ou le même framework d'accessibilité. Plus lent, mais ça marche dans les applis qui bloquent le collage (certains sites de banque, certains bureaux à distance, les gestionnaires de mots de passe).

La plupart des applis utilisent par défaut le collage par presse-papiers et ne retombent sur l'injection de frappes qu'en cas de besoin. Le résultat, de ton point de vue : le texte apparaît à ton curseur environ une demi-seconde après que tu as relâché le raccourci. Pas de changement d'appli, pas d'étape de copie, pas de relecture.

Schéma du pipeline en cinq étapes montrant capture, transcription, polissage, mise en contexte et livraison sous forme de cercles reliés

Traitement local ou cloud : ce qui se passe vraiment

Une question qui revient souvent : où va ma voix ?

Il y a deux vraies options. Le traitement local fait tourner le modèle Whisper sur ton Mac. Ton audio ne quitte jamais l'appareil. Sur Apple Silicon (à partir du M1), Whisper en local tourne assez vite pour de la dictée en temps réel, généralement avec moins d'une seconde de latence. Le compromis : l'étape de polissage passe encore typiquement par un modèle dans le cloud, parce que faire tourner localement un modèle de langage à 70 milliards de paramètres n'est pas réaliste pour la plupart des portables. Certaines applis proposent du tout-local avec un modèle de polissage plus petit, au prix de la qualité.

Le traitement cloud envoie à la fois l'audio et l'étape de polissage à une API distante. Plus rapide sur les Mac anciens, gère les modèles les plus gros et les plus précis. Le compromis, c'est la confidentialité. Ta parole quitte ton appareil, même si elle est supprimée juste après la transcription.

Pour la plupart des gens, « Whisper en local, polissage dans le cloud » est le bon réglage par défaut. Pour quiconque travaille sur du contenu sensible (notes médicales, brouillons juridiques, données internes d'entreprise), le tout-local vaut la petite perte de qualité. Une bonne appli te laisse choisir au cas par cas ou définir une valeur par défaut.

Là où la dictée IA bute encore

Section honnête. Le pipeline est bon. Il n'est pas parfait.

Les homophones passent encore à côté. « Their » vs « there » vs « they're » tombe juste la plupart du temps, mais pas toujours. Le polissage rattrape généralement grâce au contexte, mais pas si la phrase autour est ambiguë.

Les noms propres et le jargon, c'est aléatoire. Whisper a vu la plupart des noms courants et des termes techniques, mais il va massacrer tout ce qui est spécialisé. Noms de médicaments, noms de bibliothèques de code, le nom de famille inhabituel de ton collègue. Certaines applis te laissent ajouter un dictionnaire personnalisé qui est greffé au prompt.

Les environnements bruyants dégradent vite la précision. Whisper gère étonnamment bien le bruit de café, mais un téléphone qui sonne à côté ou quelqu'un qui parle tout près va arracher des mots de ta transcription.

Les longs monologues dérivent. Le modèle est excellent sur des salves de 10 à 30 secondes. Au-delà de 90 secondes environ, il perd parfois le fil, répète des fragments ou saute de courtes phrases. La solution, c'est simplement d'arrêter et de redémarrer l'enregistrement par tronçons.

Ces limites comptent quand tu démarres. Aucune n'est rédhibitoire si tu sais qu'elles existent. Si tu hésites entre plusieurs options, notre guide des meilleures applis de transcription vocale pour Mac détaille comment les principales applis gèrent ces compromis.

Comment te mettre à la dictée vocale par IA sur Mac dès aujourd'hui

Trois étapes concrètes, dans l'ordre.

1. Choisis une tâche à dicter tous les jours pendant une semaine. L'e-mail est un bon départ, c'est ce qui offre le meilleur taux de conversion frappe-vers-parole (de toute façon, tu réfléchis avant d'écrire). N'essaie pas de tout dicter d'un coup. Tu vas abandonner.

2. Apprends à parler à personne. Les premières fois où tu dictes, tu te sentiras bizarre à parler tout haut dans une pièce calme. Ça passe en environ quatre jours.

3. Choisis une appli et tiens-t'y. Il y a de bonnes options dans toutes les gammes de prix, de la dictée intégrée d'Apple aux outils open-source à base de Whisper, jusqu'aux applis qui couvrent tout le pipeline. Si tu veux le flux soigné transcrire-et-coller décrit plus haut, Voicr fait exactement ça. Tu maintiens FN, tu parles, tu colles. Whisper pour la transcription, un modèle de langage solide pour le polissage et des styles d'écriture par appli qui s'adaptent à l'endroit où ton curseur se trouve. L'offre gratuite te donne 5 000 mots par mois sans carte bancaire.

Le pipeline derrière tout ça est enfin assez bon pour que la dictée ne soit plus un compromis. Tu ne troques pas la qualité contre la vitesse. Tu as les deux. Le plus dur, c'est juste de décider d'arrêter de taper.