Comment les LLM rendent la dictée vocale vraiment utile

Tu as sans doute essayé la dictée vocale une fois, abandonné, puis repris ton clavier. C'est le cas de la plupart des gens. Le plus étrange, c'est que ça n'avait généralement rien à voir avec des mots mal retranscrits.

La reconnaissance vocale est devenue précise il y a des années. Les modèles modernes transcrivent une parole nette avec environ 95 % de précision. Si la dictée semblait quand même inutile, c'est parce qu'une transcription fidèle de ta façon réelle de parler est un véritable fouillis. Les grands modèles de langage sont la pièce qui a réglé ça, et ils ont changé l'usage même de la dictée vocale.

Pendant presque toute son histoire, la dictée vocale a été jugée sur un seul critère : a-t-elle reconnu les bons mots ? C'était en fait la mauvaise question. Reconnaître les bons mots n'a jamais été ce qui te séparait de l'écriture à la voix. Voici ce qui a vraiment changé.

La dictée vocale n'a jamais été un problème de transcription

Pendant des décennies, toutes les équipes de reconnaissance vocale ont couru après le même chiffre : le taux d'erreur sur les mots, ou WER. Il compte combien de mots le système se trompe. Plus c'est bas, mieux c'est, et tout le domaine a été optimisé pour ça.

Et elles ont largement gagné. Whisper, d'OpenAI, transcrit un audio net avec environ 2,7 % de taux d'erreur. Sur des enregistrements plus brouillons, comme une réunion, un café ou un appel téléphonique, il tourne plutôt autour de 8 à 12 %. Les transcripteurs humains se situent autour de 4 à 6 %. L'écart est faible, et il continue de se réduire.

La précision est donc plus ou moins résolue. Mais demande à n'importe qui ayant lâché la dictée en 2018 pourquoi il a arrêté, et presque personne ne répond « trop de fautes ». On te dira que c'était laborieux, ou que le résultat demandait tellement de retouches que ça n'en valait pas la peine.

C'est révélateur. Le goulot d'étranglement n'a jamais été la transcription. C'était tout ce qui se passe une fois que les mots sont déjà corrects.

À quoi ressemble une transcription brute de ta parole

Voici ce dont personne ne te prévient : tu ne parles pas en phrases bien propres. Personne ne le fait.

Quand tu parles naturellement, tu reviens en arrière, tu recommences, tu laisses des phrases en suspens et tu glisses des « euh », des « genre » et des « tu vois ». Ton cerveau corrige tout ça à la volée sans que tu t'en aperçoives. Un moteur de transcription, lui, remarque tout et écrit le moindre détail.

Imagine que tu dictes un petit message à un collègue. Sorti d'un transcripteur pur, ça revient sous cette forme :

*« ok donc euh je voulais faire le point sur le le truc d'hier, le rapport, tu peux euh me l'envoyer quand t'as un moment, y a pas le feu ou quoi »*

Chaque mot est correct. Et c'est inutilisable. Tu passerais plus de temps à corriger ça que tu n'en as gagné à le dire. C'est précisément à ce moment-là que la plupart des gens ont renoncé à la dictée pour de bon.

Comparaison côte à côte d'une transcription vocale brute et brouillonne pleine de mots parasites à gauche et d'un message propre et soigné à droite

Ce que les grands modèles de langage apportent vraiment

Un transcripteur répond à une seule question : quels sons cette personne a-t-elle produits ? Un modèle de langage en répond à une autre : qu'est-ce que cette personne voulait dire, et comment cela devrait-il se lire ?

Cette seconde question est l'essentiel. Un LLM prend la transcription brouillonne et la réécrit comme le ferait un relecteur attentif. Il enlève les mots parasites, termine tes phrases laissées en plan, corrige la grammaire et préserve ton sens. Le message ci-dessus devient :

*« Salut, tu peux m'envoyer le rapport d'hier quand tu as un moment ? Rien d'urgent. »*

Même intention, lisible en une seule lecture. La transcription ne s'est pas améliorée ici. Ce qui a changé, c'est la deuxième couche posée par-dessus, qui fait la relecture que tu aurais sinon faite toi-même.

C'est plus qu'une astuce de produit. Les chercheurs l'étudient directement. Un article de 2024 de la conférence ACM CHI, baptisé Rambler, a constaté que laisser les gens parler librement et utiliser un LLM pour remodeler l'« essentiel » produisait de meilleurs textes avec moins d'effort que la frappe ou la dictée brute. Parler, c'est notre façon de penser à voix haute. Le modèle s'occupe de la partie que notre cerveau saute d'habitude.

D'autres travaux vont dans le même sens. Des études sur le raffinement de transcriptions par LLM montrent que faire passer la parole par un modèle de langage après la reconnaissance réduit les erreurs et améliore la lisibilité, surtout pour les homophones et les tournures dépendantes du contexte qu'un simple transcripteur ne peut pas démêler seul.

Le contexte, c'est l'autre moitié

Nettoyer une transcription, c'est le premier travail. Savoir quel genre de texte tu voulais, c'est le second, et c'est là que ça devient intéressant.

« Envoie-moi la présentation avant la fin de la journée » convient pour un message Slack à un coéquipier. C'est trop direct pour un e-mail à un client. Les mots sont bons ; c'est le registre qui ne va pas. Un modèle de langage peut lire la situation et ajuster le ton, parce qu'il comprend le contexte, pas seulement le son.

En pratique, la même phrase dite peut ressortir décontractée dans une application et soignée dans une autre. Tu ne changes pas ta façon de parler. Le modèle change sa façon d'écrire, selon la destination du texte.

C'est exactement ce que font les Smart Rules de Voicr. Tu définis une fois un ton détendu pour Slack et un ton formel pour les e-mails, et Voicr repère dans quelle application tu te trouves pour appliquer automatiquement le bon style. Maintiens FN, dis ce que tu as à dire, et la version qui atterrit dans ton presse-papiers correspond déjà à l'endroit où tu vas la coller.

Le vrai changement : tu arrêtes de parler à un ordinateur

L'ancienne dictée t'obligeait à faire le numéro. Tu devais parler en phrases finies, dire « virgule » et « nouveau paragraphe » à voix haute, et abandonner tes habitudes de langage normales. Tu faisais le travail de relecture dans ta tête, en temps réel, tout en parlant. C'était épuisant, et c'est pour ça que ça n'a jamais pris.

La dictée vocale basée sur les LLM t'enlève ce travail des mains. Tu peux divaguer. Tu peux changer d'avis au milieu d'une phrase. Tu peux parler comme tu l'expliquerais à un ami, et la version propre apparaît quand même.

Ça a l'air d'un détail. C'est toute la différence entre faire fonctionner un outil et simplement penser à voix haute.

Le gain de vitesse est réel aussi. La plupart des gens parlent à environ 150 mots par minute et tapent à environ 40. Une étude de Stanford a montré que la saisie vocale sur téléphone était trois fois plus rapide que la frappe, avec moins d'erreurs. Mais la vitesse a cessé d'être l'attrait principal une fois que le résultat est devenu bon. Le vrai intérêt, c'est que tu ne perds plus le fil de tes pensées à cause de ton clavier. On a creusé ce calcul dans pourquoi ta voix est plus rapide que ton clavier.

Là où les LLM se trompent encore sur la dictée vocale

C'est réellement mieux, mais ce n'est pas de la magie. La même intelligence qui nettoie ton texte peut aussi en faire trop, et ça vaut la peine de savoir où.

Ça peut changer ton sens. Quand un modèle « corrige » une phrase, il lui arrive de gommer un détail que tu voulais ou de mal deviner ton intention. Plus ta formulation est technique ou inhabituelle, plus le risque est élevé. Relis rapidement tout ce qui compte avant de l'envoyer.

Les noms et le jargon le piègent encore. La transcription gère bien les mots courants et peine sur les noms propres, les noms de produits et les termes spécialisés. Un modèle peut deviner d'après le contexte, mais il écrira avec assurance le nom de ton collègue de travers.

Les homophones ne sont pas entièrement résolus. « ces », « ses » et « c'est » tombent généralement juste parce que le contexte aide, mais pas à chaque fois.

Ça ajoute un soupçon de latence. Un transcripteur pur est quasi instantané. Faire tourner un second modèle pour peaufiner coûte d'une fraction de seconde à quelques secondes. Ça vaut le coup pour la qualité, mais ce n'est pas gratuit.

Aucun de ces points n'est rédhibitoire une fois que tu sais qu'ils existent. C'est la raison pour laquelle l'habitude d'une relecture rapide avant l'envoi reste payante. Si tu veux le tableau complet du fonctionnement de cette chaîne de bout en bout, on a écrit un guide étape par étape de la dictée vocale par IA sur Mac.

Schéma montrant deux couches empilées : une couche de transcription qui transforme le son en mots, et une couche de langage qui transforme les mots en texte propre

Ce que ça change pour ta façon d'écrire

Le bon modèle mental à retenir, c'est que la dictée vocale est désormais deux outils empilés :

1. Une couche de transcription qui transforme le son en mots exacts. 2. Une couche de langage qui transforme ces mots en un texte qui se lit vraiment bien.

La transcription pure reste le bon choix quand tu as besoin d'un compte rendu exact. Entretiens, notes juridiques, tout ce où chaque « euh » compte. Pour tout le reste, comme les e-mails, les messages, les documents et les notes, c'est la couche de peaufinage qui rend la parole plus rapide que la frappe, au lieu de simplement plus brouillonne.

Donc, au moment de choisir un outil, la vraie question n'est pas « à quel point la transcription est-elle précise ». La plupart le sont aujourd'hui. La question, c'est « à quel point la couche du dessus est-elle bonne ». Notre comparatif des meilleures applis de dictée vocale pour Mac détaille celles qui réussissent bien cette partie.

Comment essayer la dictée vocale peaufinée par LLM

Le moyen le plus rapide de sentir la différence, c'est de dicter ton prochain e-mail au lieu de le taper, puis de regarder ce qui apparaît dans le brouillon. Ce ne sera pas la transcription brute dont tu te souviens il y a des années. Ça se lira comme si tu l'avais écrit un jour de grande forme.

Si tu veux ça sans bricoler plusieurs outils ensemble, Voicr fait les deux couches en une seule étape. Maintiens FN, parle comme tu veux, relâche, et un texte soigné atterrit dans ton presse-papiers, prêt à coller. Il utilise Whisper pour la transcription et un modèle de langage pour le nettoyage, avec des styles par application pour que le ton colle à l'endroit où tu écris. L'offre gratuite, c'est 5 000 mots par mois, sans carte bancaire.

La dictée vocale fonctionne enfin comme elle l'aurait toujours dû. Pas parce que les machines t'entendent mieux, mais parce qu'elles ont enfin appris à comprendre ce que tu voulais dire.