Taperons-nous encore dans 10 ans ? L'informatique pilotée par la voix

La voix est l'avenir de l'informatique depuis une quinzaine d'années. Siri est sorti en 2011. Chaque année depuis, quelqu'un publie l'article annonçant que les jours du clavier sont comptés. Et chaque année, vous avez continué à taper.

Voici donc une question qui mérite un peu de scepticisme : pourquoi les dix prochaines années briseraient-elles ce schéma ? Je pense qu'elles le feront, mais pas pour la raison qu'avancent les articles dithyrambiques. La voix n'a pas perdu toutes ces années parce qu'elle était lente. Elle a perdu à cause de ce qui se passait *après* que vous ayez fini de parler.

Ce décalage vaut la peine qu'on s'y attarde. La seule chose qui freinait vraiment la voix vient d'être discrètement résolue, et la plupart des gens ne l'ont pas encore réalisé. Voici l'argumentaire en faveur de l'informatique vocale, avec les parties honnêtes laissées en place.

La prédiction qui se trompe sans cesse

Il y a une prédiction technologique qui revient tous les deux ou trois ans comme une comète : le clavier se meurt, la voix prend le dessus. Elle est apparue avec Siri, puis Alexa, puis chaque vague d'applications de dictée. Le clavier était toujours sur le point d'être remplacé. Il ne l'a jamais été.

Pour comprendre pourquoi, observez ce qui se passe quand quelqu'un essaie pour la première fois la dictée intégrée de son Mac. Il prononce un paragraphe. La transcription revient avec chaque « euh » intact, deux faux départs collés ensemble, et une phrase qui s'étire sur quarante mots parce qu'il n'a pas fait de pause. Il passe quelques minutes à nettoyer tout ça, décide que taper aurait été plus rapide, et revient discrètement au clavier en moins d'une semaine.

Voilà toute l'histoire des échecs répétés de la voix. La promesse était « arrêtez de taper ». La réalité était « tapez moins, corrigez plus ». Les gens n'ont pas rejeté la voix parce qu'elle ne pouvait pas les suivre. Ils l'ont rejetée parce que le travail de nettoyage reprenait le temps que la parole avait fait gagner.

La voix n'a jamais été le maillon lent

Voici la partie qu'on perd de vue dans ces allers-retours. En vitesse pure, le débat était tranché il y a dix ans, et la voix l'a emporté haut la main.

Un bon dactylographe sur ordinateur tourne autour de 40 mots par minute. Une parole confortable avoisine les 150 mots par minute sans le moindre effort. La voix dans votre tête, celle qui compose la phrase avant que vos doigts ne suivent, va plus vite encore. Taper est de loin l'étape la plus lente de cette chaîne.

Ce n'est pas une simple estimation au doigt mouillé. En 2016, des chercheurs de Stanford, de Baidu et de l'Université de Washington ont mené une étude comparative : dicter un texte dans un téléphone était trois fois plus rapide que de le taper au pouce, et la version dictée affichait en prime un taux d'erreur *inférieur de 20 pour cent*. Plus rapide et plus précise, dans le même test, il y a dix ans.

La vitesse n'a donc jamais été le frein. Le goulet d'étranglement se trouvait juste en aval, dans la transcription brouillonne qu'on vous remettait ensuite. Corrigez cette étape et toute l'équation change.

Ce qui a vraiment changé : la couche d'IA entre la parole et le texte

La pièce manquante n'a jamais été un meilleur microphone. C'était une couche capable de transformer la parole brute en texte fini sans que vous ayez à faire les finitions. Deux choses ont mûri à peu près au même moment pour rendre cela possible.

D'abord, la transcription est devenue réellement bonne. Les meilleurs modèles de reconnaissance vocale descendent désormais sous les 5 pour cent de taux d'erreur par mot sur un anglais conversationnel clair, et les modèles ouverts comme Whisper frôlent les 3 pour cent. La capture brute n'est plus le maillon faible.

Ensuite, et c'est là le vrai changement, les grands modèles de langage sont devenus assez bons pour *réécrire* une transcription au lieu de simplement la stocker. Le même type de modèle qui rédige un e-mail peut prendre votre laïus parlé, retirer les hésitations, corriger la grammaire et découper ce bloc de parole en véritables paragraphes. Le résultat cesse d'être un enregistrement de ce que vous avez dit pour devenir un brouillon de ce que vous vouliez dire.

Cette deuxième couche, c'est tout l'enjeu. C'est la différence entre une dictée qui vous refile des devoirs et une dictée qui vous remet quelque chose que vous enverriez tel quel. C'est exactement le travail que fait Voicr : vous maintenez une touche et parlez normalement, et le texte qui arrive dans votre presse-papiers est déjà soigné, les « euh » disparus et les phrases remises au propre. La taxe de nettoyage qui a tué la voix pendant vingt ans, c'est précisément la part qu'il gère discrètement à votre place.

Le basculement est déjà dans les données

Si ce n'était qu'une jolie théorie, on s'attendrait à ce que les chiffres d'usage soient plats. Ils ne le sont pas.

L'usage des assistants vocaux aux États-Unis devrait dépasser les 157 millions de personnes en 2026, et environ un tiers des gens lancent désormais leurs recherches à la voix au quotidien plutôt que de les taper. Il y a déjà des milliards d'appareils compatibles avec la voix dans les poches et sur les bureaux. Le comportement n'attend pas d'autorisation ; il se répand.

Le signal le plus clair vient des plus jeunes travailleurs. Des recherches relayées par Fortune suggèrent que la génération Alpha pourrait entrer sur le marché du travail sans avoir jamais écrit un e-mail formel, optant à la place pour des messages vocaux adressés à son patron. Que l'e-mail survive ou non, la direction est difficile à manquer : pour des gens qui ont grandi en maintenant un bouton d'enregistrement pour parler, taper un paragraphe ressemble déjà à l'option lente.

Une courbe ascendante composée de petites bulles de dialogue montrant l'adoption de la saisie vocale qui grimpe au fil du temps

Rien de tout cela ne signifie que le clavier disparaît dès le trimestre prochain. Cela signifie que le réflexe par défaut se déplace. La voix d'abord n'est plus une prévision ; c'est une courbe que vous pouvez déjà tracer, et elle pointe dans une seule direction.

À quoi ressemble vraiment l'informatique vocale

« La voix d'abord », ça sonne comme une cuisine de science-fiction qui vous répond. La vraie version est plus discrète que ça, et franchement plus utile.

Cela veut dire que la voix devient la façon par défaut de coucher une pensée sur la page, et que le clavier devient l'outil qu'on attrape pour la peaufiner. Vous dictez l'e-mail, la réponse sur Slack, le premier jet, la note pour vous-même. Puis vous relisez et corrigez en quelques touches la seule tournure qui sonne faux. Capturer à la voix, corriger à la main.

Ce qui rend cela réellement vivable, c'est le ton. On ne parle pas à son patron comme dans une conversation de groupe, et un outil qui aplatit tout sur une seule voix se fait vite abandonner. Une configuration pensée pour la voix d'abord adapte le résultat à sa destination : décontracté en messagerie, soigné en e-mail, sobre dans un commentaire de code. Vous parlez de la même manière à chaque fois et l'écriture s'ajuste à l'ambiance. J'ai raconté comment cela a changé mon propre quotidien dans comment j'utilise l'IA pour combler l'écart entre penser et écrire.

Remarquez ce que cette image n'est pas. Ce n'est pas un monde sans clavier. C'est un monde où vous parlez d'abord et tapez ensuite, au lieu de tout taper en partant de zéro.

Ce que le clavier conserve

Un argumentaire en faveur de la voix d'abord qui prétend que le clavier devient inutile ne mérite pas qu'on lui fasse confiance. Il y a de vraies tâches où la voix est mauvaise, et elles ne sont pas près de disparaître.

Certaines choses restent plus rapides au clavier : - Le code et tout ce qui est riche en symboles. La dictée saisit les mots ; elle trébuche sur les crochets, les tirets bas et les noms exacts de variables. Le code, vous le tapez toujours. - Les espaces bruyants ou partagés. Parler à son ordinateur dans une pièce calme, c'est très bien. Le faire dans un train bondé ou dans un open space à côté de quelqu'un en pleine réunion téléphonique, non. - Tout ce que vous préférez ne pas dire à voix haute. Un retour difficile, une réponse sensible, un message que vous ne voulez pas qu'un voisin entende. Le clavier offre une discrétion que la voix n'a pas. - L'édition chirurgicale. Une fois qu'un brouillon fonctionne à peu près, déplacer une virgule ou remplacer un mot est plus rapide avec une touche qu'avec une phrase.

Une scène conviviale en deux parties montrant un microphone pour parler et un clavier pour corriger, fonctionnant côte à côte

Une partie de la réponse à « taperons-nous encore » est donc tout simplement oui, pour ces cas-là. Ce qui change, c'est que le clavier cesse d'être l'outil avec lequel on fait tout pour devenir un outil de spécialiste que l'on saisit quand la voix ne convient pas. C'est une rétrogradation, pas une extinction.

Ce qui vient après la voix

Si l'on se projette à dix ans pleins, la voix n'est même pas le terminus. Les méthodes de saisie plus futuristes sont déjà au labo.

Meta a présenté un bracelet qui lit les signaux électriques de vos muscles, vous permettant de « taper » par de minuscules mouvements de doigts sur n'importe quelle surface, sans clavier. C'est une recherche réellement impressionnante. Mais regardez les chiffres : les premiers testeurs atteignaient environ 21 mots par minute en écrivant au geste. Cela dépasse certaines saisies au pouce, et c'est nettement supérieur comme outil d'accessibilité, mais ça reste une fraction des 150 mots par minute que vous obtenez rien qu'en parlant.

C'est le point discret de tout cela. Dans un avenir prévisible, votre voix est le canal le plus rapide entre une pensée et un texte fini qui n'implique ni chirurgie ni science-fiction. La saisie neuronale arrive, et elle comptera surtout pour les personnes qui ne peuvent pas parler ou taper confortablement. Pour tous les autres, la voix est le pont que l'on franchit en premier, et il est déjà là.

Alors, taperons-nous encore ?

Oui. Mais d'ici dix ans, taper devient l'exception plutôt que le réflexe. Cela devient ce vers quoi vous vous tournez quand la voix ne convient pas au moment, comme vous attrapez un stylo aujourd'hui : utile, réfléchi, et qui n'est plus la façon dont vous faites l'essentiel de votre écriture.

La raison pour laquelle cette fois est différente n'a rien à voir avec une voix devenue plus rapide. Elle l'a toujours été. C'est que le nettoyage a enfin été pris en charge, si bien que parler ne signifie plus s'inscrire à une séance de correction juste après. Supprimez cette taxe et l'outil le plus lent de votre bureau n'a plus grand-chose pour le recommander dans l'écriture du quotidien.

Vous n'avez pas à accepter la prévision à dix ans sur parole pour tester la prémisse. Prenez votre prochaine réponse qui dépasse deux lignes. Au lieu de la taper, maintenez une touche de dictée, dites ce que vous voulez sans le scénariser, et relisez ce qui en ressort. Et si vous voulez que ce soit soigné plutôt que brut, c'est toute la raison d'être de Voicr : maintenez FN, parlez, collez, et le texte apparaît propre et adapté à l'application dans laquelle vous êtes. L'offre gratuite couvre 5 000 mots par mois, largement de quoi découvrir si vous vivez déjà dans le futur que les gros titres ne cessent de promettre.