Scriveremo ancora alla tastiera tra 10 anni? Il voice-first computing

La voce è il futuro dell'informatica da una quindicina d'anni. Siri è uscita nel 2011. Ogni anno da allora qualcuno scrive l'articolo che annuncia i giorni contati della tastiera. E ogni anno tu hai continuato a digitare.

Quindi ecco una domanda su cui vale la pena essere scettici: perché i prossimi dieci anni dovrebbero rompere lo schema? Io credo che lo faranno, ma non per il motivo che ti danno gli articoli entusiasti. La voce non ha perso tutti quegli anni perché era lenta. Ha perso per quello che succedeva *dopo* aver finito di parlare.

Vale la pena fermarsi su quel divario. L'unica cosa che frenava davvero la voce è appena stata risolta in sordina, e la maggior parte delle persone non se n'è ancora accorta. Questo è il caso per il voice-first computing, senza tagliare le parti scomode.

La previsione che continua a sbagliarsi

C'è una previsione tecnologica che torna ogni paio d'anni come una cometa: la tastiera sta morendo, la voce sta prendendo il sopravvento. È arrivata con Siri, poi Alexa, poi ogni ondata di app di dettatura. La tastiera stava sempre per essere sostituita. Non lo è mai stata.

Se vuoi capire perché, guarda cosa succede quando qualcuno prova per la prima volta la dettatura integrata del Mac. Detta un paragrafo. La trascrizione torna con tutti gli "ehm" intatti, due false partenze incollate insieme e una frase che si trascina per quaranta parole perché non si è mai fermato. Passa qualche minuto a sistemarla, decide che digitare sarebbe stato più veloce e in una settimana torna in silenzio alla tastiera.

È tutta qui la storia del perché la voce continuava a perdere. La promessa era "smetti di digitare". La realtà era "digita di meno, correggi di più". Le persone non hanno rifiutato la voce perché non riusciva a starci dietro. L'hanno rifiutata perché la correzione si riprendeva il tempo che parlare aveva fatto risparmiare.

La voce non è mai stata la parte lenta

Ecco la parte che si perde in tutto questo botta e risposta. Sulla pura velocità, la questione era chiusa già dieci anni fa, e la voce l'aveva vinta a mani basse.

Un dattilografo da scrivania discreto viaggia intorno alle 40 parole al minuto. Il parlato comodo si attesta vicino alle 150 parole al minuto senza alcuno sforzo. La voce nella tua testa, quella che compone la frase prima che le dita ti raggiungano, va ancora più veloce. Digitare è di gran lunga l'anello più lento di questa catena.

E non è solo una stima fatta sul retro di una busta. Nel 2016 alcuni ricercatori di Stanford, Baidu e dell'Università di Washington hanno condotto uno studio testa a testa: dettare un testo a uno smartphone era tre volte più veloce che digitarlo con i pollici, e per giunta la versione parlata aveva un tasso di errore *inferiore del 20 percento*. Più veloce e più accurata, nello stesso test, dieci anni fa.

Quindi la velocità non è mai stata il problema. Il collo di bottiglia stava un passo più a valle, nella trascrizione disordinata che ti ritrovavi in mano dopo. Risolvi quel passaggio e tutta l'equazione cambia.

Cosa è cambiato davvero: lo strato di AI tra voce e testo

Il pezzo mancante non è mai stato un microfono migliore. Era uno strato capace di trasformare il parlato grezzo in testo finito senza che fossi tu a fare le rifiniture. Due cose sono maturate più o meno nello stesso momento per renderlo possibile.

Primo, la trascrizione è diventata davvero buona. I migliori modelli vocali ora viaggiano sotto il 5 percento di tasso di errore sulle parole su un inglese conversazionale chiaro, e modelli aperti come Whisper si attestano vicino al 3 percento. La cattura grezza non è più l'anello debole.

Secondo, e qui sta il vero cambiamento, i grandi modelli linguistici sono diventati abbastanza bravi da *riscrivere* una trascrizione invece di limitarsi a salvarla. Lo stesso tipo di modello che abbozza un'email può prendere il tuo discorso sconclusionato, eliminare le ripetizioni, correggere la grammatica e spezzare il muro di parole in paragrafi veri. L'output smette di essere una registrazione di ciò che hai detto e diventa una bozza di ciò che intendevi dire.

Quel secondo strato è tutta la partita. È la differenza tra una dettatura che ti consegna dei compiti e una dettatura che ti consegna qualcosa che invieresti così com'è. È esattamente il lavoro che fa Voicr: tieni premuto un tasto e parli normalmente, e il testo che arriva nei tuoi appunti è già rifinito, con gli "ehm" spariti e le frasi sistemate. La tassa di correzione che ha ucciso la voce per vent'anni è la parte di cui si occupa per te, senza farsi notare.

Il cambiamento è già nei dati

Se fosse solo una bella teoria, ti aspetteresti che i numeri di utilizzo fossero piatti. Non lo sono.

L'uso degli assistenti vocali negli Stati Uniti è previsto superare i 157 milioni di persone nel 2026, e ormai circa un terzo delle persone fa ricerche a voce ogni giorno invece di digitarle. Ci sono già miliardi di dispositivi abilitati alla voce nelle tasche e sulle scrivanie. Il comportamento non aspetta il permesso di nessuno: si sta diffondendo.

Il segnale più chiaro arriva dai lavoratori più giovani. Una ricerca ripresa da Fortune suggerisce che la Gen Alpha potrebbe entrare nel mondo del lavoro senza aver mai scritto un'email formale, preferendo i messaggi vocali per parlare con il capo. Che l'email sopravviva o no, la direzione è difficile da non vedere: per chi è cresciuto tenendo premuto un pulsante di registrazione per parlare, digitare un paragrafo è già l'opzione lenta.

Un grafico a linea crescente fatto di piccoli fumetti che mostra l'adozione dell'input vocale salire nel tempo

Niente di tutto questo significa che la tastiera sparirà il prossimo trimestre. Significa che il default si sta spostando. Il voice-first non è più una previsione: è una linea di tendenza che puoi già tracciare, e punta in una sola direzione.

Che aspetto ha davvero il voice-first computing

"Voice-first" suona come una cucina da fantascienza che ti risponde a voce. La versione reale è più discreta di così, e onestamente più utile.

Significa che la voce diventa il modo predefinito per mettere un pensiero sulla pagina, e la tastiera diventa lo strumento che usi per rifinirlo. Detti l'email, la risposta su Slack, la prima bozza grezza, la nota per te stesso. Poi rileggi e sistemi con qualche battitura l'unica frase che non è venuta bene. Cattura con la voce, correggi a mano.

La parte che rende tutto questo davvero vivibile è il tono. Non parli al tuo capo come parli in una chat di gruppo, e uno strumento che appiattisce tutto in un'unica voce viene abbandonato in fretta. Un setup voice-first adatta l'output a dove sta andando: informale in chat, curato nelle email, asciutto in un commento al codice. Parli sempre allo stesso modo e la scrittura si adatta al contesto. Ho scritto di come questo ha cambiato la mia routine quotidiana in come uso l'AI per colmare il divario tra pensiero e scrittura.

Nota cosa non è questo quadro. Non è un mondo senza tastiere. È un mondo in cui prima parli e poi digiti, invece di digitare tutto partendo da zero.

Cosa conserva la tastiera

Un caso per il voice-first computing che finge che la tastiera diventi inutile non è degno di fiducia. Ci sono compiti reali in cui la voce è pessima, e non andranno da nessuna parte tanto presto.

Alcune cose restano più veloci da digitare: - Codice e tutto ciò che è pieno di simboli. La dettatura prende le parole, ma inciampa sulle parentesi, sui trattini bassi e sui nomi esatti delle variabili. Il codice lo digiti ancora. - Spazi rumorosi o condivisi. Parlare al laptop in una stanza silenziosa va bene. Farlo su un treno affollato o in un open space accanto a qualcuno in chiamata no. - Tutto ciò che preferiresti non dire ad alta voce. Un feedback duro, una risposta delicata, un messaggio che non vuoi far sentire al vicino. La tastiera è privata in un modo che la voce non è. - Modifiche chirurgiche. Una volta che una bozza più o meno funziona, spostare una virgola o cambiare una parola è più veloce con un tasto che con una frase.

Una scena divisa in due mostra un microfono per parlare e una tastiera per correggere, che lavorano fianco a fianco

Quindi parte della risposta a "scriveremo ancora alla tastiera" è semplicemente sì, per queste cose. Ciò che cambia è che la tastiera smette di essere lo strumento con cui fai tutto e diventa uno strumento da specialista che prendi in mano quando la voce non si adatta. È un declassamento, non un'estinzione.

Cosa viene dopo la voce

Se guardiamo a dieci anni interi, la voce non è nemmeno l'ultima fermata. I metodi di input più futuristici sono già in laboratorio.

Meta ha mostrato un braccialetto che legge i segnali elettrici dei tuoi muscoli, permettendoti di "digitare" con minuscoli movimenti delle dita su qualsiasi superficie, senza tastiera. È una ricerca davvero notevole. Ma guarda i numeri: i primi tester hanno raggiunto circa 21 parole al minuto scrivendo a gesti. Batte parte della digitazione coi pollici, e la supera nettamente come strumento di accessibilità, ma resta una frazione delle 150 parole al minuto che ottieni semplicemente parlando.

Ed è questo il punto silenzioso di tutta la faccenda. Per il prossimo futuro, la tua voce è il canale più veloce tra un pensiero e un testo finito che non richieda chirurgia o fantascienza. L'input neurale arriverà, e conterà soprattutto per chi non può parlare o digitare con facilità. Per tutti gli altri, la voce è il ponte che attraversiamo per primi, ed è già qui.

Allora, scriveremo ancora alla tastiera?

Sì. Ma entro dieci anni digitare diventa l'eccezione anziché il riflesso. Si trasforma nella cosa a cui ricorri quando la voce non si addice al momento, come oggi ricorri a una penna: utile, deliberata, e non più il modo in cui scrivi la maggior parte delle cose.

Il motivo per cui stavolta è diverso non ha niente a che fare con una voce più veloce. È sempre stata più veloce. È che la correzione finalmente è stata gestita, così parlare non significa più iscriversi a una sessione di editing subito dopo. Togli quella tassa e lo strumento più lento sulla tua scrivania ha ben poco da consigliarlo per la scrittura di tutti i giorni.

Non devi prendere per fede la previsione a dieci anni per testarne la premessa. Scegli la tua prossima risposta che richiede più di due righe. Invece di digitarla, tieni premuto un tasto di dettatura, di' quello che intendi senza preparare un copione e rileggi cosa esce. Se vuoi che venga fuori rifinita invece che grezza, è proprio per questo che esiste Voicr: tieni premuto FN, parla, incolla, e il testo compare pulito e calibrato sull'app in cui ti trovi. Il piano gratuito copre 5.000 parole al mese, più che sufficienti per scoprire se stai già vivendo nel futuro che i titoli continuano a promettere.