Typen we over 10 jaar nog? Voice-first computing

Spraak is al zo'n vijftien jaar de toekomst van computing. Siri verscheen in 2011. Elk jaar sindsdien schrijft wel iemand het stuk waarin staat dat de dagen van het toetsenbord geteld zijn. En elk jaar bleef je gewoon typen.

Dus hier is een vraag waar je sceptisch over mag zijn: waarom zouden de komende tien jaar het patroon doorbreken? Ik denk dat ze dat doen, maar niet om de reden die de hypeverhalen geven. Spraak verloor al die jaren niet omdat het traag was. Het verloor door wat er gebeurde *nadat* je was uitgesproken.

Bij dat gat is het de moeite waard om even stil te staan. Het ene ding dat spraak echt tegenhield, is onlangs in stilte opgelost, en de meeste mensen hebben dat nog niet door. Dit is het verhaal achter voice-first computing, met de eerlijke stukken erin gelaten.

De voorspelling die telkens fout zit

Er is een techvoorspelling die elke paar jaar terugkeert als een komeet: typen sterft uit, spraak neemt het over. Hij dook op bij Siri, daarna Alexa, daarna bij elke golf dicteer-apps. Het toetsenbord stond altijd op het punt vervangen te worden. Dat gebeurde nooit.

Wil je weten waarom, kijk dan wat er gebeurt als iemand voor het eerst de ingebouwde dicteerfunctie van zijn Mac probeert. Hij spreekt een alinea in. De transcriptie komt terug met elke "eh" erin, twee valse starts aan elkaar geplakt, en een zin die veertig woorden doorliep omdat hij geen pauze nam. Hij besteedt een paar minuten aan opschonen, besluit dat typen sneller was geweest, en keert binnen een week stilletjes terug naar het toetsenbord.

Dat is het hele verhaal van waarom spraak bleef verliezen. De belofte was "stop met typen." De realiteit was "typ minder, redigeer meer." Mensen wezen spraak niet af omdat het hen niet kon bijhouden. Ze wezen het af omdat het opschonen de tijd die het spreken bespaarde weer opvrat.

Spraak was nooit het trage deel

Hier is het deel dat in het heen-en-weer verloren gaat. Op pure snelheid was deze discussie tien jaar geleden al beslecht, en spraak won hem met gemak.

Een degelijke desktoptypist haalt zo'n 40 woorden per minuut. Comfortabel spreken zit moeiteloos rond de 150 woorden per minuut. De stem in je hoofd, die de zin samenstelt voordat je vingers het kunnen bijbenen, gaat nog sneller. Typen is met ruime marge de traagste schakel in die keten.

Dit is niet zomaar een natte-vinger-schatting. In 2016 voerden onderzoekers van Stanford, Baidu en de University of Washington een directe vergelijking uit: tekst inspreken op een telefoon was drie keer sneller dan het met je duimen typen, en de ingesproken versie had daarbovenop een *20 procent lagere* foutmarge. Sneller én nauwkeuriger, in dezelfde test, tien jaar geleden.

Snelheid was dus nooit de hindernis. Het knelpunt zat één stap verderop, in de rommelige transcriptie die je daarna in handen kreeg. Repareer die stap en de hele vergelijking verandert.

Wat er echt veranderde: de AI-laag tussen spraak en tekst

Het ontbrekende stuk was nooit een betere microfoon. Het was een laag die ruwe spraak kon omzetten in afgewerkte tekst zonder dat jij het afwerkte. Twee dingen werden ongeveer tegelijkertijd volwassen om dat mogelijk te maken.

Ten eerste werd transcriptie echt goed. Toonaangevende spraakmodellen draaien nu onder de 5 procent woordfoutmarge op helder conversationeel Engels, en open modellen zoals Whisper zitten rond de 3 procent. De ruwe opname is niet langer de zwakke schakel.

Ten tweede, en dit is de echte omslag, werden large language models goed genoeg om een transcriptie te *herschrijven* in plaats van alleen op te slaan. Hetzelfde soort model dat een e-mail opstelt, kan jouw gesproken geratel nemen, de stopwoorden eruit halen, de grammatica corrigeren en de muur van spraak opbreken in echte alinea's. De output is niet langer een opname van wat je zei, maar een concept van wat je bedoelde.

Die tweede laag is waar het helemaal om draait. Het is het verschil tussen dictaten dat je huiswerk meegeeft en dictaten dat je iets geeft dat je zo zou versturen. Dit is precies de taak die Voicr uitvoert: je houdt één toets ingedrukt en spreekt normaal, en de tekst die op je klembord belandt is al gepolijst, met de "ehs" verdwenen en de zinnen opgeschoond. De opschoonbelasting die spraak twintig jaar lang nekte, is het deel dat het in stilte voor je afhandelt.

De verschuiving zit al in de data

Als dit alleen een mooie theorie was, zou je verwachten dat de gebruikscijfers vlak waren. Dat zijn ze niet.

Het gebruik van spraakassistenten in de VS stevent in 2026 af op meer dan 157 miljoen mensen, en zo'n derde van de mensen doet zoekopdrachten nu dagelijks via spraak in plaats van ze te typen. Er liggen al miljarden spraakgeschikte apparaten in zakken en op bureaus. Het gedrag wacht niet op toestemming; het verspreidt zich.

Het duidelijkste signaal komt van de jongste werknemers. Onderzoek dat door Fortune werd beschreven suggereert dat Gen Alpha de arbeidsmarkt mogelijk betreedt zonder ooit een formele e-mail te hebben geschreven, en in plaats daarvan standaard spraakberichten naar hun baas stuurt. Of de e-mail nu overleeft of niet, de richting is moeilijk te missen: voor mensen die opgroeiden met een opnameknop ingedrukt om te praten, voelt het typen van een alinea nu al als de trage optie.

Een stijgende lijngrafiek opgebouwd uit kleine spraakballonnen die de groei van spraakinvoer in de tijd laat zien

Niets hiervan betekent dat het toetsenbord volgend kwartaal verdwijnt. Het betekent dat de standaard verschuift. Voice-first is geen voorspelling meer; het is een trendlijn die je nu al kunt traceren, en die wijst maar één kant op.

Hoe voice-first computing er echt uitziet

"Voice-first" klinkt als een sciencefictionkeuken die terugpraat. De echte versie is rustiger dan dat, en eerlijk gezegd nuttiger.

Het betekent dat spraak de standaardmanier wordt om een gedachte op de pagina te krijgen, en het toetsenbord het gereedschap waar je naar grijpt om die te verfijnen. Je spreekt de e-mail, het Slack-antwoord, het ruwe eerste concept, het briefje aan jezelf. Daarna lees je het terug en herstel je met een paar toetsaanslagen die ene zin die verkeerd viel. Vastleggen met je stem, redigeren met je handen.

Wat dit echt leefbaar maakt, is toon. Je praat niet met je baas zoals je in een groepschat praat, en een tool die alles platslaat tot één stem wordt snel in de steek gelaten. Een voice-first-opzet past de output aan op waar die heen gaat: informeel in een chat, netjes in een e-mail, sober in een codecommentaar. Je spreekt elke keer op dezelfde manier en de tekst verschuift om bij de situatie te passen. Ik schreef over hoe dit mijn eigen dagelijkse workflow veranderde in hoe ik AI gebruik om de kloof tussen denken en schrijven te dichten.

Let op wat dit beeld niet is. Het is geen wereld zonder toetsenborden. Het is een wereld waarin je eerst praat en daarna typt, in plaats van alles vanaf nul te typen.

Wat het toetsenbord behoudt

Een verhaal voor voice-first computing dat doet alsof het toetsenbord nutteloos wordt, verdient geen vertrouwen. Er zijn echte taken waar spraak slecht in is, en die gaan voorlopig nergens heen.

Sommige dingen blijven sneller getypt: - Code en alles wat veel symbolen bevat. Dictaten pakt de woorden; het struikelt over de haakjes, de underscores en de exacte variabelennamen. Code typ je nog steeds. - Lawaaiige of gedeelde ruimtes. Tegen je laptop praten in een stille kamer is prima. Dat doen in een volle trein of in een open kantoor naast iemand die belt, niet. - Alles wat je liever niet hardop zegt. Harde feedback, een gevoelig antwoord, een bericht dat je buurman niet mag opvangen. Het toetsenbord is privé op een manier die spraak niet is. - Chirurgisch redigeren. Zodra een concept grotendeels werkt, is een komma verplaatsen of één woord vervangen sneller met een toets dan met een zin.

Een vriendelijk gesplitst tafereel met een microfoon om te spreken en een toetsenbord om te redigeren, die naast elkaar samenwerken

Dus een deel van het antwoord op "typen we nog" is simpelweg ja, voor deze taken. Wat verandert, is dat het toetsenbord niet langer het ding is waarmee je alles doet en een specialistisch gereedschap wordt dat je oppakt wanneer spraak niet past. Dat is een degradatie, geen uitsterven.

Wat er na spraak komt

Als we een volle tien jaar vooruitkijken, is spraak niet eens de laatste halte. De meer futuristische invoermethoden liggen al in het lab.

Meta heeft een polsband getoond die de elektrische signalen in je spieren leest, waarmee je kunt "typen" met kleine vingerbewegingen op elk oppervlak, zonder toetsenbord. Het is een werkelijk indrukwekkend stuk onderzoek. Maar let op de cijfers: vroege testers haalden zo'n 21 woorden per minuut met schrijven via handgebaren. Dat verslaat sommig duimtypen, en als toegankelijkheidshulpmiddel is het ronduit superieur, maar het is nog steeds een fractie van de 150 woorden per minuut die je krijgt door simpelweg te praten.

Dat is het stille punt in dit alles. Voor de afzienbare toekomst is je stem het snelste kanaal tussen een gedachte en afgewerkte tekst dat geen operatie of sciencefiction vereist. Neurale invoer komt eraan, en die zal vooral van belang zijn voor mensen die niet comfortabel kunnen spreken of typen. Voor alle anderen is spraak de brug die we eerst oversteken, en die is er al.

Dus, typen we nog?

Ja. Maar binnen tien jaar wordt typen de uitzondering in plaats van de reflex. Het verandert in het ding waar je naar grijpt wanneer spraak niet bij het moment past, zoals je vandaag naar een pen grijpt: nuttig, weloverwogen, en niet langer de manier waarop je het meeste schrijft.

De reden dat het deze keer anders is, heeft niets te maken met spraak die sneller werd. Het was altijd al sneller. Het is dat het opschonen eindelijk wordt afgehandeld, zodat spreken niet langer betekent dat je je daarna voor een redigeersessie inschrijft. Haal die belasting weg en het traagste gereedschap op je bureau heeft voor dagelijks schrijven weinig meer dat het aanbeveelt.

Je hoeft de tienjarenvoorspelling niet op goed vertrouwen aan te nemen om het uitgangspunt te testen. Kies je volgende antwoord dat meer dan twee regels nodig heeft. In plaats van het te typen, houd je een dicteertoets ingedrukt, zeg je wat je bedoelt zonder het uit te schrijven, en lees je terug wat blijft hangen. Wil je dat het gepolijst uitkomt in plaats van ruw, dan is dat de hele reden waarom Voicr bestaat: houd FN ingedrukt, spreek, plak, en de tekst verschijnt schoon en afgestemd op de app waarin je werkt. Het gratis abonnement dekt 5.000 woorden per maand, ruim genoeg om erachter te komen of je al in de toekomst leeft die de krantenkoppen blijven beloven.