Hoe LLM's spraak-naar-tekst eindelijk bruikbaar maken

Je hebt spraak-naar-tekst waarschijnlijk een keer geprobeerd, het opgegeven en bent teruggekeerd naar je toetsenbord. Dat gold voor de meeste mensen. Het vreemde is dat het meestal niets te maken had met woorden die verkeerd werden weergegeven.

Spraakherkenning werd jaren geleden al accuraat. Moderne modellen transcriberen heldere spraak met zo'n 95% nauwkeurigheid. De reden dat dicteren toch nutteloos aanvoelde, is dat een accurate transcriptie van hoe je werkelijk praat een rommeltje is. Grote taalmodellen zijn het stukje dat dat oploste, en ze veranderden waar spraak-naar-tekst goed voor is.

Het grootste deel van zijn bestaan werd spraak-naar-tekst op één ding beoordeeld: kreeg het de woorden goed? Dat bleek de verkeerde vraag. De woorden goed krijgen was nooit wat tussen jou en schrijven met je stem stond. Dit is wat er echt veranderde.

Spraak-naar-tekst was nooit een transcriptieprobleem

Decennialang joeg elk spraakherkenningsteam achter hetzelfde getal aan: de word error rate, oftewel WER. Het telt hoeveel woorden het systeem fout krijgt. Lager is beter, en het hele vakgebied optimaliseerde daarvoor.

En grotendeels lukte dat. OpenAI's Whisper transcribeert heldere audio met ongeveer 2,7% word error rate. Bij rommeligere opnames uit de praktijk, zoals een vergadering, een café of een telefoongesprek, ligt dat dichter bij 8 tot 12%. Menselijke transcribenten zitten rond de 4 tot 6%. Het verschil is klein en wordt nog steeds kleiner.

Nauwkeurigheid was dus min of meer opgelost. Maar vraag iemand die in 2018 met dicteren stopte waarom, en bijna niemand zegt "te veel typefouten." Ze zeggen dat het houterig aanvoelde, of dat de uitvoer zoveel opschoning nodig had dat het de moeite niet waard was.

Dat is het verraderlijke. De bottleneck was nooit de transcriptie. Het was alles wat gebeurt nadat de woorden al kloppen.

Hoe een ruwe transcriptie van je spraak eruitziet

Dit is wat niemand je vertelt: je praat niet in nette zinnen. Niemand doet dat.

Als je natuurlijk praat, sla je terug, begin je opnieuw, val je stil en gooi je er "eh" en "zeg maar" en "weet je" tussen. Je brein redigeert dat allemaal in een oogwenk en je merkt het nooit. Een transcriptie-engine merkt alles en schrijft elk stukje ervan op.

Stel dat je een snel bericht aan een collega dicteert. Uit een pure transcribent komt het er zo uit:

*"oké dus eh ik wilde even checken over dat dat ding van gisteren, het rapport, kun je uh het opsturen als je een momentje hebt, geen haast of zo"*

Elk woord klopt. Het is ook onbruikbaar. Je zou meer tijd kwijt zijn aan het corrigeren dan je bespaarde door het in te spreken. Dit is precies het moment waarop de meeste mensen definitief afhaakten bij dicteren.

Vergelijking naast elkaar van een rommelige ruwe spraaktranscriptie vol stopwoorden links en een schoon, afgewerkt bericht rechts

Wat grote taalmodellen werkelijk toevoegen

Een transcribent beantwoordt één vraag: welke klanken maakte deze persoon? Een taalmodel beantwoordt een andere: wat bedoelde deze persoon, en hoe zou het moeten lezen?

Die tweede vraag is waar het allemaal om draait. Een LLM neemt de rommelige transcriptie en herschrijft die zoals een zorgvuldige redacteur zou doen. Het laat de stopwoorden vallen, maakt je halve zinnen af, corrigeert de grammatica en houdt je bedoeling intact. Het bericht hierboven wordt:

*"Hoi, kun je het rapport van gisteren opsturen als je een momentje hebt? Geen haast."*

Zelfde bedoeling, in één keer leesbaar. De transcriptie werd hier niet beter. Wat veranderde is de tweede laag erbovenop, die het redactiewerk doet dat je anders zelf zou doen.

Dit is meer dan een producttruc. Onderzoekers bestuderen het rechtstreeks. Een paper uit 2024 van de ACM CHI-conferentie genaamd Rambler ontdekte dat mensen losjes laten praten en een LLM de "kern" laten omvormen beter schrijfwerk opleverde met minder moeite dan typen of ruw dicteren. Praten is hoe we hardop denken. Het model neemt het deel voor zijn rekening dat ons brein normaal overslaat.

Ander onderzoek wijst dezelfde kant op. Studies naar op LLM gebaseerde verfijning van transcripties tonen aan dat spraak na herkenning door een taalmodel halen fouten vermindert en de leesbaarheid verbetert, vooral bij homofonen en contextafhankelijke uitdrukkingen die een gewone transcribent niet zelf kan uitvogelen.

Context is de andere helft

Een transcriptie opschonen is de eerste taak. Weten wat voor soort tekst je wilde, is de tweede, en daar wordt het interessant.

"Stuur me de deck voor het eind van de dag" werkt voor een Slack-bericht aan een teamgenoot. Het is te bot voor een mail aan een klant. De woorden zijn prima; het register klopt niet. Een taalmodel kan die situatie inschatten en de toon aanpassen, omdat het context begrijpt, niet alleen klank.

In de praktijk kan dezelfde gesproken zin in de ene app informeel uitkomen en in de andere verzorgd. Jij verandert niet hoe je praat. Het model verandert hoe het schrijft, afhankelijk van waar de tekst naartoe gaat.

Dit is precies wat de Smart Rules van Voicr doen. Je stelt één keer een ontspannen toon in voor Slack en een formele voor e-mail, en Voicr merkt in welke app je zit en past de juiste stijl automatisch toe. Houd FN ingedrukt, zeg wat je wilt, en de versie die in je klembord belandt past al bij waar je hem zo gaat plakken.

De echte verschuiving: je praat niet langer tegen een computer

Oud dicteren liet je een voorstelling opvoeren. Je moest in afgeronde zinnen praten, hardop "komma" en "nieuwe alinea" zeggen, en je normale spraakgewoonten loslaten. Je deed de redactie in je hoofd, in realtime, terwijl je praatte. Het was uitputtend, en daarom bleef het nooit hangen.

Op LLM gebaseerde spraak-naar-tekst neemt die klus van je over. Je mag rondzwerven. Je mag halverwege een zin van gedachten veranderen. Je mag praten zoals je iets aan een vriend zou uitleggen, en de schone versie verschijnt toch.

Dat klinkt als een kleinigheid. Het is het hele verschil tussen een tool bedienen en gewoon hardop nadenken.

De snelheid is ook echt. De meeste mensen praten zo'n 150 woorden per minuut en typen er ongeveer 40. Een Stanford-onderzoek ontdekte dat invoer via spraak op een telefoon drie keer sneller was dan typen, met minder fouten. Maar snelheid was niet langer de belangrijkste reden zodra de uitvoer goed werd. De echte trekker is dat je je gedachtegang niet meer kwijtraakt aan je toetsenbord. We dook dieper in die rekensom in waarom je stem sneller is dan je toetsenbord.

Waar LLM's spraak-naar-tekst nog steeds fout doen

Dit is echt beter, geen magie. Dezelfde intelligentie die je tekst opschoont, kan ook te ver gaan, en het is goed om te weten waar.

Het kan je bedoeling veranderen. Wanneer een model een zin "corrigeert", schaaft het soms een detail weg dat je wilde of gokt het verkeerd over je bedoeling. Hoe technischer of ongebruikelijker je formulering, hoe groter het risico. Lees alles wat belangrijk is even na voordat je het verstuurt.

Namen en jargon laten het nog steeds struikelen. Transcriptie gaat goed om met gangbare woorden en worstelt met eigennamen, productnamen en gespecialiseerde termen. Een model kan vanuit de context gokken, maar het krijgt de achternaam van je collega vol overtuiging fout.

Homofonen zijn nog niet volledig opgelost. "Hun", "hen" en soortgelijke woorden komen meestal goed uit omdat context helpt, maar niet elke keer.

Het voegt een tikje vertraging toe. Een pure transcribent is vrijwel direct. Een tweede model laten draaien om bij te schaven kost ergens tussen een fractie van een seconde en een paar seconden. De moeite waard voor de kwaliteit, maar het is niet gratis.

Geen van deze zijn dealbreakers zodra je weet dat ze bestaan. Ze zijn de reden waarom de gewoonte om even na te lezen vóór het versturen nog steeds loont. Wil je het volledige plaatje van hoe deze pijplijn van begin tot eind werkt, dan schreven we een stapsgewijze gids voor AI-spraakdictee op de Mac.

Diagram met twee gestapelde lagen: een transcriptielaag die klank in woorden verandert, en een taallaag die woorden in heldere tekst verandert

Wat dit betekent voor hoe je schrijft

Het mentale model dat de moeite waard is om te onthouden, is dat spraak-naar-tekst nu twee tools op elkaar gestapeld is:

1. Een transcriptielaag die klank omzet in accurate woorden. 2. Een taallaag die die woorden omzet in tekst die echt lekker leest.

Pure transcriptie is nog steeds de juiste keuze wanneer je een exacte weergave nodig hebt. Interviews, juridische aantekeningen, alles waar elke "eh" telt. Voor al het andere, zoals e-mails, berichten, documenten en notities, is de bijschaaflaag wat praten sneller dan typen maakt in plaats van alleen maar rommeliger.

Dus als je een tool kiest, is de echte vraag niet "hoe accuraat is de transcriptie." De meeste zitten nu dicht bij elkaar. De vraag is "hoe goed is de laag erbovenop." Onze vergelijking van de beste spraak-naar-tekst-apps voor de Mac legt uit welke dat deel goed doen.

Hoe je door LLM verfijnde spraak-naar-tekst probeert

De snelste manier om het verschil te voelen is je volgende e-mail te dicteren in plaats van te typen, en dan te kijken wat er in het concept verschijnt. Het is niet de ruwe transcriptie die je je herinnert van jaren geleden. Het leest alsof je het op een goede dag schreef.

Wil je dat zonder tools aan elkaar te knopen, dan doet Voicr beide lagen in één stap. Houd FN ingedrukt, praat zoals je wilt, laat los, en afgewerkte tekst belandt in je klembord, klaar om te plakken. Het gebruikt Whisper voor de transcriptie en een taalmodel voor het opschonen, met stijlen per app zodat de toon past waar je ook schrijft. De gratis laag is 5.000 woorden per maand, zonder creditcard.

Spraak-naar-tekst werkt eindelijk zoals het altijd had moeten werken. Niet omdat de machines beter werden in het horen van jou, maar omdat ze eindelijk goed werden in het begrijpen van wat je bedoelde.