Waarom AI-bijschaven het ontbrekende stukje is in dictatie-apps

Je dicteert een alinea in 30 seconden. Daarna ben je de volgende 90 seconden bezig om het op te poetsen. De "uhs" eruit halen, komma's toevoegen, de zin afmaken waar je halverwege in bleef hangen. Tegen de tijd dat het lekker leest, vraag je je af waarom je het niet gewoon hebt getypt.

Dat is de stille reden waarom de meeste mensen spraakdictatie één keer proberen en er nooit meer naar terugkeren. De snelheid is echt. Het resultaat is onbruikbaar. En precies in die kloof tussen die twee dingen hoort AI-bijschaven te zitten, de stap die bijna elke dictatie-app overslaat of verkeerd doet.

Jarenlang draaide het hele verhaal van dictatie om snelheid. Praat met 150 woorden per minuut in plaats van typen met 40, en je bent in een kwart van de tijd klaar. Die rekensom klopte altijd. De adder onder het gras was wat je overhield: een ruw transcript dat leesde alsof een notulist je hardop had horen denken.

De productiviteitsparadox waar niemand je voor waarschuwt

Hier zit de valkuil. Spraak brengt je snel naar een eerste versie, maar een eerste versie is niet de finishlijn. Als de tekst nog een volledige redactieronde nodig heeft, heb je het werk niet weggehaald. Je hebt het alleen verplaatst.

De cijfers maken de verleiding overduidelijk. Gemiddelde spraak ligt rond de 150 woorden per minuut, terwijl gemiddeld typen rond de 40 zit. Dat zijn bijna vier gesproken woorden voor elk woord dat je zou typen. Dus mensen proberen dictatie, voelen de snelheid en raken een beetje enthousiast.

Dan lezen ze het resultaat. "Dus ik dacht eigenlijk dat we de deadline misschien, uh, naar vrijdag zouden moeten verschuiven, ofzo." Nu zijn ze aan het redigeren. En zo'n rommel redigeren is vaak trager dan de zin meteen netjes uittypen, want eerst moet je je eigen geraaskal ontcijferen en daarna pas verbeteren.

Na een week wordt de app verwijderd. Niet omdat dictatie traag was. Maar omdat het je huiswerk teruggaf.

Transcriptie is al een opgelost probleem

Het is makkelijk om de nauwkeurigheid de schuld te geven, en een paar jaar geleden was dat terecht. Maar in 2026 is ruwe spraakherkenning grotendeels opgelost. De goede modellen transcriberen heldere spraak met 80 tot 95 procent nauwkeurigheid, en ze gaan veel beter om met accenten en achtergrondgeluid dan de dictatie die tien jaar geleden in je laptop zat.

Whisper, het open model waar veel apps op bouwen, vangt je woorden op. Dat van Apple ook. Dat van Google ook. De race om je simpelweg correct te verstaan is grotendeels gestreden. Iedereen heeft die streep gepasseerd.

De ingebouwde dictatie van Apple is een mooi voorbeeld van herkenning zonder de volgende stap: het verstaat je prima maar geeft een letterlijk transcript terug, inclusief elke herstart en elk stopwoord. Herkenning is dus niet meer wat de ene dictatie-app van de andere onderscheidt. Als twee apps weergeven wat je zei met dezelfde nauwkeurigheid, staan ze gelijk op het onderdeel dat ooit de hele wedstrijd was.

Het verschil zit nu in wat er gebeurt nadat de woorden zijn opgevangen. Die stap is precies wat niemand in de functielijst zet. Het is de bijschaaflaag, en daar winnen de goede apps stilletjes.

Wat je zei versus wat je bedoelde

Er zit verschil tussen wat je zei en wat je bedoelde, en je leeft binnen die kloof telkens als je je mond opendoet.

Als je praat, ga je terug. Je begint een zin, laat hem vallen, begint opnieuw. Je zegt "weet je wel" om een halve seconde na te denken. Je laat gedachten in de lucht hangen omdat je brein alweer naar de volgende is gesprongen. Niets daarvan is een fout. Zo werkt spraak nou eenmaal.

Transcriptie schrijft het allemaal getrouw op. Dat is het probleem. Een getrouw transcript van spraak levert slechte tekst op, want spraak en schrijven zijn niet hetzelfde. Goed schrijven schrapt de valse starts en houdt de kern over.

Bijschaven is de stap die de kloof dicht. Het neemt het letterlijke transcript, wat je zei, en kneedt het om tot wat je bedoelde. Dezelfde ideeën, in de volgorde waarin je ze had opgeschreven als je vingers je hoofd hadden kunnen bijbenen.

Zo ziet dat eruit. Je zegt: ``` uh dus ik dacht, misschien kunnen we de lancering, weet je wel, naar volgende week verschuiven, want de de QA is nog niet af, en ja ``` Transcriptie geeft dat woord voor woord terug. Bijschaven geeft je dit: ``` Ik denk dat we de lancering naar volgende week moeten verschuiven. De QA is nog niet af. ``` Je hebt de tweede niet geschreven. Je zei de eerste. De bijschaaflaag deed de rest.

Wat goed bijschaven echt doet

Bijschaven is niet één trucje. Het is een stapeling van kleine bewerkingen die een zorgvuldige redacteur zonder na te denken zou maken, allemaal gedaan in de seconde of twee tussen het moment dat je de toets loslaat en de tekst verschijnt. De goede doen ongeveer vijf dingen: 1. De stopwoorden eruit halen. De "uhs", "weet-je-wels" en "eigenlijks" verdwijnen gewoon. 2. Grammatica en interpunctie verbeteren. Komma's, punten en werkwoordstijden die ook echt kloppen. 3. Je gedachten afmaken. Wegstervende zinnen worden afgerond. Halve uitspraken worden hele. 4. Herstructureren voor het lezen. Een rammelende lange zin valt uiteen in twee heldere. Een punt die je had begraven, schuift naar voren. 5. Aansluiten bij de context. Een Slack-bericht blijft los. Een e-mail wordt iets netter aangekleed.

Die laatste is het meest onderschat. Dezelfde gesproken zin hoort niet identiek te landen in een appje naar een vriend en een notitie aan je baas. Spraak heeft geen idee waar het naartoe gaat. Goed bijschaven wel. Wil je zien hoe de hele reeks verloopt, van microfoon tot schone tekst op je klembord, dan hebben we het uiteengezet in hoe AI-spraakdictatie op de Mac echt werkt.

Een verwarde krabbel in een tekstballon die verandert in een net document met een groen vinkje, als illustratie van hoe AI-bijschaven rommelige spraak omtovert tot afgewerkte tekst

Let op wat bijschaven niet is. Het is geen samenvatten. Je wilt geen kortere versie van je punt, je wilt een schonere. En het is geen genereren. Het hoort geen ideeën toe te voegen die je nooit hebt gezegd. De lijn waarover het balanceert is smal: verander de vorm, behoud de betekenis. Doe het in een van beide richtingen verkeerd en je hebt een slechter gereedschap, geen beter.

Waarom de meeste dictatie-apps de bijschaaflaag overslaan

Als bijschaven het hele spel is, waarom stoppen dan zoveel apps bij het transcript? Drie redenen, en geen ervan heeft met jou te maken.

Het is moeilijker te bouwen. Transcriptie is een spraakmodel. Bijschaven heeft daarbovenop een taalmodel nodig, een dat toon, context en wat je eigenlijk bedoelde leest. Dat is een tweede systeem om te bouwen, af te stellen en bij elke dictatie opnieuw voor te betalen.

Het is trager en het kost meer. Je woorden door een extra model halen voegt een tel vertraging en een echte rekening toe. Een app die bijschaven overslaat is goedkoper in gebruik en reageert sneller. Het schuift het opruimen alleen stilletjes weer terug naar jou.

En het is riskant. Een bijschaafmodel dat te ver doordrukt zal dingen "corrigeren" die je wél zo bedoelde, je eigen stem afvlakken, of een woord vervangen dat ertoe deed. Eén bouwen dat helpt zonder zijn boekje te buiten te gaan is oprecht lastig, dus heel wat apps nemen niet eens de moeite.

Dit is het probleem waar Voicr omheen is gebouwd. Je spraak wordt in één keer getranscribeerd én bijgeschaafd voordat het ooit je klembord bereikt, en met Smart Rules kun je per app een andere toon instellen, los in Slack, formeler in e-mail, zodat het opruimen past bij waar de woorden naartoe gaan in plaats van elk bericht hetzelfde te behandelen.

De eerlijke grenzen van AI-bijschaven

Bijschaven is het ontbrekende stukje. Het is echter geen toverij, en elke app die doet alsof van wel zal je uiteindelijk in de steek laten.

Het kan overcorrigeren. Druk het model te ver door en je schrijven gaat klinken als dat van iedereen, glad en competent en vreemd gezichtsloos. Als je ooit een volkomen correcte alinea hebt gelezen die aanvoelde alsof hij door niemand in het bijzonder was geschreven, dan ken je dit faalpatroon.

Het kan struikelen over de details. Een model dat je grammatica opschoont kan stilletjes een woord veranderen, en als dat woord een naam, een getal of een "niet" is, verschuift de betekenis mee. Voor een Slack-reactie maakt het niet uit. Voor een contractbepaling of een dosering lees je het na voordat je het verstuurt. Elke keer.

En het kan je gedachten niet lezen. Mompel iets oprecht dubbelzinnigs en het model gokt, en soms gokt het verkeerd. De oplossing is dezelfde als altijd: een blik van twee seconden voordat je op verzenden drukt. Bijschaven is er niet om die blik weg te halen. Het is er zodat er, als je wél kijkt, meestal niets meer te verbeteren valt.

Hoe je herkent of een dictatie-app echt bijschaaft

Als je een dictatiehulpmiddel zoekt, helpt de functielijst je weinig. Iedereen zet "AI" op de doos. Zo test je het echt, in ongeveer vijf minuten: 1. Dicteer expres een rommelige alinea. Raaskal, gooi er wat "uhs" in, herstart een zin halverwege, sterf weg aan het eind. Een app die alleen transcribeert geeft de rommel rechtstreeks terug. Een bijschaafapp ruimt het op. 2. Verbeter jezelf midden in een zin. Zeg "verschuif het naar dinsdag, nee, woensdag". Een echte bijschaaflaag houdt alleen "woensdag" over. Een letterlijke houdt allebei. 3. Dicteer dezelfde regel in Slack en in een e-mail. Als het resultaat identiek is, is er geen contextbesef. Als de toon verschuift, is dat er wel. 4. Let op de snelheid. Bijschaven kost een tel. Als de tekst meteen verschijnt en toch opgeruimd moet worden, is het waarschijnlijk ruwe transcriptie met een AI-etiketje. 5. Lees het zonder het aan te raken. Zou je het resultaat precies zo kunnen versturen? Zo ja, dan is dat het ontbrekende stukje, aan het werk.

Een vriendelijk checklistklembord met vijf aangevinkte punten naast een vergrootglas boven een tekstballon, als weergave van een test in vijf stappen of een dictatie-app je spraak bijschaaft

Doe die vijf en je weet binnen enkele minuten in welk kamp een app valt. De meeste "beste dictatie-app"-lijstjes voeren ze nooit uit, en dat is een groot deel van de reden waarom elke app op die lijsten hetzelfde klinkt.

Het ontbrekende stukje, in de praktijk

Stroop het tot op het bot en het verhaal is simpel. Spraak is sneller dan typen, en de kloof is enorm. Maar die snelheid is waardeloos als je het allemaal teruggeeft in de redactie. Transcriptie levert je de woorden. AI-bijschaven levert je de tekst. Het een zonder het ander is half gereedschap.

De dictatie-apps die mensen daadwerkelijk houden zijn de apps die de cirkel rondmaken, waarbij je spreekt en wat er landt iets is dat je op een goede dag zelf had geschreven. De apps die mensen verwijderen stoppen bij het transcript en noemen het af.

De snelste manier om het verschil te voelen is om één echt bericht te dicteren, een e-mail of een Slack-reactie, en goed te kijken naar wat eruit komt. Wil je de versie die bijschaaft terwijl het transcribeert, de toon aanpast aan de app waarin je zit en met één toetsaanslag schone tekst bij je cursor neerzet, dan is dat het hele idee achter Voicr: houd FN ingedrukt, spreek, plak. Het ontbrekende stukje, al aangesloten.