AI-spraakdictatie voor Mac: hoe het echt werkt

Je staart naar de knipperende cursor in een lege e-mail. Je weet wat je wilt zeggen. Je hebt alleen geen zin om het te typen.

Mac-dictatie bestaat al sinds 2012, en de meeste mensen haakten jaren geleden af. AI-spraakdictatie voor Mac is wat dat in de afgelopen 18 maanden veranderde. De oude "praat in een microfoon en kijk hoe er een muur van typefouten verschijnt"-ervaring werd in stilte vervangen door iets dat echt aanvoelt als schrijven.

Hier komt het deel dat de meeste artikelen overslaan. Het moeilijke is niet meer de transcriptie, dat probleem is opgelost. Wat veranderde is de laag erbovenop, die jouw losse gedachten omzet in nette tekst voordat die ook maar op je scherm verschijnt. Dit artikel loopt de hele pipeline stap voor stap door, zodat je kunt zien wat je Mac eigenlijk doet tussen het moment dat je begint te praten en het moment dat gepolijste tekst in je concept belandt.

Waarom dictatie op de Mac eindelijk bruikbaar voelt

Twee getallen verklaren waarom mensen weer aan dictatie beginnen. De gemiddelde persoon typt ongeveer 40 woorden per minuut. De gemiddelde persoon spreekt ongeveer 150. Dat zijn ruwweg vier gesproken woorden in de tijd die je nodig hebt om er één te typen.

Maar snelheid was nooit echt het probleem. Het probleem was het resultaat. Oude dictatie gaf je een letterlijk transcript van elke uh, elke herstart, elke "wacht, nee, schrap dat." Je bespaarde 30 seconden met dicteren en deed er 90 over om het op te schonen.

Moderne AI-dictatieapps losten dit op door er een tweede stap aan toe te voegen. Spraak gaat eerst door transcriptie, net als vroeger. Daarna wordt het doorgegeven aan een taalmodel dat het herschrijft zoals een nette redacteur dat zou doen. Vulwoorden eruit. Grammatica gerepareerd. Zinnen afgemaakt. Tegen de tijd dat de tekst op je scherm verschijnt, leest het alsof je het op een goede dag zelf hebt geschreven.

De vijf stappen achter AI-spraakdictatie op de Mac

De pipeline is kort. Vijf stappen, de meeste onzichtbaar: 1. Opvangen, waarbij je Mac je stem oppikt. 2. Transcriberen, waarbij audio ruwe tekst wordt. 3. Polijsten, waarbij de ruwe tekst door een AI-model wordt opgeschoond. 4. Context toepassen, waarbij de schrijfstijl zich aanpast aan waar de tekst naartoe gaat. 5. Afleveren, waarbij gepolijste tekst bij je cursor belandt.

Elke stap heeft zijn eigen model, zijn eigen afwegingen en zijn eigen plekken waar het mis kan gaan. De moeite waard om ze één voor één te begrijpen.

Stap 1: opvangen, hoe je Mac je stem oppikt

Dit deel is niet hoogdravend. Je drukt op een sneltoets (FN, Option+Space, of wat de app ook gebruikt) en de microfoon begint te luisteren. De app neemt audio op in het geheugen, meestal op 16-bit en 16 kHz, het formaat dat het transcriptiemodel verwacht.

De meeste moderne Mac-dictatieapps gebruiken geen voice activity detection om te starten en stoppen. Ze gebruiken de sneltoets. Indrukken om te praten, loslaten om te stoppen. De reden is betrouwbaarheid. Spraakdetectie op een open microfoon in een koffiezaak is een gok. Een toetsindruk niet.

Er gebeuren een paar dingen tijdens het opvangen die je niet ziet. De audio wordt gebufferd, vaak ontdaan van ruis met het ingebouwde audio-framework van Apple, en in stukken opgedeeld. Als je langer praat dan de stukgrootte, meestal 30 seconden, kan de app de opname opsplitsen voordat hij verder wordt verwerkt.

Stap 2: transcriptie, hoe Whisper geluid in woorden omzet

Dit is waar de meeste AI-Mac-dictatieapps op één stuk technologie samenkomen: Whisper van OpenAI. Whisper is een spraakherkenningssysteem dat getraind is op ongeveer 5 miljoen uur audio in 99 talen. De huidige versie, large-v3, haalt ongeveer 2,7% woordfoutpercentage op schone Engelse audio en 8 tot 12% op rommelige opnames uit het dagelijks leven.

In gewone taal: spreek natuurlijk en ongeveer 92 tot 97 procent van de woorden wordt meteen correct getranscribeerd. Dat is een andere categorie nauwkeurigheid dan wat Apple's originele dictatie-engine kon, en daarom braken externe apps door.

Dit is ruwweg wat Whisper met je audio doet: - De opname in stukken van 30 seconden hakken. - Elk stuk omzetten in een spectrogram, een visuele weergave van geluid over frequenties en tijd. - Het spectrogram door een neuraal netwerk halen dat geleerd heeft audiopatronen aan woorden te koppelen. - Ook de taal, interpunctie en zinseinden voorspellen.

Het model kan lokaal op je Mac draaien (Apple Silicon doet dat moeiteloos) of in de cloud. Lokaal is privé en werkt offline. De cloud is sneller op oudere hardware en ondersteunt grotere modellen. Veel apps laten je kiezen.

Wat je aan het eind van deze stap krijgt, is een ruw transcript. Met interpunctie, grotendeels accuraat, vaak een beetje rommelig. Hier stopt de ingebouwde dictatie van Apple. De interessante apps niet.

Stap 3: polijsten, de laag die alles veranderde

Dit is de stap die Mac-dictatie omsloeg van "best handig" naar "ik heb in geen weken nog een e-mail getypt."

Na de transcriptie wordt de ruwe tekst door een taalmodel gehaald, meestal van GPT-4-niveau of Claude, met een instructie als: ``` Herschrijf dit als gepolijste, professionele tekst. Verwijder vulwoorden en valse starts. Behoud de betekenis. Voeg niets toe. ```

Zo ziet dat er in de praktijk uit.

Wat je sprak

*"Oké dus uh, ik wilde nog even terugkomen op, eh, het voorstel van vorige week. Ik denk, weet je, dat we waarschijnlijk met optie twee moeten doorgaan? Ja, optie twee. Kun je, kun je het contract voor vrijdag opsturen?"*

Wat in je klembord belandt

*"Naar aanleiding van het voorstel van vorige week wil ik graag verder met optie twee. Zou je het contract uiterlijk vrijdag kunnen opsturen?"*

Dezelfde betekenis. Een heel andere leeservaring. En het gebeurde in minder dan twee seconden.

Voor-en-na-illustratie waarin rommelige ruwe spraak met vulwoorden links overgaat in nette gepolijste tekst rechts

Dit is het deel dat lastig te beschrijven is tot je het probeert. Je stopt met nadenken over hoe je klinkt. Je stopt met zelfredigeren tijdens het praten. Je zegt gewoon het ding, zoals je het tegen een collega zou zeggen, en wat eruit komt is de versie die je zelf had geschreven als je de tijd had gehad.

Als je al dicteert maar tijd verliest aan opschonen achteraf, is dit het gat dat Voicr vult. Houd FN ingedrukt, praat zoals je wilt, en wat in je klembord belandt is al gepolijst. Geen tweede ronde, geen "ik moet die ene zin even fixen," gewoon schone tekst, klaar om te plakken.

Stap 4: contextbewustzijn, verschillende stijlen voor verschillende apps

Deze stap is nieuwer. Het is ook degene die de betere Mac-dictatieapps onderscheidt van de slechts competente.

Een beleefde, formele toon past bij een e-mail aan een klant. In een Slack-bericht aan je teamgenoot voelt het raar. In codecommentaar is het simpelweg verkeerd. Een goede dictatieapp herkent in welke app je zit en past zich aan.

Het mechanisme is eenvoudig. De app leest af welke applicatie de focus heeft. Hij zoekt jouw opgeslagen stijlregel voor die app op. Vervolgens vouwt hij die regel in de prompt die naar het polijstmodel gaat.

Een Slack-regel kan zoiets zijn als: ``` Houd het informeel en kort. Geen corporate taal. Gebruik samentrekkingen. Maximaal één of twee korte zinnen. ``` Een e-mailregel kan zoiets zijn als: ``` Schrijf in een professionele toon. Volledige zinnen. Voeg een aanhef en afsluiting toe als de inhoud dat rechtvaardigt. ```

Dezelfde spraakinvoer. Twee heel verschillende uitkomsten, afhankelijk van welk venster open staat. Je hoeft niets om te zetten. Je praat gewoon, en de juiste toon komt eruit.

Stap 5: afleveren, hoe tekst komt waar je hem nodig hebt

De laatste stap is degene waar men het langst over deed om hem goed te krijgen. Je hebt gepolijste tekst. Hoe komt die nu in je actieve tekstveld?

Er zijn twee gangbare aanpakken: 1. Via het klembord. De app kopieert de gepolijste tekst naar je klembord en geeft dan een plakopdracht (Cmd+V) via de Accessibility-API's van macOS. Snel, betrouwbaar, werkt in vrijwel elke app. 2. Toetsaanslagen injecteren. De app simuleert het typen van elk teken één voor één, met behulp van een tool als AppleScript of hetzelfde Accessibility-framework. Langzamer, maar het werkt in apps die plakken blokkeren (sommige bankwebsites, bepaalde remote desktops, wachtwoordmanagers).

De meeste apps kiezen standaard voor plakken via het klembord en vallen alleen terug op toetsaanslag-injectie als het echt nodig is. Het resultaat, vanuit jouw oogpunt: ongeveer een halve seconde nadat je de sneltoets loslaat, verschijnt de tekst bij je cursor. Geen apps wisselen, geen kopieerstap, geen controle vooraf.

Pipelinediagram met vijf stappen dat opvangen, transcriberen, polijsten, context toepassen en afleveren als verbonden cirkels toont

Lokaal versus cloudverwerking: wat er eigenlijk gebeurt

Een vraag die vaak terugkomt: waar gaat mijn stem heen?

Er zijn twee echte opties. Lokale verwerking draait het Whisper-model op je Mac. Je audio verlaat het apparaat nooit. Op Apple Silicon (vanaf M1) draait lokale Whisper snel genoeg voor real-time dictatie, meestal met minder dan een seconde vertraging. De afweging: de polijststap gaat doorgaans nog steeds naar een cloudmodel, want een taalmodel van 70 miljard parameters lokaal draaien is voor de meeste laptops niet realistisch. Sommige apps bieden volledig lokaal met een kleiner polijstmodel, ten koste van wat kwaliteit.

Cloudverwerking stuurt zowel de audio als de polijststap naar een externe API. Sneller op oudere Macs, ondersteunt de grootste en meest accurate modellen. De afweging is privacy. Je spraak verlaat je apparaat, ook al wordt hij direct na transcriptie verwijderd.

Voor de meeste mensen is "lokale Whisper, cloud-polijsten" de juiste standaard. Voor wie met gevoelig materiaal werkt (medische notities, juridische concepten, interne bedrijfsdata) is volledig lokaal het kleine kwaliteitsverlies waard. Een goede app laat je per opname kiezen of een standaard instellen.

Waar AI-dictatie nog struikelt

Even eerlijk. De pipeline is goed. Hij is niet perfect.

Homofonen gaan nog steeds wel eens mis. Of het nu "hart" versus "hard" is of "hun" versus "hen", meestal komt het juiste woord eruit, maar niet altijd. Het polijsten vangt het meestal op uit de context, behalve als de omringende zin ambigu is.

Eigennamen en jargon zijn een gok. Whisper heeft de meeste gangbare namen en technische termen gezien, maar verkracht alles wat gespecialiseerd is. Geneesmiddelnamen, namen van codebibliotheken, de ongebruikelijke achternaam van je collega. Sommige apps laten je een aangepast woordenboek toevoegen dat aan de prompt wordt vastgekoppeld.

Rumoerige omgevingen tasten de nauwkeurigheid snel aan. Whisper kan verrassend goed met cafégeluiden omgaan, maar een telefoon die twee meter verderop overgaat of iemand die vlakbij praat, trekt woorden uit je transcript.

Lange monologen lopen weg. Het model is uitstekend in vlagen van 10 tot 30 seconden. Na ongeveer 90 seconden verliest het soms de draad, herhaalt fragmenten of slaat korte stukken over. De oplossing is gewoon de opname tussendoor te stoppen en weer te starten.

Deze grenzen zijn belangrijk als je begint. Geen ervan is een dealbreaker zodra je weet dat ze bestaan. Als je tussen opties kiest, loopt onze gids over de beste voice-to-text-apps voor Mac door hoe de grote apps met deze afwegingen omgaan.

Hoe je vandaag begint met AI-spraakdictatie op je Mac

Drie praktische stappen, in volgorde.

1. Kies één taak die je een week lang elke dag dicteert. E-mail is een goede starter, het heeft de hoogste typ-tot-praat-conversie (je denkt sowieso meestal na voordat je schrijft). Probeer niet alles in één keer te gaan dicteren. Dan haak je af.

2. Wen aan praten tegen niemand. De eerste paar keer dat je dicteert, voelt het raar om hardop te praten in een stille kamer. Dat gaat over in ongeveer vier dagen.

3. Kies een app en zet door. Er zijn goede opties in elk prijssegment, van de ingebouwde dictatie van Apple tot open-source Whisper-tools tot apps met de hele pipeline. Wil je de gepolijste transcribeer-en-plak-flow die hierboven beschreven staat, dan doet Voicr precies dat. Houd FN ingedrukt, spreek, plak. Whisper voor de transcriptie, een sterk taalmodel voor het polijsten, en schrijfstijlen per app die zich aanpassen aan waar je cursor staat. De gratis laag geeft je 5.000 woorden per maand, zonder creditcard.

De pipeline achter dit alles is eindelijk goed genoeg dat dictatie geen compromis meer is. Je ruilt geen kwaliteit in voor snelheid. Je krijgt allebei. Het moeilijkste is alleen nog beslissen om te stoppen met typen.