AI-stemmediktering til Mac: Sådan fungerer det egentlig

Du stirrer på markøren, der blinker i en tom e-mail. Du ved, hvad du vil sige. Du gider bare ikke skrive det.

Mac-diktering har eksisteret siden 2012, og de fleste gav op for flere år siden. AI-stemmediktering til Mac er det, der har ændret det inden for de seneste 18 måneder. Den gamle oplevelse med at "tale ind i en mikrofon og se en mur af tastefejl dukke op" er stille og roligt blevet erstattet med noget, der faktisk føles som at skrive.

Her er den del, de fleste artikler springer over. Den svære del er ikke længere transskriptionen, den er løst. Det, der er ændret, er laget ovenpå, det som tager dine rodede tanker og forvandler dem til ren tekst, før de overhovedet rammer din skærm. Denne artikel går trin for trin gennem hele pipelinen, så du kan se, hvad din Mac faktisk laver mellem det øjeblik, du begynder at tale, og det øjeblik, hvor poleret tekst lander i dit udkast.

Hvorfor diktering på Mac endelig føles brugbart

To tal forklarer, hvorfor folk vender tilbage til diktering. En gennemsnitlig person skriver omkring 40 ord i minuttet. En gennemsnitlig person taler omkring 150. Det er groft sagt fire ord talt på den tid, det tager at skrive ét.

Men hastigheden var aldrig rigtig problemet. Problemet var resultatet. Den gamle diktering gav dig en bogstavelig udskrift af hver øh, hver omstart, hvert "vent, nej, glem det". Du sparede 30 sekunder på at diktere og brugte 90 på at rydde op.

Moderne AI-dikteringsapps løste det ved at tilføje et trin nummer to. Talen går gennem transskription som før. Derefter sendes den videre til en sprogmodel, der skriver den om, som en omhyggelig redaktør ville gøre. Fyldord fjernet. Grammatik rettet. Sætninger gjort færdige. Når teksten dukker op på din skærm, læses den som noget, du selv ville have skrevet på en god dag.

De fem trin bag AI-stemmediktering på Mac

Pipelinen er kort. Fem trin, de fleste af dem usynlige: 1. Optagelse, hvor din Mac fanger din stemme. 2. Transskription, hvor lyd bliver til rå tekst. 3. Polering, hvor den rå tekst ryddes op af en AI-model. 4. Tilpasning til kontekst, hvor skrivestilen tilpasser sig der, hvor teksten skal hen. 5. Levering, hvor den polerede tekst lander ved din markør.

Hvert trin har sin egen model, sine egne afvejninger og sine egne steder, hvor det kan gå galt. Værd at forstå ét ad gangen.

Trin 1: Optagelse, sådan fanger din Mac din stemme

Den her del er ikke avanceret. Du trykker på en genvejstast (FN, Option+Mellemrum, eller hvad appen nu bruger), og mikrofonen begynder at lytte. Appen optager lyd i hukommelsen, typisk i 16-bit, 16 kHz, det format som transskriptionsmodellen forventer.

De fleste moderne Mac-dikteringsapps bruger ikke stemmeaktivering til at starte og stoppe. De bruger genvejstasten. Hold for at tale, slip for at stoppe. Årsagen er pålidelighed. Stemmeaktivering på en åben mikrofon på en café er som at slå plat eller krone. Et tastetryk er det ikke.

Nogle få ting sker under optagelsen, som du ikke ser. Lyden bufres, ofte med støjreduktion via Apples indbyggede lydramme, og opdeles i bidder. Hvis du taler i længere tid end et bid varer, typisk 30 sekunder, kan appen dele optagelsen, før den sendes videre.

Trin 2: Transskription, sådan forvandler Whisper lyd til ord

Det er her, de fleste AI-dikteringsapps til Mac samles om ét stykke teknologi: OpenAIs Whisper-model. Whisper er et talegenkendelsessystem, der er trænet på omkring 5 millioner timers lyd på 99 sprog. Den aktuelle version, large-v3, rammer omkring 2,7 % fejlrate på ren engelsk lyd og 8 til 12 % på støjende optagelser fra den virkelige verden.

Med andre ord: tal naturligt, og cirka 92 til 97 procent af ordene transskriberes korrekt fra start. Det er en helt anden kategori af nøjagtighed end den, Apples oprindelige dikteringsmotor kunne præstere, og det er derfor, tredjepartsapps fik vind i sejlene.

Sådan gør Whisper groft sagt ved din lyd: - Hakker optagelsen i 30-sekunders stykker. - Konverterer hvert stykke til et spektrogram, en visuel repræsentation af lyden på tværs af frekvenser og tid. - Sender spektrogrammet ind i et neuralt netværk, der har lært at koble lydmønstre med ord. - Forudsiger også sproget, tegnsætningen og hvor sætninger slutter.

Modellen kan køre lokalt på din Mac (Apple Silicon klarer det fint) eller i skyen. Lokalt er privat og virker offline. Skyen er hurtigere på ældre hardware og understøtter større modeller. Mange apps lader dig vælge.

Det, du står med efter dette trin, er en rå udskrift. Med tegnsætning, for det meste korrekt, ofte lidt rodet. Det er her, Apples indbyggede diktering stopper. De interessante apps gør ikke.

Trin 3: Polering, laget der ændrede alt

Det er det trin, der flyttede Mac-diktering fra "nogenlunde brugbart" til "jeg har ikke skrevet en e-mail i ugevis".

Efter transskriptionen sendes den rå tekst gennem en sprogmodel, typisk af GPT-4-klasse eller Claude, med en instruktion som: ``` Skriv dette om som poleret, professionel tekst. Fjern fyldord og falske starter. Bevar meningen. Tilføj ikke noget. ```

Sådan ser det ud i praksis.

Det, du sagde

*"Okay så øh, jeg ville lige følge op på, øh, forslaget fra i sidste uge. Jeg tror, du ved, vi nok skal gå videre med mulighed to? Ja, mulighed to. Kan du, kan du sende mig kontrakten inden fredag?"*

Det, der lander i din udklipsholder

*"Som opfølgning på forslaget fra sidste uge vil jeg gerne gå videre med mulighed to. Kan du sende mig kontrakten inden fredag?"*

Samme mening. Helt anden læseoplevelse. Og det skete på under to sekunder.

Før-og-efter-illustration, der viser rodet rå tale med fyldord til venstre, som forvandles til ren, poleret tekst til højre

Det er den del, der er svær at beskrive, før du selv prøver. Du holder op med at tænke over, hvordan du lyder. Du holder op med at selvredigere, mens du taler. Du siger bare tingen, som du ville sige den til en kollega, og det, der kommer ud, er den version, du ville have skrevet, hvis du havde haft tid.

Hvis du allerede dikterer, men taber tid på oprydningen bagefter, er det netop dét hul, Voicr fylder ud. Hold FN nede, tal som du har lyst, og det, der lander i din udklipsholder, er allerede poleret. Ingen ekstra runde, intet "jeg er nødt til at rette den ene sætning", bare ren tekst klar til at indsætte.

Trin 4: Kontekstforståelse, forskellige stilarter til forskellige apps

Dette trin er nyere. Det er også det, der adskiller de bedre Mac-dikteringsapps fra de blot kompetente.

En høflig, formel tone er det rigtige til en kunde-e-mail. Det virker mærkeligt i en Slack-besked til din kollega. Det er forkert i kodekommentarer. En god dikteringsapp finder ud af, hvilken app du er i, og tilpasser sig.

Mekanismen er enkel. Appen aflæser, hvilket program der har fokus. Den slår din gemte stilregel for den app op. Så væver den reglen ind i den prompt, der sendes til poleringsmodellen.

En Slack-regel kan lyde sådan her: ``` Hold det afslappet og kort. Ingen kontorsprog. Brug sammentrækninger. Maks. en eller to korte sætninger. ``` En e-mail-regel kan lyde sådan her: ``` Skriv i en professionel tone. Hele sætninger. Tilføj en hilsen og en afslutning, hvis indholdet kalder på det. ```

Samme stemmeinput. To meget forskellige resultater alt efter, hvilket vindue der er åbent. Du skifter ikke noget. Du taler bare, og den rigtige tone kommer ud.

Trin 5: Levering, sådan lander teksten, hvor du har brug for den

Det sidste trin er det, der tog længst tid at få på plads. Du har poleret tekst. Hvordan kommer den nu ind i dit aktive tekstfelt?

Der er to almindelige tilgange: 1. Udklipsholder-ruten. Appen kopierer den polerede tekst til din udklipsholder og udløser så en indsæt-kommando (Cmd+V) gennem macOS' Accessibility-API'er. Hurtigt, pålideligt, virker i næsten alle apps. 2. Tasteinjektion. Appen simulerer, at hvert tegn tastes ind ét ad gangen, via et værktøj som AppleScript eller den samme Accessibility-ramme. Langsommere, men virker i apps, der blokerer indsætning (visse bankhjemmesider, nogle fjernskriveborde, password-managere).

De fleste apps har som standard udklipsholder-indsætning og falder kun tilbage til tasteinjektion, når det er nødvendigt. Resultatet, set fra dit perspektiv: teksten dukker op ved markøren cirka et halvt sekund efter, at du slipper genvejstasten. Intet app-skift, ingen kopieringsskridt, ingen gennemlæsning.

Diagram over fem-trins-pipelinen, der viser optagelse, transskription, polering, kontekstforståelse og levering som forbundne cirkler

Lokal vs. sky-behandling: hvad der faktisk sker

Et spørgsmål, der ofte dukker op: hvor ender min stemme?

Der er to reelle muligheder. Lokal behandling kører Whisper-modellen på din Mac. Din lyd forlader aldrig enheden. På Apple Silicon (fra M1 og frem) kører Whisper lokalt hurtigt nok til realtidsdiktering, typisk med mindre end et sekunds forsinkelse. Afvejningen: poleringstrinnet ryger som regel stadig til en sky-model, fordi det ikke er realistisk at køre en sprogmodel med 70 milliarder parametre lokalt på de fleste bærbare. Nogle apps tilbyder fuldt lokalt med en mindre poleringsmodel mod et kvalitetsfald.

Sky-behandling sender både lyden og poleringstrinnet til en fjern-API. Hurtigere på ældre Mac'er, understøtter de største og mest præcise modeller. Afvejningen er privatlivet. Din tale forlader din enhed, også selvom den slettes lige efter transskriptionen.

For de fleste er "lokal Whisper, sky-polering" den rigtige standard. For alle, der arbejder med følsomt materiale (lægejournaler, juridiske udkast, intern virksomhedsdata), er fuldt lokalt den lille kvalitetsmæssige pris værd. En god app lader dig vælge pr. optagelse eller sætte en standard.

Hvor AI-diktering stadig snubler

Ærlig sektion. Pipelinen er god. Den er ikke perfekt.

Homofoner går stadig galt. På dansk rammer "hjerne" vs. "gerne" eller "ligge" vs. "lægge" det rigtige det meste af tiden, men ikke altid. Poleringen fanger det som regel ud fra konteksten, men ikke hvis den omkringliggende sætning er tvetydig.

Egennavne og fagudtryk er hit-or-miss. Whisper har set de fleste almindelige navne og tekniske udtryk, men den forvansker alt specialiseret. Lægemiddelnavne, navne på kodebiblioteker, din kollegas usædvanlige efternavn. Nogle apps lader dig tilføje en brugerdefineret ordbog, der bliver hæftet på prompten.

Støjende miljøer forringer nøjagtigheden hurtigt. Whisper håndterer caféstøj overraskende godt, men en telefon, der ringer en halv meter væk, eller nogen, der taler tæt på, vil trække ord ud af din udskrift.

Lange monologer driver af sporet. Modellen er fremragende i bidder på 10 til 30 sekunder. Efter omkring 90 sekunder mister den nogle gange tråden, gentager fragmenter eller springer korte vendinger over. Løsningen er bare at stoppe og starte optagelsen i bidder.

Disse begrænsninger betyder noget, når du er ny i gamet. Ingen af dem er dealbreakers, hvis du ved, at de er der. Hvis du er ved at vælge mellem muligheder, gennemgår vores guide til de bedste tale-til-tekst-apps til Mac hvordan de største apps håndterer disse afvejninger.

Sådan kommer du i gang med AI-stemmediktering på din Mac i dag

Tre praktiske trin, i rækkefølge.

1. Vælg én opgave, du vil diktere hver dag i en uge. E-mail er en god start, den har den højeste konvertering fra skrivning til tale (du plejer alligevel at tænke, før du skriver). Lad være med at prøve at diktere alt på én gang. Så stopper du.

2. Bliv tryg ved at tale til ingen. De første par gange du dikterer, vil du føle dig mærkelig ved at tale højt i et stille rum. Det går væk på cirka fire dage.

3. Vælg en app og hold ved. Der er gode muligheder i hele prisspændet, fra Apples indbyggede diktering til open source-værktøjer baseret på Whisper og til komplette pipeline-apps. Hvis du vil have det polerede transskriber-og-indsæt-flow, der er beskrevet ovenfor, gør Voicr præcis det. Hold FN nede, tal, indsæt. Whisper til transskription, en stærk sprogmodel til polering og skrivestilarter per app, der tilpasser sig der, hvor din markør står. Den gratis udgave giver dig 5.000 ord om måneden uden kreditkort.

Pipelinen bag det hele er endelig god nok til, at diktering ikke længere er et kompromis. Du bytter ikke kvalitet for hastighed. Du får begge dele. Det svære er bare at beslutte sig for at holde op med at skrive.