AI-talegjenkjenning for Mac: Slik fungerer det egentlig

Du stirrer på markøren som blinker i en tom e-post. Du vet hva du vil si. Du har bare ikke lyst til å skrive det.

Diktering på Mac har eksistert siden 2012, og de fleste ga opp for flere år siden. AI-talegjenkjenning for Mac er det som endret det de siste 18 månedene. Den gamle «snakk inn i en mikrofon og se en vegg av skrivefeil dukke opp»-opplevelsen har stille blitt erstattet med noe som faktisk føles som å skrive.

Her er den biten de fleste artikler hopper over. Det vanskelige er ikke lenger transkripsjonen, den er løst. Det som har endret seg, er laget over: det som tar de rotete tankene dine og gjør dem til ren tekst før den i det hele tatt treffer skjermen. Denne artikkelen går gjennom hele pipelinen, steg for steg, slik at du kan se hva Macen din faktisk gjør mellom det øyeblikket du begynner å snakke og det øyeblikket polert tekst lander i utkastet ditt.

Hvorfor diktering på Mac endelig føles brukbar

To tall forklarer hvorfor folk er på vei tilbake til diktering. Gjennomsnittspersonen skriver rundt 40 ord i minuttet. Gjennomsnittspersonen snakker rundt 150. Det er omtrent fire talte ord på samme tid som det tar å skrive ett.

Men hastighet var aldri det egentlige problemet. Problemet var resultatet. Gammel diktering ga deg en bokstavelig transkripsjon av hver «eh», hver omstart, hvert «vent, nei, glem det». Du sparte 30 sekunder på dikteringen og brukte 90 på å rydde opp.

Moderne AI-dikteringsapper løste dette ved å legge til et nytt steg. Talen går gjennom transkripsjon, som før. Så blir den sendt videre til en språkmodell som skriver den om slik en ryddig redaktør ville gjort. Fyllord fjernet. Grammatikk fikset. Setninger fullført. Når teksten dukker opp på skjermen, leses den som noe du skrev på en god dag.

De fem stegene bak AI-talegjenkjenning på Mac

Pipelinen er kort. Fem steg, de fleste av dem usynlige: 1. Opptak, der Macen fanger opp stemmen din. 2. Transkripsjon, der lyd blir til rå tekst. 3. Polering, der den rå teksten ryddes opp av en AI-modell. 4. Kontekst, der skrivestilen tilpasses dit teksten skal. 5. Levering, der den polerte teksten lander ved markøren din.

Hvert steg har sin egen modell, sine egne avveininger og sine egne steder der det kan gå galt. Verdt å forstå ett om gangen.

Steg 1: Opptak — hvordan Macen fanger opp stemmen din

Denne delen er ikke fancy. Du trykker på en hurtigtast (FN, Option+Space, eller hva appen nå bruker) og mikrofonen begynner å lytte. Appen tar opp lyd i minnet, vanligvis i 16-bit, 16 kHz, formatet transkripsjonsmodellen forventer.

De fleste moderne dikteringsapper for Mac bruker ikke stemmedeteksjon for å starte og stoppe. De bruker hurtigtasten. Hold inne for å snakke, slipp for å stoppe. Grunnen er pålitelighet. Stemmedeteksjon på en åpen mikrofon i en kafé er et myntkast. Et tastetrykk er det ikke.

Noen ting skjer under opptaket som du ikke ser. Lyden bufres, ofte støydempes ved hjelp av Apples innebygde lydrammeverk, og deles inn i biter. Hvis du snakker lenger enn bitestørrelsen, vanligvis 30 sekunder, kan appen dele opp opptaket før det sendes videre.

Steg 2: Transkripsjon — hvordan Whisper gjør lyd om til ord

Dette er der de fleste AI-dikteringsapper for Mac samles om én og samme teknologi: OpenAIs Whisper-modell. Whisper er et talegjenkjenningssystem trent på omtrent 5 millioner timer med lyd på 99 språk. Den nåværende versjonen, large-v3, treffer rundt 2,7 % ordfeilrate på ren engelsk lyd og 8 til 12 % på støyete opptak fra den virkelige verden.

På vanlig norsk: snakk naturlig, og rundt 92 til 97 prosent av ordene vil bli transkribert riktig rett ut av boksen. Det er en helt annen kategori nøyaktighet enn det Apples opprinnelige dikteringsmotor klarte, og det er grunnen til at tredjepartsapper tok av.

Slik gjør Whisper det grovt sett med lyden din: - Deler opptaket i biter på 30 sekunder. - Konverterer hver bit til et spektrogram, en visuell fremstilling av lyden på tvers av frekvenser og tid. - Sender spektrogrammet inn i et nevralt nettverk som har lært å koble lydmønstre til ord. - Forutsier også språk, tegnsetting og hvor setninger slutter.

Modellen kan kjøre lokalt på Macen din (Apple Silicon takler det fint) eller i skyen. Lokalt er privat og fungerer offline. Skyen er raskere på eldre maskinvare og støtter større modeller. Mange apper lar deg velge.

Det du sitter igjen med etter dette steget er en rå transkripsjon. Med tegnsetting, stort sett korrekt, ofte litt rotete. Det er her Apples innebygde diktering stopper. De interessante appene gjør ikke det.

Steg 3: Polering — laget som endret alt

Dette er steget som flippet Mac-diktering fra «litt nyttig» til «jeg har ikke skrevet en e-post med tastatur på flere uker».

Etter transkripsjonen sendes den rå teksten gjennom en språkmodell, vanligvis i GPT-4-klassen eller Claude, med en instruks i stil med: ``` Skriv om dette til polert, profesjonell tekst. Fjern fyllord og falske starter. Behold meningen. Ikke legg til noe. ```

Slik ser det ut i praksis.

Det du sa

*«Ok, så, eh, jeg ville bare følge opp, eh, forslaget fra forrige uke. Jeg tenker, du vet, at vi sannsynligvis bør gå videre med alternativ to? Ja, alternativ to. Kan du, kan du sende meg kontrakten innen fredag?»*

Det som lander i utklippstavlen

*«For å følge opp forslaget fra forrige uke vil jeg gjerne gå videre med alternativ to. Kan du sende meg kontrakten innen fredag?»*

Samme mening. Helt annen leseopplevelse. Og det skjedde på under to sekunder.

Før- og etter-illustrasjon som viser rotete rå tale med fyllord til venstre som forvandles til ren, polert tekst til høyre

Dette er den delen som er vanskelig å beskrive før du prøver den. Du slutter å tenke på hvordan du høres ut. Du slutter å redigere deg selv mens du snakker. Du bare sier tingen, slik du ville sagt den til en kollega, og det som kommer ut er versjonen du ville skrevet hvis du hadde hatt tid.

Hvis du allerede dikterer, men taper tid på opprydning etterpå, er det dette gapet Voicr fyller. Hold inne FN, snakk akkurat som du vil, og det som havner i utklippstavlen er allerede polert. Ingen ekstra runde, ingen «jeg må fikse den ene setningen», bare ren tekst klar til å limes inn.

Steg 4: Kontekstforståelse — ulike stiler for ulike apper

Dette steget er nyere. Det er også det som skiller de bedre dikteringsappene for Mac fra de bare kompetente.

En høflig, formell tone passer til en kunde-e-post. Den er rar i en Slack-melding til kollegaen din. Den er feil i kodekommentarer. En god dikteringsapp finner ut hvilken app du er i, og justerer.

Mekanismen er enkel. Appen leser hvilken applikasjon som har fokus. Den slår opp den lagrede stilregelen din for den appen. Så bretter den den regelen inn i prompten som går til poleringsmodellen.

En Slack-regel kan si: ``` Hold det uformelt og kort. Ingen kontorspråk. Bruk sammentrekninger. Maks én eller to korte setninger. ``` En e-postregel kan si: ``` Skriv i en profesjonell tone. Hele setninger. Legg til en hilsen og avslutning hvis innholdet gjør det naturlig. ```

Samme stemmeinput. To helt forskjellige resultater avhengig av hvilket vindu som er åpent. Du veksler ingenting. Du bare snakker, og riktig tone kommer ut.

Steg 5: Levering — hvordan teksten lander der du trenger den

Det siste steget er det som tok lengst tid å få til å fungere. Du har polert tekst. Hvordan kommer den inn i det aktive tekstfeltet ditt?

Det finnes to vanlige tilnærminger: 1. Utklippstavle-ruten. Appen kopierer den polerte teksten til utklippstavlen, og utløser deretter en lim-inn-kommando (Cmd+V) via macOS' Accessibility-API-er. Raskt, pålitelig, fungerer i nesten alle apper. 2. Tastetrykksinjeksjon. Appen simulerer at hvert tegn skrives ett om gangen, ved hjelp av et verktøy som AppleScript eller det samme Accessibility-rammeverket. Tregere, men fungerer i apper som blokkerer innliming (enkelte banknettsteder, visse fjernskrivebord, passordbehandlere).

De fleste appene bruker utklippstavle som standard, og faller tilbake til tastetrykksinjeksjon bare når det er nødvendig. Resultatet, fra ditt ståsted: teksten dukker opp ved markøren omtrent et halvt sekund etter at du slipper hurtigtasten. Ingen appbytte, ingen kopiering, ingen gjennomgang.

Diagram over fem-stegs-pipelinen som viser opptak, transkripsjon, polering, kontekst og levering som sammenkoblede sirkler

Lokal vs. sky-prosessering — hva som faktisk skjer

Et spørsmål som dukker opp ofte: hvor blir det av stemmen min?

Det er to reelle alternativer. Lokal prosessering kjører Whisper-modellen på Macen din. Lyden forlater aldri enheten. På Apple Silicon (fra M1 og oppover) kjører lokal Whisper raskt nok til diktering i sanntid, vanligvis med under et sekunds forsinkelse. Avveiningen: poleringssteget går fortsatt som regel til en skymodell, fordi det ikke er realistisk for de fleste laptoper å kjøre en språkmodell med 70 milliarder parametere lokalt. Noen apper tilbyr fullt lokalt med en mindre poleringsmodell, til en kvalitetskostnad.

Sky-prosessering sender både lyden og poleringssteget til et eksternt API. Raskere på eldre Macer, støtter de største og mest nøyaktige modellene. Avveiningen er personvern. Stemmen din forlater enheten, selv om den slettes rett etter transkripsjonen.

For de fleste er «lokal Whisper, polering i skyen» det riktige utgangspunktet. For alle som jobber med sensitivt materiale (medisinske notater, juridiske utkast, interne firmadata) er fullt lokalt verdt det lille kvalitetstapet. En god app lar deg velge per opptak eller sette en standard.

Der AI-diktering fortsatt snubler

Ærlig avsnitt. Pipelinen er god. Den er ikke perfekt.

Homofoner går fortsatt galt. «Their» mot «there» mot «they're» blir riktig som oftest, men ikke alltid. Poleringen plukker det vanligvis opp fra konteksten, men ikke hvis setningen rundt er tvetydig.

Egennavn og fagsjargong er hit eller miss. Whisper har sett de vanligste navnene og tekniske begrepene, men den vil ødelegge alt som er spesialisert. Legemiddelnavn, navn på kodebiblioteker, det uvanlige etternavnet til kollegaen din. Noen apper lar deg legge til en egen ordliste som boltes på prompten.

Støyete omgivelser senker nøyaktigheten raskt. Whisper håndterer kafestøy overraskende godt, men en telefon som ringer en halvmeter unna eller noen som snakker i nærheten vil rive ord ut av transkripsjonen din.

Lange monologer driver av. Modellen er utmerket i drypp på 10 til 30 sekunder. Etter omtrent 90 sekunder mister den noen ganger tråden, gjentar fragmenter eller hopper over korte fraser. Løsningen er bare å stoppe og starte opptaket i biter.

Disse begrensningene betyr noe når du er i gang. Ingen av dem er dealbreakers hvis du vet at de finnes. Hvis du står og skal velge, går vår guide til de beste tale-til-tekst-appene for Mac gjennom hvordan de største appene håndterer disse avveiningene.

Slik kommer du i gang med AI-talegjenkjenning på Macen i dag

Tre praktiske steg, i rekkefølge.

1. Plukk én oppgave du dikterer hver dag i en uke. E-post er en god start, den har den høyeste skriving-til-tale-konverteringen (du pleier å tenke før du skriver uansett). Ikke prøv å diktere alt på én gang. Da gir du opp.

2. Bli komfortabel med å snakke til ingen. De første gangene du dikterer, kommer du til å føle deg rar når du snakker høyt i et stille rom. Det går over på rundt fire dager.

3. Velg en app og hold deg til den. Det finnes gode alternativer i hele prisspekteret, fra Apples innebygde diktering til åpne Whisper-verktøy til apper med full pipeline. Vil du ha den polerte transkriber-og-lim-flyten beskrevet over, gjør Voicr akkurat det. Hold inne FN, snakk, lim inn. Whisper for transkripsjon, en sterk språkmodell for polering, og skrivestiler per app som tilpasser seg der markøren din er. Gratisversjonen gir deg 5 000 ord i måneden uten kredittkort.

Pipelinen bak alt dette er endelig god nok til at diktering ikke lenger er et kompromiss. Du bytter ikke kvalitet mot fart. Du får begge deler. Det vanskelige er bare å bestemme seg for å slutte å skrive.