Hvordan store språkmodeller gjør tale-til-tekst faktisk nyttig

Du prøvde sannsynligvis tale-til-tekst én gang, ga opp, og gikk tilbake til tastaturet. Det gjorde de fleste. Det merkelige er at det som regel ikke hadde noe med feil ord å gjøre.

Talegjenkjenning ble nøyaktig for flere år siden. Moderne modeller transkriberer ren tale med rundt 95 % nøyaktighet. Grunnen til at diktering likevel føltes ubrukelig, er at en nøyaktig transkripsjon av måten du faktisk snakker på, er et rot. Store språkmodeller er brikken som fikset det, og de endret hva tale-til-tekst er bra til.

Gjennom mesteparten av historien ble tale-til-tekst målt på én ting: traff den ordene riktig? Det viste seg å være feil spørsmål. Å treffe ordene riktig var aldri det som sto mellom deg og å skrive med stemmen. Her er hva som faktisk endret seg.

Tale-til-tekst var aldri et transkripsjonsproblem

I flere tiår jaktet hvert eneste talegjenkjenningsteam det samme tallet: ordfeilrate, eller WER. Det teller hvor mange ord systemet får feil. Lavere er bedre, og hele fagfeltet optimaliserte for det.

Og de vant stort sett. OpenAIs Whisper transkriberer ren lyd med rundt 2,7 % ordfeilrate. På rotete opptak fra virkeligheten, som et møte, en kafé eller en telefonsamtale, ligger den nærmere 8 til 12 %. Menneskelige transkribenter ligger på rundt 4 til 6 %. Gapet er lite og fortsatt minkende.

Så nøyaktigheten ble mer eller mindre løst. Men spør hvem som helst som ga opp diktering i 2018 om hvorfor de sluttet, og nesten ingen sier "for mange skrivefeil." De sier at det føltes klønete, eller at resultatet trengte så mye opprydding at det ikke var verdt bryet.

Det er det avslørende tegnet. Flaskehalsen var aldri transkripsjonen. Det var alt som skjer etter at ordene allerede er riktige.

Hvordan en rå transkripsjon av talen din ser ut

Her er det ingen advarer deg om: du snakker ikke i rene setninger. Ingen gjør det.

Når du snakker naturlig, går du tilbake, begynner på nytt, stopper opp, og slenger inn "eh" og "liksom" og "du vet." Hjernen din redigerer alt dette i farten uten at du merker det. En transkripsjonsmotor merker alt og skriver ned hver minste bit.

Si at du dikterer en kjapp melding til en kollega. Ut av en ren transkribent kommer den tilbake seende slik ut:

*"okei så eh jeg ville bare høre om den den greia fra i går, rapporten, kan du eh sende den over når du får et sekund, ingen hast eller noe"*

Hvert ord er riktig. Den er også ubrukelig. Du ville brukt mer tid på å rette opp i det enn du sparte på å si det. Dette er akkurat øyeblikket der de fleste ga opp diktering for godt.

Side-om-side-sammenligning av en rotete rå taletranskripsjon full av fyllord til venstre og en ren, polert melding til høyre

Hva store språkmodeller faktisk tilfører

En transkribent svarer på ett spørsmål: hvilke lyder laget denne personen? En språkmodell svarer på et annet: hva mente denne personen, og hvordan bør det leses?

Det andre spørsmålet er hele poenget. En språkmodell tar den rotete transkripsjonen og skriver den om slik en omhyggelig redaktør ville gjort. Den fjerner fyllordene, fullfører de halve setningene dine, retter grammatikken, og beholder meningen din intakt. Meldingen over blir til:

*"Hei, kan du sende over gårsdagens rapport når du får tid? Ingen hast."*

Samme hensikt, lesbar på første gjennomlesning. Transkripsjonen ble ikke noe bedre her. Det som endret seg er det andre laget som ligger oppå, og som gjør redigeringen du ellers ville gjort selv.

Dette er mer enn et produktknep. Forskere studerer det direkte. En artikkel fra 2024 fra ACM CHI-konferansen, kalt Rambler, fant at det å la folk snakke løst og bruke en språkmodell til å forme om "essensen" ga bedre tekst med mindre innsats enn både skriving og rå diktering. Å snakke er måten vi tenker høyt på. Modellen tar seg av delen hjernen vår vanligvis hopper over.

Annet arbeid peker i samme retning. Studier av språkmodellbasert transkripsjonsforbedring viser at å kjøre tale gjennom en språkmodell etter gjenkjenning reduserer feil og forbedrer lesbarheten, særlig for homofoner og kontekstavhengige fraser som en enkel transkribent ikke klarer å skille på egen hånd.

Kontekst er den andre halvdelen

Å rydde opp i en transkripsjon er den første jobben. Å vite hva slags tekst du ville ha, er den andre, og det er der ting blir interessant.

"Send meg presentasjonen innen dagens slutt" fungerer for en Slack-melding til en kollega. Det er for direkte for en e-post til en kunde. Ordene er greie nok; tonen er feil. En språkmodell kan lese situasjonen og justere tonen, fordi den forstår kontekst, ikke bare lyd.

I praksis kan den samme talte setningen bli uformell i én app og polert i en annen. Du endrer ikke måten du snakker på. Modellen endrer måten den skriver på, basert på hvor teksten skal.

Dette er nøyaktig det Voicrs Smart Rules gjør. Du setter en avslappet tone for Slack og en formell en for e-post én gang, og Voicr merker hvilken app du er i og bruker riktig stil automatisk. Hold FN, si det du skal, og versjonen som havner på utklippstavlen passer allerede til der du er i ferd med å lime inn.

Den virkelige endringen: du slutter å snakke til en datamaskin

Gammeldags diktering tvang deg til å prestere. Du måtte snakke i ferdige setninger, si "komma" og "nytt avsnitt" høyt, og legge fra deg dine vanlige talevaner. Du gjorde redigeringen i hodet, i sanntid, mens du snakket. Det var utmattende, og det er derfor det aldri festet seg.

Språkmodellbasert tale-til-tekst tar den jobben av skuldrene dine. Du kan ramle av gårde. Du kan ombestemme deg midt i en setning. Du kan snakke slik du ville forklart noe til en venn, og den rene versjonen dukker opp likevel.

Det høres ut som en liten ting. Det er hele forskjellen mellom å betjene et verktøy og bare å tenke høyt.

Farten er reell også. De fleste snakker rundt 150 ord i minuttet og skriver rundt 40. En Stanford-studie fant at taleinntasting på en telefon var tre ganger raskere enn skriving, med færre feil. Men fart sluttet å være hovedargumentet da resultatet ble bra. Det virkelige argumentet er at du ikke lenger mister tankerekken til tastaturet. Vi gravde i den matematikken i hvorfor stemmen din er raskere enn tastaturet.

Der språkmodeller fortsatt får tale-til-tekst feil

Dette er genuint bedre, ikke magi. Den samme intelligensen som rydder opp i teksten din, kan også overskride grensene, og det er verdt å vite hvor.

Den kan endre meningen din. Når en modell "retter" en setning, glatter den noen ganger bort en detalj du ville ha med, eller gjetter feil om hva du mente. Jo mer teknisk eller uvanlig formuleringen din er, jo høyere er risikoen. Gi alt som er viktig en kjapp gjennomlesning før du sender det.

Navn og fagsjargong snubler den fortsatt på. Transkripsjon håndterer vanlige ord godt og sliter med egennavn, produktnavn og spesialiserte termer. En modell kan gjette ut fra kontekst, men den vil med full overbevisning få etternavnet til kollegaen din feil.

Homofoner er ikke fullt ut løst. "De", "dem" og "den" lander som regel riktig fordi konteksten hjelper, men ikke hver gang.

Den legger til et lite øyeblikk med forsinkelse. En ren transkribent er nesten umiddelbar. Å kjøre en ekstra modell for å polere koster alt fra en brøkdel av et sekund til et par sekunder. Verdt det for kvaliteten, men det er ikke gratis.

Ingen av disse er dealbreakers når du først vet at de finnes. De er grunnen til at en vane med å lese over før du sender fortsatt lønner seg. Vil du ha hele bildet av hvordan denne flyten kjører fra ende til ende, skrev vi en trinnvis guide til AI-talediktering på Mac.

Diagram som viser to stablede lag: et transkripsjonslag som gjør lyd om til ord, og et språklag som gjør ord om til ren tekst

Hva dette betyr for hvordan du skriver

Den mentale modellen verdt å holde fast ved, er at tale-til-tekst nå er to verktøy stablet sammen:

1. Et transkripsjonslag som gjør lyd om til nøyaktige ord. 2. Et språklag som gjør de ordene om til tekst som faktisk leses godt.

Ren transkripsjon er fortsatt det riktige valget når du trenger et eksakt referat. Intervjuer, juridiske notater, alt der hver eneste "eh" betyr noe. For alt annet, som e-poster, meldinger, dokumenter og notater, er det poleringslaget som gjør det å snakke raskere enn å skrive i stedet for bare rotete.

Så når du velger et verktøy, er det virkelige spørsmålet ikke "hvor nøyaktig er transkripsjonen." De fleste er nær nå. Spørsmålet er "hvor god er laget oppå." Vår sammenligning av de beste tale-til-tekst-appene for Mac bryter ned hvilke som gjør den delen godt.

Hvordan du prøver språkmodellpolert tale-til-tekst

Den raskeste måten å kjenne forskjellen på er å diktere din neste e-post i stedet for å skrive den, og så se på hva som dukker opp i utkastet. Det blir ikke den rå transkripsjonen du husker fra flere år tilbake. Det leses som om du skrev det på en god dag.

Vil du ha det uten å sy sammen verktøy, gjør Voicr begge lagene i ett steg. Hold FN, snakk akkurat som du vil, slipp, og polert tekst lander på utklippstavlen klar til å limes inn. Den bruker Whisper til transkripsjon og en språkmodell til oppryddingen, med stiler per app slik at tonen passer uansett hvor du skriver. Gratisnivået er 5 000 ord i måneden, uten kredittkort.

Tale-til-tekst fungerer endelig slik det alltid burde ha gjort. Ikke fordi maskinene ble bedre til å høre deg, men fordi de endelig ble gode til å forstå hva du mente.