Sådan gør LLM'er tale-til-tekst rigtig brugbart

Du prøvede sikkert tale-til-tekst én gang, gav op og vendte tilbage til tastaturet. Det gjorde de fleste. Det mærkelige er, at det som regel slet ikke handlede om, at ordene kom forkert ud.

Talegenkendelse blev præcis for flere år siden. Moderne modeller transskriberer ren tale med omkring 95 % nøjagtighed. Grunden til, at diktering stadig føltes ubrugelig, er, at en nøjagtig transskription af, hvordan du faktisk taler, er et rod. Store sprogmodeller er det stykke, der ordnede netop det, og de ændrede, hvad tale-til-tekst egentlig er godt til.

I det meste af sin historie blev tale-til-tekst bedømt på én ting: fik den ordene rigtigt? Det viste sig at være det forkerte spørgsmål. At få ordene rigtigt var aldrig det, der stod mellem dig og at skrive med stemmen. Her er, hvad der faktisk ændrede sig.

Tale-til-tekst var aldrig et transskriptionsproblem

I årtier jagtede alle talegenkendelseshold det samme tal: word error rate, eller WER. Det tæller, hvor mange ord systemet får forkert. Lavere er bedre, og hele feltet optimerede efter det.

Og det lykkedes stort set. OpenAI's Whisper transskriberer ren lyd med omkring 2,7 % word error rate. På mere rodede optagelser fra den virkelige verden, som et møde, en café eller et telefonopkald, ligger den nærmere 8 til 12 %. Menneskelige transskribenter ligger omkring 4 til 6 %. Forskellen er lille og bliver stadig mindre.

Så nøjagtigheden blev mere eller mindre løst. Men spørg hvem som helst, der droppede diktering i 2018, om hvorfor de holdt op, og næsten ingen siger "for mange slåfejl." De siger, at det føltes klodset, eller at resultatet krævede så meget oprydning, at det ikke var besværet værd.

Det er afsløringen. Flaskehalsen var aldrig transskriptionen. Det var alt det, der sker, efter ordene allerede er korrekte.

Sådan ser en rå transskription af din tale ud

Her er, hvad ingen advarer dig om: du taler ikke i rene sætninger. Det gør ingen.

Når du taler naturligt, går du tilbage, starter forfra, ebber ud og kaster "øh" og "ligesom" og "ikke?" ind. Din hjerne redigerer alt det undervejs, uden at du opdager det. En transskriptionsmotor opdager alt og skriver hver eneste bid af det ned.

Lad os sige, du dikterer en hurtig besked til en kollega. Fra en ren transskribent kommer den tilbage og ser sådan ud:

*"okay så øh jeg ville lige høre om det der det der fra i går, rapporten, kan du øh sende den over når du får et øjeblik, ingen hast eller noget"*

Hvert ord er korrekt. Det er også ubrugeligt. Du ville bruge mere tid på at rette det, end du sparede ved at sige det. Det er præcis det øjeblik, hvor de fleste opgav diktering for altid.

Sammenligning side om side af en rodet rå taletransskription fyldt med fyldord til venstre og en ren, poleret besked til højre

Hvad store sprogmodeller faktisk tilføjer

En transskribent svarer på ét spørgsmål: hvilke lyde lavede denne person? En sprogmodel svarer på et andet: hvad mente denne person, og hvordan bør det læses?

Det andet spørgsmål er hele pointen. En LLM tager den rodede transskription og omskriver den, som en omhyggelig redaktør ville gøre. Den fjerner fyldordene, færdiggør dine halve sætninger, retter grammatikken og bevarer din mening. Beskeden ovenfor bliver til:

*"Hej, kan du sende gårsdagens rapport over, når du får et øjeblik? Der er ingen hast."*

Samme hensigt, læsbar i ét gennemløb. Transskriptionen blev ikke bedre her. Det, der ændrede sig, er det andet lag, der ligger ovenpå og laver den redigering, du ellers selv ville stå for.

Det er mere end et produkttrick. Forskere studerer det direkte. Et paper fra 2024 fra ACM CHI-konferencen kaldet Rambler fandt, at det at lade folk tale løst og bruge en LLM til at omforme "essensen" gav bedre tekst med mindre indsats end at skrive eller ren diktering. Tale er måden, vi tænker højt på. Modellen håndterer den del, vores hjerner normalt springer over.

Andet arbejde peger i samme retning. Studier af LLM-baseret forfining af transskriptioner viser, at det at køre tale gennem en sprogmodel efter genkendelsen reducerer fejl og forbedrer læsbarheden, især for homofoner og kontekstafhængige formuleringer, som en almindelig transskribent ikke kan finde ud af på egen hånd.

Konteksten er den anden halvdel

At rydde op i en transskription er den første opgave. At vide, hvilken slags tekst du ville have, er den anden, og det er her, det bliver interessant.

"Send mig oplægget inden fyraften" fungerer til en Slack-besked til en kollega. Det er for kontant til en kunde-mail. Ordene er fine; det er tonelejet, der er forkert. En sprogmodel kan læse situationen og justere tonen, fordi den forstår kontekst, ikke bare lyd.

I praksis kan den samme talte sætning komme afslappet ud i én app og poleret i en anden. Du ændrer ikke, hvordan du taler. Modellen ændrer, hvordan den skriver, alt efter hvor teksten er på vej hen.

Det er præcis det, Voicrs Smart Rules gør. Du indstiller én gang en afslappet tone til Slack og en formel til e-mail, og Voicr lægger mærke til, hvilken app du er i, og anvender den rigtige stil automatisk. Hold FN nede, sig tingen, og den version, der lander i din udklipsholder, passer allerede til, hvor du er på vej til at indsætte den.

Det egentlige skift: du holder op med at tale til en computer

Gammeldags diktering tvang dig til at optræde. Du skulle tale i færdige sætninger, sige "komma" og "nyt afsnit" højt og lægge dine normale talevaner fra dig. Du lavede redigeringen i hovedet, i realtid, mens du talte. Det var udmattende, og derfor hang det aldrig ved.

LLM-baseret tale-til-tekst tager den opgave af dine skuldre. Du kan ævle løs. Du kan skifte mening midt i en sætning. Du kan tale, som du ville forklare noget for en ven, og den rene version dukker op alligevel.

Det lyder som en lille ting. Det er hele forskellen mellem at betjene et værktøj og bare at tænke højt.

Hastigheden er også reel. De fleste taler omkring 150 ord i minuttet og skriver omkring 40. Et Stanford-studie fandt, at taleindtastning på en telefon var tre gange hurtigere end at skrive, med færre fejl. Men hastigheden holdt op med at være hovedattraktionen, så snart resultatet blev godt. Den egentlige attraktion er, at du ikke længere mister tråden til dit tastatur. Vi gravede i den regnestykke i hvorfor din stemme er hurtigere end dit tastatur.

Hvor LLM'er stadig får tale-til-tekst galt i halsen

Det her er ægte bedre, ikke magi. Den samme intelligens, der rydder op i din tekst, kan også gå for vidt, og det er værd at vide hvor.

Den kan ændre din mening. Når en model "retter" en sætning, glatter den nogle gange en detalje væk, som du ville have med, eller gætter forkert på din hensigt. Jo mere teknisk eller usædvanlig din formulering er, desto større er risikoen. Læs altid noget vigtigt hurtigt igennem, før du sender det.

Navne og fagudtryk driller stadig. Transskription klarer almindelige ord godt og kæmper med egennavne, produktnavne og specialiserede termer. En model kan gætte ud fra konteksten, men den vil med stor sikkerhed stave din kollegas efternavn forkert.

Homofoner er ikke fuldt løst. "Hælde" og "hilde" eller "ligge" og "lægge" lander som regel rigtigt, fordi konteksten hjælper, men ikke hver gang.

Den tilføjer et lille øjebliks forsinkelse. En ren transskribent er næsten øjeblikkelig. At køre en model nummer to for at polere koster alt fra en brøkdel af et sekund til et par sekunder. Det er kvaliteten værd, men det er ikke gratis.

Ingen af disse er dealbreakere, når du først ved, at de findes. De er grunden til, at en hurtig læs-før-du-sender-vane stadig betaler sig. Vil du have det fulde billede af, hvordan denne pipeline kører fra ende til anden, har vi skrevet en trin-for-trin-guide til AI-talediktering på Mac.

Diagram, der viser to lag stablet ovenpå hinanden: et transskriptionslag, der gør lyd til ord, og et sproglag, der gør ord til ren tekst

Hvad det betyder for, hvordan du skriver

Den mentale model, det er værd at holde fast i, er, at tale-til-tekst nu er to værktøjer stablet sammen:

1. Et transskriptionslag, der gør lyd til nøjagtige ord. 2. Et sproglag, der gør de ord til tekst, der faktisk læser godt.

Ren transskription er stadig det rigtige valg, når du har brug for et nøjagtigt referat. Interviews, juridiske noter, alt hvor hvert "øh" tæller. Til alt andet, som e-mails, beskeder, dokumenter og noter, er det poleringslaget, der gør det hurtigere at tale end at skrive i stedet for bare mere rodet.

Så når du vælger et værktøj, er det egentlige spørgsmål ikke "hvor nøjagtig er transskriptionen." De fleste ligger tæt nu. Spørgsmålet er "hvor godt er laget ovenpå." Vores sammenligning af de bedste tale-til-tekst-apps til Mac gennemgår, hvilke der gør den del godt.

Sådan prøver du LLM-poleret tale-til-tekst

Den hurtigste måde at mærke forskellen på er at diktere din næste e-mail i stedet for at skrive den og så se på, hvad der dukker op i kladden. Det bliver ikke den rå transskription, du husker fra dengang. Det vil læse, som om du skrev det på en god dag.

Vil du have det uden at sy værktøjer sammen, klarer Voicr begge lag i ét trin. Hold FN nede, tal lige som du vil, slip, og poleret tekst lander i din udklipsholder klar til at indsætte. Den bruger Whisper til transskription og en sprogmodel til oprydningen, med stilarter per app, så tonen passer, uanset hvor du skriver. Det gratis niveau er 5.000 ord om måneden, uden kreditkort.

Tale-til-tekst virker endelig, som det altid burde have gjort. Ikke fordi maskinerne blev bedre til at høre dig, men fordi de endelig blev gode til at forstå, hvad du mente.