Miten LLM:t tekevät puheesta tekstiksi -muunnoksesta oikeasti hyödyllisen

Todennäköisesti kokeilit puheesta tekstiksi -muunnosta kerran, luovutit ja palasit näppäimistön ääreen. Useimmat tekivät niin. Outoa on se, että vika ei yleensä ollut lainkaan siinä, että sanat tulivat väärin.

Puheentunnistus muuttui tarkaksi jo vuosia sitten. Nykyiset mallit litteroivat selkeää puhetta noin 95 %:n tarkkuudella. Syy siihen, miksi sanelu tuntui silti turhalta, on se, että tarkka litteraatio siitä, miten todella puhut, on kaaosta. Suuret kielimallit ovat se palanen, joka korjasi tämän, ja ne muuttivat sen, mihin puheesta tekstiksi sopii.

Suurimman osan historiastaan puheesta tekstiksi -muunnosta arvioitiin yhdellä mittarilla: tuliko sanat oikein? Se osoittautui vääräksi kysymykseksi. Sanojen oikein saaminen ei koskaan ollut se, mikä erotti sinut äänelläsi kirjoittamisesta. Tässä se, mikä oikeasti muuttui.

Puheesta tekstiksi ei koskaan ollut litterointiongelma

Vuosikymmenten ajan jokainen puheentunnistustiimi jahtasi samaa lukua: sanavirhetasoa eli WER:iä (word error rate). Se laskee, kuinka monta sanaa järjestelmä saa väärin. Pienempi on parempi, ja koko ala optimoitiin sen mukaan.

He voittivat enimmäkseen. OpenAI:n Whisper litteroi selkeää ääntä noin 2,7 %:n sanavirhetasolla. Sotkuisemmissa tosielämän tallenteissa, kuten kokouksessa, kahvilassa tai puhelussa, se liikkuu lähempänä 8–12 %:a. Ihmislitteroijat ovat noin 4–6 %:n tasolla. Ero on pieni ja yhä kapenee.

Eli tarkkuus tuli ratkaistuksi, enemmän tai vähemmän. Mutta kysy keneltä tahansa, joka lopetti sanelun vuonna 2018, miksi hän lopetti, eikä juuri kukaan sano "liikaa kirjoitusvirheitä". He sanovat, että se tuntui kömpelöltä tai että lopputulos vaati niin paljon siivousta, ettei se ollut vaivan arvoista.

Se on paljastava merkki. Pullonkaula ei koskaan ollut litterointi. Se oli kaikki se, mitä tapahtuu sen jälkeen, kun sanat ovat jo oikein.

Miltä raaka litteraatio puheestasi näyttää

Tästä kukaan ei varoita: et puhu siisteillä lauseilla. Kukaan ei puhu.

Kun puhut luonnollisesti, perääntyt, aloitat alusta, vaikenet kesken ja heität väliin "öö" ja "niinku" ja "tota". Aivosi muokkaavat kaiken tämän lennossa etkä huomaa sitä koskaan. Litterointimoottori huomaa kaiken ja kirjoittaa joka ikisen palasen ylös.

Sanotaan, että sanelet nopean viestin työkaverille. Puhtaasta litteroijasta se palaa näyttäen tältä:

*"okei niin öö mä halusin tsekata sen sen eilisen jutun tota raportin voitsä lähettää sen mulle kun ehdit ei mitään kiirettä tai mitään"*

Jokainen sana on oikein. Se on myös käyttökelvoton. Käyttäisit enemmän aikaa sen korjaamiseen kuin säästit puhumalla sen. Juuri tässä hetkessä useimmat luovuttivat sanelun suhteen lopullisesti.

Vierekkäinen vertailu, jossa vasemmalla on sotkuinen raaka puhelitteraatio täynnä täytesanoja ja oikealla siisti, viimeistelty viesti

Mitä suuret kielimallit oikeasti tuovat mukanaan

Litteroija vastaa yhteen kysymykseen: mitä äänteitä tämä ihminen tuotti? Kielimalli vastaa toiseen: mitä tämä ihminen tarkoitti, ja miltä sen pitäisi lukeutua?

Tuo toinen kysymys on koko juju. LLM ottaa sotkuisen litteraation ja kirjoittaa sen uudelleen niin kuin huolellinen toimittaja tekisi. Se pudottaa täytesanat, viimeistelee keskeneräiset lauseesi, korjaa kieliopin ja säilyttää merkityksesi ennallaan. Yllä olevasta viestistä tulee:

*"Hei, voisitko lähettää eilisen raportin, kun ehdit? Ei kiirettä."*

Sama tarkoitus, luettavissa yhdellä silmäyksellä. Litterointi ei tässä parantunut yhtään. Muuttunut osa on toinen kerros sen päällä, joka tekee sen muokkauksen, jonka muuten tekisit itse.

Tämä on enemmän kuin tuotetemppu. Tutkijat tutkivat sitä suoraan. ACM CHI -konferenssin vuoden 2024 artikkeli nimeltä Rambler totesi, että ihmisten antaminen puhua vapaasti ja LLM:n käyttäminen "ytimen" uudelleenmuotoiluun tuotti parempaa tekstiä pienemmällä vaivalla kuin kirjoittaminen tai raaka sanelu. Puhuminen on tapamme ajatella ääneen. Malli hoitaa sen osan, jonka aivomme yleensä ohittavat.

Muu tutkimus osoittaa samaan suuntaan. Tutkimukset LLM-pohjaisesta litteraation hiomisesta osoittavat, että puheen ajaminen kielimallin läpi tunnistuksen jälkeen vähentää virheitä ja parantaa luettavuutta, etenkin homonyymien ja kontekstiriippuvaisten ilmausten osalta, joita pelkkä litteroija ei pysty selvittämään yksinään.

Konteksti on se toinen puolisko

Litteraation siivoaminen on ensimmäinen tehtävä. Sen tietäminen, millaista tekstiä halusit, on toinen, ja siinä asiat muuttuvat kiinnostaviksi.

"Lähetä mulle diat työpäivän loppuun mennessä" toimii Slack-viestissä tiimikaverille. Se on liian tylyä asiakassähköpostiin. Sanat ovat kunnossa; sävy on pielessä. Kielimalli osaa lukea tilanteen ja säätää sävyä, koska se ymmärtää kontekstia, ei pelkkää ääntä.

Käytännössä sama puhuttu lause voi tulla ulos rentona yhdessä sovelluksessa ja viimeisteltynä toisessa. Et muuta sitä, miten puhut. Malli muuttaa sitä, miten se kirjoittaa, sen mukaan, minne teksti on menossa.

Juuri tätä Voicrin Smart Rules tekee. Asetat rennon sävyn Slackille ja muodollisen sähköpostille kerran, ja Voicr huomaa, missä sovelluksessa olet, ja soveltaa oikeaa tyyliä automaattisesti. Pidä FN pohjassa, sano asiasi, ja se versio, joka laskeutuu leikepöydällesi, sopii jo sinne, mihin olet liittämässä sitä.

Todellinen muutos: lakkaat puhumasta tietokoneelle

Vanha sanelu pakotti sinut esiintymään. Sinun piti puhua valmiilla lauseilla, sanoa "pilkku" ja "uusi kappale" ääneen ja hylätä normaalit puhetapasi. Teit muokkauksen päässäsi, reaaliajassa, samalla kun puhuit. Se oli uuvuttavaa, minkä takia se ei koskaan jäänyt käyttöön.

LLM-pohjainen puheesta tekstiksi ottaa sen työn pois harteiltasi. Saat rönsyillä. Saat muuttaa mielesi kesken lauseen. Saat puhua niin kuin selittäisit jotain ystävälle, ja siisti versio ilmestyy silti.

Se kuulostaa pieneltä asialta. Se on koko ero työkalun käyttämisen ja pelkän ääneen ajattelemisen välillä.

Myös nopeus on todellista. Useimmat ihmiset puhuvat noin 150 sanaa minuutissa ja kirjoittavat noin 40. Stanfordin tutkimus havaitsi, että puheen syöttäminen puhelimella oli kolme kertaa nopeampaa kuin kirjoittaminen, ja virheitä oli vähemmän. Mutta nopeus lakkasi olemasta pääasiallinen vetonaula, kun lopputulos muuttui hyväksi. Todellinen vetonaula on se, ettet enää menetä ajatustasi näppäimistöllesi. Pureuduimme tähän matematiikkaan jutussa miksi äänesi on nopeampi kuin näppäimistösi.

Missä LLM:t yhä mokaavat puheesta tekstiksi -muunnoksen

Tämä on aidosti parempaa, ei taikuutta. Sama älykkyys, joka siivoaa tekstisi, voi myös mennä liian pitkälle, ja on hyvä tietää missä.

Se voi muuttaa merkitystäsi. Kun malli "korjaa" lauseen, se joskus silottaa pois yksityiskohdan, jonka halusit, tai arvaa väärin aikomuksesi. Mitä teknisempää tai epätavallisempaa sanamuotosi on, sitä suurempi riski. Lue mikä tahansa tärkeä asia nopeasti läpi ennen kuin lähetät sen.

Nimet ja ammattikieli kompastuttavat sitä yhä. Litterointi käsittelee yleisiä sanoja hyvin ja kamppailee erisnimien, tuotenimien ja erikoistermien kanssa. Malli voi arvata kontekstista, mutta se saa itsevarmasti kollegasi sukunimen väärin.

Homonyymejä ei ole täysin ratkaistu. "Kuusi" puuna ja lukuna osuvat yleensä oikein, koska konteksti auttaa, mutta ei joka kerta.

Se lisää hitusen viivettä. Pelkkä litteroija on lähes välitön. Toisen mallin ajaminen hiomista varten maksaa sekunnin murto-osasta pariin sekuntiin. Laadun arvoista, mutta se ei ole ilmaista.

Mikään näistä ei ole esteenä, kun tiedät, että ne ovat olemassa. Ne ovat syy siihen, miksi nopea lue-ennen-lähetystä-tapa kannattaa yhä. Jos haluat täyden kuvan siitä, miten tämä putki toimii alusta loppuun, kirjoitimme vaihe vaiheelta -oppaan AI-äänisaneluun Macilla.

Kaavio, jossa on kaksi päällekkäistä kerrosta: litterointikerros, joka muuttaa äänen sanoiksi, ja kielikerros, joka muuttaa sanat siistiksi tekstiksi

Mitä tämä tarkoittaa kirjoittamisesi kannalta

Hyvä mielikuva pitää mielessä on se, että puheesta tekstiksi on nyt kaksi työkalua pinottuna yhteen:

1. Litterointikerros, joka muuttaa äänen tarkoiksi sanoiksi. 2. Kielikerros, joka muuttaa nuo sanat tekstiksi, joka oikeasti lukeutuu hyvin.

Pelkkä litterointi on yhä oikea valinta, kun tarvitset tarkan tallenteen. Haastattelut, juridiset muistiinpanot, mikä tahansa, jossa jokainen "öö" merkitsee. Kaikessa muussa, kuten sähköposteissa, viesteissä, dokumenteissa ja muistiinpanoissa, hiomiskerros on se, mikä tekee puhumisesta nopeampaa kuin kirjoittamisesta sen sijaan, että se olisi vain sotkuisempaa.

Joten kun valitset työkalua, todellinen kysymys ei ole "kuinka tarkka litterointi on". Useimmat ovat nykyään lähellä. Kysymys on "kuinka hyvä päällä oleva kerros on". Vertailumme parhaista puheesta tekstiksi -sovelluksista Macille erittelee, mitkä niistä tekevät sen osan hyvin.

Miten kokeilla LLM:llä hiottua puheesta tekstiksi -muunnosta

Nopein tapa tuntea ero on sanella seuraava sähköpostisi kirjoittamisen sijaan ja katsoa sitten, mitä luonnokseen ilmestyy. Se ei ole se raaka litteraatio, jonka muistat vuosien takaa. Se lukeutuu kuin olisit kirjoittanut sen hyvänä päivänä.

Jos haluat sen ilman työkalujen yhteen nitomista, Voicr tekee molemmat kerrokset yhdellä askeleella. Pidä FN pohjassa, puhu miten haluat, vapauta, ja hiottu teksti laskeutuu leikepöydällesi valmiina liitettäväksi. Se käyttää Whisperiä litterointiin ja kielimallia siivoamiseen, sovelluskohtaisilla tyyleillä, jotta sävy sopii sinne, missä kirjoitat. Ilmaistaso on 5 000 sanaa kuukaudessa, ilman luottokorttia.

Puheesta tekstiksi toimii vihdoin niin kuin sen olisi aina pitänyt. Ei siksi, että koneet kuulisivat sinua paremmin, vaan siksi, että ne vihdoin oppivat ymmärtämään, mitä tarkoitit.