Hogyan teszik az LLM-ek igazán hasznossá a beszéd-szöveg átalakítást

Valószínűleg egyszer kipróbáltad a beszéd-szöveg átalakítást, feladtad, és visszatértél a billentyűzethez. A legtöbben így voltak ezzel. A furcsa az egészben az, hogy ennek általában semmi köze nem volt ahhoz, hogy a szavak rosszul jöttek ki.

A beszédfelismerés már évekkel ezelőtt pontos lett. A modern modellek tiszta beszédet körülbelül 95%-os pontossággal írnak le. A diktálás azért érződött mégis használhatatlannak, mert a beszélt nyelved pontos leirata egyszerűen káosz. A nagy nyelvi modellek azok, amelyek ezt megoldották, és átalakították, hogy mire is jó valójában a beszéd-szöveg átalakítás.

Történetének nagy részében a beszéd-szöveg átalakítást egyetlen dolog alapján ítélték meg: jól ismerte-e fel a szavakat? Kiderült, hogy ez rossz kérdés volt. Sosem a szavak helyes felismerése állt közéd és a hangoddal való írás közé. Íme, mi változott meg valójában.

A beszéd-szöveg átalakítás sosem volt átírási probléma

Évtizedeken át minden beszédfelismeréssel foglalkozó csapat ugyanazt a számot hajszolta: a szóhibaarányt, vagyis a WER-t. Ez azt számolja, hány szót ismer fel rosszul a rendszer. Az alacsonyabb a jobb, és az egész terület erre optimalizált.

Nagyrészt sikerrel jártak. Az OpenAI Whisper modellje tiszta hangot nagyjából 2,7%-os szóhibaaránnyal ír le. Zajosabb, valós felvételeken, mint egy megbeszélés, egy kávézó vagy egy telefonhívás, ez inkább 8-12% körül mozog. Az emberi gépírók 4-6% környékén vannak. A különbség kicsi, és tovább zsugorodik.

A pontosság tehát többé-kevésbé megoldódott. De kérdezz meg bárkit, aki 2018-ban hagyott fel a diktálással, hogy miért állt le, és szinte senki nem mondja, hogy „túl sok az elgépelés”. Azt mondják, hogy körülményes volt, vagy hogy a kimenet annyi utómunkát igényelt, hogy nem érte meg a fáradságot.

Ez az árulkodó jel. A szűk keresztmetszet sosem az átírás volt. Hanem mindaz, ami azután történik, hogy a szavak már helyesek.

Hogyan néz ki a beszéded nyers leirata

Erről senki nem szól előre: nem beszélsz tiszta mondatokban. Senki sem.

Amikor természetesen beszélsz, visszalépsz, újrakezded, elcsendesedsz, és közbeszúrsz egy-egy „izé”-t, „mármint”-ot meg „tudod”-ot. Az agyad menet közben mindezt megszerkeszti, és észre sem veszed. Egy átírómotor viszont mindent észrevesz, és le is jegyzi az egészet.

Tegyük fel, hogy gyorsan lediktálsz egy üzenetet egy munkatársadnak. Egy tiszta átíróból ez így jön vissza:

*„oké, szóval izé rá akartam kérdezni a a tegnapi dologra, a jelentésre, át tudnád küldeni, ha lesz egy perced, semmi sietség vagy ilyesmi”*

Minden szó helyes. És mégis használhatatlan. Több időt töltenél a kijavításával, mint amennyit a kimondásával nyertél. Pontosan ez az a pillanat, amikor a legtöbben végleg feladták a diktálást.

Egymás melletti összehasonlítás: bal oldalon egy töltelékszavakkal teli, zilált nyers hangleirat, jobb oldalon egy tiszta, csiszolt üzenet

Mit adnak hozzá valójában a nagy nyelvi modellek

Egy átíró egyetlen kérdésre felel: milyen hangokat adott ki ez az ember? Egy nyelvi modell egy másikra: mit akart mondani ez az ember, és hogyan kellene olvasódnia?

Ez a második kérdés a lényeg. Egy LLM fogja a zilált leiratot, és úgy írja át, ahogy egy gondos szerkesztő tenné. Kiveszi a tölteléket, befejezi a félbehagyott mondataidat, kijavítja a nyelvtant, és közben megőrzi a mondanivalódat. A fenti üzenetből ez lesz:

*„Szia, át tudnád küldeni a tegnapi jelentést, ha lesz egy perced? Semmi sietség.”*

Ugyanaz a szándék, egy olvasásra érthető. Az átírás itt semmit nem javult. Az változott meg, hogy egy második réteg ül rá, és elvégzi a szerkesztést, amit egyébként te magad csinálnál.

Ez több, mint egy terméktrükk. A kutatók közvetlenül is vizsgálják. Az ACM CHI konferencia egy 2024-es, Rambler című tanulmánya azt találta, hogy ha hagyjuk az embereket lazán beszélni, és egy LLM-mel formáljuk át a „lényeget”, az jobb szöveget eredményez, kevesebb erőfeszítéssel, mint a gépelés vagy a nyers diktálás. A beszéd az, ahogyan hangosan gondolkodunk. A modell intézi azt a részt, amit az agyunk általában átugrik.

Más kutatások ugyanebbe az irányba mutatnak. Az LLM-alapú leirat-finomításról szóló vizsgálatok azt mutatják, hogy ha a beszédet a felismerés után egy nyelvi modellen futtatjuk át, az csökkenti a hibákat és javítja az olvashatóságot, különösen a homonimák és a környezetfüggő kifejezések esetében, amelyeket egy egyszerű átíró önmagában nem tud kibogozni.

A kontextus a másik fele

A leirat megtisztítása az első feladat. Annak ismerete, hogy milyen szöveget is akartál, a második, és itt válik igazán érdekessé a dolog.

A „Küldd át a prezit a nap végéig” jól működik egy Slack-üzenetben egy csapattársnak. Egy ügyfélnek küldött e-mailhez viszont túl nyers. A szavakkal nincs baj; a stílus a hibás. Egy nyelvi modell képes elolvasni a helyzetet, és igazítani a hangnemen, mert érti a kontextust, nem csak a hangot.

A gyakorlatban ugyanaz a kimondott mondat az egyik appban kötetlenül, a másikban csiszoltan jöhet ki. Nem változtatsz azon, ahogy beszélsz. A modell változtat azon, ahogy ír, attól függően, hová tart a szöveg.

Pontosan ezt csinálják a Voicr Smart Rules funkciói. Egyszer beállítasz egy laza hangnemet a Slackhez és egy hivatalosat az e-mailhez, a Voicr pedig észreveszi, melyik appban vagy, és automatikusan a megfelelő stílust alkalmazza. Tartsd lenyomva az FN-t, mondd ki, amit akarsz, és a vágólapodra kerülő változat már illik oda, ahová be akarod illeszteni.

Az igazi váltás: már nem egy géphez beszélsz

A régi diktálás teljesítményt várt el tőled. Kész mondatokban kellett beszélned, hangosan kimondani, hogy „vessző” és „új bekezdés”, és levetkőzni a természetes beszédszokásaidat. A szerkesztést a fejedben végezted, valós időben, beszéd közben. Kimerítő volt, ezért nem is ragadt meg sosem.

Az LLM-alapú beszéd-szöveg átalakítás leveszi ezt a feladatot a válladról. Csaponghatsz. Meggondolhatod magad egy mondat közepén. Beszélhetsz úgy, ahogy egy barátodnak magyaráznál el valamit, és a tiszta változat mégis megjelenik.

Ez apróságnak hangzik. Pedig ez a teljes különbség aközött, hogy egy eszközt működtetsz, vagy egyszerűen csak hangosan gondolkodsz.

A sebesség is valós. A legtöbb ember percenként körülbelül 150 szót beszél és 40-et gépel. Egy Stanford-tanulmány azt találta, hogy a beszéddel való szövegbevitel telefonon háromszor gyorsabb a gépelésnél, kevesebb hibával. De a sebesség megszűnt a fő vonzerő lenni, amint a kimenet jóvá vált. Az igazi vonzerő az, hogy többé nem veszíted el a gondolatmenetedet a billentyűzeted miatt. Ezt a matekot a miért gyorsabb a hangod a billentyűzetednél cikkben jártuk körbe.

Ahol az LLM-ek még mindig elrontják a beszéd-szöveg átalakítást

Ez valóban jobb, de nem varázslat. Ugyanaz az intelligencia, amely megtisztítja a szövegedet, túl is léphet a hatáskörén, és érdemes tudni, hol.

Megváltoztathatja a mondanivalódat. Amikor egy modell „kijavít” egy mondatot, néha elsimít egy részletet, amit te akartál, vagy rosszul találja ki a szándékodat. Minél technikaibb vagy szokatlanabb a fogalmazásod, annál nagyobb a kockázat. Bármit, ami fontos, olvasd át gyorsan, mielőtt elküldöd.

A nevek és a szakzsargon még mindig megakasztják. Az átírás jól kezeli a gyakori szavakat, de megküzd a tulajdonnevekkel, terméknevekkel és szakkifejezésekkel. Egy modell kitalálhatja a kontextusból, de magabiztosan fogja rosszul leírni a kollégád vezetéknevét.

A homonimák sincsenek teljesen megoldva. A „fél” mint félelem és a „fél” mint félóra általában jól landol, mert a kontextus segít, de nem mindig.

Egy kis késleltetést ad hozzá. Egy tiszta átíró szinte azonnali. Egy második modell futtatása a csiszoláshoz a másodperc töredékétől akár pár másodpercig is eltarthat. A minőségért megéri, de nincs ingyen.

Ezek egyike sem kizáró ok, ha tudsz a létezésükről. Pont ezért éri meg fenntartani azt a szokást, hogy küldés előtt gyorsan átolvasod a szöveget. Ha szeretnéd a teljes képet arról, hogyan fut végig ez a folyamat, írtunk egy lépésről lépésre útmutatót az AI-alapú hangdiktáláshoz Macen.

Ábra két egymásra helyezett réteggel: egy átírási réteg, amely a hangot szavakká alakítja, és egy nyelvi réteg, amely a szavakat tiszta szöveggé

Mit jelent ez arra nézve, ahogyan írsz

A megjegyzendő gondolati modell az, hogy a beszéd-szöveg átalakítás mostantól két, egymásra épülő eszköz:

1. Egy átírási réteg, amely a hangot pontos szavakká alakítja. 2. Egy nyelvi réteg, amely ezeket a szavakat olyan szöveggé alakítja, amely valóban jól olvasható.

A tiszta átírás továbbra is a helyes választás, amikor pontos jegyzőkönyvre van szükséged. Interjúk, jogi feljegyzések, bármi, ahol minden „izé” számít. Minden másnál, mint az e-mailek, üzenetek, dokumentumok és jegyzetek, a csiszoló réteg az, ami a beszédet gyorsabbá teszi a gépelésnél ahelyett, hogy csak ziláltabbá tenné.

Szóval amikor eszközt választasz, az igazi kérdés nem az, hogy „mennyire pontos az átírás”. A legtöbb már közel jár. A kérdés az, hogy „mennyire jó a felette lévő réteg”. A legjobb beszéd-szöveg appok Macre című összehasonlításunk lebontja, melyek csinálják jól ezt a részt.

Hogyan próbáld ki az LLM-mel csiszolt beszéd-szöveg átalakítást

A különbséget úgy érzed meg a leggyorsabban, ha a következő e-mailedet begépelés helyett lediktálod, majd megnézed, mi jelenik meg a piszkozatban. Nem az a nyers leirat lesz, amire évekkel ezelőttről emlékszel. Úgy fog olvasódni, mintha egy jó napodon írtad volna.

Ha mindezt anélkül szeretnéd, hogy eszközöket kellene összefűznöd, a Voicr egyetlen lépésben elvégzi mindkét réteget. Tartsd lenyomva az FN-t, beszélj úgy, ahogy akarsz, engedd el, és csiszolt szöveg kerül a vágólapodra, készen a beillesztésre. Az átíráshoz a Whisper modellt használja, a tisztításhoz pedig egy nyelvi modellt, appokra szabott stílusokkal, hogy a hangnem mindenhova illjen, ahol épp írsz. Az ingyenes csomag havi 5000 szó, bankkártya nélkül.

A beszéd-szöveg átalakítás végre úgy működik, ahogyan mindig is kellett volna. Nem azért, mert a gépek jobban hallanak téged, hanem mert végre jók lettek abban, hogy megértsék, mire is gondoltál.