Jak velké jazykové modely dělají z hlasu na text skutečně užitečný nástroj

Hlas na text jste nejspíš jednou vyzkoušeli, vzdali to a vrátili se ke klávesnici. Většina lidí to udělala. Zvláštní je, že to obvykle vůbec nesouviselo s tím, že by slova vycházela špatně.

Rozpoznávání řeči se stalo přesným už před lety. Moderní modely přepisují čistou řeč s přesností kolem 95 %. Důvod, proč diktování dál působilo zbytečně, je ten, že přesný přepis toho, jak doopravdy mluvíte, je nepořádek. Velké jazykové modely jsou ten dílek, který to spravil, a změnily, k čemu je hlas na text vlastně dobrý.

Po většinu své historie se hlas na text hodnotil podle jediné věci: trefil slova správně? Ukázalo se, že to byla špatná otázka. Trefit slova správně nikdy nebylo to, co stálo mezi vámi a psaním hlasem. Tady je, co se doopravdy změnilo.

Hlas na text nikdy nebyl problém přepisu

Po desetiletí honil každý tým pro rozpoznávání řeči stejné číslo: chybovost slov neboli WER. Počítá, kolik slov systém splete. Čím nižší, tím lepší, a celý obor se na to optimalizoval.

Z velké části zvítězili. Whisper od OpenAI přepisuje čisté audio s chybovostí slov zhruba 2,7 %. U neučesanějších nahrávek z reálného světa, jako je porada, kavárna nebo telefonát, se pohybuje blíž k 8 až 12 %. Lidští přepisovači se drží kolem 4 až 6 %. Rozdíl je malý a pořád se zmenšuje.

Přesnost se tedy víceméně vyřešila. Ale zeptejte se kohokoli, kdo s diktováním v roce 2018 skončil, proč přestal, a skoro nikdo neřekne „moc překlepů". Říkají, že to bylo neohrabané, nebo že výstup vyžadoval tolik úprav, že to nestálo za námahu.

A to je ten klíč. Úzké hrdlo nikdy nebyl přepis. Bylo to všechno, co se děje poté, co jsou slova už správně.

Jak vypadá surový přepis vaší řeči

Tady je něco, před čím vás nikdo nevaruje: nemluvíte v čistých větách. Nikdo nemluví.

Když mluvíte přirozeně, vracíte se zpátky, začínáte znovu, ztrácíte nit a vkládáte „ehm", „jako" a „víš co". Váš mozek to všechno upravuje za chodu a vy si toho nikdy nevšimnete. Přepisovací engine si všimne všeho a každý kousek si zapíše.

Řekněme, že nadiktujete rychlou zprávu kolegovi. Z čistého přepisovače se vrátí takhle:

*„dobře takže ehm chtěl jsem se zeptat na tu tu věc ze včerejška, tu zprávu, můžeš ji ee poslat až budeš mít chvilku, nikam nespěchám nebo tak"*

Každé slovo je správně. A přesto je to nepoužitelné. Strávili byste opravováním víc času, než kolik jste ušetřili tím, že jste to řekli. Přesně v tuhle chvíli většina lidí diktování nadobro vzdala.

Srovnání vedle sebe: vlevo nepřehledný surový hlasový přepis plný výplňových slov, vpravo čistá vyleštěná zpráva

Co velké jazykové modely doopravdy přidávají

Přepisovač odpovídá na jednu otázku: jaké zvuky tenhle člověk vydal? Jazykový model odpovídá na jinou: co tím tenhle člověk myslel a jak by to mělo znít?

Ta druhá otázka je celá podstata. Velký jazykový model vezme nepřehledný přepis a přepíše ho tak, jak by to udělal pečlivý editor. Zahodí výplňová slova, dokončí vaše rozpůlené věty, opraví gramatiku a zachová váš význam. Zpráva výše se promění v:

*„Ahoj, mohl bys mi poslat včerejší zprávu, až budeš mít chvilku? Nikam nespěchám."*

Stejný záměr, čitelné na první přečtení. Přepis se tady vůbec nezlepšil. Změnila se ta druhá vrstva, která sedí navrch a dělá úpravy, které byste jinak dělali sami.

Tohle je víc než jen produktový trik. Výzkumníci to zkoumají přímo. Studie z roku 2024 z konference ACM CHI nazvaná Rambler zjistila, že nechat lidi mluvit volně a použít velký jazykový model k přetvarování „podstaty" vedlo k lepšímu textu s menší námahou než psaní nebo surové diktování. Mluvení je způsob, jak přemýšlíme nahlas. Model se postará o tu část, kterou náš mozek obvykle přeskakuje.

Další práce míří stejným směrem. Studie o vylepšování přepisů pomocí velkých jazykových modelů ukazují, že prohnání řeči jazykovým modelem po rozpoznání snižuje chyby a zlepšuje čitelnost, zvlášť u homofonů a kontextově závislých frází, které prostý přepisovač sám nerozliší.

Kontext je ta druhá polovina

Vyčištění přepisu je první úkol. Vědět, jaký druh textu jste chtěli, je druhý, a tady to začíná být zajímavé.

„Pošli mi tu prezentaci do konce dne" funguje pro zprávu na Slacku kolegovi z týmu. Pro e-mail klientovi je to moc strohé. Slova jsou v pořádku; jen je špatně zvolený rejstřík. Jazykový model dokáže tu situaci přečíst a tón upravit, protože rozumí kontextu, ne jen zvuku.

V praxi může stejná vyslovená věta vyjít v jedné aplikaci neformálně a v jiné uhlazeně. Nemusíte měnit, jak mluvíte. Model mění, jak píše, podle toho, kam text směřuje.

Přesně tohle dělají Smart Rules ve Voicr. Jednou si nastavíte uvolněný tón pro Slack a formální pro e-mail, a Voicr pozná, v které aplikaci jste, a automaticky použije správný styl. Podržíte FN, řeknete to a verze, která vám přistane ve schránce, už sedí tam, kam ji za chvíli vložíte.

Skutečná změna: přestanete mluvit na počítač

Staré diktování vás nutilo předvádět výkon. Museli jste mluvit v dokončených větách, nahlas říkat „čárka" a „nový odstavec" a zbavit se svých běžných mluvních návyků. Úpravy jste dělali v hlavě, v reálném čase, zatímco jste mluvili. Bylo to vyčerpávající, a proto se to nikdy neujalo.

Hlas na text založený na velkých jazykových modelech vám tuhle práci sundá z beder. Můžete mluvit páté přes deváté. Můžete si to v půlce věty rozmyslet. Můžete mluvit tak, jak byste něco vysvětlovali kamarádovi, a čistá verze se stejně objeví.

Zní to jako maličkost. Je to celý rozdíl mezi obsluhováním nástroje a prostým přemýšlením nahlas.

Rychlost je taky reálná. Většina lidí mluví kolem 150 slov za minutu a píše kolem 40. Studie ze Stanfordu zjistila, že hlasový vstup na telefonu byl třikrát rychlejší než psaní, a to s menším počtem chyb. Jakmile se ale výstup zlepšil, rychlost přestala být hlavním lákadlem. Skutečné lákadlo je, že už neztrácíte myšlenkový tok kvůli klávesnici. Tu matematiku jsme rozebrali v článku proč je váš hlas rychlejší než klávesnice.

V čem velké jazykové modely u hlasu na text pořád chybují

Je to opravdu lepší, ne kouzlo. Stejná inteligence, která vám čistí text, může taky přestřelit, a vyplatí se vědět kde.

Může změnit váš význam. Když model „opraví" větu, někdy uhladí detail, který jste chtěli, nebo špatně odhadne váš záměr. Čím techničtější nebo neobvyklejší vaše formulace, tím vyšší riziko. Cokoli důležitého si před odesláním rychle přečtěte.

Jména a žargon ho pořád dostávají. Přepis zvládá běžná slova dobře a zápasí s vlastními jmény, názvy produktů a odbornými termíny. Model může odhadovat z kontextu, ale příjmení vašeho kolegy splete s naprostou jistotou.

Homofony nejsou plně vyřešené. „Být" a „bít" nebo „mě" a „mně" obvykle vyjdou správně, protože pomáhá kontext, ale ne pokaždé.

Přidává to chviličku zpoždění. Čistý přepisovač je téměř okamžitý. Spuštění druhého modelu na vyleštění stojí cokoli od zlomku sekundy po pár sekund. Za tu kvalitu to stojí, ale není to zadarmo.

Nic z toho není zásadní problém, jakmile víte, že to existuje. Právě proto se návyk rychle si text před odesláním přečíst pořád vyplácí. Pokud chcete celý obrázek o tom, jak tahle pipeline běží od začátku do konce, napsali jsme krok za krokem průvodce hlasovým diktováním s AI na Macu.

Diagram znázorňující dvě naskládané vrstvy: přepisovou vrstvu, která mění zvuk na slova, a jazykovou vrstvu, která mění slova na čistý text

Co to znamená pro to, jak píšete

Mentální model, který stojí za zapamatování, je tenhle: hlas na text jsou teď dva nástroje naskládané na sebe:

1. Přepisová vrstva, která mění zvuk na přesná slova. 2. Jazyková vrstva, která mění tahle slova na text, který se opravdu dobře čte.

Čistý přepis je pořád ta správná volba, když potřebujete přesný záznam. Rozhovory, právní poznámky, cokoli, kde záleží na každém „ehm". U všeho ostatního, jako jsou e-maily, zprávy, dokumenty a poznámky, je to právě leštící vrstva, díky které je mluvení rychlejší než psaní, místo aby bylo jen víc nepořádné.

Takže když si vybíráte nástroj, ta skutečná otázka není „jak přesný je přepis". Většina je teď blízko sebe. Otázka zní „jak dobrá je vrstva navrch". Naše srovnání nejlepších aplikací pro hlas na text na Macu rozebírá, které tuhle část dělají dobře.

Jak vyzkoušet hlas na text vyleštěný velkým jazykovým modelem

Nejrychlejší způsob, jak ten rozdíl pocítit, je nadiktovat svůj příští e-mail místo psaní a pak se podívat, co se objeví v konceptu. Nebude to surový přepis, který si pamatujete z dřívějška. Bude to znít, jako byste to napsali v dobrý den.

Pokud to chcete bez sešívání nástrojů dohromady, Voicr zvládá obě vrstvy v jednom kroku. Podržíte FN, mluvíte jak chcete, pustíte a vyleštěný text vám přistane ve schránce připravený k vložení. Používá Whisper pro přepis a jazykový model pro vyčištění, se styly pro jednotlivé aplikace, aby tón seděl všude, kam píšete. Tarif Free je 5 000 slov měsíčně, bez platební karty.

Hlas na text konečně funguje tak, jak měl vždycky. Ne proto, že stroje začaly líp slyšet, ale proto, že konečně začaly dobře rozumět tomu, co jste mysleli.