AI hlasová diktace pro Mac: jak to vlastně funguje

Díváte se na blikající kurzor v prázdném e-mailu. Víte, co chcete napsat. Jen se vám to nechce ťukat na klávesnici.

Diktace na Macu existuje už od roku 2012 a většina lidí to s ní před lety vzdala. AI hlasová diktace pro Mac je to, co se posledních 18 měsíců změnilo. Starý zážitek typu "mluvte do mikrofonu a sledujte zeď překlepů" tiše nahradilo něco, co opravdu připomíná psaní.

Tady je část, kterou většina článků přeskakuje. Tou těžkou částí už není přepis, ten je dávno vyřešený. Změnila se vrstva nad ním, ta, která vezme vaše nesouvislé myšlenky a promění je v čistý text dřív, než se vůbec objeví na obrazovce. Tenhle článek vás krok za krokem provede celou pipeline, abyste viděli, co váš Mac skutečně dělá mezi okamžikem, kdy začnete mluvit, a momentem, kdy se uhlazený text objeví v rozepsané zprávě.

Proč je diktace na Macu konečně použitelná

Důvod, proč se lidi k diktaci vracejí, vysvětlují dvě čísla. Průměrný člověk píše na klávesnici asi 40 slov za minutu. Průměrný člověk mluví asi 150. To jsou zhruba čtyři vyřčená slova za dobu, za kterou napíšete jedno.

Jenže rychlost nikdy nebyla skutečný problém. Problém byl výstup. Stará diktace vám vrátila doslovný přepis každého ehm, každého rozjetí znovu, každého "počkej, ne, škrtni to". Ušetřili jste 30 sekund diktováním a 90 jste strávili úklidem.

Moderní AI diktovací aplikace tohle vyřešily přidáním druhého kroku. Řeč projde přepisem jako dřív. Pak ji dostane jazykový model a přepíše ji tak, jak by to udělal pečlivý editor. Výplňová slova pryč. Gramatika opravena. Věty dokončeny. Než se text objeví na obrazovce, čte se to jako něco, co byste napsali ve své lepší den.

Pět kroků za AI hlasovou diktací na Macu

Pipeline je krátká. Pět kroků, většina z nich neviditelných: 1. Záznam, kdy váš Mac zachytí váš hlas. 2. Přepis, kdy se zvuk změní v surový text. 3. Vyhlazení, kdy surový text uhladí AI model. 4. Aplikace kontextu, kdy se styl psaní přizpůsobí tomu, kam text míří. 5. Doručení, kdy uhlazený text dorazí na pozici kurzoru.

Každý krok má vlastní model, vlastní kompromisy a vlastní místa, kde se může něco pokazit. Stojí za to projít je jeden po druhém.

Krok 1: Záznam, jak váš Mac zachytí váš hlas

Tahle část není nijak okázalá. Stisknete klávesovou zkratku (FN, Option+Space nebo cokoliv, co aplikace používá) a mikrofon začne poslouchat. Aplikace nahrává zvuk do paměti, obvykle v 16 bitech a 16 kHz, ve formátu, který očekává přepisový model.

Většina moderních diktovacích aplikací pro Mac nepoužívá detekci hlasové aktivity ke spouštění a zastavení. Používají klávesovou zkratku. Drž a mluv, pusť a skonči. Důvodem je spolehlivost. Detekce hlasu na otevřeném mikrofonu v kavárně je hod mincí. Stisk klávesy ne.

Během záznamu se děje pár věcí, které nevidíte. Zvuk se ukládá do bufferu, často je potlačován šum pomocí vestavěného audio frameworku od Applu, a rozděluje se do bloků. Pokud mluvíte déle, než je velikost bloku, obvykle 30 sekund, aplikace může nahrávku rozdělit ještě před odesláním.

Krok 2: Přepis, jak Whisper mění zvuk ve slova

Tady se většina AI diktovacích aplikací pro Mac sbíhá u jedné technologie: Whisper modelu od OpenAI. Whisper je systém rozpoznávání řeči trénovaný na zhruba 5 milionech hodin zvuku v 99 jazycích. Aktuální verze, large-v3, má asi 2,7% chybovost slov na čistém anglickém zvuku a 8 až 12 % na zašuměných nahrávkách z reálného světa.

Jednoduše: mluvte přirozeně a zhruba 92 až 97 procent slov bude přepsáno správně rovnou bez nastavování. To je jiná kategorie přesnosti než to, co dokázal původní diktační engine od Applu, a právě proto se aplikace třetích stran tak rozjely.

Zhruba takhle Whisper zachází s vaším zvukem: - Rozseká nahrávku na bloky po 30 sekundách. - Každý blok převede na spektrogram, vizuální reprezentaci zvuku napříč frekvencemi a časem. - Pošle spektrogram do neuronové sítě, která se naučila mapovat zvukové vzorce na slova. - Zároveň předpovídá jazyk, interpunkci a kde končí věty.

Model může běžet lokálně na vašem Macu (Apple Silicon ho zvládá bez problému) nebo v cloudu. Lokální verze je soukromá a funguje offline. Cloud je rychlejší na starším hardwaru a podporuje větší modely. Spousta aplikací nechá výběr na vás.

Na konci tohoto kroku dostanete surový přepis. S interpunkcí, většinou přesný, často trochu rozházený. Tady vestavěná diktace od Applu končí. Zajímavé aplikace ne.

Krok 3: Vyhlazení, vrstva, která všechno změnila

Tohle je krok, který diktaci na Macu překlopil z "jakž takž použitelné" na "e-mail jsem nepsal už týdny".

Po přepisu se surový text pošle jazykovému modelu, obvykle třídy GPT-4 nebo Claude, s instrukcí typu: ``` Přepiš to jako uhlazený, profesionální text. Odstraň výplňová slova a falešné starty. Zachovej význam. Nic nepřidávej. ```

Tady je, jak to vypadá v praxi.

Co jste řekli

*"Tak jako um, chtěl jsem se vrátit k té, ehm, nabídce z minulého týdne. Myslím, no, asi bysme měli jít s variantou dvě? Jo, varianta dvě. Můžeš, můžeš mi poslat smlouvu do pátku?"*

Co dorazí do schránky

*"Navazuji na nabídku z minulého týdne, rád bych pokračoval s variantou dvě. Mohl bys mi do pátku poslat smlouvu?"*

Stejný význam. Jiný zážitek při čtení. A stalo se to za méně než dvě sekundy.

Ilustrace před a po, která ukazuje vlevo nepořádnou surovou řeč s výplňovými slovy a vpravo její proměnu v čistý uhlazený text

Tohle je část, kterou je těžké popsat, dokud si ji nevyzkoušíte. Přestanete přemýšlet, jak zníte. Přestanete se při mluvení sami opravovat. Prostě řeknete to, co byste řekli kolegovi, a ven vypadne verze, kterou byste napsali, kdybyste měli čas.

Pokud už diktujete, ale ztrácíte čas na následných úpravách, přesně tuhle mezeru zaplňuje Voicr. Podržíte FN, mluvte, jak chcete, a co dorazí do schránky, je už uhlazené. Žádný druhý průchod, žádné "musím opravit tuhle jednu větu", jen čistý text připravený k vložení.

Krok 4: Vědomí kontextu, různé styly pro různé aplikace

Tenhle krok je novější. A je to taky ten, který odděluje lepší diktovací aplikace pro Mac od těch jen průměrných.

Zdvořilý, formální tón sedí ke klientskému e-mailu. Ve zprávě kolegovi na Slacku působí divně. V komentářích v kódu je úplně mimo. Dobrá diktovací aplikace pozná, ve které aplikaci jste, a přizpůsobí se.

Mechanismus je jednoduchý. Aplikace si přečte, která aplikace má fokus. Najde si vaše uložené stylové pravidlo pro tuhle aplikaci. A to pravidlo zabalí do promptu, který jde do vyhlazovacího modelu.

Pravidlo pro Slack může znít: ``` Drž to neformálně a stručně. Žádné korporátní fráze. Používej stažené tvary. Maximálně jedna nebo dvě krátké věty. ``` Pravidlo pro e-mail může znít: ``` Piš v profesionálním tónu. Celé věty. Pokud to obsah vyžaduje, přidej pozdrav a podpis. ```

Stejný hlasový vstup. Dva velmi odlišné výstupy podle toho, které okno je otevřené. Nic nepřepínáte. Prostě mluvíte a vychází správný tón.

Krok 5: Doručení, jak se text dostane tam, kam potřebujete

Poslední krok je ten, který trvalo nejdéle dotáhnout do pořádku. Máte uhlazený text. Jak se dostane do aktivního textového pole?

Existují dva běžné přístupy: 1. Cesta přes schránku. Aplikace zkopíruje uhlazený text do vaší schránky a pak přes macOS Accessibility API spustí příkaz vložení (Cmd+V). Rychlé, spolehlivé, funguje skoro v každé aplikaci. 2. Vstřikování stisků kláves. Aplikace simuluje napsání každého znaku zvlášť pomocí nástroje jako AppleScript nebo téhož Accessibility frameworku. Pomalejší, ale funguje to v aplikacích, které blokují vkládání (některé bankovní weby, určité vzdálené plochy, správci hesel).

Většina aplikací používá ve výchozím nastavení vložení ze schránky a sahá po vstřikování kláves jen, když je to nutné. Z vašeho pohledu je výsledek tenhle: text se objeví na pozici kurzoru asi půl sekundy po puštění klávesové zkratky. Žádné přepínání aplikací, žádné kopírování, žádná kontrola.

Diagram pětikrokové pipeline znázorňující záznam, přepis, vyhlazení, aplikaci kontextu a doručení jako propojené kruhy

Lokální vs cloudové zpracování: co se vlastně děje

Otázka, která padá často: kam se dostává můj hlas?

Reálné možnosti jsou dvě. Lokální zpracování pouští Whisper model na vašem Macu. Váš zvuk z přístroje nikdy neodejde. Na Apple Silicon (od M1 dál) běží lokální Whisper dost rychle na diktaci v reálném čase, obvykle s prodlevou pod sekundou. Háček: vyhlazovací krok obvykle stejně putuje do cloudového modelu, protože spouštět jazykový model se 70 miliardami parametrů lokálně na většině notebooků není reálné. Některé aplikace nabízejí plně lokální variantu s menším vyhlazovacím modelem za cenu kvality.

Cloudové zpracování posílá do vzdáleného API jak zvuk, tak vyhlazovací krok. Rychlejší na starších Macích, podporuje největší a nejpřesnější modely. Daní je soukromí. Vaše řeč opouští zařízení, i když se hned po přepisu smaže.

Pro většinu lidí je správným výchozím nastavením "lokální Whisper, cloudové vyhlazení". Pro každého, kdo pracuje s citlivými materiály (lékařské poznámky, právní koncepty, interní firemní data), stojí plně lokální varianta za drobnou ztrátu kvality. Dobrá aplikace vám nechá vybrat pro každou nahrávku zvlášť nebo nastavit výchozí volbu.

Kde AI diktace pořád zakopává

Upřímná sekce. Pipeline je dobrá. Není dokonalá.

Homofony pořád dělají problémy. V angličtině "their" vs "there" vs "they're" trefí to správné většinou, ale ne vždy. Vyhlazení to obvykle podle kontextu opraví, jenže ne, když je okolní věta dvojznačná.

Vlastní jména a žargon jsou jak losování. Whisper viděl většinu běžných jmen a technických termínů, ale cokoliv specializovaného zmrší. Názvy léků, jména knihoven v kódu, neobvyklé příjmení vašeho kolegy. Některé aplikace umožňují přidat vlastní slovník, který se přilepí k promptu.

Hlučné prostředí rychle sráží přesnost. Whisper si s kavárenským šumem překvapivě dobře poradí, ale telefon zvonící dva metry od vás nebo někdo, kdo poblíž mluví, vám z přepisu vytrhne slova.

Dlouhé monology ujíždějí. Model je vynikající v 10 až 30sekundových dávkách. Po zhruba 90 sekundách občas ztrácí nit, opakuje útržky nebo přeskakuje krátké fráze. Řešením je prostě zastavovat a spouštět nahrávání po blocích.

Tahle omezení jsou důležitá, když začínáte. Žádné z nich není zásadní překážka, pokud o nich víte. Pokud vybíráte mezi možnostmi, náš průvodce nejlepšími aplikacemi pro převod hlasu na text na Macu prochází, jak velké aplikace s těmito kompromisy zacházejí.

Jak začít s AI hlasovou diktací na Macu hned dnes

Tři praktické kroky v pořadí.

1. Vyberte jednu úlohu, kterou budete týden každý den diktovat. E-mail je dobrý začátek, má nejvyšší poměr převodu psaní na mluvení (stejně si to obvykle promyslíte, než to napíšete). Nesnažte se rovnou diktovat všechno. Brzo to vzdáte.

2. Zvykněte si mluvit do prázdna. Při prvních pár diktováních vám bude divně mluvit nahlas v tiché místnosti. To po čtyřech dnech přejde.

3. Vyberte si aplikaci a držte se jí. Napříč cenovým spektrem najdete dobré možnosti, od vestavěné diktace od Applu přes open-source nástroje postavené na Whisperu po aplikace s plnou pipeline. Pokud chcete uhlazený tok přepis-a-vložení popsaný výše, Voicr dělá přesně tohle. Podržíte FN, mluvíte, vkládáte. Whisper na přepis, silný jazykový model na vyhlazení a styly psaní pro jednotlivé aplikace, které se přizpůsobí tomu, kde máte kurzor. Free tarif vám měsíčně dá 5 000 slov bez nutnosti zadávat platební kartu.

Pipeline za tím vším je konečně dost dobrá na to, aby diktace už nebyla kompromis. Neměníte kvalitu za rychlost. Dostáváte oboje. Těžké je vlastně jen rozhodnout se přestat psát na klávesnici.