Bámulod a villogó kurzort egy üres e-mailben. Tudod, mit szeretnél mondani. Csak éppen nincs kedved begépelni.
A Mac diktálás 2012 óta létezik, és a legtöbben évekkel ezelőtt feladták. Az elmúlt 18 hónapban az AI hangdiktálás Macre változtatott ezen. A régi „beszélj a mikrofonba, és nézd, ahogy egy halom elgépelés jelenik meg” élményt csendben felváltotta valami, ami tényleg írásnak érződik.
Itt jön az a rész, amit a legtöbb cikk átugrik. Már nem az átírás a nehéz, az meg van oldva. Ami megváltozott, az a réteg fölötte: az, amelyik a kusza gondolataidat tiszta szöveggé alakítja, még mielőtt a képernyődre kerülnének. Ez a cikk lépésről lépésre végigvezet a teljes folyamaton, hogy lásd, valójában mit csinál a Macedben a pillanat között, hogy megszólalsz, és amikor a csiszolt szöveg landol a piszkozatodban.
Miért érződik végre használhatónak a Mac diktálás
Két szám magyarázza, miért térnek vissza az emberek a diktáláshoz. Egy átlagos ember körülbelül 40 szót gépel percenként. Egy átlagos ember körülbelül 150 szót mond percenként. Ez nagyjából négy kimondott szó annyi idő alatt, amennyi alatt egyet leírsz.
De sosem a sebesség volt az igazi probléma. A probléma a végeredmény volt. A régi diktálás minden „ööö”, minden újrakezdés, minden „várj, nem, ezt töröld” szó szerinti leiratát adta a kezedbe. 30 másodpercet spóroltál a diktálással, és 90-et töltöttél a tisztogatással.
A modern AI-diktáló appok ezt egy második lépés hozzáadásával oldották meg. A beszéd átmegy az átíráson, mint korábban. Aztán egy nyelvi modell veszi át, és úgy írja át, ahogy egy rendszerező szerkesztő tenné. A töltelékszavak eltűnnek. A nyelvtan rendbe jön. A mondatok befejeződnek. Mire a szöveg megjelenik a képernyődön, úgy olvasható, mintha egy jó napodon írtad volna.
Az AI hangdiktálás öt lépése Macen
A folyamat rövid. Öt lépés, és a legtöbb láthatatlan: 1. Rögzítés, ahol a Mac felveszi a hangodat. 2. Átírás, ahol a hangból nyers szöveg lesz. 3. Csiszolás, ahol a nyers szöveget egy AI-modell tisztára teszi. 4. Kontextus alkalmazása, ahol az írásstílus alkalmazkodik ahhoz, hová kerül a szöveg. 5. Kézbesítés, ahol a csiszolt szöveg landol a kurzorodnál.
Mindegyik lépésnek megvan a saját modellje, saját kompromisszumai, és saját pontjai, ahol elromolhat. Érdemes egyenként megérteni őket.
1. lépés: rögzítés, hogyan veszi fel a hangodat a Mac
Ez a rész nem bonyolult. Megnyomsz egy gyorsbillentyűt (FN, Option+Space, vagy amit az app használ), és a mikrofon elkezd hallgatózni. Az app memóriába rögzíti a hangot, általában 16 bites, 16 kHz-es formátumban, amit az átírási modell vár.
A legtöbb modern Mac-diktáló app nem hangaktivitás-érzékelést használ az indításhoz és leállításhoz. A gyorsbillentyűt használja. Tartsd nyomva, beszélj, engedd el. Az ok a megbízhatóság. A hangérzékelés egy kávézó nyitott mikrofonján szerencsejáték. Egy billentyűlenyomás nem az.
Néhány dolog történik a rögzítés alatt, amit nem látsz. A hang pufferelődik, gyakran zajszűrésen megy át az Apple beépített audio-keretrendszerével, és darabokra szabják. Ha hosszabban beszélsz, mint a darabhossz, ami általában 30 másodperc, az app feldarabolhatja a felvételt, mielőtt továbbküldené.
2. lépés: átírás, hogyan alakít a Whisper hangot szavakká
Itt a legtöbb AI Mac-diktáló app ugyanahhoz az egy technológiához fut össze: az OpenAI Whisper modelljéhez. A Whisper egy beszédfelismerő rendszer, amelyet körülbelül 5 millió óra hangon képeztek ki 99 nyelven. A jelenlegi verzió, a large-v3, körülbelül 2,7%-os szóhibaarányt ér el tiszta angol hangon, és 8–12%-osat zajos, valós felvételeken.
Egyszerűbben: beszélj természetesen, és a szavak nagyjából 92–97%-a már alapból helyesen kerül átírásra. Ez egy másik pontossági kategória ahhoz képest, amit az Apple eredeti diktálómotorja tudott, és emiatt szárnyaltak fel a külső appok.
Nagyjából ezt csinálja a Whisper a hangoddal: - 30 másodperces darabokra vágja a felvételt. - Mindegyik darabot spektrogrammá alakítja, ami a hang vizuális ábrázolása frekvenciák és idő mentén. - A spektrogramot egy neurális hálózatba táplálja, amely megtanulta a hangmintákat szavakká leképezni. - Megjósolja a nyelvet, a központozást és azt is, hol érnek véget a mondatok.
A modell futhat helyben a Macedben (az Apple Silicon kényelmesen elbírja), vagy a felhőben. A helyi privát, és offline is működik. A felhő gyorsabb régebbi hardveren, és nagyobb modelleket támogat. Sok app engedi, hogy te válassz.
Amit ennek a lépésnek a végén kapsz, az egy nyers leirat. Központozott, többnyire pontos, gyakran kicsit zilált. Itt áll meg az Apple beépített diktálása. Az érdekes appok nem.
3. lépés: csiszolás, a réteg, ami mindent megváltoztatott
Ez az a lépés, ami a Mac diktálást „valamennyire hasznosból” átfordította abba, hogy „hetek óta nem gépeltem be e-mailt”.
Az átírás után a nyers szöveget egy nyelvi modellbe küldik, általában GPT-4 osztályúba vagy Claude-ba, egy ilyen utasítással: ``` Írd át ezt csiszolt, profi szövegként. Vedd ki a töltelékszavakat és a hibás kezdeteket. Tartsd meg a jelentést. Ne adj hozzá semmit. ```
Így néz ki ez a gyakorlatban.
Amit mondtál
*„Oké, szóval, ööö, vissza akartam jelezni a, ööö, múlt heti ajánlatra. Szerintem, tudod, valószínűleg menjünk tovább a kettes opcióval? Igen, a kettes opció. Tudnád, tudnád küldeni a szerződést péntekre?”*
Ami a vágólapodon landol
*„A múlt heti ajánlatra reagálva, szeretnék továbbmenni a kettes opcióval. Tudnád küldeni a szerződést péntekre?”*
Ugyanaz a jelentés. Más olvasási élmény. És két másodpercen belül megtörtént.

Ezt nehéz leírni, amíg ki nem próbálod. Abbahagyod a gondolkodást arról, hogyan hangzol. Abbahagyod az önszerkesztést beszéd közben. Csak elmondod a dolgot úgy, ahogy egy kollégának mondanád, és az jön ki, amit akkor írtál volna, ha lett volna időd.
Ha már diktálsz, de utána időt vesztesz a tisztogatással, ez az a rés, amit a Voicr betölt. Tartsd nyomva az FN-t, beszélj, ahogy akarsz, és ami a vágólapodra kerül, az már csiszolt. Nincs második menet, nincs „ezt az egy mondatot meg kell javítanom”, csak tiszta szöveg, készen a beillesztésre.
4. lépés: kontextustudatosság, különböző stílusok különböző appokhoz
Ez a lépés újabb. És ez az, ami elválasztja a jobb Mac-diktáló appokat a csak elfogadhatóktól.
Egy udvarias, formális hang jól áll egy ügyfél-e-mailen. Fura egy Slack-üzenetben a csapattársadnak. Hibás egy kódkommentben. Egy jó diktálóapp kitalálja, melyik appban vagy, és alkalmazkodik.
A mechanizmus egyszerű. Az app megnézi, melyik alkalmazás van fókuszban. Megkeresi a hozzá mentett stílusszabályodat. Aztán beleszövi azt a szabályt a csiszoló modellnek küldött promptba.
Egy Slack-szabály így szólhat: ``` Legyen laza és rövid. Semmi céges szóhasználat. Használj rövidített alakokat. Maximum egy-két rövid mondat. ``` Egy e-mail-szabály így: ``` Írj profi hangnemben. Teljes mondatok. Tedd hozzá a köszönést és az aláírást, ha a tartalom megkívánja. ```
Ugyanaz a hangbevitel. Két nagyon különböző kimenet aszerint, hogy melyik ablak van nyitva. Semmit sem kell kapcsolgatnod. Csak beszélsz, és kijön a megfelelő hangnem.
5. lépés: kézbesítés, hogyan kerül a szöveg oda, ahol kell
Az utolsó lépés az, amit a legtovább tartott jól megoldani. Megvan a csiszolt szöveg. Most hogyan kerül be az aktív szövegmezőbe?
Két általános megközelítés van: 1. Vágólapos út. Az app a csiszolt szöveget a vágólapra másolja, majd egy beillesztési parancsot (Cmd+V) indít a macOS Accessibility API-kon keresztül. Gyors, megbízható, szinte minden appban működik. 2. Billentyűinjektálás. Az app egyenként szimulálja a karakterek begépelését, egy olyan eszközzel, mint az AppleScript vagy ugyanaz az Accessibility-keretrendszer. Lassabb, de működik olyan appokban is, amelyek blokkolják a beillesztést (egyes banki weboldalak, bizonyos távoli asztalok, jelszókezelők).
A legtöbb app alapból vágólapos beillesztést használ, és csak akkor vált billentyűinjektálásra, ha szükséges. Az eredmény a te szemszögedből: a szöveg körülbelül fél másodperccel azután jelenik meg a kurzorodnál, hogy elengedted a gyorsbillentyűt. Nincs appváltás, nincs másolási lépés, nincs átnézés.

Helyi vs felhő feldolgozás: mi történik valójában
Egy kérdés, ami sokszor előjön: hova kerül a hangom?
Két valós lehetőség van. A helyi feldolgozás a Whisper modellt a Mac-eden futtatja. A hangod sosem hagyja el az eszközt. Apple Siliconon (M1-től felfelé) a helyi Whisper elég gyorsan fut a valós idejű diktáláshoz, általában egy másodperc alatti késéssel. A kompromisszum: a csiszolási lépés tipikusan így is felhőmodellhez megy, mert egy 70 milliárd paraméteres nyelvi modell helyi futtatása a legtöbb laptopon nem reális. Néhány app kínál teljesen helyi megoldást egy kisebb csiszoló modellel, minőségi áron.
A felhős feldolgozás mind a hangot, mind a csiszolási lépést egy távoli API-ra küldi. Gyorsabb régebbi Maceken, támogatja a legnagyobb és legpontosabb modelleket. A kompromisszum az adatvédelem. A beszéded elhagyja az eszközödet, még ha rögtön az átírás után törlik is.
A legtöbb embernek a „helyi Whisper, felhős csiszolás” a jó alapbeállítás. Bárkinek, aki érzékeny anyagokkal dolgozik (orvosi jegyzetek, jogi piszkozatok, belső céges adatok), megéri a teljesen helyi megoldás a kis minőségi áldozat fejében. Egy jó app engedi, hogy felvételenként válassz, vagy hogy beállíts egy alapértelmezést.
Hol botlik még meg az AI-diktálás
Őszinte rész. A folyamat jó. De nem tökéletes.
A homonimák még mindig elcsúsznak. A „their” vs „there” vs „they're” legtöbbször helyesre jön ki, de nem mindig. A csiszolás általában elkapja a kontextusból, de nem, ha a környező mondat kétértelmű.
A tulajdonnevek és a szakzsargon esetlegesek. A Whisper a legtöbb gyakori nevet és tech kifejezést látta, de bármi szakosodottat el fog rontani. Gyógyszernevek, kódkönyvtárak nevei, a kollégád szokatlan vezetékneve. Néhány app engedi, hogy hozzáadj egy egyéni szótárat, amit a prompthoz csatolnak.
A zajos környezetek gyorsan rontják a pontosságot. A Whisper meglepően jól bírja a kávézó zaját, de egy telefon, ami két lábra cseng tőled, vagy valaki, aki a közelben beszél, szavakat fog kihúzni a leiratodból.
A hosszú monológok elsodródnak. A modell kiváló 10–30 másodperces sorozatokban. Körülbelül 90 másodperc után néha elveszti a fonalat, töredékeket ismétel, vagy rövid kifejezéseket hagy ki. A megoldás egyszerűen az, hogy darabokban állítsd le és indítsd újra a felvételt.
Ezek a korlátok akkor számítanak, amikor elkezded. Egyik sem akadály, ha tudsz róluk. Ha a lehetőségek közül választanál, a legjobb Mac-es voice-to-text appokról szóló útmutatónk végigveszi, hogyan kezelik a nagyobb appok ezeket a kompromisszumokat.
Hogyan kezdj el ma AI hangdiktálást használni Macen
Három gyakorlati lépés, sorrendben.
1. Válassz egy feladatot, amit egy héten át minden nap diktálni fogsz. Az e-mail jó kezdés, mert ott a legmagasabb a gépelés-beszéd átváltási arány (úgyis gondolkodsz, mielőtt írsz). Ne próbálj egyből mindent diktálni. Fel fogod adni.
2. Szokj hozzá, hogy a semmihez beszélsz. Az első néhány alkalommal furán fogod érezni magad, ahogy hangosan beszélsz egy csendes szobában. Ez körülbelül négy nap alatt elmúlik.
3. Válassz egy appot, és maradj nála. Jó lehetőségek vannak minden árkategóriában, az Apple beépített diktálásától nyílt forráskódú Whisper-eszközökön át a teljes folyamatot lefedő appokig. Ha a fent leírt csiszolt átírás-és-beillesztés folyamatot szeretnéd, a Voicr pontosan ezt csinálja. Tartsd nyomva az FN-t, beszélj, illeszd be. Whisper az átíráshoz, erős nyelvi modell a csiszoláshoz, és appspecifikus írásstílusok, amelyek alkalmazkodnak ahhoz, ahol a kurzorod van. Az ingyenes csomag havi 5000 szót ad, bankkártya nélkül.
Az egész mögött álló folyamat végre elég jó ahhoz, hogy a diktálás ne legyen többé kompromisszum. Nem cseréled le a minőséget a sebességért. Mindkettőt megkapod. A nehéz rész már csak az, hogy eldöntsd: abbahagyod a gépelést.

