Hogyan írja át a beszédet a kontextusérzékeny MI minden alkalmazáshoz

Mondj ki hangosan egy mondatot: „szia el tudnád küldeni a legfrissebb számokat ha lesz egy perced.” Az dönti el, mivé kell válnia, hogy hová tart. Dobd be a Slackbe, és máris rendben van. Tedd egy ügyfélnek szóló e-mailbe, és kell hozzá egy köszönés meg egy finomabb kérés. Rögzítsd Jira-megjegyzésként, és lerövidülhet három szóra: „Kellenek a legfrissebb számok.”

Ezt az igazítást gondolkodás nélkül megteszed. Az agyad leolvassa a helyzetet, hogy melyik alkalmazás, melyik személy, mennyire hivatalos, és kimenet közben átformálja a szavakat. A kontextusérzékeny MI ugyanezt a munkát végzi el, automatikusan, a diktált beszédeden.

Ez most azért érdemes a figyelemre, mert a diktálás végre jó lett. Beszélhetsz percenként nagyjából 150 szóval, ami három-négyszer gyorsabb annál a percenkénti 40 szónál, amennyit a legtöbben gépelnek. A nyers beszéd viszont nem illik ahhoz, ahogyan bármelyik adott alkalmazás elvárná az írást. Az átíró réteg az, ami áthidalja ezt a szakadékot.

Egy mondat, hat különböző üzenet

A beszéd regiszter-semleges. Amikor beszélsz, nem választasz formátumot. Egyszerűen kimondod a dolgot, a formátum pedig később ragad rá, tőled, amikor eldöntöd, hová kerül.

Az írás fordítva működik. Minden alkalmazás, amelybe gépelsz, magában hordozza a maga csendes szabályait arról, hogyan nézzen ki és hogyan szóljon a szöveg.

Vedd ugyanazt a számokra vonatkozó kérést, és nézd, hogyan vált alakot az ablaktól függően: - Slack: „Szia, el tudnád küldeni a legfrissebb számokat, ha lesz egy perced?” - E-mail: „Szia Mária, ha lenne egy perced, el tudnád küldeni a legfrissebb számokat? Köszönöm!” - Jira: „Kellenek a legfrissebb számok.” - Saját jegyzet: „Függőben: legfrissebb számok Máriától.” - Üzenet egy kollégának: „el tudod küldeni a legfrissebb számokat?”

Minden alkalommal ugyanaz a szándék. Öt felület, öt különböző helyes válasz. Mindegyiket kérésre elő is állítod. A bökkenő az, hogy mindegyik egy apró újrahangolásba kerül, amit alig veszel észre, és ez folyamatosan történik. Egy Harvard Business Review-tanulmány szerint a dolgozók naponta nagyjából 1200-szor váltogatnak az alkalmazások között, nagyjából 24 másodpercenként egyszer. Sok ilyen váltáshoz egy friss írásstílus is jár.

Átírás kontra kontextusérzékeny újraírás

Segít szétválasztani két feladatot, amelyeket általában egy kalap alá vesznek. Az átírás hangból szavakat csinál. A kontextusérzékeny újraírás ezekből a szavakból a megfelelő üzenetet alkotja oda, ahová tartanak.

A puszta átírás megáll az első lépésnél. Az Apple beépített diktálása, a legtöbb beszédfelismerő eszköz, a telefonod élő feliratai mind szó szerinti feljegyzést adnak arról, amit mondtál, töltelékszavakkal és nekifutásokkal együtt.

Így néz ki valójában egy gyors gondolat nyers átirata: ``` izé hát igen arra gondoltam hogy valószínűleg el kéne tolnunk a kiadást jövő hétre mert a a QA még nincs kész tudod ```

A kontextusérzékeny újraírás ugyanazt a hanganyagot veszi, és feltesz egy második kérdést: hová tart ez, és hogyan kellene ott szólnia? Egy csapatnak szóló Slack-üzenetbe tartva így jön vissza: ``` Toljuk el a kiadást jövő hétre. A QA még nincs kész. ```

Ugyanazok a szavak mennek be, más szavak jönnek ki, a célállomáshoz formálva. Az első egy felvétel. A második valami, amit tényleg el is küldhetsz. A csiszolós oldalról bővebben olvashatsz arról, hogyan működik az MI hangdiktálás.

Egyetlen kusza hangátirat a bal oldalon, amely három tiszta üzenetre ágazik szét a jobb oldalon: egy laza Slack-üzenetre, egy hivatalos e-mailre és egy rövid jegymegjegyzésre

Mit jelent valójában a „kontextus” az MI számára

A „kontextusérzékeny” homályosan hangzik, amíg meg nem nézed, milyen konkrét jeleket olvasnak ezek az eszközök. Nincs benne semmi misztikus. A kontextus jelek rövid listája, amelyeket az MI ellenőriz, mielőtt egyetlen szóhoz is hozzányúlna.

Az aktív alkalmazás

A leghangosabb jel az, hogy melyik alkalmazás van fókuszban, amikor beszélsz. Egy eszköz látja, hogy a Slack van elöl, vagy a Gmail, vagy a VS Code. Ez az egy tény sokat szűkít a stíluson. A csevegés rövidet és lazát akar, a levél tagoltat és udvariasat, a kódszerkesztő tömöret és szó szerintit.

A kurzorod körüli szöveg

Egyes eszközök beleolvasnak egy kicsit a szövegbe ott, ahová épp gépelni készülsz. Ha a fenti üzenet úgy kezdődik, hogy „Tisztelt Katz Doktornő!”, az MI hivatalos marad, és helyesen írja a nevet. Ha a beszélgetés egysoros viccek halmaza, ahhoz igazodik.

A weboldal, nem csak a böngésző

Az alkalmazásfelismerés zavarossá válik a böngészőben, ahol a Gmail, az X és egy Google Doc mind ugyanaz mögött az ablak mögött rejtőzik. A jobb eszközök az URL-t nézik, hogy megkülönböztessék őket, így a Gmail-fül e-mail-bánásmódot kap, az X-fül pedig egy ütős bejegyzést.

Az alkalmazás kategóriája

Ahelyett, hogy minden valaha készült alkalmazáshoz külön szabályt tartanának, a legtöbb rendszer néhány kosárba sorolja az alkalmazásokat: e-mail, munkahelyi csevegés, személyes üzenetküldés, dokumentumok, kód, és egy gyűjtő minden másnak. Minden kosárnak megvan a maga stílusa. Egy új alkalmazás, amely egy ismert kosárba esik, az első naptól örökli annak stílusát.

Rakd egymásra ezeket a jeleket, és az MI-nek elfogadható képe lesz a helyzetről: egy hivatalos e-mail egy megnevezett személynek, vagy egy eldobható sor egy laza beszélgetésben. Ehhez a leolvasáshoz méri az újraírást.

Hogyan válik a beszéded a megfelelő üzenetté

Sorakoztasd fel a részeket, és az egész négy gyors lépés, amelyek mind abban az egy-két másodpercben zajlanak le, ami a mondatod befejezése és a szöveg megjelenése között telik el. 1. Rögzítés. Lenyomva tartasz egy gombot és beszélsz. Az eszköz addig vesz fel, amíg el nem engeded. 2. Átírás. Egy beszédmodell nyers szöveggé alakítja a hanganyagot, pontosan a te szavaiddal, ahogy mondtad. 3. Kontextus felismerése. Az eszköz megnézi az aktív alkalmazást, a kurzorod körüli szöveget, és azt, hogy melyik kosárba esik az alkalmazás. 4. Újraírás. Egy nyelvi modell veszi a nyers átiratot meg azt a kontextust, és megírja a végleges üzenetet, ahhoz méretezve és hangolva, ahová tart.

A negyedik lépésnél végzi a nehezét egy nagy nyelvi modell. Megkapja a kusza átiratodat és egy utasítást, amely lényegében annyi: „ez egy munkahelyi e-mailbe megy, írd úgy, ahogy egy ilyen olvasandó”, majd visszaadja a szöveget a megfelelő hosszban, hangnemben és formában. Az eredmény modellenként változik, ezért kezeld a kimenetet erős első vázlatként, ne szentírásként.

Pontosan ezt a folyamatot futtatja a Voicr macOS-en. Lenyomva tartod az FN billentyűt, és beszélsz bármelyik alkalmazásból. A Voicr észreveszi, melyik alkalmazás van elöl, a Smart Rules révén alkalmazza a megfelelő stílust, és csiszolt szöveget tesz a vágólapodra: lazát a Slackben, profit a Gmailben, kurtát a szerkesztődben. Soha nem kell menüt nyitnod, hogy hangnemet válassz. Ha látni szeretnéd, hogyan íródnak meg ezek az alkalmazásonkénti stílusok, az okos írási szabályokról szóló útmutatónk végigveszi, mit tartalmaz egy jó szabály.

Egy négylépéses folyamat barátságos ikonokként: egy mikrofon felveszi a beszédet, egy átirat, egy nagyító felismeri az aktív alkalmazást, és egy csiszolt üzenet hullik egy vágólapra

Két ízben: automatikus felismerés és kifejezett szabályok

Nem minden kontextusérzékenység működik egyformán. Az eszközök két táborba esnek, és a különbség többnyire arról szól, ki dönti el a stílust.

Az automatikus fajta helyetted hozza meg a döntést. Beolvassa az alkalmazást, kategóriába sorolja, és nulla beállítással alkalmaz egy beépített stílust. Telepíted, és egyszerűen működik. A kompromisszum az irányítás: amikor az ő elképzelése az „e-mail-hangnemről” nem egyezik a tieddel, beragadsz a kimenet kézi igazgatásába.

A kifejezett fajta a kezedbe adja a kormányt. Írsz egy rövid utasítást minden alkalmazáshoz, közérthető nyelven, pontosan leírva, hogyan szóljon. Több beállítás előre, de a kimenet az ízlésedhez igazodik, mert te határoztad meg az ízlést. Egy Slack-szabály így nézhet ki: ``` Írd át laza Slack-üzenetként. Két-három mondat, az összevonások rendben, köszönés és aláírás nélkül. Könnyed emodzsi csak ha illik. ```

A jobb eszközök ötvözik a kettőt: értelmes alapbeállítások, amelyek dobozból működnek, plusz alkalmazásonkénti szabályok, amelyeket akkor írhatsz meg, amikor eléggé fontos. Az alig használt alkalmazásoknál az alapbeállításokra támaszkodsz, és kifejezett szabályokat állítasz be ahhoz a kettő-háromhoz, ahol az írásod tényleg számít.

Mit csinál jól, és hol botlik még meg

A kontextusérzékeny újraírás valóban hasznos, de kiindulópont, nem gondolatolvasó. Ha tudod, hol botlik meg, az megóv attól, hogy vakon bízz benne.

A formát eltalálja. A szándékot megtippeli.

Az MI megmondja, hogy e-mailben vagy, és hozzáad egy köszönést. Azt viszont nem tudja megbízhatóan megmondani, hogy őszinte vagy-e vagy száraz, vagy hogy a „rendben” azt jelenti-e, hogy rendben, vagy azt, hogy csendben dühös vagy. A regiszteren belüli hangnem továbbra is a te dolgod.

A homályos alkalmazások összezavarják

Egy gyűjtő böngésző, egy csevegőklienst futtató terminál, egy jegyzetalkalmazás, amit mindenre használsz: ezek gyenge jeleket adnak. Amikor a kontextus zavaros, az újraírás visszaesik egy általános csiszolásra, amely lehet, hogy hivatalosabb vagy kevésbé hivatalos, mint szeretted volna.

Lecsiszolhatja a hangodat

Ha túl erősen tolod az újraírást, az üzeneteid úgy kezdenek szólni, mint mindenki másé, simán és kompetensen és kicsit élettelenül. A jó eszközök a hangodat a megfelelő regiszterbe helyezik át, ahelyett hogy egy vállalati alapértelmezésre cserélnék. Ha a kimenet már nem úgy hangzik, mintha te lennél, lazíts a szabályokon.

Küldés előtt akkor is elolvasod

Egy név rosszul jöhet ki. Egy szám elcsúszhat. Fusd át az eredményt, mielőtt elküldöd, ugyanúgy, ahogy egy automatikusan javított üzenetre is rápillantanál küldés előtt.

Munkára fogni a kontextusérzékeny újraírást

Kipróbálnád ma? Kezdd azzal a két alkalmazással, ahol a legtöbbet írsz, általában egy csevegőeszközzel és az e-maillel. Diktáld be a következő néhány üzenetedet ott gépelés helyett, és figyeld, milyen keveset kell utána valójában szerkesztened.

Aztán figyelj a tévesztésekre. Amikor a kimenet nem stimmel, az hasznos információ. Elárulja, hogy az alkalmazás stílusát hangolni kell, vagy hogy egyértelműbben kellene kimondanod a szándékot. Ezek az eszközök annál élesebbek lesznek, minél világosabban megmondod nekik, hogyan szóljon az egyes alkalmazások. Ugyanez a trükk bármelyik alkalmazásban működik, amelybe írsz, nem csak a kézenfekvő kettőben, ahogy a bármelyik Mac-alkalmazásban egyetlen billentyűvel diktálásról szóló írásunkban kifejtettük.

Az igazi nyereség nemcsak a sebesség, bár háromszor gyorsabban beszélni, mint gépelni, szép előny. Ami valójában megváltozik, az az, hogy abbahagyod a formátum fejben cipelését. Végiggondolod a gondolatot, egyszer kimondod, és hagyod, hogy az eszköz eldöntse, melyik változat hová tartozik.

Mondd ki egyszer, érjen célt mindenhol

A régi szokás az, hogy egyszerre írod meg az üzenetet és a formátumot: szavak, hangnem, köszönés, aláírás, mind egy menetben, minden alkalmazáshoz, egész nap. A kontextusérzékeny MI kettéosztja ezt a robotot. Te hozod a gondolatot. Az hozza a formátumot.

A leggyorsabb módja, hogy megérezd a különbséget, ha a következő e-mailedet gépelés helyett bediktálod. Ha olyan beszédet szeretnél, amely már megformázva jelenik meg ahhoz, ahová tart, a Voicr ezt megteszi a Macen: nyomd le az FN-t, beszélj, és a szöveg a megfelelő hangnemben kerül oda az alkalmazáshoz, amelyben épp vagy. Egy mondat a szádból, a megfelelő üzenet minden ablakban.