Cum rescrie vorbirea pentru fiecare aplicație o inteligență artificială conștientă de context

Spune o propoziție cu voce tare: „hei poți să-mi trimiți ultimele cifre când ai un minut.” Locul în care ajunge decide ce ar trebui să devină. Pune-o în Slack și e deja în regulă. Pune-o într-un e-mail către un client și are nevoie de o formulă de salut și de o cerere mai blândă. Înregistreaz-o ca un comentariu în Jira și ar trebui să se reducă la trei cuvinte: „Trebuie ultimele cifre.”

Faci ajustarea asta fără să te gândești. Creierul tău citește atmosfera, ce aplicație, ce persoană, cât de formal, și remodelează cuvintele pe măsură ce ies. O inteligență artificială conștientă de context face aceeași treabă, automat, pe vorbirea pe care o dictezi.

Merită să-ți pese de asta acum, pentru că dictarea a devenit în sfârșit bună. Poți vorbi cu aproximativ 150 de cuvinte pe minut, de trei până la patru ori mai repede decât cele 40 de cuvinte pe minut pe care le tastează majoritatea oamenilor. Dar vorbirea brută nu se potrivește cu felul în care vrea fiecare aplicație să scrii. Stratul de rescriere este cel care închide diferența asta.

O singură propoziție, șase mesaje diferite

Vorbirea este neutră din punctul de vedere al registrului. Când vorbești, nu alegi un format. Pur și simplu spui ce ai de spus, iar formatul se adaugă mai târziu, de către tine, când decizi unde ajunge.

Scrisul funcționează invers. Fiecare aplicație în care tastezi are propriile reguli discrete despre cum ar trebui să arate și să sune textul.

Ia aceeași cerere de cifre și urmărește cum își schimbă forma în funcție de fereastră: - Slack: „Hei, poți trimite ultimele cifre când ai un minut?” - E-mail: „Bună, Maria, când ai un moment, ai putea să-mi trimiți ultimele cifre? Mulțumesc!” - Jira: „Trebuie ultimele cifre.” - O notiță pentru tine: „În așteptare: ultimele cifre de la Maria.” - Mesaj către un coleg: „poți trimite ultimele cifre?”

Aceeași intenție de fiecare dată. Cinci suprafețe, cinci răspunsuri corecte diferite. Tu deja le produci pe toate la cerere. Problema e că fiecare te costă o mică reajustare pe care abia o observi, și se întâmplă tot timpul. Un studiu Harvard Business Review a măsurat că angajații comută între aplicații de circa 1.200 de ori pe zi, aproximativ o dată la 24 de secunde. Multe dintre aceste comutări vin cu un stil de scriere nou atașat.

Transcrierea versus rescrierea conștientă de context

Ajută să separi două sarcini care de obicei sunt amestecate. Transcrierea transformă sunetul în cuvinte. Rescrierea conștientă de context transformă acele cuvinte în mesajul potrivit pentru locul în care merg.

Transcrierea simplă se oprește la primul pas. Dictarea încorporată de la Apple, majoritatea instrumentelor de transformare a vorbirii în text, subtitrările live de pe telefonul tău, toate îți dau o înregistrare literală a ceea ce ai spus, cu tot cu umpluturi și începuturi false.

Iată cum arată de fapt o transcriere brută a unui gând rapid: ``` păi deci da mă gândeam că ar trebui probabil să cam amânăm lansarea pentru săptămâna viitoare pentru că QA-ul nu e gata încă știi ```

Rescrierea conștientă de context ia același audio și pune o a doua întrebare: unde merge asta și cum ar trebui să sune acolo? Îndreptat către un mesaj Slack pentru echipa ta, revine ca: ``` Hai să amânăm lansarea pentru săptămâna viitoare. QA-ul nu e gata încă. ```

Aceleași cuvinte la intrare, cuvinte diferite la ieșire, modelate de destinație. Primul este o înregistrare. Al doilea este ceva ce poți chiar trimite. Pentru mai multe despre partea de șlefuire a acestui proces, vezi analiza noastră despre cum funcționează dictarea vocală cu inteligență artificială.

O singură transcriere vocală dezordonată în stânga se ramifică în trei mesaje curate în dreapta: o notiță Slack relaxată, un e-mail formal și un scurt comentariu la un tichet

Ce înseamnă de fapt „context” pentru inteligența artificială

„Conștient de context” sună vag până te uiți la indiciile concrete pe care le citesc aceste instrumente. Nu e nimic mistic în asta. Contextul este o listă scurtă de semnale pe care inteligența artificială le verifică înainte să atingă un cuvânt.

Aplicația activă

Cel mai puternic semnal este ce aplicație are focusul când vorbești. Un instrument poate vedea că Slack e în față, sau Gmail, sau VS Code. Faptul ăsta unic îngustează mult stilul. Chatul vrea scurt și lejer, e-mailul vrea structurat și politicos, un editor de cod vrea concis și literal.

Textul din jurul cursorului

Unele instrumente citesc puțin din textul aflat aproape de locul în care urmează să tastezi. Dacă mesajul de deasupra începe cu „Stimate domnule Katz,”, inteligența artificială păstrează lucrurile formale și scrie numele corect. Dacă firul de discuție e o grămadă de glume de o singură linie, se potrivește în schimb cu asta.

Site-ul web, nu doar browserul

Detectarea aplicației devine neclară într-un browser, unde Gmail, X și un Google Doc se ascund toate în spatele aceleiași ferestre. Instrumentele mai bune se uită la adresa URL ca să le deosebească, așa că fila Gmail primește tratament de e-mail, iar fila X primește o postare punctuală.

Categoria aplicației

În loc să țină o regulă pentru fiecare aplicație existentă vreodată, majoritatea sistemelor împart aplicațiile într-un număr restrâns de categorii: e-mail, chat de lucru, mesagerie personală, documente, cod și o categorie generală pentru tot restul. Fiecare categorie are un stil. O aplicație nouă care se încadrează într-o categorie cunoscută moștenește stilul acesteia din prima zi.

Pune cap la cap aceste semnale și inteligența artificială are o citire decentă a atmosferei: un e-mail formal către o persoană cu nume, sau o replică aruncată într-un fir de discuție lejer. Citirea aceasta este cea în raport cu care rescrie.

Cum devine vorbirea ta mesajul potrivit

Așază piesele în ordine și totul se reduce la patru pași rapizi, toți petrecându-se în secunda sau două dintre momentul în care termini propoziția și cel în care apare textul. 1. Captare. Ții o tastă apăsată și vorbești. Instrumentul înregistrează până îi dai drumul. 2. Transcriere. Un model de vorbire transformă audio în text brut, cuvintele tale exact așa cum le-ai spus. 3. Detectarea contextului. Instrumentul verifică aplicația activă, textul din apropierea cursorului și categoria în care se încadrează aplicația. 4. Rescriere. Un model de limbaj ia transcrierea brută plus acel context și scrie mesajul final, dimensionat și nuanțat pentru locul în care merge.

Pasul patru este cel în care un model de limbaj mare face munca grea. Primește transcrierea ta dezordonată și o instrucțiune care se rezumă la „asta merge într-un e-mail de serviciu, fă-o să sune ca atare”, apoi returnează text cu lungimea, tonul și forma potrivite. Rezultatele variază de la model la model, așa că tratează rezultatul mai degrabă ca o primă ciornă solidă decât ca literă de lege.

Exact acesta este fluxul pe care îl rulează Voicr pe macOS. Ții apăsată tasta FN și vorbești din orice aplicație. Voicr identifică ce aplicație e în față, aplică stilul potrivit prin Smart Rules și depune textul șlefuit în clipboard: relaxat în Slack, profesional în Gmail, concis în editorul tău. Nu deschizi niciodată un meniu ca să alegi un ton. Dacă vrei să vezi cum se scriu aceste stiluri per aplicație, ghidul nostru despre reguli inteligente de scriere îți arată ce conține una bună.

Un proces în patru pași prezentat sub formă de pictograme prietenoase: un microfon care captează vorbirea, o transcriere, o lupă care detectează aplicația activă și un mesaj șlefuit care ajunge în clipboard

Două variante: detectare automată și reguli explicite

Nu orice formă de conștientizare a contextului funcționează la fel. Instrumentele se împart în două tabere, iar diferența ține mai ales de cine decide stilul.

Varianta automată decide în locul tău. Citește aplicația, o încadrează într-o categorie și aplică un stil încorporat, fără nicio configurare. O instalezi și pur și simplu funcționează. Compromisul ține de control: când ideea ei despre un „ton de e-mail” nu se potrivește cu a ta, rămâi să corectezi rezultatul de mână.

Varianta explicită îți dă ție volanul. Scrii o instrucțiune scurtă pentru fiecare aplicație, în limbaj simplu, descriind exact cum ar trebui să sune. Mai multă configurare la început, dar rezultatul se potrivește cu gustul tău, pentru că tu ai definit gustul. O regulă pentru Slack ar putea arăta așa: ``` Rescrie ca un mesaj Slack relaxat. Două sau trei propoziții, contragerile sunt în regulă, fără salut sau încheiere. Emoji discret doar dacă se potrivește. ```

Cele mai bune instrumente le îmbină pe amândouă: valori implicite sensibile care funcționează din start, plus reguli per aplicație pe care le poți scrie când îți pasă suficient. Te bazezi pe valorile implicite pentru aplicațiile pe care abia le atingi și stabilești reguli explicite pentru cele două-trei în care scrisul tău chiar contează.

Ce face bine și unde încă se împiedică

Rescrierea conștientă de context este sincer utilă, dar e un punct de pornire, nu un cititor de gânduri. Să știi unde se împiedică te ferește să ai încredere oarbă în ea.

Prinde formatul. Ghicește intenția.

Inteligența artificială poate spune că ești în e-mail și poate adăuga o formulă de salut. Nu poate spune cu certitudine dacă ești sincer sau ironic, ori dacă „bine” înseamnă bine sau înseamnă că ești în liniște furios. Tonul din interiorul unui registru rămâne în sarcina ta.

Aplicațiile vagi o derutează

Un browser de tip „toate la un loc”, un terminal care rulează un client de chat, o aplicație de notițe pe care o folosești pentru orice: acestea dau semnale slabe. Când contextul e tulbure, rescrierea revine la o șlefuire generică, poate mai formală sau mai puțin formală decât ai fi vrut.

Poate șterge vocea ta

Forțează rescrierea prea tare și mesajele tale încep să sune ca ale tuturor, netede și competente și un pic moarte. Instrumentele bune îți mută vocea în registrul potrivit, în loc s-o înlocuiască cu un stil corporatist implicit. Dacă rezultatul nu mai sună a tine, mai relaxează regulile.

Tot citești înainte să trimiți

Un nume poate ieși greșit. Un număr poate scăpa. Treci în fugă peste rezultat înainte să-l trimiți, la fel cum ai arunca o privire peste un mesaj autocorectat înainte să apeși trimite.

Cum pui rescrierea conștientă de context la treabă

Vrei s-o încerci azi? Începe cu cele două aplicații în care scrii cel mai mult, de obicei un instrument de chat și e-mailul. Dictează următoarele câteva mesaje acolo în loc să le tastezi și urmărește cât de puțin trebuie să editezi de fapt după aceea.

Apoi fii atent la ratări. Când rezultatul nu e bun, asta e informație utilă. Îți spune că stilul aplicației are nevoie de reglaj sau că ar trebui să exprimi intenția mai clar cu voce tare. Aceste instrumente devin mai precise pe măsură ce le spui mai limpede cum ar trebui să sune fiecare aplicație. Același truc funcționează în orice aplicație în care scrii, nu doar în cele două evidente, așa cum am explicat în dictarea în orice aplicație Mac cu o singură apăsare de tastă.

Câștigul real nu ține doar de viteză, deși a vorbi de trei ori mai repede decât tastezi e un avans plăcut. Ce se schimbă de fapt este că nu mai cari formatul în cap. Gândești gândul, îl spui o dată și lași instrumentul să stabilească ce versiune se potrivește unde.

Spune o dată, ajunge peste tot

Vechiul obicei e să scrii mesajul și formatul în același moment: cuvinte, ton, salut, încheiere, toate dintr-o singură trecere, pentru fiecare aplicație, toată ziua. Inteligența artificială conștientă de context împarte corvoada asta în două. Tu aduci gândul. Ea aduce formatul.

Cel mai rapid mod de a simți diferența este să-ți dictezi următorul e-mail în loc să-l tastezi. Dacă vrei vorbire care apare deja modelată pentru oriunde se îndreaptă, Voicr face asta pe Mac-ul tău: ții FN, vorbești, iar textul ajunge în tonul potrivit pentru aplicația în care ești. O propoziție ieșită din gura ta, mesajul potrivit în fiecare fereastră.