Tuijotat kursoria, joka vilkkuu tyhjässä sähköpostissa. Tiedät, mitä haluat sanoa. Et vain halua kirjoittaa sitä.
Macin sanelu on ollut olemassa vuodesta 2012, ja useimmat luovuttivat sen kanssa vuosia sitten. Macin tekoälysanelu on se, mikä muutti tilanteen viimeisen 18 kuukauden aikana. Vanha "puhu mikrofoniin ja katso miten kirjoitusvirheiden seinämä ilmestyy" -kokemus on hiljaa korvautunut jollain, joka oikeasti tuntuu kirjoittamiselta.
Tässä on se osa, jonka useimmat artikkelit ohittavat. Vaikein osa ei ole enää transkriptio, se on ratkaistu. Mikä muuttui, on sen päällä oleva kerros, se joka ottaa rönsyilevät ajatuksesi ja muuttaa ne puhtaaksi tekstiksi ennen kuin se edes osuu ruudullesi. Tämä artikkeli käy läpi koko putken vaihe vaiheelta, jotta näet, mitä Macisi oikeasti tekee sen hetken välillä, kun aloitat puhumisen, ja sen hetken, kun siistitty teksti laskeutuu luonnokseesi.
Miksi sanelu Macilla tuntuu vihdoin käyttökelpoiselta
Kaksi lukua selittää, miksi ihmiset palaavat sanelun pariin. Keskivertoihminen kirjoittaa noin 40 sanaa minuutissa. Keskivertoihminen puhuu noin 150 sanaa minuutissa. Eli karkeasti neljä puhuttua sanaa siinä ajassa, jossa kirjoitat yhden.
Mutta nopeus ei koskaan oikeasti ollut ongelma. Ongelma oli lopputulos. Vanha sanelu antoi käsiisi kirjaimellisen transkription jokaisesta öö:stä, jokaisesta uudelleenaloituksesta, jokaisesta "hetkinen, ei, pyyhi tuo" -kohdasta. Säästit 30 sekuntia sanelemalla ja käytit 90 siivoamiseen.
Nykyaikaiset tekoälysanelusovellukset korjasivat tämän lisäämällä toisen vaiheen. Puhe käy läpi transkription, kuten ennenkin. Sitten se annetaan kielimallille, joka kirjoittaa sen uudelleen niin kuin huolellinen toimittaja tekisi. Täytesanat pois. Kielioppi kuntoon. Lauseet loppuun. Siihen mennessä kun teksti ilmestyy ruudullesi, se lukee kuin jokin, jonka olisit kirjoittanut hyvänä päivänä.
Macin tekoälysanelun viisi vaihetta
Putki on lyhyt. Viisi vaihetta, joista useimmat näkymättömiä: 1. Kaappaus, jossa Macisi nappaa äänesi. 2. Transkriptio, jossa äänestä tulee raakatekstiä. 3. Viimeistely, jossa tekoälymalli siistii raakatekstin. 4. Kontekstin soveltaminen, jossa tyyli mukautuu sen mukaan, minne teksti on menossa. 5. Toimitus, jossa siistitty teksti laskeutuu kursorisi kohdalle.
Jokaisella vaiheella on oma mallinsa, omat kompromissinsa ja omat kohtansa, joissa asiat voivat mennä pieleen. Kannattaa ymmärtää ne yksi kerrallaan.
Vaihe 1: Kaappaus, näin Macisi nappaa äänesi
Tämä osa ei ole hienosteleva. Painat pikanäppäintä (FN, Option+Space tai mitä sovellus käyttääkään) ja mikrofoni alkaa kuunnella. Sovellus tallentaa äänen muistiin, yleensä 16-bittisenä ja 16 kHz:n näytteenottotaajuudella, mitä transkriptiomalli odottaa.
Useimmat nykyaikaiset Macin sanelusovellukset eivät käytä puheentunnistusta käynnistämiseen ja pysäyttämiseen. Ne käyttävät pikanäppäintä. Pidä pohjassa puhuaksesi, vapauta lopettaaksesi. Syy on luotettavuus. Puheentunnistus kahvilan avoimella mikillä on kolikonheittoa. Näppäinpainallus ei.
Kaappauksen aikana tapahtuu muutamia asioita, joita et näe. Ääni puskuroidaan, sitä usein vaimennetaan kohinasta Applen sisäänrakennetulla äänikehyksellä, ja se pilkotaan paloihin. Jos puhut pidempään kuin palan pituus, yleensä 30 sekuntia, sovellus saattaa jakaa nauhoituksen ennen sen lähettämistä eteenpäin.
Vaihe 2: Transkriptio, näin Whisper muuttaa äänen sanoiksi
Tässä useimmat Macin tekoälysanelusovellukset päätyvät samaan teknologiaan: OpenAI:n Whisper-malliin. Whisper on puheentunnistusjärjestelmä, joka on koulutettu noin 5 miljoonan tunnin ääniaineistolla 99 kielellä. Nykyinen versio, large-v3, yltää noin 2,7 prosentin sanavirheasteeseen puhtaalla englanninkielisellä äänellä ja 8–12 prosenttiin meluisissa tosielämän nauhoituksissa.
Yksinkertaisesti sanottuna: puhu luonnollisesti ja noin 92–97 prosenttia sanoista transkriptoituu oikein ilman erityistoimia. Se on aivan eri tarkkuusluokka kuin Applen alkuperäinen sanelukone, ja juuri siksi kolmannen osapuolen sovellukset lähtivät lentoon.
Tässä karkeasti, mitä Whisper tekee äänellesi: - Pilkkoo nauhoituksen 30 sekunnin paloihin. - Muuntaa jokaisen palan spektrogrammiksi, visuaaliseksi esitykseksi äänestä taajuuksien ja ajan yli. - Syöttää spektrogrammin neuroverkolle, joka on oppinut yhdistämään äänikuviot sanoihin. - Ennustaa myös kielen, välimerkit ja lauseiden lopetuskohdat.
Malli voi pyöriä paikallisesti Macillasi (Apple Silicon hoitaa sen vaivatta) tai pilvessä. Paikallinen on yksityinen ja toimii ilman verkkoa. Pilvi on nopeampi vanhemmilla koneilla ja tukee suurempia malleja. Monet sovellukset antavat sinun valita.
Tämän vaiheen lopussa saat raakatranskription. Välimerkitetty, enimmäkseen tarkka, usein vähän sotkuinen. Tähän Applen sisäänrakennettu sanelu pysähtyy. Kiinnostavat sovellukset eivät.
Vaihe 3: Viimeistely, kerros joka muutti kaiken
Tämä on se vaihe, joka käänsi Macin sanelun "jokseenkin hyödyllisestä" siihen, että "en ole kirjoittanut sähköpostia viikkoihin".
Transkription jälkeen raakateksti lähetetään kielimallin läpi, yleensä GPT-4-luokan tai Claude, ohjeella jonka tyyliin: ``` Kirjoita tämä uudelleen siistinä, ammattimaisena tekstinä. Poista täytesanat ja vääriä aloituksia. Säilytä merkitys. Älä lisää mitään. ```
Tältä se näyttää käytännössä.
Mitä sanoit
*"Okei eli ööö, halusin palata, ööö, viime viikon ehdotukseen. Mä luulen, tiiäks, että meidän pitäisi varmaan edetä vaihtoehdolla kaksi? Joo, vaihtoehto kaksi. Voitsä, voitsä lähettää mulle sopimuksen perjantaiksi?"*
Mitä laskeutuu leikepöydällesi
*"Palaan viime viikon ehdotukseen. Haluan edetä vaihtoehdolla kaksi. Voisitko lähettää minulle sopimuksen perjantaihin mennessä?"*
Sama merkitys. Eri lukukokemus. Ja tapahtui alle kahdessa sekunnissa.

Tätä osaa on vaikea kuvailla ennen kuin kokeilet. Lakkaat ajattelemasta, miltä kuulostat. Lakkaat itsetoimittamasta puhuessasi. Sanot vain sen asian, samalla tavalla kuin sanoisit sen kollegalle, ja ulos tulee se versio, jonka olisit kirjoittanut, jos sinulla olisi ollut aikaa.
Jos jo sanelet, mutta menetät aikaa jälkikäteen tehtävään siivoukseen, tämä on se aukko, jonka Voicr täyttää. Pidä FN pohjassa, puhu miten haluat, ja se mikä osuu leikepöydällesi on jo siistittyä. Ei toista kierrosta, ei "pitää korjata tuo yksi lause", vain valmista tekstiä liitettäväksi.
Vaihe 4: Kontekstitietoisuus, eri tyyli eri sovelluksille
Tämä vaihe on uudempi. Se on myös se, joka erottaa parhaat Macin sanelusovellukset välttävistä.
Kohtelias, muodollinen sävy sopii asiakassähköpostiin. Se tuntuu oudolta Slack-viestissä tiimikaverille. Se on väärin koodikommenteissa. Hyvä sanelusovellus tunnistaa, missä sovelluksessa olet, ja säätää sen mukaan.
Mekanismi on yksinkertainen. Sovellus lukee, mikä ohjelma on fokuksessa. Se etsii tallentamasi tyylisäännön kyseiselle sovellukselle. Sitten se sisällyttää säännön kehotteeseen, joka menee viimeistelymallille.
Slack-sääntö voisi kuulua: ``` Pidä rento ja lyhyt. Ei korporaatiokieltä. Käytä puhekielisiä muotoja. Korkeintaan yksi tai kaksi lyhyttä lausetta. ``` Sähköpostisääntö voisi kuulua: ``` Kirjoita ammattimaisella sävyllä. Kokonaisia lauseita. Lisää tervehdys ja lopputervehdys, jos sisältö sitä vaatii. ```
Sama puhe sisään. Kaksi hyvin erilaista ulostuloa sen mukaan, mikä ikkuna on auki. Et säädä mitään. Puhut vain, ja oikea sävy tulee ulos.
Vaihe 5: Toimitus, näin teksti laskeutuu sinne minne tarvitset
Viimeinen vaihe on se, joka vei pisimpään saada kuntoon. Sinulla on siistitty teksti. Miten se nyt päätyy aktiiviseen tekstikenttääsi?
Yleisiä lähestymistapoja on kaksi: 1. Leikepöytäreitti. Sovellus kopioi siistityn tekstin leikepöydällesi ja laukaisee sitten liittämiskomennon (Cmd+V) macOS:n Accessibility-rajapintojen kautta. Nopea, luotettava, toimii lähes jokaisessa sovelluksessa. 2. Näppäimistösyöte. Sovellus simuloi kunkin merkin kirjoittamista yksi kerrallaan käyttäen esimerkiksi AppleScriptia tai samaa Accessibility-kehystä. Hitaampi, mutta toimii sovelluksissa, jotka estävät liittämisen (jotkin pankkisivustot, tietyt etätyöpöydät, salasananhallintaohjelmat).
Useimmat sovellukset käyttävät oletuksena leikepöytäliittämistä ja turvautuvat näppäimistösyötteeseen vain tarvittaessa. Lopputulos sinun näkökulmastasi: teksti ilmestyy kursorisi kohdalle noin puoli sekuntia pikanäppäimen vapauttamisen jälkeen. Ei sovellusten välillä vaihtamista, ei kopioimisvaihetta, ei tarkistusta.

Paikallinen vai pilvi: mitä oikeasti tapahtuu
Kysymys, joka tulee usein vastaan: minne ääneni menee?
Aitoja vaihtoehtoja on kaksi. Paikallinen prosessointi ajaa Whisper-mallin Macillasi. Äänesi ei poistu laitteelta. Apple Siliconilla (M1 ja uudemmat) paikallinen Whisper toimii riittävän nopeasti reaaliaikaiseen saneluun, yleensä alle sekunnin viiveellä. Kompromissi: viimeistelyvaihe menee silti tyypillisesti pilvimallille, koska 70 miljardin parametrin kielimallin paikallinen ajaminen ei ole realistista useimmilla kannettavilla. Jotkin sovellukset tarjoavat täysin paikallisen vaihtoehdon pienemmällä viimeistelymallilla laatua tinkien.
Pilviprosessointi lähettää sekä äänen että viimeistelyvaiheen etärajapintaan. Nopeampi vanhemmilla Maceilla, tukee suurimpia ja tarkimpia malleja. Kompromissi on yksityisyys. Puheesi poistuu laitteeltasi, vaikka se poistettaisiinkin heti transkription jälkeen.
Useimmille "paikallinen Whisper, pilviviimeistely" on oikea oletusasetus. Niille, jotka työskentelevät arkaluonteisen materiaalin parissa (lääketieteelliset muistiinpanot, juridiset luonnokset, yrityksen sisäinen tieto), täysin paikallinen on pienen laatuhaitan arvoinen. Hyvä sovellus antaa sinun valita nauhoituskohtaisesti tai asettaa oletuksen.
Missä tekoälysanelu vielä kompastuu
Rehellinen osio. Putki on hyvä. Se ei ole täydellinen.
Homonyymit menevät edelleen joskus pieleen. "Their" vs "there" vs "they're" osuu oikein useimmiten mutta ei aina. Viimeistely yleensä korjaa sen kontekstista, mutta ei jos ympäröivä lause on monitulkintainen.
Erisnimet ja erikoissanasto ovat arpapeliä. Whisper on nähnyt useimmat yleiset nimet ja teknologiatermit, mutta se rääväisee mitä tahansa erikoisalan sanaa. Lääkkeiden nimiä, koodikirjastojen nimiä, kollegasi epätavallista sukunimeä. Jotkin sovellukset antavat lisätä mukautetun sanakirjan, joka liimataan kehotteeseen.
Meluisat ympäristöt heikentävät tarkkuutta nopeasti. Whisper käsittelee kahvilamelua yllättävän hyvin, mutta puhelin, joka soi parin jalan päässä, tai joku joka puhuu vieressä, vetää sanoja pois transkriptiostasi.
Pitkät monologit ajautuvat sivuun. Malli on erinomainen 10–30 sekunnin sykäyksissä. Noin 90 sekunnin jälkeen se joskus kadottaa juonen, toistaa pätkiä tai ohittaa lyhyitä lauseita. Korjaus on yksinkertaisesti pysäyttää ja aloittaa nauhoitus paloissa.
Nämä rajoitukset ovat merkityksellisiä, kun olet alkutaipaleella. Mikään niistä ei ole esteen kokoinen, jos tiedät niiden olemassaolosta. Jos vertailet vaihtoehtoja, oppaamme parhaista Macin puheesta-tekstiksi-sovelluksista käy läpi, miten suuret sovellukset käsittelevät näitä kompromisseja.
Näin aloitat tekoälysanelun Macillasi tänään
Kolme käytännön vaihetta järjestyksessä.
1. Valitse yksi tehtävä, jota sanelet päivittäin viikon ajan. Sähköposti on hyvä aloituspaikka, sillä siinä on korkein kirjoittaminen-puheeksi-muuntosuhde (mietit yleensä joka tapauksessa ennen kirjoittamista). Älä yritä sanella kaikkea kerralla. Lopetat.
2. Totuttaudu puhumaan ei kenellekään. Ensimmäiset muutamat kerrat tuntuvat oudoilta, kun puhut ääneen hiljaisessa huoneessa. Tunne katoaa noin neljässä päivässä.
3. Valitse sovellus ja sitoudu. Hyviä vaihtoehtoja on koko hintaluokassa, Applen sisäänrakennetusta sanelusta avoimen lähdekoodin Whisper-työkaluihin ja täyden putken sovelluksiin. Jos haluat sen siistityn transkriboi-ja-liitä-virtauksen, joka kuvattiin yllä, Voicr tekee juuri sen. Pidä FN pohjassa, puhu, liitä. Whisper transkriptioon, vahva kielimalli viimeistelyyn ja sovelluskohtaiset kirjoitustyylit, jotka mukautuvat sinne, missä kursorisi on. Free-taso antaa 5 000 sanaa kuukaudessa ilman luottokorttia.
Tämän kaiken takana oleva putki on vihdoin riittävän hyvä, ettei sanelu ole enää kompromissi. Et vaihda laatua nopeuteen. Saat molemmat. Vaikein osa on vain päättää lopettaa kirjoittaminen.

