Jak modele językowe sprawiają, że zamiana mowy na tekst wreszcie ma sens

Pewnie raz spróbowałeś dyktowania, poddałeś się i wróciłeś do klawiatury. Większość ludzi tak zrobiła. Co dziwne, zwykle nie miało to nic wspólnego z tym, że słowa wychodziły źle.

Rozpoznawanie mowy stało się dokładne lata temu. Współczesne modele transkrybują czystą mowę z dokładnością na poziomie około 95%. Powód, dla którego dyktowanie wciąż wydawało się bezużyteczne, jest taki, że dokładna transkrypcja tego, jak naprawdę mówisz, to bałagan. Duże modele językowe to element, który to naprawił, i zmieniły one to, do czego nadaje się zamiana mowy na tekst.

Przez większość swojej historii zamiana mowy na tekst była oceniana według jednego kryterium: czy dobrze rozpoznała słowa? Okazało się, że to złe pytanie. Trafne rozpoznanie słów nigdy nie było tym, co dzieliło cię od pisania głosem. Oto co naprawdę się zmieniło.

Zamiana mowy na tekst nigdy nie była problemem transkrypcji

Przez dekady każdy zespół zajmujący się rozpoznawaniem mowy gonił za tą samą liczbą: współczynnikiem błędów słów, czyli WER. Liczy on, ile słów system rozpoznaje błędnie. Im niżej, tym lepiej, i cała dziedzina pod to się optymalizowała.

I w większości wygrali. Whisper od OpenAI transkrybuje czyste nagranie z błędem słów na poziomie około 2,7%. Na bardziej zaszumionych nagraniach z prawdziwego świata, takich jak spotkanie, kawiarnia czy rozmowa telefoniczna, jest to bliżej 8 do 12%. Ludzcy transkrybenci plasują się około 4 do 6%. Różnica jest niewielka i wciąż się kurczy.

Czyli dokładność została mniej więcej rozwiązana. Ale zapytaj kogokolwiek, kto rzucił dyktowanie w 2018 roku, dlaczego przestał, a prawie nikt nie powie „za dużo literówek”. Powiedzą, że było toporne albo że wynik wymagał tylu poprawek, że gra nie była warta świeczki.

To jest właśnie ten sygnał. Wąskim gardłem nigdy nie była transkrypcja. Było nim wszystko, co dzieje się po tym, jak słowa są już poprawne.

Jak wygląda surowa transkrypcja twojej mowy

Oto czego nikt cię nie uprzedza: nie mówisz czystymi zdaniami. Nikt tak nie mówi.

Kiedy mówisz naturalnie, cofasz się, zaczynasz od nowa, urywasz w pół zdania i wrzucasz „eee”, „no” i „wiesz”. Twój mózg redaguje to wszystko na bieżąco, a ty nawet tego nie zauważasz. Silnik transkrypcji zauważa wszystko i zapisuje każdy kawałek.

Załóżmy, że dyktujesz krótką wiadomość do współpracownika. Z czystego transkrybenta wraca ona wyglądając tak:

*„okej więc eee chciałem dopytać o tę tę sprawę z wczoraj, ten raport, możesz yyy przesłać go jak będziesz mieć chwilę, nie ma pośpiechu czy coś”*

Każde słowo jest poprawne. I jest to nie do użytku. Poprawianie tego zajęłoby ci więcej czasu, niż zaoszczędziłeś, wypowiadając to na głos. To jest właśnie ten moment, w którym większość ludzi rezygnuje z dyktowania na dobre.

Porównanie obok siebie: po lewej zabałaganiona surowa transkrypcja głosu pełna słów wypełniaczy, po prawej czysta, dopracowana wiadomość

Co tak naprawdę dodają duże modele językowe

Transkrybent odpowiada na jedno pytanie: jakie dźwięki wydała ta osoba? Model językowy odpowiada na inne: co ta osoba miała na myśli i jak powinno to brzmieć?

To drugie pytanie to cała gra. Model językowy bierze zabałaganioną transkrypcję i przepisuje ją tak, jak zrobiłby to staranny redaktor. Usuwa wypełniacze, kończy twoje urwane zdania, poprawia gramatykę i zachowuje twój sens. Powyższa wiadomość staje się:

*„Cześć, możesz przesłać wczorajszy raport, jak będziesz mieć chwilę? Nie ma pośpiechu.”*

Ten sam zamiar, czytelny za pierwszym razem. Transkrypcja wcale się tu nie poprawiła. Zmieniła się druga warstwa siedząca na wierzchu, która wykonuje redakcję, którą inaczej musiałbyś zrobić sam.

To coś więcej niż produktowy trik. Badacze badają to wprost. Praca z 2024 roku z konferencji ACM CHI o nazwie Rambler wykazała, że pozwolenie ludziom na luźne mówienie i użycie modelu językowego do przeredagowania „sedna” dawało lepsze teksty mniejszym wysiłkiem niż pisanie na klawiaturze czy surowe dyktowanie. Mówienie to sposób, w jaki myślimy na głos. Model zajmuje się tą częścią, którą nasze mózgi zwykle pomijają.

Inne prace wskazują w tym samym kierunku. Badania nad doszlifowywaniem transkrypcji przez modele językowe pokazują, że przepuszczenie mowy przez model językowy po rozpoznaniu redukuje błędy i poprawia czytelność, zwłaszcza w przypadku homofonów i zależnych od kontekstu zwrotów, których zwykły transkrybent nie potrafi sam rozplątać.

Kontekst to druga połowa

Uporządkowanie transkrypcji to pierwsze zadanie. Wiedza o tym, jaki rodzaj tekstu chciałeś uzyskać, to drugie, i tu robi się ciekawie.

„Wyślij mi prezentację do końca dnia” sprawdza się w wiadomości na Slacku do członka zespołu. Jest za bezpośrednie do maila do klienta. Słowa są w porządku; nie pasuje rejestr. Model językowy potrafi odczytać tę sytuację i dostosować ton, bo rozumie kontekst, nie tylko dźwięk.

W praktyce to samo wypowiedziane zdanie może wyjść swobodnie w jednej aplikacji i dopracowanie w innej. Nie zmieniasz sposobu, w jaki mówisz. To model zmienia sposób, w jaki pisze, w zależności od tego, dokąd zmierza tekst.

Dokładnie to robią Inteligentne Reguły Voicr. Raz ustawiasz luźny ton dla Slacka i formalny dla maila, a Voicr zauważa, w której aplikacji jesteś, i automatycznie stosuje właściwy styl. Przytrzymaj FN, powiedz, co masz do powiedzenia, a wersja, która ląduje w schowku, już pasuje do miejsca, w którym za chwilę ją wkleisz.

Prawdziwa zmiana: przestajesz mówić do komputera

Stare dyktowanie zmuszało cię do występu. Musiałeś mówić skończonymi zdaniami, na głos wypowiadać „przecinek” i „nowy akapit” oraz porzucić swoje zwykłe nawyki mówienia. Robiłeś redakcję w głowie, w czasie rzeczywistym, mówiąc. To było wyczerpujące, dlatego nigdy się nie przyjęło.

Zamiana mowy na tekst oparta na modelach językowych zdejmuje to zadanie z twoich barków. Możesz dygresować. Możesz zmienić zdanie w połowie wypowiedzi. Możesz mówić tak, jak tłumaczyłbyś coś znajomemu, a czysta wersja i tak się pojawi.

To brzmi jak drobiazg. A to cała różnica między obsługiwaniem narzędzia a zwykłym myśleniem na głos.

Szybkość też jest realna. Większość ludzi mówi około 150 słów na minutę, a pisze około 40. Badanie Uniwersytetu Stanforda wykazało, że wprowadzanie tekstu głosem na telefonie było trzy razy szybsze niż pisanie, przy mniejszej liczbie błędów. Ale szybkość przestała być głównym argumentem, gdy wynik stał się dobry. Prawdziwy atut jest taki, że nie gubisz już toku myśli na rzecz klawiatury. Rozłożyliśmy tę matematykę na czynniki pierwsze w tekście dlaczego twój głos jest szybszy niż klawiatura.

Gdzie modele językowe wciąż psują zamianę mowy na tekst

To jest naprawdę lepsze, ale nie magiczne. Ta sama inteligencja, która czyści twój tekst, może też przesadzić, i warto wiedzieć gdzie.

Może zmienić twój sens. Kiedy model „poprawia” zdanie, czasem wygładza szczegół, na którym ci zależało, albo źle zgaduje twój zamiar. Im bardziej techniczne lub nietypowe twoje sformułowanie, tym wyższe ryzyko. Cokolwiek ważnego przeczytaj szybko, zanim wyślesz.

Nazwy i żargon wciąż go potykają. Transkrypcja dobrze radzi sobie z popularnymi słowami, a gorzej z nazwami własnymi, nazwami produktów i specjalistycznymi terminami. Model może zgadywać z kontekstu, ale z przekonaniem przekręci nazwisko twojego współpracownika.

Homofony nie są w pełni rozwiązane. Słowa typu „morze” i „może” zwykle trafiają dobrze, bo pomaga kontekst, ale nie za każdym razem.

Dodaje chwilę opóźnienia. Czysty transkrybent jest niemal natychmiastowy. Uruchomienie drugiego modelu do doszlifowania kosztuje od ułamka sekundy do paru sekund. Warte jakości, ale nie jest darmowe.

Żaden z tych punktów nie jest dyskwalifikujący, gdy już wiesz, że istnieją. To powód, dla którego nawyk szybkiego przeczytania przed wysłaniem wciąż się opłaca. Jeśli chcesz pełnego obrazu tego, jak ten potok działa od początku do końca, napisaliśmy przewodnik krok po kroku po dyktowaniu głosowym AI na Macu.

Diagram pokazujący dwie ułożone na sobie warstwy: warstwę transkrypcji zamieniającą dźwięk w słowa oraz warstwę językową zamieniającą słowa w czysty tekst

Co to oznacza dla tego, jak piszesz

Model myślowy, który warto zachować, to taki, że zamiana mowy na tekst to teraz dwa narzędzia złożone razem:

1. Warstwa transkrypcji, która zamienia dźwięk w trafne słowa. 2. Warstwa językowa, która zamienia te słowa w tekst, który naprawdę dobrze się czyta.

Czysta transkrypcja to wciąż właściwy wybór, gdy potrzebujesz dokładnego zapisu. Wywiady, notatki prawne, wszystko, gdzie liczy się każde „eee”. Do całej reszty, jak maile, wiadomości, dokumenty i notatki, to warstwa szlifująca sprawia, że mówienie jest szybsze niż pisanie, a nie tylko bardziej zabałaganione.

Więc kiedy wybierasz narzędzie, prawdziwym pytaniem nie jest „jak dokładna jest transkrypcja”. Większość jest już blisko siebie. Pytanie brzmi „jak dobra jest warstwa na wierzchu”. Nasze porównanie najlepszych aplikacji do zamiany mowy na tekst na Maca pokazuje, które z nich robią tę część dobrze.

Jak wypróbować zamianę mowy na tekst doszlifowaną przez model językowy

Najszybszy sposób, by poczuć różnicę, to podyktować następny mail zamiast go pisać, a potem spojrzeć na to, co pojawi się w wersji roboczej. Nie będzie to surowa transkrypcja, którą pamiętasz sprzed lat. Będzie się czytać tak, jakbyś napisał to w dobrym dniu.

Jeśli chcesz to bez sklejania narzędzi ze sobą, Voicr robi obie warstwy w jednym kroku. Przytrzymaj FN, mów jak chcesz, puść, a dopracowany tekst ląduje w schowku gotowy do wklejenia. Korzysta z Whisper do transkrypcji i modelu językowego do szlifowania, ze stylami per aplikacja, tak by ton pasował tam, gdzie piszesz. Darmowy plan to 5000 słów miesięcznie, bez karty kredytowej.

Zamiana mowy na tekst wreszcie działa tak, jak zawsze powinna. Nie dlatego, że maszyny lepiej cię słyszą, ale dlatego, że w końcu nauczyły się rozumieć, co miałeś na myśli.