Як LLM роблять голосовий ввід по-справжньому корисним

Ви, мабуть, колись спробували голосовий ввід, махнули рукою й повернулися до клавіатури. Так зробила більшість. Дивно те, що зазвичай справа була зовсім не в неправильно розпізнаних словах.

Розпізнавання мовлення стало точним ще багато років тому. Сучасні моделі транскрибують чисте мовлення з точністю близько 95%. Причина, чому диктування все одно здавалося марним, у тому, що точна стенограма того, як ви насправді говорите, — це суцільний безлад. Великі мовні моделі — це та частина, яка все виправила, і вони змінили те, для чого голосовий ввід узагалі годиться.

Майже всю свою історію голосовий ввід оцінювали за одним: чи правильно він розпізнав слова? Виявилося, що це хибне запитання. Правильно розпізнані слова ніколи не були тим, що стояло між вами й письмом голосом. Ось що змінилося насправді.

Голосовий ввід ніколи не був проблемою транскрипції

Десятиліттями кожна команда з розпізнавання мовлення гналася за тим самим показником — рівнем помилок у словах, або WER. Він рахує, скільки слів система розпізнає неправильно. Що нижчий, то краще, і вся галузь оптимізувалася саме під нього.

І здебільшого вони перемогли. Whisper від OpenAI транскрибує чисте аудіо з рівнем помилок близько 2,7%. На безладніших реальних записах — нараді, кав'ярні чи телефонній розмові — він наближається до 8–12%. Люди-транскрибувальники мають близько 4–6%. Розрив невеликий і досі зменшується.

Тож точність більш-менш вирішили. Але запитайте будь-кого, хто кинув диктування у 2018-му, чому він припинив, — і майже ніхто не скаже «забагато помилок». Кажуть, що було незручно або що результат потребував стільки виправлень, що воно не вартувало мороки.

Ось у чому суть. Вузьким місцем ніколи не була транскрипція. Ним було все те, що відбувається після того, як слова вже правильні.

Який вигляд має сира стенограма вашого мовлення

Ось про що вас ніхто не попереджає: ви не говорите чистими реченнями. Ніхто так не говорить.

Коли ви говорите природно, ви повертаєтеся назад, починаєте спочатку, обриваєте думку й вставляєте «е-е», «типу» й «ну знаєш». Ваш мозок редагує все це на льоту, а ви навіть не помічаєте. Двигун транскрипції помічає геть усе й записує кожну дрібницю.

Скажімо, ви диктуєте швидке повідомлення колезі. У чистого транскрибувальника воно повертається ось таким:

*«ну от е-е я хотів уточнити щодо щодо того вчорашнього, того звіту, можеш е-е надіслати його коли буде хвилинка, без поспіху чи як там»*

Кожне слово правильне. І воно ж непридатне для використання. На його виправлення ви витратите більше часу, ніж зекономили, проговоривши його. Саме в цей момент більшість остаточно кидала диктування.

Порівняння поряд: ліворуч безладна сира голосова стенограма зі словами-паразитами, праворуч — чисте відшліфоване повідомлення

Що насправді додають великі мовні моделі

Транскрибувальник відповідає на одне запитання: які звуки видала ця людина? Мовна модель відповідає на інше: що ця людина мала на увазі і як це має читатися?

Це друге запитання — і є вся суть. LLM бере безладну стенограму й переписує її так, як це зробив би уважний редактор. Вона прибирає слова-паразити, завершує ваші недомовлені фрази, виправляє граматику й зберігає зміст незмінним. Повідомлення вище перетворюється на:

*«Привіт, можеш надіслати вчорашній звіт, коли буде нагода? Без поспіху.»*

Той самий намір, читається з першого разу. Транскрипція тут не стала кращою. Змінився другий шар, що сидить поверх неї й робить те редагування, яке інакше довелося б робити вам самим.

Це більше, ніж продуктовий трюк. Дослідники вивчають це безпосередньо. Стаття 2024 року з конференції ACM CHI під назвою Rambler показала, що якщо дати людям говорити вільно й використати LLM для переформування «суті», письмо виходить кращим і з меншими зусиллями, ніж набір тексту чи сире диктування. Мовлення — це спосіб думати вголос. Модель бере на себе ту частину, яку наш мозок зазвичай пропускає.

Інші роботи вказують у тому ж напрямку. Дослідження уточнення стенограм на основі LLM показують, що прогін мовлення через мовну модель після розпізнавання зменшує кількість помилок і покращує читабельність, особливо для омофонів і залежних від контексту фраз, які звичайний транскрибувальник не може розрулити самотужки.

Контекст — це друга половина

Очищення стенограми — це перше завдання. Розуміння того, який саме текст вам був потрібен, — друге, і ось тут стає цікаво.

«Скинь мені презентацію до кінця дня» годиться для повідомлення колезі у Slack. Для листа клієнту це занадто різко. Слова нормальні; не той регістр. Мовна модель може зчитати цю ситуацію й підкоригувати тон, бо вона розуміє контекст, а не лише звук.

На практиці одне й те саме вимовлене речення може вийти невимушеним в одному застосунку й відшліфованим в іншому. Ви не змінюєте того, як говорите. Модель змінює те, як пише, залежно від того, куди прямує текст.

Саме це й роблять Smart Rules у Voicr. Ви один раз задаєте розслаблений тон для Slack і формальний для пошти, а Voicr помічає, у якому застосунку ви перебуваєте, і застосовує потрібний стиль автоматично. Затисніть FN, скажіть потрібне — і версія, що лягає вам у буфер обміну, уже пасує туди, куди ви збираєтеся її вставити.

Справжній зсув: ви перестаєте говорити до комп'ютера

Старе диктування змушувало вас грати роль. Доводилося говорити завершеними реченнями, вимовляти «кома» й «новий абзац» уголос і відмовлятися від звичних мовних звичок. Ви робили редагування подумки, у реальному часі, поки говорили. Це виснажувало — тому воно й не прижилося.

Голосовий ввід на основі LLM знімає це завдання з ваших плечей. Можна базікати. Можна передумати посеред речення. Можна говорити так, як ви пояснювали б щось другові, — і чиста версія однаково з'явиться.

Звучить як дрібниця. Але це і є вся різниця між тим, щоб керувати інструментом, і тим, щоб просто думати вголос.

Швидкість теж реальна. Більшість людей говорить близько 150 слів за хвилину, а друкує близько 40. Дослідження Стенфорда виявило, що голосовий ввід на телефоні втричі швидший за набір тексту, і з меншою кількістю помилок. Але швидкість перестала бути головною принадою, щойно результат став хорошим. Справжня принада в тому, що ви більше не губите хід думки через клавіатуру. Ми розібрали цю математику в матеріалі чому ваш голос швидший за клавіатуру.

Де LLM усе ще псують голосовий ввід

Це справді краще, а не магія. Той самий інтелект, що очищає ваш текст, може й перестаратися, тож варто знати, де саме.

Він може змінити ваш зміст. Коли модель «виправляє» речення, вона часом згладжує деталь, яку ви хотіли залишити, або помиляється з вашим наміром. Що технічніше чи незвичніше ваше формулювання, то вищий ризик. Усе важливе швидко перечитуйте, перш ніж надсилати.

Імена й жаргон досі збивають його з пантелику. Транскрипція добре справляється зі звичними словами й має проблеми з власними назвами, назвами продуктів і спеціалізованими термінами. Модель може здогадатися з контексту, але впевнено перекрутить прізвище вашого колеги.

Омофони вирішені не до кінця. «Їх», «там» і подібні зазвичай лягають правильно, бо допомагає контекст, але не щоразу.

Він додає крихту затримки. Чистий транскрибувальник майже миттєвий. Прогін другої моделі для шліфування коштує від частки секунди до пари секунд. Заради якості воно того варте, але безкоштовним не буває.

Жодне з цього не є вироком, щойно ви знаєте, що воно існує. Саме тому звичка швидко перечитати перед надсиланням досі окупається. Якщо хочете повну картину того, як цей конвеєр працює від початку до кінця, ми написали покроковий гайд із голосового диктування на основі ШІ на Mac.

Схема з двома накладеними шарами: шар транскрипції перетворює звук на слова, а мовний шар перетворює слова на чистий текст

Що це означає для того, як ви пишете

Ментальна модель, яку варто тримати в голові, така: голосовий ввід тепер — це два інструменти, складені разом:

1. Шар транскрипції, що перетворює звук на точні слова. 2. Мовний шар, що перетворює ці слова на текст, який справді добре читається.

Чиста транскрипція досі правильний вибір, коли вам потрібен точний запис. Інтерв'ю, юридичні нотатки, усе, де важливе кожне «е-е». Для всього іншого — листів, повідомлень, документів і нотаток — саме шар шліфування робить так, що говорити стає швидше, ніж друкувати, а не просто неохайніше.

Тож коли ви обираєте інструмент, справжнє запитання не «наскільки точна транскрипція». Зараз майже всі близькі. Запитання — «наскільки хороший шар поверх неї». Наше порівняння найкращих застосунків для голосового вводу на Mac розкладає по поличках, які з них роблять цю частину добре.

Як спробувати голосовий ввід із шліфуванням від LLM

Найшвидший спосіб відчути різницю — продиктувати наступний лист замість того, щоб його набирати, а потім подивитися, що з'явиться в чернетці. Це буде не та сира стенограма, яку ви пам'ятаєте з минулих років. Це читатиметься так, ніби ви написали це у вдалий день.

Якщо хочете цього без зшивання інструментів докупи, Voicr робить обидва шари за один крок. Затисніть FN, говоріть як завгодно, відпустіть — і відшліфований текст ляже вам у буфер обміну, готовий до вставлення. Для транскрипції він використовує Whisper, а для очищення — мовну модель, з постилями для кожного застосунку, щоб тон пасував усюди, де ви пишете. Безкоштовний тариф — 5000 слів на місяць, без банківської картки.

Голосовий ввід нарешті працює так, як завжди мав би. Не тому, що машини стали краще вас чути, а тому, що вони нарешті навчилися розуміти, що ви мали на увазі.