Как LLM делают голосовой ввод по-настоящему полезным

Скорее всего, вы однажды попробовали голосовой ввод, бросили это дело и вернулись к клавиатуре. Так поступило большинство. И самое странное, что причина обычно была вовсе не в том, что слова распознавались неправильно.

Распознавание речи стало точным уже много лет назад. Современные модели расшифровывают чистую речь с точностью около 95%. Голосовой ввод всё равно казался бесполезным потому, что точная расшифровка того, как вы говорите на самом деле, выглядит как каша. Большие языковые модели — это та деталь, которая всё исправила, и они изменили то, для чего вообще нужен голосовой ввод.

Почти всю свою историю голосовой ввод оценивали по одному критерию: правильно ли он распознал слова? Это оказался неверный вопрос. Правильное распознавание слов никогда не было тем, что мешало вам писать голосом. Вот что изменилось на самом деле.

Голосовой ввод никогда не был проблемой расшифровки

Десятилетиями каждая команда, работавшая над распознаванием речи, гналась за одной и той же цифрой — частотой ошибок в словах, или WER. Она показывает, сколько слов система распознала неправильно. Чем меньше, тем лучше, и вся отрасль оптимизировала именно её.

В основном они победили. Whisper от OpenAI расшифровывает чистый звук с частотой ошибок около 2,7%. На более грязных реальных записях — совещание, кафе или телефонный звонок — она ближе к 8–12%. У живых расшифровщиков получается примерно 4–6%. Разрыв небольшой и продолжает сокращаться.

Так что точность более-менее решили. Но спросите любого, кто забросил голосовой ввод в 2018 году, почему он перестал им пользоваться — почти никто не скажет «слишком много опечаток». Скажут, что было неудобно или что результат приходилось так долго доводить до ума, что оно того не стоило.

Вот в чём подсказка. Узким местом никогда не была расшифровка. Им было всё, что происходит после того, как слова уже распознаны верно.

Как выглядит сырая расшифровка вашей речи

Вот о чём вас никто не предупреждает: вы не говорите аккуратными предложениями. Никто так не говорит.

Когда вы говорите естественно, вы возвращаетесь назад, начинаете заново, обрываете фразу на полуслове и вставляете «эм», «ну» и «как бы». Ваш мозг редактирует всё это на лету, и вы этого даже не замечаете. А движок расшифровки замечает всё и записывает каждую мелочь.

Допустим, вы надиктовываете короткое сообщение коллеге. От чистого расшифровщика оно вернётся примерно таким:

*«так ну эм я хотел уточнить насчёт этой этой штуки со вчера, отчёт, можешь э скинуть его когда будет минутка, не срочно или там как хочешь»*

Каждое слово распознано верно. И при этом всё это невозможно использовать. На правку такого текста вы потратите больше времени, чем сэкономили, надиктовав его. Именно в этот момент большинство людей окончательно отказывались от голосового ввода.

Сравнение бок о бок: слева сырая беспорядочная расшифровка голоса со словами-паразитами, справа — чистое, отшлифованное сообщение

Что на самом деле добавляют большие языковые модели

Расшифровщик отвечает на один вопрос: какие звуки издал этот человек? Языковая модель отвечает на другой: что человек имел в виду и как это должно читаться?

Весь смысл — именно во втором вопросе. LLM берёт беспорядочную расшифровку и переписывает её так, как сделал бы внимательный редактор. Она убирает слова-паразиты, дописывает ваши недосказанные фразы, исправляет грамматику и сохраняет смысл. Сообщение выше превращается в:

*«Привет, можешь скинуть вчерашний отчёт, когда будет свободная минута? Не срочно.»*

Тот же смысл, но читается с первого раза. Расшифровка здесь ничуть не стала лучше. Изменился второй слой поверх неё, который делает за вас ту правку, которую вы иначе делали бы сами.

Это больше, чем продуктовый трюк. Исследователи изучают это напрямую. В работе 2024 года с конференции ACM CHI под названием Rambler выяснилось, что если позволить человеку говорить свободно, а LLM использовать для пересборки «сути», получается текст лучше и с меньшими усилиями, чем при наборе на клавиатуре или сырой диктовке. Речь — это то, как мы думаем вслух. А модель берёт на себя ту часть, которую наш мозг обычно проскакивает.

Другие исследования указывают в ту же сторону. Работы по доработке расшифровок с помощью LLM показывают, что прогон речи через языковую модель после распознавания снижает число ошибок и улучшает читаемость — особенно для омофонов и зависящих от контекста фраз, которые обычный расшифровщик сам разобрать не может.

Контекст — это вторая половина дела

Привести расшифровку в порядок — первая задача. Понять, какой именно текст вам был нужен, — вторая, и вот тут начинается самое интересное.

«Пришли мне презентацию к концу дня» вполне сойдёт для сообщения коллеге в Slack. Но для письма клиенту это слишком резко. Слова нормальные, а тон не тот. Языковая модель способна считать ситуацию и подстроить тон, потому что она понимает контекст, а не просто звук.

На практике одна и та же произнесённая фраза в одном приложении может выйти непринуждённой, а в другом — отшлифованной. Вы не меняете манеру речи. Модель меняет манеру письма в зависимости от того, куда отправится текст.

Именно это и делают умные правила Voicr. Вы один раз задаёте расслабленный тон для Slack и официальный для почты, а Voicr замечает, в каком приложении вы находитесь, и автоматически применяет нужный стиль. Зажмите FN, скажите, что нужно, — и версия, которая ложится в буфер обмена, уже подходит туда, куда вы собираетесь её вставить.

Главная перемена: вы перестаёте разговаривать с компьютером

Старая диктовка заставляла вас играть роль. Приходилось говорить законченными предложениями, проговаривать вслух «запятая» и «новый абзац» и забывать о привычной манере речи. Вы редактировали текст в голове, в реальном времени, прямо во время разговора. Это выматывало — поэтому и не прижилось.

Голосовой ввод на основе LLM снимает эту работу с ваших плеч. Можно рассуждать вслух. Можно передумать на середине предложения. Можно говорить так, как вы объясняли бы что-то другу, — и чистая версия всё равно появится.

Звучит как мелочь. А на деле это вся разница между управлением инструментом и тем, чтобы просто думать вслух.

Скорость тоже реальна. Большинство людей говорят примерно 150 слов в минуту, а печатают около 40. Исследование Стэнфорда показало, что голосовой ввод на телефоне был втрое быстрее набора и с меньшим числом ошибок. Но скорость перестала быть главным аргументом, как только результат стал хорош. Настоящий плюс в том, что вы больше не теряете нить мысли из-за клавиатуры. Эту математику мы разобрали в статье почему голос быстрее клавиатуры.

Где LLM всё ещё ошибаются с голосовым вводом

Это действительно лучше, но не волшебство. Тот же интеллект, что вычищает ваш текст, может и переусердствовать, и стоит знать, где именно.

Он может изменить смысл. Когда модель «исправляет» предложение, она иногда сглаживает деталь, которая была вам нужна, или неверно угадывает ваше намерение. Чем техничнее или необычнее ваша формулировка, тем выше риск. Что-то важное перечитывайте перед отправкой.

Имена и жаргон всё ещё ставят его в тупик. Расшифровка хорошо справляется с обычными словами и спотыкается на именах собственных, названиях продуктов и узких терминах. Модель может догадаться по контексту, но фамилию вашего коллеги уверенно перепишет неправильно.

Омофоны решены не до конца. Например, «компания» и «кампания» обычно встают на места, потому что помогает контекст, но не всегда.

Он добавляет долю задержки. Чистый расшифровщик работает почти мгновенно. Прогон второй модели для шлифовки стоит от доли секунды до пары секунд. Ради качества оно того стоит, но бесплатно это не даётся.

Ни одна из этих проблем не критична, если знать о них заранее. Именно из-за них привычка быстро перечитать текст перед отправкой всё ещё себя оправдывает. Если хотите целиком понять, как этот конвейер работает от начала до конца, мы написали пошаговое руководство по голосовому вводу с ИИ на Mac.

Схема из двух уровней: слой расшифровки превращает звук в слова, а языковой слой превращает слова в чистый текст

Что это значит для того, как вы пишете

Полезно держать в голове такую модель: голосовой ввод теперь — это два инструмента, поставленные друг на друга:

1. Слой расшифровки, который превращает звук в точные слова. 2. Языковой слой, который превращает эти слова в текст, который и правда хорошо читается.

Чистая расшифровка по-прежнему верный выбор, когда вам нужна точная запись. Интервью, юридические заметки — всё, где важно каждое «эм». Для всего остального — писем, сообщений, документов и заметок — именно слой шлифовки делает так, что говорить становится быстрее, чем печатать, а не просто беспорядочнее.

Поэтому, выбирая инструмент, на самом деле стоит спрашивать не «насколько точна расшифровка». Сейчас почти все близки. Вопрос в том, «насколько хорош слой поверх неё». Наше сравнение лучших приложений для голосового ввода на Mac разбирает, кто из них делает эту часть хорошо.

Как попробовать голосовой ввод со шлифовкой через LLM

Быстрее всего почувствовать разницу так: надиктуйте следующее письмо вместо того, чтобы печатать, а потом посмотрите, что оказалось в черновике. Это будет не та сырая расшифровка, которую вы помните по прошлым годам. Текст будет читаться так, будто вы написали его в свой лучший день.

Если хотите получить это, не сшивая инструменты вручную, Voicr делает оба слоя за один шаг. Зажмите FN, говорите как угодно, отпустите — и отшлифованный текст ложится в буфер обмена, готовый к вставке. Для расшифровки используется Whisper, для доводки — языковая модель, а стили под каждое приложение подгоняют тон туда, где вы пишете. На бесплатном тарифе доступно 5000 слов в месяц, без карты.

Голосовой ввод наконец-то работает так, как и должен был с самого начала. Не потому, что машины стали лучше вас слышать, а потому, что они наконец научились понимать, что вы имели в виду.