Как контекстный ИИ переписывает вашу речь под каждое приложение

Произнесите вслух одно предложение: «привет, скинь мне последние цифры, как будет минутка». То, куда оно отправится, и решает, во что оно должно превратиться. Бросьте его в Slack — и оно уже годится. Поместите в письмо клиенту — и нужны приветствие и более мягкая просьба. Запишите комментарием в Jira — и оно ужмётся до трёх слов: «Нужны последние цифры».

Вы делаете эту подстройку, не задумываясь. Ваш мозг считывает обстановку — какое приложение, какой человек, насколько формально — и перекраивает слова на выходе. Контекстный ИИ делает ту же работу автоматически с речью, которую вы диктуете.

Об этом стоит задуматься именно сейчас, потому что диктовка наконец стала хорошей. Говорить можно примерно со скоростью 150 слов в минуту — в три-четыре раза быстрее, чем 40 слов в минуту, которые большинство людей печатает. Но сырая речь не совпадает с тем, как хочет, чтобы вы писали, каждое отдельное приложение. Именно слой переписывания закрывает этот разрыв.

Одно предложение, шесть разных сообщений

Речь нейтральна по регистру. Когда вы говорите, вы не выбираете формат. Вы просто произносите мысль, а формат прикручивается потом — вами, когда вы решаете, куда она отправится.

С письмом всё наоборот. У каждого приложения, в котором вы печатаете, есть свои негласные правила о том, как должен выглядеть и звучать текст.

Возьмите ту же просьбу про цифры и посмотрите, как она меняет форму в зависимости от окна: - Slack: «Привет, скинешь последние цифры, как будет минутка?» - Письмо: «Здравствуйте, Мария! Когда у вас появится минута, не могли бы вы прислать последние цифры? Спасибо!» - Jira: «Нужны последние цифры.» - Заметка себе: «В ожидании: последние цифры от Марии.» - Сообщение коллеге: «скинешь последние цифры?»

Каждый раз — то же намерение. Пять поверхностей, пять разных правильных ответов. Вы и так выдаёте их все по запросу. Загвоздка в том, что каждый стоит вам маленькой перенастройки, которую вы едва замечаете, и происходит это постоянно. Исследование Harvard Business Review зафиксировало, что сотрудники переключаются между приложениями около 1200 раз в день — примерно раз в 24 секунды. Многие из этих переключений приносят с собой новый стиль письма.

Транскрибация против контекстного переписывания

Полезно развести две задачи, которые обычно валят в одну кучу. Транскрибация превращает звук в слова. Контекстное переписывание превращает эти слова в правильное сообщение для того места, куда они отправляются.

Обычная транскрибация останавливается на первом шаге. Встроенная диктовка Apple, большинство инструментов распознавания речи, живые субтитры в телефоне — все они выдают вам дословную запись того, что вы сказали, вместе со словами-паразитами и фальстартами.

Вот как на самом деле выглядит сырая расшифровка беглой мысли: ``` ну то есть да я вот думал нам наверное стоит типа перенести запуск на следующую неделю потому что это это QA ещё не закончен ну ты понял ```

Контекстное переписывание берёт ту же запись и задаёт второй вопрос: куда это отправляется и как оно должно там звучать? Если это сообщение в Slack для вашей команды, оно возвращается так: ``` Давайте перенесём запуск на следующую неделю. QA ещё не закончен. ```

Те же слова на входе, другие слова на выходе — сформированные пунктом назначения. Первое — это запись. Второе — то, что действительно можно отправить. Подробнее о стороне с шлифовкой текста — в нашем разборе того, как работает голосовая диктовка с ИИ.

Одна неряшливая голосовая расшифровка слева ветвится в три аккуратных сообщения справа: непринуждённая заметка в Slack, формальное письмо и короткий комментарий к задаче

Что «контекст» на самом деле значит для ИИ

«Контекстный» звучит расплывчато, пока не присмотришься к конкретным подсказкам, которые считывают эти инструменты. Ничего мистического тут нет. Контекст — это короткий список сигналов, которые ИИ проверяет, прежде чем тронуть хоть слово.

Активное приложение

Самый громкий сигнал — какое приложение в фокусе, когда вы говорите. Инструмент видит, что впереди Slack, или Gmail, или VS Code. Один этот факт сильно сужает стиль. Чат хочет коротко и свободно, почта — структурно и вежливо, редактор кода — лаконично и буквально.

Текст вокруг курсора

Некоторые инструменты считывают немного текста рядом с тем местом, где вы собираетесь печатать. Если сообщение выше начинается с «Уважаемый доктор Кац», ИИ держится формального тона и пишет имя правильно. Если переписка — это ворох однострочных шуток, он подстраивается под неё.

Сайт, а не просто браузер

Определение приложения мутнеет в браузере, где Gmail, X и документ Google Docs прячутся за одним и тем же окном. Инструменты получше смотрят на URL, чтобы их различить: вкладке Gmail достаётся почтовый тон, а вкладке X — хлёсткий пост.

Категория приложения

Вместо того чтобы держать правило для каждого приложения на свете, большинство систем сортируют их по горстке корзин: почта, рабочий чат, личные сообщения, документы, код и общая корзина для всего остального. У каждой корзины свой стиль. Новое приложение, попавшее в знакомую корзину, наследует её стиль с первого дня.

Сложите эти сигналы — и у ИИ появляется сносное понимание обстановки: формальное письмо названному человеку или брошенная реплика в непринуждённой переписке. Именно под это понимание он и переписывает.

Как ваша речь превращается в правильное сообщение

Выстройте детали в ряд — и всё это укладывается в четыре быстрых шага, происходящих за ту секунду-две между тем, как вы заканчиваете предложение, и тем, как появляется текст. 1. Захват. Вы удерживаете клавишу и говорите. Инструмент записывает, пока вы не отпустите. 2. Транскрибация. Речевая модель превращает звук в сырой текст — ваши слова ровно так, как вы их сказали. 3. Определение контекста. Инструмент проверяет активное приложение, текст рядом с курсором и то, в какую корзину попадает приложение. 4. Переписывание. Языковая модель берёт сырую расшифровку плюс этот контекст и пишет итоговое сообщение нужного размера и тона для места, куда оно отправляется.

На четвёртом шаге основную работу делает большая языковая модель. Она получает вашу неряшливую расшифровку и инструкцию, которая сводится к «это идёт в рабочее письмо, сделай так, чтобы читалось как письмо», а затем возвращает текст нужной длины, тона и формы. Результаты зависят от модели, так что относитесь к выводу как к сильному первому черновику, а не как к истине в последней инстанции.

Именно этот процесс Voicr и выполняет на macOS. Вы удерживаете клавишу FN и говорите из любого приложения. Voicr определяет, какое приложение впереди, применяет подходящий стиль через свои Smart Rules и кладёт отшлифованный текст в буфер обмена: непринуждённый в Slack, профессиональный в Gmail, обрезанный в редакторе. Вам никогда не нужно открывать меню, чтобы выбрать тон. Если хотите увидеть, как пишутся эти стили под каждое приложение, наш гид по умным правилам письма разбирает, из чего состоит хорошее правило.

Конвейер из четырёх шагов, показанный дружелюбными иконками: микрофон, захватывающий речь, расшифровка, лупа, определяющая активное приложение, и отшлифованное сообщение, падающее в буфер обмена

Два варианта: автоматическое определение и явные правила

Не всякая контекстность работает одинаково. Инструменты делятся на два лагеря, и разница в основном в том, кто решает, каким будет стиль.

Автоматический вариант принимает решение за вас. Он считывает приложение, относит его к категории и применяет встроенный стиль безо всякой настройки. Вы его устанавливаете — и оно просто работает. Плата за это — контроль: когда его представление о «тоне письма» не совпадает с вашим, вам приходится подправлять вывод вручную.

Явный вариант отдаёт руль вам. Вы пишете короткую инструкцию для каждого приложения простым языком, описывая ровно то, как оно должно звучать. Больше настройки заранее, но вывод соответствует вашему вкусу, потому что вкус задали вы. Правило для Slack может выглядеть так: ``` Перепиши как непринуждённое сообщение в Slack. Два-три предложения, сокращения допустимы, без приветствия и подписи. Лёгкие эмодзи — только если уместно. ```

Инструменты получше совмещают оба подхода: разумные настройки по умолчанию, работающие из коробки, плюс правила под каждое приложение, которые можно написать, когда вам не всё равно. На умолчания вы опираетесь для приложений, которыми почти не пользуетесь, а явные правила задаёте для тех двух-трёх, где ваше письмо действительно важно.

Что у него получается, а где он всё ещё спотыкается

Контекстное переписывание по-настоящему удобно, но это отправная точка, а не чтение мыслей. Знание того, где оно спотыкается, убережёт вас от слепого доверия.

Формат он берёт точно. Намерение он угадывает.

ИИ может понять, что вы в почте, и добавить приветствие. Он не способен надёжно определить, искренни вы или ироничны, и значит ли «нормально» — нормально, или то, что вы тихо в бешенстве. Тон внутри регистра — всё ещё ваша забота.

Неясные приложения сбивают его с толку

Браузер-универсал, терминал с запущенным чат-клиентом, заметки, в которые вы складываете всё подряд, — они дают слабые сигналы. Когда контекст мутный, переписывание откатывается к общей шлифовке, которая может оказаться более или менее формальной, чем вам хотелось.

Он может стереть ваш голос

Перегните с переписыванием — и ваши сообщения начнут звучать как у всех остальных: гладко, грамотно и немного безжизненно. Хорошие инструменты переводят ваш голос в нужный регистр, а не подменяют его корпоративным шаблоном. Если вывод перестал звучать как вы, ослабьте правила.

Перед отправкой вы всё равно читаете

Имя может выйти неверно. Цифра может соскользнуть. Пробегитесь по результату глазами, прежде чем выпустить его, — так же, как вы бы взглянули на автоисправленное сообщение перед отправкой.

Запускаем контекстное переписывание в дело

Хотите попробовать уже сегодня? Начните с двух приложений, в которых пишете больше всего, — обычно это мессенджер и почта. Продиктуйте там следующую горстку сообщений вместо того, чтобы печатать, и посмотрите, как мало правок вам придётся вносить после.

Затем обращайте внимание на промахи. Когда вывод не тот, это полезная информация. Она говорит вам, что стиль приложения нужно подкрутить или что намерение стоит произносить вслух яснее. Эти инструменты становятся острее, чем чётче вы говорите им, как должно звучать каждое приложение. Тот же приём работает в любом приложении, где вы пишете, а не только в двух очевидных, — как мы разбирали в материале про диктовку в любом приложении Mac одним нажатием.

Настоящий выигрыш — не только в скорости, хотя говорить втрое быстрее, чем печатать, — приятная фора. По-настоящему меняется то, что вы перестаёте таскать формат в голове. Вы думаете мысль, произносите её один раз и позволяете инструменту разобраться, какая версия куда подходит.

Скажи один раз — приземлится везде

Старая привычка — писать сообщение и формат в один и тот же момент: слова, тон, приветствие, подпись, всё за один проход, для каждого приложения, целый день напролёт. Контекстный ИИ делит эту рутину надвое. Вы приносите мысль. Он приносит формат.

Быстрее всего почувствовать разницу — продиктовать следующее письмо вместо того, чтобы печатать. Если вам нужна речь, которая появляется уже сформированной под то место, куда направляется, Voicr делает это на вашем Mac: удерживаете FN, говорите — и текст приземляется в правильном тоне для приложения, в котором вы находитесь. Одно предложение из ваших уст — правильное сообщение в каждом окне.