ИИ-диктовка на Mac: как это работает на самом деле

Курсор мигает в пустом письме. Вы знаете, что хотите сказать. Просто не хочется это печатать.

Диктовка на Mac существует с 2012 года, и большинство людей махнули на неё рукой уже давно. За последние полтора года ситуацию изменила ИИ-диктовка для Mac. Привычное «говоришь в микрофон и смотришь, как появляется стена опечаток» тихо сменилось чем-то, что действительно ощущается как письмо.

Вот что обычно опускают в статьях. Сложность давно не в распознавании речи — эту задачу уже решили. Изменился слой поверх него: тот, который берёт ваши сбивчивые мысли и превращает их в чистый текст ещё до того, как он окажется на экране. В этой статье разбираем весь конвейер по шагам, чтобы вы видели, что именно делает Mac между моментом, когда вы начали говорить, и моментом, когда отшлифованный текст появляется в черновике.

Почему диктовка на Mac наконец-то стала удобной

Возврат людей к диктовке объясняют две цифры. Средний человек печатает около 40 слов в минуту. Средний человек говорит со скоростью около 150 слов в минуту. То есть пока вы набираете одно слово, вы успеваете сказать примерно четыре.

Но дело никогда не было в скорости. Проблема была в результате. Старая диктовка выдавала буквальную расшифровку каждого «э-э», каждой паузы, каждого «нет, погоди, перепиши». Вы экономили 30 секунд на надиктовывании и тратили 90 на правки.

Современные приложения с ИИ-диктовкой решили это, добавив второй этап. Речь сначала проходит распознавание, как и раньше. Потом она попадает в языковую модель, которая переписывает её, как сделал бы аккуратный редактор. Слова-паразиты удалены. Грамматика поправлена. Предложения закончены. К моменту, когда текст появляется на экране, он читается так, будто вы написали его в свой лучший день.

Пять шагов ИИ-диктовки на Mac

Конвейер короткий. Пять шагов, большинство из которых невидимы: 1. Захват — Mac улавливает ваш голос. 2. Распознавание — аудио превращается в сырой текст. 3. Шлифовка — сырой текст приводится в порядок ИИ-моделью. 4. Контекст — стиль письма подстраивается под приложение, куда пойдёт текст. 5. Доставка — готовый текст оказывается под курсором.

У каждого шага своя модель, свои компромиссы и свои уязвимые места. Стоит разобрать по одному.

Шаг 1: Захват — как Mac улавливает ваш голос

Тут всё просто. Вы нажимаете горячую клавишу (FN, Option+Space или то, что использует ваше приложение), и микрофон начинает слушать. Приложение пишет аудио в память, обычно в формате 16 бит, 16 кГц — именно его ждёт модель распознавания.

Большинство современных приложений для диктовки на Mac не используют детекцию голосовой активности для старта и стопа. Они полагаются на горячую клавишу. Зажал — говоришь, отпустил — стоп. Причина — надёжность. Голосовая детекция при открытом микрофоне в кофейне — это лотерея. Нажатие клавиши — нет.

Во время захвата происходит кое-что, чего вы не видите. Аудио буферизуется, часто проходит шумоподавление через встроенный аудиофреймворк Apple и делится на куски. Если вы говорите дольше длины куска — обычно 30 секунд, — приложение может разделить запись, прежде чем отправить её дальше.

Шаг 2: Распознавание — как Whisper превращает звук в слова

Здесь почти все ИИ-приложения для диктовки на Mac сходятся на одной технологии: модели Whisper от OpenAI. Whisper — это система распознавания речи, обученная примерно на 5 миллионах часов аудио на 99 языках. Текущая версия, large-v3, даёт около 2,7% ошибок на словах на чистом английском аудио и от 8 до 12% на шумных реальных записях.

Простыми словами: говорите естественно — и примерно 92–97 процентов слов будут распознаны верно прямо из коробки. Это совсем другой уровень точности по сравнению с тем, что выдавал исходный движок диктовки Apple, — именно поэтому сторонние приложения и взлетели.

Примерно вот что Whisper делает с вашим аудио: - Режет запись на 30-секундные куски. - Превращает каждый кусок в спектрограмму — визуальное представление звука по частотам и времени. - Подаёт спектрограмму в нейросеть, которая научилась сопоставлять звуковые паттерны со словами. - Заодно предсказывает язык, пунктуацию и места, где заканчиваются предложения.

Модель может работать локально на вашем Mac (Apple Silicon справляется без проблем) или в облаке. Локальная версия приватная и работает офлайн. Облачная — быстрее на старом железе и поддерживает более крупные модели. Многие приложения дают выбор.

На выходе этого шага вы получаете сырую расшифровку. С пунктуацией, в основном точную, иногда чуть неряшливую. Именно здесь встроенная диктовка Apple останавливается. Интересные приложения — нет.

Шаг 3: Шлифовка — слой, который всё изменил

Это тот шаг, который превратил диктовку на Mac из «вроде полезной штуки» в «я уже неделями не печатаю писем руками».

После распознавания сырой текст отправляется в языковую модель — обычно уровня GPT-4 или Claude — с инструкцией вроде: ``` Перепиши это как чистый, профессиональный текст. Убери слова-паразиты и фальстарты. Сохрани смысл. Ничего не добавляй. ```

Вот как это выглядит на практике.

Что вы сказали

*«Так, э-э, я хотел уточнить, ну, по поводу того предложения с прошлой недели. Думаю, знаешь, наверное, нам стоит идти со вторым вариантом? Да, второй вариант. Можешь, можешь прислать мне договор до пятницы?»*

Что оказывается в буфере обмена

*«Возвращаясь к прошлонедельному предложению — хочу двигаться по второму варианту. Сможешь прислать договор до пятницы?»*

Тот же смысл. Совсем другое чтение. И всё это — меньше чем за две секунды.

Иллюстрация «до и после»: слева — сбивчивая сырая речь со словами-паразитами, справа — чистый отшлифованный текст

Это та часть, которую трудно описать, пока не попробуешь. Вы перестаёте думать о том, как звучите. Перестаёте редактировать себя во время речи. Просто говорите — так, как сказали бы коллеге, — и на выходе получаете ту версию, которую написали бы сами, будь у вас время.

Если вы уже диктуете, но теряете время на правки, именно этот разрыв и закрывает Voicr. Зажмите FN, говорите как угодно — и то, что попадает в буфер обмена, уже отшлифовано. Никакого второго прохода, никакого «надо поправить вон ту фразу» — просто чистый текст, готовый к вставке.

Шаг 4: Контекст — разные стили для разных приложений

Этот шаг новее. И именно он отличает по-настоящему хорошие приложения для диктовки на Mac от просто рабочих.

Вежливый, формальный тон уместен в письме клиенту. В сообщении коллеге в Slack он звучит странно. В комментариях к коду — неуместен. Хорошее приложение для диктовки понимает, в каком приложении вы находитесь, и подстраивается.

Механика простая. Приложение смотрит, какое окно сейчас активно. Подтягивает ваше сохранённое правило стиля для этого приложения. И вшивает это правило в промпт для модели-шлифовщика.

Правило для Slack может звучать так: ``` Пиши неформально и коротко. Никаких корпоративных оборотов. Используй сокращения. Максимум одно-два коротких предложения. ``` Правило для email может звучать так: ``` Пиши в профессиональном тоне. Полные предложения. Добавь приветствие и подпись, если этого требует содержание. ```

Один и тот же голосовой ввод. Два совершенно разных результата в зависимости от того, какое окно открыто. Ничего не нужно переключать. Вы просто говорите — и получаете нужный тон.

Шаг 5: Доставка — как текст попадает туда, где он нужен

Последний шаг — тот, который дольше всех доводили до ума. Готовый текст есть. Как теперь поместить его в активное текстовое поле?

Подходов два: 1. Через буфер обмена. Приложение копирует отшлифованный текст в буфер, потом вызывает команду вставки (Cmd+V) через Accessibility-API macOS. Быстро, надёжно, работает почти везде. 2. Эмуляция нажатий клавиш. Приложение имитирует ввод символов по одному — через AppleScript или тот же Accessibility-фреймворк. Медленнее, зато работает в приложениях, которые блокируют вставку (некоторые банковские сайты, отдельные удалённые рабочие столы, менеджеры паролей).

Большинство приложений по умолчанию используют вставку из буфера и откатываются к эмуляции клавиш только при необходимости. Со стороны это выглядит так: текст появляется под курсором примерно через полсекунды после того, как вы отпустили горячую клавишу. Без переключения окон, без шага «скопировать», без проверки.

Схема конвейера из пяти шагов: захват, распознавание, шлифовка, применение контекста и доставка — соединённые между собой кружки

Локальная и облачная обработка: что происходит на самом деле

Один из самых частых вопросов: куда уходит мой голос?

Реальных вариантов два. Локальная обработка запускает модель Whisper прямо на вашем Mac. Аудио никогда не покидает устройство. На Apple Silicon (начиная с M1) локальный Whisper работает достаточно быстро для диктовки в реальном времени — обычно задержка меньше секунды. Минус: шаг шлифовки обычно всё равно уходит в облачную модель, потому что крутить языковую модель на 70 миллиардов параметров локально на ноутбуке нереалистично. Некоторые приложения предлагают полностью локальный режим с урезанной моделью-шлифовщиком — ценой качества.

Облачная обработка отправляет в удалённый API и аудио, и шлифовку. Быстрее на старых Mac, поддерживает самые крупные и точные модели. Компромисс — приватность. Ваша речь покидает устройство, даже если её удаляют сразу после распознавания.

Для большинства пользователей оптимальный дефолт — «локальный Whisper, облачная шлифовка». Тем, кто работает с чувствительными данными (медицинские записи, юридические черновики, внутренние документы компании), полностью локальный режим стоит небольшого проигрыша в качестве. Хорошее приложение даёт выбор для каждой записи или позволяет задать значение по умолчанию.

Где ИИ-диктовка всё ещё спотыкается

Честный раздел. Конвейер хороший. Но не идеальный.

Омофоны всё ещё путаются. В английском their / there / they're чаще угадывает правильно, но не всегда. В русском похожая история с парами вроде «компания» и «кампания», «преумножить» и «приумножить». Шлифовка обычно ловит ошибку по контексту — но не если окружающее предложение само по себе неоднозначно.

Имена собственные и жаргон — лотерея. Whisper видел большинство распространённых имён и технических терминов, но всё узкоспециальное он коверкает. Названия лекарств, имена код-библиотек, необычная фамилия вашего коллеги. Некоторые приложения позволяют добавить свой словарь, который подмешивается в промпт.

Шумная обстановка быстро портит точность. Whisper удивительно хорошо справляется с гулом кафе, но звонящий в двух шагах телефон или разговор рядом — и слова начинают выпадать из расшифровки.

Длинные монологи плывут. Модель отлично работает на отрезках в 10–30 секунд. После примерно 90 секунд она иногда теряет нить, повторяет фрагменты или пропускает короткие фразы. Лечится тем, чтобы записывать кусками — с остановками.

Эти ограничения важно знать на старте. Ни одно из них не является приговором, если вы о них помните. Если вы ещё выбираете, наш обзор лучших приложений для голосового ввода на Mac разбирает, как с этими компромиссами справляются основные игроки.

Как начать пользоваться ИИ-диктовкой на Mac уже сегодня

Три практических шага, по порядку.

1. Выберите одну задачу, которую будете диктовать каждый день в течение недели. Email — хороший старт: у него самый высокий коэффициент перевода «напечатано → проговорено» (вы и так обычно думаете перед тем, как написать). Не пытайтесь сразу диктовать всё подряд. Бросите.

2. Привыкните говорить в пустоту. Первые несколько раз вам будет странно говорить вслух в тихой комнате. Это проходит дня за четыре.

3. Выберите приложение и держитесь его. Достойные варианты есть в любом ценовом сегменте — от встроенной диктовки Apple до open-source инструментов на базе Whisper и полноценных приложений со всем конвейером. Если вам нужен описанный выше поток «надиктовал — отшлифовалось — вставилось», Voicr делает именно это. Зажали FN, сказали, вставили. Whisper для распознавания, сильная языковая модель для шлифовки и стили письма под каждое приложение, подстраивающиеся под то, где сейчас курсор. Бесплатный тариф даёт 5 000 слов в месяц, без привязки карты.

Конвейер за всем этим наконец стал достаточно хорош, чтобы диктовка перестала быть компромиссом. Вы не меняете качество на скорость. Вы получаете и то, и другое. Самое сложное — просто решиться перестать печатать.