Я был на середине ответа в Slack, когда меня осенило. Я уже двенадцать секунд держал в голове одно и то же предложение, пока пальцы добивали первые четыре слова. Мой мозг простаивал, ожидая, когда руки его догонят.
Именно тогда я всерьёз взялся за голосовой ввод. Не та вялая попытка «попробую надиктовать заметку на встрече», от которой я уже дважды отказывался. Целый месяц — каждое длинное сообщение, каждое письмо, каждый документ. Вот что из этого вышло на самом деле.
Со стороны звучит как маркетинговый хайп, пока не посмотришь на цифры. Средний человек печатает примерно 40 слов в минуту. Тот же человек говорит со скоростью 130–150. Исследователи из Стэнфорда провели сравнение ещё в 2017 году и зафиксировали, что голосовой ввод примерно в 3 раза быстрее набора на телефоне, даже у тех, кто печатает быстро. То же соотношение в основном сохраняется и на клавиатуре Mac.
Математика жестокая: 40 слов в минуту против 150
Сразу проясним этот момент. Большинство нетренированных взрослых печатают примерно 38–40 слов в минуту. Опытные машинистки, те, кто никогда не смотрит на клавиатуру, доходят до 65. Разговорная английская речь — это 130–150 слов в минуту. Даже против быстрого наборщика это больше чем в 2 раза. Против среднего человека — почти в 3,75 раза.
Это в теории. На практике интереснее. Когда впервые засекаешь время на надиктованное письмо против напечатанного, разрыв оказывается меньше, чем обещает математика. Почему? Потому что печать — это одно действие. А диктовка — это сказать, потом вычитать, потом, может быть, надиктовать заново одно предложение, потом вставить. Налог на правку съедает выигрыш.
Решение — в инструменте. Старая диктовка отдаёт тебе сырой транскрипт со всеми «эээ», «нуу», «то есть, ну, я хочу сказать». Новые инструменты в один шаг превращают это в чистый текст. Когда правка идёт автоматически, тройной выигрыш становится реальным.
Как «в 3 раза быстрее» выглядит в реальном рабочем дне
Вот мой обычный вторник до того, как я перешёл на голос. Шесть длинных сообщений в Slack (~80 слов каждое), четыре письма (~120 слов каждое), два коротких документа (~400 слов), несколько односложных ответов. Итого напечатанного: около 1800 слов. Время за клавиатурой, без учёта обдумывания: примерно 45 минут.
Тот же объём после перехода. Общее время надиктовки с правкой — около 14 минут. Почти ровно в 3 раза меньше. Удивило не сэкономленное время. Удивило то, куда оно делось. Я перестал открывать черновик, уходить, возвращаться и переписывать всё заново. Мысль выходила из головы и оказывалась на экране за один проход.

Где диктовка хорошо работает у меня: - Длинные треды в Slack - Ответы по почте длиннее двух предложений - Заметки прямо во время встречи - Первые черновики чего угодно - Документы-«мозговой штурм» - Голосовые заметки, которые потом превращаются в документы
Где не помогает: - Короткие ответы («понял», «спасибо») - Код - Структурированные таблицы - Пароли - Всё, над чем нужно думать слово за словом
Первая неделя была провальной. Вот что пошло не так.
На третий день я почти бросил. Первая проблема — вообще разговаривать с компьютером. Было ощущение наигранности. Я начинал фразу, терял уверенность, останавливался, и получался полуразобранный обрывок мысли, который дольше править, чем напечатать.
Вторая проблема — я слишком старался. Говорил так, будто диктую официальное письмо: медленно, аккуратно, выговаривая каждое слово. Текст возвращался роботизированным, и преимущество в скорости исчезало. Я просто плохо печатал ртом.
Решение оказалось противоположным тому, что я ожидал. Говорить быстрее, а не медленнее. Говорить так, как объясняешь что-то коллеге — со всеми оговорками и «нет, погоди, давай я скажу иначе». Хороший инструмент с авто-правкой это вычистит. Перестань диктовать. Просто говори.
Прорыв: понять, когда не надо диктовать
Что превратило голосовой ввод из «иногда экспериментирую» в «способ ввода по умолчанию» — это простая ментальная модель: голос для *первых черновиков*, клавиатура для *правок*. Клавиатура точная. Голос быстрый. Надиктуй сырой вариант, а потом клавиатурой поправь то одно слово, которое распозналось не так.
Задним числом это звучит очевидно. В начале это было совсем не очевидно. Я упорно пытался надиктовать идеальный текст и злился, когда обработанный результат был *не таким*, как мне хотелось. По-настоящему помогло снизить требования к надиктованному черновику. Вытащи идею наружу. Поправь за две секунды клавиатурой. Дальше.
Поэтому так важна обработка на лету. Если приходится сначала надиктовать, потом вручную убрать слова-паразиты, потом исправить грамматику, потом отформатировать под нужное приложение — преимущество в скорости исчезает. Весь смысл в том, чтобы правка происходила автоматически. К моменту, когда ты замолкаешь, текст уже готов к вставке. Voicr на Mac именно это и делает: зажал FN, сказал, отпустил, вставил. Чистка идёт в фоне.
Рабочая схема, которая прижилась (Slack, почта, документы)
Через месяц у меня устоялись три сценария. Каждый требовал чуть разной настройки.

Slack и чаты
Здесь был самый большой скачок. Я пишу много длинных сообщений в Slack: объяснения решений, разборы инцидентов, длинные треды. Раньше на них уходило по десять минут. Теперь — три. Надиктовываю сообщение одним заходом, вставляю, бегло проверяю опечатки, отправляю. (В статье Голос в Slack на Mac разобрана настройка под каждый канал.)
Почта
От почты я ждал самого большого выигрыша, а сначала получил самые грязные результаты. Проблема: у писем есть тон. Нельзя надиктовать ответ начальнику так же, как сообщение коллеге в Slack. Решение — стиль под каждое приложение. Формальный для почты, неформальный для чатов. (Подробнее — в Как диктовать письма на Mac.)
Документы и заметки
Документы — самый странный случай. Короткие заметки отлично заходят: надиктовал, вставил, готово. Длинные документы — нет, потому что там мышление структурное. Ты не пишешь предложения. Ты выстраиваешь разделы, переставляешь блоки, переделываешь структуру. Длинные документы я надиктовываю абзац за абзацем, а структуру держу на клавиатуре.
Что я выиграл помимо скорости
3x — это заголовок. Неожиданные плюсы оказались крупнее.
Меньше недописанных черновиков. Когда печать — узкое место, каждое длинное сообщение начинается как черновик, который ты якобы допишешь позже. Большинство из них так и умирает в папке черновиков. Голос сокращает разрыв между мыслью и текстом. Теперь я отправляю то, что раньше лежало бы неотправленным дня по два.
Меньше нагрузки на запястья. Не буду утверждать, что голосовой ввод вылечил мне руки. Но разница между 6 часами печати и 2 часами вполне реальна, и к вечеру пятницы запястья её чувствуют.
Лучшие первые черновики. Это стало сюрпризом. Когда проговариваешь мысль вслух, ты естественным образом строишь её так, как объяснил бы человек. Напечатанные черновики обычно скованнее. Они читаются как написанные — потому что они и написаны. Надиктованные звучат как живая речь, а это обычно и нужно.
Подвох, о котором никто не предупреждает
Два реальных минуса. У обоих есть обходные пути, но о них стоит знать заранее.
Нельзя диктовать в опенспейсе. Или в кофейне. Или где угодно, где рядом другой человек на расстоянии слуха. Звучит банально, но это ограничение серьёзнее, чем кажется. Если ты работаешь в общем пространстве, голосовой ввод — инструмент «только из дома», а это режет общий выигрыш в продуктивности.
Налог на правку остаётся даже с хорошими инструментами. Он маленький. Скажем, одна правка на абзац вместо одной на предложение. Но он не нулевой. Математика всё равно с огромным запасом в твою пользу, но рассчитывать на нулевую правку — путь к разочарованию.
Как попробовать это всерьёз и не сдаться за три дня
Несколько правил, которые я бы хотел получить в первый же день.
Начинай с одного приложения, а не сразу со всех. Выбери то, где ты больше всего пишешь длинные тексты низкой важности. У меня это Slack. Используй голос только в этом приложении и только в нём — целую неделю. Не пытайся перевести на голос весь рабочий процесс разом.
Дай себе неделю скепсиса. Третий день будет плохим. Пятый — нормальным. На седьмой ты начнёшь чувствовать разрыв, возвращаясь к печати. Если бросишь на третий день, до седьмого ты не доберёшься.
Бери инструмент, который сразу обрабатывает текст. Это главный фактор. Голые транскриберы съедают весь твой выигрыш на ручной правке. Только инструмент, который сам убирает слова-паразиты, чинит грамматику и выстраивает текст, реально даёт ту самую трёхкратную скорость.
Никогда не диктуй при других людях. Не потому, что громко (нет, не громко). А потому, что зажатость убьёт скорость. На первый месяц выбери тихое место.
С чего начать
Честный итог: голосовой ввод работает. Не в смысле «это всё меняет», как обещает маркетинг. В смысле «я освобождаюсь к четырём дня». 3x — реальная цифра, а любой инструмент, который не берёт на себя обработку текста, и есть причина, по которой люди бросают диктовку на первой неделе.
Самый быстрый способ проверить это на себе — надиктовать следующее длинное сообщение в Slack вместо того, чтобы его печатать. Если хочется, чтобы обработка происходила сама — речь сразу превращалась в готовый к вставке текст и подстраивалась под каждое приложение — это и делает Voicr на Mac. Зажми FN откуда угодно, говори тридцать секунд, отпусти, вставь. Попробуй на одном сообщении завтра утром. К концу недели поймёшь, реальны ли эти 3x лично для тебя.

