Будем ли мы печатать через 10 лет? Компьютер, в котором главное — голос

Голос считают будущим компьютеров уже лет пятнадцать. Siri вышла в 2011-м. И каждый год с тех пор кто-нибудь публикует статью о том, что дни клавиатуры сочтены. И каждый год вы продолжаете печатать.

Вот вопрос, к которому стоит отнестись скептически: с чего бы следующим десяти годам нарушить эту закономерность? Думаю, нарушат — но не по той причине, которую называют в восторженных статьях. Голос проигрывал все эти годы не потому, что был медленным. Он проигрывал из-за того, что происходило *после* того, как вы договорили.

На этом разрыве стоит задержаться. То единственное, что реально сдерживало голос, недавно тихо решилось — и большинство людей этого ещё не заметили. Это разбор будущего, где главное голос, и честные оговорки оставлены на месте.

Прогноз, который всё время не сбывается

Есть один технологический прогноз, который возвращается раз в пару лет, как комета: печать умирает, голос берёт верх. Он звучал на старте Siri, потом Alexa, потом с каждой новой волной приложений для диктовки. Клавиатуру вот-вот заменят. Так и не заменили.

Если хотите понять почему, посмотрите, что происходит, когда человек впервые пробует встроенную диктовку на своём Mac. Он наговаривает абзац. Текст возвращается со всеми «эээ», двумя склеенными вместе фальстартами и фразой, растянувшейся на сорок слов, потому что человек не сделал паузу. Он тратит несколько минут на правку, решает, что напечатать было бы быстрее, и за неделю тихо возвращается к клавиатуре.

Вот и вся история того, почему голос продолжал проигрывать. Обещали «перестаньте печатать». На деле получалось «печатайте меньше, правьте больше». Люди отказывались от голоса не потому, что он за ними не поспевал. Они отказывались, потому что чистка отнимала ровно столько времени, сколько экономила речь.

Голос никогда не был медленной частью

Вот что теряется в этих спорах. По чистой скорости вопрос был закрыт ещё десять лет назад, и голос выиграл его легко.

Уверенный машинист печатает около 40 слов в минуту. Спокойная речь идёт почти в 150 слов в минуту без малейших усилий. А голос у вас в голове — тот, что складывает фразу, пока пальцы ещё не догнали мысль, — летит ещё быстрее. Печать в этой цепочке с большим отрывом самое слабое звено.

И это не прикидка на салфетке. В 2016 году исследователи из Стэнфорда, Baidu и Вашингтонского университета провели прямое сравнение: наговорить текст в телефон оказалось втрое быстрее, чем набрать его большими пальцами, и при этом устный вариант давал *на 20 процентов меньше* ошибок. Быстрее и точнее, в одном и том же тесте, десять лет назад.

Так что скорость никогда не была загвоздкой. Узкое место сидело на шаг ниже по течению — в том сыром тексте, который вам потом возвращали. Почините этот шаг, и всё уравнение меняется.

Что на самом деле изменилось: слой ИИ между речью и текстом

Недостающим звеном никогда не был микрофон получше. Им был слой, способный превратить сырую речь в готовый текст без того, чтобы вы доводили его сами. Чтобы это стало возможным, примерно одновременно дозрели две вещи.

Во-первых, расшифровка стала по-настоящему хорошей. Ведущие речевые модели сейчас держат меньше 5 процентов ошибок на словах на чистой разговорной английской речи, а открытые модели вроде Whisper подбираются к 3 процентам. Сам захват речи больше не слабое звено.

Во-вторых — и вот настоящий перелом — большие языковые модели стали достаточно хороши, чтобы *переписывать* расшифровку, а не просто её сохранять. Та же модель, что набрасывает за вас письмо, может взять ваш сбивчивый монолог, выкинуть слова-паразиты, поправить грамматику и разбить сплошную стену речи на нормальные абзацы. Результат перестаёт быть записью того, что вы сказали, и становится черновиком того, что вы имели в виду.

Этот второй слой решает всё. Это разница между диктовкой, которая выдаёт вам домашнее задание, и диктовкой, которая выдаёт то, что можно отправить как есть. Ровно эту работу и делает Voicr: вы удерживаете одну клавишу и говорите как обычно, а текст, который попадает в буфер обмена, уже отшлифован — «эээ» убраны, фразы причёсаны. Тот налог на чистку, что двадцать лет хоронил голос, — как раз ту часть он тихо берёт на себя.

Сдвиг уже виден в цифрах

Будь это просто красивая теория, цифры использования держались бы на месте. Но они не держатся.

Число пользователей голосовых ассистентов в США по прогнозам перевалит за 157 миллионов в 2026 году, и примерно треть людей теперь ищет голосом каждый день, а не печатает запросы. В карманах и на столах уже лежат миллиарды устройств, понимающих голос. Эта привычка не ждёт ничьего разрешения — она расходится.

Самый чёткий сигнал идёт от самых молодых работников. Исследование, о котором написал Fortune предполагает, что поколение «альфа» может прийти на работу, ни разу не написав официального письма, и вместо этого по умолчанию слать боссу голосовые. Выживет письмо или нет, направление трудно не заметить: для тех, кто вырос, удерживая кнопку записи, чтобы поговорить, напечатать абзац — это уже медленный вариант.

Восходящий линейный график из маленьких речевых облачков, показывающий рост распространения голосового ввода со временем

Ничто из этого не значит, что клавиатура исчезнет в следующем квартале. Это значит, что вариант по умолчанию смещается. Будущее, где главное голос, — уже не прогноз; это линия тренда, которую можно проследить прямо сейчас, и указывает она в одну сторону.

Как на самом деле выглядит компьютер, в котором главное голос

«Главное голос» звучит как фантастическая кухня, которая с вами разговаривает. Реальная версия тише — и, честно говоря, полезнее.

Это значит, что голос становится способом по умолчанию перенести мысль на страницу, а клавиатура — инструментом, к которому вы тянетесь, чтобы её доработать. Вы наговариваете письмо, ответ в Slack, грубый первый черновик, заметку самому себе. Потом перечитываете и парой нажатий правите ту единственную фразу, что вышла не так. Захват голосом, правка руками.

А по-настоящему пригодным для жизни это делает тон. С боссом вы говорите не так, как в общем чате, и инструмент, который сводит всё к одному голосу, бросают быстро. Подход, где главное голос, подстраивает результат под адресата: непринуждённо в чате, собранно в письме, сухо в комментарии к коду. Вы каждый раз говорите одинаково, а текст подстраивается под обстановку. О том, как это изменило мой собственный ежедневный рабочий процесс, я писал в материале как я использую ИИ, чтобы сократить разрыв между мыслью и письмом.

Обратите внимание, чем эта картина не является. Это не мир без клавиатур. Это мир, где вы сначала говорите, а потом печатаете, вместо того чтобы набирать всё с нуля.

Что остаётся за клавиатурой

Разбор будущего, где главное голос, который делает вид, что клавиатура становится бесполезной, доверия не заслуживает. Есть реальные задачи, с которыми голос справляется плохо, и в ближайшее время они никуда не денутся.

Кое-что остаётся быстрее напечатать: - Код и всё, где много символов. Диктовка ловит слова, но путается в скобках, нижних подчёркиваниях и точных именах переменных. Код вы всё равно печатаете. - Шумные или общие пространства. Говорить с ноутбуком в тихой комнате нормально. Делать это в набитой электричке или в опенспейсе рядом с тем, кто на созвоне, — нет. - То, что вы предпочли бы не произносить вслух. Жёсткая обратная связь, деликатный ответ, сообщение, которое не должен услышать сосед. Клавиатура приватна так, как голос не бывает. - Точечная правка. Когда черновик в целом готов, переставить запятую или заменить одно слово быстрее клавишей, чем целой фразой.

Дружелюбная разделённая сцена: микрофон для речи и клавиатура для правки работают бок о бок

Так что часть ответа на вопрос «будем ли мы печатать» — это просто «да», вот ради этого. Меняется то, что клавиатура перестаёт быть штукой, которой вы делаете всё, и становится узким инструментом, который берёшь в руки, когда голос не подходит. Это понижение, а не вымирание.

Что приходит после голоса

Если заглядывать на все десять лет вперёд, голос — даже не конечная остановка. Более футуристичные способы ввода уже в лабораториях.

Meta показала браслет, который считывает электрические сигналы в ваших мышцах, позволяя «печатать» крошечными движениями пальцев по любой поверхности, без всякой клавиатуры. Это по-настоящему впечатляющая разработка. Но взгляните на цифры: первые тестировщики набирали жестами руки около 21 слова в минуту. Это обгоняет какой-то набор большими пальцами и далеко превосходит его как средство доступности, но это всё ещё доля тех 150 слов в минуту, что вы получаете, просто говоря.

Вот тихая суть всего этого. На обозримое будущее ваш голос — самый быстрый канал между мыслью и готовым текстом, не считая хирургии и научной фантастики. Нейроввод придёт, и важнее всего он окажется для тех, кому неудобно говорить или печатать. Для всех остальных голос — это мост, который мы переходим первым, и он уже здесь.

Так будем ли мы печатать?

Да. Но в пределах десяти лет печать становится исключением, а не рефлексом. Она превращается в то, к чему тянешься, когда голос не подходит к моменту, — как сегодня тянешься к ручке: полезно, осознанно и больше не основной способ что-то писать.

Причина, по которой в этот раз всё иначе, никак не связана с тем, что голос стал быстрее. Он всегда был быстрее. Дело в том, что чистка наконец взята на себя, так что говорить больше не значит записываться на сеанс правки следом. Уберите этот налог — и самому медленному инструменту на вашем столе почти нечем оправдать себя в повседневном письме.

Чтобы проверить посылку, не обязательно верить десятилетнему прогнозу на слово. Возьмите следующий ответ, которому нужно больше двух строк. Вместо того чтобы печатать, удержите клавишу диктовки, скажите, что имеете в виду, не выстраивая фразу заранее, и перечитайте, что получилось. А если хотите, чтобы вышло отшлифованным, а не сырым, — ровно ради этого и существует Voicr: удерживаете FN, говорите, вставляете, и текст появляется чистым и подстроенным под приложение, в котором вы работаете. Бесплатный тариф покрывает 5000 слов в месяц — этого с лихвой хватит, чтобы выяснить, не живёте ли вы уже в том будущем, которое всё обещают заголовки.