Чи будемо ми ще друкувати через 10 років? Голосові обчислення

Голос називають майбутнім обчислень уже років п'ятнадцять. Siri вийшла у 2011 році. Відтоді щороку хтось пише статтю про те, що дні клавіатури полічені. І щороку ви продовжуєте друкувати.

Тож ось питання, до якого варто поставитися скептично: чому наступні десять років мали б порушити цю закономірність? Я вважаю, що порушать, але не з тієї причини, яку наводять захоплені статті. Голос програвав усі ці роки не тому, що був повільним. Він програвав через те, що відбувалося *після* того, як ви закінчували говорити.

На цьому розриві варто зупинитися. Те єдине, що насправді стримувало голос, нещодавно тихенько вирішили, і більшість людей цього ще не помітила. Ось аргумент на користь голосових обчислень, із чесними деталями, які зазвичай замовчують.

Прогноз, який постійно виявляється хибним

Є технологічний прогноз, який повертається кожні кілька років, наче комета: друк відмирає, голос бере гору. Він з'явився із Siri, потім з Alexa, а далі — з кожною новою хвилею застосунків для диктування. Клавіатуру щоразу ось-ось мали замінити. Так і не замінили.

Якщо хочете зрозуміти чому, поспостерігайте, що стається, коли хтось уперше пробує вбудоване диктування на своєму Mac. Людина промовляє абзац. У транскрипті повертається кожне «е-е» цілим, два склеєних докупи невдалих початки фрази й речення, що розтягнулося на сорок слів, бо вона не зробила пауз. Вона витрачає кілька хвилин на вичитку, вирішує, що друкувати було б швидше, і за тиждень тихенько повертається до клавіатури.

Ось і вся історія про те, чому голос постійно програвав. Обіцянка була «припиніть друкувати». Реальність була «друкуйте менше, редагуйте більше». Люди відмовлялися від голосу не тому, що він за ними не встигав. Вони відмовлялися, бо вичитка з'їдала весь час, який вдалося заощадити на мовленні.

Голос ніколи не був повільною ланкою

Ось деталь, яка губиться в усіх цих суперечках. Щодо чистої швидкості цей аргумент закрили десятиліття тому, і голос виграв його легко.

Упевнений друкар на настільній клавіатурі видає близько 40 слів за хвилину. Спокійне мовлення без жодних зусиль тримається на рівні 150 слів за хвилину. Голос у вашій голові — той, що складає речення раніше, ніж за ним устигають пальці, — мчить ще швидше. Друк у цьому ланцюжку — найповільніша ланка з величезним відривом.

І це не просто прикидка на серветці. У 2016 році дослідники зі Стенфорда, Baidu й Вашингтонського університету провели пряме порівняння: надиктувати текст у телефон було втричі швидше, ніж набрати його великими пальцями, до того ж усний варіант мав на *20 відсотків нижчий* рівень помилок. Швидше й точніше в одному тесті — десять років тому.

Тож швидкість ніколи не була перешкодою. Вузьке місце ховалося на крок далі — у недоладному транскрипті, який вам вручали потому. Полагодьте цей крок — і вся рівняння змінюється.

Що насправді змінилося: шар ШІ між мовленням і текстом

Бракувало ніколи не кращого мікрофона. Бракувало шару, здатного перетворювати сире мовлення на готовий текст без того, щоб ви самі його доводили до ладу. Дві речі дозріли приблизно одночасно й зробили це можливим.

По-перше, транскрипція стала по-справжньому хорошою. Провідні мовленнєві моделі зараз дають менше ніж 5 відсотків помилок на рівні слів на чистій розмовній англійській, а відкриті моделі на кшталт Whisper наближаються до 3 відсотків. Саме захоплення звуку вже не є слабкою ланкою.

По-друге — і це справжній зсув — великі мовні моделі стали достатньо вправними, щоб *переписувати* транскрипт, а не просто його зберігати. Той самий тип моделі, що складає чернетку листа, може взяти ваше усне бурмотіння, прибрати воду, виправити граматику й розбити суцільну стіну мовлення на справжні абзаци. Результат перестає бути записом того, що ви сказали, і стає чернеткою того, що ви мали на увазі.

Цей другий шар — і є вся суть. Це різниця між диктуванням, яке підкидає вам домашнє завдання, і диктуванням, що віддає текст, який можна надіслати як є. Саме цю роботу й виконує Voicr: ви затискаєте одну клавішу й говорите звичайно, а текст, що потрапляє у ваш буфер обміну, уже відшліфований — без «е-е» й з причесаними реченнями. Податок на вичитку, який двадцять років убивав голос, — це саме та частина, з якою він тихо впорається за вас.

Зсув уже видно в даних

Якби це була просто гарна теорія, ви очікували б, що показники використання стоять на місці. Це не так.

Використання голосових асистентів у США за прогнозами перевищить 157 мільйонів людей у 2026 році, і приблизно третина людей тепер щодня запускає пошук голосом, а не набирає його. У кишенях і на столах уже лежать мільярди пристроїв з підтримкою голосу. Така поведінка не чекає на дозвіл — вона поширюється.

Найчіткіший сигнал надходить від наймолодших працівників. Дослідження, висвітлене Fortune припускає, що покоління Альфа може прийти на роботу, жодного разу не написавши офіційного листа, а замість цього за замовчуванням надсилаючи голосові повідомлення своєму керівнику. Виживе електронна пошта чи ні, напрямок важко не помітити: для людей, які виросли, затискаючи кнопку запису, щоб поговорити, надрукувати абзац уже здається повільнішим варіантом.

Висхідний лінійний графік, складений з маленьких хмаринок мовлення, що показує зростання використання голосового вводу з часом

Ніщо з цього не означає, що клавіатура зникне наступного кварталу. Це означає, що зміщується замовчуваний вибір. Голос-перш-за-все — це вже не прогноз; це лінія тренду, яку можна простежити вже зараз, і вона вказує в один бік.

Як насправді виглядають голосові обчислення

«Голос-перш-за-все» звучить як науково-фантастична кухня, що відповідає вам репліками. Справжня версія тихіша за це й, чесно кажучи, корисніша.

Це означає, що голос стає замовчуваним способом перенести думку на сторінку, а клавіатура — інструментом, до якого ви тягнетеся, щоб її відшліфувати. Ви проговорюєте лист, відповідь у Slack, чорнову першу чернетку, нотатку самому собі. Потім перечитуєте й виправляєте кількома натисканнями ту єдину фразу, що прозвучала не так. Захоплення голосом, редагування руками.

Те, що робить це справді придатним для життя, — це тон. Ви не говорите з керівником так, як у груповому чаті, і інструмент, що сплющує все в один голос, швидко закидають. Налаштування «голос-перш-за-все» підлаштовує результат під те, куди він прямує: невимушено в чаті, офіційно в листі, лаконічно в коментарі до коду. Ви говорите щоразу однаково, а текст зміщується, щоб пасувати до ситуації. Я писав про те, як це змінило мій власний щоденний робочий процес, у статті як я використовую ШІ, щоб закрити розрив між думкою та письмом.

Зверніть увагу, чим ця картина не є. Це не світ без клавіатур. Це світ, де ви спершу говорите, а друкуєте потім, замість того щоб набирати все з нуля.

Що залишається за клавіатурою

Аргументу на користь голосових обчислень, який вдає, що клавіатура стане непотрібною, не варто довіряти. Є реальні завдання, з якими голос справляється погано, і вони нікуди не зникнуть найближчим часом.

Деякі речі залишаються швидшими, коли їх друкувати: - Код і все, що рясніє символами. Диктування вловлює слова, але плутається в дужках, підкресленнях і точних назвах змінних. Код ви досі друкуєте. - Гамірні чи спільні простори. Говорити з ноутбуком у тихій кімнаті — нормально. Робити це в переповненому потязі чи в опен-спейсі поряд з кимось на дзвінку — ні. - Усе, що ви радше не казали б уголос. Жорсткий відгук, делікатна відповідь, повідомлення, яке ви не хочете, щоб почув сусід. Клавіатура приватна так, як голос не буває. - Точкове редагування. Коли чернетка вже здебільшого працює, пересунути кому чи замінити одне слово швидше клавішею, ніж цілим реченням.

Дружня роздвоєна сцена, де мікрофон для мовлення й клавіатура для редагування працюють пліч-о-пліч

Тож частина відповіді на питання «чи будемо ми ще друкувати» — це просто «так», саме для цього. Змінюється те, що клавіатура перестає бути тим, чим ви робите все, і стає спеціалізованим інструментом, який ви берете до рук, коли голос не підходить. Це пониження, а не вимирання.

Що приходить після голосу

Якщо дивитися на цілих десять років уперед, голос — це навіть не остання зупинка. Футуристичніші способи вводу вже в лабораторіях.

Meta показала браслет, який зчитує електричні сигнали у ваших м'язах, дозволяючи «друкувати» крихітними рухами пальців на будь-якій поверхні, без клавіатури. Це справді вражаюче дослідження. Але зверніть увагу на цифри: перші тестувальники досягали близько 21 слова за хвилину, пишучи жестами руки. Це випереджає частину набору великими пальцями й значно переважає його як інструмент доступності, але це досі лише дрібка від тих 150 слів за хвилину, які ви отримуєте, просто говорячи.

Ось тихий висновок з усього цього. У найближчому майбутньому ваш голос — найшвидший канал між думкою й готовим текстом, який не передбачає ні хірургії, ні наукової фантастики. Нейронний ввід наближається, і найбільше він важитиме для людей, які не можуть зручно говорити чи друкувати. Для всіх інших голос — це міст, який ми переходимо першим, і він уже тут.

То чи будемо ми ще друкувати?

Так. Але впродовж десяти років друк стане винятком, а не рефлексом. Він перетвориться на те, до чого ви тягнетеся, коли голос не пасує до моменту, — так, як сьогодні ви тягнетеся до ручки: корисно, свідомо й уже не як основний спосіб писати.

Причина, чому цього разу все інакше, не має нічого спільного з тим, що голос став швидшим. Він завжди був швидшим. Річ у тім, що з вичиткою нарешті розібралися, тож говорити більше не означає підписатися на сеанс редагування потому. Заберіть цей податок — і найповільнішому інструменту на вашому столі майже нічим себе виправдати для щоденного письма.

Вам не обов'язково вірити десятирічному прогнозу на слово, щоб перевірити саму ідею. Виберіть наступну відповідь, що потребує більше ніж два рядки. Замість того щоб її друкувати, затисніть клавішу диктування, скажіть, що маєте на увазі, без заготовленого сценарію, і перечитайте те, що вийшло. Якщо хочете, щоб воно вийшло відшліфованим, а не сирим, — саме для цього й існує Voicr: затисніть FN, скажіть, вставте, і текст з'явиться чистим і підлаштованим під застосунок, у якому ви працюєте. Безкоштовний тариф покриває 5 000 слів на місяць, чого цілком достатньо, щоб з'ясувати, чи не живете ви вже в тому майбутньому, яке обіцяють заголовки.