Назад до блогу

Voicr Team · 23 травня 2026 р.

Голосове введення зі ШІ на Mac: як це насправді працює

Конвеєр диктування на Mac, яким нарешті зручно користуватися. Як ШІ за дві секунди перетворює ваш голос на відшліфований текст без жодних правок.

Голосове введення зі ШІ на Mac: як це насправді працює

Ви дивитеся, як курсор блимає в порожньому листі. Ви знаєте, що хочете сказати. Просто не хочете цього набирати.

Диктування на Mac існує з 2012 року, і більшість людей махнула на нього рукою ще роки тому. Саме голосове введення зі ШІ на Mac за останні 18 місяців усе змінило. Старий досвід «говориш у мікрофон і дивишся, як з'являється стіна друкарських помилок» тихенько поступився місцем чомусь, що справді нагадує письмо.

Ось частина, яку більшість статей пропускає. Складною частиною вже не є транскрипція — її давно розв'язано. Змінився шар поверх неї: той, що бере ваші плутані думки й перетворює їх на чистий текст ще до того, як він потрапить на екран. Ця стаття проводить вас крок за кроком усім конвеєром, щоб ви бачили, що насправді робить ваш Mac між моментом, коли ви починаєте говорити, і моментом, коли відшліфований текст з'являється у чернетці.

Чому диктування на Mac нарешті стало зручним

Два числа пояснюють, чому люди повертаються до диктування. Пересічна людина набирає текст зі швидкістю близько 40 слів за хвилину. А говорить — близько 150. Це приблизно чотири промовлені слова за час, потрібний, щоб надрукувати одне.

Але швидкість ніколи не була справжньою проблемою. Проблемою був результат. Старе диктування видавало вам дослівний транскрипт кожного «е-е», кожного перезапуску, кожного «стоп, ні, забудьте». Ви заощаджували 30 секунд на диктуванні й витрачали 90 на прибирання.

Сучасні застосунки для диктування зі ШІ виправили це, додавши другий крок. Мовлення проходить через транскрипцію — як і раніше. Далі його отримує мовна модель, яка переписує текст так, як це зробив би охайний редактор. Слова-паразити прибрано. Граматику виправлено. Речення завершено. Коли текст з'являється на екрані, він читається як те, що ви написали б у вдалий день.

П'ять кроків голосового введення зі ШІ на Mac

Конвеєр короткий. П'ять кроків, більшість із яких непомітні: 1. Захоплення — ваш Mac уловлює голос. 2. Транскрипція — звук стає сирим текстом. 3. Шліфування — сирий текст приводить до ладу модель ШІ. 4. Застосування контексту — стиль письма пристосовується до того, куди йде текст. 5. Доставка — відшліфований текст з'являється під вашим курсором.

Кожен крок має власну модель, власні компроміси й власні місця, де може щось піти не так. Варто розібрати їх по черзі.

Крок 1: захоплення — як Mac уловлює ваш голос

Ця частина не вигадлива. Ви тиснете гарячу клавішу (FN, Option+Space або яку там використовує застосунок) — і мікрофон починає слухати. Застосунок записує звук у пам'ять, зазвичай 16 біт, 16 кГц — формат, який очікує модель транскрипції.

Більшість сучасних застосунків для диктування на Mac не використовують детекцію голосової активності для запуску й зупинки. Вони покладаються на гарячу клавішу. Утримуй, щоб говорити, відпусти — щоб зупинити. Причина — надійність. Виявлення голосу при відкритому мікрофоні в кав'ярні — це підкидання монетки. Натискання клавіші — ні.

Під час захоплення відбувається кілька речей, яких ви не бачите. Звук буферизується, часто шумозаглушується вбудованою аудіо-фреймворком Apple й розбивається на фрагменти. Якщо ви говорите довше за розмір фрагмента — зазвичай 30 секунд — застосунок може розділити запис, перш ніж надсилати його далі.

Крок 2: транскрипція — як Whisper перетворює звук на слова

Тут більшість застосунків для диктування на Mac зі ШІ сходяться на одній технології: модель Whisper від OpenAI. Whisper — це система розпізнавання мовлення, навчена приблизно на 5 мільйонах годин звуку 99 мовами. Поточна версія, large-v3, дає близько 2,7% помилок на слово для чистого англомовного аудіо і 8–12% для шумних записів із реального життя.

Простіше кажучи: говоріть природно — і близько 92–97 відсотків слів буде транскрибовано правильно «з коробки». Це зовсім інша категорія точності, ніж та, яку давав оригінальний рушій диктування Apple, тому сторонні застосунки й вистрілили.

Ось приблизно те, що Whisper робить із вашим звуком: - Розрізає запис на фрагменти по 30 секунд. - Перетворює кожен фрагмент на спектрограму — візуальне відображення звуку за частотами та часом. - Подає спектрограму в нейронну мережу, яка навчилася зіставляти аудіопатерни зі словами. - А ще передбачає мову, пунктуацію й місця завершення речень.

Модель може працювати локально на вашому Mac (Apple Silicon справляється з цим без напруги) або в хмарі. Локально — приватно й офлайн. У хмарі — швидше на старому залізі та з підтримкою більших моделей. Багато застосунків дають вам право вибору.

На виході цього кроку ви отримуєте сирий транскрипт. Із пунктуацією, переважно точний, часто трохи неохайний. Саме тут зупиняється вбудоване диктування Apple. Цікаві застосунки — ні.

Крок 3: шліфування — шар, що змінив усе

Це той крок, який перевів диктування на Mac із категорії «ну, нічого собі» в категорію «я вже тижнями не набираю листи руками».

Після транскрипції сирий текст надсилається до мовної моделі — зазвичай рівня GPT-4 або Claude — з інструкцією на кшталт: ``` Перепиши це як відшліфований, професійний текст. Прибери слова-паразити та фальшиві старти. Збережи зміст. Нічого не додавай. ```

Ось як це виглядає на практиці.

Що ви сказали

*«Окей, я хотів, ем, повернутися до, е-е, пропозиції з минулого тижня. Думаю, ну, нам, мабуть, варто рухатися з другим варіантом? Так, варіантом два. Можеш, можеш надіслати мені договір до п'ятниці?»*

Що опиняється у вашому буфері обміну

*«Повертаючись до пропозиції з минулого тижня, хочу рухатися з другим варіантом. Чи могли б ви надіслати мені договір до п'ятниці?»*

Зміст той самий. Враження від прочитання — інше. І це сталося менш ніж за дві секунди.

Ілюстрація «до й після»: ліворуч — неохайна сира мова зі словами-паразитами, праворуч — чистий і відшліфований текст

Це та частина, яку важко описати, поки не спробуєш. Ви перестаєте думати про те, як звучите. Перестаєте редагувати себе під час мовлення. Просто говорите так, як сказали б колезі, — а на виході отримуєте ту версію, яку написали б, якби мали час.

Якщо ви вже диктуєте, але втрачаєте час на правки після, саме цю прогалину закриває Voicr. Утримуйте FN, говоріть як завгодно — і те, що потрапляє у ваш буфер обміну, уже відшліфоване. Жодного другого проходу, жодного «треба підправити те одне речення» — просто чистий текст, готовий до вставлення.

Крок 4: розуміння контексту — різні стилі для різних застосунків

Цей крок новіший. І саме він відрізняє кращі застосунки для диктування на Mac від просто адекватних.

Ввічливий, формальний тон годиться для клієнтського листа. Він дивний у повідомленні в Slack колезі. І зовсім недоречний у коментарях до коду. Хороший застосунок для диктування з'ясовує, у якій програмі ви зараз, і підлаштовується.

Механізм простий. Застосунок зчитує, яка програма активна. Шукає ваше збережене правило стилю для цієї програми. А потім вплітає його в підказку, що йде до моделі шліфування.

Правило для Slack може казати: ``` Тримай тон неформальним і коротким. Без корпоративних формулювань. Використовуй розмовні скорочення. Максимум одне-два короткі речення. ``` Правило для електронної пошти може казати: ``` Пиши в професійному тоні. Повні речення. Додай вітання й підпис, якщо зміст цього вимагає. ```

Той самий голосовий ввід. Два геть різні результати — залежно від того, яке вікно відкрите. Ви нічого не перемикаєте. Просто говорите — і виходить потрібний тон.

Крок 5: доставка — як текст потрапляє туди, де він потрібен

Останній крок — той, що найдовше доводили до пуття. У вас є відшліфований текст. Як він потрапить у ваше активне текстове поле?

Є два поширені підходи: 1. Через буфер обміну. Застосунок копіює відшліфований текст у буфер, а потім запускає команду вставлення (Cmd+V) через Accessibility API macOS. Швидко, надійно, працює майже скрізь. 2. Імітація натискання клавіш. Застосунок симулює введення кожного символу по черзі — за допомогою AppleScript або того ж фреймворку Accessibility. Повільніше, але працює в програмах, що блокують вставлення (деякі сайти банків, певні віддалені робочі столи, менеджери паролів).

Більшість застосунків за замовчуванням використовують вставлення через буфер обміну і повертаються до імітації натискання клавіш лише за потреби. З вашого боку результат такий: текст з'являється під курсором приблизно за пів секунди після того, як ви відпускаєте гарячу клавішу. Без перемикання програм, без копіювання, без перегляду.

Схема п'ятикрокового конвеєра: захоплення, транскрипція, шліфування, застосування контексту й доставка, з'єднані у вигляді кіл

Локальна чи хмарна обробка: що насправді відбувається

Запитання, яке виникає часто: куди дівається мій голос?

Є два реальні варіанти. Локальна обробка запускає модель Whisper на вашому Mac. Ваш звук ніколи не залишає пристрою. На Apple Silicon (M1 і новіших) локальний Whisper працює достатньо швидко для диктування в реальному часі — зазвичай із затримкою менше секунди. Компроміс: крок шліфування все одно зазвичай іде в хмарну модель, бо запускати локально мовну модель на 70 мільярдів параметрів на більшості ноутбуків нереалістично. Деякі застосунки пропонують повністю локальний режим із меншою моделлю для шліфування — ціною якості.

Хмарна обробка надсилає й аудіо, і крок шліфування до віддаленого API. Швидше на старіших Mac, підтримує найбільші та найточніші моделі. Компроміс — приватність. Ваше мовлення залишає пристрій, навіть якщо одразу після транскрипції видаляється.

Для більшості людей правильний типовий варіант — «локальний Whisper, хмарне шліфування». А тим, хто працює з чутливими матеріалами (медичні нотатки, юридичні чернетки, внутрішні дані компанії), повністю локальний режим вартий невеликої втрати в якості. Хороший застосунок дозволяє вибирати для кожного запису або задавати значення за замовчуванням.

Де диктування зі ШІ все ще спотикається

Чесний розділ. Конвеєр хороший. Але не ідеальний.

Омофони все ще плутаються. «Their» проти «there» проти «they're» — потрібний варіант обирається здебільшого правильно, але не завжди. Шліфування зазвичай ловить помилку з контексту, але не тоді, коли сусіднє речення неоднозначне.

Власні назви й жаргон — як пощастить. Whisper бачив більшість поширених імен і технічних термінів, але буде калічити все вузькоспеціалізоване. Назви фармацевтичних препаратів, імена бібліотек коду, рідкісне прізвище колеги. Деякі застосунки дають змогу додати власний словник, який підставляється у підказку.

Шумне середовище швидко знижує точність. Whisper напрочуд непогано справляється з гомоном кав'ярні, але телефон, що дзвонить за метр, або хтось, хто розмовляє поруч, висмикуватимуть слова з вашого транскрипту.

Довгі монологи дрейфують. Модель чудова на проміжках по 10–30 секунд. Після приблизно 90 секунд вона час від часу губить нитку, повторює фрагменти або пропускає короткі фрази. Розв'язання — просто зупиняти й перезапускати запис частинами.

Ці обмеження мають значення на старті. Жодне з них не є фатальним, якщо ви про них знаєте. Якщо вибираєте з варіантів, наш гід по найкращих застосунках для перетворення голосу на текст для Mac розповідає, як основні застосунки справляються з цими компромісами.

Як почати користуватися голосовим введенням зі ШІ на Mac уже сьогодні

Три практичні кроки по порядку.

1. Виберіть одне завдання, яке щодня диктуватимете протягом тижня. Електронні листи — хороший старт: у них найвищий коефіцієнт конверсії з набирання у говоріння (ви все одно зазвичай думаєте, перш ніж писати). Не намагайтеся диктувати все одразу. Кинете.

2. Звикніть говорити в порожнечу. Перші кілька разів ви почуватиметеся дивно, говорячи вголос у тихій кімнаті. Це минає днів за чотири.

3. Виберіть застосунок і не зраджуйте йому. Хороших варіантів вистачає в усіх цінових категоріях: від вбудованого диктування Apple до інструментів на основі Whisper з відкритим кодом і застосунків із повним конвеєром. Якщо вам потрібен описаний вище потік «затранскрибували — відшліфували — вставили», Voicr робить саме це. Утримайте FN, говоріть, вставте. Whisper — для транскрипції, потужна мовна модель — для шліфування, а ще стилі письма для кожного застосунку, які адаптуються до того, де перебуває ваш курсор. Безкоштовний тариф дає 5 000 слів на місяць без банківської картки.

Конвеєр позаду всього цього нарешті достатньо хороший, щоб диктування перестало бути компромісом. Ви не міняєте якість на швидкість. Ви отримуєте і те, і те. Складно лише одне — вирішити припинити друкувати.