맥용 AI 음성 받아쓰기: 실제로 어떻게 작동하나

빈 이메일에서 깜빡이는 커서를 멍하니 바라본다. 무슨 말을 하고 싶은지는 안다. 그저 타이핑하기가 싫을 뿐이다.

맥 받아쓰기는 2012년부터 있었지만, 대부분의 사람들은 몇 년 전에 포기했다. 지난 18개월 사이에 그걸 바꾼 것이 바로 맥용 AI 음성 받아쓰기다. 예전의 "마이크에 말하면 오타 범벅 텍스트가 줄줄이 뜨던" 경험은 조용히, 진짜로 글쓰기처럼 느껴지는 무언가로 대체되었다.

대부분의 글이 건너뛰는 부분이 여기 있다. 이제 어려운 건 음성 인식이 아니다. 그건 이미 풀린 문제다. 달라진 건 그 위에 얹힌 레이어다. 두서없는 말을 받아서 화면에 닿기 전에 깔끔한 텍스트로 다듬어주는 그 단계 말이다. 이 글은 그 전체 파이프라인을 한 단계씩 짚어본다. 입을 떼는 순간부터 다듬어진 문장이 초안에 떨어지기까지, 맥이 실제로 무엇을 하고 있는지 보여주려 한다.

왜 이제야 맥 받아쓰기가 쓸 만해졌나

사람들이 다시 받아쓰기로 돌아오는 이유는 두 개의 숫자로 설명된다. 평균적인 사람은 분당 약 40단어를 타이핑한다. 평균적인 사람은 분당 약 150단어를 말한다. 한 단어 타이핑하는 시간에 대략 네 단어를 말할 수 있다는 뜻이다.

하지만 진짜 문제는 속도가 아니었다. 결과물이 문제였다. 옛 받아쓰기는 모든 "어", 모든 다시 말하기, 모든 "잠깐, 아니, 그건 빼고"까지 그대로 받아 적었다. 받아쓰기로 30초 아끼고는, 정리하는 데 90초를 썼다.

최신 AI 받아쓰기 앱은 두 번째 단계를 추가해 이 문제를 해결했다. 음성은 예전처럼 받아쓰기 모델을 거친다. 그다음 그 결과가 언어 모델로 넘어가, 꼼꼼한 편집자가 손본 것처럼 다시 쓰인다. 군말은 정리되고, 문법은 고쳐지고, 문장은 끝까지 다듬어진다. 화면에 텍스트가 뜰 즈음에는, 컨디션 좋은 날 직접 쓴 것처럼 읽힌다.

맥용 AI 음성 받아쓰기 뒤의 다섯 단계

파이프라인은 짧다. 다섯 단계, 대부분은 눈에 보이지 않는다: 1. 캡처 — 맥이 당신의 목소리를 받아들이는 단계. 2. 받아쓰기 — 음성이 원본 텍스트가 되는 단계. 3. 다듬기 — AI 모델이 원본 텍스트를 정리하는 단계. 4. 맥락 반영 — 텍스트가 향하는 곳에 맞춰 문체가 조정되는 단계. 5. 전달 — 다듬어진 텍스트가 커서 위치에 떨어지는 단계.

각 단계마다 자체 모델, 자체 트레이드오프, 자체적인 함정이 있다. 하나씩 짚어볼 가치가 있다.

1단계: 캡처 — 맥이 목소리를 받아들이는 방식

이 부분은 화려할 게 없다. 단축키(FN, Option+Space, 혹은 앱에 따라 다른 키)를 누르면 마이크가 듣기 시작한다. 앱은 보통 16비트, 16kHz로, 즉 받아쓰기 모델이 기대하는 포맷으로 오디오를 메모리에 녹음한다.

최신 맥 받아쓰기 앱 대부분은 시작과 종료에 음성 감지를 쓰지 않는다. 단축키를 쓴다. 누르고 말하고, 떼면 멈춘다. 이유는 안정성이다. 카페의 열린 마이크 위에서 음성 감지는 동전 던지기에 가깝다. 키 누름은 그렇지 않다.

캡처 도중에 눈에 띄지 않게 벌어지는 일이 몇 가지 있다. 오디오가 버퍼링되고, 종종 애플의 내장 오디오 프레임워크로 잡음 억제가 적용되며, 청크 단위로 잘린다. 청크 크기(보통 30초)보다 길게 말하면, 앱은 녹음을 분할해 다음 단계로 넘길 수도 있다.

2단계: 받아쓰기 — Whisper가 소리를 단어로 바꾸는 방식

여기서 대부분의 AI 맥 받아쓰기 앱이 하나의 기술로 수렴한다. 바로 OpenAI의 Whisper 모델이다. Whisper는 99개 언어, 약 500만 시간 분량의 오디오로 학습한 음성 인식 시스템이다. 현재 버전인 large-v3는 깨끗한 영어 오디오에서 약 2.7%의 단어 오류율을, 잡음이 섞인 실제 녹음에서는 8~12%를 기록한다.

쉽게 말하면 자연스럽게 말했을 때, 별다른 설정 없이도 단어의 약 92~97%가 정확하게 받아써진다는 뜻이다. 애플의 원래 받아쓰기 엔진이 도달할 수 있던 수준과는 완전히 다른 정확도의 영역이고, 서드파티 앱들이 떠오른 이유가 거기에 있다.

Whisper가 오디오에 대략 무엇을 하는지는 다음과 같다: - 녹음을 30초 청크로 자른다. - 각 청크를 스펙트로그램, 즉 주파수와 시간에 걸친 소리의 시각적 표현으로 변환한다. - 스펙트로그램을 오디오 패턴과 단어를 매핑하도록 학습된 신경망에 넣는다. - 언어, 문장부호, 그리고 문장이 끝나는 지점까지 함께 예측한다.

이 모델은 맥에서 로컬로 돌릴 수도 있고(Apple Silicon은 여유 있게 처리한다) 클라우드에서 돌릴 수도 있다. 로컬은 비공개이고 오프라인에서도 동작한다. 클라우드는 구형 하드웨어에서 더 빠르고 더 큰 모델을 지원한다. 많은 앱이 선택권을 준다.

이 단계의 결과물은 원본 받아쓰기 결과다. 문장부호가 붙어 있고, 대체로 정확하지만, 종종 조금 지저분하다. 애플의 내장 받아쓰기는 여기서 멈춘다. 흥미로운 앱들은 그러지 않는다.

3단계: 다듬기 — 모든 것을 바꾼 레이어

맥 받아쓰기를 "그런대로 쓸 만함"에서 "몇 주째 이메일을 타이핑한 적이 없다"로 뒤집은 단계가 바로 이것이다.

받아쓰기 후, 원본 텍스트는 보통 GPT-4급이나 Claude 같은 언어 모델로 다음과 같은 지시와 함께 넘어간다: ``` Rewrite this as polished, professional text. Remove filler words and false starts. Keep the meaning. Don't add anything. ```

실제로는 이렇게 보인다.

당신이 말한 것

*"자, 음, 지난주에 있었던, 어, 그 제안서에 대해서 이어서 얘기하고 싶었어요. 그… 아무래도 2번 옵션으로 가는 게 좋을 것 같아요? 네, 2번 옵션. 금요일까지 계약서 좀, 좀 보내주실 수 있을까요?"*

클립보드에 도착하는 것

*"지난주 제안서와 관련해, 2번 옵션으로 진행하고자 합니다. 금요일까지 계약서를 보내주실 수 있을까요?"*

같은 의미. 다른 읽기 경험. 그리고 이 모든 게 2초도 안 되어 일어났다.

왼쪽의 군말이 섞인 어수선한 원본 음성이 오른쪽의 깔끔하게 다듬어진 텍스트로 바뀌는 모습을 보여주는 전후 비교 일러스트

이 부분은 직접 써보기 전까지는 설명하기 어렵다. 내 말이 어떻게 들릴지 신경 쓰지 않게 된다. 말하면서 머릿속으로 스스로 편집하는 일을 멈춘다. 그냥 동료에게 말하듯이 한 번에 던지고, 나오는 결과는 시간 여유가 있었다면 직접 썼을 법한 그 버전이다.

이미 받아쓰기를 쓰고 있지만 그 후 정리 작업에 시간을 빼앗기고 있다면, 바로 그 간극을 Voicr이 메워준다. FN을 누른 채 편한 대로 말하면, 클립보드에 닿는 결과는 이미 다듬어져 있다. 2차 손질도, "저 문장 하나만 고치자"도 없다. 그냥 붙여넣기만 하면 되는 깔끔한 텍스트다.

4단계: 맥락 인식 — 앱마다 다른 문체

이 단계는 비교적 최근에 등장했다. 그리고 더 나은 맥 받아쓰기 앱과 그저 무난한 앱을 가르는 지점이기도 하다.

정중하고 격식 있는 어조는 고객 이메일에 잘 맞는다. 팀원에게 보내는 Slack 메시지에서는 어색하다. 코드 주석에서는 잘못된 선택이다. 좋은 받아쓰기 앱은 지금 어떤 앱에 있는지 파악하고 거기에 맞춰 조정한다.

원리는 단순하다. 앱이 현재 포커스를 가진 애플리케이션을 읽는다. 그 앱에 대해 저장해둔 스타일 규칙을 조회한다. 그런 다음 그 규칙을 다듬기 모델로 가는 프롬프트에 끼워 넣는다.

Slack 규칙은 이런 식일 수 있다: ``` Keep it casual and brief. No corporate phrasing. Use contractions. One or two short sentences max. ``` 이메일 규칙은 이런 식일 수 있다: ``` Write in a professional tone. Full sentences. Add a greeting and sign-off if the content warrants it. ```

같은 음성 입력. 어느 창이 열려 있느냐에 따라 완전히 다른 두 결과물. 따로 토글할 게 없다. 그냥 말하면, 알맞은 어조가 나온다.

5단계: 전달 — 텍스트가 필요한 곳에 떨어지는 방식

마지막 단계는 제대로 만드는 데 가장 오래 걸린 단계다. 다듬어진 텍스트는 손에 있다. 그런데 이걸 어떻게 활성 텍스트 필드에 넣을까?

흔히 쓰이는 두 가지 방식이 있다: 1. 클립보드 경로. 앱이 다듬어진 텍스트를 클립보드에 복사한 뒤, macOS 접근성 API를 통해 붙여넣기 명령(Cmd+V)을 트리거한다. 빠르고 안정적이며, 거의 모든 앱에서 동작한다. 2. 키 입력 주입. AppleScript나 동일한 접근성 프레임워크 같은 도구를 사용해, 앱이 한 글자씩 타이핑을 시뮬레이션한다. 더 느리지만, 붙여넣기를 막는 앱(일부 은행 사이트, 특정 원격 데스크톱, 비밀번호 관리자)에서 동작한다.

대부분의 앱은 클립보드 붙여넣기를 기본으로 쓰고, 필요할 때만 키 입력 주입으로 폴백한다. 사용자 입장에서의 결과는 이렇다. 단축키를 놓고 약 0.5초 후에, 커서 위치에 텍스트가 나타난다. 앱 전환도, 복사 단계도, 검토 단계도 없다.

캡처, 받아쓰기, 다듬기, 맥락 반영, 전달이 연결된 원으로 이어진 다섯 단계 파이프라인 다이어그램

로컬 처리 대 클라우드 처리 — 실제로 일어나는 일

자주 나오는 질문이 있다. 내 목소리는 어디로 가는가?

실제 선택지는 두 가지다. 로컬 처리는 Whisper 모델을 맥에서 직접 돌린다. 오디오는 기기를 떠나지 않는다. Apple Silicon(M1 이후)에서는 로컬 Whisper가 실시간 받아쓰기에 충분할 만큼 빠르게 돌아간다. 보통 1초 미만의 지연이다. 트레이드오프가 있다. 다듬기 단계는 보통 여전히 클라우드 모델로 간다. 700억 파라미터급 언어 모델을 노트북에서 로컬로 돌리는 건 현실적이지 않기 때문이다. 일부 앱은 더 작은 다듬기 모델을 곁들여 완전한 로컬을 제공하지만, 품질 손실이 따른다.

클라우드 처리는 오디오와 다듬기 단계 모두를 원격 API로 보낸다. 구형 맥에서 더 빠르고, 가장 크고 정확한 모델을 지원한다. 트레이드오프는 프라이버시다. 음성이 기기를 떠난다. 받아쓰기 직후 삭제된다고 해도 말이다.

대부분의 사람에게는 "로컬 Whisper + 클라우드 다듬기"가 적절한 기본값이다. 민감한 자료(의료 기록, 법률 초안, 사내 데이터)를 다루는 사람에게는, 약간의 품질 손실을 감수하고 완전 로컬이 가치 있다. 좋은 앱은 녹음 단위로 선택하거나 기본값을 설정할 수 있게 해준다.

AI 받아쓰기가 여전히 헛디디는 지점

솔직한 섹션. 파이프라인은 훌륭하다. 완벽하지는 않다.

동음이의어는 여전히 틀린다. "there" 대 "their" 대 "they're"를 대부분은 맞히지만 늘 그렇지는 않다. 보통 다듬기 단계가 맥락에서 잡아내지만, 주변 문장 자체가 모호하면 그러지 못한다.

고유명사와 전문 용어는 들쭉날쭉하다. Whisper는 흔한 이름과 기술 용어 대부분을 봤지만, 특수한 것은 무엇이든 망가뜨린다. 의약품 이름, 코드 라이브러리 이름, 동료의 흔치 않은 성씨. 일부 앱은 프롬프트에 끼워 넣을 사용자 사전을 추가할 수 있게 해준다.

시끄러운 환경에서는 정확도가 빠르게 떨어진다. Whisper는 카페 소음은 놀라울 만큼 잘 처리하지만, 60cm 옆에서 울리는 전화벨이나 가까이서 말하는 사람이 있으면 받아쓰기에서 단어를 빼먹게 만든다.

긴 독백은 흐트러진다. 모델은 10~30초 정도의 짧은 호흡에서 탁월하다. 약 90초가 넘어가면, 가끔 맥락을 놓치거나, 조각을 반복하거나, 짧은 구절을 건너뛴다. 해결책은 단순하다. 멈췄다가 다시 녹음을 시작해 청크로 나누면 된다.

이런 한계는 처음 시작할 때 중요하다. 알고만 있다면 어느 것도 치명적이지는 않다. 어떤 앱을 고를지 고민 중이라면, 맥용 음성-텍스트 앱 베스트 가이드에서 주요 앱들이 이 트레이드오프를 어떻게 다루는지 짚어준다.

오늘부터 맥에서 AI 음성 받아쓰기를 시작하는 법

순서대로, 세 가지 실용적인 단계.

1. 일주일 동안 매일 받아쓰기로 처리할 작업 하나를 고른다. 이메일이 좋은 출발점이다. 타이핑 대비 말하기 전환율이 가장 높다(어차피 쓰기 전에 생각부터 한다). 한꺼번에 모든 걸 받아쓰려 하지 마라. 금방 그만두게 된다.

2. 아무도 없는 데서 소리 내어 말하는 데 익숙해진다. 처음 몇 번은 조용한 방에서 혼잣말처럼 말하는 게 어색하게 느껴진다. 나흘쯤 지나면 사라진다.

3. 앱을 하나 골라 정착한다. 가격대별로 좋은 선택지가 있다. 애플의 내장 받아쓰기부터, 오픈소스 Whisper 도구, 풀 파이프라인 앱까지. 위에서 설명한 "받아쓰기-다듬기-붙여넣기"의 매끄러운 흐름을 원한다면, Voicr이 바로 그것이다. FN을 누르고, 말하고, 붙여넣는다. 받아쓰기는 Whisper, 다듬기는 강력한 언어 모델, 그리고 커서가 있는 곳에 맞춰지는 앱별 작성 스타일까지. 무료 플랜은 신용카드 없이 월 5,000단어를 제공한다.

이 모든 것의 뒤에 있는 파이프라인은 이제 받아쓰기가 더 이상 타협이 아니어도 될 만큼 좋아졌다. 품질을 속도와 바꾸는 게 아니다. 둘 다 손에 넣는 것이다. 어려운 건 그저 타이핑을 멈추기로 결심하는 일뿐이다.