상파울루의 거래처와 Zoom 회의 중인데 상대방이 자꾸 포르투갈어로 넘어갑니다. 또는 일본 제품 키노트를 보고 있는데 자동 자막이 따라잡지 못합니다. 아니면 머릿속에서는 스페인어로 생각하는데 고객은 영어 이메일을 기대합니다.
완전히 다른 세 가지 문제입니다. 그런데 모두 "Mac에서 실시간 음성 번역"이라는 하나의 주제로 묶이고, 그래서 이 주제에 관한 대부분의 가이드가 혼란스럽습니다. 어떤 도구가 맞는지는 실제로 어떤 문제를 풀려고 하는지에 따라 달라집니다.
Apple은 지난가을 macOS 26에서 라이브 번역을 출시했습니다. Whisper는 MacBook Air에서 발열 없이 돌아가는 Turbo 모델을 내놓았습니다. 한때 취미용 짜깁기처럼 보였던 받아쓰기 도구들은 이제 정말로 쓸 만해졌습니다. 이 가이드는 어떤 옵션이 있고, 각각 언제 진짜로 맞는지, 그리고 데모 영상의 함정에 빠지지 않고 어떻게 세팅하는지 짚어봅니다.
"실시간"이 실제로 의미하는 것
도구를 고르기 전에 워크플로부터 정의하세요. Mac에서 "실시간"이라고 부르는 작업은 크게 세 가지로 나뉘고, 각각 다른 소프트웨어가 필요합니다:
실시간 자막 — 다른 사람이 말하는 동안 그 말에 자막을, 가능하다면 번역까지 붙이고 싶을 때입니다. 통화, 회의, 강의, 라이브 스트리밍이 여기 해당합니다. 지연 시간이 중요합니다. 4초 지연은 짜증나는 수준이고, 10초 지연은 쓸모가 없습니다.
받아쓰기 — 말하는 사람이 본인이고, 다 말한 뒤 다른 언어로 깔끔한 텍스트가 필요할 때입니다. 이메일, Slack 메시지, 문서가 그렇습니다. 말이 끝나면 받아쓰기와 번역이 한 번에 이뤄집니다. 말하는 도중에 단어가 흘러나오는 것보다, 말이 끝났을 때 1초 안에 반응하는 것이 더 중요합니다.
파일 받아쓰기 — 녹음(Zoom 내보내기, 음성 메모, 팟캐스트)이 있고 번역된 전사본이 필요할 때입니다. 사실 실시간이 아닙니다. 가장 정확도가 높은 모델에 던져 넣고 2분 정도 기다리면 됩니다.
이 셋을 헷갈리면 결국 회의 받아쓰기 도구로 짧은 이메일을 쓰거나, 받아쓰기 앱으로 YouTube 영상에 자막을 달려고 하게 됩니다. 먼저 카테고리를 정한 뒤 도구를 고르세요.
macOS 기본 옵션
Apple Silicon Mac에서 macOS 26을 쓰고 있다면, Apple이 두 가지 기본 도구를 제공합니다. 그리고 중요한 빈틈이 하나 있습니다.
라이브 번역 (macOS 26)
라이브 번역은 메시지, FaceTime, 그리고 Mac용 새 전화 앱에서 동작합니다. Apple Intelligence 기반이며 온디바이스로 처리돼서 데이터가 기기 밖으로 나가지 않습니다. FaceTime 통화에서 메뉴 버튼을 누르고 실시간 자막을 선택하면, 화면 위쪽에 번역된 전사본이 뜹니다.
문제는 지원 언어 목록입니다. FaceTime과 전화의 라이브 번역에서 Apple은 영어, 프랑스어, 독일어, 포르투갈어(브라질), 스페인어(스페인)를 지원하고, 만다린, 이탈리아어, 일본어, 한국어가 순차적으로 추가되고 있습니다. 메시지는 덴마크어, 네덜란드어, 노르웨이어, 스웨덴어, 터키어, 베트남어까지 포함해 더 넓게 지원합니다.
무료이고, 프라이빗하고, 지연 시간도 좋습니다. 다만 Apple 자체 앱 안에서만 동작합니다. Zoom, Google Meet, Slack 허들, YouTube는 라이브 번역을 거치지 않습니다.
실시간 자막
시스템 설정 → 손쉬운 사용 → 실시간 자막을 켜면, Mac이 잡는 모든 오디오(시스템 오디오, 마이크, 또는 둘 다)를 받아쓰는 플로팅 창이 뜹니다. 어떤 앱에서도 동작합니다. Zoom, YouTube, 팟캐스트, 옆자리 동료의 말까지요.
실시간 자막은 받아쓰기는 하지만 번역은 하지 않습니다. 게다가 현재 시점에서 영어만 지원합니다. 회의가 영어로 진행되고 그냥 따라갈 텍스트가 필요하다면 이게 답입니다. 회의가 포르투갈어라면 실시간 자막은 도움이 되지 않습니다.

통화와 영상용 실시간 자막과 번역
Apple 기본 도구가 통화를 커버하지 못할 때, 그 빈틈을 메우는 소수의 서드파티 앱들이 있습니다. Mac 스피커로 흘러나오는 시스템 오디오나 마이크 입력을 받아서, 로컬 Whisper 모델로 받아쓴 다음, 필요하면 번역까지 해줍니다. 아래 셋 다 온디바이스로 동작하는데, 기밀 통화 중이라면 이 점이 중요합니다.
MacWhisper — 이 분야에서 가장 오래된 Mac 앱 중 하나입니다. 번역이 붙은 실시간 자막을 제공하고, Whisper와 Nvidia Parakeet 위에서 돌아가며, 어떤 회의 도구든 시스템 오디오 캡처를 지원합니다. Zoom, Meet, Teams에서 견고합니다. Pro 버전은 일회성 결제입니다.
Superwhisper — 실시간 받아쓰기와 Whisper 기반 받아쓰기 플로를 합쳐 놓았습니다. 100개 이상의 언어를 지원하고 그중 어느 언어든 영어로 번역할 수 있습니다. 자막 도구와 받아쓰기 도구를 동시에 하려고 하는데, 앱 하나로 둘 다 쓰고 싶다면 괜찮지만, 받아쓰기 쪽은 전용 도구보다 무겁습니다.
Transcrybe — 더 새롭고, 가볍고, 실시간 번역에 특화돼 있습니다. 온디바이스 전용입니다. 인터페이스가 "누군가 모르는 언어로 말하고 있는데, 뭐라고 하는지 보여달라"는 시나리오에 맞춰져 있습니다. 여행, 고객 지원 통화, 외국어 콘텐츠 시청에 좋습니다.
이 시나리오가 얼마나 자주 생기느냐를 기준으로 고르세요. 국제 통화 속에서 산다면 MacWhisper나 Superwhisper가 메뉴 바에 자리를 차지할 만합니다. 가끔만 필요하다면 FaceTime 안의 Apple 라이브 번역으로 충분할 수도 있습니다.
한 언어로 말하고 다른 언어로 쓰기
가장 흔한 "실시간 번역" 수요는 다른 사람이 말하는 것과는 전혀 상관이 없습니다. 본인이 모국어로 생각하지만, 직장에서 요구하기 때문에 화면 위에는 영어로 적어야 하는 상황입니다.
스페인어, 프랑스어, 폴란드어 사용자가 업무에서 영어를 많이 쓴다면 그 부담을 잘 알 겁니다. 머릿속에서 모국어로 문장을 만들고, 머릿속으로 번역한 다음, 그 번역을 타이핑합니다. 모든 이메일이 두 번의 초안인 셈입니다. 머릿속에서 쓴 것 하나, 손가락이 만들어낸 것 하나.
여기에 맞는 도구의 모양은 실시간 자막과 다릅니다. 흘러가는 자막이 필요한 게 아닙니다. 키 하나를 누른 채로 자기 언어로 자연스럽게 말하고, 손을 떼면, 어디든 붙여넣을 수 있는(Gmail, Slack, Notion, Jira 티켓) 다듬어진 타깃 언어 텍스트가 클립보드에 들어와 있어야 합니다.
Voicr가 메우는 빈틈이 바로 여기입니다. FN을 누른 채 100개 언어 중 어떤 언어로든 말하고, 타깃을 영어로 지정하면, 붙여넣어지는 건 깔끔한 영어입니다. 별도의 번역기를 거친 원본 전사가 아닙니다. 말하기 → 전사 → 복사 → 번역기 → 붙여넣기 대신, 받아쓰기와 번역이 한 단계로 이뤄집니다. 전체 과정에 걸리는 시간은 말하는 시간과 거의 같습니다.
오디오 자체에서 말한 언어를 추정하는 자동 감지 모드도 있어서, 가령 개인 Slack은 스페인어로, 고객 이메일은 영어로 오가도 언어 선택 창을 열 필요가 없습니다. 작은 디테일이지만 기능 목록에서는 놓치기 쉽습니다. 더 자세한 설명은 Mac에서 100개 언어 음성-텍스트 변환에 있습니다.
녹음된 오디오 받아쓰기
파일이 있다면(Zoom 녹화, 음성 메모, 인터뷰, 팟캐스트) "실시간"이라는 틀은 맞지 않습니다. 풀 퀄리티로 돌아가는 Whisper 기반 도구에 파일을 던지고 2분 정도 기다리세요. 중요한 건 정확도입니다.
MacWhisper와 Whisper Transcription 모두 이 작업을 잘 처리합니다. 스크립트가 익숙하다면 OpenAI API를 직접 쓰는 것도 방법입니다. 번역에 대해서는 한 가지 짚어둘 게 있습니다. Whisper에 내장된 번역은 한 방향뿐입니다. 어떤 언어든 → 영어. 반대 방향이 필요하면(예: 영어 → 일본어) 받아쓴 결과를 Claude, GPT, DeepL 같은 별도 번역 모델에 한 번 더 통과시켜야 합니다.
입력이 항상 라이브라면 이 섹션은 건너뛰어도 됩니다. 하지만 인터뷰를 녹음하거나 옛 회의에서 전사본을 뽑아 쓴다면, 오프라인 워크플로가 스트리밍보다 더 저렴하고, 더 정확하고, 고치기도 더 쉽습니다.
내 워크플로에 맞는 세팅 고르기
간단한 의사결정 트리:
1. FaceTime이나 메시지 대화에 자막을 띄우고 싶다 → Apple 라이브 번역. 무료, 기본 탑재, 온디바이스. 2. 모르는 언어로 진행되는 Zoom/Meet/Teams 통화에 자막을 띄우고 싶다 → MacWhisper, Superwhisper, Transcrybe 중 하나. 3. 모국어로 말하고 어디든 붙여넣을 영어 텍스트를 받고 싶다 → Voicr 같은 한 키 받아쓰기 도구. 이중언어 전문가에게 가장 매일 쓰이는 케이스입니다. 4. 다른 언어로 녹음된 파일을 받아써서 영어로 받고 싶다 → MacWhisper 또는 다른 Whisper 기반 데스크톱 앱. 오프라인, 풀 퀄리티 모델, 2분 정도 대기.
대부분의 사람은 결국 하나가 아니라 두 개의 도구로 정착합니다. 가끔 필요한 실시간 자막용 하나, 매일 쓰는 받아쓰기용 하나. 이렇게 갈라지는 게 정상입니다. 자막 도구와 받아쓰기 도구는 최적화하는 지점이 다르고, 하나가 둘 다를 잘 하길 기대하면 보통 둘 다 어중간해집니다.
현실적인 기대치 잡기
데모 영상이 슬쩍 넘어가지만 시작 전에 알아둘 만한 것 몇 가지:
지연은 실제로 존재합니다. 온디바이스 Whisper도 실시간 자막에서 1–3초의 지연이 있습니다. 클라우드 기반 도구는 거기에 1–2초가 더 붙습니다. 그 점을 감안하세요. 빠르게 진행되는 정치 토론을 실시간 자막으로 따라가려고 하면 뒤처집니다.
번역 품질은 상위 약 10개 언어를 벗어나면 떨어집니다. Whisper 자체는 영어, 스페인어, 프랑스어, 독일어, 포르투갈어, 이탈리아어, 만다린, 일본어에서 훌륭합니다. 태국어, 광둥어, 베트남어, 그리고 대부분의 아프리카 언어에서는 눈에 띄게 약해집니다. 사용하려는 언어가 롱테일에 속한다면 의존하기 전에 먼저 테스트해 보세요.
시스템 오디오 캡처는 권한이 필요합니다. macOS는 기본적으로 앱이 시스템 오디오를 듣게 두지 않습니다. 실시간 자막 카테고리의 모든 도구는 처음 실행할 때 화면 기록 권한이나 오디오 루프백 권한을 요청합니다. 이건 정상입니다. 일부 앱이 일회성 가상 오디오 디바이스 설치를 요구하는 이유이기도 합니다.
프라이버시 수준은 제각각입니다. Apple의 도구와 대부분의 Whisper 기반 앱은 전적으로 온디바이스로 돌아갑니다. 클라우드 API로 오디오를 보내는 것(일부 "AI 회의 어시스턴트" 도구)은 다른 트레이드오프입니다. 법무, 의료, 그 밖에 규제 산업에 있다면 고객 통화에서 도구를 켜기 전에 먼저 확인하세요.

실용적인 출발점
최종 목표가 무엇이든, 가장 쉽게 시작하는 방법은 이번 주에 가장 자주 부딪히는 단 한 가지 사용 사례를 고르는 겁니다. 드물게 생기는 게 아니라 매일 생기는 것.
국제 회의가 많다면 실시간 자막 도구 하나를 설치해 메뉴 바에 띄워두고 2주 동안 써본 뒤 결정하세요. 다른 언어로 생각하면서 영어로 글을 많이 쓴다면, 평소에 타이핑했을 다음 이메일 10통을 모국어 받아쓰기로 대체해 보고 도구가 만들어내는 영어를 그대로 써보세요.
Voicr는 받아쓰기 케이스에 특화돼 있습니다. FN을 누른 채 모국어로 말하고, 타깃을 영어로 지정한 뒤, 어디든 붙여넣으세요. 무료 티어가 있고(월 5,000단어, 신용카드 불필요), 이 워크플로가 본인의 글쓰기 방식과 실제로 맞는지 확인하기에 충분합니다. 실시간 자막 케이스라면 MacWhisper가 기본 Whisper 모델로 동작하는 무료 버전을 제공하니, 결제 전에 사용감을 충분히 시험해 볼 수 있습니다.
기술 자체는 한참 전에 병목이 아니게 되었습니다. 흥미로운 질문은 이제 어떤 워크플로를 실제로 세팅해서 쓰느냐이고, 그 답은 본인이 계속 부딪히는 구체적인 마찰에 맞는 도구를 고르는 데 있습니다. 받아쓰기 쪽에 관한 더 자세한 이야기는 Mac에서 AI 음성 받아쓰기가 실제로 작동하는 방식에서 음성과 클립보드에 도달하는 다듬어진 텍스트 사이에 무슨 일이 일어나는지 따라가 봅니다.

