블로그로 돌아가기

Voicr Team · 2026년 5월 23일

Mac에서 100개 언어 음성-텍스트 변환: 완벽 가이드

2026년 Mac에서 다국어 받아쓰기가 작동하는 방식, 100개 언어 현황, 자동 감지 vs 수동 선택, 그리고 실제 이중언어 워크플로.

Mac에서 100개 언어 음성-텍스트 변환: 완벽 가이드

영어로 이메일을 쓰기 시작했다가, 마드리드에 있는 동료에게 짧은 메모를 보내려고 스페인어로 전환하고, 그다음 Slack에서는 프랑스어로 답장합니다. 앱 세 개, 언어 세 개, 10분. 그중 절반은 손가락이 움직이는 시간이고, 나머지 절반은 Mac 받아쓰기의 언어 메뉴를 뒤지는 시간입니다.

두 가지 이상의 언어를 쓴다면, Apple의 기본 받아쓰기는 마치 한 가지 언어만 쓰는 사람을 위해 설계된 것처럼 느껴집니다. 언어를 고르고, 받아쓰기를 하고, 그다음 시스템 설정을 뒤지거나 커서 옆의 작은 메뉴를 클릭해서 전환해야 합니다. 전환을 깜빡하면 프랑스어가 영어 모델을 거쳐서 알아볼 수 없는 글자로 나옵니다.

지난 1년 사이 조용한 변화가 있었습니다. 이제 일부 Mac 앱들은 약 100개 언어의 음성을 옮겨 적고 다듬을 수 있고, 메뉴를 건드리지 않아도 어떤 언어를 말하고 있는지 자동으로 알아냅니다. 이 가이드는 2026년 현재 그게 정확히 어떤 의미인지, 실제로 어떤 언어가 지원되는지, Apple의 도구가 어디서 한계를 드러내는지, 그리고 언어를 바꿀 때마다 흐름이 끊기지 않는 다국어 받아쓰기를 어떻게 설정하는지 차근차근 짚어봅니다.

2026년 'Mac에서 100개 언어'가 실제로 의미하는 것

앱 웹사이트에서 보이는 100개 언어라는 숫자는 마케팅용 수치가 아닙니다. 약 68만 시간 분량의 다국어 오디오로 학습된 OpenAI의 Whisper라는 하나의 모델에서 나온 숫자입니다. 현재 널리 쓰이는 변종인 large-v3-turbo는 99개 언어를 지원하는데, 대부분의 앱은 이를 반올림해 '100개'로 표기합니다.

지원되는 언어의 대략적인 목록은 이렇습니다. 북유럽과 슬라브 계열을 포함한 유럽어 전체. 주요 아시아 언어: 표준중국어, 일본어, 한국어, 베트남어, 태국어, 인도네시아어, 타갈로그어, 말레이어. 남아시아: 힌디어, 벵골어, 타밀어, 우르두어, 마라티어, 네팔어. 중동: 아랍어, 히브리어, 페르시아어, 터키어, 아제르바이잔어. 아프리카: 스와힐리어, 아프리칸스어. 그리고 웨일스어, 마오리어, 벨라루스어, 마케도니아어, 카자흐어, 미얀마어처럼 비교적 덜 익숙한 언어들도 들어 있습니다.

다만 품질이 모든 언어에서 균일한 건 아닙니다. 영어, 스페인어, 프랑스어, 독일어, 이탈리아어, 포르투갈어, 네덜란드어, 일본어, 표준중국어가 가장 위에 자리잡고 있는데, 깨끗한 오디오에서 단어 오류율이 4~8% 수준입니다. 학습 데이터가 적은 언어, 예를 들어 웨일스어나 마오리어 같은 경우에는 15~25%까지 올라갈 수 있습니다. 쓸 만하긴 하지만, 그만큼 여유가 적습니다.

더 큰 변화는 이 모든 게 이제 보통의 Mac에서 돌아간다는 점입니다. Apple Silicon에 와서 Whisper의 큰 모델이 30초 분량 클립을 클라우드 왕복 없이 로컬에서 2초 안에 옮겨 적을 수 있는 수준에 도달했습니다. 그래서 요즘 Mac 받아쓰기 앱들이 다 비슷해 보이는 겁니다. 결국 같은 모델 위에 올라가 있으니까요.

Apple 기본 받아쓰기가 한계에 부딪히는 지점

Apple Dictation은 2012년부터 있었고, 무료입니다. 하나의 앱에서 한 가지 언어로 쓴다면 충분합니다. 그런데 다국어 작업으로 넘어가면 세 가지 지점에서 흐름이 깨집니다.

언어 수. Apple은 macOS 버전에 따라 대략 50~60개 언어와 방언을 지원합니다. 주요 유럽·아시아 시장에는 충분하지만, 우크라이나어, 타갈로그어, 웨일스어가 필요하거나 Apple이 기본 제공하는 것보다 세분화된 방언이 필요하다면 막다른 길에 부딪힙니다.

자동 언어 감지 없음. Apple Dictation은 마지막으로 선택한 언어를 그대로 씁니다. 깜빡하고 전환을 안 하면 프랑스어가 영어 모델을 거쳐, 원래 말한 것과 어렴풋이 운율만 비슷한 의미 없는 글자로 나옵니다. 언어를 바꾸려면 커서 근처의 작은 언어 표시를 클릭해서 목록에서 골라야 합니다. 전환할 때마다 손이 한 번 들어갑니다.

다듬어지지 않은 원문 그대로. 말한 그대로 나옵니다. '음', '어', 말을 바꾸려고 시작했다가 중단한 문장까지 전부요. 한 가지 언어에서도 곤란한데, 다국어 작업에서는 더 심해집니다. 모델이 헤매지 않도록 더 조심스럽게 말하는 경향이 생기기 때문입니다.

영어로만 받아쓰기를 하고 뒤에 직접 정리할 생각이 있다면 Apple의 도구로 충분합니다. 그런데 두 번째 언어가 필요해지거나, 다시 읽지 않고 바로 붙여넣을 수 있는 결과물을 원하는 순간 그 한계를 넘어서게 됩니다.

Whisper가 내부에서 100개 언어를 처리하는 방식

키를 누른 채 말할 때 안에서 대략 무슨 일이 벌어지는지 알아두면 도움이 됩니다. 어떤 건 잘 되고 어떤 건 안 되는지가 이 구조로 설명되거든요.

Whisper는 99개 언어의 오디오로 학습된 하나의 신경망입니다. 언어마다 모델을 따로 돌리는 대신, 모든 언어를 한꺼번에 인식하도록 학습된 셈입니다. 이렇게 함께 학습하면 유용한 효과가 생깁니다. 이탈리아어 문장과 포르투갈어 문장은 음향 특성이 충분히 비슷해서, 한쪽을 배우는 게 다른 쪽을 배우는 데 도움이 됩니다. 단점은 모든 언어가 같은 모델 용량을 두고 경쟁한다는 점이고, 그래서 희귀 언어 쪽은 상대적으로 약합니다.

서로 다른 언어의 음성이 하나의 받아쓰기 모델로 흘러들어가 다듬어진 텍스트로 나오는 모습을 보여주는 일러스트

오디오가 들어오면 모델은 한 번의 처리로 세 가지 일을 합니다: 1. 처음 몇 초의 음성에서 언어를 추정합니다. 2. 단어를 옮겨 적습니다. 3. 구두점과 대소문자를 붙입니다.

이 언어 감지가 자동 모드를 가능하게 합니다. 모델이 어떤 언어가 어떻게 들리는지 익혔기 때문에, 말을 시작한 지 1~2초 안에 보통 정확히 맞춥니다. 비틀거리는 지점은 정해져 있습니다. 너무 짧은 발화(한두 단어), 공통 어휘가 많은 언어들(스페인어와 이탈리아어, 노르웨이어와 스웨덴어), 그리고 문장 중간 언어 전환입니다. Whisper는 클립당 한 가지 언어를 감지하도록 만들어졌지, 두 언어 사이를 오가며 따라잡도록 만들어진 게 아닙니다.

원시 음성이 깨끗한 텍스트가 되는 전체 메커니즘이 궁금하다면 AI 음성 받아쓰기 파이프라인 글에서 단계별로 짚어봅니다.

자동 감지 vs 수동 언어 선택: 어떤 상황에 어느 쪽이 좋은가

요즘의 다국어 받아쓰기 앱들은 두 가지 모드를 제공합니다. 언제 어느 쪽을 써야 하는지 알면 부드러운 작업과 답답한 작업이 갈립니다.

자동 감지가 좋은 경우

하루에 언어를 자주 바꾸지만, 한 번의 받아쓰기는 한 가지 언어로 끝낼 때입니다. 베를린에서 일하면서 영어로 코드 주석을 쓰고 독일어로 Slack 메시지를 보내는 개발자. 영어와 일본어 자료를 오가는 기자. 네 개 언어의 고객 지원 티켓을 처리하는 담당자. 모두 각각의 녹음은 한 가지 언어이고, 바뀌는 건 그게 어떤 언어냐 하는 것뿐입니다. 자동 감지는 매번 메뉴를 뒤지는 수고를 없애줍니다.

수동 선택이 좋은 경우

감지가 잘 안 되는 비교적 덜 쓰이는 언어로 작업할 때입니다(웨일스어, 마오리어, 벨라루스어). 첫 1초가 음성이 아니라 주변 소음일 수 있는 시끄러운 환경에서 받아쓰기 할 때. 감지에 쓸 만한 오디오 양이 안 되는 짧은 발화일 때. 또는 모델이 다른 언어와 헷갈리기 쉬운 언어를 쓸 때(예를 들어 갈리시아어를 의도했는데 포르투갈어로 추정하는 경우)입니다.

여전히 잘 안 되는 부분

문장 중간의 언어 전환입니다. 스페인어로 시작해서 중간에 영어 브랜드명을 끼워 넣는 정도라면 모델이 처리해줍니다. 그런데 스페인어로 문장을 시작해서 영어로 마무리하면, 둘 중 하나가 반대편 언어에서 의미 없는 글자로 나오는 경우가 잦습니다. 솔직한 우회법은 언어 경계에서 녹음을 끊고 새로 시작하는 겁니다.

말하면서 번역하기: 'X로 말하고 영어로 출력' 워크플로

요즘 Mac 받아쓰기에서 가장 저평가된 기능 중 하나가 말하면서 번역하기입니다. 모국어로 말하면, 화면에 나타나는 텍스트는 이미 다른 언어로 되어 있습니다. 그 대상 언어는 보통 영어입니다.

이걸 가능하게 하는 방법은 두 가지입니다. 첫째, Whisper의 예전 다국어 변종에는 번역 작업이 내장돼 있어서 99개 언어 중 어느 것으로 말해도 모델이 곧장 영어를 출력합니다. 새로운 turbo 변종에는 이 기능이 빠져 있어서, 요즘 대부분의 앱은 다른 방식을 씁니다. Whisper로 원어 그대로 옮겨 적은 다음, 언어 모델이 그 텍스트를 번역하는 식이죠. 두 번째 방식이 품질이 더 높고 동시에 문장 다듬기까지 처리해주기 때문에 사실상 표준이 됐습니다.

이로 인해 예전엔 세 단계로 나뉘던 실제 워크플로가 하나로 압축됩니다. 예전 방식: 모국어로 받아쓰기 → 텍스트 복사 → 번역기에 붙여넣기 → 결과 복사 → 이메일에 붙여넣기. 약 30초에 네 번의 맥락 전환이 듭니다. 새로운 방식: 키 하나 누른 채 모국어로 말하면 다듬어진 영어 텍스트가 커서 위치에 나타납니다. 4초쯤 걸립니다.

직장에서 영어로 글을 쓰지만 머릿속에서는 다른 언어로 생각이 더 빠르게 흐른다면, 이 기능 하나만으로도 요즘 받아쓰기를 설정할 이유가 됩니다. Voicr는 단축키 하나로 처리합니다. 입력 언어를 Auto로, 다듬기 출력은 영어로 설정해 두면, 어떤 언어로 말하든 모든 녹음이 그대로 보낼 수 있는 영어로 정리돼 나옵니다.

Mac에서의 실제 다국어 워크플로

이론은 그렇다 치고, 실제로 시간을 줄여주는 패턴들을 살펴봅니다.

이중언어 노트와 일기

모국어로 메모를 적지만 영어가 공용어인 회사에서 일한다면, 받아쓰기가 양쪽을 다 해결해줍니다. 원어를 모국어로, 출력도 모국어로(번역 없음) 설정하면 키보드를 거의 두드릴 일이 없어집니다. 원본과 영어 버전 둘 다 필요한 회의 노트라면, 출력 설정만 바꿔서 두 번 받아쓰기를 하면 됩니다.

코드는 영어, 주석은 모국어

비영어권 팀에서 일하는 개발자들은 보통 코드는 영어로 두고 주석은 팀 언어로 씁니다. 자동 감지는 에디터에 코드 설명(영어 함수명, 영어 설명)을 받아쓰다가 모국어로 주석을 받아쓰는 식으로 오갈 때도 별 신경 쓸 일 없이 처리해줍니다. 각 녹음이 한 가지 언어이고, 모델이 매번 올바른 언어를 골라줍니다.

네 개 시간대를 넘나드는 고객 지원

영어, 스페인어, 프랑스어, 독일어로 들어오는 티켓을 처리하는 지원 담당자는 보통 도구 안에서 언어 프로필을 탭으로 옮겨가며 일합니다. 다국어 받아쓰기를 쓰면, 티켓을 읽고 그 언어로 답장한 다음 바로 다음 티켓으로 넘어갑니다. 프로필 전환도, 메뉴도 없습니다. 다듬기 단계도 여기선 중요합니다. 고객 답변은 모든 언어에서 일관된 전문적인 톤을 유지해야지, 받아쓰기 원문 그대로면 안 되니까요.

언어 학습자와 언어 교사

언어를 배우는 중이라면, 그 언어로 받아쓰기를 하는 게 발음과 호흡을 강제로 잡아줍니다. 모델이 알아듣지 못하면 그게 곧 피드백입니다. 가르치는 입장이라면, 예문을 받아쓰기로 적으면 악센트, 특수문자, 발음 부호를 일일이 입력할 필요가 없습니다. 모델이 알아서 붙여줍니다. 양쪽 모두에게 말하면서 번역하기 흐름은 즉석 이해 점검 역할도 합니다. 배우는 언어로 말한 다음, 영어 결과가 본인이 의도한 의미와 맞는지 확인해보면 됩니다.

국제적인 작가와 기자

한 언어로 생각하고 다른 언어로 글을 발표하는 장문 작가들은, 보통 머릿속에서 번역을 돌리면서 타자를 칩니다. 진이 빠지는 일입니다. 본인이 생각하는 언어로 초고를 말하고, 도구가 영어를 뽑아내게 한 다음 편집하세요. 초고는 3~4배 빨라지고, 초고 단계에서 번역까지 떠안지 않아도 되니까 편집할 때 머리가 더 맑은 상태로 들어갑니다.

Mac에서 다국어 받아쓰기 설정하는 법

방법은 두 가지입니다. 가장 단순한 경우엔 Apple 기본 도구, 그 이상이 필요하면 서드파티 앱입니다.

Apple Dictation을 여러 언어용으로 설정하기

시스템 설정을 열고 키보드로 들어가서 받아쓰기를 클릭합니다. 켭니다. 언어 드롭다운을 클릭해서 원하는 언어를 추가합니다. 약 여섯 개까지 추가할 수 있습니다. 이제 받아쓰기를 시작하면 커서 근처에 작은 국기나 언어 코드가 나타나는데, 그걸 클릭해서 언어를 바꿉니다. 한계: - 자동 감지 없음. 전환할 때마다 클릭이 필요합니다. - 약 50~60개 언어만 지원. - 다듬어지지 않은 원문, 앱별 서식 인식 없음. - 구버전 macOS에서는 60초 받아쓰기 제한.

서드파티 다국어 앱 설정하기

요즘 Mac 받아쓰기 앱들은 대체로 어떤 앱의 어떤 텍스트 영역에서도 동작하는 메뉴 막대 유틸리티 형태입니다. 설정은 보통 이런 식입니다: 1. 앱을 설치하고 마이크와 접근성 권한을 부여합니다. 2. 단축키를 설정하거나 기본값을 받아들입니다(보통 FN 또는 Option+Space, 누르고 있는 동안 녹음). 3. 입력 언어를 고릅니다. 다국어 작업이라면 Auto로 둡니다. 4. 출력 언어를 고릅니다. 입력과 같으면 받아쓰기만, 영어(또는 다른 언어)로 두면 번역까지 됩니다. 5. 선택사항으로 다듬기 프롬프트("전문적으로", "캐주얼하게", "원문 유지")를 설정해서 출력 톤을 원하는 방식으로 맞춥니다. 이후로는 타자를 칠 수 있는 곳이라면 어디든 받아쓰기를 할 수 있습니다. 키를 누르고, 말하고, 떼면 커서 위치에 텍스트가 나타납니다.

서로 다른 앱에 서로 다른 톤으로 글을 쓴다면(격식 있는 이메일, 가벼운 Slack, 기술 문서) Smart Rules가 등장할 차례입니다. 활성 앱이 무엇이냐에 따라 자동으로 적용되는 앱별 글쓰기 스타일이죠. 한 번 규칙을 정해두면 다시 신경 쓸 일이 없습니다. 같은 다국어 모델이 모든 경우를 처리합니다.

현실적인 정리

Mac에서 다국어 받아쓰기를 설정할 때 기억해 둘 만한 세 가지:

녹음 하나에 언어 하나가 원칙입니다. 모델은 100개 언어를 지원하지만 클립당 한 가지를 고릅니다. 문장 중간에 전환을 시도하는 대신, 언어가 바뀌는 지점에서 녹음을 끊으세요.

일상적인 다국어 작업의 기본값은 자동 감지입니다. 수동 선택은 짧은 발화, 희귀 언어, 또는 감지가 빗나갈 만큼 시끄러운 환경에서만 값어치를 합니다.

말하면서 번역하기는 별도 도구가 아닙니다. 출력 언어가 영어, 입력이 모국어라면 모든 녹음이 곧 번역입니다. 추가 단계도, 별도 앱도, 복사-붙여넣기도 없습니다.

키 하나, 모든 언어

여기까지 읽었다면 '2026년에 내 Mac에서 100개 언어로 어떻게 받아쓰기를 하지?'에 대한 답은 짧습니다. Whisper 기반 서드파티 앱을 설치하고, 입력 언어를 Auto로 설정한 다음, 키 하나를 누르고 말하세요. 시스템이 언어 감지, 받아쓰기, 다듬기, 그리고 (선택적으로) 번역까지 한 번에 처리합니다.

Voicr는 Mac의 어느 앱에서나 단축키 하나로 이걸 해냅니다. FN을 누르고 있다가 100개 언어 중 어느 것으로든 말한 뒤 떼면, 다듬어진 텍스트가 커서 위치에 자리를 잡습니다. 출력 언어를 다르게 두면 말하는 즉시 번역되고, 같게 두면 깔끔한 받아쓰기만 됩니다. 매달 5,000단어까지 무료로 쓸 수 있는 Free 플랜이 있어서, 다국어 받아쓰기가 본인의 작업 흐름에 들어맞는지 알아보는 가장 저렴한 방법은 내일 첫 이메일에서 한 번 써보는 겁니다.

지금 본인 컴퓨터에 있는 받아쓰기와 요즘 Mac 받아쓰기를 정면으로 비교해 보고 싶다면, Voicr vs Apple Dictation 비교 글에서 기능별로 차이를 짚어봅니다.