Bạn đang gọi Zoom với một nhà cung cấp ở São Paulo, người liên tục chuyển sang nói tiếng Bồ Đào Nha. Hoặc bạn đang xem buổi giới thiệu sản phẩm bằng tiếng Nhật và phụ đề tự động không theo kịp. Hoặc bạn suy nghĩ bằng tiếng Tây Ban Nha nhưng khách hàng lại mong nhận email bằng tiếng Anh.
Ba vấn đề hoàn toàn khác nhau. Cả ba đều bị gộp chung dưới cái tên "dịch giọng nói theo thời gian thực trên Mac", và đó là lý do hầu hết các bài hướng dẫn về chủ đề này gây bối rối. Công cụ phù hợp tùy thuộc vào bài toán bạn đang thực sự giải.
Apple đã ra mắt Live Translation trong macOS 26 vào mùa thu năm ngoái. Whisper có một mô hình Turbo chạy được trên MacBook Air mà không làm máy nóng chảy. Các công cụ đọc chính tả vốn từng là một mớ hỗn độn dành cho dân nghiệp dư giờ đã thực sự tốt. Bài viết này điểm qua những lựa chọn hiện có, khi nào mỗi tùy chọn thực sự phù hợp, và cách thiết lập chúng mà không sa vào cái bẫy của các video demo.
"Thời gian thực" thực sự có nghĩa là gì
Trước khi chọn công cụ, hãy gọi tên quy trình. Có ba dạng "thời gian thực" khác nhau trên Mac, và mỗi dạng cần phần mềm khác nhau:
Phụ đề trực tiếp — người khác đang nói và bạn muốn có phụ đề, có thể đã được dịch, ngay khi họ nói. Cuộc gọi, cuộc họp, bài giảng, livestream. Độ trễ rất quan trọng. Trễ 4 giây thì khó chịu; trễ 10 giây thì vô dụng.
Đọc chính tả — bạn là người nói, và bạn muốn có văn bản sạch ở một ngôn ngữ khác khi kết thúc. Email, tin nhắn Slack, tài liệu. Phần chuyển âm và phần dịch diễn ra trong một lần khi bạn ngừng nói. Phản hồi dưới một giây sau khi bạn nói xong quan trọng hơn việc thấy từng từ trôi qua khi đang nói.
Chuyển âm tệp — bạn có một bản ghi (file xuất từ Zoom, ghi âm, podcast) và muốn có bản chuyển âm đã dịch. Đây không thực sự là thời gian thực. Cứ đưa nó vào mô hình có độ chính xác cao nhất bạn tìm được và chờ hai phút.
Lẫn lộn ba thứ này là lý do nhiều người dùng công cụ chuyển âm cuộc họp để viết email nhanh, hoặc cố dùng ứng dụng đọc chính tả để gắn phụ đề cho video YouTube. Hãy chọn đúng nhóm trước, rồi mới chọn công cụ.
Các tùy chọn có sẵn trên macOS
Nếu bạn đang dùng macOS 26 với máy Mac chạy Apple Silicon, Apple cho bạn hai công cụ có sẵn, kèm theo một khoảng trống đáng kể.
Live Translation (macOS 26)
Live Translation chạy trong Messages, FaceTime và ứng dụng Phone mới trên Mac. Nó được vận hành bởi Apple Intelligence và chạy trên thiết bị, nên không có gì rời khỏi máy của bạn. Trong cuộc gọi FaceTime, bạn nhấp vào nút menu, chọn Live Captions, và một bản chuyển âm đã dịch sẽ hiện ra gần đầu màn hình.
Điểm trừ nằm ở danh sách ngôn ngữ. Với Live Translation trong FaceTime và Phone, Apple hỗ trợ tiếng Anh, Pháp, Đức, Bồ Đào Nha (Brazil) và Tây Ban Nha (Tây Ban Nha), còn tiếng Quan Thoại, Ý, Nhật và Hàn đang được triển khai. Messages hỗ trợ tập rộng hơn, bao gồm cả tiếng Đan Mạch, Hà Lan, Na Uy, Thụy Điển, Thổ Nhĩ Kỳ và Việt.
Nó miễn phí, riêng tư và độ trễ tốt. Nhưng nó chỉ hoạt động trong các ứng dụng của Apple. Zoom, Google Meet, huddle trong Slack, YouTube — không cái nào đi qua Live Translation.
Live Captions
Bật Live Captions trong System Settings → Accessibility → Live Captions và bạn sẽ có một cửa sổ nổi chuyển âm bất kỳ âm thanh nào máy Mac nhận được — âm thanh hệ thống, micro, hoặc cả hai. Nó hoạt động trong mọi ứng dụng: Zoom, YouTube, podcast, hay đồng nghiệp ngồi cạnh đang nói.
Live Captions chuyển âm nhưng không dịch. Tại thời điểm viết bài, nó cũng chỉ hỗ trợ tiếng Anh. Nếu cuộc họp của bạn bằng tiếng Anh và bạn chỉ cần văn bản để theo dõi, đây là câu trả lời. Nếu cuộc họp bằng tiếng Bồ Đào Nha, Live Captions sẽ không giúp được.

Phụ đề và dịch trực tiếp cho cuộc gọi và video
Khi các công cụ có sẵn của Apple không bao quát được cuộc gọi của bạn, một nhóm nhỏ các ứng dụng bên thứ ba lấp vào khoảng trống đó. Chúng lấy âm thanh hệ thống (bất cứ thứ gì đang phát qua loa Mac) hoặc micro, chuyển âm bằng mô hình Whisper cục bộ, và tùy chọn dịch nội dung. Cả ba ứng dụng dưới đây đều chạy trên thiết bị, điều này quan trọng nếu bạn đang trong một cuộc gọi mật.
MacWhisper — Một trong những ứng dụng Mac lâu đời nhất trong lĩnh vực này. Phụ đề trực tiếp kèm dịch, chạy trên Whisper và Nvidia Parakeet, hỗ trợ lấy âm thanh hệ thống cho bất kỳ công cụ họp nào. Ổn định với Zoom, Meet, Teams. Bản Pro là mua một lần.
Superwhisper — Kết hợp chuyển âm trực tiếp với luồng đọc chính tả dựa trên Whisper. Hỗ trợ hơn 100 ngôn ngữ và có thể dịch bất kỳ ngôn ngữ nào sang tiếng Anh. Cố gắng vừa làm công cụ phụ đề vừa làm công cụ đọc chính tả, phù hợp nếu bạn muốn một ứng dụng làm cả hai, nhưng đồng nghĩa với việc phần đọc chính tả nặng nề hơn so với một công cụ chuyên biệt.
Transcrybe — Mới hơn, gọn nhẹ hơn, tập trung riêng vào dịch thời gian thực. Chỉ chạy trên thiết bị. Giao diện được xây quanh tình huống "có người đang nói một ngôn ngữ tôi không biết — cho tôi xem họ đang nói gì." Phù hợp khi đi du lịch, gọi hỗ trợ, xem nội dung tiếng nước ngoài.
Chọn dựa trên tần suất bạn rơi vào tình huống này. Nếu bạn sống trong các cuộc gọi quốc tế, MacWhisper hoặc Superwhisper xứng đáng có một chỗ trên thanh menu của bạn. Nếu bạn chỉ thỉnh thoảng cần, Live Translation của Apple trong FaceTime có thể là đủ.
Đọc chính tả ở một ngôn ngữ, viết ra ở ngôn ngữ khác
Nhu cầu "dịch thời gian thực" phổ biến nhất chẳng liên quan gì đến việc người khác nói. Nó liên quan đến *bạn*, người suy nghĩ bằng tiếng mẹ đẻ nhưng cần tiếng Anh trên trang giấy vì đó là điều công việc đòi hỏi.
Nếu bạn là người Tây Ban Nha, Pháp hay Ba Lan và viết tiếng Anh nhiều ở công sở, bạn hiểu cái giá phải trả. Bạn soạn câu trong đầu bằng ngôn ngữ của mình, dịch nó trong đầu, rồi gõ bản dịch. Mỗi email là hai bản nháp: bản bạn viết trong đầu, và bản các ngón tay bạn tạo ra.
Hình hài của công cụ phù hợp ở đây khác với phụ đề trực tiếp. Bạn không cần phụ đề chạy theo dòng. Bạn cần: giữ một phím, nói tự nhiên bằng ngôn ngữ của mình, thả ra, và có một đoạn văn bản trau chuốt ở ngôn ngữ đích nằm sẵn trên clipboard, sẵn sàng dán vào bất cứ đâu (Gmail, Slack, Notion, một ticket Jira).
Đây là khoảng trống mà Voicr lấp vào. Giữ FN, nói bằng một trong 100 ngôn ngữ, đặt tiếng Anh làm ngôn ngữ đích, và thứ được dán ra là tiếng Anh sạch sẽ, không phải bản chuyển âm thô chạy qua một trình dịch riêng. Việc chuyển âm và dịch diễn ra trong một bước, thay vì giọng nói → bản chuyển âm → sao chép → trình dịch → dán. Toàn bộ quá trình chỉ mất khoảng thời gian bằng lúc bạn nói.
Còn có chế độ Tự động phát hiện, đoán ngôn ngữ được nói từ chính âm thanh, nên nếu bạn chuyển qua lại giữa, ví dụ, tiếng Tây Ban Nha cho Slack cá nhân và tiếng Anh cho email khách hàng, bạn không phải mở bộ chọn. Chi tiết nhỏ, dễ bỏ qua trong danh sách tính năng. Phần phân tích dài hơn nằm ở Chuyển giọng nói thành văn bản trong 100 ngôn ngữ trên Mac.
Chuyển âm các tệp ghi sẵn
Nếu bạn có một tệp (bản ghi Zoom, ghi âm thoại, một buổi phỏng vấn, một podcast), "thời gian thực" không phải là khung tham chiếu phù hợp. Hãy đưa tệp đó vào một công cụ dựa trên Whisper chạy ở chất lượng đầy đủ và để nó xử lý trong hai phút. Độ chính xác mới là thứ quan trọng.
MacWhisper và Whisper Transcription đều xử lý việc này tốt. OpenAI API trực tiếp cũng vậy, nếu bạn quen với việc viết script. Riêng với việc dịch, lưu ý rằng tính năng dịch tích hợp của Whisper chỉ đi một chiều: bất kỳ ngôn ngữ nào → tiếng Anh. Nếu bạn cần chiều ngược lại (ví dụ tiếng Anh → tiếng Nhật), hãy chạy bản chuyển âm qua một mô hình dịch riêng sau đó, như Claude, GPT hoặc DeepL.
Bỏ qua phần này nếu đầu vào của bạn luôn là trực tiếp. Nhưng nếu bạn ghi âm phỏng vấn hoặc lấy lại bản ghi từ các cuộc họp cũ, quy trình ngoại tuyến vẫn rẻ hơn, chính xác hơn và dễ sửa hơn so với streaming.
Chọn thiết lập đúng cho quy trình của bạn
Một cây quyết định nhanh:
1. Tôi muốn có phụ đề trong cuộc trò chuyện FaceTime hoặc Messages → Apple Live Translation. Miễn phí, có sẵn, chạy trên thiết bị. 2. Tôi muốn có phụ đề trong cuộc gọi Zoom/Meet/Teams ở ngôn ngữ tôi không biết → MacWhisper, Superwhisper, hoặc Transcrybe. Chọn một cái. 3. Tôi muốn đọc chính tả bằng tiếng mẹ đẻ và nhận văn bản tiếng Anh để dán ở bất kỳ đâu → Một công cụ đọc chính tả một phím như Voicr. Đây là tình huống dùng hằng ngày cho dân chuyên nghiệp song ngữ. 4. Tôi muốn chuyển âm một tệp đã ghi ở ngôn ngữ khác và lấy tiếng Anh → MacWhisper hoặc bất kỳ ứng dụng desktop nào dựa trên Whisper. Ngoại tuyến, mô hình chất lượng đầy đủ, chờ hai phút.
Hầu hết mọi người kết thúc với hai công cụ, không phải một: một cái cho phụ đề trực tiếp khi cần (thỉnh thoảng), và một cái cho đọc chính tả hằng ngày (liên tục). Sự phân chia đó là bình thường. Một công cụ phụ đề và một công cụ đọc chính tả tối ưu cho những thứ khác nhau, và ép một cái làm cả hai thường có nghĩa là làm cả hai đều tệ hơn.
Đặt kỳ vọng thực tế
Vài điều mà mọi video demo thường bỏ qua, đáng biết trước khi bạn cam kết:
Độ trễ là có thật. Ngay cả Whisper chạy trên thiết bị cũng có độ trễ 1–3 giây cho phụ đề trực tiếp. Các công cụ dựa trên đám mây cộng thêm 1–2 giây nữa. Hãy tính đến nó. Đừng cố dùng phụ đề trực tiếp để theo dõi một cuộc tranh luận chính trị tốc độ cao, bạn sẽ tụt lại.
Chất lượng dịch giảm đi ngoài nhóm ~10 ngôn ngữ hàng đầu. Bản thân Whisper xuất sắc với tiếng Anh, Tây Ban Nha, Pháp, Đức, Bồ Đào Nha, Ý, Quan Thoại, Nhật. Nó yếu hẳn đi với tiếng Thái, Quảng Đông, Việt, và phần lớn các ngôn ngữ châu Phi. Nếu ngôn ngữ của bạn nằm ở phần đuôi dài, hãy thử nghiệm trước khi phụ thuộc vào nó.
Lấy âm thanh hệ thống cần quyền truy cập. macOS không cho ứng dụng nghe âm thanh hệ thống theo mặc định. Mọi công cụ trong nhóm phụ đề trực tiếp sẽ hướng dẫn bạn cấp quyền Screen Recording hoặc audio-loopback trong lần đầu sử dụng. Điều này là bình thường. Đó cũng là lý do một số ứng dụng yêu cầu cài một thiết bị âm thanh ảo một lần.
Quyền riêng tư khác nhau. Các công cụ của Apple và hầu hết các ứng dụng dựa trên Whisper đều chạy hoàn toàn trên thiết bị. Bất kỳ thứ gì gửi âm thanh tới API đám mây (một số công cụ "trợ lý họp AI") đang đánh đổi theo cách khác. Nếu bạn làm trong lĩnh vực pháp lý, y tế hay bất cứ ngành nào được quy định chặt, hãy kiểm tra trước khi bật một công cụ trong cuộc gọi với khách hàng.

Điểm khởi đầu thiết thực
Nơi dễ nhất để bắt đầu, bất kể mục tiêu cuối cùng của bạn là gì, là chọn ra một tình huống sử dụng bạn gặp nhiều nhất trong tuần này. Không phải tình huống hiếm gặp. Tình huống hằng ngày.
Nếu bạn dự nhiều cuộc họp quốc tế, hãy cài một công cụ phụ đề trực tiếp, để nó trong thanh menu và dùng nó trong hai tuần trước khi quyết định. Nếu bạn viết nhiều tiếng Anh trong khi suy nghĩ bằng ngôn ngữ khác, hãy thử thay thế mười email tiếp theo mà bình thường bạn sẽ gõ bằng cách đọc chính tả bằng tiếng mẹ đẻ và để công cụ tạo ra phần tiếng Anh.
Voicr xử lý riêng tình huống đọc chính tả. Giữ FN, nói bằng ngôn ngữ của bạn, đặt tiếng Anh làm ngôn ngữ đích, dán ở bất cứ đâu. Có gói Free (5.000 từ mỗi tháng, không cần thẻ tín dụng) đủ để xem quy trình này có thực sự hợp với cách bạn viết không. Cho tình huống phụ đề trực tiếp, MacWhisper có bản miễn phí với mô hình Whisper cơ bản đủ để thử trải nghiệm trước khi trả tiền.
Công nghệ đã ngừng là điểm nghẽn từ một thời gian trước. Câu hỏi thú vị bây giờ là quy trình nào bạn thực sự thiết lập và dùng, và điều đó nằm ở việc chọn đúng công cụ cho điểm vướng cụ thể mà bạn cứ gặp đi gặp lại. Để tìm hiểu thêm về phía đọc chính tả, Cách đọc chính tả bằng giọng nói trên Mac thực sự hoạt động trình bày những gì xảy ra giữa giọng nói của bạn và đoạn văn bản trau chuốt trên clipboard.

