Bạn mở App Store, tìm "AI dictation Mac", và hai cái tên luôn xuất hiện là Voicr và SuperWhisper. Ảnh chụp màn hình trông giống nhau. Danh sách tính năng cũng trùng nhau. Cả hai đều hứa hẹn cho ra văn bản chỉn chu từ giọng nói của bạn.
Cài cả hai khoảng mười phút là thấy khác biệt ngay. Một bên yêu cầu bạn chọn kích thước mô hình Whisper, cấu hình một chế độ tùy chỉnh, dán API key cho LLM ưa thích, rồi gắn thẻ XML cho prompt. Bên còn lại chỉ yêu cầu bạn giữ một phím và bắt đầu nói.
Không có cách tiếp cận nào sai. Chúng được làm ra cho những người khác nhau. Dưới đây là so sánh trực diện trung thực về chỗ Voicr và SuperWhisper đi khác hướng, và ứng dụng nào hợp với kiểu người dùng Mac nào.
Phiên bản ngắn gọn
Nếu bạn không muốn đọc phần còn lại: - SuperWhisper dành cho người thích vọc, muốn kiểm soát toàn bộ mô hình, prompt và nhà cung cấp AI. Hỗ trợ ngoại tuyến tốt. Bề mặt cấu hình dày đặc. Có trên Mac, Windows và iOS. - Voicr dành cho người dùng Mac muốn việc trau chuốt văn bản và quy tắc theo từng ứng dụng được cài sẵn. Giữ FN, nói, thả tay, dán. Không có bộ chọn mô hình. Không có BYOK key. Chỉ chạy trên Apple Silicon. - Cả hai đều phiên âm bằng Whisper. Cả hai đều hỗ trợ 100 ngôn ngữ. Chỗ khác biệt là lượng cấu hình mà chúng đòi hỏi ở bạn.
SuperWhisper được làm ra cho điều gì
SuperWhisper là một khung có thể cấu hình. Mô hình Whisper chạy cục bộ để phiên âm, LLM trên cloud tùy chọn để xử lý hậu kỳ, và hệ thống Custom Modes nơi bạn định nghĩa chính xác cách từng tác vụ vận hành.
Custom Modes là tính năng chủ lực. Bạn có thể tạo một chế độ cho email, một chế độ cho ghi chú họp, một chế độ cho bình luận trong code, và một chế độ thứ tư cho Slack. Mỗi chế độ có prompt riêng, quy tắc định dạng riêng, và nhà cung cấp AI riêng. Bạn có thể nối OpenAI, Anthropic, Google, Mistral, Groq, hoặc một mô hình Llama cục bộ, tùy chế độ nào đang chạy. Tài liệu của họ khuyến nghị dùng thẻ XML cho bất kỳ prompt nào dài hơn vài dòng.
Ưu tiên xử lý cục bộ. SuperWhisper tải các mô hình Whisper về máy. Tiny, base, small, medium, large-v3 và large-v3-turbo đều có sẵn, các mô hình lớn hơn được khóa sau gói Pro. Trên Apple Silicon, large-v3-turbo chạy cục bộ và độ chính xác rất tốt. Âm thanh không rời khỏi laptop ở bước phiên âm. Công ty đã đạt chứng nhận SOC 2 Type II và tuân thủ HIPAA, nên đây là lựa chọn dễ duyệt hơn qua khâu rà soát bảo mật ở doanh nghiệp.
Đa nền tảng. SuperWhisper chạy trên macOS, Windows và iOS với một giấy phép. Nếu bạn dùng song song MacBook và máy bàn Windows, đây là lợi thế thực sự.
Giá trọn đời. Trả một lần ($249.99 tại thời điểm viết bài, dù giá đã thay đổi trong năm 2026) để dùng vĩnh viễn. Với người dùng nặng hàng ngày, phép tính này lợi hơn hầu hết các gói thuê bao kể từ năm thứ hai.
Cái giá của sức mạnh đó là bề mặt thiết lập rất dày. Nhiều bài đánh giá ví quá trình bắt đầu như "cấu hình một máy chủ" — chọn đúng kích thước mô hình, quyết định dùng nhà cung cấp LLM nào cho chế độ nào, viết prompt, gỡ lỗi tổ hợp phím. Khi đã tinh chỉnh xong thì mạnh thật. Nhưng để đạt đến đó cần cả một cuối tuần.
Voicr được làm ra cho điều gì
Voicr bắt đầu từ đầu kia. Phần lớn người dùng không muốn tự lắp ráp công cụ đọc chính tả. Họ muốn cài một thứ đã trau chuốt giọng nói của họ tốt sẵn, theo đúng giọng điệu mà ứng dụng họ đang dùng đòi hỏi, chỉ với một phím.
Giữ FN ở bất kỳ đâu trên macOS. Voicr ghi lại âm thanh, phiên âm bằng Whisper large-v3-turbo, chạy qua một bước trau chuốt bằng AI, rồi dán kết quả đã làm sạch vào ô nhập liệu bạn đang gõ. Không cửa sổ nào bật lên. Không cần qua clipboard. Không phải chuyển sang ứng dụng khác.
Việc trau chuốt được làm sẵn cho bạn. Voicr đi kèm phần lõi AI đã được nối dây hoàn chỉnh — không có API key, không phải chọn nhà cung cấp, không phải nghĩ prompt. Bạn không phải quyết mô hình nào sẽ viết lại lời nói. Ứng dụng làm việc đó, với phong cách trau chuốt được chọn sao cho đọc giống như bạn ngồi xuống và gõ một cách cẩn thận.
Smart Rules giải quyết bài toán theo từng ứng dụng mà không bắt bạn tự dựng các chế độ. Bạn gán một phong cách viết cho từng ứng dụng — thân mật cho Slack, trang trọng cho Mail, kỹ thuật cho VSCode, ghi chú thô cho Apple Notes — và Voicr tự nhận ứng dụng nào đang hoạt động rồi áp dụng đúng phong cách. Có giao diện để chỉnh sửa quy tắc. Không có XML, không cú pháp prompt nào phải học.
Pure Dictation Mode là chế độ bật-tắt một cú nhấp cho khi bạn muốn phiên âm thô có dấu câu chuẩn, không viết lại bằng AI. Trích dẫn, ghi chú thô, ghi nguyên văn.
Tự động nhận diện ngôn ngữ chọn đúng ngôn ngữ bạn đang nói từ âm thanh, qua 100 ngôn ngữ. Đặt ngôn ngữ đích là tiếng Anh và Voicr vừa phiên âm vừa dịch luôn. Nghĩ bằng tiếng Việt, viết ra tiếng Anh, một phím.
Đánh đổi là ngược lại với SuperWhisper. Voicr có quan điểm rõ ràng. Bạn nhận được kiểu trau chuốt mà đội ngũ cho là tốt. Bạn có thể chỉnh prompt của Smart Rules nếu muốn điều chỉnh giọng, nhưng không thay được mô hình nền hay chạy Llama cục bộ. Và chỉ chạy trên Mac dùng Apple Silicon — không có Windows, không có iOS.
Khi nào trải nghiệm rẽ hướng
Ba tình huống nhanh.
Cài đặt lần đầu
SuperWhisper: cài đặt, tải một mô hình Whisper (chọn kích thước — tiny, base, small, medium, large-v3-turbo, large-v3 — theo cấu hình máy và nhu cầu độ chính xác), mở phần cài đặt, chọn chế độ mặc định, quyết có dùng LLM trên cloud để trau chuốt hay không, dán API key của OpenAI hay Anthropic, viết hoặc nhập một prompt tùy chỉnh, cấu hình phím kích hoạt, rồi thử nghiệm. Tính bằng nguyên một buổi tối.
Voicr: cài đặt, cấp quyền micro và trợ năng, giữ FN, nói. Smart Rules đã được cấu hình sẵn cho các ứng dụng phổ biến. Tính bằng hai phút.
Viết một tin nhắn Slack rồi viết email liền sau
SuperWhisper: nếu bạn đã tạo hai chế độ tùy chỉnh (một cho Slack, một cho Mail), bạn hoặc đổi chế độ thủ công bằng tổ hợp phím khác, hoặc dựa vào Super Mode để nhận diện ứng dụng và chọn đúng prompt. Dù cách nào, các chế độ đó phải có sẵn từ trước.
Voicr: giữ FN trong Slack, ra phiên bản thân mật. Giữ FN trong Mail, ra phiên bản email. Cùng một phím, kết quả khác nhau, vì Smart Rules đã biết bạn đang ở trong ứng dụng nào.
Trau chuốt kết quả
SuperWhisper: bước trau chuốt bằng AI chỉ chạy nếu bạn đã cấu hình một LLM. Mặc định, các mô hình Whisper cục bộ chỉ cho bạn bản phiên âm thô; muốn viết lại thì phải tự mang API key của mình và trả phí cho nhà cung cấp LLM theo lượt dùng. Nhiều đánh giá người dùng cho rằng bản phiên âm vẫn cần dọn dẹp thủ công trừ khi bạn chủ động đi nối dây phần này.
Voicr: trau chuốt được bật mặc định. Bỏ từ đệm, sửa ngữ pháp, gọn lại cấu trúc. Bạn không phải trả một hóa đơn API riêng. Nếu bạn muốn bản thô, chỉ cần bật Pure Dictation Mode.

Nếu bạn đang đọc chính tả vào SuperWhisper mà bản phiên âm vẫn ra thô vì chưa kịp dựng Custom Modes và đặt API key, thì phần trau chuốt của Voicr chính là phần bạn đang định cấu hình. Chỉ có điều nó đã được làm sẵn. Giữ FN, nói, thả tay — bản đã làm sạch xuất hiện ngay trong ô nhập liệu.
Quyền riêng tư và chế độ ngoại tuyến
Đây là điểm SuperWhisper thực sự thắng, và đáng nói thẳng.
Phiên âm của SuperWhisper chạy trên mô hình Whisper cục bộ. Âm thanh không rời máy bạn ở bước chuyển giọng nói thành văn bản. Nếu bạn không bật phần trau chuốt bằng LLM trên cloud, toàn bộ quy trình ở lại trên máy. Với người dùng trong các ngành được quản lý chặt, mạng chập chờn, hay có yêu cầu riêng tư khắt khe, đó là khác biệt thực chất.
Voicr dùng phiên âm trên cloud và trau chuốt trên cloud. Âm thanh được gửi lên máy chủ, xử lý, rồi kết quả trả về. Không có chế độ chỉ chạy trên máy. Nếu bạn không thể, hoặc không muốn, gửi âm thanh đọc chính tả lên máy chủ, SuperWhisper là lựa chọn an toàn hơn — và đó nên là yếu tố quyết định, bất kể những gì khác trong bài so sánh này.
Một chi tiết: SuperWhisper trước đây vẫn lưu lại mọi bản ghi âm xuống ổ đĩa theo mặc định, là một góc khác về quyền riêng tư (lưu trữ cục bộ thay vì lộ ra qua mạng). Nếu chọn theo hướng SuperWhisper, bạn nên kiểm tra hành vi hiện tại trong phần cài đặt trước khi nghĩ rằng "on-device" cũng đồng nghĩa với "không lưu lại".
So sánh giá
Giá niêm yết không phản ánh toàn bộ bức tranh, vì phần trau chuốt của SuperWhisper phụ thuộc vào việc bạn tự mang LLM key. Tổng chi phí phụ thuộc vào nhà cung cấp bạn nối vào và lượng đọc chính tả của bạn.
SuperWhisper
SuperWhisper Free chạy Whisper cục bộ nhưng giới hạn bạn ở các mô hình nhỏ (tiny và base) và ba chế độ tùy chỉnh. Pro có giá $8.49/tháng hoặc $84.99/năm, mở khóa mọi kích thước mô hình Whisper, bỏ giới hạn số chế độ, và bật phần xử lý hậu kỳ bằng LLM trên cloud. Bản Lifetime hiện ở mức $249.99 trả một lần theo niêm yết gần đây nhất. Trên mọi gói, việc dùng cloud để trau chuốt vẫn đồng nghĩa với trả phí cho OpenAI, Anthropic, Google, hoặc nhà cung cấp bạn nối vào, theo từng lượt yêu cầu.
Voicr
Gói Free của Voicr cho 5.000 từ/tháng với đầy đủ tính năng và không cần thẻ tín dụng. GO là $3/mo cho 20.000 từ. PRO là $10/mo cho 100.000 từ. Trau chuốt nằm sẵn trong mọi gói, nên không có hóa đơn nhà cung cấp AI riêng nào cộng thêm.
Với người dùng nhẹ, cả hai ứng dụng thực tế đều miễn phí. Với người đọc chính tả nặng hàng ngày, phép tính phụ thuộc vào việc bạn muốn trả một lần cho SuperWhisper Lifetime cộng tín dụng LLM theo tháng, hay một khoản thuê bao cố định hàng tháng của Voicr đã gộp sẵn phần trau chuốt. Gói Free của Voicr gần với ứng dụng đầy đủ hơn so với gói Free của SuperWhisper — không khóa mô hình, không giới hạn chế độ tùy chỉnh, không phải trả thêm cho một nhà cung cấp AI để có phần trau chuốt.

Khi nào nên chọn SuperWhisper
Có những tình huống SuperWhisper rõ ràng là công cụ tốt hơn, và không cần phải bàn cãi nhiều.
Bạn dùng Windows hoặc dùng song song Mac và Windows. Voicr chỉ chạy trên Mac Apple Silicon. Nếu bạn cần một ứng dụng duy nhất cho nhiều hệ điều hành, SuperWhisper đáp ứng được.
Bạn có yêu cầu cứng phải chạy ngoại tuyến. Tuân thủ quy định, nội dung nhạy cảm, một máy cụ thể không có mạng. Phiên âm bằng Whisper cục bộ không cần LLM trên cloud là điểm mạnh nhất của SuperWhisper.
Bạn muốn tự mang mô hình của mình. Chạy Llama cục bộ để trau chuốt, đổi qua lại giữa GPT và Claude theo từng tác vụ, viết prompt gắn thẻ XML như viết một system prompt. SuperWhisper được làm cho việc này. Voicr thì không.
Bạn muốn trả một lần dùng trọn đời. Nếu bạn đọc chính tả nhiều suốt nhiều năm, SuperWhisper Lifetime cộng chi phí API key của bạn có thể rẻ hơn một khoản thuê bao tháng cố định. Đáng để bấm máy tính tính thử.
Khi nào nên chọn Voicr
Phần lớn người dùng Mac thường ngày rơi vào nhóm này, và cũng nên nói thẳng vì sao.
Bạn không muốn quản lý API key. Bạn muốn phần trau chuốt bật sẵn theo mặc định, không phải là một bước cấu hình.
Bạn muốn một phím làm đúng việc trong mọi ứng dụng. Không phải đổi chế độ, không phải bấm thủ công — chỉ FN, trong Slack thì nghe như Slack, trong Mail thì nghe như Mail.
Bạn dùng Mac Apple Silicon và sẽ tiếp tục ở đó. Không có nhu cầu đa nền tảng, không có máy Windows nào đang chờ cùng một cấu hình.
Bạn muốn bắt đầu trong năm phút, không phải năm tiếng. Cài đặt, cấp quyền, giữ FN. Mặc định đã đủ tốt để dùng ngay, và bạn có thể tinh chỉnh Smart Rules sau nếu muốn nắn lại giọng văn.
Nếu hồ sơ đó hợp với bạn, Voicr sẽ cho cảm giác như phiên bản SuperWhisper đã có ai đó cấu hình sẵn giúp bạn. Cùng chất lượng phiên âm Whisper. Trau chuốt đã được nối sẵn. Nhận biết theo từng ứng dụng được tích hợp ngay trong lõi, không phải lắp ráp từ các chế độ tùy chỉnh.
Phép thử trung thực
Nếu bạn thật sự phân vân giữa hai bên, phép thử công bằng là đọc chính tả cùng một đoạn viết thực tế trên cả hai. Đừng dùng câu một dòng — chọn cái gì đó ba đến năm câu, kiểu một email hay một câu trả lời trên Slack. Nói tự nhiên, có cả từ đệm và những câu sửa giữa chừng như bình thường bạn sẽ biên tập lại.
Nhìn vào kết quả của mỗi ứng dụng trước khi bạn động vào. Hai câu hỏi: 1. Văn bản đã ở trạng thái bạn sẵn sàng gửi đi chưa? 2. Công cụ có biết bạn đang ở ứng dụng nào không?
Nếu kết quả của SuperWhisper sẵn sàng để gửi vì bạn đã dành cả cuối tuần để chỉnh Custom Modes và prompt, đó là một kết quả thật — cứ tiếp tục dùng. Nếu nó vẫn là bản phiên âm thô bạn phải dọn lại, khác biệt giữa Voicr và SuperWhisper chủ yếu là khác biệt giữa "phần trau chuốt xảy ra tự động" và "đến lúc nào đó bạn sẽ cấu hình phần trau chuốt".
Cách nhanh nhất để biết là cài Voicr, đặt FN làm phím kích hoạt, và thử lại cùng email đó. Nếu bạn thích kiểm soát từng prompt, từng mô hình, SuperWhisper là công cụ tốt hơn. Nếu bạn thích giữ một phím và có ngay bản đã trau chuốt rơi vào ô nhập liệu, Voicr là thứ bạn cần.
Để xem cùng câu hỏi này từ một góc khác — Voicr so với công cụ có sẵn của Apple ra sao — đọc thêm bài So sánh Voicr và Apple Dictation.

