Quay lại Blog

Voicr Team · 23 tháng 5, 2026

Đọc chính tả bằng AI trên Mac: Cách thức hoạt động thực sự

Quy trình đằng sau tính năng đọc chính tả trên Mac cuối cùng cũng dùng được. Cách AI biến giọng nói của bạn thành văn bản chỉn chu trong chưa đầy hai giây, không cần chỉnh sửa.

Đọc chính tả bằng AI trên Mac: Cách thức hoạt động thực sự

Bạn nhìn chằm chằm vào con trỏ đang nhấp nháy trong một email trống. Bạn biết mình muốn nói gì. Bạn chỉ không muốn gõ ra.

Tính năng đọc chính tả trên Mac đã có từ năm 2012, và phần lớn mọi người đã bỏ cuộc nhiều năm trước. Đọc chính tả bằng AI trên Mac là thứ đã thay đổi điều đó trong 18 tháng qua. Trải nghiệm cũ kiểu "nói vào mic và nhìn cả đống lỗi chính tả hiện ra" đã âm thầm được thay thế bằng thứ gì đó thực sự giống như đang viết.

Đây là phần mà hầu hết các bài viết bỏ qua. Phần khó không còn là phiên âm nữa, điều đó đã được giải quyết. Cái thay đổi là lớp bên trên, lớp lấy những suy nghĩ lan man của bạn và biến chúng thành văn bản sạch trước khi nó hiện ra màn hình. Bài viết này đi qua toàn bộ quy trình, từng bước một, để bạn có thể thấy chiếc Mac của mình thực sự làm gì giữa khoảnh khắc bạn bắt đầu nói và khoảnh khắc văn bản chỉn chu xuất hiện trong bản nháp.

Vì sao đọc chính tả trên Mac cuối cùng cũng dùng được

Hai con số giải thích vì sao mọi người đang quay lại với đọc chính tả. Người bình thường gõ khoảng 40 từ mỗi phút. Người bình thường nói khoảng 150 từ mỗi phút. Tức là trong thời gian gõ một từ, bạn có thể nói khoảng bốn từ.

Nhưng tốc độ chưa bao giờ thực sự là vấn đề. Vấn đề là kết quả đầu ra. Đọc chính tả kiểu cũ trả lại cho bạn một bản phiên âm nguyên xi của từng tiếng "ờ", từng lần nói lại, từng câu "khoan, không, bỏ đi". Bạn tiết kiệm được 30 giây khi đọc rồi mất 90 giây để dọn dẹp lại.

Các ứng dụng đọc chính tả AI hiện đại đã khắc phục điều này bằng cách thêm một bước thứ hai. Giọng nói đi qua phiên âm, như trước. Sau đó nó được chuyển cho một mô hình ngôn ngữ viết lại theo cách một biên tập viên gọn gàng sẽ làm. Loại bỏ từ đệm. Sửa ngữ pháp. Hoàn thiện câu. Đến khi văn bản hiện trên màn hình, nó đọc giống như thứ bạn viết vào một ngày đẹp trời.

Năm bước đằng sau đọc chính tả bằng AI trên Mac

Quy trình ngắn gọn. Năm bước, hầu hết đều vô hình: 1. Thu âm, nơi Mac của bạn ghi lại giọng nói. 2. Phiên âm, nơi âm thanh trở thành văn bản thô. 3. Đánh bóng, nơi văn bản thô được mô hình AI làm sạch. 4. Áp dụng ngữ cảnh, nơi phong cách viết thích ứng với nơi văn bản sẽ đến. 5. Bàn giao, nơi văn bản chỉn chu xuất hiện tại con trỏ.

Mỗi bước có mô hình riêng, đánh đổi riêng và những chỗ có thể sai riêng. Đáng để hiểu từng bước một.

Bước 1: Thu âm, cách Mac ghi lại giọng nói của bạn

Phần này không có gì cao siêu. Bạn nhấn một phím tắt (FN, Option+Space, hoặc bất kỳ phím nào ứng dụng dùng) và micro bắt đầu lắng nghe. Ứng dụng ghi âm vào bộ nhớ, thường ở định dạng 16-bit, 16 kHz, định dạng mà mô hình phiên âm yêu cầu.

Hầu hết các ứng dụng đọc chính tả Mac hiện đại không dùng phát hiện hoạt động giọng nói để bắt đầu và dừng. Chúng dùng phím tắt. Giữ để nói, thả ra để dừng. Lý do là độ tin cậy. Phát hiện giọng nói với mic mở giữa quán cà phê là chuyện hên xui. Một lần nhấn phím thì không.

Có một vài thứ xảy ra trong quá trình thu âm mà bạn không thấy. Âm thanh được đệm vào bộ nhớ, thường được khử nhiễu bằng khung âm thanh tích hợp của Apple, và chia thành từng đoạn. Nếu bạn nói lâu hơn kích thước đoạn, thường là 30 giây, ứng dụng có thể chia bản ghi trước khi gửi đi.

Bước 2: Phiên âm, cách Whisper biến âm thanh thành chữ

Đây là nơi hầu hết các ứng dụng đọc chính tả AI trên Mac hội tụ vào một công nghệ duy nhất: mô hình Whisper của OpenAI. Whisper là một hệ thống nhận dạng giọng nói được huấn luyện trên khoảng 5 triệu giờ âm thanh ở 99 ngôn ngữ. Phiên bản hiện tại, large-v3, đạt tỷ lệ lỗi từ khoảng 2,7% với âm thanh tiếng Anh sạch và 8 đến 12% với bản ghi thực tế có nhiễu.

Nói đơn giản: cứ nói tự nhiên và khoảng 92 đến 97 phần trăm số từ sẽ được phiên âm chính xác ngay từ đầu. Đó là một mức độ chính xác khác hẳn so với những gì công cụ đọc chính tả gốc của Apple có thể làm, đó là lý do các ứng dụng bên thứ ba bùng nổ.

Đây là cách Whisper xử lý âm thanh của bạn, gần như: - Cắt bản ghi thành các đoạn 30 giây. - Chuyển mỗi đoạn thành quang phổ đồ, một biểu diễn trực quan của âm thanh theo tần số và thời gian. - Đưa quang phổ đồ vào một mạng nơ-ron đã học cách ánh xạ các mẫu âm thanh sang chữ. - Đồng thời dự đoán ngôn ngữ, dấu câu, và chỗ kết thúc câu.

Mô hình có thể chạy cục bộ trên Mac của bạn (Apple Silicon xử lý thoải mái) hoặc trên đám mây. Cục bộ thì riêng tư và hoạt động ngoại tuyến. Đám mây thì nhanh hơn trên phần cứng cũ và hỗ trợ các mô hình lớn hơn. Nhiều ứng dụng cho bạn chọn.

Cái bạn nhận được ở cuối bước này là một bản phiên âm thô. Có dấu câu, đa phần chính xác, thường hơi lộn xộn. Đây là nơi tính năng đọc chính tả tích hợp của Apple dừng lại. Các ứng dụng thú vị thì không.

Bước 3: Đánh bóng, lớp đã thay đổi mọi thứ

Đây là bước đã lật ngược tính năng đọc chính tả trên Mac từ "kiểu kiểu cũng hữu ích" thành "tôi đã không gõ một email nào suốt nhiều tuần".

Sau khi phiên âm, văn bản thô được gửi qua một mô hình ngôn ngữ, thường là loại GPT-4 hoặc Claude, với một chỉ dẫn kiểu như: ``` Viết lại văn bản này thành văn bản chỉn chu, chuyên nghiệp. Loại bỏ từ đệm và những câu nói dở dang. Giữ nguyên ý nghĩa. Đừng thêm gì cả. ```

Đây là trông như thế nào trong thực tế.

Cái bạn đã nói

*"Okay vậy ờ, tôi muốn theo dõi về, ờ, đề xuất từ tuần trước. Tôi nghĩ, bạn biết đấy, chắc là chúng ta nên tiến tới với phương án hai? Đúng rồi, phương án hai. Bạn có thể, bạn có thể gửi cho tôi hợp đồng trước thứ Sáu được không?"*

Cái xuất hiện trong khay nhớ tạm của bạn

*"Tiếp nối đề xuất tuần trước, tôi muốn tiến tới với phương án hai. Bạn có thể gửi cho tôi hợp đồng trước thứ Sáu được không?"*

Cùng ý nghĩa. Trải nghiệm đọc khác hẳn. Và nó diễn ra trong chưa đầy hai giây.

Minh họa trước và sau cho thấy lời nói thô lộn xộn với các từ đệm ở bên trái biến thành văn bản sạch chỉn chu ở bên phải

Đây là phần khó mô tả cho đến khi bạn thử. Bạn thôi nghĩ về việc mình nghe ra sao. Bạn thôi tự biên tập trong lúc nói. Bạn chỉ nói ra điều đó, theo cách bạn sẽ nói với một đồng nghiệp, và cái xuất hiện là phiên bản bạn sẽ viết nếu có thời gian.

Nếu bạn đã đọc chính tả nhưng đang mất thời gian để dọn dẹp sau đó, đây là khoảng trống mà Voicr lấp đầy. Giữ FN, nói theo cách bạn muốn, và cái đến khay nhớ tạm của bạn đã được đánh bóng sẵn. Không cần lượt thứ hai, không cần "tôi phải sửa câu đó", chỉ là văn bản sạch sẵn sàng để dán.

Bước 4: Nhận biết ngữ cảnh, phong cách khác nhau cho ứng dụng khác nhau

Bước này mới hơn. Nó cũng là thứ phân biệt các ứng dụng đọc chính tả Mac tốt hơn với những ứng dụng chỉ vừa đủ dùng.

Một giọng điệu lịch sự, trang trọng thì phù hợp với email khách hàng. Nó lại kỳ cục trong một tin nhắn Slack gửi đồng đội. Nó sai trong các bình luận mã nguồn. Một ứng dụng đọc chính tả tốt sẽ nhận ra bạn đang ở ứng dụng nào và điều chỉnh.

Cơ chế đơn giản. Ứng dụng đọc xem cửa sổ nào đang được tập trung. Nó tra cứu quy tắc phong cách bạn đã lưu cho ứng dụng đó. Sau đó nó lồng quy tắc ấy vào lời nhắc gửi đến mô hình đánh bóng.

Một quy tắc cho Slack có thể là: ``` Giữ thân mật và ngắn gọn. Không dùng cách diễn đạt kiểu doanh nghiệp. Dùng từ rút gọn. Tối đa một hoặc hai câu ngắn. ``` Một quy tắc cho email có thể là: ``` Viết với giọng điệu chuyên nghiệp. Câu hoàn chỉnh. Thêm lời chào và kết thúc nếu nội dung phù hợp. ```

Cùng đầu vào giọng nói. Hai đầu ra rất khác nhau tùy thuộc vào cửa sổ nào đang mở. Bạn không bật tắt gì cả. Bạn chỉ nói, và giọng điệu phù hợp tự hiện ra.

Bước 5: Bàn giao, cách văn bản đến đúng nơi bạn cần

Bước cuối cùng là bước mất nhiều thời gian nhất để làm cho đúng. Bạn đã có văn bản chỉn chu. Giờ làm sao để nó vào ô nhập văn bản đang hoạt động?

Có hai cách tiếp cận phổ biến: 1. Đường khay nhớ tạm. Ứng dụng sao chép văn bản chỉn chu vào khay nhớ tạm, rồi kích hoạt lệnh dán (Cmd+V) qua các API Trợ năng của macOS. Nhanh, đáng tin cậy, hoạt động trong gần như mọi ứng dụng. 2. Mô phỏng phím gõ. Ứng dụng mô phỏng gõ từng ký tự một, dùng công cụ như AppleScript hoặc cùng khung Trợ năng. Chậm hơn, nhưng hoạt động trong các ứng dụng chặn dán (một số trang ngân hàng, một số máy tính từ xa, trình quản lý mật khẩu).

Hầu hết ứng dụng mặc định dùng dán khay nhớ tạm và chỉ chuyển sang mô phỏng phím gõ khi cần thiết. Kết quả, từ góc nhìn của bạn: văn bản xuất hiện tại con trỏ khoảng nửa giây sau khi bạn thả phím tắt. Không cần chuyển ứng dụng, không cần sao chép, không cần xem lại.

Sơ đồ quy trình năm bước cho thấy thu âm, phiên âm, đánh bóng, áp dụng ngữ cảnh, và bàn giao dưới dạng các vòng tròn kết nối

Xử lý cục bộ so với đám mây: điều gì thực sự đang xảy ra

Một câu hỏi hay xuất hiện: giọng nói của tôi đi về đâu?

Có hai lựa chọn thực sự. Xử lý cục bộ chạy mô hình Whisper trên Mac của bạn. Âm thanh không bao giờ rời khỏi thiết bị. Trên Apple Silicon (M1 trở đi), Whisper cục bộ chạy đủ nhanh cho đọc chính tả thời gian thực, thường dưới một giây độ trễ. Đánh đổi: bước đánh bóng thường vẫn đi đến một mô hình đám mây, vì chạy một mô hình ngôn ngữ 70 tỷ tham số cục bộ là không thực tế với phần lớn laptop. Một số ứng dụng cung cấp hoàn toàn cục bộ với mô hình đánh bóng nhỏ hơn, đổi lại là chất lượng.

Xử lý đám mây gửi cả âm thanh và bước đánh bóng đến một API từ xa. Nhanh hơn trên các máy Mac cũ, hỗ trợ các mô hình lớn nhất và chính xác nhất. Đánh đổi là quyền riêng tư. Lời nói của bạn rời khỏi thiết bị, ngay cả khi nó bị xóa ngay sau khi phiên âm.

Với hầu hết mọi người, "Whisper cục bộ, đánh bóng đám mây" là mặc định đúng. Với bất kỳ ai làm việc với thông tin nhạy cảm (ghi chú y tế, bản nháp pháp lý, dữ liệu nội bộ của công ty), hoàn toàn cục bộ đáng để chịu một chút giảm chất lượng. Một ứng dụng tốt cho phép bạn chọn theo từng bản ghi hoặc đặt mặc định.

Nơi đọc chính tả AI vẫn còn vấp ngã

Phần thành thật. Quy trình ổn. Nó không hoàn hảo.

Từ đồng âm vẫn sai. "Their" so với "there" so với "they're" thì đa số chọn đúng nhưng không phải lúc nào cũng vậy. Đánh bóng thường bắt được nhờ ngữ cảnh, nhưng không nếu câu xung quanh mơ hồ.

Danh từ riêng và thuật ngữ chuyên ngành hên xui. Whisper đã thấy hầu hết tên thông thường và thuật ngữ công nghệ, nhưng nó sẽ làm sai bất cứ thứ gì chuyên biệt. Tên thuốc, tên thư viện mã, họ khác lạ của đồng nghiệp bạn. Một số ứng dụng cho bạn thêm từ điển tùy chỉnh được gắn vào lời nhắc.

Môi trường ồn ào làm giảm độ chính xác nhanh chóng. Whisper xử lý tiếng ồn quán cà phê khá tốt một cách đáng ngạc nhiên, nhưng một chiếc điện thoại reo cách hai mét hay ai đó đang nói gần đó sẽ làm mất từ trong bản phiên âm của bạn.

Độc thoại dài bị trôi. Mô hình xuất sắc trong các đoạn 10 đến 30 giây. Sau khoảng 90 giây, nó đôi khi mất mạch, lặp lại đoạn, hoặc bỏ qua những cụm ngắn. Cách khắc phục đơn giản là dừng và bắt đầu bản ghi theo từng đoạn.

Những giới hạn này quan trọng khi bạn mới bắt đầu. Không cái nào là điểm chết nếu bạn biết chúng tồn tại. Nếu bạn đang chọn giữa các lựa chọn, hướng dẫn của chúng tôi về các ứng dụng chuyển giọng nói thành văn bản tốt nhất cho Mac sẽ đi qua cách các ứng dụng lớn xử lý những đánh đổi này.

Cách bắt đầu dùng đọc chính tả bằng AI trên Mac của bạn hôm nay

Ba bước thực tế, theo thứ tự.

1. Chọn một việc để đọc chính tả mỗi ngày trong một tuần. Email là một khởi đầu tốt, nó có tỷ lệ chuyển đổi từ gõ sang nói cao nhất (bạn thường suy nghĩ trước khi viết). Đừng cố đọc chính tả mọi thứ cùng lúc. Bạn sẽ bỏ cuộc.

2. Quen với việc nói với không ai cả. Vài lần đầu khi đọc chính tả, bạn sẽ thấy kỳ cục khi nói to trong căn phòng yên tĩnh. Cảm giác đó biến mất sau khoảng bốn ngày.

3. Chọn một ứng dụng và gắn bó. Có những lựa chọn tốt trong mọi tầm giá, từ tính năng đọc chính tả tích hợp của Apple đến các công cụ Whisper mã nguồn mở đến các ứng dụng có quy trình đầy đủ. Nếu bạn muốn luồng phiên-âm-và-dán chỉn chu được mô tả ở trên, Voicr làm chính xác điều đó. Giữ FN, nói, dán. Whisper cho phiên âm, một mô hình ngôn ngữ mạnh cho đánh bóng, và các phong cách viết theo từng ứng dụng tự thích ứng với nơi con trỏ của bạn đang ở. Gói Free cho bạn 5.000 từ mỗi tháng mà không cần thẻ tín dụng.

Quy trình đằng sau tất cả những điều này cuối cùng cũng đủ tốt để đọc chính tả không còn là một sự thỏa hiệp nữa. Bạn không đánh đổi chất lượng lấy tốc độ. Bạn có cả hai. Phần khó chỉ là quyết định ngừng gõ.