Cách LLM khiến chuyển giọng nói thành văn bản thực sự hữu ích

Bạn chắc đã thử chuyển giọng nói thành văn bản một lần, rồi bỏ cuộc và quay về với bàn phím. Đa số mọi người đều vậy. Điều kỳ lạ là chuyện đó thường chẳng liên quan gì đến việc máy ghi sai từ.

Nhận dạng giọng nói đã chính xác từ nhiều năm trước. Các mô hình hiện đại chép lại lời nói rõ ràng với độ chính xác khoảng 95%. Lý do đọc chính tả vẫn cảm thấy vô dụng là vì một bản chép chính xác cách bạn thực sự nói lại là một mớ lộn xộn. Các mô hình ngôn ngữ lớn chính là mảnh ghép đã sửa được điều đó, và chúng đã thay đổi việc chuyển giọng nói thành văn bản dùng để làm gì.

Trong phần lớn lịch sử của mình, chuyển giọng nói thành văn bản được đánh giá dựa trên một điều duy nhất: nó có ghi đúng từ không? Hóa ra đó lại là câu hỏi sai. Ghi đúng từ chưa bao giờ là rào cản giữa bạn và việc viết bằng giọng nói. Đây mới là điều thực sự đã thay đổi.

Chuyển giọng nói thành văn bản chưa bao giờ là bài toán chép lời

Suốt nhiều thập kỷ, mọi nhóm nghiên cứu nhận dạng giọng nói đều đuổi theo cùng một con số: tỷ lệ lỗi từ, hay WER. Nó đếm xem hệ thống ghi sai bao nhiêu từ. Càng thấp càng tốt, và cả ngành đều tối ưu cho nó.

Họ phần lớn đã thắng. Whisper của OpenAI chép âm thanh rõ ràng với tỷ lệ lỗi từ khoảng 2,7%. Với những bản ghi đời thực lộn xộn hơn, như một cuộc họp, một quán cà phê hay một cuộc điện thoại, con số gần 8 đến 12%. Người chép tay rơi vào khoảng 4 đến 6%. Khoảng cách nhỏ và vẫn đang thu hẹp.

Vậy là độ chính xác về cơ bản đã được giải quyết. Nhưng hỏi bất kỳ ai từng bỏ đọc chính tả vào năm 2018 tại sao họ dừng lại, gần như không ai nói "quá nhiều lỗi đánh máy". Họ nói nó cảm thấy vướng víu, hoặc bản kết quả phải dọn dẹp nhiều đến mức không bõ công.

Đó chính là dấu hiệu. Nút thắt chưa bao giờ là việc chép lời. Nó nằm ở tất cả những gì xảy ra sau khi các từ đã được ghi đúng.

Một bản chép thô lời nói của bạn trông như thế nào

Đây là điều không ai cảnh báo bạn: bạn không nói thành những câu gọn gàng. Không ai nói vậy cả.

Khi nói tự nhiên, bạn quay lại, bắt đầu lại, nói lửng, và chêm vào những từ "ờ", "kiểu" và "bạn biết đấy". Não bạn biên tập tất cả những thứ đó ngay lập tức mà bạn không hề để ý. Một bộ máy chép lời thì để ý đến mọi thứ và viết xuống từng chút một.

Giả sử bạn đọc một tin nhắn nhanh cho đồng nghiệp. Qua một bộ chép lời thuần túy, nó quay ra trông như thế này:

*"ờ thì mình muốn hỏi xem về cái cái việc hôm qua đó, cái báo cáo ấy, lúc nào rảnh bạn ờ gửi qua cho mình nhé, không gấp gì đâu"*

Mọi từ đều đúng. Nó cũng không dùng được. Bạn sẽ mất nhiều thời gian sửa nó hơn cả thời gian tiết kiệm được nhờ nói. Đây chính là khoảnh khắc đa số mọi người từ bỏ đọc chính tả mãi mãi.

So sánh song song một bản chép giọng nói thô lộn xộn đầy từ đệm ở bên trái và một tin nhắn gọn gàng, trau chuốt ở bên phải

Các mô hình ngôn ngữ lớn thực sự bổ sung điều gì

Một bộ chép lời trả lời một câu hỏi: người này đã phát ra những âm thanh gì? Một mô hình ngôn ngữ trả lời câu hỏi khác: người này muốn nói gì, và nó nên được viết ra sao?

Câu hỏi thứ hai đó mới là cốt lõi. Một LLM nhận bản chép lộn xộn và viết lại theo cách một biên tập viên cẩn thận sẽ làm. Nó bỏ từ đệm, hoàn thiện những câu nói dở của bạn, sửa ngữ pháp, và giữ nguyên ý nghĩa. Tin nhắn ở trên trở thành:

*"Chào bạn, lúc nào rảnh bạn gửi giúp mình báo cáo hôm qua nhé? Không gấp đâu."*

Cùng một ý định, đọc một lần là hiểu. Việc chép lời ở đây chẳng tốt lên chút nào. Cái đã thay đổi là lớp thứ hai nằm bên trên nó, làm cái việc biên tập mà lẽ ra bạn phải tự làm.

Đây không chỉ là một mẹo sản phẩm. Các nhà nghiên cứu đang trực tiếp tìm hiểu nó. Một bài báo năm 2024 từ hội nghị ACM CHI mang tên Rambler phát hiện rằng cho phép người ta nói thoải mái và dùng LLM để định hình lại "ý chính" tạo ra văn bản tốt hơn với ít công sức hơn so với gõ phím hay đọc chính tả thô. Nói là cách chúng ta suy nghĩ thành lời. Mô hình lo phần mà não chúng ta thường bỏ qua.

Các nghiên cứu khác cũng chỉ về cùng một hướng. Những công trình về tinh chỉnh bản chép dựa trên LLM cho thấy việc đưa lời nói qua một mô hình ngôn ngữ sau khi nhận dạng giúp giảm lỗi và cải thiện độ dễ đọc, đặc biệt với các từ đồng âm và những cụm phụ thuộc ngữ cảnh mà một bộ chép lời thuần túy không thể tự xử lý.

Ngữ cảnh là nửa còn lại

Dọn dẹp một bản chép là việc đầu tiên. Biết được bạn muốn loại văn bản nào là việc thứ hai, và đây mới là chỗ mọi thứ trở nên thú vị.

"Gửi tao bản slide trước cuối ngày" thì ổn cho một tin nhắn Slack gửi đồng đội. Nhưng nó quá cộc lốc cho một email khách hàng. Từ ngữ thì không sai; chỉ có giọng điệu là lệch. Một mô hình ngôn ngữ có thể đọc được tình huống đó và điều chỉnh giọng điệu, vì nó hiểu ngữ cảnh, chứ không chỉ âm thanh.

Trên thực tế, cùng một câu nói có thể ra dáng thân mật ở ứng dụng này và trau chuốt ở ứng dụng khác. Bạn không đổi cách nói. Mô hình đổi cách viết, dựa trên nơi văn bản sắp đến.

Đây chính xác là điều mà Smart Rules của Voicr làm. Bạn chỉ cần đặt một lần một giọng điệu thoải mái cho Slack và một giọng trang trọng cho email, rồi Voicr nhận ra bạn đang ở ứng dụng nào và tự động áp dụng phong cách phù hợp. Giữ FN, nói điều bạn cần, và phiên bản rơi vào clipboard đã vừa khít với nơi bạn sắp dán.

Thay đổi thực sự: Bạn thôi nói chuyện với một cái máy

Đọc chính tả kiểu cũ bắt bạn phải diễn. Bạn phải nói thành những câu hoàn chỉnh, đọc to "phẩy" và "xuống dòng", và bỏ đi thói quen nói bình thường. Bạn đang tự biên tập trong đầu, theo thời gian thực, ngay khi đang nói. Nó mệt mỏi, và đó là lý do nó chẳng bao giờ trụ lại.

Chuyển giọng nói thành văn bản dựa trên LLM gỡ cái việc đó khỏi vai bạn. Bạn có thể nói lan man. Bạn có thể đổi ý giữa chừng một câu. Bạn có thể nói theo cách bạn sẽ giải thích cho một người bạn, và bản gọn gàng vẫn cứ hiện ra.

Nghe thì có vẻ là chuyện nhỏ. Nhưng đó là cả sự khác biệt giữa việc vận hành một công cụ và việc chỉ đơn giản là suy nghĩ thành lời.

Tốc độ cũng là thật. Đa số mọi người nói khoảng 150 từ một phút và gõ khoảng 40 từ. Một nghiên cứu của Stanford phát hiện nhập bằng giọng nói trên điện thoại nhanh gấp ba lần gõ phím, mà lại ít lỗi hơn. Nhưng tốc độ thôi không còn là điểm hấp dẫn chính một khi kết quả đã tốt. Sức hút thực sự là bạn không còn đánh mất mạch suy nghĩ vào bàn phím nữa. Chúng tôi đã phân tích kỹ phép tính đó trong bài vì sao giọng nói của bạn nhanh hơn bàn phím.

Những chỗ LLM vẫn làm sai khi chuyển giọng nói thành văn bản

Điều này thực sự tốt hơn, chứ không phải phép màu. Chính cái trí thông minh dọn dẹp văn bản của bạn cũng có thể đi quá đà, và bạn nên biết nó sai ở đâu.

Nó có thể làm đổi ý nghĩa của bạn. Khi một mô hình "sửa" một câu, đôi khi nó làm nhẵn đi một chi tiết bạn muốn giữ hoặc đoán sai ý định của bạn. Câu chữ của bạn càng kỹ thuật hay khác thường thì rủi ro càng cao. Hãy đọc lướt qua bất cứ điều gì quan trọng trước khi gửi.

Tên riêng và thuật ngữ vẫn làm nó vấp. Việc chép lời xử lý tốt các từ thông dụng nhưng chật vật với danh từ riêng, tên sản phẩm và thuật ngữ chuyên ngành. Một mô hình có thể đoán từ ngữ cảnh, nhưng nó sẽ tự tin ghi sai họ của đồng nghiệp bạn.

Từ đồng âm chưa được giải quyết hoàn toàn. Trong tiếng Anh, "their", "there" và "they're" thường ra đúng vì ngữ cảnh hỗ trợ, nhưng không phải lúc nào cũng vậy.

Nó thêm một nhịp trễ. Một bộ chép lời thuần túy gần như tức thì. Chạy thêm một mô hình thứ hai để trau chuốt tốn từ một phần nhỏ của giây đến vài giây. Đáng để đổi lấy chất lượng, nhưng nó không miễn phí.

Không có điều nào trong số này là rào cản chết người một khi bạn biết chúng tồn tại. Chúng là lý do thói quen đọc-lại-trước-khi-gửi vẫn rất đáng giá. Nếu bạn muốn bức tranh đầy đủ về cách quy trình này chạy từ đầu đến cuối, chúng tôi đã viết một hướng dẫn từng bước về đọc chính tả bằng giọng nói AI trên Mac.

Sơ đồ thể hiện hai lớp xếp chồng: một lớp chép lời biến âm thanh thành từ ngữ, và một lớp ngôn ngữ biến từ ngữ thành văn bản gọn gàng

Điều này có ý nghĩa gì với cách bạn viết

Mô hình tư duy đáng giữ là chuyển giọng nói thành văn bản giờ đây là hai công cụ xếp chồng lên nhau:

1. Một lớp chép lời biến âm thanh thành các từ chính xác. 2. Một lớp ngôn ngữ biến những từ đó thành văn bản thực sự đọc trôi chảy.

Chép lời thuần túy vẫn là lựa chọn đúng khi bạn cần một bản ghi chính xác từng chữ. Phỏng vấn, ghi chú pháp lý, bất cứ thứ gì mà mỗi tiếng "ờ" đều quan trọng. Còn với mọi thứ khác, như email, tin nhắn, tài liệu và ghi chú, lớp trau chuốt mới là thứ khiến nói nhanh hơn gõ chứ không phải chỉ lộn xộn hơn.

Vậy nên khi chọn công cụ, câu hỏi thực sự không phải là "việc chép lời chính xác đến đâu". Hầu hết giờ đều sát nhau rồi. Câu hỏi là "lớp bên trên tốt đến đâu". Bài so sánh các ứng dụng chuyển giọng nói thành văn bản tốt nhất cho Mac của chúng tôi phân tích rõ ứng dụng nào làm tốt phần đó.

Cách dùng thử chuyển giọng nói thành văn bản được LLM trau chuốt

Cách nhanh nhất để cảm nhận sự khác biệt là đọc email tiếp theo của bạn thay vì gõ, rồi nhìn vào những gì hiện ra trong bản nháp. Nó sẽ không phải là bản chép thô bạn còn nhớ từ nhiều năm trước. Nó sẽ đọc như thể bạn tự viết ra vào một ngày phong độ tốt.

Nếu bạn muốn điều đó mà không phải ghép nhiều công cụ với nhau, Voicr làm cả hai lớp trong một bước. Giữ FN, nói theo cách bạn thích, thả ra, và văn bản đã trau chuốt rơi vào clipboard sẵn sàng để dán. Nó dùng Whisper để chép lời và một mô hình ngôn ngữ để dọn dẹp, với phong cách riêng cho từng ứng dụng để giọng điệu hợp với bất cứ nơi nào bạn đang viết. Gói miễn phí là 5.000 từ một tháng, không cần thẻ tín dụng.

Chuyển giọng nói thành văn bản cuối cùng cũng vận hành đúng theo cách lẽ ra nó phải vậy. Không phải vì máy móc nghe bạn giỏi hơn, mà vì cuối cùng chúng đã giỏi hiểu được điều bạn muốn nói.