Hãy nói to một câu: "này gửi cho tôi số liệu mới nhất khi nào rảnh nhé." Điểm đến của nó quyết định nó nên trở thành cái gì. Thả vào Slack thì câu đó đã ổn rồi. Đưa vào email gửi khách hàng thì cần một lời chào và một cách hỏi nhẹ nhàng hơn. Ghi thành một bình luận trên Jira thì nó nên rút lại còn ba từ: "Cần số liệu mới nhất."
Bạn thực hiện sự điều chỉnh đó mà không cần suy nghĩ. Bộ não bạn đọc tình huống, ứng dụng nào, người nào, trang trọng đến mức nào, rồi nhào nặn lại câu chữ ngay khi chúng tuôn ra. AI nhận biết ngữ cảnh làm đúng công việc đó, một cách tự động, trên lời nói mà bạn đọc.
Điều này đáng quan tâm ngay lúc này vì đọc chính tả cuối cùng cũng đã đủ tốt. Bạn có thể nói với tốc độ khoảng 150 từ một phút, nhanh gấp ba đến bốn lần so với 40 từ một phút mà hầu hết mọi người gõ. Nhưng lời nói thô không khớp với cách mà bất kỳ ứng dụng đơn lẻ nào muốn bạn viết. Lớp viết lại chính là thứ thu hẹp khoảng cách đó.
Một câu, sáu thông điệp khác nhau
Lời nói không mang sắc thái cố định. Khi nói, bạn không chọn định dạng. Bạn chỉ nói ra điều cần nói, còn định dạng được gắn vào sau, bởi chính bạn, khi bạn quyết định nó sẽ đáp xuống đâu.
Viết thì ngược lại. Mỗi ứng dụng bạn gõ vào đều mang những quy tắc ngầm riêng về cách văn bản nên trông và nghe ra sao.
Lấy cùng lời nhờ về số liệu đó và xem nó đổi hình tùy theo cửa sổ: - Slack: "Này, gửi giúp số liệu mới nhất khi nào rảnh nhé?" - Email: "Chào Maria, khi nào tiện chị gửi giúp em số liệu mới nhất nhé? Cảm ơn chị!" - Jira: "Cần số liệu mới nhất." - Ghi chú cho chính mình: "Đang chờ: số liệu mới nhất từ Maria." - Tin nhắn cho đồng nghiệp: "gửi giúp số liệu mới nhất nha?"
Cùng một ý định mỗi lần. Năm bề mặt, năm câu trả lời đúng khác nhau. Bạn đã tạo ra tất cả chúng theo yêu cầu rồi. Vấn đề là mỗi câu khiến bạn tốn một lần tinh chỉnh nhỏ mà bạn hầu như không nhận ra, và điều đó diễn ra liên tục. Một nghiên cứu của Harvard Business Review ghi nhận người lao động chuyển qua lại giữa các ứng dụng khoảng 1.200 lần mỗi ngày, tức gần như cứ 24 giây một lần. Rất nhiều cú chuyển trong số đó đi kèm một phong cách viết hoàn toàn mới.
Chép lời so với viết lại theo ngữ cảnh
Sẽ hữu ích nếu tách rời hai công việc thường bị gộp làm một. Chép lời biến âm thanh thành chữ. Viết lại theo ngữ cảnh biến những chữ đó thành thông điệp đúng cho nơi chúng sẽ đến.
Chép lời thuần túy dừng ở bước một. Tính năng đọc chính tả tích hợp của Apple, hầu hết công cụ chuyển giọng nói thành văn bản, phụ đề trực tiếp trên điện thoại của bạn, chúng đưa cho bạn một bản ghi nguyên văn những gì bạn đã nói, kèm cả từ đệm và những lần nói hụt.
Đây là hình hài thực sự của một bản chép thô cho một ý nghĩ thoáng qua: ``` um thì ờ tôi đang nghĩ là chắc mình nên kiểu dời buổi ra mắt sang tuần sau vì cái cái QA chưa xong mà bạn biết đấy ```
Viết lại theo ngữ cảnh lấy đúng đoạn âm thanh đó và đặt một câu hỏi thứ hai: cái này sẽ đi đâu, và ở đó nó nên nghe ra sao? Nếu đi vào một tin nhắn Slack gửi nhóm của bạn, nó trở về dưới dạng: ``` Mình dời buổi ra mắt sang tuần sau nhé. QA chưa xong. ```
Cùng câu chữ đi vào, câu chữ khác đi ra, được định hình bởi điểm đến. Cái đầu là một bản ghi âm. Cái sau là thứ bạn thực sự có thể gửi đi. Để hiểu thêm về khâu đánh bóng này, hãy xem bài phân tích của chúng tôi về cách hoạt động của đọc chính tả bằng giọng nói AI.

"Ngữ cảnh" thực sự nghĩa là gì đối với AI
"Nhận biết ngữ cảnh" nghe có vẻ mơ hồ cho đến khi bạn nhìn vào những manh mối cụ thể mà các công cụ này đọc. Chẳng có gì huyền bí cả. Ngữ cảnh là một danh sách ngắn các tín hiệu mà AI kiểm tra trước khi nó chạm vào bất kỳ chữ nào.
Ứng dụng đang hoạt động
Tín hiệu rõ ràng nhất là ứng dụng nào đang được lấy nét khi bạn nói. Một công cụ có thể thấy Slack đang ở phía trước, hay Gmail, hay VS Code. Chỉ một dữ kiện đó đã thu hẹp phong cách rất nhiều. Chat muốn ngắn và thoải mái, email muốn có cấu trúc và lịch sự, trình soạn thảo mã muốn cô đọng và sát nghĩa đen.
Văn bản xung quanh con trỏ của bạn
Một số công cụ đọc một chút văn bản gần nơi bạn sắp gõ. Nếu tin nhắn phía trên bắt đầu bằng "Kính gửi TS. Katz," thì AI giữ giọng văn trang trọng và viết đúng tên. Nếu cả luồng là một đống câu đùa một dòng, nó bắt chước theo đó.
Trang web, chứ không chỉ trình duyệt
Việc nhận diện ứng dụng trở nên rối rắm trong trình duyệt, nơi Gmail, X và một Google Doc đều ẩn sau cùng một cửa sổ. Các công cụ tốt hơn nhìn vào URL để phân biệt chúng, nhờ vậy tab Gmail được xử lý theo kiểu email còn tab X được viết thành một bài đăng sắc bén.
Nhóm ứng dụng
Thay vì giữ một quy tắc cho mọi ứng dụng từng được tạo ra, hầu hết các hệ thống xếp ứng dụng vào một số ít nhóm: email, chat công việc, nhắn tin cá nhân, tài liệu, mã, và một nhóm chung cho mọi thứ còn lại. Mỗi nhóm có một phong cách. Một ứng dụng mới rơi vào nhóm đã biết sẽ thừa hưởng phong cách của nhóm đó ngay từ ngày đầu.
Chồng những tín hiệu đó lên nhau và AI có được cảm nhận khá ổn về tình huống: một email trang trọng gửi cho một người có tên, hay một câu nói qua đường trong một luồng chat thân mật. Chính cảm nhận đó là thứ nó dựa vào để viết lại.
Cách lời nói của bạn trở thành thông điệp đúng
Xếp các mảnh ghép lại và toàn bộ chuyện này gói gọn trong bốn bước nhanh, tất cả diễn ra trong một hai giây giữa lúc bạn nói xong câu của mình và lúc văn bản hiện ra. 1. Thu âm. Bạn giữ một phím và nói. Công cụ ghi âm cho đến khi bạn buông tay. 2. Chép lời. Một mô hình giọng nói biến âm thanh thành văn bản thô, đúng từng chữ bạn đã nói. 3. Nhận diện ngữ cảnh. Công cụ kiểm tra ứng dụng đang hoạt động, văn bản gần con trỏ, và ứng dụng thuộc nhóm nào. 4. Viết lại. Một mô hình ngôn ngữ lấy bản chép thô cùng ngữ cảnh đó và viết ra thông điệp cuối cùng, có độ dài và giọng điệu phù hợp với nơi nó sẽ đến.
Bước bốn là nơi một mô hình ngôn ngữ lớn gánh phần việc nặng nhọc. Nó nhận bản chép lộn xộn của bạn cùng một chỉ dẫn rút gọn lại thành "cái này sẽ vào một email công việc, hãy viết sao cho nó đọc giống email," rồi trả về văn bản với độ dài, giọng điệu và hình thức đúng. Kết quả khác nhau tùy mô hình, nên hãy coi đầu ra là một bản nháp đầu tiên vững vàng chứ không phải chân lý.
Đây chính xác là luồng mà Voicr chạy trên macOS. Bạn giữ phím FN và nói từ bất kỳ ứng dụng nào. Voicr phát hiện ứng dụng nào đang ở phía trước, áp dụng phong cách phù hợp thông qua Smart Rules của nó, và đặt văn bản đã được đánh bóng vào khay nhớ tạm của bạn: thân mật trong Slack, chuyên nghiệp trong Gmail, cô đọng trong trình soạn thảo của bạn. Bạn chẳng bao giờ phải mở một menu để chọn giọng điệu. Nếu bạn muốn xem cách viết những phong cách riêng cho từng ứng dụng đó, hướng dẫn của chúng tôi về quy tắc viết thông minh sẽ đưa bạn qua những gì một quy tắc tốt cần có.

Hai kiểu: nhận diện tự động và quy tắc tường minh
Không phải mọi khả năng nhận biết ngữ cảnh đều hoạt động giống nhau. Các công cụ chia thành hai phe, và khác biệt chủ yếu nằm ở chỗ ai là người quyết định phong cách.
Kiểu tự động quyết định thay bạn. Nó đọc ứng dụng, xếp vào một nhóm, và áp dụng một phong cách dựng sẵn mà không cần thiết lập gì. Bạn cài đặt và nó cứ thế chạy. Đánh đổi là quyền kiểm soát: khi quan niệm của nó về "giọng email" không khớp với của bạn, bạn kẹt lại với việc phải chỉnh tay đầu ra.
Kiểu tường minh trao tay lái cho bạn. Bạn viết một chỉ dẫn ngắn cho mỗi ứng dụng, bằng ngôn ngữ đời thường, mô tả chính xác nó nên nghe ra sao. Cần thiết lập nhiều hơn từ đầu, nhưng đầu ra hợp gu bạn vì chính bạn đã định nghĩa cái gu đó. Một quy tắc cho Slack có thể trông như sau: ``` Viết lại thành một tin nhắn Slack thân mật. Hai hoặc ba câu, dùng cách nói rút gọn cũng được, không lời chào hay lời kết. Chỉ dùng emoji nhẹ nhàng nếu thực sự phù hợp. ```
Các công cụ tốt hơn pha trộn cả hai: thiết lập mặc định hợp lý hoạt động ngay từ đầu, cộng với quy tắc riêng cho từng ứng dụng mà bạn có thể viết khi đủ quan tâm. Bạn dựa vào mặc định cho những ứng dụng hiếm khi dùng và đặt quy tắc tường minh cho hai ba ứng dụng nơi cách viết của bạn thực sự quan trọng.
Nó làm tốt điều gì, và còn vấp ở đâu
Viết lại theo ngữ cảnh quả thực tiện lợi, nhưng nó là điểm khởi đầu, chứ không phải kẻ đọc được suy nghĩ. Biết nó vấp ở đâu giúp bạn khỏi tin nó một cách mù quáng.
Nó chuẩn về định dạng. Nó chỉ đoán về ý định.
AI có thể nhận ra bạn đang ở email và thêm một lời chào. Nó không thể nhận ra một cách đáng tin liệu bạn đang chân thành hay châm biếm, hay liệu "ổn" nghĩa là ổn hay nghĩa là bạn đang âm thầm tức giận. Giọng điệu bên trong một sắc thái vẫn là việc của bạn.
Ứng dụng mơ hồ khiến nó bối rối
Một trình duyệt đa năng, một terminal đang chạy ứng dụng chat, một app ghi chú mà bạn dùng cho mọi thứ: chúng cho tín hiệu yếu. Khi ngữ cảnh mờ mịt, bản viết lại lùi về một kiểu đánh bóng chung chung, có thể trang trọng hơn hoặc kém trang trọng hơn mức bạn muốn.
Nó có thể mài mòn giọng văn của bạn
Đẩy việc viết lại quá tay và tin nhắn của bạn bắt đầu nghe giống tin nhắn của mọi người khác, trơn tru, chỉn chu và hơi vô hồn. Công cụ tốt dịch chuyển giọng văn của bạn vào đúng sắc thái thay vì đánh tráo nó bằng một giọng doanh nghiệp mặc định. Nếu đầu ra không còn nghe giống bạn, hãy nới lỏng các quy tắc.
Bạn vẫn phải đọc lại trước khi gửi
Một cái tên có thể bị viết sai. Một con số có thể bị trượt. Hãy lướt qua kết quả trước khi bắn nó đi, giống như cách bạn liếc một tin nhắn đã bị tự động sửa trước khi nhấn gửi.
Đưa việc viết lại theo ngữ cảnh vào thực tế
Muốn thử ngay hôm nay? Hãy bắt đầu với hai ứng dụng nơi bạn viết nhiều nhất, thường là một công cụ chat và email. Hãy đọc chính tả vài tin nhắn tiếp theo của bạn ở đó thay vì gõ, và xem bạn thực sự phải chỉnh sửa ít đến mức nào sau đó.
Rồi để ý đến những lần trật. Khi đầu ra không đúng, đó là thông tin hữu ích. Nó cho bạn biết phong cách của ứng dụng cần tinh chỉnh, hoặc bạn nên nói ý định ra rõ ràng hơn. Những công cụ này càng sắc bén hơn khi bạn càng nói rõ với chúng mỗi ứng dụng nên nghe ra sao. Mẹo này cũng hiệu quả ở bất kỳ ứng dụng nào bạn viết, không chỉ hai ứng dụng hiển nhiên, như chúng tôi đã trình bày trong đọc chính tả trong mọi ứng dụng Mac chỉ với một phím.
Lợi ích thực sự không chỉ là tốc độ, dù nói nhanh gấp ba lần so với gõ đã là một khởi đầu đáng giá. Điều thực sự thay đổi là bạn thôi phải mang theo định dạng trong đầu. Bạn nghĩ ra ý nghĩ, nói nó một lần, và để công cụ lo việc phiên bản nào thuộc về đâu.
Nói một lần, đáp xuống mọi nơi
Thói quen cũ là viết thông điệp và định dạng cùng một lúc: câu chữ, giọng điệu, lời chào, lời kết, tất cả trong một lượt, cho mọi ứng dụng, suốt cả ngày. AI nhận biết ngữ cảnh chia công việc nhọc nhằn đó làm đôi. Bạn mang đến ý nghĩ. Nó mang đến định dạng.
Cách nhanh nhất để cảm nhận sự khác biệt là đọc chính tả email tiếp theo của bạn thay vì gõ nó. Nếu bạn muốn lời nói hiện ra đã được định hình sẵn cho bất kỳ nơi nào nó sẽ đến, Voicr làm điều đó trên chiếc Mac của bạn: giữ FN, nói, và văn bản đáp xuống với đúng giọng điệu cho ứng dụng bạn đang ở trong đó. Một câu bật ra khỏi miệng bạn, đúng thông điệp ở mọi cửa sổ.

