Bagaimana AI Sadar-Konteks Menulis Ulang Ucapan untuk Tiap Aplikasi

Ucapkan satu kalimat dengan lantang: "hei bisa kirim angka terbaru kalau sempat ya." Ke mana kalimat itu menuju menentukan harusnya jadi seperti apa. Tempel di Slack dan sudah pas. Taruh di email klien dan ia butuh sapaan serta permintaan yang lebih halus. Catat sebagai komentar Jira dan ia mesti menyusut jadi tiga kata: "Butuh angka terbaru."

Anda melakukan penyesuaian itu tanpa berpikir. Otak Anda membaca situasi, aplikasi mana, orang mana, seberapa formal, lalu membentuk ulang kata-katanya saat keluar. AI sadar-konteks melakukan tugas yang sama, otomatis, pada ucapan yang Anda diktekan.

Ini layak dipedulikan sekarang karena dikte akhirnya benar-benar bagus. Anda bisa berbicara sekitar 150 kata per menit, tiga sampai empat kali lebih cepat dari 40 kata per menit yang diketik kebanyakan orang. Tapi ucapan mentah tidak cocok dengan cara aplikasi mana pun ingin Anda menulis. Lapisan penulisan ulang inilah yang menutup celah itu.

Satu kalimat, enam pesan berbeda

Ucapan itu netral-register. Saat berbicara, Anda tidak memilih format. Anda cuma mengatakannya, dan formatnya dipasang belakangan, oleh Anda, ketika menentukan ke mana ia berlabuh.

Menulis bekerja sebaliknya. Setiap aplikasi tempat Anda mengetik membawa aturan diam-diamnya sendiri tentang bagaimana teks harus terlihat dan terdengar.

Ambil permintaan angka yang sama tadi dan lihat ia berubah bentuk tergantung jendelanya: - Slack: "Hei, bisa kirim angka terbaru kalau sempat?" - Email: "Halo Maria, kalau ada waktu, bisakah kirim angka terbaru? Terima kasih!" - Jira: "Butuh angka terbaru." - Catatan untuk diri sendiri: "Tertunda: angka terbaru dari Maria." - Pesan ke rekan kerja: "bisa kirim angka terbaru gak?"

Maksudnya sama tiap kali. Lima permukaan, lima jawaban benar yang berbeda. Anda sudah memproduksi semuanya sesuai permintaan. Persoalannya, tiap satu menuntut penyetelan ulang kecil yang nyaris tak Anda sadari, dan itu terjadi terus-menerus. Sebuah studi Harvard Business Review mencatat pekerja berpindah antaraplikasi sekitar 1.200 kali sehari, kira-kira sekali setiap 24 detik. Banyak dari perpindahan itu disertai gaya menulis baru.

Transkripsi versus penulisan ulang sadar-konteks

Ada gunanya memisahkan dua tugas yang biasanya disatukan. Transkripsi mengubah suara jadi kata. Penulisan ulang sadar-konteks mengubah kata-kata itu jadi pesan yang tepat untuk tujuannya.

Transkripsi biasa berhenti di langkah pertama. Apple Dictation bawaan, kebanyakan alat speech-to-text, teks langsung di ponsel Anda, semuanya menyerahkan rekaman harfiah dari apa yang Anda ucapkan, lengkap dengan kata pengisi dan awalan yang salah.

Beginilah wujud sebenarnya transkrip mentah dari sebuah pikiran cepat: ``` um jadi ya aku mikir kita mungkin harusnya kayak undur peluncuran ke minggu depan soalnya QA-nya itu belum kelar gitu kan ```

Penulisan ulang sadar-konteks mengambil audio yang sama itu dan mengajukan pertanyaan kedua: ini menuju ke mana, dan harusnya terdengar seperti apa di sana? Menuju pesan Slack ke tim Anda, hasilnya jadi: ``` Ayo undur peluncuran ke minggu depan. QA belum kelar. ```

Kata-kata yang sama masuk, kata-kata berbeda keluar, dibentuk oleh tujuannya. Yang pertama adalah rekaman. Yang kedua adalah sesuatu yang benar-benar bisa Anda kirim. Untuk lebih lanjut soal sisi pemolesan ini, lihat uraian kami tentang cara kerja dikte suara AI.

Satu transkrip suara berantakan di kiri bercabang menjadi tiga pesan rapi di kanan: catatan Slack santai, email formal, dan komentar tiket singkat

Apa arti "konteks" sebenarnya bagi AI

"Sadar-konteks" terdengar samar sampai Anda melihat petunjuk spesifik yang dibaca alat-alat ini. Tidak ada yang mistis. Konteks adalah daftar singkat sinyal yang diperiksa AI sebelum ia menyentuh satu kata pun.

Aplikasi yang aktif

Sinyal paling lantang adalah aplikasi mana yang sedang fokus saat Anda berbicara. Sebuah alat bisa melihat Slack ada di depan, atau Gmail, atau VS Code. Satu fakta itu mempersempit gaya secara signifikan. Obrolan mau yang singkat dan longgar, email mau yang terstruktur dan sopan, editor kode mau yang ringkas dan harfiah.

Teks di sekitar kursor Anda

Beberapa alat membaca sedikit teks di dekat tempat Anda akan mengetik. Jika pesan di atas dimulai dengan "Yth. Dr. Katz," AI menjaga nada tetap formal dan mengeja namanya dengan benar. Jika utasnya adalah tumpukan lelucon satu baris, ia menyesuaikan dengan itu.

Situs web, bukan sekadar peramban

Deteksi aplikasi jadi kabur di peramban, tempat Gmail, X, dan Google Doc semua bersembunyi di balik jendela yang sama. Alat yang lebih baik melihat URL untuk membedakannya, jadi tab Gmail mendapat perlakuan email dan tab X mendapat postingan yang punchy.

Kategori aplikasi

Daripada menyimpan aturan untuk setiap aplikasi yang pernah dibuat, kebanyakan sistem memilah aplikasi ke dalam segelintir kelompok: email, obrolan kerja, pesan pribadi, dokumen, kode, dan satu wadah serbaguna untuk sisanya. Tiap kelompok punya gaya. Aplikasi baru yang masuk ke kelompok yang dikenal mewarisi gayanya sejak hari pertama.

Tumpuk sinyal-sinyal itu dan AI punya pembacaan situasi yang lumayan: email formal ke orang yang disebut namanya, atau kalimat sekenanya di utas santai. Pembacaan itulah yang jadi acuan penulisan ulangnya.

Bagaimana ucapan Anda menjadi pesan yang tepat

Sejajarkan bagian-bagiannya dan keseluruhannya hanya empat langkah cepat, semua terjadi dalam satu-dua detik antara Anda menyelesaikan kalimat dan teks muncul. 1. Tangkap. Anda menahan satu tombol dan berbicara. Alat merekam sampai Anda melepasnya. 2. Transkripsi. Sebuah model ucapan mengubah audio jadi teks mentah, kata-kata Anda persis seperti yang diucapkan. 3. Deteksi konteks. Alat memeriksa aplikasi yang aktif, teks di dekat kursor, dan kelompok mana aplikasi itu termasuk. 4. Tulis ulang. Sebuah model bahasa mengambil transkrip mentah ditambah konteks itu lalu menulis pesan akhir, dengan ukuran dan nada untuk tujuannya.

Langkah empat adalah tempat sebuah large language model melakukan kerja berat. Ia menerima transkrip berantakan Anda dan instruksi yang intinya "ini menuju email kerja, buat terbaca seperti itu," lalu mengembalikan teks dengan panjang, nada, dan bentuk yang tepat. Hasilnya berbeda-beda tergantung model, jadi perlakukan keluarannya sebagai draf pertama yang kuat, bukan kebenaran mutlak.

Inilah persis alur yang dijalankan Voicr di macOS. Anda menahan tombol FN dan berbicara dari aplikasi mana pun. Voicr mendeteksi aplikasi mana yang ada di depan, menerapkan gaya yang cocok lewat Smart Rules-nya, dan menjatuhkan teks rapi ke clipboard Anda: santai di Slack, profesional di Gmail, ringkas di editor Anda. Anda tak perlu membuka menu untuk memilih nada. Kalau ingin tahu cara gaya per-aplikasi itu ditulis, panduan kami tentang aturan penulisan cerdas menjelaskan apa isi aturan yang baik.

Pipeline empat langkah ditampilkan sebagai ikon ramah: mikrofon menangkap ucapan, sebuah transkrip, kaca pembesar mendeteksi aplikasi aktif, dan pesan rapi jatuh ke clipboard

Dua varian: deteksi otomatis dan aturan eksplisit

Tidak semua kesadaran-konteks bekerja dengan cara yang sama. Alat-alat terbagi dua kubu, dan bedanya kebanyakan soal siapa yang menentukan gayanya.

Jenis otomatis membuat keputusan untuk Anda. Ia membaca aplikasi, memilahnya ke dalam kategori, dan menerapkan gaya bawaan tanpa pengaturan apa pun. Anda memasangnya dan ia langsung jalan. Imbalannya adalah kendali: ketika gagasannya soal "nada email" tak cocok dengan punya Anda, Anda terpaksa mengutak-atik keluarannya secara manual.

Jenis eksplisit menyerahkan kemudinya ke Anda. Anda menulis instruksi singkat untuk tiap aplikasi, dalam bahasa biasa, menjelaskan persis bagaimana ia harus terdengar. Lebih banyak pengaturan di awal, tapi keluarannya sesuai selera Anda karena Anda yang menentukan seleranya. Aturan Slack mungkin berbunyi: ``` Tulis ulang sebagai pesan Slack santai. Dua atau tiga kalimat, kontraksi boleh, tanpa sapaan atau penutup. Emoji ringan hanya jika cocok. ```

Alat yang lebih baik memadukan keduanya: bawaan masuk akal yang langsung jalan, ditambah aturan per-aplikasi yang bisa Anda tulis saat Anda cukup peduli. Anda mengandalkan bawaan untuk aplikasi yang jarang disentuh dan menetapkan aturan eksplisit untuk dua atau tiga aplikasi yang penulisannya benar-benar penting.

Apa yang ia kerjakan dengan benar, dan di mana ia masih tersandung

Penulisan ulang sadar-konteks sungguh berguna, tapi ia titik awal, bukan pembaca pikiran. Mengetahui di mana ia tersandung mencegah Anda memercayainya membabi buta.

Ia jago format. Ia menebak-nebak maksud.

AI bisa tahu Anda sedang di email dan menambahkan sapaan. Ia tak bisa diandalkan untuk tahu apakah Anda tulus atau menyindir, atau apakah "oke" berarti oke atau berarti Anda diam-diam kesal. Nada di dalam sebuah register tetap tugas Anda.

Aplikasi samar membuatnya bingung

Peramban serbaguna, terminal yang menjalankan klien obrolan, aplikasi catatan yang Anda pakai untuk segalanya: semua ini memberi sinyal lemah. Ketika konteksnya keruh, penulisan ulang mundur ke pemolesan umum yang bisa lebih atau kurang formal dari yang Anda mau.

Ia bisa mengikis suara Anda

Dorong penulisan ulang terlalu kuat dan pesan Anda mulai terdengar seperti pesan semua orang, mulus dan cakap tapi agak hambar. Alat yang baik memindahkan suara Anda ke register yang tepat, bukan menukarnya dengan bawaan korporat. Kalau keluarannya berhenti terdengar seperti Anda, kendurkan aturannya.

Anda tetap membaca sebelum mengirim

Sebuah nama bisa keluar salah. Sebuah angka bisa terlewat. Baca sekilas hasilnya sebelum Anda kirim, sama seperti Anda mengintip pesan yang sudah dikoreksi otomatis sebelum menekan kirim.

Menerapkan penulisan ulang sadar-konteks

Ingin mencobanya hari ini? Mulai dari dua aplikasi tempat Anda paling banyak menulis, biasanya alat obrolan dan email. Diktekan beberapa pesan berikutnya di sana ketimbang mengetik, dan perhatikan betapa sedikit penyuntingan yang sebenarnya perlu Anda lakukan sesudahnya.

Lalu perhatikan kesalahannya. Ketika keluarannya tidak tepat, itu informasi yang berguna. Itu memberi tahu Anda bahwa gaya aplikasi itu perlu disetel, atau Anda harus mengatakan maksud lebih lugas saat berbicara. Alat-alat ini jadi makin tajam makin jelas Anda memberi tahu bagaimana tiap aplikasi harus terdengar. Trik yang sama berlaku di aplikasi mana pun tempat Anda menulis, bukan cuma dua yang jelas itu, seperti yang kami bahas di mendikte di aplikasi Mac mana pun dengan satu ketukan tombol.

Kemenangan sejatinya bukan hanya kecepatan, meski berbicara tiga kali lebih cepat dari mengetik adalah awalan yang manis. Yang benar-benar berubah adalah Anda berhenti memikul format di kepala. Anda memikirkan gagasannya, mengatakannya sekali, dan membiarkan alat menentukan versi mana cocok di mana.

Ucapkan sekali, mendarat di mana-mana

Kebiasaan lama adalah menulis pesan dan formatnya pada saat yang sama: kata, nada, sapaan, penutup, semua dalam satu kali jalan, untuk tiap aplikasi, sepanjang hari. AI sadar-konteks membelah tugas itu jadi dua. Anda membawa gagasannya. Ia membawa formatnya.

Cara tercepat merasakan bedanya adalah mendiktekan email Anda berikutnya ketimbang mengetiknya. Kalau Anda ingin ucapan yang muncul sudah dibentuk untuk tujuannya, Voicr melakukannya di Mac Anda: tahan FN, berbicara, dan teks mendarat dengan nada yang tepat untuk aplikasi yang sedang Anda buka. Satu kalimat keluar dari mulut Anda, pesan yang tepat di tiap jendela.