Apakah Kita Masih Akan Mengetik 10 Tahun Lagi? Komputasi Berbasis Suara

Suara sudah menjadi masa depan komputasi selama kurang lebih lima belas tahun. Siri dirilis pada 2011. Setiap tahun sejak itu, selalu ada orang yang menulis artikel yang mengumumkan bahwa hari-hari keyboard sudah terhitung. Dan setiap tahun, Anda tetap saja mengetik.

Jadi inilah pertanyaan yang patut disikapi dengan skeptis: mengapa sepuluh tahun ke depan justru akan mematahkan pola itu? Saya yakin akan begitu, tetapi bukan karena alasan yang disebut artikel-artikel penuh hype. Suara tidak kalah selama bertahun-tahun itu karena lambat. Suara kalah karena apa yang terjadi *setelah* Anda selesai berbicara.

Celah itu layak direnungkan. Satu hal yang sebenarnya menghambat suara baru saja diam-diam terpecahkan, dan kebanyakan orang belum menyadarinya. Inilah argumen untuk komputasi berbasis suara, dengan bagian-bagian jujurnya tetap dibiarkan apa adanya.

Prediksi yang terus-menerus salah

Ada satu prediksi teknologi yang muncul kembali setiap beberapa tahun seperti komet: mengetik sedang sekarat, suara akan mengambil alih. Prediksi itu muncul bersama Siri, lalu Alexa, lalu setiap gelombang aplikasi dikte sesudahnya. Keyboard selalu hampir digantikan. Tetapi tidak pernah benar-benar tergantikan.

Kalau ingin tahu alasannya, perhatikan apa yang terjadi saat seseorang mencoba fitur dikte bawaan Mac mereka untuk pertama kali. Mereka mengucapkan satu paragraf. Transkripnya kembali dengan setiap "um" utuh, dua awalan keliru yang tersambung jadi satu, dan satu kalimat yang melebar sampai empat puluh kata karena mereka tidak berhenti sejenak. Mereka menghabiskan beberapa menit untuk merapikannya, menyimpulkan bahwa mengetik akan lebih cepat, lalu diam-diam kembali ke keyboard dalam waktu seminggu.

Itulah keseluruhan kisah mengapa suara terus kalah. Janjinya adalah "berhenti mengetik." Kenyataannya adalah "mengetik lebih sedikit, menyunting lebih banyak." Orang tidak menolak suara karena suara tak mampu mengimbangi mereka. Mereka menolaknya karena biaya merapikan justru merebut kembali waktu yang dihemat oleh berbicara.

Suara tidak pernah menjadi bagian yang lambat

Inilah bagian yang sering hilang dalam perdebatan bolak-balik. Soal kecepatan murni, argumen ini sudah tuntas satu dekade lalu, dan suara memenangkannya dengan mudah.

Seorang pengetik desktop yang andal bergerak di kisaran 40 kata per menit. Berbicara dengan nyaman ada di sekitar 150 kata per menit tanpa usaha apa pun. Suara di dalam kepala Anda, yang menyusun kalimat sebelum jari Anda menyusul, berjalan lebih cepat lagi. Mengetik adalah tahap paling lambat dalam rantai itu dengan selisih yang besar.

Ini bukan sekadar tebakan di atas kertas. Pada 2016, para peneliti di Stanford, Baidu, dan University of Washington menjalankan studi adu langsung: mengucapkan teks ke ponsel tiga kali lebih cepat daripada mengetiknya dengan ibu jari, dan versi ucapan itu malah punya tingkat kesalahan *20 persen lebih rendah* di atas itu semua. Lebih cepat dan lebih akurat, dalam pengujian yang sama, sepuluh tahun lalu.

Jadi kecepatan tidak pernah menjadi penghambatnya. Hambatannya ada satu langkah di hilir, pada transkrip berantakan yang diserahkan kepada Anda setelahnya. Perbaiki langkah itu dan seluruh persamaannya berubah.

Apa yang sebenarnya berubah: lapisan AI antara ucapan dan teks

Bagian yang hilang tidak pernah berupa mikrofon yang lebih baik. Yang hilang adalah lapisan yang mampu mengubah ucapan mentah menjadi teks rampung tanpa Anda harus merampungkannya. Dua hal matang pada waktu yang kira-kira bersamaan sehingga itu menjadi mungkin.

Pertama, transkripsi menjadi benar-benar bagus. Model ucapan terkemuka kini berjalan di bawah tingkat kesalahan kata 5 persen untuk bahasa Inggris percakapan yang jernih, dan model terbuka seperti Whisper mendekati 3 persen. Penangkapan mentah bukan lagi mata rantai yang lemah.

Kedua, dan inilah pergeseran yang sesungguhnya, model bahasa besar menjadi cukup bagus untuk *menulis ulang* sebuah transkrip alih-alih sekadar menyimpannya. Jenis model yang sama yang menyusun draf email bisa mengambil ocehan lisan Anda, membuang kata pengisi, memperbaiki tata bahasa, dan memecah dinding ucapan menjadi paragraf yang sesungguhnya. Hasilnya berhenti menjadi rekaman dari apa yang Anda ucapkan dan mulai menjadi draf dari apa yang Anda maksudkan.

Lapisan kedua itulah inti dari segalanya. Itulah perbedaan antara dikte yang menyerahkan pekerjaan rumah kepada Anda dan dikte yang menyerahkan sesuatu yang siap Anda kirim apa adanya. Inilah persis tugas yang dikerjakan Voicr: Anda menahan satu tombol dan berbicara seperti biasa, dan teks yang sampai ke clipboard Anda sudah rapi, dengan "um" yang lenyap dan kalimat yang sudah dibersihkan. Pajak merapikan yang membunuh suara selama dua puluh tahun adalah bagian yang diam-diam ditangani Voicr untuk Anda.

Pergeseran itu sudah terlihat di data

Kalau ini cuma teori manis, Anda akan mengira angka penggunaannya datar. Ternyata tidak.

Penggunaan asisten suara di AS diproyeksikan melampaui 157 juta orang pada 2026, dan kira-kira sepertiga orang kini menjalankan pencarian lewat suara setiap hari alih-alih mengetiknya. Sudah ada miliaran perangkat berkemampuan suara di saku dan di meja. Perilaku ini tidak menunggu izin; ia sedang menyebar.

Sinyal paling jelas datang dari para pekerja termuda. Riset yang diliput Fortune menunjukkan Gen Alpha mungkin masuk dunia kerja tanpa pernah menulis email formal, dan lebih memilih pesan suara untuk atasan mereka. Entah email bertahan atau tidak, arahnya sulit dilewatkan: bagi orang yang tumbuh dengan menahan tombol rekam untuk berbicara, mengetik satu paragraf sudah terasa seperti pilihan yang lambat.

Grafik garis menanjak yang tersusun dari gelembung-gelembung ucapan kecil, menunjukkan adopsi input suara yang naik seiring waktu

Tak satu pun dari ini berarti keyboard lenyap kuartal depan. Artinya, defaultnya sedang bergeser. Berbasis suara bukan lagi ramalan; ia adalah garis tren yang sudah bisa Anda telusuri, dan ia menunjuk ke satu arah.

Seperti apa sebenarnya komputasi berbasis suara

"Berbasis suara" terdengar seperti dapur fiksi ilmiah yang menjawab balik kepada Anda. Versi nyatanya lebih sunyi dari itu, dan sejujurnya lebih berguna.

Artinya suara menjadi cara default Anda menuangkan sebuah pikiran ke halaman, dan keyboard menjadi alat yang Anda raih untuk menyempurnakannya. Anda mengucapkan email, balasan Slack, draf kasar pertama, catatan untuk diri sendiri. Lalu Anda membacanya kembali dan memperbaiki satu frasa yang terasa keliru dengan beberapa ketukan tombol. Tangkap dengan suara, sunting dengan tangan.

Bagian yang membuat ini benar-benar nyaman dipakai adalah nada. Anda tidak berbicara kepada atasan dengan cara Anda berbicara di obrolan grup, dan alat yang meratakan semuanya menjadi satu nada akan cepat ditinggalkan. Pengaturan berbasis suara menyesuaikan hasilnya dengan tujuannya: santai di obrolan, rapi di email, lugas di komentar kode. Anda berbicara dengan cara yang sama setiap kali dan tulisannya bergeser menyesuaikan suasananya. Saya menulis tentang bagaimana ini mengubah alur kerja harian saya sendiri di bagaimana saya memakai AI untuk menutup celah antara berpikir dan menulis.

Perhatikan apa yang bukan gambaran ini. Ini bukan dunia tanpa keyboard. Ini dunia tempat Anda berbicara dahulu dan mengetik kemudian, alih-alih mengetik segala sesuatu dari titik nol.

Apa yang tetap dipegang keyboard

Argumen untuk komputasi berbasis suara yang berpura-pura keyboard menjadi tak berguna tidak layak dipercaya. Ada pekerjaan nyata yang tidak dikuasai suara, dan pekerjaan-pekerjaan itu tidak akan ke mana-mana dalam waktu dekat.

Beberapa hal tetap lebih cepat diketik: - Kode dan apa pun yang penuh simbol. Dikte menangkap kata-katanya; ia tergagap pada kurung, garis bawah, dan nama variabel yang tepat. Anda tetap mengetik kode. - Ruang yang bising atau bersama. Berbicara ke laptop di ruangan yang sunyi tidak masalah. Melakukannya di kereta yang penuh sesak atau di kantor terbuka di sebelah orang yang sedang menelepon, itu lain soal. - Apa pun yang lebih baik tidak Anda ucapkan keras-keras. Masukan yang keras, balasan yang sensitif, pesan yang tidak ingin terdengar oleh tetangga. Keyboard bersifat privat dengan cara yang tidak dimiliki suara. - Penyuntingan presisi. Begitu sebuah draf sebagian besar sudah jadi, memindahkan satu koma atau mengganti satu kata lebih cepat dengan tombol daripada dengan satu kalimat.

Adegan terbagi yang ramah, menampilkan mikrofon untuk berbicara dan keyboard untuk menyunting, bekerja berdampingan

Jadi sebagian dari jawaban atas "apakah kita masih akan mengetik" cukup sederhana, yaitu ya, untuk hal-hal ini. Yang berubah adalah keyboard berhenti menjadi alat yang Anda pakai untuk segala sesuatu dan menjadi alat spesialis yang Anda ambil saat suara tidak cocok. Itu penurunan pangkat, bukan kepunahan.

Apa yang datang setelah suara

Kalau kita memandang sepanjang sepuluh tahun penuh, suara bahkan bukan perhentian terakhir. Metode input yang lebih futuristik sudah ada di laboratorium.

Meta telah memamerkan gelang tangan yang membaca sinyal listrik di otot Anda, memungkinkan Anda "mengetik" dengan gerakan jari kecil di permukaan apa pun, tanpa perlu keyboard. Ini benar-benar riset yang mengesankan. Tetapi perhatikan angkanya: penguji awal mencapai sekitar 21 kata per menit saat menulis dengan gerakan tangan. Itu mengalahkan sebagian pengetikan ibu jari, dan jauh melampauinya sebagai alat aksesibilitas, tetapi tetap hanya sebagian kecil dari 150 kata per menit yang Anda dapat hanya dengan berbicara.

Itulah poin yang sunyi dalam semua ini. Untuk masa depan yang terlihat, suara Anda adalah jalur tercepat antara sebuah pikiran dan teks rampung yang tidak melibatkan pembedahan atau fiksi ilmiah. Input saraf sedang datang, dan ia akan paling berarti bagi orang yang tidak bisa berbicara atau mengetik dengan nyaman. Bagi semua orang lain, suara adalah jembatan yang kita seberangi lebih dahulu, dan jembatan itu sudah ada di sini.

Jadi, apakah kita masih akan mengetik?

Ya. Tetapi dalam sepuluh tahun, mengetik menjadi pengecualian alih-alih refleks. Mengetik berubah menjadi hal yang Anda raih saat suara tidak cocok dengan momennya, seperti cara Anda meraih pena hari ini: berguna, disengaja, dan tidak lagi menjadi cara Anda menyelesaikan sebagian besar tulisan Anda.

Alasan kali ini berbeda tidak ada hubungannya dengan suara yang menjadi lebih cepat. Suara memang selalu lebih cepat. Yang berbeda adalah proses merapikan akhirnya tertangani, sehingga berbicara tidak lagi berarti mendaftar untuk sesi penyuntingan sesudahnya. Hilangkan pajak itu dan alat paling lambat di meja Anda nyaris tak punya apa pun yang layak direkomendasikan untuk tulisan sehari-hari.

Anda tidak perlu menerima ramalan sepuluh tahun ini bulat-bulat untuk menguji premisnya. Pilih balasan Anda berikutnya yang butuh lebih dari dua baris. Alih-alih mengetiknya, tahan tombol dikte, ucapkan apa yang Anda maksud tanpa menyusun naskah, lalu bacalah kembali apa yang muncul. Kalau Anda ingin itu keluar rapi alih-alih mentah, itulah seluruh alasan Voicr ada: tahan FN, bicara, tempel, dan teksnya muncul bersih serta cocok dengan aplikasi yang sedang Anda pakai. Tingkat gratisnya mencakup 5.000 kata per bulan, lebih dari cukup untuk mengetahui apakah Anda sudah hidup di masa depan yang terus dijanjikan oleh berita utama.