Saya sedang setengah jalan membalas pesan Slack ketika saya sadar. Saya sudah memikirkan kalimat yang sama selama dua belas detik sementara jari saya baru selesai mengetik empat kata pertama. Otak saya menganggur, menunggu tangan saya menyusul.
Saat itulah saya benar-benar mencoba dikte suara. Bukan upaya setengah hati seperti "saya akan coba untuk catatan rapat" yang sudah dua kali saya tinggalkan. Sebulan penuh, setiap pesan panjang, setiap email, setiap dokumen. Inilah yang benar-benar terjadi.
Klaimnya terdengar berlebihan sampai Anda melihat angkanya. Rata-rata orang mengetik sekitar 40 kata per menit. Orang yang sama berbicara dengan kecepatan 130 hingga 150. Peneliti Stanford melakukan perbandingan ini pada 2017 dan menetapkan input suara sekitar 3x lebih cepat daripada mengetik di ponsel, bahkan untuk orang yang mengetik dengan cepat. Rasio yang sama umumnya juga berlaku di keyboard Mac.
Matematikanya brutal: 40 WPM vs 150 WPM
Mari kita bereskan bagian ini dulu. Kebanyakan orang dewasa tanpa pelatihan mengetik sekitar 38 hingga 40 WPM. Pengetik terlatih, yang tidak pernah melihat keyboard, mentok di sekitar 65. Bahasa Inggris percakapan berada di 130 hingga 150 WPM. Bahkan dibandingkan pengetik cepat, itu lebih dari 2x. Dibandingkan orang rata-rata, mendekati 3,75x.
Itu teorinya. Prakteknya lebih menarik. Pertama kali Anda mengukur waktu mendiktekan email versus mengetiknya, selisihnya tidak selebar yang diperkirakan matematika. Kenapa? Karena mengetik adalah satu gerakan. Mendikte itu bicara, lalu mengoreksi, lalu mungkin mendikte ulang satu kalimat, lalu menempel. Pajak pembersihan ini memakan keuntungan Anda.
Solusinya ada pada alatnya. Dikte lama memberi Anda transkrip mentah dengan setiap "um," setiap "eh," setiap "jadi pada dasarnya yang saya maksud adalah." Alat-alat yang lebih baru memolesnya menjadi teks bersih dalam satu langkah. Kalau pembersihan berjalan otomatis, angka 3x itu nyata.
Seperti apa sebenarnya "3x lebih cepat" dalam hari kerja sungguhan
Ini hari Selasa biasa buat saya sebelum beralih. Enam pesan Slack panjang (~80 kata per pesan), empat email (~120 kata per email), dua dokumen pendek (~400 kata), dan beberapa balasan satu baris. Total output yang diketik: sekitar 1.800 kata. Waktu di keyboard, mengabaikan waktu berpikir: kira-kira 45 menit.
Volume yang sama setelah beralih. Total output yang dibicarakan, termasuk pembersihan, sekitar 14 menit. Hampir tepat 3x. Yang mengejutkan saya bukan penghematan waktunya. Tapi ke mana waktu itu pergi. Saya berhenti membuka draf, pergi, kembali, lalu menulis ulang semuanya. Pikiran keluar dari kepala saya dan mendarat di layar dalam sekali jalan.

Di mana mendikte berjalan baik untuk saya: - Thread Slack panjang - Balasan email lebih dari dua kalimat - Catatan rapat saat rapat berlangsung - Draf pertama apa pun - Dokumen brain-dump - Catatan suara yang nantinya jadi dokumen
Di mana dikte tidak membantu: - Balasan pendek ("siap," "makasih") - Kode - Tabel terstruktur - Kata sandi - Hal apa pun yang perlu dipikirkan keras kata demi kata
Minggu pertama buruk. Ini yang salah.
Saya nyaris menyerah di hari ketiga. Masalah pertama adalah bicara ke komputer itu sendiri. Rasanya seperti pamer. Saya memulai kalimat, kehilangan keberanian, berhenti, dan berakhir dengan pikiran setengah-transkrip yang lebih lama dibetulkan daripada diketik.
Masalah kedua adalah terlalu berusaha. Saya bicara seolah mendiktekan surat resmi, pelan dan hati-hati, mengucapkan setiap kata dengan jelas. Hasilnya terdengar robotik dan keunggulan kecepatannya hilang. Saya hanya mengetik dengan mulut, dan jelek pula.
Solusinya ternyata kebalikan dari yang saya kira. Bicara lebih cepat, bukan lebih lambat. Bicara seperti Anda menjelaskan sesuatu ke rekan kerja, lengkap dengan kalimat yang terhenti dan "sebenarnya, coret itu, saya katakan ulang dengan cara lain." Alat poles yang bagus akan membereskan itu semua. Berhenti mencoba mendikte. Cukup bicara.
Terobosannya: tahu kapan tidak perlu mendikte
Yang mengubah dikte suara dari "eksperimen sesekali" jadi "metode input default" adalah satu model mental: suara untuk *draf pertama*, keyboard untuk *editan*. Keyboard itu presisi. Suara itu cepat. Ucapkan versi berantakannya, lalu pakai keyboard untuk membetulkan satu kata yang salah keluar.
Kedengarannya jelas kalau diingat-ingat. Tidak jelas waktu saya mulai. Saya terus mencoba mendiktekan prosa sempurna dan kesal saat hasil polesannya tidak *persis* seperti yang saya mau. Yang akhirnya membantu adalah menurunkan standar untuk draf yang didiktekan. Keluarkan idenya. Perbaiki dalam dua detik dengan keyboard. Lanjut.
Itu juga sebabnya alur poles-sambil-jalan penting sekali. Kalau Anda harus mendikte, lalu manual membersihkan kata-kata pengisi, lalu memperbaiki tata bahasa, lalu memformat untuk aplikasi yang sedang Anda gunakan, keunggulan kecepatannya lenyap. Inti dari semua ini adalah pembersihan terjadi otomatis. Saat Anda berhenti bicara, teksnya sudah siap tempel. Voicr melakukan persis itu di Mac: tahan FN, bicara, lepas, tempel. Pembersihan berjalan di latar belakang.
Alur kerja yang akhirnya menetap (Slack, email, dokumen)
Setelah sebulan, tiga alur kerja sudah mantap. Masing-masing butuh setelan yang sedikit berbeda.

Slack dan chat
Inilah lompatan terbesar. Saya banyak menulis pesan Slack berbentuk panjang: penjelasan keputusan, post-mortem, thread panjang. Dulu butuh sepuluh menit. Sekarang tiga menit. Saya mendiktekan pesan sekaligus, menempel, melirik typo, kirim. (Voice to text di Slack di Mac menjelaskan setelan per-channel.)
Email adalah tempat saya mengharapkan keuntungan terbesar dan justru mendapat hasil paling berantakan awalnya. Masalahnya: email punya nada. Anda tidak bisa mendiktekan balasan ke bos dengan cara yang sama seperti mendiktekan pesan Slack ke rekan satu tim. Solusinya pakai gaya per-aplikasi. Formal untuk email, santai untuk chat. (Cara mendiktekan email di Mac membahas ini lebih detail.)
Dokumen dan catatan
Dokumen adalah kasus paling aneh. Catatan pendek bagus sekali. Dikte, tempel, selesai. Dokumen panjang tidak, karena yang dipikirkan adalah struktur. Anda bukan menulis kalimat. Anda menyusun bagian-bagian, memindahkan hal-hal, merestrukturisasi. Untuk dokumen panjang, saya mendikte paragraf demi paragraf dan tetap menjaga struktur di keyboard.
Yang saya dapat selain kecepatan
Angka 3x cuma judulnya. Kemenangan yang tidak terduga jauh lebih besar.
Lebih sedikit draf setengah jadi. Saat mengetik jadi penyumbat, setiap pesan panjang dimulai sebagai draf yang Anda niatkan selesaikan nanti. Kebanyakan mati di folder draf. Suara menutup jarak antara pikiran dan output. Saya sekarang mengirim hal-hal yang dulu nganggur tak terkirim selama dua hari.
Pegelan tangan berkurang. Saya tidak akan bilang dikte suara menyembuhkan tangan saya. Tapi perbedaan antara 6 jam mengetik dan 2 jam mengetik itu nyata, dan pergelangan tangan saya merasakannya di Jumat malam.
Draf pertama lebih baik. Yang ini mengejutkan. Saat Anda mengucapkan pikiran, secara alami Anda menyusunnya seperti cara orang menjelaskannya. Draf pertama yang diketik cenderung kaku. Terbacanya seperti memang ditulis, karena memang ditulis. Draf hasil dikte terdengar seperti seseorang, yang biasanya memang itu yang Anda inginkan.
Catatan kaki yang tidak ada yang memperingatkan
Dua kelemahan nyata. Keduanya ada solusinya, tapi layak diketahui sebelum Anda berkomitmen.
Anda tidak bisa mendikte di kantor terbuka. Atau di kedai kopi. Atau di mana pun ada orang lain dalam jarak dengar. Ini kedengarannya jelas tapi batasannya lebih besar dari yang terlihat. Kalau lingkungan kerja Anda berbagi ruang, dikte suara jadi alat "hanya di hari kerja dari rumah," yang membatasi peningkatan produktivitasnya.
Masih ada pajak pembersihan, bahkan dengan alat yang bagus. Kecil. Mungkin satu perbaikan per paragraf, bukan satu per kalimat. Tapi tidak nol. Matematikanya tetap menguntungkan Anda dengan selisih besar, tapi berpura-pura pembersihannya nol akan menyiapkan Anda untuk kekecewaan.
Cara benar-benar mencoba ini tanpa menyerah dalam tiga hari
Beberapa aturan yang saya harap ada yang menyampaikannya ke saya di hari pertama.
Mulai dengan satu aplikasi, bukan semuanya. Pilih aplikasi tempat Anda paling banyak menulis teks panjang berisiko rendah. Bagi saya, Slack. Pakai suara untuk aplikasi itu dan hanya itu selama seminggu. Jangan coba mengkonversi seluruh alur kerja sekaligus.
Tetapkan batas keraguan satu minggu. Hari ketiga akan buruk. Hari kelima akan lumayan. Hari ketujuh Anda mulai merasakan jaraknya saat kembali mengetik. Kalau Anda menyerah di hari ketiga, Anda tidak akan sampai ke hari ketujuh.
Pakai alat yang memoles secara default. Ini faktor terbesar. Alat transkripsi mentah membuang keuntungan Anda dalam pembersihan. Alat yang menghapus kata pengisi, memperbaiki tata bahasa, dan menyusun output otomatis adalah satu-satunya jenis di mana angka 3x benar-benar muncul.
Jangan pernah mendikte di depan orang lain. Bukan karena berisik (sebenarnya tidak). Tapi rasa canggung itu akan membunuh kecepatan Anda. Pilih tempat yang sepi untuk bulan pertama.
Dari mana memulai
Ringkasan jujurnya: dikte suara berhasil. Bukan dalam pengertian "ini mengubah segalanya" yang dijanjikan materi pemasaran. Tapi dalam pengertian "saya sudah selesai jam 4 sore sekarang." Angka 3x itu nyata, dan alat apa pun yang tidak menangani pembersihan untuk Anda adalah alasan orang menyerah dari dikte di minggu pertama.
Cara tercepat menguji ini untuk diri sendiri adalah mendiktekan pesan Slack panjang berikutnya alih-alih mengetiknya. Kalau Anda mau pembersihannya ditangani otomatis, dengan ucapan dipoles jadi teks siap tempel dalam satu langkah dan gaya per-aplikasi, itulah yang dilakukan Voicr di Mac. Tahan FN dari mana saja, bicara selama tiga puluh detik, lepas, tempel. Coba di satu pesan besok pagi. Akhir minggu Anda akan tahu apakah angka 3x itu nyata untuk Anda.

