Ses, yaklaşık on beş yıldır bilişimin geleceği olarak gösteriliyor. Siri 2011'de çıktı. O günden beri her yıl birileri, klavyenin günlerinin sayılı olduğunu duyuran bir yazı kaleme alıyor. Ve her yıl siz yazmaya devam ettiniz.
Şüpheyle yaklaşmaya değer bir soru var öyleyse: önümüzdeki on yıl bu örüntüyü neden kırsın? Bence kıracak, ama abartı yazılarının öne sürdüğü nedenle değil. Ses bunca yılı yavaş olduğu için kaybetmedi. Konuşmayı bitirdikten *sonra* olanlar yüzünden kaybetti.
Bu boşlukta biraz durmak gerek. Sesi gerçekten geri tutan o tek şey sessizce çözüldü ve çoğu insan henüz farkına varmadı. İşte sesle çalışan bilgisayarların savunması, dürüst kısımları da yerinde bırakılmış hâliyle.
Sürekli yanlış çıkan tahmin
Her birkaç yılda bir kuyruklu yıldız gibi geri dönen bir teknoloji tahmini var: yazmak ölüyor, ses devralıyor. Önce Siri ile çıktı, sonra Alexa, ardından her dikte uygulaması dalgasıyla. Klavye hep tam değiştirilmek üzereydi. Hiçbir zaman değiştirilmedi.
Nedenini merak ediyorsanız, birisi Mac'inin yerleşik diktesini ilk kez denediğinde ne olduğunu izleyin. Bir paragraf konuşurlar. Metin geri geldiğinde her "ıı" yerli yerinde, iki yarım başlangıç birbirine yapışmış ve durmadan konuştukları için kırk kelimelik upuzun bir cümle çıkmıştır. Birkaç dakikalarını temizlemeye harcarlar, yazmanın daha hızlı olacağına karar verirler ve bir hafta içinde sessizce klavyeye geri dönerler.
Sesin neden sürekli kaybettiğinin tüm hikâyesi bu. Vaat "yazmayı bırak"tı. Gerçekse "daha az yaz, daha çok düzelt" oldu. İnsanlar sesi, kendilerine yetişemediği için reddetmedi. Temizleme maliyeti, konuşmanın kazandırdığı zamanı geri aldığı için reddettiler.
Yavaş olan asla ses değildi
İşte tartışmada gözden kaçan kısım. Ham hız söz konusu olduğunda bu mesele on yıl önce kapandı ve sesi rahatça kazandı.
İyi bir masaüstü daktilografı dakikada yaklaşık 40 kelime yazar. Rahat konuşma ise hiç zorlanmadan dakikada 150 kelime civarındadır. Kafanızın içindeki o ses, parmaklarınız yetişmeden cümleyi kuran ses, daha da hızlı koşar. Bu zincirde yazmak, açık ara en yavaş halka.
Bu sadece kabataslak bir tahmin de değil. 2016'da Stanford, Baidu ve Washington Üniversitesi'nden araştırmacılar karşılaştırmalı bir çalışma yürüttü: bir telefona metni konuşmak, başparmakla yazmaktan üç kat daha hızlıydı ve konuşulan sürümün hata oranı üstüne üstlük *yüzde 20 daha düşüktü*. Aynı testte, on yıl önce, hem daha hızlı hem daha doğru.
Yani sorun asla hız değildi. Darboğaz bir adım ileride, sonrasında elinize tutuşturulan dağınık metinde yaşıyordu. O adımı düzeltin, tüm denklem değişir.
Asıl değişen ne: konuşma ile metin arasındaki yapay zekâ katmanı
Eksik parça asla daha iyi bir mikrofon değildi. Ham konuşmayı, siz uğraşmadan bitmiş metne dönüştürebilen bir katmandı. Bunu mümkün kılmak için iki şey yaklaşık aynı anda olgunlaştı.
Birincisi, transkripsiyon gerçekten iyi hâle geldi. Önde gelen konuşma modelleri artık net ve sohbet dilindeki İngilizcede yüzde 5'in altında kelime hata oranıyla çalışıyor ve Whisper gibi açık modeller yüzde 3 civarına iniyor. Ham yakalama artık zayıf halka değil.
İkincisi, ki asıl dönüm noktası bu, büyük dil modelleri bir transkripti yalnızca depolamak yerine *yeniden yazacak* kadar iyileşti. Bir e-postanın taslağını hazırlayan modelin aynısı, konuşma sırasındaki dağınıklığınızı alıp gereksiz sözleri atabilir, dilbilgisini düzeltebilir ve o konuşma duvarını gerçek paragraflara bölebilir. Çıktı, söylediğinizin bir kaydı olmaktan çıkıp kastettiğinizin bir taslağı olmaya başlar.
İşte o ikinci katman her şeyi değiştiren şey. Size ödev veren dikte ile olduğu gibi gönderebileceğiniz bir şey veren dikte arasındaki fark bu. Voicr'ın yaptığı tam olarak bu iş: bir tuşu basılı tutup normal şekilde konuşursunuz, panonuza ulaşan metin çoktan cilalanmıştır; "ıı"lar gitmiş, cümleler temizlenmiştir. Sesi yirmi yıl boyunca öldüren o temizleme vergisini sizin için sessizce o üstleniyor.
Değişim verilerde çoktan görünüyor
Bu yalnızca hoş bir teori olsaydı, kullanım rakamlarının düz seyretmesini beklerdiniz. Öyle değiller.
ABD'de sesli asistan kullanımının 2026'da 157 milyon kişiyi aşacağı öngörülüyor ve insanların kabaca üçte biri artık aramalarını yazmak yerine her gün sesle yapıyor. Ceplerde ve masalarda hâlihazırda duran milyarlarca sesli cihaz var. Davranış izin beklemiyor; yayılıyor.
En net sinyal en genç çalışanlardan geliyor. Fortune'da yer alan bir araştırma, Z Alfa kuşağının iş hayatına hiç resmi e-posta yazmamış olarak girebileceğini, bunun yerine patronlarına sesli not göndermeyi tercih edebileceğini öne sürüyor. E-posta hayatta kalsa da kalmasa da yön belli: bir kayıt düğmesini basılı tutarak konuşarak büyüyen insanlar için bir paragraf yazmak çoktan yavaş seçenek gibi geliyor.

Bunların hiçbiri klavyenin gelecek çeyrekte yok olacağı anlamına gelmiyor. Varsayılanın kaydığı anlamına geliyor. Sesle çalışan bilişim artık bir öngörü değil; çoktan izini sürebileceğiniz bir eğilim çizgisi ve tek bir yönü gösteriyor.
Sesle çalışan bilişim gerçekte nasıl görünüyor
"Sesle çalışan" deyince insanın aklına size laf yetiştiren bir bilimkurgu mutfağı geliyor. Gerçek hâli bundan daha sessiz ve açıkçası daha kullanışlı.
Bu, sesin bir düşünceyi sayfaya geçirmenin varsayılan yolu hâline geldiği, klavyenin ise onu rötuşlamak için uzandığınız araca dönüştüğü anlamına gelir. E-postayı, Slack yanıtını, kaba ilk taslağı, kendinize aldığınız notu konuşursunuz. Sonra geri okur ve kulağa yanlış gelen o tek ifadeyi birkaç tuş vuruşuyla düzeltirsiniz. Sesle yakala, elle düzelt.
Bunu gerçekten yaşanabilir kılan kısım ton. Patronunuzla, bir grup sohbetinde konuştuğunuz gibi konuşmazsınız; her şeyi tek bir sese düzleyen bir araç ise hızla bir kenara atılır. Sesle çalışan bir kurulum çıktıyı gideceği yere uyarlar: sohbette samimi, e-postada düzgün, kod yorumunda sade. Siz her seferinde aynı şekilde konuşursunuz, yazı ise ortama uyacak şekilde değişir. Bunun kendi günlük iş akışımı nasıl değiştirdiğini düşünmek ile yazmak arasındaki boşluğu yapay zekâyla nasıl kapattığım yazısında anlatmıştım.
Bu tablonun ne olmadığına dikkat edin. Klavyesiz bir dünya değil. Her şeyi sıfırdan yazmak yerine önce konuşup sonra yazdığınız bir dünya.
Klavyenin elinde kalanlar
Klavyenin işe yaramaz hâle geleceğini varsayan bir sesle çalışan bilişim savunmasına güvenilmez. Sesin kötü olduğu gerçek işler var ve bunlar yakın zamanda bir yere gitmiyor.
Bazı işler yazarak daha hızlı kalır: - Kod ve sembol ağırlıklı her şey. Dikte kelimeleri yakalar; ama parantezleri, alt çizgileri ve tam değişken adlarını beceremez. Kodu yine de yazarsınız. - Gürültülü ya da paylaşımlı ortamlar. Sessiz bir odada dizüstünüze konuşmak sorun değil. Tıka basa dolu bir trende ya da yanında biri telefon görüşmesi yapan açık ofiste yapmak ise sorun. - Sesli söylemek istemediğiniz her şey. Sert bir geri bildirim, hassas bir yanıt, yan masadakinin duymasını istemediğiniz bir mesaj. Klavye, sesin olamadığı bir biçimde mahremdir. - Cerrahi düzenleme. Bir taslak büyük ölçüde oturduktan sonra bir virgülü kaydırmak ya da tek bir kelimeyi değiştirmek, bir cümleyle değil bir tuşla daha hızlıdır.

Yani "hâlâ yazacak mıyız" sorusunun bir kısmının cevabı, bunlar için kısaca evet. Değişen şey, klavyenin her şeyi yaptığınız araç olmaktan çıkıp, ses uymadığında elinize aldığınız uzmanlık aracına dönüşmesi. Bu bir tasfiye değil, bir rütbe düşürme.
Sesten sonra ne geliyor
Tam on yıl ileriye bakıyorsak, ses son durak bile değil. Daha fütüristik girdi yöntemleri çoktan laboratuvarda.
Meta, kaslarınızdaki elektriksel sinyalleri okuyan bir bileklik tanıttı; bu sayede herhangi bir yüzeyde minik parmak hareketleriyle, klavyeye gerek kalmadan "yazabiliyorsunuz". Gerçekten etkileyici bir araştırma. Ama rakamlara dikkat: erken test kullanıcıları el hareketiyle yazarken dakikada yaklaşık 21 kelimeye ulaştı. Bu, kimi başparmakla yazmayı geçer ve bir erişilebilirlik aracı olarak çok daha öteye taşır, ama yine de yalnızca konuşarak elde ettiğiniz dakikada 150 kelimenin küçük bir kesri.
Tüm bunların sessiz noktası bu. Öngörülebilir gelecekte sesiniz, bir düşünce ile bitmiş metin arasında ameliyat ya da bilimkurgu gerektirmeyen en hızlı kanal. Nöral girdi geliyor ve en çok rahatça konuşamayan ya da yazamayan insanlar için önem taşıyacak. Geri kalan herkes için ses, önce geçtiğimiz köprü ve çoktan burada.
Peki, hâlâ yazacak mıyız?
Evet. Ama on yıl içinde yazmak refleks olmaktan çıkıp istisna hâline geliyor. Sesin ana uymadığı anlarda elinize aldığınız şeye dönüşüyor, tıpkı bugün bir kaleme uzandığınız gibi: faydalı, bilinçli ve artık yazılarınızın çoğunu yaptığınız yol değil.
Bu sefer işin farklı olmasının sesin daha hızlanmasıyla hiçbir ilgisi yok. Ses zaten hep daha hızlıydı. Fark şu ki temizleme nihayet halloldu, yani konuşmak artık ardından bir düzenleme seansına kaydolmak anlamına gelmiyor. O vergiyi kaldırın, masanızdaki en yavaş aracın gündelik yazı için sizi ikna edecek pek bir şeyi kalmaz.
Önermeyi sınamak için on yıllık tahmine inanmanıza gerek yok. İki satırdan fazlasını gerektiren bir sonraki yanıtınızı seçin. Onu yazmak yerine bir dikte tuşunu basılı tutun, senaryo kurmadan ne demek istediğinizi söyleyin ve ortaya çıkanı geri okuyun. Bunun ham değil de cilalı çıkmasını istiyorsanız, Voicr'ın var olma nedeni tam olarak bu: FN'i basılı tut, konuş, yapıştır; metin temiz ve içinde bulunduğunuz uygulamaya uygun şekilde belirsin. Ücretsiz katman ayda 5.000 kelimeyi kapsıyor, ki bu da manşetlerin sürekli vaat ettiği gelecekte çoktan yaşayıp yaşamadığınızı anlamaya fazlasıyla yeter.

