LLM'ler Sesten Metne Dönüştürmeyi Nasıl Gerçekten İşe Yarar Hale Getiriyor

Muhtemelen sesten metne dönüştürmeyi bir kez denedin, vazgeçtin ve klavyene geri döndün. Çoğu insan öyle yaptı. İşin tuhaf yanı, bunun genellikle çıkan kelimelerin yanlış olmasıyla hiçbir ilgisi yoktu.

Konuşma tanıma yıllar önce doğru çalışmaya başladı. Modern modeller temiz konuşmayı yaklaşık %95 doğrulukla yazıya döküyor. Dikte etmenin hâlâ işe yaramaz hissettirmesinin sebebi, gerçekte nasıl konuştuğunun birebir dökümünün tam bir karmaşa olmasıdır. Büyük dil modelleri bunu düzelten parça oldu ve sesten metnin ne işe yaradığını değiştirdi.

Tarihinin büyük kısmında sesten metne dönüştürme tek bir şeye göre değerlendirildi: kelimeleri doğru anladı mı? Bunun yanlış soru olduğu ortaya çıktı. Seninle sesinle yazmak arasında duran şey hiçbir zaman kelimeleri doğru anlamak olmadı. İşte asıl değişen şey.

Sesten metne hiçbir zaman bir döküm sorunu değildi

Onlarca yıl boyunca her konuşma tanıma ekibi aynı sayının peşinden koştu: kelime hata oranı, yani WER. Sistemin kaç kelimeyi yanlış yazdığını sayar. Düşük olması iyidir ve tüm alan bunu en aza indirmek için çalıştı.

Büyük ölçüde başardılar da. OpenAI'nin Whisper'ı temiz sesi yaklaşık %2,7 kelime hata oranıyla yazıya döküyor. Bir toplantı, bir kafe ya da bir telefon görüşmesi gibi daha karmaşık gerçek dünya kayıtlarında ise %8 ile %12 arasına yaklaşıyor. İnsan deşifre edenler %4 ile %6 civarında. Aradaki fark küçük ve hâlâ kapanıyor.

Yani doğruluk az çok çözüldü. Ama 2018'de dikte etmeyi bırakan herhangi birine neden bıraktığını sor, neredeyse hiç kimse "çok fazla yazım hatası vardı" demez. Hantal hissettirdiğini ya da çıktının o kadar çok düzeltme gerektirdiğini ki zahmete değmediğini söylerler.

İşin sırrı burada. Darboğaz hiçbir zaman döküm değildi. Kelimeler zaten doğru olduktan sonra olan her şeydi.

Konuşmanın ham dökümü neye benziyor

İşte kimsenin seni uyarmadığı şey: temiz cümlelerle konuşmuyorsun. Kimse konuşmuyor.

Doğal konuştuğunda geri dönersin, baştan başlarsın, sözün havada kalır ve araya "şey", "yani", "hani" gibi şeyler sıkıştırırsın. Beynin bunların hepsini anında düzeltir ve sen hiç fark etmezsin. Bir döküm motoru her şeyi fark eder ve her ayrıntısını yazar.

Diyelim ki bir iş arkadaşına hızlıca bir mesaj dikte ediyorsun. Saf bir döküm motorundan şöyle çıkar:

*"tamam şey dünkü o o şeyi sormak istiyordum, raporu, müsait olduğunda ee gönderebilir misin, acelesi yok ya da öyle bir şey"*

Her kelime doğru. Ama kullanılamaz da. Bunu düzeltmek, konuşarak kazandığından daha fazla zamanını alır. İşte çoğu insanın dikte etmekten tamamen vazgeçtiği an tam olarak burası.

Solda dolgu kelimelerle dolu dağınık bir ham ses dökümü ile sağda temiz ve cilalı bir mesajın yan yana karşılaştırması

Büyük dil modelleri gerçekte ne katıyor

Bir döküm motoru tek bir soruya yanıt verir: bu kişi hangi sesleri çıkardı? Bir dil modeli ise farklı bir soruya yanıt verir: bu kişi ne demek istedi ve bu nasıl okunmalı?

İşin tamamı o ikinci soruda. Bir LLM dağınık dökümü alır ve dikkatli bir editörün yapacağı gibi yeniden yazar. Dolgu kelimeleri atar, yarım cümlelerini tamamlar, dil bilgisini düzeltir ve anlamını olduğu gibi korur. Yukarıdaki mesaj şuna dönüşür:

*"Merhaba, müsait olduğunda dünkü raporu gönderebilir misin? Acelesi yok."*

Aynı niyet, tek okuyuşta anlaşılır. Burada döküm hiç iyileşmedi. Değişen şey, onun üzerinde oturan ve normalde senin yapacağın düzenlemeyi yapan ikinci katman.

Bu bir ürün numarasından fazlası. Araştırmacılar bunu doğrudan inceliyor. ACM CHI konferansından 2024 tarihli Rambler adlı bir makale, insanların serbestçe konuşmasına izin vermenin ve "özü" yeniden şekillendirmek için bir LLM kullanmanın, yazmaya ya da ham dikteye kıyasla daha az çabayla daha iyi yazılar ürettiğini buldu. Konuşmak, sesli düşünme şeklimizdir. Model, beynimizin genellikle atladığı kısmı üstlenir.

Diğer çalışmalar da aynı yönü gösteriyor. LLM tabanlı döküm iyileştirme üzerine yapılan araştırmalar, konuşmayı tanımadan sonra bir dil modelinden geçirmenin hataları azalttığını ve okunabilirliği artırdığını gösteriyor; özellikle de saf bir döküm motorunun kendi başına çözemediği eş sesli kelimeler ve bağlama bağlı ifadeler için.

Bağlam diğer yarısı

Bir dökümü temizlemek ilk iş. Ne tür bir yazı istediğini bilmek ise ikincisi ve işin ilginçleştiği yer tam da burası.

"Sunumu gün sonuna kadar bana gönder" bir iş arkadaşına atılan Slack mesajı için uygundur. Bir müşteri e-postası için fazla sert kaçar. Kelimeler iyi; ton yanlış. Bir dil modeli o durumu okuyup tonu ayarlayabilir, çünkü yalnızca sesi değil bağlamı da anlar.

Pratikte aynı sözlü cümle bir uygulamada gündelik, bir başkasında cilalı çıkabilir. Sen konuşma şeklini değiştirmezsin. Model, metnin nereye gittiğine göre yazma şeklini değiştirir.

Voicr'ın Akıllı Kuralları tam olarak bunu yapıyor. Slack için rahat bir ton, e-posta için resmi bir ton ayarlarsın ve Voicr hangi uygulamada olduğunu fark edip doğru stili otomatik olarak uygular. FN tuşunu basılı tut, söyleyeceğini söyle ve panona düşen sürüm, birazdan yapıştıracağın yere zaten uygun olsun.

Asıl değişim: bir bilgisayarla konuşmayı bırakırsın

Eski dikte seni bir performans sergilemeye zorlardı. Bitmiş cümlelerle konuşmak, "virgül" ve "yeni paragraf" demek ve normal konuşma alışkanlıklarını bir kenara bırakmak zorundaydın. Düzenlemeyi konuşurken, gerçek zamanlı olarak kafanın içinde yapıyordun. Yorucuydu ve bu yüzden hiç tutmadı.

LLM tabanlı sesten metne dönüştürme bu işi senin omuzlarından alır. Dağıtabilirsin. Cümlenin ortasında fikrini değiştirebilirsin. Bir şeyi bir arkadaşına anlatır gibi konuşabilirsin ve temiz sürüm yine de ortaya çıkar.

Bu küçük bir şey gibi gelebilir. Oysa bir aracı kullanmakla sadece sesli düşünmek arasındaki bütün fark budur.

Hız da gerçek. Çoğu insan dakikada yaklaşık 150 kelime konuşur ve yaklaşık 40 kelime yazar. Bir Stanford araştırması telefonda sesli girişin yazmaya göre üç kat daha hızlı ve daha az hatalı olduğunu buldu. Ama çıktı iyileştiğinde hız artık asıl cazibe olmaktan çıktı. Asıl cazibe, düşünce akışını artık klavyene kaptırmaman. Bu hesabı neden sesin klavyenden daha hızlı yazısında ele aldık.

LLM'ler sesten metni hâlâ nerede yanlış yapıyor

Bu gerçekten daha iyi, sihir değil. Metnini temizleyen aynı zekâ haddini de aşabilir ve bunun nerede olduğunu bilmekte fayda var.

Anlamını değiştirebilir. Bir model bir cümleyi "düzeltirken" bazen istediğin bir ayrıntıyı silebilir ya da niyetin hakkında yanlış tahminde bulunabilir. İfaden ne kadar teknik veya alışılmadıksa risk o kadar yüksektir. Önemli olan her şeyi göndermeden önce hızlıca bir oku.

İsimler ve jargon hâlâ takılmasına yol açıyor. Döküm yaygın kelimeleri iyi halleder ama özel isimlerde, ürün adlarında ve uzmanlık terimlerinde zorlanır. Bir model bağlamdan tahmin edebilir ama meslektaşının soyadını kendinden emin bir şekilde yanlış yazar.

Eş sesli kelimeler tamamen çözülmüş değil. Bağlam yardımcı olduğu için çoğu zaman doğru oturur, ama her seferinde değil.

Bir parça gecikme ekler. Saf bir döküm motoru neredeyse anlıktır. Cilalamak için ikinci bir model çalıştırmak, saniyenin küçük bir kesrinden birkaç saniyeye kadar bir bedel getirir. Kalite için buna değer, ama bedava değil.

Var olduklarını bildikten sonra bunların hiçbiri olmazsa olmaz değil. Göndermeden önce hızlı bir okuma alışkanlığının hâlâ işe yaramasının sebebi de bunlar. Bu sürecin baştan sona nasıl işlediğinin tam resmini istiyorsan, Mac'te yapay zekâlı sesli dikteye adım adım rehber yazdık.

Üst üste iki katmanı gösteren diyagram: sesi kelimelere dönüştüren bir döküm katmanı ve kelimeleri temiz bir yazıya dönüştüren bir dil katmanı

Bunun yazma şeklin için anlamı

Akılda tutmaya değer zihinsel model şu: sesten metne dönüştürme artık üst üste yığılmış iki araç:

1. Sesi doğru kelimelere dönüştüren bir döküm katmanı. 2. O kelimeleri gerçekten iyi okunan bir yazıya dönüştüren bir dil katmanı.

Birebir bir kayda ihtiyacın olduğunda saf döküm hâlâ doğru tercih. Röportajlar, hukuki notlar, her "şey"in önemli olduğu her şey. Geri kalan her şey için, yani e-postalar, mesajlar, belgeler ve notlar için, konuşmayı yazmaktan daha hızlı (sadece daha dağınık değil) yapan şey o cilalama katmanıdır.

Yani bir araç seçerken asıl soru "döküm ne kadar doğru" değil. Artık çoğu birbirine yakın. Asıl soru "üstteki katman ne kadar iyi". Mac için en iyi sesten metne uygulamaları karşılaştırmamız bu işi hangilerinin iyi yaptığını ayrıntılarıyla anlatıyor.

LLM ile cilalanmış sesten metni nasıl denersin

Farkı hissetmenin en hızlı yolu, bir sonraki e-postanı yazmak yerine dikte etmek ve sonra taslakta ne çıktığına bakmak. Yıllar önce hatırladığın o ham döküm olmayacak. İyi bir günündeyken sen yazmışsın gibi okunacak.

Bunu araçları birbirine bağlamadan istiyorsan, Voicr her iki katmanı tek adımda yapıyor. FN tuşunu basılı tut, nasıl istersen öyle konuş, bırak ve cilalanmış metin yapıştırmaya hazır şekilde panona düşsün. Döküm için Whisper'ı, temizlik için bir dil modelini kullanıyor ve uygulama bazlı stillerle ton, nerede yazıyorsan oraya uyuyor. Ücretsiz katman ayda 5.000 kelime, kredi kartı gerektirmiyor.

Sesten metne dönüştürme nihayet hep olması gerektiği gibi çalışıyor. Makineler seni duymakta daha iyi olduğu için değil, ne demek istediğini anlamakta nihayet ustalaştığı için.