Boş bir e-postada yanıp sönen imleci izliyorsunuz. Ne söylemek istediğinizi biliyorsunuz. Sadece yazmak istemiyorsunuz.
Mac dikte özelliği 2012'den beri var ve çoğu insan yıllar önce bundan vazgeçti. Mac için yapay zeka destekli sesli dikte, bunu son 18 ayda değiştirdi. "Mikrofona konuş ve bir sürü yazım hatasının ekrana dökülmesini izle" deneyiminin yerini, sessizce gerçekten yazıyormuş hissi veren bir şey aldı.
Çoğu makalenin atladığı kısım şu: Artık zor olan kısım transkripsiyon değil, o iş çoktan çözüldü. Asıl değişen, üstteki katman; dağınık düşüncelerinizi alıp ekranınıza ulaşmadan önce temiz bir metne çeviren katman. Bu yazı, konuşmaya başladığınız an ile cilalı metnin taslağınıza düştüğü an arasında Mac'inizin gerçekte ne yaptığını adım adım anlatıyor.
Mac'te dikte neden sonunda kullanılabilir hissettiriyor
İki sayı, insanların neden dikteye geri döndüğünü açıklıyor. Ortalama bir kişi dakikada yaklaşık 40 kelime yazıyor. Ortalama bir kişi dakikada yaklaşık 150 kelime konuşuyor. Yani bir kelime yazdığınız sürede yaklaşık dört kelime söyleyebiliyorsunuz.
Ama sorun hiçbir zaman gerçekten hız değildi. Sorun çıktının kendisiydi. Eski dikte size her "ııı"ın, her baştan başlamanın, her "dur, hayır, onu sil"in birebir transkriptini veriyordu. Dikte ederek 30 saniye kazanıyor, temizlemek için 90 saniye harcıyordunuz.
Modern yapay zeka dikte uygulamaları bunu ikinci bir adım ekleyerek çözdü. Konuşma önce eskisi gibi transkripsiyondan geçiyor. Ardından, titiz bir editörün yapacağı gibi metni yeniden yazan bir dil modeline veriliyor. Dolgu kelimeler atılıyor. Dilbilgisi düzeltiliyor. Cümleler tamamlanıyor. Metin ekranınıza geldiğinde, iyi bir gününüzde yazmış gibi okunuyor.
Mac'te yapay zeka destekli sesli diktenin arkasındaki beş adım
Süreç kısa. Beş adım, çoğu görünmez: 1. Yakalama: Mac'iniz sesinizi alır. 2. Transkripsiyon: Ses, ham metne dönüşür. 3. Cilalama: Ham metin bir yapay zeka modeli tarafından temizlenir. 4. Bağlama uyarlama: Yazım tarzı, metnin gideceği yere göre ayarlanır. 5. Teslim: Cilalı metin imlecinizin olduğu yere düşer.
Her adımın kendi modeli, kendi ödünleri ve hata yapabileceği kendi noktaları var. Tek tek anlamaya değer.
1. Adım: Yakalama, Mac'iniz sesinizi nasıl alır
Bu kısım gösterişli değil. Bir kısayol tuşuna basıyorsunuz (FN, Option+Space veya uygulamanın kullandığı her ne ise) ve mikrofon dinlemeye başlıyor. Uygulama sesi belleğe kaydediyor, genellikle 16-bit, 16 kHz formatında; bu transkripsiyon modelinin beklediği format.
Çoğu modern Mac dikte uygulaması başlatma ve durdurma için ses etkinliği algılaması kullanmıyor. Kısayol tuşunu kullanıyor. Konuşmak için basılı tut, durdurmak için bırak. Sebep güvenilirlik. Bir kafenin açık mikrofonunda ses algılama yazı tura atmak gibi. Tuşa basmak değil.
Yakalama sırasında göremediğiniz birkaç şey oluyor. Ses tamponlanıyor, çoğunlukla Apple'ın yerleşik ses çerçevesi kullanılarak gürültü bastırılıyor ve parçalara ayrılıyor. Parça boyutundan daha uzun, genellikle 30 saniyeden fazla konuşursanız, uygulama kaydı göndermeden önce bölebilir.
2. Adım: Transkripsiyon, Whisper sesi nasıl kelimelere çevirir
Çoğu Mac yapay zeka dikte uygulamasının buluştuğu tek bir teknoloji parçası var: OpenAI'nin Whisper modeli. Whisper, 99 dilde yaklaşık 5 milyon saatlik ses üzerinde eğitilmiş bir konuşma tanıma sistemi. Mevcut sürüm olan large-v3, temiz İngilizce seste yaklaşık yüzde 2,7'lik kelime hata oranına, gürültülü gerçek dünya kayıtlarında ise yüzde 8 ila 12'lik orana ulaşıyor.
Sade bir dille: doğal konuşun, kelimelerin yaklaşık yüzde 92 ila 97'si kutudan çıkar çıkmaz doğru transkripsiyon edilecek. Bu, Apple'ın orijinal dikte motorunun yapabildiğinden tamamen farklı bir doğruluk kategorisi ve üçüncü parti uygulamaların bu yüzden hızla yayılmasının nedeni de bu.
Whisper'ın sesinize kabaca yaptığı şey şu: - Kaydı 30 saniyelik parçalara ayırır. - Her parçayı, sesin frekanslar ve zaman boyunca görsel temsili olan bir spektrograma dönüştürür. - Spektrogramı, ses örüntülerini kelimelerle eşleştirmeyi öğrenmiş bir sinir ağına verir. - Ayrıca dili, noktalama işaretlerini ve cümlelerin nerede bittiğini tahmin eder.
Model, Mac'inizde yerel olarak (Apple Silicon bunu rahatça kaldırır) veya bulutta çalışabilir. Yerel kullanım gizli ve çevrimdışı çalışır. Bulut, eski donanımda daha hızlıdır ve daha büyük modelleri destekler. Pek çok uygulama seçimi size bırakır.
Bu adımın sonunda elinize geçen şey ham bir transkript. Noktalanmış, çoğunlukla doğru, çoğu zaman biraz dağınık. Apple'ın yerleşik diktesi tam burada duruyor. İlginç uygulamalar durmuyor.
3. Adım: Cilalama, her şeyi değiştiren katman
Mac dikteyi "şöyle böyle işe yarıyor"dan "haftalardır e-posta yazmadım"a çeviren adım bu.
Transkripsiyondan sonra ham metin, genellikle GPT-4 sınıfı veya Claude gibi bir dil modeline şuna benzer bir talimatla gönderiliyor: ``` Bu metni cilalı, profesyonel bir metin olarak yeniden yaz. Dolgu kelimeleri ve baştan başlamaları çıkar. Anlamı koru. Hiçbir şey ekleme. ```
Pratikte bunun nasıl göründüğüne bakın.
Söylediğiniz
*"Tamam, şey, geçen haftaki teklif konusunda, yani, takip etmek istiyordum. Bence, yani, muhtemelen ikinci seçenekle ilerlemeliyiz? Evet, ikinci seçenek. Sözleşmeyi cumaya kadar bana, bana gönderebilir misin?"*
Panonuza düşen
*"Geçen haftaki teklifi takip etmek istiyorum, ikinci seçenekle ilerleyelim. Sözleşmeyi cumaya kadar bana gönderebilir misiniz?"*
Aynı anlam. Çok farklı bir okuma deneyimi. Üstelik iki saniyenin altında oldu.

Bu, denemeden anlatması zor olan kısım. Nasıl ses çıkardığınızı düşünmeyi bırakıyorsunuz. Konuşurken kendinizi düzenlemeyi bırakıyorsunuz. Sadece söylüyorsunuz, bir meslektaşınıza söyleyeceğiniz şekilde, ve karşınıza çıkan şey, zamanınız olsaydı yazacağınız versiyon oluyor.
Halihazırda dikte ediyor ama sonradan temizlikle vakit kaybediyorsanız, Voicr tam bu boşluğu dolduruyor. FN'i basılı tutun, istediğiniz gibi konuşun ve panonuza düşen şey zaten cilalı olsun. İkinci bir geçişe gerek yok, "şu cümleyi düzeltmem lazım" yok, sadece yapıştırmaya hazır temiz bir metin.
4. Adım: Bağlam farkındalığı, farklı uygulamalar için farklı tarzlar
Bu adım daha yeni. Aynı zamanda iyi Mac dikte uygulamalarını sıradan yetkin olanlardan ayıran adım.
Bir müşteri e-postası için kibar, resmi bir ton uygundur. Bir ekip arkadaşınıza yazdığınız Slack mesajında tuhaf kaçar. Kod yorumlarında ise hiç yeri yoktur. İyi bir dikte uygulaması hangi uygulamada olduğunuzu anlar ve buna göre ayarlama yapar.
Mekanizma basit. Uygulama, odakta olan uygulamayı okur. O uygulama için kaydedilmiş tarz kuralınıza bakar. Sonra bu kuralı, cilalama modeline giden istemin içine yedirir.
Bir Slack kuralı şöyle olabilir: ``` Günlük ve kısa tut. Kurumsal ifadeler kullanma. Kısaltmalar kullan. En fazla bir iki kısa cümle. ``` Bir e-posta kuralı ise şöyle olabilir: ``` Profesyonel bir tonda yaz. Tam cümleler kullan. İçerik gerektiriyorsa selamlama ve imza ekle. ```
Aynı ses girdisi. Hangi pencerenin açık olduğuna göre çok farklı iki çıktı. Hiçbir şeyi açıp kapatmıyorsunuz. Sadece konuşuyorsunuz ve doğru ton çıkıveriyor.
5. Adım: Teslim, metin gerekli yere nasıl ulaşır
Son adım, doğru çalıştırması en uzun süren adım. Cilalı bir metniniz var. Peki bu, aktif metin alanınıza nasıl ulaşıyor?
İki yaygın yaklaşım var: 1. Pano yolu. Uygulama cilalı metni panonuza kopyalar, ardından macOS Erişilebilirlik API'leri aracılığıyla yapıştırma komutunu (Cmd+V) tetikler. Hızlı, güvenilir, neredeyse her uygulamada çalışır. 2. Tuş vuruşu enjeksiyonu. Uygulama, AppleScript veya aynı Erişilebilirlik çerçevesi gibi bir araç kullanarak her karakteri tek tek yazıyormuş gibi simüle eder. Daha yavaş, ama yapıştırmayı engelleyen uygulamalarda (bazı bankacılık siteleri, belirli uzak masaüstleri, parola yöneticileri) işe yarar.
Çoğu uygulama varsayılan olarak pano yapıştırmasını kullanır ve yalnızca gerektiğinde tuş vuruşu enjeksiyonuna düşer. Sizin açınızdan sonuç şu: kısayol tuşunu bıraktıktan yaklaşık yarım saniye sonra metin imlecinizin olduğu yerde beliriyor. Uygulama değiştirmek yok, kopyalama adımı yok, kontrol yok.

Yerel ve bulut işleme: gerçekte ne oluyor
Sık sorulan bir soru: sesim nereye gidiyor?
İki gerçek seçenek var. Yerel işleme Whisper modelini Mac'inizde çalıştırır. Sesiniz cihazdan asla çıkmaz. Apple Silicon'da (M1 ve sonrası) yerel Whisper, gerçek zamanlı dikte için yeterince hızlı çalışır, genellikle bir saniyenin altında gecikmeyle. Ödün şu: cilalama adımı genellikle hâlâ bir bulut modeline gidiyor, çünkü 70 milyar parametreli bir dil modelini yerel olarak çalıştırmak çoğu dizüstü için gerçekçi değil. Bazı uygulamalar daha küçük bir cilalama modeliyle, kalite kaybı pahasına tamamen yerel çalışma seçeneği sunuyor.
Bulut işleme hem sesi hem de cilalama adımını uzak bir API'ye gönderir. Eski Mac'lerde daha hızlı, en büyük ve en doğru modelleri destekler. Ödünü gizlilik. Transkripsiyondan hemen sonra silinse bile konuşmanız cihazınızdan çıkıyor.
Çoğu insan için doğru varsayılan "yerel Whisper, bulut cilalama". Hassas içeriklerle (tıbbi notlar, hukuki taslaklar, şirket içi veriler) çalışan herkes için ise tamamen yerel kullanım, küçük kalite kaybına değer. İyi bir uygulama, her kayıt için seçmenize veya bir varsayılan belirlemenize izin verir.
Yapay zeka diktesinin hâlâ takıldığı yerler
Dürüst bir bölüm. Süreç iyi. Mükemmel değil.
Sesteş kelimeler hâlâ yanlış çıkıyor. İngilizcedeki "their" - "there" - "they're" karmaşası çoğu zaman doğru çözümleniyor ama her zaman değil. Cilalama bunu genellikle bağlamdan yakalıyor, ama çevredeki cümle belirsizse yakalayamıyor.
Özel isimler ve jargon kararsız. Whisper en yaygın isimleri ve teknik terimleri görmüş, ama uzmanlık gerektiren her şeyi bozar. İlaç adları, kod kitaplığı adları, meslektaşınızın sıra dışı soyadı. Bazı uygulamalar, isteme eklenen özel bir sözlük oluşturmanıza izin verir.
Gürültülü ortamlar doğruluğu hızla düşürür. Whisper kafe gürültüsünü şaşırtıcı derecede iyi idare eder, ama iki adım ötede çalan bir telefon ya da yakınınızda konuşan biri kelimeleri transkriptinizden çekip alır.
Uzun monologlar dağılır. Model 10 ila 30 saniyelik kısa parçalarda mükemmeldir. Yaklaşık 90 saniyeyi geçince zaman zaman ipin ucunu kaçırır, parçaları tekrar eder veya kısa ifadeleri atlar. Çözüm, kaydı parçalar halinde durdurup başlatmak.
Bu sınırlar başlangıçta önemli. Varlıklarını bilirseniz hiçbiri vazgeçirici değil. Seçenekler arasında karar veriyorsanız, Mac için en iyi sesli yazım uygulamaları rehberimiz büyük uygulamaların bu ödünleri nasıl ele aldığını anlatıyor.
Mac'inizde yapay zeka destekli sesli diktyi bugün nasıl kullanmaya başlarsınız
Sırasıyla üç pratik adım.
1. Bir hafta boyunca her gün dikte edeceğiniz bir görev seçin. E-posta iyi bir başlangıçtır, en yüksek yazma-konuşma dönüşümüne sahiptir (zaten yazmadan önce düşünüyorsunuzdur). Hepsini birden dikte etmeye çalışmayın. Bırakırsınız.
2. Kimseyle konuşmadan konuşmaya alışın. İlk birkaç sefer dikte ettiğinizde, sessiz bir odada yüksek sesle konuşmak tuhaf gelecek. Bu duygu yaklaşık dört günde geçer.
3. Bir uygulama seçin ve ona bağlı kalın. Apple'ın yerleşik diktesinden açık kaynak Whisper araçlarına ve uçtan uca uygulamalara kadar her fiyat aralığında iyi seçenekler var. Yukarıda anlatılan transkripsiyon-ve-yapıştırma akışını istiyorsanız, Voicr tam olarak bunu yapıyor. FN'i basılı tut, konuş, yapıştır. Transkripsiyon için Whisper, cilalama için güçlü bir dil modeli ve imlecinizin nerede olduğuna uyum sağlayan uygulama bazında yazım tarzları. Ücretsiz katman, kredi kartı gerektirmeden ayda 5.000 kelime sunuyor.
Tüm bunların arkasındaki süreç sonunda yeterince iyi durumda, böylece dikte artık bir taviz değil. Hızı kaliteden takas etmiyorsunuz. İkisini birden alıyorsunuz. Zor olan kısım, yazmayı bırakmaya karar vermek.

