आप साओ पाउलो के एक सप्लायर के साथ Zoom कॉल पर हैं जो बार-बार पुर्तगाली में बात करने लगते हैं। या आप एक जापानी प्रोडक्ट कीनोट देख रहे हैं और ऑटो-सबटाइटल पीछे रह गए हैं। या आप स्पैनिश में सोचते हैं लेकिन आपका क्लाइंट अंग्रेज़ी में ईमेल चाहता है।
तीन बिल्कुल अलग समस्याएँ। तीनों को "Mac पर रियल-टाइम स्पीच ट्रांसलेशन" के तहत एक साथ रख दिया जाता है, और इसी वजह से इस विषय पर ज़्यादातर गाइड भ्रमित करने वाले हैं। सही टूल इस बात पर निर्भर करता है कि आप असल में किस समस्या को हल करने की कोशिश कर रहे हैं।
Apple ने पिछले फ़ॉल macOS 26 में Live Translation पेश किया। Whisper को एक Turbo मॉडल मिला जो MacBook Air पर बिना उसे गर्म किए चलता है। डिक्टेशन टूल जो कभी शौक़ीनों की उलझन हुआ करते थे, अब वाकई अच्छे हो गए हैं। यह गाइड बताती है कि क्या उपलब्ध है, हर विकल्प कब वास्तव में फ़िट बैठता है, और उन्हें डेमो-वीडियो जाल में फँसे बिना कैसे सेट करें।
"रियल टाइम" का असली मतलब क्या है
टूल चुनने से पहले, वर्कफ़्लो को नाम दीजिए। Mac पर "रियल टाइम" के तीन अलग-अलग रूप हैं, और हर एक को अलग सॉफ़्टवेयर चाहिए:
लाइव कैप्शनिंग — कोई और बोल रहा है और आप चाहते हैं कि जब वे बोलें तब सबटाइटल दिखें, संभवतः अनुवादित। कॉल, मीटिंग, लेक्चर, लाइवस्ट्रीम। लेटेंसी मायने रखती है। 4 सेकंड की देरी झुंझलाहट है; 10 सेकंड की देरी बेकार है।
डिक्टेशन — आप बोल रहे हैं, और आप चाहते हैं कि अंत में किसी दूसरी भाषा में साफ़ टेक्स्ट मिले। ईमेल, Slack मैसेज, डॉक्स। ट्रांसक्रिप्ट और अनुवाद दोनों उसी पल एक साथ हो जाते हैं जब आप बोलना बंद करते हैं। जैसे-जैसे आप बोलते हैं शब्दों को स्ट्रीम करने से ज़्यादा अहम है कि बोलना ख़त्म करने के बाद एक सेकंड के भीतर जवाब मिले।
फ़ाइल ट्रांसक्रिप्शन — आपके पास कोई रिकॉर्डिंग है (Zoom एक्सपोर्ट, वॉइस मेमो, पॉडकास्ट) और आप अनुवादित ट्रांसक्रिप्ट चाहते हैं। यह वास्तव में रियल टाइम नहीं है। जो सबसे सटीक मॉडल आप पा सकें उसमें डाल दीजिए और दो मिनट इंतज़ार कीजिए।
इन्हें आपस में मिला देने से लोग मीटिंग-ट्रांसक्रिप्शन टूल से जल्दी ईमेल लिखने लगते हैं, या डिक्टेशन ऐप से YouTube वीडियो कैप्शन करने की कोशिश करते हैं। पहले सही श्रेणी चुनिए, फिर टूल चुनिए।
macOS के बिल्ट-इन विकल्प
अगर आप Apple Silicon Mac पर macOS 26 चला रहे हैं, तो Apple आपको दो बिल्ट-इन टूल देता है, साथ ही एक अहम कमी भी।
Live Translation (macOS 26)
Live Translation Messages, FaceTime, और Mac के नए Phone ऐप के ज़रिए चलता है। यह Apple Intelligence से चलता है और ऑन-डिवाइस काम करता है, यानी कुछ भी आपकी मशीन से बाहर नहीं जाता। FaceTime कॉल पर आप मेन्यू बटन पर क्लिक करते हैं, Live Captions चुनते हैं, और अनुवादित ट्रांसक्रिप्ट स्क्रीन के ऊपर के पास दिखने लगता है।
अड़चन है भाषा की सूची। FaceTime और Phone में Live Translation के लिए, Apple अंग्रेज़ी, फ़्रेंच, जर्मन, पुर्तगाली (ब्राज़ील), और स्पैनिश (स्पेन) को सपोर्ट करता है, जबकि मैंडरिन, इतालवी, जापानी, और कोरियाई जल्द ही आ रहे हैं। Messages में डेनिश, डच, नॉर्वेजियन, स्वीडिश, तुर्की, और वियतनामी सहित ज़्यादा भाषाएँ कवर होती हैं।
यह मुफ़्त है, प्राइवेट है, और लेटेंसी अच्छी है। यह सिर्फ़ Apple के अपने ऐप्स के अंदर ही काम करता है। Zoom, Google Meet, Slack हडल, YouTube — इनमें से कोई भी Live Translation से नहीं गुज़रता।
Live Captions
System Settings → Accessibility → Live Captions में जाकर Live Captions ऑन कीजिए और आपको एक फ्लोटिंग विंडो मिलेगी जो आपके Mac द्वारा पकड़ी गई किसी भी ऑडियो को ट्रांसक्राइब करती है — सिस्टम ऑडियो, माइक्रोफ़ोन, या दोनों। यह किसी भी ऐप में काम करता है: Zoom, YouTube, पॉडकास्ट, या आपके बग़ल में बैठा सहकर्मी।
Live Captions ट्रांसक्राइब तो करता है पर अनुवाद नहीं। यह फ़िलहाल सिर्फ़ अंग्रेज़ी में है। अगर आपकी मीटिंग अंग्रेज़ी में है और आपको बस साथ चलने के लिए टेक्स्ट चाहिए, तो यही जवाब है। अगर मीटिंग पुर्तगाली में है, तो Live Captions काम नहीं आएगा।

कॉल और वीडियो के लिए लाइव कैप्शन और अनुवाद
जब Apple के बिल्ट-इन टूल आपकी कॉल को कवर नहीं करते, तो कुछ थर्ड-पार्टी ऐप यह कमी पूरी करते हैं। वे सिस्टम ऑडियो (जो भी आपके Mac के स्पीकर से चल रहा है) या आपके माइक्रोफ़ोन से ऑडियो लेते हैं, उसे एक लोकल Whisper मॉडल से ट्रांसक्राइब करते हैं, और चाहें तो अनुवाद भी करते हैं। नीचे दिए तीनों ऑन-डिवाइस चलते हैं, जो किसी गोपनीय कॉल में हो तो ज़रूरी है।
MacWhisper — इस क्षेत्र के सबसे पुराने Mac ऐप्स में से एक। अनुवाद के साथ लाइव कैप्शनिंग, Whisper और Nvidia Parakeet पर चलता है, और किसी भी मीटिंग टूल के लिए सिस्टम ऑडियो कैप्चर सपोर्ट करता है। Zoom, Meet, Teams के लिए मज़बूत। Pro वर्ज़न एकमुश्त खरीद है।
Superwhisper — लाइव ट्रांसक्रिप्शन को Whisper-आधारित डिक्टेशन फ़्लो के साथ जोड़ता है। 100+ भाषाओं को सपोर्ट करता है और किसी भी को अंग्रेज़ी में अनुवाद कर सकता है। यह कैप्शनिंग टूल और डिक्टेशन टूल दोनों बनने की कोशिश करता है, जो अच्छा है अगर आप दोनों के लिए एक ही ऐप चाहते हैं पर इसका मतलब है कि डिक्टेशन वाला हिस्सा एक समर्पित टूल से भारी है।
Transcrybe — नया, हल्का, ख़ासकर रियल-टाइम अनुवाद पर केंद्रित। सिर्फ़ ऑन-डिवाइस। इंटरफ़ेस इसी सोच पर बना है कि "कोई ऐसी भाषा बोल रहा है जो मैं नहीं जानता — मुझे दिखाओ वे क्या कह रहे हैं।" यात्रा, सपोर्ट कॉल, या किसी विदेशी भाषा का कंटेंट देखने के लिए अच्छा है।
अपनी ज़रूरत के हिसाब से चुनिए कि आप कितनी बार इस स्थिति में होते हैं। अगर आप अंतर्राष्ट्रीय कॉल में ही रहते हैं, तो MacWhisper या Superwhisper आपके मेन्यू बार में जगह बना लेंगे। अगर सिर्फ़ कभी-कभी ज़रूरत होती है, तो FaceTime के अंदर Apple का Live Translation काफ़ी हो सकता है।
एक भाषा में डिक्टेट करना, दूसरी में लिखना
"रियल-टाइम अनुवाद" की सबसे आम ज़रूरत का दूसरों के बोलने से कोई लेना-देना नहीं। बात *आपकी* है, अपनी मातृभाषा में सोचते हुए लेकिन पेज पर अंग्रेज़ी चाहिए क्योंकि काम वही माँगता है।
अगर आप स्पैनिश, फ़्रेंच, या पोलिश हैं और काम पर ख़ूब अंग्रेज़ी लिखते हैं, तो आप इस कीमत को जानते हैं। आप वाक्य अपने सिर में अपनी भाषा में बनाते हैं, मन ही मन अनुवाद करते हैं, फिर अनुवाद टाइप करते हैं। हर ईमेल दो ड्राफ्ट होती है: एक जो आपने अपने सिर में लिखी, और एक जो आपकी उँगलियों ने टाइप की।
यहाँ सही टूल का रूप लाइव कैप्शनिंग से अलग है। आपको स्ट्रीमिंग सबटाइटल नहीं चाहिए। आपको चाहिए: एक की दबाइए, अपनी भाषा में स्वाभाविक रूप से बोलिए, छोड़िए, और मनचाही भाषा में पॉलिश किया हुआ टेक्स्ट सीधे आपके क्लिपबोर्ड पर आ जाए, कहीं भी पेस्ट करने को तैयार (Gmail, Slack, Notion, Jira टिकट)।
यही वह कमी है जिसे Voicr पूरा करता है। FN दबाइए, 100 में से किसी भी भाषा में बोलिए, टारगेट के तौर पर अंग्रेज़ी सेट कीजिए, और जो पेस्ट होगा वो साफ़ अंग्रेज़ी होगी — न कि किसी अलग ट्रांसलेटर से गुज़ारी गई आपकी कच्ची ट्रांसक्रिप्ट। ट्रांसक्रिप्शन और अनुवाद एक ही चरण में होते हैं, स्पीच → ट्रांसक्रिप्ट → कॉपी → ट्रांसलेटर → पेस्ट की जगह। पूरी प्रक्रिया लगभग उतनी ही देर लेती है जितनी देर आप बोलते हैं।
एक ऑटो-डिटेक्ट मोड भी है जो ऑडियो से ही बोली गई भाषा पहचान लेता है, इसलिए अगर आप, मसलन, निजी Slack के लिए स्पैनिश और क्लाइंट ईमेल के लिए अंग्रेज़ी के बीच बदलते रहते हैं, तो आपको कोई पिकर नहीं खोलना पड़ता। छोटी सी बात, फ़ीचर लिस्ट में आसानी से छूट जाने वाली। पूरी जानकारी Voice-to-Text in 100 Languages on Mac में है।
पहले से रिकॉर्ड किए ऑडियो का ट्रांसक्रिप्शन
अगर आपके पास एक फ़ाइल है (Zoom रिकॉर्डिंग, वॉइस मेमो, इंटरव्यू, पॉडकास्ट), तो "रियल टाइम" सही ढाँचा नहीं है। फ़ाइल को किसी ऐसे Whisper-आधारित टूल को दीजिए जो पूरी क्वालिटी पर चलता है और दो मिनट लगने दीजिए। यहाँ सटीकता मायने रखती है।
MacWhisper और Whisper Transcription दोनों यह काम अच्छे से करते हैं। अगर आप स्क्रिप्ट से कंफ़र्टेबल हैं तो सीधे OpenAI API भी। अनुवाद के मामले में ध्यान दीजिए कि Whisper का बिल्ट-इन अनुवाद सिर्फ़ एक दिशा में जाता है: कोई भी भाषा → अंग्रेज़ी। अगर आपको दूसरी दिशा चाहिए (मसलन, अंग्रेज़ी → जापानी), तो ट्रांसक्रिप्ट को बाद में किसी अलग ट्रांसलेशन मॉडल से गुज़ारिए, जैसे Claude, GPT, या DeepL।
अगर आपका इनपुट हमेशा लाइव होता है तो यह सेक्शन छोड़ दीजिए। पर अगर आप इंटरव्यू रिकॉर्ड करते हैं या पुरानी मीटिंग के ट्रांसक्रिप्ट निकालते हैं, तो ऑफ़लाइन वर्कफ़्लो स्ट्रीमिंग से सस्ता, ज़्यादा सटीक, और सुधारने में आसान रहता है।
अपने वर्कफ़्लो के लिए सही सेटअप चुनना
एक छोटी डिसीज़न ट्री:
1. मुझे FaceTime या Messages बातचीत के दौरान सबटाइटल चाहिए → Apple Live Translation। मुफ़्त, बिल्ट-इन, ऑन-डिवाइस। 2. मुझे Zoom/Meet/Teams कॉल के दौरान ऐसी भाषा में सबटाइटल चाहिए जो मैं नहीं जानता → MacWhisper, Superwhisper, या Transcrybe। एक चुनिए। 3. मैं अपनी मातृभाषा में डिक्टेट करना चाहता हूँ और कहीं भी पेस्ट करने के लिए अंग्रेज़ी टेक्स्ट चाहिए → Voicr जैसा वन-की डिक्टेशन टूल। दोभाषी पेशेवरों के लिए यह रोज़मर्रा का टूल है। 4. मुझे किसी और भाषा की रिकॉर्डेड फ़ाइल को ट्रांसक्राइब करना है और अंग्रेज़ी चाहिए → MacWhisper या कोई भी Whisper-आधारित डेस्कटॉप ऐप। ऑफ़लाइन, फ़ुल-क्वालिटी मॉडल, दो मिनट का इंतज़ार।
ज़्यादातर लोग आख़िर में दो टूल रखते हैं, एक नहीं: कभी-कभी ज़रूरत पड़ने पर लाइव कैप्शन के लिए कुछ, और रोज़ाना डिक्टेशन के लिए कुछ और। यह बँटवारा सामान्य है। एक कैप्शनिंग टूल और एक डिक्टेशन टूल अलग-अलग चीज़ों के लिए ऑप्टिमाइज़ होते हैं, और एक से ही दोनों कराने की कोशिश में आम तौर पर दोनों बिगड़ जाते हैं।
वास्तविक उम्मीदें रखना
कुछ बातें जो हर डेमो वीडियो छिपा जाता है, और जिन्हें कमिट करने से पहले जानना ज़रूरी है:
लेटेंसी असली है। ऑन-डिवाइस Whisper में भी लाइव कैप्शन के लिए 1–3 सेकंड की देरी होती है। क्लाउड-आधारित टूल और 1–2 सेकंड जोड़ देते हैं। उसके हिसाब से तैयारी कीजिए। तेज़ राजनीतिक बहस को फ़ॉलो करने के लिए लाइव कैप्शनिंग का इस्तेमाल मत कीजिए, आप पीछे रह जाएँगे।
अनुवाद की गुणवत्ता टॉप ~10 भाषाओं के बाहर गिरती है। Whisper ख़ुद अंग्रेज़ी, स्पैनिश, फ़्रेंच, जर्मन, पुर्तगाली, इतालवी, मैंडरिन, जापानी के लिए बेहतरीन है। यह थाई, कैंटोनीज़, वियतनामी, और ज़्यादातर अफ़्रीकी भाषाओं पर साफ़ तौर पर कमज़ोर हो जाता है। अगर आपकी भाषा लंबी पूँछ पर है, तो उस पर निर्भर होने से पहले परख लीजिए।
सिस्टम ऑडियो कैप्चर के लिए अनुमति चाहिए। macOS किसी ऐप को डिफ़ॉल्ट रूप से सिस्टम ऑडियो सुनने नहीं देता। लाइव-कैप्शनिंग कैटेगरी का हर टूल पहली बार Screen Recording या ऑडियो-लूपबैक की अनुमति देने में आपकी मदद करेगा। यह सामान्य है। यही वजह है कि कुछ ऐप्स के लिए एक बार वर्चुअल ऑडियो डिवाइस इंस्टॉल करना पड़ता है।
प्राइवेसी अलग-अलग है। Apple के टूल और ज़्यादातर Whisper-आधारित ऐप्स पूरी तरह ऑन-डिवाइस चलते हैं। जो कुछ भी ऑडियो को क्लाउड API पर भेजता है (कुछ "AI मीटिंग असिस्टेंट" टूल) एक अलग समझौता कर रहा है। अगर आप क़ानूनी, हेल्थकेयर, या किसी रेगुलेटेड क्षेत्र में हैं, तो किसी क्लाइंट कॉल में टूल ऑन करने से पहले जाँच लीजिए।

व्यावहारिक शुरुआत
अंतिम लक्ष्य कुछ भी हो, शुरू करने की सबसे आसान जगह यह है कि वही एक यूज़ केस चुनिए जो आपको इस हफ़्ते सबसे ज़्यादा झेलना पड़ता है। दुर्लभ वाला नहीं। रोज़ वाला।
अगर आप ख़ूब अंतर्राष्ट्रीय मीटिंग में रहते हैं, तो एक लाइव-कैप्शनिंग टूल इंस्टॉल कीजिए, उसे मेन्यू बार में रहने दीजिए, और कोई फ़ैसला करने से पहले दो हफ़्ते उसे इस्तेमाल कीजिए। अगर आप किसी और भाषा में सोचते हुए ख़ूब अंग्रेज़ी लिखते हैं, तो अगले दस ईमेल जो आप टाइप करते, उन्हें अपनी मातृभाषा में डिक्टेशन से बदलकर देखिए और टूल को अंग्रेज़ी निकालने दीजिए।
Voicr ख़ासकर डिक्टेशन वाले मामले को सँभालता है। FN दबाइए, अपनी भाषा में बोलिए, टारगेट के तौर पर अंग्रेज़ी सेट कीजिए, कहीं भी पेस्ट कीजिए। एक मुफ़्त टियर है (हर महीने 5,000 शब्द, कोई क्रेडिट कार्ड नहीं) जो यह देखने के लिए काफ़ी है कि यह वर्कफ़्लो वाक़ई आपके लिखने के तरीक़े में फ़िट बैठता है या नहीं। लाइव-कैप्शनिंग वाले मामले के लिए, MacWhisper का एक मुफ़्त वर्ज़न है जिसमें बेसिक Whisper मॉडल आता है — पैसा देने से पहले एक्सपीरियंस परखने के लिए काफ़ी है।
टेक्नोलॉजी कब की अड़चन नहीं रही। अब दिलचस्प सवाल यह है कि आप वाकई कौन सा वर्कफ़्लो सेट करते हैं और इस्तेमाल करते हैं, और यह उस ख़ास झंझट के लिए सही टूल चुनने पर निर्भर करता है जो आपको बार-बार सताता है। डिक्टेशन वाले पक्ष पर और जानने के लिए, How Voice Dictation on Mac Actually Works समझाता है कि आपकी आवाज़ और क्लिपबोर्ड पर पॉलिश किए टेक्स्ट के बीच क्या होता है।

