Mac के लिए AI वॉइस डिक्टेशन: यह असल में कैसे काम करता है

आप एक खाली ईमेल में कर्सर को टिमटिमाते हुए देखते हैं। आपको पता है कि क्या कहना है। बस टाइप करने का मन नहीं है।

Mac डिक्टेशन 2012 से मौजूद है, और ज़्यादातर लोगों ने इसे सालों पहले छोड़ दिया था। पिछले 18 महीनों में जिसने यह बदला, वह है Mac के लिए AI वॉइस डिक्टेशन। पुराना "माइक्रोफ़ोन में बोलो और टाइपिंग की दीवार जैसी गलतियाँ देखो" वाला अनुभव चुपचाप किसी ऐसी चीज़ से बदल गया है जो वाकई लिखने जैसा महसूस होता है।

यहाँ वह बात है जिसे ज़्यादातर लेख छोड़ देते हैं। मुश्किल हिस्सा अब ट्रांसक्रिप्शन नहीं है, वह हल हो चुका है। जो बदला है वह है उसके ऊपर की परत, वह जो आपके बिखरे हुए विचारों को आपकी स्क्रीन तक पहुँचने से पहले ही साफ़-सुथरे टेक्स्ट में बदल देती है। यह लेख पूरी पाइपलाइन को चरण-दर-चरण समझाता है, ताकि आप देख सकें कि बोलना शुरू करने और साफ़ टेक्स्ट के आपके ड्राफ़्ट में आने के बीच आपका Mac असल में क्या कर रहा है।

Mac पर डिक्टेशन आख़िरकार उपयोग करने लायक क्यों लगता है

दो आँकड़े बताते हैं कि लोग डिक्टेशन की ओर क्यों लौट रहे हैं। एक औसत व्यक्ति प्रति मिनट लगभग 40 शब्द टाइप करता है। एक औसत व्यक्ति प्रति मिनट लगभग 150 शब्द बोलता है। यानी एक शब्द टाइप करने में जितना समय लगता है, उतने में चार शब्द बोले जा सकते हैं।

लेकिन असली समस्या कभी रफ़्तार नहीं थी। समस्या आउटपुट थी। पुराना डिक्टेशन आपको हर "अं", हर बार रुकने, हर "रुको, नहीं, इसे हटाओ" का अक्षरशः ट्रांसक्रिप्ट देता था। आप डिक्टेट करके 30 सेकंड बचाते और उसे साफ़ करने में 90 सेकंड लगा देते।

आधुनिक AI डिक्टेशन ऐप्स ने इसे एक दूसरा चरण जोड़कर ठीक किया। पहले की तरह बोली ट्रांसक्रिप्शन से गुज़रती है। फिर उसे एक भाषा मॉडल को सौंप दिया जाता है जो इसे ऐसे फिर से लिखता है जैसे एक सुघड़ संपादक करता। फ़िलर हटा दिए जाते हैं। व्याकरण ठीक हो जाता है। वाक्य पूरे होते हैं। जब तक टेक्स्ट आपकी स्क्रीन पर आता है, यह ऐसा लगता है जैसे आपने किसी अच्छे दिन में लिखा हो।

Mac पर AI वॉइस डिक्टेशन के पीछे के पाँच चरण

पाइपलाइन छोटी है। पाँच चरण, ज़्यादातर अदृश्य: 1. कैप्चर, जहाँ आपका Mac आपकी आवाज़ उठाता है। 2. ट्रांसक्राइब, जहाँ ऑडियो कच्चा टेक्स्ट बनता है। 3. पॉलिश, जहाँ कच्चे टेक्स्ट को AI मॉडल साफ़ करता है। 4. कॉन्टेक्स्ट लागू करें, जहाँ लेखन शैली इस अनुसार ढलती है कि टेक्स्ट कहाँ जा रहा है। 5. डिलीवर, जहाँ साफ़ टेक्स्ट आपके कर्सर पर आ टिकता है।

हर चरण का अपना मॉडल है, अपने समझौते हैं, और अपनी जगहें जहाँ कुछ ग़लत हो सकता है। एक-एक करके समझना ज़रूरी है।

चरण 1: कैप्चर, आपका Mac आपकी आवाज़ कैसे उठाता है

यह हिस्सा कोई जटिल नहीं है। आप एक हॉटकी दबाते हैं (FN, Option+Space, या जो भी ऐप इस्तेमाल करता है) और माइक्रोफ़ोन सुनना शुरू कर देता है। ऐप ऑडियो को मेमोरी में रिकॉर्ड करता है, आमतौर पर 16-बिट, 16 kHz पर, यानी वह फ़ॉर्मैट जिसकी ट्रांसक्रिप्शन मॉडल अपेक्षा करता है।

ज़्यादातर आधुनिक Mac डिक्टेशन ऐप्स शुरू और रुकने के लिए वॉइस एक्टिविटी डिटेक्शन का इस्तेमाल नहीं करते। वे हॉटकी का इस्तेमाल करते हैं। बोलने के लिए दबाएँ, रुकने के लिए छोड़ें। वजह है भरोसेमंदी। एक कॉफ़ी शॉप के खुले माइक पर वॉइस डिटेक्शन सिक्का उछालने जैसा है। एक कीप्रेस नहीं।

कैप्चर के दौरान कुछ चीज़ें होती हैं जो आपको नहीं दिखतीं। ऑडियो को बफ़र किया जाता है, अक्सर Apple के बिल्ट-इन ऑडियो फ़्रेमवर्क से शोर कम किया जाता है, और टुकड़ों में बाँटा जाता है। अगर आप चंक साइज़ से ज़्यादा देर बोलते हैं, जो आमतौर पर 30 सेकंड है, तो ऐप रिकॉर्डिंग भेजने से पहले उसे बाँट सकता है।

चरण 2: ट्रांसक्रिप्शन, Whisper आवाज़ को शब्दों में कैसे बदलता है

यहीं ज़्यादातर AI Mac डिक्टेशन ऐप्स एक ही तकनीक पर आकर मिलते हैं: OpenAI के Whisper मॉडल पर। Whisper एक स्पीच रिकग्निशन सिस्टम है जिसे 99 भाषाओं में लगभग 5 मिलियन घंटे के ऑडियो पर प्रशिक्षित किया गया है। मौजूदा वर्ज़न, large-v3, साफ़ अंग्रेज़ी ऑडियो पर लगभग 2.7% वर्ड एरर रेट और शोरगुल वाली असली रिकॉर्डिंग पर 8 से 12% का स्तर हासिल करता है।

सीधे शब्दों में: स्वाभाविक रूप से बोलिए और लगभग 92 से 97 प्रतिशत शब्द बिना किसी अतिरिक्त सेटअप के सही ट्रांसक्राइब हो जाएँगे। यह सटीकता की वह श्रेणी है जो Apple के पुराने डिक्टेशन इंजन से बिल्कुल अलग है, और यही वजह है कि थर्ड-पार्टी ऐप्स ने तेज़ी पकड़ी।

Whisper आपके ऑडियो के साथ मोटे तौर पर यह करता है: - रिकॉर्डिंग को 30-सेकंड के टुकड़ों में काटता है। - हर टुकड़े को एक स्पेक्ट्रोग्राम में बदलता है, यानी आवृत्तियों और समय में ध्वनि का दृश्य रूप। - स्पेक्ट्रोग्राम को एक न्यूरल नेटवर्क में भेजता है जिसने ऑडियो पैटर्न को शब्दों से जोड़ना सीखा है। - भाषा, विराम चिह्न, और वाक्यों के ख़त्म होने की जगह का भी अनुमान लगाता है।

मॉडल आपके Mac पर लोकल रूप से चल सकता है (Apple Silicon इसे आराम से संभाल लेता है) या क्लाउड में। लोकल निजी है और ऑफ़लाइन काम करता है। क्लाउड पुराने हार्डवेयर पर तेज़ है और बड़े मॉडल को सपोर्ट करता है। कई ऐप्स आपको चुनने देते हैं।

इस चरण के अंत में आपको जो मिलता है वह एक कच्चा ट्रांसक्रिप्ट है। विराम चिह्नों के साथ, ज़्यादातर सटीक, अक्सर थोड़ा बिखरा हुआ। यहीं Apple का बिल्ट-इन डिक्टेशन रुक जाता है। दिलचस्प ऐप्स नहीं रुकते।

चरण 3: पॉलिशिंग, वह परत जिसने सब कुछ बदल दिया

यही वह चरण है जिसने Mac डिक्टेशन को "थोड़ा-बहुत काम का" से बदलकर "मैंने हफ़्तों से कोई ईमेल टाइप नहीं किया" बना दिया।

ट्रांसक्रिप्शन के बाद, कच्चा टेक्स्ट एक भाषा मॉडल को भेजा जाता है, आमतौर पर GPT-4 श्रेणी का या Claude, इस तरह के निर्देश के साथ: ``` इसे साफ़, पेशेवर टेक्स्ट के रूप में फिर से लिखें। फ़िलर शब्द और अधूरी शुरुआतें हटाएँ। अर्थ बनाए रखें। कुछ भी न जोड़ें। ```

व्यवहार में यह कैसा दिखता है, देखिए।

आपने क्या बोला

*"ठीक है तो उम, मैं पिछले हफ़्ते के, उह, प्रस्ताव पर बात आगे बढ़ाना चाहता था। मुझे लगता है, आप जानते हैं, हमें शायद विकल्प दो के साथ आगे बढ़ना चाहिए? हाँ, विकल्प दो। क्या आप, क्या आप मुझे शुक्रवार तक कॉन्ट्रैक्ट भेज सकते हैं?"*

आपके क्लिपबोर्ड में क्या आता है

*"पिछले हफ़्ते के प्रस्ताव पर बात आगे बढ़ाते हुए, मैं विकल्प दो के साथ आगे बढ़ना चाहूँगा। क्या आप मुझे शुक्रवार तक कॉन्ट्रैक्ट भेज सकते हैं?"*

वही अर्थ। पढ़ने का अलग अनुभव। और यह दो सेकंड से भी कम में हुआ।

पहले और बाद का चित्रण जिसमें बाईं ओर फ़िलर शब्दों के साथ बिखरी हुई कच्ची बोली दाईं ओर साफ़, पॉलिश टेक्स्ट में बदलती दिखाई देती है

यह वह हिस्सा है जिसे आज़माए बिना समझाना मुश्किल है। आप यह सोचना बंद कर देते हैं कि आप कैसे बोल रहे हैं। आप बोलते वक़्त ख़ुद को संपादित करना बंद कर देते हैं। आप बस वह बात कह देते हैं, उसी तरह जैसे आप किसी सहकर्मी से कहते, और जो निकलकर आता है वह वही संस्करण होता है जो आप समय होने पर लिखते।

अगर आप पहले से डिक्टेट कर रहे हैं लेकिन बाद में सफ़ाई में समय गँवा रहे हैं, तो यही वह कमी है जिसे Voicr भरता है। FN दबाए रखें, जैसे चाहें बोलें, और आपके क्लिपबोर्ड में जो आएगा वह पहले से ही पॉलिश होगा। कोई दूसरा दौर नहीं, कोई "मुझे वह एक वाक्य ठीक करना है" नहीं, बस पेस्ट करने के लिए तैयार साफ़ टेक्स्ट।

चरण 4: कॉन्टेक्स्ट जागरूकता, अलग ऐप्स के लिए अलग शैलियाँ

यह चरण नया है। और यही वह है जो बेहतर Mac डिक्टेशन ऐप्स को महज़ ठीक-ठाक ऐप्स से अलग करता है।

क्लाइंट ईमेल के लिए शिष्ट, औपचारिक लहजा सही है। अपने टीम-साथी को भेजे गए Slack संदेश में यह अटपटा लगता है। कोड कमेंट्स में यह ग़लत है। एक अच्छा डिक्टेशन ऐप यह पहचान लेता है कि आप किस ऐप में हैं और उसके अनुसार ढल जाता है।

तरीका सरल है। ऐप पढ़ता है कि किस ऐप्लिकेशन पर फ़ोकस है। आपके उस ऐप के लिए सहेजे गए शैली नियम को देखता है। फिर उस नियम को पॉलिशिंग मॉडल को भेजे जाने वाले प्रॉम्प्ट में जोड़ देता है।

एक Slack नियम यह कह सकता है: ``` इसे आम बोलचाल में और संक्षिप्त रखें। कोई कॉर्पोरेट भाषा नहीं। संक्षिप्तियाँ इस्तेमाल करें। अधिकतम एक या दो छोटे वाक्य। ``` एक ईमेल नियम यह कह सकता है: ``` पेशेवर लहजे में लिखें। पूरे वाक्य। अगर सामग्री ज़रूरी हो तो अभिवादन और हस्ताक्षर जोड़ें। ```

वही वॉइस इनपुट। कौन-सी विंडो खुली है इसके आधार पर दो बिल्कुल अलग आउटपुट। आप कुछ टॉगल नहीं करते। आप बस बोलते हैं, और सही लहजा निकलकर आ जाता है।

चरण 5: डिलीवरी, टेक्स्ट वहाँ कैसे पहुँचता है जहाँ आपको चाहिए

आख़िरी चरण वह है जिसे सही करने में सबसे ज़्यादा समय लगा। आपके पास पॉलिश टेक्स्ट है। अब यह आपके सक्रिय टेक्स्ट फ़ील्ड में कैसे पहुँचे?

दो आम तरीक़े हैं: 1. क्लिपबोर्ड रास्ता। ऐप पॉलिश टेक्स्ट को आपके क्लिपबोर्ड पर कॉपी करता है, फिर macOS Accessibility APIs के ज़रिए पेस्ट कमांड (Cmd+V) ट्रिगर करता है। तेज़, भरोसेमंद, लगभग हर ऐप में काम करता है। 2. कीस्ट्रोक इंजेक्शन। ऐप एक-एक करके हर अक्षर टाइप करने का अनुकरण करता है, AppleScript या उसी Accessibility फ़्रेमवर्क जैसे टूल का इस्तेमाल करते हुए। धीमा, लेकिन यह उन ऐप्स में काम करता है जो पेस्ट को रोकते हैं (कुछ बैंकिंग वेबसाइटें, कुछ रिमोट डेस्कटॉप, पासवर्ड मैनेजर)।

ज़्यादातर ऐप्स डिफ़ॉल्ट रूप से क्लिपबोर्ड पेस्ट का इस्तेमाल करते हैं और सिर्फ़ ज़रूरत पड़ने पर ही कीस्ट्रोक इंजेक्शन पर लौटते हैं। आपके नज़रिए से नतीजा यह है: हॉटकी छोड़ने के लगभग आधे सेकंड बाद टेक्स्ट आपके कर्सर पर आ जाता है। कोई ऐप बदलना नहीं, कोई कॉपी क़दम नहीं, कोई समीक्षा नहीं।

पाँच-चरण पाइपलाइन आरेख जिसमें कैप्चर, ट्रांसक्राइब, पॉलिश, कॉन्टेक्स्ट लागू करें और डिलीवर जुड़े हुए वृत्तों के रूप में दिखाए गए हैं

लोकल बनाम क्लाउड प्रोसेसिंग: असल में क्या हो रहा है

एक सवाल जो अक्सर पूछा जाता है: मेरी आवाज़ कहाँ जाती है?

असल में दो विकल्प हैं। लोकल प्रोसेसिंग Whisper मॉडल को आपके Mac पर चलाती है। आपका ऑडियो डिवाइस से बाहर नहीं जाता। Apple Silicon (M1 से आगे) पर, लोकल Whisper रियल-टाइम डिक्टेशन के लिए काफ़ी तेज़ चलता है, आमतौर पर एक सेकंड से कम की देरी के साथ। समझौता: पॉलिशिंग चरण आमतौर पर अब भी क्लाउड मॉडल पर ही जाता है, क्योंकि 70 बिलियन पैरामीटर वाले भाषा मॉडल को लोकल चलाना ज़्यादातर लैपटॉप के लिए व्यावहारिक नहीं है। कुछ ऐप्स गुणवत्ता में थोड़ी कमी के साथ छोटे पॉलिशिंग मॉडल वाला पूरी तरह लोकल विकल्प देते हैं।

क्लाउड प्रोसेसिंग ऑडियो और पॉलिशिंग दोनों चरणों को एक दूरस्थ API पर भेजती है। पुराने Mac पर तेज़, सबसे बड़े और सबसे सटीक मॉडलों को सपोर्ट करता है। समझौता है निजता। आपकी बोली डिवाइस से बाहर निकलती है, भले ही ट्रांसक्रिप्शन के तुरंत बाद उसे डिलीट कर दिया जाए।

ज़्यादातर लोगों के लिए, "लोकल Whisper, क्लाउड पॉलिशिंग" सही डिफ़ॉल्ट है। संवेदनशील सामग्री (मेडिकल नोट्स, क़ानूनी ड्राफ़्ट, कंपनी का आंतरिक डेटा) के साथ काम करने वालों के लिए, पूरी तरह लोकल विकल्प गुणवत्ता में आने वाली थोड़ी कमी के बावजूद सही है। एक अच्छा ऐप आपको हर रिकॉर्डिंग के लिए चुनने या डिफ़ॉल्ट सेट करने देता है।

AI डिक्टेशन अब भी कहाँ अटकता है

ईमानदार हिस्सा। पाइपलाइन अच्छी है। बिल्कुल सटीक नहीं है।

समरूप-ध्वनि वाले शब्द अब भी ग़लत हो जाते हैं। अंग्रेज़ी में "their" बनाम "there" बनाम "they're" अधिकतर बार सही होते हैं, लेकिन हमेशा नहीं। पॉलिशिंग आमतौर पर संदर्भ से इसे पकड़ लेती है, लेकिन तब नहीं जब आसपास का वाक्य अस्पष्ट हो।

प्रॉपर नाउन और शब्दजाल अनिश्चित हैं। Whisper ने ज़्यादातर आम नाम और तकनीकी शब्द देखे हैं, लेकिन यह किसी भी विशेषीकृत चीज़ को बिगाड़ सकता है। दवाओं के नाम, कोड लाइब्रेरी के नाम, आपके सहकर्मी का असामान्य उपनाम। कुछ ऐप्स आपको कस्टम डिक्शनरी जोड़ने देते हैं जो प्रॉम्प्ट से जोड़ दी जाती है।

शोरगुल वाले माहौल सटीकता को तेज़ी से कम करते हैं। Whisper कैफ़े के शोर को आश्चर्यजनक रूप से अच्छी तरह संभालता है, लेकिन दो फ़ुट दूर बजता फ़ोन या पास में बात करता कोई व्यक्ति आपके ट्रांसक्रिप्ट से शब्द निकाल देगा।

लंबे एकालाप भटक जाते हैं। मॉडल 10 से 30 सेकंड के स्फ़ोटों में बेहतरीन है। लगभग 90 सेकंड के बाद, यह कभी-कभी सिलसिला खो देता है, टुकड़े दोहराता है, या छोटे वाक्यांश छोड़ देता है। हल बस इतना है कि रुकें और रिकॉर्डिंग को टुकड़ों में शुरू करें।

ये सीमाएँ शुरुआत में मायने रखती हैं। अगर आप जानते हैं कि ये मौजूद हैं तो इनमें से कोई भी सौदा तोड़ने वाली नहीं है। अगर आप विकल्पों में से चुन रहे हैं, तो हमारी Mac के लिए सर्वश्रेष्ठ वॉइस-टू-टेक्स्ट ऐप्स की गाइड बताती है कि बड़े ऐप्स इन समझौतों को कैसे संभालते हैं।

अपने Mac पर आज ही AI वॉइस डिक्टेशन का इस्तेमाल कैसे शुरू करें

क्रम में तीन व्यावहारिक क़दम।

1. एक हफ़्ते तक हर दिन डिक्टेट करने के लिए एक काम चुनें। ईमेल अच्छी शुरुआत है, क्योंकि इसमें टाइपिंग-से-बोलने का सबसे ऊँचा रूपांतरण होता है (आप वैसे भी लिखने से पहले सोचते ही हैं)। एक साथ सब कुछ डिक्टेट करने की कोशिश न करें। आप छोड़ देंगे।

2. किसी से नहीं बोलने के अभ्यस्त बनें। पहली कुछ बार जब आप डिक्टेट करेंगे, तो शांत कमरे में ज़ोर से बोलते वक़्त अजीब लगेगा। यह क़रीब चार दिनों में चला जाता है।

3. एक ऐप चुनें और उस पर टिक जाएँ। Apple के बिल्ट-इन डिक्टेशन से लेकर ओपन-सोर्स Whisper टूल्स तक और पूरी-पाइपलाइन ऐप्स तक, हर क़ीमत में अच्छे विकल्प मौजूद हैं। अगर आपको ऊपर बताया गया पॉलिश-ट्रांसक्राइब-और-पेस्ट प्रवाह चाहिए, तो Voicr ठीक यही करता है। FN दबाए रखें, बोलें, पेस्ट करें। ट्रांसक्रिप्शन के लिए Whisper, पॉलिशिंग के लिए एक मज़बूत भाषा मॉडल, और हर ऐप के लिए लेखन शैलियाँ जो आपके कर्सर के स्थान के अनुसार ढलती हैं। मुफ़्त टियर आपको बिना क्रेडिट कार्ड के महीने में 5,000 शब्द देता है।

इस सब के पीछे की पाइपलाइन आख़िरकार इतनी अच्छी हो गई है कि डिक्टेशन अब समझौता नहीं है। आप गुणवत्ता को रफ़्तार से नहीं बदल रहे। आपको दोनों मिल रहे हैं। मुश्किल हिस्सा बस टाइप करना बंद करने का फ़ैसला है।