ब्लॉग पर वापस जाएं

Voicr Team · 23 मई 2026

मैंने Mac पर वॉइस डिक्टेशन से 3 गुना तेज़ लिखना कैसे शुरू किया

मैंने एक महीने तक टाइपिंग की जगह बोलकर काम किया। यह रही ईमानदार रिपोर्ट — क्या काम आया, क्या नहीं, और 3x के पीछे का गणित।

मैंने Mac पर वॉइस डिक्टेशन से 3 गुना तेज़ लिखना कैसे शुरू किया

मैं Slack पर एक जवाब लिख ही रहा था कि अचानक एहसास हुआ। मैं वही वाक्य पिछले बारह सेकंड से सोच रहा था जबकि मेरी उंगलियाँ अभी पहले चार शब्द ही टाइप कर पाई थीं। मेरा दिमाग खाली बैठा था, हाथों के पकड़ने का इंतज़ार कर रहा था।

उसी पल मैंने वॉइस डिक्टेशन को सही मायने में मौका देने का फैसला किया। वो वाला अधूरा "चलो एक मीटिंग नोट के लिए ट्राई कर लेते हैं" वाला तरीका नहीं, जिसे मैं पहले दो बार छोड़ चुका था। पूरा एक महीना, हर लंबा मैसेज, हर ईमेल, हर डॉक्यूमेंट। यह रही पूरी कहानी।

जब तक आप संख्याएँ नहीं देखते, यह बात हाइप जैसी लगती है। औसत व्यक्ति लगभग 40 शब्द प्रति मिनट टाइप करता है। वही व्यक्ति 130 से 150 शब्द प्रति मिनट बोलता है। Stanford के शोधकर्ताओं ने 2017 में यह तुलना की थी और पाया कि फ़ोन पर वॉइस इनपुट टाइपिंग से लगभग 3 गुना तेज़ है, उन लोगों के लिए भी जो तेज़ टाइप करते हैं। यही अनुपात Mac के कीबोर्ड पर भी काफ़ी हद तक लागू होता है।

गणित कड़वा है: 40 WPM बनाम 150 WPM

इस हिस्से को जल्दी निपटा लेते हैं। ज़्यादातर वयस्क बिना ट्रेनिंग के 38 से 40 WPM की रफ़्तार से टाइप करते हैं। ट्रेंड टाइपिस्ट, जो कीबोर्ड देखे बिना टाइप करते हैं, अधिकतम 65 तक पहुँचते हैं। बोली जाने वाली अंग्रेज़ी 130 से 150 WPM होती है। तेज़ टाइपिस्ट के मुक़ाबले भी यह 2x से ज़्यादा है। औसत व्यक्ति के मुक़ाबले यह करीब 3.75 गुना है।

यह तो सिद्धांत है। प्रैक्टिकल कहानी ज़्यादा दिलचस्प है। पहली बार जब आप वाकई स्टॉपवॉच लगाकर ईमेल को टाइप करने बनाम बोलने का समय मापते हैं, तो फ़र्क़ इतना बड़ा नहीं दिखता जितना गणित कहता है। क्यों? क्योंकि टाइप करना एक ही काम है। डिक्टेट करना यानी बोलो, फिर प्रूफ़रीड करो, फिर शायद एक वाक्य दोबारा बोलो, फिर पेस्ट करो। यह सफ़ाई का बोझ आपकी बचत खा जाता है।

इसका हल टूल में है। पुराने डिक्टेशन टूल आपको कच्चा ट्रांसक्रिप्ट देते हैं — हर "उम," हर "उह," हर "मतलब मैं ये कहना चाहता हूँ कि" के साथ। नए टूल इसे एक ही स्टेप में साफ़ टेक्स्ट में बदल देते हैं। जब सफ़ाई अपने आप होती है, तब 3x सच में मिलता है।

असली दिन में "3x तेज़" वाकई कैसा दिखता है

स्विच करने से पहले का मेरा आम मंगलवार ऐसा होता था। छह लंबे Slack मैसेज (हर एक ~80 शब्द), चार ईमेल (हर एक ~120 शब्द), दो छोटे डॉक्स (हर एक ~400 शब्द), और कुछ एक लाइन के जवाब। कुल आउटपुट: करीब 1,800 शब्द। सोचने का समय छोड़ दें, तो कीबोर्ड पर लगभग 45 मिनट।

स्विच के बाद उतना ही काम। बोलकर लिखा, सफ़ाई समेत, कुल 14 मिनट में पूरा हुआ। लगभग ठीक 3x। हैरानी बचाए हुए समय की नहीं थी। हैरानी इस बात की थी कि वो समय कहाँ गया। मैंने ड्राफ़्ट खोलकर, उसे छोड़कर, वापस आकर, और फिर से पूरा लिखने का चक्र छोड़ दिया। ख़याल दिमाग से निकलकर एक ही बार में स्क्रीन पर उतरने लगा।

45 मिनट तक टाइप करने बनाम वही कंटेंट 14 मिनट में बोलने की साथ-साथ तुलना

मेरे लिए डिक्टेशन कहाँ अच्छा चलता है: - लंबे Slack थ्रेड - दो लाइन से ज़्यादा के ईमेल जवाब - मीटिंग के दौरान मीटिंग नोट्स - किसी भी चीज़ का पहला ड्राफ़्ट - ब्रेन-डंप डॉक्स - वो वॉइस नोट्स जो बाद में डॉक बन जाते हैं

कहाँ काम नहीं आता: - छोटे जवाब ("मिल गया," "शुक्रिया") - कोड - स्ट्रक्चर्ड टेबल - पासवर्ड - ऐसी कोई भी चीज़ जिसमें हर शब्द पर सोचना पड़े

पहला हफ़्ता बुरा था। यह रही गड़बड़ी।

तीसरे दिन ही मैं छोड़ने वाला था। पहली समस्या तो कंप्यूटर से बोलना ही थी। यह दिखावटी लग रहा था। मैं वाक्य शुरू करता, हिम्मत हार जाता, रुक जाता, और अंत में एक आधा-अधूरा ट्रांसक्रिप्ट रह जाता जिसे ठीक करने में टाइप करने से ज़्यादा वक़्त लगता।

दूसरी समस्या थी ज़रूरत से ज़्यादा कोशिश। मैं ऐसे बोल रहा था जैसे कोई औपचारिक पत्र डिक्टेट कर रहा हूँ — धीरे, सावधानी से, हर शब्द साफ़-साफ़। आउटपुट रोबोटिक आता था और रफ़्तार का सारा फ़ायदा ख़त्म हो जाता था। मैं बस मुँह से टाइप कर रहा था, वो भी बुरी तरह।

हल मेरी उम्मीद के बिल्कुल उलट निकला। तेज़ बोलो, धीरे नहीं। ऐसे बात करो जैसे किसी सहकर्मी को समझा रहे हो — आधे-अधूरे शुरूआतों समेत, और "असल में, इसे छोड़ो, मैं इसे ऐसे कहता हूँ" समेत। एक अच्छा पॉलिशिंग टूल यह सब साफ़ कर देता है। डिक्टेट करने की कोशिश छोड़ो। बस बोलो।

असली ब्रेकथ्रू: यह जानना कि कब डिक्टेट नहीं करना है

जिस चीज़ ने वॉइस डिक्टेशन को "कभी-कभार का प्रयोग" से "डिफ़ॉल्ट इनपुट तरीका" बना दिया, वो थी एक सोच: *पहले ड्राफ़्ट* के लिए वॉइस, *एडिट* के लिए कीबोर्ड। कीबोर्ड एक्यूरेट है। वॉइस तेज़ है। मेस्सी वर्ज़न बोलो, फिर जो एक शब्द ग़लत निकला, उसे कीबोर्ड से ठीक कर लो।

पीछे मुड़कर देखो तो यह बात साफ़ लगती है। शुरू में नहीं थी। मैं परफ़ेक्ट लेख डिक्टेट करने की कोशिश करता रहा और जब पॉलिश किया हुआ आउटपुट *ठीक* वैसा नहीं होता जैसा मैं चाहता था, तो चिढ़ जाता था। आख़िरकार मदद यह मानने से मिली कि डिक्टेट किया हुआ ड्राफ़्ट परफ़ेक्ट नहीं होना चाहिए। ख़याल को बाहर निकालो। दो सेकंड में कीबोर्ड से ठीक करो। आगे बढ़ो।

इसी वजह से पॉलिश-एज़-यू-गो वर्कफ़्लो इतना ज़रूरी है। अगर आपको पहले डिक्टेट करना है, फिर मैन्युअली फ़िलर शब्द हटाने हैं, फिर ग्रामर ठीक करनी है, फिर जिस ऐप में हो उसके हिसाब से फ़ॉर्मैट करना है, तो रफ़्तार का सारा फ़ायदा ख़त्म। पूरा मतलब यही है कि सफ़ाई अपने आप हो। जैसे ही आप बोलना बंद करें, टेक्स्ट पेस्ट करने के लिए तैयार हो। Voicr Mac पर ठीक यही करता है: FN दबाएँ, बोलें, छोड़ें, पेस्ट करें। सफ़ाई बैकग्राउंड में हो जाती है।

जो वर्कफ़्लो टिक गया (Slack, ईमेल, डॉक्स)

एक महीने बाद तीन वर्कफ़्लो जम चुके थे। हर एक के लिए सेटअप थोड़ा अलग था।

तीन ऐप विंडो (Slack, ईमेल, डॉक्यूमेंट) — हर एक में माइक्रोफ़ोन आइकन और अलग-अलग लेखन-टोन का लेबल

Slack और चैट

यह सबसे बड़ा अनलॉक था। मैं Slack पर बहुत सारे लंबे मैसेज लिखता हूँ: फ़ैसलों की वजह, पोस्ट-मॉर्टम, लंबे थ्रेड। पहले इनमें दस मिनट लगते थे। अब तीन। मैं एक ही बार में मैसेज डिक्टेट करता हूँ, पेस्ट करता हूँ, टाइपो के लिए नज़र दौड़ाता हूँ, और भेज देता हूँ। (Mac पर Slack में voice to text में प्रति-चैनल सेटअप समझाया है।)

ईमेल

ईमेल में मुझे सबसे बड़े फ़ायदे की उम्मीद थी, लेकिन शुरुआत में सबसे बिगड़े हुए नतीजे यहीं मिले। दिक़्क़त: ईमेल का अपना टोन होता है। बॉस को जवाब उस तरह डिक्टेट नहीं कर सकते जैसे टीममेट को Slack मैसेज। हल था प्रति-ऐप स्टाइल इस्तेमाल करना। ईमेल के लिए औपचारिक, चैट के लिए कैज़ुअल। (Mac पर ईमेल कैसे डिक्टेट करें इस पर विस्तार से बताता है।)

डॉक्स और नोट्स

डॉक्स सबसे अजीब केस हैं। छोटे नोट्स ज़बरदस्त चलते हैं। डिक्टेट करो, पेस्ट करो, ख़त्म। लंबे डॉक्स नहीं चलते, क्योंकि उसमें सोच स्ट्रक्चरल होती है। आप वाक्य नहीं लिख रहे होते। आप सेक्शन की रूपरेखा बना रहे होते हैं, चीज़ें इधर-उधर कर रहे होते हैं, ढाँचा बदल रहे होते हैं। लंबे डॉक्स के लिए मैं पैराग्राफ़-दर-पैराग्राफ़ डिक्टेट करता हूँ और स्ट्रक्चर कीबोर्ड पर रखता हूँ।

जो मिला, वो सिर्फ़ रफ़्तार नहीं थी

3x तो हेडलाइन है। असली फ़ायदे उससे बड़े हैं।

कम अधूरे ड्राफ़्ट। जब टाइपिंग ही अड़चन हो, तो हर लंबा मैसेज एक ऐसा ड्राफ़्ट बन जाता है जिसे आप बाद में पूरा करना चाहते हैं। ज़्यादातर ड्राफ़्ट फ़ोल्डर में ही दम तोड़ देते हैं। वॉइस सोच और आउटपुट के बीच की दूरी मिटा देती है। अब मैं वो चीज़ें भेजता हूँ जो पहले दो दिन तक बिना भेजे पड़ी रहती थीं।

कलाई का दर्द कम। मैं यह दावा नहीं करूँगा कि वॉइस डिक्टेशन ने मेरे हाथ ठीक कर दिए। लेकिन 6 घंटे टाइप करने और 2 घंटे टाइप करने में फ़र्क़ असली है, और शुक्रवार शाम तक मेरी कलाइयों को यह फ़र्क़ महसूस होता है।

बेहतर पहले ड्राफ़्ट। यह हैरानी की बात थी। जब आप कोई विचार बोलकर बताते हैं, तो आप उसे उसी तरह स्ट्रक्चर करते हैं जैसे कोई इंसान समझाता है। टाइप किए हुए पहले ड्राफ़्ट ज़्यादा सूखे होते हैं। वो लिखे हुए जैसे लगते हैं, क्योंकि होते भी वही हैं। डिक्टेट किए हुए ड्राफ़्ट इंसान जैसे लगते हैं — और अमूमन आपको यही चाहिए होता है।

वो पेंच जिसके बारे में कोई नहीं बताता

दो असली दिक़्क़तें हैं। दोनों का तोड़ है, लेकिन शुरू करने से पहले इन्हें जान लेना चाहिए।

ओपन ऑफ़िस में डिक्टेट नहीं कर सकते। न कैफ़े में। न कहीं ऐसी जगह जहाँ आसपास कोई और बैठा हो। यह बात साफ़ लगती है लेकिन उम्मीद से बड़ी रुकावट है। अगर आपकी जगह शेयर होती है, तो वॉइस डिक्टेशन "घर वाले दिनों" का टूल बनकर रह जाती है, जो रफ़्तार का फ़ायदा सीमित कर देती है।

अच्छे टूल के साथ भी सफ़ाई का थोड़ा बोझ रहता है। यह छोटा है। शायद हर पैराग्राफ़ में एक सुधार, हर वाक्य में नहीं। पर शून्य नहीं है। गणित अब भी आपके पक्ष में है, और बहुत बड़े फ़र्क़ से, लेकिन सफ़ाई को शून्य मान लेना आपको निराशा की तरफ़ ले जाएगा।

तीन दिन में हार माने बिना इसे कैसे आज़माएँ

कुछ नियम जो मुझे पहले दिन ही कोई बता देता तो अच्छा होता।

एक ही ऐप से शुरू करें, सब से नहीं। वो ऐप चुनें जहाँ आप सबसे ज़्यादा कम-दबाव वाला लंबा टेक्स्ट लिखते हैं। मेरे लिए वो Slack है। एक हफ़्ते तक सिर्फ़ उसी ऐप के लिए वॉइस इस्तेमाल करें। पूरे वर्कफ़्लो को एक साथ बदलने की कोशिश न करें।

एक हफ़्ते की संशय-सीमा तय कर लें। तीसरा दिन बुरा होगा। पाँचवाँ दिन ठीक-ठाक होगा। सातवें दिन जब आप वापस टाइप करने जाएँगे, तब आपको फ़र्क़ महसूस होगा। अगर आपने तीसरे दिन छोड़ दिया, तो सातवें दिन तक कभी नहीं पहुँचेंगे।

ऐसा टूल इस्तेमाल करें जो डिफ़ॉल्ट से पॉलिश करता हो। यही सबसे बड़ा फ़ैक्टर है। कच्चे ट्रांसक्रिप्शन वाले टूल आपकी बचत को सफ़ाई में ख़त्म कर देते हैं। ऐसा टूल जो फ़िलर शब्द हटाए, ग्रामर ठीक करे, और आउटपुट को अपने आप ढाँचे में लाए — सिर्फ़ ऐसे टूल से 3x असल में मिलता है।

दूसरों के सामने कभी डिक्टेट न करें। आवाज़ की वजह से नहीं (वो तो बहुत कम है)। बल्कि शर्म आपकी रफ़्तार मार देगी। पहले महीने के लिए कोई एकांत जगह चुनें।

कहाँ से शुरू करें

ईमानदार निचोड़: वॉइस डिक्टेशन काम करती है। मार्केटिंग कॉपी जिस तरह "यह सब कुछ बदल देगा" कहती है, उस तरह नहीं। बल्कि "मेरा काम अब शाम 4 बजे ही ख़त्म हो जाता है" वाले तरीक़े से। 3x असली है, और जो भी टूल आपकी सफ़ाई ख़ुद से नहीं करता, वही वजह है कि लोग पहले हफ़्ते में ही डिक्टेशन छोड़ देते हैं।

ख़ुद आज़माने का सबसे तेज़ तरीक़ा यह है कि कल वाला अगला लंबा Slack मैसेज टाइप करने के बजाय बोलकर लिखें। अगर आप चाहते हैं कि सफ़ाई अपने आप हो, बोली हुई बात एक ही स्टेप में पेस्ट-तैयार टेक्स्ट में बदले, और हर ऐप का अपना स्टाइल हो — तो Mac पर Voicr ठीक यही करता है। कहीं से भी FN दबाकर रखें, तीस सेकंड बोलें, छोड़ें, पेस्ट करें। कल सुबह एक मैसेज पर आज़माएँ। हफ़्ते के अंत तक आपको पता चल जाएगा कि 3x आपके लिए सच है या नहीं।