LLM कैसे वॉइस-टू-टेक्स्ट को सचमुच उपयोगी बनाते हैं

आपने शायद वॉइस-टू-टेक्स्ट को एक बार आज़माया, हार मान ली, और फिर अपने कीबोर्ड पर लौट आए। ज़्यादातर लोगों ने यही किया। अजीब बात यह है कि इसकी वजह आमतौर पर गलत शब्द निकलना नहीं होती थी।

स्पीच रिकग्निशन सालों पहले सटीक हो चुकी थी। आधुनिक मॉडल साफ़ बोली को करीब 95% सटीकता से ट्रांसक्राइब करते हैं। डिक्टेशन के बेकार लगने की असली वजह यह है कि आप असल में जैसे बोलते हैं, उसका सटीक ट्रांसक्रिप्ट एक गड़बड़ झाला होता है। बड़े भाषा मॉडल वही हिस्सा हैं जिसने इसे ठीक किया, और उन्होंने बदल दिया कि वॉइस-टू-टेक्स्ट किस काम के लिए अच्छा है।

अपने ज़्यादातर इतिहास में वॉइस-टू-टेक्स्ट को एक ही चीज़ पर परखा गया: क्या उसने शब्द सही पकड़े? यह गलत सवाल निकला। शब्द सही पकड़ना वह चीज़ कभी नहीं थी जो आपके और आपकी आवाज़ से लिखने के बीच खड़ी थी। असल में जो बदला, वह यह है।

वॉइस-टू-टेक्स्ट कभी ट्रांसक्रिप्शन की समस्या थी ही नहीं

दशकों तक हर स्पीच रिकग्निशन टीम एक ही आँकड़े के पीछे भागती रही: वर्ड एरर रेट, यानी WER। यह गिनता है कि सिस्टम कितने शब्द गलत पकड़ता है। जितना कम, उतना अच्छा, और पूरा क्षेत्र इसी को बेहतर करने में लगा रहा।

वे ज़्यादातर सफल भी हुए। OpenAI का Whisper साफ़ ऑडियो को करीब 2.7% वर्ड एरर रेट पर ट्रांसक्राइब करता है। मीटिंग, कैफ़े या फ़ोन कॉल जैसी असली दुनिया की उलझी रिकॉर्डिंग पर यह 8 से 12% के करीब चलता है। इंसानी ट्रांसक्राइबर करीब 4 से 6% पर रहते हैं। यह फ़ासला छोटा है और अब भी घट रहा है।

तो सटीकता तो कमोबेश हल हो गई। लेकिन 2018 में डिक्टेशन छोड़ने वाले किसी से पूछिए कि उन्होंने क्यों छोड़ा, तो शायद ही कोई कहेगा "बहुत सारी टाइपिंग गलतियाँ।" वे कहते हैं कि यह भारी-भरकम लगता था, या आउटपुट को इतनी सफ़ाई की ज़रूरत पड़ती थी कि मेहनत बेकार जाती थी।

यही असली इशारा है। अड़चन कभी ट्रांसक्रिप्शन नहीं थी। अड़चन वह सब कुछ थी जो शब्द सही होने के बाद होता है।

आपकी बोली का कच्चा ट्रांसक्रिप्ट कैसा दिखता है

यह वह बात है जिसके बारे में कोई आपको नहीं बताता: आप साफ़-सुथरे वाक्यों में नहीं बोलते। कोई भी नहीं बोलता।

जब आप स्वाभाविक रूप से बोलते हैं, तो आप पीछे लौटते हैं, फिर से शुरू करते हैं, बात अधूरी छोड़ देते हैं, और बीच-बीच में "उम", "जैसे" और "पता है" डालते रहते हैं। आपका दिमाग़ यह सब उसी पल संपादित कर देता है और आपको पता तक नहीं चलता। एक ट्रांसक्रिप्शन इंजन हर चीज़ पर ध्यान देता है और उसका एक-एक हिस्सा लिख देता है।

मान लीजिए आप किसी सहकर्मी को एक झटपट संदेश डिक्टेट करते हैं। एक सादे ट्रांसक्राइबर से वह कुछ ऐसा वापस आता है:

*"ठीक है तो उम मैं उस उस कल वाली चीज़ के बारे में पूछना चाहता था, वो रिपोर्ट, क्या तुम उह जब फ़ुर्सत मिले तब भेज सकते हो, कोई जल्दी नहीं है या जो भी"*

हर शब्द सही है। फिर भी यह बेकार है। इसे ठीक करने में आप बोलकर बचाए गए समय से ज़्यादा समय लगा देंगे। यही वह ठीक मौका है जब ज़्यादातर लोगों ने डिक्टेशन को हमेशा के लिए छोड़ दिया।

बाईं ओर फ़िलर शब्दों से भरा गड़बड़ कच्चा वॉइस ट्रांसक्रिप्ट और दाईं ओर साफ़, सँवरा हुआ संदेश दिखाती आमने-सामने की तुलना

बड़े भाषा मॉडल असल में क्या जोड़ते हैं

एक ट्रांसक्राइबर एक ही सवाल का जवाब देता है: इस व्यक्ति ने कौन-सी आवाज़ें निकालीं? एक भाषा मॉडल एक अलग सवाल का जवाब देता है: इस व्यक्ति का मतलब क्या था, और इसे कैसे पढ़ा जाना चाहिए?

वह दूसरा सवाल ही पूरा खेल है। एक LLM गड़बड़ ट्रांसक्रिप्ट को लेता है और उसे वैसे फिर से लिखता है जैसे कोई सावधान संपादक लिखता। यह फ़िलर हटा देता है, आपके अधूरे वाक्य पूरे करता है, व्याकरण ठीक करता है, और आपका मतलब वैसा का वैसा रखता है। ऊपर वाला संदेश बन जाता है:

*"नमस्ते, फ़ुर्सत मिलने पर क्या आप कल वाली रिपोर्ट भेज देंगे? कोई जल्दी नहीं है।"*

वही मंशा, एक ही नज़र में पढ़ने लायक। यहाँ ट्रांसक्रिप्शन ज़रा भी बेहतर नहीं हुई। जो बदला, वह उसके ऊपर बैठी दूसरी परत है, जो वही संपादन कर रही है जो वरना आपको खुद करना पड़ता।

यह महज़ कोई प्रोडक्ट का करतब नहीं है। शोधकर्ता इसका सीधे अध्ययन कर रहे हैं। ACM CHI सम्मेलन के 2024 के एक पेपर Rambler में पाया गया कि लोगों को खुलकर बोलने देना और फिर LLM से "भावार्थ" को नए सिरे से गढ़ना, टाइपिंग या कच्चे डिक्टेशन की तुलना में कम मेहनत में बेहतर लेखन देता है। बोलना ही वह तरीका है जिससे हम सोचते-सोचते कहते हैं। मॉडल वह हिस्सा संभाल लेता है जिसे हमारा दिमाग़ आमतौर पर छोड़ देता है।

बाकी काम भी इसी दिशा में इशारा करते हैं। LLM-आधारित ट्रांसक्रिप्ट परिशोधन पर हुए अध्ययन दिखाते हैं कि रिकग्निशन के बाद स्पीच को एक भाषा मॉडल से गुज़ारने पर गलतियाँ घटती हैं और पठनीयता बढ़ती है, खासकर समानध्वनि शब्दों और संदर्भ पर निर्भर वाक्यांशों के लिए, जिन्हें एक सादा ट्रांसक्राइबर अपने दम पर नहीं सुलझा सकता।

संदर्भ बाकी आधा हिस्सा है

ट्रांसक्रिप्ट को साफ़ करना पहला काम है। यह जानना कि आप किस तरह का लेखन चाहते थे, दूसरा काम है, और यहीं बात दिलचस्प हो जाती है।

"दिन ख़त्म होने से पहले मुझे डेक भेज दो" किसी साथी को भेजे Slack संदेश के लिए ठीक है। किसी क्लाइंट ईमेल के लिए यह बहुत रूखा है। शब्द ठीक हैं; लहजा गलत है। एक भाषा मॉडल उस स्थिति को भाँपकर लहजा बदल सकता है, क्योंकि वह संदर्भ समझता है, सिर्फ़ आवाज़ नहीं।

व्यवहार में, वही बोला हुआ वाक्य एक ऐप में बेतकल्लुफ़ और दूसरे में सँवरा हुआ निकल सकता है। आप अपने बोलने का तरीका नहीं बदलते। मॉडल यह बदलता है कि वह कैसे लिखता है, इस आधार पर कि टेक्स्ट कहाँ जा रहा है।

Voicr के Smart Rules बिल्कुल यही करते हैं। आप एक बार Slack के लिए बेतकल्लुफ़ लहजा और ईमेल के लिए औपचारिक लहजा सेट कर देते हैं, और Voicr भाँप लेता है कि आप किस ऐप में हैं और अपने आप सही शैली लागू कर देता है। FN दबाए रखिए, अपनी बात कहिए, और जो वर्शन आपके क्लिपबोर्ड में आता है वह पहले से ही उस जगह के लायक होता है जहाँ आप पेस्ट करने वाले हैं।

असली बदलाव: आप कंप्यूटर से बात करना छोड़ देते हैं

पुराने डिक्टेशन में आपको एक तरह का प्रदर्शन करना पड़ता था। आपको पूरे-पूरे वाक्यों में बोलना पड़ता, "कॉमा" और "नया अनुच्छेद" ज़ोर से कहना पड़ता, और अपनी सामान्य बोलचाल की आदतें छोड़नी पड़तीं। आप दिमाग़ में, उसी पल, बोलते-बोलते संपादन कर रहे होते थे। यह थकाऊ था, इसीलिए यह कभी टिका नहीं।

LLM-आधारित वॉइस-टू-टेक्स्ट वह काम आपके सिर से उतार देता है। आप भटक सकते हैं। आप वाक्य के बीच में अपना इरादा बदल सकते हैं। आप वैसे बोल सकते हैं जैसे किसी दोस्त को कुछ समझा रहे हों, और साफ़ वर्शन फिर भी सामने आ जाता है।

यह छोटी बात लगती है। लेकिन यही किसी औज़ार को चलाने और बस खुलकर सोचने के बीच का पूरा फ़र्क है।

तेज़ी भी असली है। ज़्यादातर लोग करीब 150 शब्द प्रति मिनट बोलते हैं और करीब 40 टाइप करते हैं। एक स्टैनफ़र्ड अध्ययन में पाया गया कि फ़ोन पर बोलकर लिखना टाइपिंग से तीन गुना तेज़ था, और गलतियाँ भी कम थीं। पर एक बार आउटपुट अच्छा होने के बाद तेज़ी मुख्य आकर्षण नहीं रही। असली आकर्षण यह है कि अब आप अपने कीबोर्ड के चक्कर में अपनी सोच का सिलसिला नहीं खोते। इस गणित को हमने आपकी आवाज़ आपके कीबोर्ड से तेज़ क्यों है में विस्तार से देखा।

जहाँ LLM अब भी वॉइस-टू-टेक्स्ट को गलत कर देते हैं

यह सचमुच बेहतर है, कोई जादू नहीं। वही समझदारी जो आपका टेक्स्ट साफ़ करती है, हद से आगे भी जा सकती है, और यह जानना ज़रूरी है कि कहाँ।

यह आपका मतलब बदल सकता है। जब कोई मॉडल किसी वाक्य को "ठीक" करता है, तो कभी-कभी वह आपकी चाही हुई कोई बारीकी मिटा देता है या आपके इरादे का गलत अंदाज़ा लगा लेता है। आपकी भाषा जितनी तकनीकी या असामान्य होगी, जोखिम उतना ज़्यादा। कोई भी अहम चीज़ भेजने से पहले उसे एक बार ज़रूर पढ़ लें।

नाम और तकनीकी शब्दावली अब भी उसे उलझा देते हैं। ट्रांसक्रिप्शन आम शब्दों को अच्छे से संभालती है पर विशेष नामों, प्रोडक्ट नामों और विशेषज्ञ शब्दों पर लड़खड़ाती है। एक मॉडल संदर्भ से अंदाज़ा लगा सकता है, पर वह आपके सहकर्मी का उपनाम पूरे आत्मविश्वास से गलत लिख देगा।

समानध्वनि शब्द पूरी तरह हल नहीं हुए हैं। अंग्रेज़ी के "Their", "there" और "they're" आमतौर पर सही बैठ जाते हैं क्योंकि संदर्भ मदद करता है, पर हर बार नहीं।

यह थोड़ी देरी जोड़ देता है। एक सादा ट्रांसक्राइबर लगभग तुरंत होता है। सँवारने के लिए एक दूसरा मॉडल चलाने में एक सेकंड के अंश से लेकर कुछ सेकंड तक लग सकते हैं। गुणवत्ता के लिए यह सही सौदा है, पर मुफ़्त नहीं।

एक बार आप इन्हें जान लें, तो इनमें से कोई भी सौदा तोड़ने वाली बात नहीं है। यही वजह है कि भेजने से पहले एक बार पढ़ लेने की आदत अब भी फ़ायदेमंद है। अगर आप यह पूरी तस्वीर देखना चाहते हैं कि यह पाइपलाइन शुरू से अंत तक कैसे चलती है, तो हमने Mac पर AI वॉइस डिक्टेशन की चरण-दर-चरण गाइड लिखी है।

दो परतें दिखाता आरेख: एक ट्रांसक्रिप्शन परत जो ध्वनि को शब्दों में बदलती है, और एक भाषा परत जो शब्दों को साफ़ लेखन में बदलती है

इसका आपके लिखने के तरीके पर क्या मतलब है

ध्यान रखने लायक मानसिक मॉडल यह है कि वॉइस-टू-टेक्स्ट अब दो औज़ार एक साथ जुड़े हुए हैं:

1. एक ट्रांसक्रिप्शन परत जो ध्वनि को सटीक शब्दों में बदलती है। 2. एक भाषा परत जो उन शब्दों को ऐसे लेखन में बदलती है जो सचमुच अच्छे से पढ़ा जाए।

जब आपको हूबहू रिकॉर्ड चाहिए तो सादा ट्रांसक्रिप्शन ही सही विकल्प है। इंटरव्यू, कानूनी नोट्स, या कुछ भी जहाँ हर "उम" मायने रखता हो। बाकी सब के लिए, जैसे ईमेल, संदेश, दस्तावेज़ और नोट्स, वही सँवारने वाली परत है जो बोलने को टाइप करने से तेज़ बनाती है, न कि बस ज़्यादा गड़बड़।

तो जब आप कोई औज़ार चुन रहे हों, तो असली सवाल यह नहीं है कि "ट्रांसक्रिप्शन कितनी सटीक है।" अब ज़्यादातर एक-दूसरे के करीब हैं। सवाल यह है कि "ऊपर की परत कितनी अच्छी है।" हमारी Mac के लिए सबसे अच्छे वॉइस-टू-टेक्स्ट ऐप्स की तुलना में बताया गया है कि कौन से ऐप उस हिस्से को अच्छे से करते हैं।

LLM से सँवरा वॉइस-टू-टेक्स्ट कैसे आज़माएँ

फ़र्क महसूस करने का सबसे तेज़ तरीका यह है कि अपना अगला ईमेल टाइप करने के बजाय बोलकर डिक्टेट करें, और फिर देखें कि ड्राफ़्ट में क्या आता है। यह वह कच्चा ट्रांसक्रिप्ट नहीं होगा जो आपको सालों पहले याद है। यह ऐसा पढ़ेगा जैसे आपने इसे अपने किसी अच्छे दिन पर लिखा हो।

अगर आप यह सब बिना अलग-अलग औज़ार जोड़े चाहते हैं, तो Voicr दोनों परतें एक ही कदम में कर देता है। FN दबाए रखिए, जैसे चाहें बोलिए, छोड़िए, और सँवरा हुआ टेक्स्ट आपके क्लिपबोर्ड में पेस्ट करने के लिए तैयार आ जाता है। यह ट्रांसक्रिप्शन के लिए Whisper और सफ़ाई के लिए एक भाषा मॉडल इस्तेमाल करता है, साथ में हर ऐप के लिए अलग शैलियाँ ताकि लहजा वहीं फ़िट हो जहाँ आप लिख रहे हों। फ़्री टियर हर महीने 5,000 शब्द है, बिना किसी क्रेडिट कार्ड के।

वॉइस-टू-टेक्स्ट आख़िरकार वैसे काम करता है जैसे इसे हमेशा करना चाहिए था। इसलिए नहीं कि मशीनें आपको सुनने में बेहतर हो गईं, बल्कि इसलिए कि वे आख़िरकार यह समझने में अच्छी हो गईं कि आपका मतलब क्या था।