-
CENTRES
Progammes & Centres
Location
इंटरनेट पर अंग्रेज़ी का दबदबा है. लेकिन, जैसे जैसे विकासशील देशों के एक अरब से ज़्यादा नए लोग ऑनलाइन हो रहे हैं, ऐसे में लोगों की समझ में आने वाली भाषा में उपयोगी कंटेंट तक पहुंच बेहद महत्वपूर्ण होगी.
इंटरनेट की दुनिया में अंग्रेज़ी का बोलबाला है. ऑनलाइन दुनिया में जो कुछ लिखा जाता है, उसमें से आधा अंग्रेज़ी भाषा में होता है. हालांकि, दुनिया की 16 प्रतिशत से भी कम आबादी ऐसी है, जो अंग्रेज़ी भाषा बोलती है. साइबर क्षेत्र में विश्व की लैंगिक विविधता का बेहद असाधारण रूप से छोटा हिस्सा ही नज़र होता है. संयुक्त राष्ट्र के शैक्षणिक, वैज्ञानिक और सांस्कृतिक संगठन (UNESCO) का कहना है कि दुनिया भर में 8,324 भाषाएं लिखी और बोली जाती हैं, जिनमें से लगभग सात हज़ार भाषाओं का उपयोग आज भी किया जाता है. लेकिन, ऑनलाइन दुनिया में अंग्रेज़ी के अलावा केवल आठ और भाषाएं हैं, जिनकी कोई ख़ास मौजूदगी है. हर साल 17 मई को मनाए जाने वाले वर्ल्ड टेलीकम्युनिकेशन ऐंड इन्फॉर्मेशन सोसाइटी डे पर सूचना की इन असमानताओं का हिसाब किताब लगाना और इस बात की संभावनाएं तलाशना काफ़ी उपयोगी हो जाता है कि हम सूचना के भाषाई तौर पर विविधतापूर्ण और समावेशी समाज का निर्माण कैसे कर सकते हैं.
Source: Statista
हम इस हालत में पहुंचे कैसे? इंटरनेट के विकास की शुरुआत अमेरिका और अंग्रेज़ी बोलने वाले दूसरे देशों में हुआ था. इसकी वजह से शुरुआत में इसका इस्तेमाल करने वाले अधिकतर लोग अंग्रेज़ी बोलने वाले थे. अमेरिका के दुनिया के तकनीक़ी अगुवा बने रहने की वजह से भी ऑनलाइन दुनिया में अंग्रेज़ी का दबदबा और मज़बूत होता गया. जैसा कि इंटरनेट सोसाइटी फाउंडेशन का कहना है कि, ‘ख़ुद को मज़बूत बनाने वाला एक चक्र चल रहा है, जिसमें ऑनलाइन प्लेटफॉर्म पर अंग्रेज़ी में अधिक कंटेंट होने से अधिक यूज़र आकर्षित होते हैं, जिससे अंग्रेज़ी भाषा के कंटेंट का और भी विस्तार होता जाता है.’ इसी का नतीजा है कि इंटरनेट पर अन्य भाषाओं को अंग्रेज़ी के बराबर मौक़ा नहीं मिल पाता. इस वजह से अंग्रेज़ी का ऐसा दबदबा और पहुंच हो गए हैं कि उससे पार पाना और भी मुश्किल हो गया है.
संयुक्त राष्ट्र के शैक्षणिक, वैज्ञानिक और सांस्कृतिक संगठन (UNESCO) का कहना है कि दुनिया भर में 8,324 भाषाएं लिखी और बोली जाती हैं, जिनमें से लगभग सात हज़ार भाषाओं का उपयोग आज भी किया जाता है. लेकिन, ऑनलाइन दुनिया में अंग्रेज़ी के अलावा केवल आठ और भाषाएं हैं, जिनकी कोई ख़ास मौजूदगी है.
हालांकि, ये यथास्थिति बनाए रखना अब संभव नहीं रह गया है. अब जबकि विकासशील देशों के एक अरब से ज़्यादा नए लोग ऑनलाइन हो रहे हैं, तो ऐसे में लोगों की समझ में आने वाली ज़ुबान में उपयोगी कंटेंट भी उतना ही महत्वपूर्ण हो गया है, जितनी ये तकनीक़ है. साइबर दुनिया में ऐतिहासिक रूप से बहुभाषावाद की कमी डिजिटल खाई को और चौड़ा कर दिया है और इसकी वजह से मानवता के एक विशाल तबक़े की अनदेखी होती आई है. ऐसे में भाषा की तकनीक़ में सामरिक निवेश करना ज़रूरी हो गया है; और, मशीन से अनुवाद, डिजिटल स्क्रिप्ट और क़ुदरती तौर पर भाषा की प्रॉसेसिंग को भाषा की शिक्षा और क़ाबिलियत बढ़ाने के ऑफलाइन प्रयासों के साथ क़दम-ताल करनी होगी. निश्चित रूप से आपस में अधिक जुड़े हुए और समतावादी डिजिटल माहौल बनाने की दिशा में पहला क़दम तो भाषाई विविधता के प्रति जागरूकता पैदा करने का होगा.
लगभग 25 साल पहले मिस्र की राजधानी काहिरा में इंटरनेट कॉरपोरेशन फॉर एसाइन्ड नेम्स ऐंड नंबर्स (ICANN) की बैठक में शामिल भागीदारों ने ग़ैर अंग्रेज़ीभाषी डोमेन नामों की ज़रूरत की तरफ़ ध्यान खींचा था. इसके एक दशक बाद जाकर ICANN ने अंतरराष्ट्रीय डोमेन नेम (IDNs) रखना और उनका परीक्षण करना शुरू किया. उसके बाद से इस दिशा में काफ़ी प्रगति हुई है. मिसाल के तौर पर भारत में ICAAN, 22 अनुसूचित भाषाओं के साथ साथ देश भर में इस्तेमाल होने वाली तमाम दूसरी भाषाओं में डोमेन नेम रखने में मदद कर रहा है. इसके साथ साथ ये संगठन, भारतीय और दुनिया की अन्य भाषाओं में उच्च स्तर के डोमेन (TLDs) को सुरक्षित रूप से परिभाषित करने के दिशा-निर्देश स्थापित कर रहा है, ताकि ग़ैर अंग्रेज़ी भाषी वक्ता भी ऐसी वेबसाइटों तक पहुंच बना सकें, जो उनकी अपनी ज़बान में लिखे डोमेन नेम का इस्तेमाल करते हैं, न कि उन्हें केवल अंग्रेज़ी भाषा पर आधारित डोमेन नेम के भरोसे रहना पड़े.
2014 में भारत सरकार ने देवनागरी लिपि में ‘भारत’ के नाम से डोमेन नेम की शुरुआत की थी, जिसमें हिंदी, कोंकणी और मराठी समेत आठ भारतीय भाषाएं शामिल थी. इससे अपनी वेबसाइट बनाने की इच्छा रखने वाले लोगों और कंपनियों को ज़्यादा आम चलन वाले TLDs जैसे कि ‘.com’, ‘.net’ या फिर ‘.in’ की जगह हिंदी के डोमेन नेम वाली वेबसाइट को हिंदी लिपि में ‘भारत’ के नाम से रजिस्टर करने का मौक़ा मिल सका. इसके अगले साल भारत के नेशनल इंटरनेट एक्सचेंज ने बांग्ला, मणिपुरी, उर्दू, पंजाबी, तेलुगू, तमिल और गुजराती जैसी भारतीय भाषाओं में भी IDN देने की शुरुआत की.
2017 से 2018 के दौरान सरकार ने भारतीय मानक ब्यूरो और भाषा के विशेषज्ञों की मदद से आदेश दिया कि देश में स्मार्टफोन और फीचरफोन में भारतीय टेक्स्ट को सपोर्ट करने की सुविधा देनी होगी. इसके अतिरिक्त सारे मोबाइलों को हर भाषा की कुछ मानक लिपि का पालन करना होगा.
इस दिशा में एक लंबी छलांग लगाते हुए 2017 से 2018 के दौरान सरकार ने भारतीय मानक ब्यूरो और भाषा के विशेषज्ञों की मदद से आदेश दिया कि देश में स्मार्टफोन और फीचरफोन में भारतीय टेक्स्ट को सपोर्ट करने की सुविधा देनी होगी. इसके अतिरिक्त सारे मोबाइलों को हर भाषा की कुछ मानक लिपि का पालन करना होगा. ये काफ़ी महत्वपूर्ण क़दम था, क्योंकि इससे पहले अलग अलग फोन में अलग अलग कैरेक्टर वाले टेक्स्ट इस्तेमाल किए जाते थे, जिससे हर मोबाइल में दिखने वाले टेक्स्ट अलग अलग हो जाते थे.
इस आदेश का पालन करने से मोबाइल फर्स्ट वाले भारत में इंटरनेट और मोबाइल के इस्तेमाल पर ज़बरदस्त असर पड़ा और इसने भारतीय भाषाओं के कंटेंट और सेवाओं में अभूतपूर्व विकास को गति दी है. गूगल-KPMG के सर्वे के मुताबिक़, भारत में इंटरनेट के यूज़र्स के बीच भारतीय भाषाओं की सेवाओं की भारी मांग है. इनमें से ज़्यादातर अपनी भाषा में इंटरनेट इस्तेमाल करने को तरज़ीह देते हैं. आज भारत में मोबाइलों में देश की 22 अनुसूचित भाषाओं में डिस्प्ले सपोर्ट अनिवार्य होने से स्थानीय भाषाओं में इंटरनेट की उपलब्धता करोड़ों भारतीयों के लिए एक हक़ीक़त बन चुकी है.
इन कोशिशों को आगे बढ़ाते हुए निजी क्षेत्र भी अपनी ओर से बहुभाषी प्लेटफॉर्म और कंटेंट विकसित करने पर ज़ोर दे रहा है. मिसाल के तौर पर ई-कॉमर्स की बड़ी कंपनियां जैसे कि फ्लिपकार्ट और अमेज़न ने क्षेत्रीय भाषाओं में अपनी वेबसाइटें लॉन्च की हैं; और फ़ेसबुक, व्हाट्सऐप और एक्स जैसे सोशल मीडिया प्लेटफॉर्म भी कई भारतीय भाषाओं को सपोर्ट करते हैं.
देसी भाषाओं में डेटा और कंटेंट की बढ़ती उपलब्धता, भारत में आर्टिफ़िशियल इंटेलिजेंस (AI) के सेक्टर की प्रगति को भी बढ़ावा दे रही है. मिसाल के तौर पर भारत की 1 अरब डॉलर वाली AI की पहली स्टार्ट अप क्रुत्रिम जिसे कई स्टार्ट अप शुरू करने वाले भविश अग्रवाल ने स्थापित किया है, ने देश के पहले बहुभाषी लार्ज लैंग्वेज मॉडल (LLM) को लॉन्च किया है. ये मॉडल दस भारतीय भाषाओं में टेक्स्ट लिख सकता है, जिसमें हिंदी और अंग्रेज़ी के शब्दों को मिलाकर बोली और लिखी जाने वाली लोकप्रिय हिंग्लिश भी शामिल है. 2023 में स्थापित और उपलब्ध ओपेन सोर्स मॉडल से अपना सिस्टम बनाने वाली जेनेरेटिव AI की स्टार्ट अप सर्वम ने पहले ओपन सोर्स हिंदी LLM OpenHathi को लॉन्च किया है और इसने 4.1 करोड़ डॉलर का फंड भी जुटा लिया है. इसी तरह तेलुगु की LLM लैब्स ने Navarasa 2.0 को लॉन्च किया है, जो 15 भारतीय भाषाओं और अंग्रेज़ी को सपोर्ट करने वाला अपग्रेडेड LLM है, और इसका मक़सद डिजिटल समावेशीकरण और पहुंच को बढ़ावा देना है; और OdiaGenAI ने ओडिया भाषा की भाषाई बारीक़ियों को समझने में मदद के लिए और डिजिटल दुनिया में इस भाषा की पहुंच बढ़ाने के लिए एक लार्ज लैंग्वेज मॉडल निर्मित किया है.
स्थानीय भाषाओं में कंटेंट की भारी मांग है, ये बात तो साबित हो चुकी है. अब इस मांग का इस्तेमाल करना ज़रूरी है. इस मामले में नेशनल ट्रांसलेशन मिशन जैसी कोशिशें, जो विज्ञान, तकनीक़, कारोबार और प्रशासन जैसे क्षेत्रों में भारतीय भाषाओं के इस्तेमाल को लोकप्रिय बनाना चाहती हैं, वो काफ़ी मूल्यवान हैं.
निजी और सार्वजनिक क्षेत्र की इन परियोजनाओं और उद्यमों में सबसे ऊपर सरकार का ‘मिशन भाषिणी’ है. इसे 2022 में लॉन्च किया गया था और इसका मक़सद भारतीय भाषा में तकनीक़ का इकोसिस्टम विकसित करना है. मिशन भाषिणी के तहत सरकार, अकादेमिक क्षेत्र और स्टार्ट अप के तमाम प्रयासों के लिए एक ही रूप-रेखा का निर्माण करना है, ताकि भारतीय भाषाओं में तकनीक़ का विकास करने के साथ साथ, भारतीय भाषाओं के एक यूनिफाइड लैंग्वेज इंटरफेस (ULI) बनाया जा सके.
आज जब भारत वेब के विकास के अपने प्रयासों को मज़बूती दे रहा है, और भाषाई समावेश को बढ़ाने के लिए नया कंटेंट, लिपियां और AI के समाधानों का निर्माण कर रहा है, तो इस मामले में अभी और भी बहुत कुछ किया जा सकता है. आज बहुत से कारोबार, नए अनछुए बाज़ारों तक पहुंच बनाने और अधिक से अधिक लोगों तक पहुंचने और अपनी कमाई बढ़ाने के लिए कई भाषाओं में कंटेंट को एक माध्यम के तौर पर देख रहा है, तो इस बात की पूरी संभावना है कि इस मामले में की जा रही पहलों की रफ़्तार और उनका दायरा और बढ़ेगा. इन कोशिशों के साथ ही सरकार द्वारा लगातार ज़ोर देना भी ज़रूरी होगा, ताकि अंग्रेज़ी की तुलना में ग़ैर अंग्रेज़ी भाषाओं में अच्छे डेटा की कमी से निपटा जा सके. क़िल्लत का ये मसला अभी भारतीय भाषाओं में नेचुरल लैंग्वेज प्रॉसेसिंग के एल्गोरिद्म और AI के मॉडल विकसित करने की राह में रोड़ा बन रहा है, जिसकी वजह से अनुवाद और कंटेंट क्रिएशन की प्रक्रिया को स्वचालित बनाना मुश्किल हो रहा है.
स्थानीय भाषाओं में कंटेंट की भारी मांग है, ये बात तो साबित हो चुकी है. अब इस मांग का इस्तेमाल करना ज़रूरी है. इस मामले में नेशनल ट्रांसलेशन मिशन जैसी कोशिशें, जो विज्ञान, तकनीक़, कारोबार और प्रशासन जैसे क्षेत्रों में भारतीय भाषाओं के इस्तेमाल को लोकप्रिय बनाना चाहती हैं, वो काफ़ी मूल्यवान हैं. इसी तरह डिजिटल इंडिया के कार्यक्रम भी काफ़ी उपयोगी हैं, जिनकी वजह से ख़ास भाषाओं के पोर्टल, भारतीय भाषाओं के संसाधनों वाली डिजिटल लाइब्रेरी और डिजिटल साक्षरता की मुहिमों का लाभ आबादी के एक बड़े तबक़े को हो रहा है. सब मिलाकर ये प्रयास सूचना और ज्ञान के ज़्यादा विविधता भरे समाजों के निर्माण में काफ़ी मददगार साबित हो रहे हैं
The views expressed above belong to the author(s). ORF research and analyses now available on Telegram! Click here to access our curated content — blogs, longforms and interviews.
Anirban Sarma is Director of the Digital Societies Initiative at the Observer Research Foundation. His research explores issues of technology policy, with a focus on ...
Read More +Shrushti Jaybhaye is a Research Intern at the Observer Research Foundation ...
Read More +