अनुप्रयोगों की संख्या और आवाज इंटरफेस का महत्व तेजी से बढ़ रहा है
प्रौद्योगिकी

अनुप्रयोगों की संख्या और आवाज इंटरफेस का महत्व तेजी से बढ़ रहा है

पोर्टलैंड, ओरेगॉन में एक अमेरिकी परिवार को हाल ही में पता चला कि एलेक्स के वॉयस असिस्टेंट ने उनकी निजी चैट रिकॉर्ड की और उन्हें एक दोस्त को भेज दिया। घर की मालिक, जिसे मीडिया ने डेनिएल करार दिया, ने संवाददाताओं से कहा कि वह "इस डिवाइस को फिर कभी कनेक्ट नहीं करेगी क्योंकि उस पर भरोसा नहीं किया जा सकता है।"

एलेक्सा, लाखों अमेरिकी घरों में इको स्पीकर (1) और अन्य गैजेट्स द्वारा प्रदान किया गया, उपयोगकर्ता द्वारा बोला गया अपना नाम या "कॉल वर्ड" सुनते ही रिकॉर्डिंग शुरू हो जाती है। इसका मतलब यह है कि भले ही टीवी विज्ञापन में "एलेक्सा" शब्द का उल्लेख किया गया हो, डिवाइस रिकॉर्डिंग शुरू कर सकता है। हार्डवेयर वितरक अमेज़ॅन का कहना है कि इस मामले में बिल्कुल यही हुआ।

कंपनी ने एक बयान में कहा, "बाकी बातचीत को वॉयस असिस्टेंट ने एक संदेश भेजने के आदेश के रूप में समझा।" "किसी बिंदु पर, एलेक्सा ने ज़ोर से पूछा: "किससे?" दृढ़ लकड़ी के फर्श के बारे में पारिवारिक बातचीत की निरंतरता को मशीन द्वारा ग्राहक की संपर्क सूची में एक आइटम के रूप में माना जाना चाहिए था। कम से कम अमेज़ॅन तो यही सोचता है। इस प्रकार, अनुवाद दुर्घटनाओं की एक श्रृंखला में सिमट कर रह गया है।

हालाँकि, चिंता बनी हुई है। क्योंकि किसी कारण से उस घर में जहां हम अभी भी सहज महसूस करते थे, हमें किसी प्रकार के "वॉयस मोड" में प्रवेश करना पड़ता है, यह देखना पड़ता है कि हम क्या कहते हैं, टीवी क्या प्रसारित कर रहा है और निश्चित रूप से, दराज के सीने पर यह नया स्पीकर क्या कहता है। हम।

फिर भी, प्रौद्योगिकी खामियों और गोपनीयता संबंधी चिंताओं के बावजूद, अमेज़ॅन इको जैसे उपकरणों की लोकप्रियता में वृद्धि के साथ, लोग अपनी आवाज का उपयोग करके कंप्यूटर के साथ बातचीत करने के विचार के आदी होने लगे हैं।.

जैसा कि अमेज़ॅन के सीटीओ वर्नर वोगल्स ने 2017 के अंत में अपने एडब्ल्यूएस री:इन्वेंट सत्र के दौरान बताया था, प्रौद्योगिकी ने अब तक कंप्यूटर के साथ बातचीत करने की हमारी क्षमता को सीमित कर दिया है। हम कीबोर्ड का उपयोग करके Google में कीवर्ड टाइप करते हैं, क्योंकि यह अभी भी किसी मशीन में जानकारी दर्ज करने का सबसे आम और आसान तरीका है।

वोगल्स ने कहा। -

बड़ा चोका

फ़ोन पर Google खोज इंजन का उपयोग करते समय, हमने संभवतः बहुत समय पहले बात करने के लिए कॉल करने वाला एक माइक्रोफ़ोन चिह्न देखा होगा। यह गूगल अभी (2), जो किसी खोज क्वेरी को निर्देशित कर सकता है, आवाज द्वारा संदेश दर्ज कर सकता है, आदि। हाल के वर्षों में, Google, Apple और Amazon ने बहुत सुधार किया है आवाज पहचान तकनीक. एलेक्सा, सिरी और गूगल असिस्टेंट जैसे वॉयस असिस्टेंट न केवल आपकी आवाज रिकॉर्ड करते हैं, बल्कि आप उनसे जो कहते हैं उसे समझते हैं और सवालों के जवाब भी देते हैं।

Google Now सभी Android उपयोगकर्ताओं के लिए निःशुल्क उपलब्ध है। उदाहरण के लिए, एप्लिकेशन अलार्म सेट कर सकता है, मौसम के पूर्वानुमान की जांच कर सकता है और Google मानचित्र पर मार्ग की जांच कर सकता है। Google नाओ का संवादात्मक विस्तार बताता है गूगल असिस्टेंट () - उपकरण के उपयोगकर्ता को आभासी सहायता। यह मुख्य रूप से मोबाइल और स्मार्ट होम उपकरणों पर उपलब्ध है। Google नाओ के विपरीत, यह दो-तरफ़ा विनिमय में भाग ले सकता है। सहायक ने मई 2016 में Google मैसेजिंग ऐप Allo के साथ-साथ Google होम वॉयस स्पीकर (3) के हिस्से के रूप में शुरुआत की।

3. गूगल होम

IOS सिस्टम का अपना वर्चुअल असिस्टेंट भी है, सिरी, जो कि Apple के ऑपरेटिंग सिस्टम iOS, watchOS, tvOS होमपॉड और macOS में शामिल एक प्रोग्राम है। सिरी ने अक्टूबर 5 में लेट्स टॉक आईफोन कॉन्फ्रेंस में iOS 4 और iPhone 2011s के साथ शुरुआत की।

सॉफ़्टवेयर एक वार्तालाप इंटरफ़ेस पर आधारित है: यह उपयोगकर्ता के प्राकृतिक भाषण को पहचानता है (आईओएस 11 के साथ मैन्युअल रूप से कमांड दर्ज करना भी संभव है), सवालों का जवाब देता है और कार्यों को पूरा करता है। समय के साथ सहायक, मशीन लर्निंग की शुरुआत के लिए धन्यवाद व्यक्तिगत प्राथमिकताओं का विश्लेषण करता है उपयोगकर्ता को अधिक प्रासंगिक परिणाम और अनुशंसाएँ प्रदान करने के लिए। सिरी को निरंतर इंटरनेट कनेक्शन की आवश्यकता होती है - यहां जानकारी के मुख्य स्रोत बिंग और वोल्फ्राम अल्फा हैं। iOS 10 ने तृतीय-पक्ष एक्सटेंशन के लिए समर्थन पेश किया।

बड़े चार में से एक और Cortana. यह माइक्रोसॉफ्ट द्वारा बनाया गया एक बुद्धिमान व्यक्तिगत सहायक है। यह विंडोज 10, विंडोज 10 मोबाइल, विंडोज फोन 8.1, एक्सबॉक्स वन, स्काइप, माइक्रोसॉफ्ट बैंड, माइक्रोसॉफ्ट बैंड 2, एंड्रॉइड और आईओएस प्लेटफॉर्म पर समर्थित है। कॉर्टाना को पहली बार अप्रैल 2014 में सैन फ्रांसिस्को में माइक्रोसॉफ्ट बिल्ड डेवलपर कॉन्फ्रेंस में पेश किया गया था। कार्यक्रम का नाम हेलो गेम श्रृंखला के एक पात्र के नाम से आया है। कॉर्टाना अंग्रेजी, इतालवी, स्पेनिश, फ्रेंच, जर्मन, चीनी और जापानी में उपलब्ध है।

पहले से उल्लिखित कार्यक्रम के उपयोगकर्ता एलेक्सा उन्हें भाषा प्रतिबंधों पर भी विचार करना चाहिए - डिजिटल सहायक केवल अंग्रेजी, जर्मन, फ्रेंच और जापानी बोलता है।

Amazon वर्चुअल असिस्टेंट का उपयोग सबसे पहले Amazon Lab126 द्वारा विकसित Amazon Echo और Amazon Echo Dot स्मार्ट स्पीकर में किया गया था। यह वॉयस इंटरेक्शन, म्यूजिक प्लेबैक, टू-डू सूची निर्माण, अलार्म सेटिंग, पॉडकास्ट स्ट्रीमिंग, ऑडियोबुक प्लेबैक और वास्तविक समय मौसम, यातायात, खेल और अन्य समाचार जानकारी जैसे समाचार (4) प्रदान करता है। होम ऑटोमेशन सिस्टम बनाने के लिए एलेक्सा कई स्मार्ट उपकरणों को नियंत्रित कर सकती है। इसका उपयोग अमेज़ॅन स्टोर में सुविधाजनक खरीदारी करने के लिए भी किया जा सकता है।

4. उपयोगकर्ता इको का उपयोग किस लिए करते हैं (शोध के अनुसार)

उपयोगकर्ता एलेक्सा "कौशल" (), तीसरे पक्ष द्वारा विकसित अतिरिक्त सुविधाओं को स्थापित करके एलेक्सा अनुभव को बढ़ा सकते हैं, जिन्हें आमतौर पर अन्य सेटिंग्स में मौसम और ऑडियो प्रोग्राम जैसे ऐप्स के रूप में जाना जाता है। अधिकांश एलेक्सा डिवाइस आपको अपने वर्चुअल असिस्टेंट को वेक-अप पासवर्ड के साथ सक्रिय करने की अनुमति देते हैं, जिसे कहा जाता है।

अमेज़न निश्चित रूप से आज स्मार्ट स्पीकर बाजार पर हावी है (5)। मार्च 2018 में एक नई सेवा शुरू करने वाली आईबीएम शीर्ष चार में प्रवेश करने की कोशिश कर रही है वॉटसन के सहायक, उन कंपनियों के लिए डिज़ाइन किया गया है जो ध्वनि नियंत्रण के साथ आभासी सहायकों की अपनी प्रणाली बनाना चाहते हैं। आईबीएम समाधान का क्या फायदा है? कंपनी के प्रतिनिधियों के अनुसार, सबसे पहले, वैयक्तिकरण और गोपनीयता सुरक्षा के लिए बहुत अधिक अवसर।

सबसे पहले, वॉटसन असिस्टेंट ब्रांडेड नहीं है। कंपनियां इस प्लेटफ़ॉर्म पर अपने स्वयं के समाधान बना सकती हैं और उन्हें अपने ब्रांड के साथ लेबल कर सकती हैं।

दूसरा, वे अपने सहायक सिस्टम को अपने स्वयं के डेटा सेट का उपयोग करके प्रशिक्षित कर सकते हैं, जो आईबीएम का कहना है कि अन्य वीयूआई (वॉयस यूजर इंटरफेस) प्रौद्योगिकियों की तुलना में उस सिस्टम में फ़ंक्शन और कमांड जोड़ना आसान बनाता है।

तीसरा, वॉटसन असिस्टेंट आईबीएम को उपयोगकर्ता गतिविधि के बारे में जानकारी प्रदान नहीं करता है - प्लेटफ़ॉर्म पर समाधान के डेवलपर्स केवल मूल्यवान डेटा अपने पास रख सकते हैं। इस बीच, जो कोई भी उपकरण बनाता है, उदाहरण के लिए एलेक्सा के साथ, उसे पता होना चाहिए कि उसका मूल्यवान डेटा अमेज़ॅन पर समाप्त हो जाएगा।

वॉटसन असिस्टेंट के पास पहले से ही कई कार्यान्वयन हैं। उदाहरण के लिए, इस प्रणाली का उपयोग हरमन द्वारा किया गया, जिसने मासेराती कॉन्सेप्ट कार (6) के लिए एक आवाज सहायक बनाया। म्यूनिख हवाई अड्डे पर, आईबीएम का एक सहायक यात्रियों को घूमने में मदद करने के लिए एक पेपर रोबोट को शक्ति प्रदान करता है। तीसरा उदाहरण गिरगिट टेक्नोलॉजीज है, जहां स्मार्ट होम मीटर में वॉयस तकनीक का उपयोग किया जाता है।

6. मासेराती कॉन्सेप्ट कार में वॉटसन असिस्टेंट

यह जोड़ने योग्य है कि यहां अंतर्निहित तकनीक भी नई नहीं है। वॉटसन असिस्टेंट में मौजूदा आईबीएम उत्पादों, वॉटसन कन्वर्सेशन और वॉटसन वर्चुअल एजेंट के लिए एन्क्रिप्शन क्षमताएं, साथ ही भाषा विश्लेषण और चैट के लिए एपीआई शामिल हैं।

अमेज़ॅन न केवल स्मार्ट वॉयस तकनीक में अग्रणी है, बल्कि इसे प्रत्यक्ष व्यवसाय में बदल रहा है। हालाँकि, कुछ कंपनियों ने बहुत पहले इको एकीकरण का प्रयोग किया है। बीआई और एनालिटिक्स उद्योग की कंपनी सिसेंस ने जुलाई 2016 में इको इंटीग्रेशन पेश किया। बदले में, स्टार्टअप रॉक्सी ने आतिथ्य उद्योग के लिए आवाज नियंत्रण के साथ अपना खुद का सॉफ्टवेयर और हार्डवेयर बनाने का फैसला किया। इस साल की शुरुआत में, Synqq ने एक नोट लेने वाला ऐप पेश किया था जो नोट्स और कैलेंडर प्रविष्टियों को कीबोर्ड पर टाइप किए बिना जोड़ने के लिए आवाज और प्राकृतिक भाषा प्रसंस्करण का उपयोग करता है।

इन सभी छोटे व्यवसायों की उच्च महत्वाकांक्षाएं हैं। हालाँकि, सबसे बढ़कर, उन्हें यह पता चला कि प्रत्येक उपयोगकर्ता अपना डेटा Amazon, Google, Apple या Microsoft को स्थानांतरित नहीं करना चाहता है, जो ध्वनि संचार प्लेटफ़ॉर्म बनाने में सबसे महत्वपूर्ण खिलाड़ी हैं।

अमेरिकी खरीदना चाहते हैं

2016 में, सभी Google मोबाइल खोजों में ध्वनि खोज का हिस्सा 20% था। जो लोग इस तकनीक का दैनिक आधार पर उपयोग करते हैं वे इसकी सुविधा और मल्टीटास्किंग को इसके सबसे बड़े लाभों में से एक बताते हैं। (उदाहरण के लिए, कार चलाते समय खोज इंजन का उपयोग करने की क्षमता)।

विज़नगेन विश्लेषकों का अनुमान है कि स्मार्ट डिजिटल सहायकों का वर्तमान बाजार मूल्य $1,138 बिलियन है। ऐसे अधिक से अधिक तंत्र हैं। गार्टनर के अनुसार, 2018 के अंत तक हमारी बातचीत का 30% प्रौद्योगिकी के साथ वॉयस सिस्टम के साथ बातचीत के माध्यम से होगा।

ब्रिटिश शोध फर्म आईएचएस मार्किट का अनुमान है कि एआई-संचालित डिजिटल सहायकों का बाजार इस साल के अंत तक 4 अरब उपकरणों तक पहुंच जाएगा, और 2020 तक यह संख्या बढ़कर 7 अरब हो सकती है।

eMarketer और VoiceLabs की रिपोर्ट के अनुसार, 2017 में 35,6 मिलियन अमेरिकियों ने महीने में कम से कम एक बार वॉयस कंट्रोल का इस्तेमाल किया। इसका मतलब है कि पिछले वर्ष की तुलना में लगभग 130% की वृद्धि। अकेले डिजिटल सहायक बाजार के 2018 में 23% बढ़ने की उम्मीद है। इसका मतलब है कि आप पहले से ही उनका उपयोग कर रहे होंगे। 60,5 मिलियन अमेरिकी, जिसके परिणामस्वरूप उनके उत्पादकों को ठोस धन प्राप्त होगा। आरबीसी कैपिटल मार्केट्स का अनुमान है कि एलेक्सा इंटरफ़ेस 2020 तक अमेज़न के लिए $10 बिलियन तक का राजस्व उत्पन्न करेगा।

धोएं, सेंकें, साफ़ करें!

वॉयस इंटरफेस तेजी से घरेलू उपकरणों और उपभोक्ता इलेक्ट्रॉनिक्स बाजारों में प्रवेश कर रहे हैं। इसे पिछले साल की IFA 2017 प्रदर्शनी के दौरान पहले ही देखा जा सकता था। उदाहरण के लिए, अमेरिकी कंपनी नीटो रोबोटिक्स ने एक रोबोट वैक्यूम क्लीनर पेश किया, जो अमेज़ॅन इको सिस्टम सहित कई स्मार्ट होम प्लेटफार्मों में से एक से जुड़ता है। इको स्मार्ट स्पीकर से बात करके आप मशीन को दिन या रात के विशिष्ट समय पर अपने पूरे घर को साफ करने का निर्देश दे सकते हैं।

शो में अन्य आवाज-सक्रिय उत्पादों का प्रदर्शन किया गया, जिनमें तुर्की कंपनी वेस्टेल द्वारा तोशिबा ब्रांड के तहत बेचे जाने वाले स्मार्ट टीवी से लेकर जर्मन कंपनी ब्यूरर द्वारा गर्म कंबल तक शामिल थे। इनमें से कई इलेक्ट्रॉनिक उपकरणों को स्मार्टफोन का उपयोग करके दूर से भी सक्रिय किया जा सकता है।

हालाँकि, बॉश प्रतिनिधियों के अनुसार, यह कहना जल्दबाजी होगी कि गृह सहायक विकल्पों में से कौन सा विकल्प प्रभावी हो जाएगा। IFA 2017 में, एक जर्मन तकनीकी समूह ने वॉशिंग मशीन (7), ओवन और कॉफी मशीनें प्रदर्शित कीं जो इको से जुड़ती हैं। बॉश यह भी चाहता है कि भविष्य में उसके उपकरण Google और Apple वॉयस प्लेटफ़ॉर्म के साथ संगत हों।

7. बॉश वॉशिंग मशीन जो अमेज़न इको से कनेक्ट होती है

फुजित्सु, सोनी और पैनासोनिक जैसी कंपनियां अपने स्वयं के एआई-आधारित वॉयस असिस्टेंट समाधान विकसित कर रही हैं। शार्प इस तकनीक को बाजार में प्रवेश करने वाले ओवन और छोटे रोबोटों में जोड़ रहा है। निप्पॉन टेलीग्राफ एंड टेलीफोन आवाज-नियंत्रित कृत्रिम बुद्धिमत्ता प्रणाली को अनुकूलित करने के लिए हार्डवेयर और खिलौना निर्माताओं को काम पर रख रहा है।

पुरानी अवधारणा. क्या आख़िरकार उसका समय आ गया है?

दरअसल, वॉयस यूजर इंटरफेस (वीयूआई) की अवधारणा दशकों से मौजूद है। जिसने भी वर्षों पहले स्टार ट्रेक या 2001: ए स्पेस ओडिसी देखी थी, उसे शायद उम्मीद थी कि वर्ष 2000 के आसपास हम सभी अपनी आवाज़ से कंप्यूटर को नियंत्रित करेंगे। इसके अलावा, यह सिर्फ विज्ञान कथा लेखक ही नहीं थे जिन्होंने इस प्रकार के इंटरफ़ेस की क्षमता देखी। 1986 में, नील्सन शोधकर्ताओं ने आईटी पेशेवरों से पूछा कि उनके अनुसार वर्ष 2000 तक यूजर इंटरफेस में सबसे बड़ा बदलाव क्या होगा। उन्होंने अक्सर वॉयस इंटरफेस के विकास की ओर इशारा किया।

ऐसे समाधान की आशा करने के कई कारण हैं। आख़िरकार, मौखिक संचार लोगों के लिए सचेत रूप से विचारों का आदान-प्रदान करने का सबसे स्वाभाविक तरीका है, इसलिए मानव-मशीन संपर्क के लिए इसका उपयोग करना अब तक का सबसे अच्छा समाधान लगता है।

पहले VUI में से एक, जिसे कहा जाता है जूते का डिब्बा, IBM द्वारा 60 के दशक की शुरुआत में बनाया गया था। यह आज की आवाज पहचान प्रणालियों का अग्रदूत था। हालाँकि, VUI उपकरणों का विकास कंप्यूटिंग शक्ति की सीमा द्वारा सीमित था। वास्तविक समय में मानव भाषण को पार्स करने और व्याख्या करने के लिए बहुत प्रयास की आवश्यकता होती है, और उस बिंदु तक पहुंचने में जहां यह वास्तव में संभव हो गया, पचास साल से अधिक समय लग गया।

वॉयस इंटरफ़ेस वाले उपकरण 90 के दशक के मध्य में बड़े पैमाने पर उत्पादन में आने लगे, लेकिन लोकप्रियता हासिल नहीं कर पाए। ध्वनि नियंत्रण (डायलिंग) वाला पहला टेलीफोन था फिलिप्स स्पार्क1996 में रिलीज़ हुई। हालाँकि, यह नवीन और उपयोग में आसान उपकरण तकनीकी सीमाओं से मुक्त नहीं था।

वॉइस इंटरफ़ेस (आरआईएम, सैमसंग या मोटोरोला जैसी कंपनियों द्वारा निर्मित) से लैस अन्य फोन नियमित रूप से बाजार में आते हैं, जिससे उपयोगकर्ता आवाज से डायल कर सकते हैं या टेक्स्ट संदेश भेज सकते हैं। हालाँकि, उन सभी को विशिष्ट आदेशों को याद रखने और उन्हें उस समय के उपकरणों की क्षमताओं के अनुकूल, मजबूर, कृत्रिम रूप में उच्चारण करने की आवश्यकता थी। इससे बड़ी संख्या में त्रुटियां उत्पन्न हुईं, जिसके परिणामस्वरूप उपयोगकर्ता में असंतोष पैदा हुआ।

हालाँकि, अब हम कंप्यूटिंग के एक नए युग में प्रवेश कर रहे हैं, जिसमें मशीन लर्निंग और कृत्रिम बुद्धिमत्ता में प्रगति प्रौद्योगिकी के साथ बातचीत करने के एक नए तरीके के रूप में बातचीत की क्षमता को खोल रही है (8)। ध्वनि इंटरैक्शन का समर्थन करने वाले उपकरणों की संख्या एक महत्वपूर्ण कारक बन गई है जिसका VUI के विकास पर बड़ा प्रभाव पड़ा है। आज, दुनिया की लगभग 1/3 आबादी के पास पहले से ही स्मार्टफ़ोन हैं जिनका उपयोग इस प्रकार के व्यवहार के लिए किया जा सकता है। ऐसा लगता है कि अधिकांश उपयोगकर्ता अंततः अपने वॉयस इंटरफेस को अनुकूलित करने के लिए तैयार हैं।

8. वॉयस इंटरफ़ेस के विकास का आधुनिक इतिहास

हालाँकि, इससे पहले कि हम स्वतंत्र रूप से कंप्यूटर से बात कर सकें, जैसा कि ए स्पेस ओडिसी के पात्रों ने किया था, हमें कई समस्याओं पर काबू पाना होगा। भाषाई बारीकियों को संभालने में मशीनें अभी भी बहुत अच्छी नहीं हैं। अलावा कई लोग अभी भी सर्च इंजन को वॉयस कमांड देने में असहज महसूस करते हैं.

आंकड़े बताते हैं कि वॉयस असिस्टेंट का उपयोग मुख्य रूप से घर पर या करीबी दोस्तों के बीच किया जाता है। साक्षात्कार में शामिल लोगों में से किसी ने भी सार्वजनिक स्थानों पर ध्वनि खोज का उपयोग करने की बात स्वीकार नहीं की। हालाँकि, इस तकनीक के प्रसार से यह नाकाबंदी ख़त्म होने की संभावना है।

तकनीकी रूप से कठिन प्रश्न

सिस्टम (एएसआर) के सामने आने वाली समस्या भाषण सिग्नल से उपयोगी डेटा निकालना और इसे एक निश्चित शब्द के साथ जोड़ना है जिसका किसी व्यक्ति के लिए एक निश्चित अर्थ होता है। हर बार उत्पन्न ध्वनियाँ भिन्न होती हैं।

भाषण संकेत परिवर्तनशीलता यह इसकी प्राकृतिक संपत्ति है, जिसकी बदौलत हम, उदाहरण के लिए, किसी उच्चारण या स्वर को पहचानते हैं। वाक् पहचान प्रणाली के प्रत्येक तत्व का एक विशिष्ट कार्य होता है। संसाधित सिग्नल और उसके मापदंडों के आधार पर, एक ध्वनिक मॉडल बनाया जाता है, जो भाषा मॉडल से जुड़ा होता है। पहचान प्रणाली छोटी या बड़ी संख्या में पैटर्न के आधार पर काम कर सकती है, जो उस शब्दावली का आकार निर्धारित करती है जिसके साथ यह काम करती है। वे हो सकते है छोटे शब्दकोश उन प्रणालियों के मामले में जो व्यक्तिगत शब्दों या आदेशों को पहचानती हैं, साथ ही बड़े डेटाबेस भाषा सेट के समतुल्य और भाषा मॉडल (व्याकरण) को ध्यान में रखते हुए।

सबसे पहले वॉयस इंटरफेस में आने वाली समस्याएं वाणी को सही ढंग से समझें, जिसमें, उदाहरण के लिए, संपूर्ण व्याकरणिक अनुक्रम अक्सर छोड़ दिए जाते हैं, भाषाई और ध्वन्यात्मक त्रुटियां, त्रुटियां, चूक, भाषण दोष, समानार्थी शब्द, अनुचित दोहराव आदि होते हैं। इन सभी एसीपी प्रणालियों को जल्दी और विश्वसनीय रूप से काम करना चाहिए। कम से कम यही उम्मीदें हैं.

कठिनाइयों का स्रोत मान्यता प्राप्त भाषण के अलावा अन्य ध्वनिक संकेत भी हैं जो मान्यता प्रणाली के इनपुट में प्रवेश करते हैं, अर्थात। सभी प्रकार के हस्तक्षेप और शोर. सबसे सरल मामले में, आपको उनकी आवश्यकता है फिल्टर खतम हो गया. यह कार्य नियमित और आसान लगता है - आखिरकार, विभिन्न सिग्नल फ़िल्टर किए जाते हैं और प्रत्येक इलेक्ट्रॉनिक्स इंजीनियर जानता है कि ऐसी स्थिति में क्या करना है। हालाँकि, यदि वाक् पहचान का परिणाम हमारी अपेक्षाओं को पूरा करना है तो यह बहुत सावधानीपूर्वक और सावधानी से किया जाना चाहिए।

वर्तमान में उपयोग किए जाने वाले फ़िल्टरिंग से स्पीच सिग्नल के साथ-साथ, माइक्रोफ़ोन द्वारा उठाए गए बाहरी शोर और स्पीच सिग्नल के आंतरिक गुणों को हटाना संभव हो जाता है, जिससे इसे पहचानना मुश्किल हो जाता है। हालाँकि, एक अधिक जटिल तकनीकी समस्या तब उत्पन्न होती है जब विश्लेषण किए गए भाषण संकेत में हस्तक्षेप होता है ... एक और भाषण संकेत, उदाहरण के लिए, चारों ओर ज़ोर से चर्चा। इस प्रश्न को साहित्य में तथाकथित के रूप में जाना जाता है। इसके लिए पहले से ही तथाकथित जटिल तरीकों के उपयोग की आवश्यकता है। विखंडन (खुलासा) संकेत.

वाक् पहचान की समस्याएँ यहीं ख़त्म नहीं होतीं। यह समझने योग्य है कि भाषण में कई अलग-अलग प्रकार की जानकारी होती है। मानव आवाज़ लिंग, आयु, मालिक के विभिन्न चरित्र या उसके स्वास्थ्य की स्थिति का सुझाव देती है। बायोमेडिकल इंजीनियरिंग का एक व्यापक विभाग है जो वाक् संकेत में पाई जाने वाली विशिष्ट ध्वनिक घटनाओं के आधार पर विभिन्न रोगों के निदान से संबंधित है।

ऐसे अनुप्रयोग भी हैं जहां भाषण संकेत के ध्वनिक विश्लेषण का मुख्य उद्देश्य वक्ता की पहचान करना या यह सत्यापित करना है कि वह वही है जो वह होने का दावा करता है (कुंजी, पासवर्ड या पीयूके कोड के बजाय आवाज)। यह महत्वपूर्ण हो सकता है, विशेषकर स्मार्ट बिल्डिंग प्रौद्योगिकियों के लिए।

वाक् पहचान प्रणाली का पहला घटक है микрофон. हालाँकि, माइक्रोफ़ोन द्वारा उठाया गया सिग्नल आमतौर पर बहुत कम उपयोग का रहता है। अध्ययनों से पता चलता है कि ध्वनि तरंग का आकार और पाठ्यक्रम व्यक्ति, भाषण की गति और आंशिक रूप से वार्ताकार की मनोदशा के आधार पर बहुत भिन्न होता है - जबकि कुछ हद तक वे बोले गए आदेशों की सामग्री को प्रतिबिंबित करते हैं।

इसलिए, सिग्नल को सही ढंग से संसाधित किया जाना चाहिए। आधुनिक ध्वनिकी, ध्वन्यात्मकता और कंप्यूटर विज्ञान मिलकर उपकरणों का एक समृद्ध सेट प्रदान करते हैं जिनका उपयोग भाषण संकेत को संसाधित करने, विश्लेषण करने, पहचानने और समझने के लिए किया जा सकता है। सिग्नल का गतिशील स्पेक्ट्रम, तथाकथित गतिशील स्पेक्ट्रोग्राम. उन्हें प्राप्त करना काफी आसान है, और गतिशील स्पेक्ट्रोग्राम के रूप में प्रस्तुत भाषण को छवि पहचान में उपयोग की जाने वाली तकनीकों के समान तकनीकों का उपयोग करके पहचानना अपेक्षाकृत आसान है।

भाषण के सरल तत्वों (उदाहरण के लिए, आदेश) को संपूर्ण स्पेक्ट्रोग्राम की सरल समानता से पहचाना जा सकता है। उदाहरण के लिए, एक आवाज-सक्रिय मोबाइल फोन शब्दकोश में केवल कुछ दसियों से लेकर कुछ सौ शब्द और वाक्यांश होते हैं, जो आमतौर पर पहले से स्टैक्ड होते हैं ताकि उन्हें आसानी से और कुशलता से पहचाना जा सके। यह सरल नियंत्रण कार्यों के लिए पर्याप्त है, लेकिन यह समग्र अनुप्रयोग को गंभीर रूप से सीमित कर देता है। योजना के अनुसार निर्मित सिस्टम, एक नियम के रूप में, केवल विशिष्ट वक्ताओं का समर्थन करते हैं जिनके लिए आवाज़ें विशेष रूप से प्रशिक्षित होती हैं। इसलिए यदि कोई नया व्यक्ति है जो सिस्टम को नियंत्रित करने के लिए अपनी आवाज़ का उपयोग करना चाहता है, तो संभवतः उसे स्वीकार नहीं किया जाएगा।

इस ऑपरेशन का परिणाम कहा जाता है स्पेक्ट्रोग्राम 2-डब्ल्यू, यानी, एक द्वि-आयामी स्पेक्ट्रम। इस ब्लॉक में एक और गतिविधि है जिस पर ध्यान देना ज़रूरी है - विभाजन. सामान्यतया, हम एक सतत वाक् संकेत को ऐसे भागों में तोड़ने की बात कर रहे हैं जिन्हें अलग-अलग पहचाना जा सके। इन व्यक्तिगत निदानों से ही समग्र की पहचान होती है। यह प्रक्रिया आवश्यक है क्योंकि एक बार में लंबे और जटिल भाषण की पहचान करना संभव नहीं है। भाषण संकेत में किन खंडों को अलग करना है, इसके बारे में पहले ही पूरे खंड लिखे जा चुके हैं, इसलिए हम अब यह तय नहीं करेंगे कि क्या विशिष्ट खंड स्वर (ध्वनि समकक्ष), शब्दांश, या शायद एलोफोन होने चाहिए।

स्वचालित पहचान की प्रक्रिया हमेशा वस्तुओं की कुछ विशेषताओं को संदर्भित करती है। वाक् संकेत के लिए विभिन्न मापदंडों के सैकड़ों सेटों का परीक्षण किया गया है। वाक् संकेत है मान्यता प्राप्त फ़्रेमों में विभाजित और होना चयनित विशेषताएँजिससे इन फ़्रेमों को पहचान प्रक्रिया में प्रस्तुत किया जाता है, हम प्रदर्शन कर सकते हैं (प्रत्येक फ़्रेम के लिए अलग से) वर्गीकरण, अर्थात। फ़्रेम को एक पहचानकर्ता निर्दिष्ट करना, जो भविष्य में इसका प्रतिनिधित्व करेगा।

अगला चरण अलग-अलग शब्दों में फ़्रेम का संयोजन - बहुधा तथाकथित पर आधारित। निहित मार्कोव मॉडल का मॉडल (एचएमएम-)। फिर आता है शब्दों का संगम पूर्ण वाक्य.

अब हम एक पल के लिए एलेक्सा सिस्टम पर लौट सकते हैं। उनका उदाहरण किसी व्यक्ति की मशीनी "समझ" की एक बहु-चरण प्रक्रिया को दर्शाता है - अधिक सटीक रूप से: उसके द्वारा दिया गया एक आदेश या पूछा गया एक प्रश्न।

शब्दों को समझना, अर्थ समझना और उपयोगकर्ता के इरादे को समझना पूरी तरह से अलग चीजें हैं।

इसलिए, अगला चरण एनएलपी मॉड्यूल () का कार्य है, जिसका कार्य है उपयोगकर्ता के इरादे की पहचान, अर्थात। आदेश/प्रश्न का उस संदर्भ में अर्थ जिसमें यह कहा गया था। अगर इरादा पहचान लिया जाए तो तथाकथित कौशल और क्षमताओं का असाइनमेंट, यानी स्मार्ट असिस्टेंट द्वारा समर्थित विशिष्ट सुविधा। मौसम के बारे में किसी प्रश्न के मामले में, मौसम डेटा स्रोतों को बुलाया जाता है, जिसे भाषण (टीटीएस - तंत्र) में संसाधित किया जाना बाकी है। परिणामस्वरूप, उपयोगकर्ता पूछे गए प्रश्न का उत्तर सुनता है।

आवाज़? ललित कलाएं? या शायद दोनों?

अधिकांश ज्ञात आधुनिक इंटरैक्शन प्रणालियाँ एक मध्यस्थ पर आधारित होती हैं जिसे कहा जाता है ग्राफिकल यूज़र इंटरफ़ेस (ग्राफ़िकल इंटरफ़ेस). दुर्भाग्य से, GUI किसी डिजिटल उत्पाद के साथ इंटरैक्ट करने का सबसे स्पष्ट तरीका नहीं है। इसके लिए आवश्यक है कि उपयोगकर्ता पहले इंटरफ़ेस का उपयोग करना सीखें और प्रत्येक बाद की बातचीत के साथ इस जानकारी को याद रखें। कई स्थितियों में, आवाज अधिक सुविधाजनक होती है, क्योंकि आप केवल डिवाइस से बात करके VUI के साथ बातचीत कर सकते हैं। एक इंटरफ़ेस जो उपयोगकर्ताओं को कुछ आदेशों या इंटरैक्शन विधियों को याद रखने और याद रखने के लिए मजबूर नहीं करता है, कम समस्याएं पैदा करता है।

बेशक, वीयूआई के विस्तार का मतलब अधिक पारंपरिक इंटरफेस को छोड़ना नहीं है - बल्कि, हाइब्रिड इंटरफेस उपलब्ध होंगे जो बातचीत के कई तरीकों को जोड़ते हैं।

वॉइस इंटरफ़ेस मोबाइल संदर्भ में सभी कार्यों के लिए उपयुक्त नहीं है। इसके साथ, हम एक कार चलाने वाले दोस्त को कॉल करेंगे, और उसे एक एसएमएस भी भेजेंगे, लेकिन नवीनतम स्थानान्तरण की जाँच करना बहुत मुश्किल हो सकता है - सिस्टम () और सिस्टम (सिस्टम) द्वारा उत्पन्न जानकारी की मात्रा के कारण। जैसा कि राहेल हिनमैन ने अपनी पुस्तक मोबाइल फ्रंटियर में सुझाव दिया है, वीयूआई का उपयोग उन कार्यों को करते समय सबसे प्रभावी हो जाता है जहां इनपुट और आउटपुट जानकारी की मात्रा कम होती है।

इंटरनेट से जुड़ा स्मार्टफोन सुविधाजनक होने के साथ-साथ असुविधाजनक भी है (9)। जब भी कोई उपयोगकर्ता कुछ खरीदना चाहता है या नई सेवा का उपयोग करना चाहता है, तो उसे दूसरा ऐप डाउनलोड करना होगा और एक नया खाता बनाना होगा। यहां वॉइस इंटरफेस के उपयोग और विकास के लिए एक क्षेत्र बनाया गया है। विशेषज्ञों का कहना है कि उपयोगकर्ताओं को कई अलग-अलग ऐप इंस्टॉल करने या प्रत्येक सेवा के लिए अलग-अलग खाते बनाने के लिए मजबूर करने के बजाय, VUI इन बोझिल कार्यों के बोझ को AI-संचालित वॉयस असिस्टेंट पर स्थानांतरित कर देगा। उसके लिए कठिन गतिविधियाँ करना सुविधाजनक होगा। हम तो उसे आदेश ही देंगे.

9. स्मार्ट फोन के माध्यम से वॉयस इंटरफ़ेस

आज, फ़ोन और कंप्यूटर से कहीं अधिक लोग इंटरनेट से जुड़े हुए हैं। स्मार्ट थर्मोस्टेट, लाइट, केतली और कई अन्य IoT-एकीकृत उपकरण भी नेटवर्क से जुड़े हुए हैं (10)। इस प्रकार, हमारे चारों ओर वायरलेस डिवाइस हैं जो हमारे जीवन को भर देते हैं, लेकिन उनमें से सभी ग्राफिकल यूजर इंटरफेस में स्वाभाविक रूप से फिट नहीं होते हैं। VUI का उपयोग करने से आपको उन्हें हमारे परिवेश में आसानी से एकीकृत करने में मदद मिलेगी।

10. इंटरनेट ऑफ थिंग्स के साथ वॉयस इंटरफ़ेस

वॉयस यूजर इंटरफेस बनाना जल्द ही एक प्रमुख डिजाइनर कौशल बन जाएगा। यह एक वास्तविक समस्या है - वॉइस सिस्टम को लागू करने की आवश्यकता आपको सक्रिय डिज़ाइन पर अधिक ध्यान केंद्रित करने के लिए प्रोत्साहित करेगी, अर्थात, उपयोगकर्ता के शुरुआती इरादों को समझने की कोशिश करना, बातचीत के हर चरण में उनकी जरूरतों और अपेक्षाओं का अनुमान लगाना।

वॉयस डेटा दर्ज करने का एक प्रभावी तरीका है - यह उपयोगकर्ताओं को अपनी शर्तों पर सिस्टम को तुरंत आदेश जारी करने की अनुमति देता है। दूसरी ओर, स्क्रीन जानकारी प्रदर्शित करने का एक कुशल तरीका प्रदान करती है: यह सिस्टम को एक ही समय में बड़ी मात्रा में जानकारी प्रदर्शित करने की अनुमति देती है, जिससे उपयोगकर्ताओं की मेमोरी पर बोझ कम हो जाता है। यह तर्कसंगत है कि उन्हें एक प्रणाली में संयोजित करना उत्साहवर्धक लगता है।

अमेज़ॅन इको और Google होम जैसे स्मार्ट स्पीकर बिल्कुल भी विज़ुअल डिस्प्ले प्रदान नहीं करते हैं। मध्यम दूरी पर आवाज पहचान की सटीकता में उल्लेखनीय सुधार करते हुए, वे हाथों से मुक्त संचालन की अनुमति देते हैं, जिससे बदले में उनकी लचीलापन और दक्षता बढ़ जाती है - वे उन उपयोगकर्ताओं के लिए भी वांछनीय हैं जिनके पास पहले से ही आवाज नियंत्रण वाले स्मार्टफोन हैं। हालाँकि, स्क्रीन की कमी एक बड़ी सीमा है।

उपयोगकर्ताओं को संभावित आदेशों के बारे में सूचित करने के लिए केवल बीप का उपयोग किया जा सकता है, और सबसे बुनियादी कार्यों को छोड़कर आउटपुट को ज़ोर से पढ़ना कठिन हो जाता है। खाना बनाते समय वॉयस कमांड के साथ टाइमर सेट करना बहुत अच्छा है, लेकिन आपसे यह पूछना कि कितना समय बचा है, यह आवश्यक नहीं है। नियमित मौसम पूर्वानुमान प्राप्त करना उपयोगकर्ता के लिए स्मृति की एक परीक्षा बन जाता है, जिसे एक नज़र में स्क्रीन से उठाने के बजाय पूरे सप्ताह तथ्यों की एक श्रृंखला को सुनना और आत्मसात करना होता है।

डिज़ाइनर पहले ही कर चुके हैं संकर समाधान, इको शो (11), जिसने बेसिक इको स्मार्ट स्पीकर में एक डिस्प्ले स्क्रीन जोड़ी। इससे उपकरण की कार्यक्षमता में काफी विस्तार होता है। हालाँकि, इको शो अभी भी उन बुनियादी कार्यों को करने में बहुत कम सक्षम है जो लंबे समय से स्मार्टफोन और टैबलेट पर उपलब्ध हैं। उदाहरण के लिए, यह (अभी तक) वेब सर्फ नहीं कर सकता, समीक्षाएँ नहीं दिखा सकता, या अमेज़न शॉपिंग कार्ट की सामग्री प्रदर्शित नहीं कर सकता।

दृश्य प्रदर्शन स्वाभाविक रूप से लोगों को ध्वनि की तुलना में ढेर सारी जानकारी प्रदान करने का एक अधिक प्रभावी तरीका है। ध्वनि प्राथमिकता के साथ डिज़ाइन करने से ध्वनि इंटरैक्शन में काफी सुधार हो सकता है, लेकिन लंबे समय में, इंटरैक्शन के लिए मनमाने ढंग से दृश्य मेनू का उपयोग न करना आपकी पीठ के पीछे एक हाथ बांधकर लड़ने जैसा होगा। एंड-टू-एंड इंटेलिजेंट वॉयस और डिस्प्ले इंटरफेस की बढ़ती जटिलता के कारण, डेवलपर्स को इंटरफेस के लिए हाइब्रिड दृष्टिकोण पर गंभीरता से विचार करना चाहिए।

भाषण निर्माण और पहचान प्रणालियों की दक्षता और गति में वृद्धि से उन्हें ऐसे अनुप्रयोगों और क्षेत्रों में उपयोग करना संभव हो गया है, उदाहरण के लिए:

• सैन्य (विमानों या हेलीकॉप्टरों में वॉयस कमांड, उदाहरण के लिए, F16 VISTA),

• स्वचालित पाठ प्रतिलेखन (भाषण से पाठ),

• इंटरैक्टिव सूचना प्रणाली (प्राइम स्पीच, वॉयस पोर्टल),

• मोबाइल डिवाइस (फोन, स्मार्टफोन, टैबलेट),

• रोबोटिक्स (क्लेवरबॉट - कृत्रिम बुद्धिमत्ता के साथ संयुक्त एएसआर सिस्टम),

• ऑटोमोटिव (कार घटकों का हाथों से मुक्त नियंत्रण, जैसे ब्लू एंड मी),

• घरेलू अनुप्रयोग (स्मार्ट होम सिस्टम)।

सुरक्षा का ध्यान रखें!

ऑटोमोटिव, घरेलू उपकरण, हीटिंग/कूलिंग और घरेलू सुरक्षा प्रणालियाँ, और कई घरेलू उपकरण वॉयस इंटरफेस का उपयोग करना शुरू कर रहे हैं, जो अक्सर एआई-आधारित होता है। इस स्तर पर, मशीनों के साथ लाखों वार्तालापों से प्राप्त डेटा भेजा जाता है कंप्यूटिंग बादल. यह स्पष्ट है कि विपणक उनमें रुचि रखते हैं। और केवल वे ही नहीं.

सिमेंटेक सुरक्षा विशेषज्ञों की एक हालिया रिपोर्ट में सिफारिश की गई है कि वॉयस कमांड उपयोगकर्ता दरवाजे के ताले जैसी सुरक्षा सुविधाओं को नियंत्रित नहीं करते हैं, घरेलू सुरक्षा प्रणालियों की तो बात ही छोड़ दें। यही बात पासवर्ड या गोपनीय जानकारी संग्रहीत करने के लिए भी लागू होती है। कृत्रिम बुद्धिमत्ता और स्मार्ट उत्पादों की सुरक्षा का अभी तक पर्याप्त अध्ययन नहीं किया गया है।

जब पूरे घर में उपकरण हर शब्द को सुनते हैं, तो हैकिंग और सिस्टम के दुरुपयोग का जोखिम एक अत्यंत महत्वपूर्ण मुद्दा बन जाता है। यदि कोई हमलावर स्थानीय नेटवर्क या उससे जुड़े ईमेल पते तक पहुंच प्राप्त करता है, तो स्मार्ट डिवाइस सेटिंग्स को फ़ैक्टरी सेटिंग्स में बदला या रीसेट किया जा सकता है, जिसके परिणामस्वरूप मूल्यवान जानकारी खो जाती है और उपयोगकर्ता इतिहास नष्ट हो जाता है।

दूसरे शब्दों में, सुरक्षा पेशेवरों को डर है कि आवाज और वीयूआई-संचालित कृत्रिम बुद्धिमत्ता अभी तक इतनी स्मार्ट नहीं है कि हमें संभावित खतरों से बचा सके और जब कोई अजनबी कुछ मांगे तो हमारा मुंह बंद रहे।

एक टिप्पणी जोड़ें