Google का वह विभाग जिसे AI शोध का काम सौंपा गया है, DeepMind खुद को व्यस्त रख रहा है। DeepMind का नवीनतम उत्पाद Genie 2 है, जो एक नया AI मॉडल है, जो कंपनी के अनुसार, अनंत और खेलने योग्य 3D दुनिया बनाने में सक्षम है। DeepMind ने इस नए AI मॉडल को अपने पूर्ववर्ती Genie द्वारा रखी गई नींव पर बनाया है, जो एक ऐसा आधार AI मॉडल है जो एकल छवियों को खेलने योग्य वातावरण में बदलने में सक्षम है। हालाँकि, Genie का यह नया संस्करण अब 3D खेलने योग्य वातावरण बनाने में सक्षम है।
हाल ही में एक ब्लॉग पोस्ट में, डीपमाइंड ने बताया कि जिनी 2 इसका उन्नत बड़े पैमाने का फाउंडेशन वर्ल्ड मॉडल है, जिसे गतिशील और यथार्थवादी 3D वातावरण बनाने के लिए डिज़ाइन किया गया है। एक एकल छवि या टेक्स्ट प्रॉम्प्ट का उपयोग करके, उपयोगकर्ता एक इंटरैक्टिव वर्चुअल दुनिया बना सकते हैं। उदाहरण के लिए, यदि उपयोगकर्ता "बर्फ में एक योद्धा" टाइप करते हैं, तो वे एक सिमुलेशन दुनिया बना सकते हैं जहाँ खिलाड़ी बर्फीले वातावरण में योद्धा की पोशाक पहनते हैं। मॉडल उपयोगकर्ताओं को विभिन्न क्रियाओं, जैसे कूदना, तैरना और वस्तुओं के साथ बातचीत करना, सभी वास्तविक दुनिया के भौतिकी और प्रकाश व्यवस्था का पालन करते हुए अनुकरण करने में भी मदद करता है।
डीपमाइंड के अनुसार, जिनी 2 "विभिन्न दृष्टिकोणों, जैसे कि प्रथम-व्यक्ति और सममितीय दृष्टिकोण, के साथ एक मिनट तक सुसंगत दुनिया बना सकता है, जिसमें से अधिकांश 10 से 20 सेकंड तक चलता है।"
कंपनी बताती है कि यह क्षमता वीडियो के विशाल डेटासेट पर उसके उन्नत प्रशिक्षण से उत्पन्न हुई है, जो उसे उल्लेखनीय विवरण और सुसंगतता के साथ वातावरण का अनुकरण करने में सक्षम बनाती है।
प्रक्रिया का विवरण देते हुए, डीपमाइंड बताते हैं कि यह एक टेक्स्ट या इमेज प्रॉम्प्ट से शुरू होता है, जिसे इमेजेन3 में फीड किया जाता है, जो एक अन्य जनरेटिव मॉडल है, जो एक संगत दृश्य प्रतिनिधित्व तैयार करता है। उपयोगकर्ता फिर जिनी 2 का उपयोग करके उत्पन्न वातावरण का पता लगा सकते हैं या उससे बातचीत कर सकते हैं। मॉडल ऑटो-रिग्रेसिवली संचालित होता है, पिछले फ्रेम और उपयोगकर्ता इनपुट के आधार पर फ्रेम दर फ्रेम वीडियो बनाता है। डीपमाइंड बताते हैं, "कीबोर्ड पर कीज दबाने से की गई क्रियाओं पर जिनी 2 समझदारी से प्रतिक्रिया करता है। उदाहरण के लिए, हमारा मॉडल यह पता लगा सकता है कि एरो कीज को रोबोट को हिलाना चाहिए न कि पेड़ों या बादलों को।"
आगे विस्तार से बताते हुए, डीपमाइंड ने खुलासा किया कि जिनी 2 में एक्शन कंट्रोल क्षमताएं हैं, जहां एआई उपयोगकर्ता इनपुट की सटीक व्याख्या करता है। उदाहरण के लिए, दिशात्मक कुंजियों को दबाने से उत्पन्न वातावरण में एक रोबोट चरित्र चलता है, न कि पेड़ों या बादलों जैसी अन्य वस्तुओं की तरह।
इसके अतिरिक्त, यह सुविधा विभिन्न दृष्टिकोणों का समर्थन करती है, जिसमें प्रथम-व्यक्ति, आइसोमेट्रिक और तृतीय-व्यक्ति दृश्य शामिल हैं, जो उपयोगकर्ताओं को विभिन्न प्रारूपों में आभासी दुनिया में नेविगेट करने और उनसे बातचीत करने में सक्षम बनाता है। इसके अलावा, जिनी 2 दीर्घकालिक मेमोरी के साथ आता है, जो इसे पर्यावरण के अनदेखे हिस्सों को याद करने और उन्हें सटीक रूप से प्रस्तुत करने की अनुमति देता है जब वे फिर से दिखाई देते हैं। बेशक, जिनी 2 एक गेमिंग प्लेटफ़ॉर्म नहीं है। इसके बजाय, डीपमाइंड ने इसे एक रचनात्मक और शोध उपकरण के रूप में पेश किया है। इसलिए यह वीडियो गेम की ओर ले जा सकता है जहाँ पात्र और उनकी आभासी दुनिया को तुरंत बनाया जाएगा। कंपनी ने कहा, "जिनी 2 की आउट-ऑफ-डिस्ट्रीब्यूशन सामान्यीकरण क्षमताओं के लिए धन्यवाद, अवधारणा कला और रेखाचित्रों को पूरी तरह से इंटरैक्टिव वातावरण में बदला जा सकता है।"