डेल-मिनी क्या है और यह कैसे काम करता है?

Dela Mini Kya Hai Aura Yaha Kaise Kama Karata Hai



डेल-मिनी एक गहन शिक्षण मॉडल है जो उपयोगकर्ता इनपुट टेक्स्ट से उच्च गुणवत्ता की छवियां उत्पन्न कर सकता है। यह DALL-E मॉडल पर आधारित है, जिसे OpenAI ने जनवरी 2021 में जारी किया था। DALL-E का अर्थ है ' उलझी हुई भाषा और अव्यक्त अभिव्यक्ति ” एक ट्रांसफार्मर-आधारित तंत्रिका नेटवर्क है जो पाठ और छवियों को एक सामान्य अव्यक्त स्थान में एन्कोड कर सकता है, और फिर उन्हें किसी भी मोडेलिटी में वापस डिकोड कर सकता है।

यह आलेख निम्नलिखित सामग्री की व्याख्या करेगा:







डेल-मिनी क्या है?

उसे दे दो-मिनी DALL-E का एक छोटा और तेज़ संस्करण है, जिसे एक ओपन-सोर्स रिसर्च कलेक्टिव EleutherAI द्वारा बनाया गया था। DALL-E के 12 बिलियन की तुलना में, Dalle-मिनी केवल 6 बिलियन पैरामीटर का उपयोग करता है, और यह एकल GPU पर चल सकता है। डेल-मिनी टेक्स्ट इनपुट के लिए एक अलग टोकननाइज़र और शब्दावली का भी उपयोग करता है, जो इसे विभिन्न भाषाओं और डोमेन के साथ अधिक संगत बनाता है:




टिप्पणी : उपयोगकर्ता निम्नलिखित का पालन करके डेल-मिनी का उपयोग करके निःशुल्क छवियां उत्पन्न कर सकते हैं जोड़ना .



डेल-मिनी की कार्यप्रणाली क्या है?

डेल-मिनी के पीछे मुख्य विचार ट्रांसफार्मर की शक्ति है, जो तंत्रिका नेटवर्क हैं। वे पाठ या छवियों जैसे अनुक्रमिक डेटा में लंबी दूरी की निर्भरता और जटिल पैटर्न सीख सकते हैं।





ट्रांसफार्मर में दो प्रमुख भाग होते हैं: एक एनकोडर और एक डिकोडर। पहला भाग एक इनपुट (एक पाठ विवरण) लेता है और इसे छिपे हुए वैक्टर में बदल देता है। उसके बाद, डिकोडर इसे लेता है और एक आउटपुट (एक छवि) उत्पन्न करता है जो इनपुट के लिए प्रासंगिक होता है।

डेल-मिनी और डेल-ई के बीच क्या अंतर है?

डैल-मिनी और DALL-E टेक्स्ट और छवियों दोनों के लिए एक साझा एनकोडर-डिकोडर आर्किटेक्चर का उपयोग करते हैं। वे एक ही नेटवर्क का उपयोग करके दोनों तौर-तरीकों को एनकोड और डीकोड कर सकते हैं। यह उन्हें एक सामान्य अव्यक्त स्थान सीखने की अनुमति देता है जो पाठ और छवियों के बीच अर्थ संबंधी संबंध को पकड़ता है। उसके बाद, उन्हें क्रॉस-मोडल जेनरेशन करने में सक्षम बनाता है, जैसे टेक्स्ट से छवियां बनाना या इसके विपरीत।



डेल-मिनी कैसे काम करता है?

पाठ विवरण से एक छवि उत्पन्न करने के लिए, डेल-मिनी पहले बाइट-जोड़ी एन्कोडिंग (बीपीई) एल्गोरिदम का उपयोग करके पाठ को टोकनाइज़ करता है, जो पाठ को उनकी आवृत्ति और सह-घटना के आधार पर सबवर्ड इकाइयों में विभाजित करता है:


आइए डैल-मिनी की आंतरिक कार्यप्रणाली के बारे में विस्तार से जानें:

डेल-मिनी की आंतरिक कार्यप्रणाली

आइए मान लें, शब्द ' खेलना 'में विभाजित किया जा सकता है' प्ला ' और ' यिंग ”। फिर टोकन को 8192 टोकन की शब्दावली का उपयोग करके संख्यात्मक आईडी पर मैप किया जाता है। आईडी को एनकोडर में फीड किया जाता है, जिससे आकार 256 x 64 का एक गुप्त प्रतिनिधित्व तैयार होता है:


फिर डिकोडर अव्यक्त प्रतिनिधित्व लेता है और 256 x 256 पिक्सेल आकार की एक छवि उत्पन्न करता है। डिकोडर एक ऑटोरेग्रेसिव प्रक्रिया का उपयोग करता है, जिसका अर्थ है कि यह प्रत्येक पिक्सेल को एक-एक करके उत्पन्न करता है, जो पिछले पिक्सेल और अव्यक्त प्रतिनिधित्व पर आधारित होता है।

डेल-मिनी का उपयोग करके टेक्स्ट विवरण से छवि कैसे उत्पन्न करें?

डेल-मिनी का उपयोग करके किसी छवि से टेक्स्ट विवरण उत्पन्न करने के लिए, टेक्स्ट को प्रॉम्प्ट विंडो में इनपुट करें। उदाहरण के लिए, टाइप करें ' बेतरतीब फूलों की एक पेंटिंग 'प्रॉम्प्ट में और' दबाएं दौड़ना ' बटन:


आउटपुट से पता चलता है कि डेल-मिनी ने इनपुट टेक्स्ट के अनुसार प्रासंगिक छवियां तैयार की हैं।

निष्कर्ष

डेल-मिनी एक उल्लेखनीय मॉडल है जो क्रॉस-मोडल पीढ़ी के लिए ट्रांसफार्मर की क्षमता को प्रदर्शित करता है। वे प्राकृतिक भाषा के विवरणों से यथार्थवादी और विविध छवियां बना सकते हैं, साथ ही छवियों से सुसंगत और प्रासंगिक पाठ भी बना सकते हैं। वे जटिल रचनाओं को भी संभाल सकते हैं, जैसे एक छवि या पाठ में कई वस्तुओं या विशेषताओं का संयोजन। इस लेख में डेल-मिनी और इसकी कार्यप्रणाली के बारे में विस्तार से बताया गया है।