ट्रांसफॉर्मर में डेटासेट पर पाइपलाइन कैसे लागू करें?

Transaphormara Mem Detaseta Para Pa Ipala Ina Kaise Lagu Karem



पाइपलाइन() फ़ंक्शन ट्रांसफार्मर लाइब्रेरी का एक अभिन्न अंग है। यह कई इनपुट लेता है जिसमें हम एक अनुमान कार्य, मॉडल, टोकननाइजेशन तंत्र आदि को परिभाषित कर सकते हैं। एक या कई पाठों पर एनएलपी कार्यों को करने के लिए एक पाइपलाइन() फ़ंक्शन का प्रमुख रूप से उपयोग किया जाता है। यह मानव-पठनीय आउटपुट और अधिकतम सटीकता के साथ सटीक भविष्यवाणी उत्पन्न करने के लिए मॉडल के आधार पर इनपुट पर प्री-प्रोसेसिंग और पोस्ट-प्रोसेसिंग करता है।

यह आलेख निम्नलिखित पहलुओं को शामिल करता है:







हगिंग फेस डेटासेट लाइब्रेरी क्या है?

हगिंग फेस डेटासेट लाइब्रेरी एक एपीआई है जिसमें कई सार्वजनिक डेटासेट शामिल हैं और उन्हें डाउनलोड करने का एक आसान तरीका प्रदान करता है। इस लाइब्रेरी को 'का उपयोग करके एप्लिकेशन में आयात और इंस्टॉल किया जा सकता है' रंज ' आज्ञा। हगिंग फेस लाइब्रेरी के डेटासेट को डाउनलोड और इंस्टॉल करने के व्यावहारिक प्रदर्शन के लिए, इस पर जाएँ गूगल कोलाब लिंक. आप यहां से अनेक डेटासेट डाउनलोड कर सकते हैं हगिंग फेस डेटासेट हब।



इस लेख का संदर्भ लेकर पाइपलाइन() फ़ंक्शन के कामकाज के बारे में और जानें। ट्रांसफार्मर में पाइपलाइन() फ़ंक्शन का उपयोग कैसे करें? ”।



हगिंग फेस में डेटासेट पर पाइपलाइन कैसे लागू करें?

हगिंग फेस कई अलग-अलग सार्वजनिक डेटासेट प्रदान करता है जिन्हें एक-लाइन कोड का उपयोग करके आसानी से इंस्टॉल किया जा सकता है। इस लेख में, हम इन डेटासेटों पर पाइपलाइन लगाने का एक व्यावहारिक प्रदर्शन देखेंगे। ऐसे दो तरीके हैं जिनसे पाइपलाइनों को डेटासेट पर लागू किया जा सकता है।





विधि 1: पुनरावृत्ति विधि का उपयोग करना

पाइपलाइन() फ़ंक्शन को डेटासेट और मॉडल पर भी पुनरावृत्त किया जा सकता है। इस उद्देश्य के लिए, नीचे दिए गए चरणों का पालन करें:

चरण 1: ट्रांसफार्मर लाइब्रेरी स्थापित करें

ट्रांसफार्मर लाइब्रेरी स्थापित करने के लिए, निम्नलिखित कमांड प्रदान करें:



!पिप ट्रांसफार्मर स्थापित करें

चरण 2: पाइपलाइन आयात करें

हम ट्रांसफार्मर लाइब्रेरी से पाइपलाइन आयात कर सकते हैं। इस प्रयोजन के लिए, निम्नलिखित आदेश प्रदान करें:

ट्रांसफार्मर से पाइपलाइन आयात करते हैं

चरण 3: पाइपलाइन लागू करें

यहां, पाइपलाइन() फ़ंक्शन को मॉडल पर लागू किया गया है ' gpt2 ”। आप यहां से मॉडल डाउनलोड कर सकते हैं हगिंग फेस मॉडल हब:

def im_पाइपलाइन():
रेंज में x के लिए (1000):
उपज f'कार्यान्वयन डेटासेट{x}'


generate_pipeline= पाइपलाइन(मॉडल='gpt2', डिवाइस=0)
gen_char= 0
generate_pipeline(imp_pipeline()) में आउटपुट के लिए:
gen_char += len(आउटपुट[0]['जेनरेटेड_टेक्स्ट'])

इस कोड में, ' generate_pipeline 'एक वेरिएबल है जिसमें मॉडल के साथ पाइपलाइन() फ़ंक्शन शामिल है' gpt2 ”। जब इसे ' के साथ बुलाया जाता है im_पाइपलाइन() 'फ़ंक्शन, यह स्वचालित रूप से 1000 तक निर्दिष्ट सीमा के साथ बढ़ाए गए डेटा को पहचानता है:

इसे प्रशिक्षित करने में कुछ समय लगेगा। का लिंक गूगल कंपनी भी दिया गया है.

विधि 2: डेटासेट लाइब्रेरी का उपयोग करना

इस पद्धति में, हम 'डेटासेट' लाइब्रेरी का उपयोग करके पाइपलाइन को लागू करने का प्रदर्शन करेंगे:

चरण 1: ट्रांसफार्मर स्थापित करें

ट्रांसफार्मर लाइब्रेरी स्थापित करने के लिए, निम्नलिखित कमांड प्रदान करें:

!पिप ट्रांसफार्मर स्थापित करें

चरण 2: डेटासेट लाइब्रेरी स्थापित करें

जैसा कि ' डेटासेट लाइब्रेरी में सभी सार्वजनिक डेटासेट शामिल हैं, हम इसे निम्नलिखित कमांड का उपयोग करके इंस्टॉल कर सकते हैं। स्थापित करके ' डेटासेट 'लाइब्रेरी, हम किसी भी डेटासेट को उसका नाम प्रदान करके सीधे आयात कर सकते हैं:

!पिप डेटासेट स्थापित करें

चरण 3: डेटासेट पाइपलाइन

डेटासेट पर एक पाइपलाइन बनाने के लिए, निम्नलिखित कोड का उपयोग करें। KeyDataset एक ऐसी सुविधा है जो केवल उन्हीं मानों को आउटपुट करती है जिनमें उपयोगकर्ता की रुचि होती है:

ट्रांसफॉर्मर्स.पाइपलाइन्स.pt_utils से KeyDataset आयात करें
ट्रांसफार्मर से पाइपलाइन आयात करते हैं
डेटासेट से लोड_डेटासेट आयात करें
gen_pipeline = पाइपलाइन (मॉडल = 'hf-आंतरिक-परीक्षण/छोटे-यादृच्छिक-wav2vec2', डिवाइस = 0)
लोडडेटासेट = लोड_डेटासेट ('एचएफ-आंतरिक-परीक्षण/लाइब्रिस्पीच_एएसआर_डम्मी', 'क्लीन', स्प्लिट = 'सत्यापन [:10]') जेन_पाइपलाइन में आउटपुट के लिए (कीडेटासेट (लोडडेटासेट, 'ऑडियो')):
प्रिंट करें ('अभी आउटपुट प्रिंट कर रहा है')
प्रिंट करें ('----------------')
प्रिंट (आउटपुट)

उपरोक्त कोड का आउटपुट नीचे दिया गया है:

इस गाइड से बस इतना ही। का लिंक गूगल कंपनी इस लेख में भी बताया गया है

निष्कर्ष

डेटासेट पर पाइपलाइन लागू करने के लिए, हम या तो पाइपलाइन() फ़ंक्शन का उपयोग करके डेटासेट पर पुनरावृति कर सकते हैं या 'का उपयोग कर सकते हैं डेटासेट ' पुस्तकालय। हगिंग फेस अपने उपयोगकर्ताओं को डेटासेट और मॉडल दोनों के लिए GitHub रिपॉजिटरी लिंक प्रदान करता है जिसका उपयोग आवश्यकताओं के आधार पर किया जा सकता है। इस आलेख ने ट्रांसफॉर्मर में डेटासेट पर पाइपलाइन लगाने के लिए एक व्यापक मार्गदर्शिका प्रदान की है।