हगिंग फेस डेटासेट का उपयोग कैसे करें

Haginga Phesa Detaseta Ka Upayoga Kaise Karem



मशीन लर्निंग मॉडल की प्रयोज्यता और प्रयोज्यता का परीक्षण डेटा पर किया जाता है। परीक्षणों की विश्वसनीयता काफी हद तक उस डेटा की मात्रा और गुणवत्ता पर निर्भर करती है जिस पर ये मॉडल लागू किए जाते हैं। आपके परीक्षण के लिए उपयुक्त रूप से बड़े डेटासेट को बनाना, प्राप्त करना और साफ़ करना अपने आप में एक संपूर्ण कार्य है। प्राकृतिक भाषा प्रसंस्करण (एनएलपी) मशीन लर्निंग मॉडल।

हगिंग फेस अपने डेटासेट की असाधारण बड़ी लाइब्रेरी के साथ इसके लिए एक साफ-सुथरा समाधान प्रदान करता है, जिसमें से आप चुन सकते हैं और वह ढूंढ सकते हैं जो आपकी आवश्यकताओं के लिए पूरी तरह से फिट बैठता है। यहां, हम आपको दिखाएंगे कि आदर्श डेटासेट कैसे ढूंढें और इसे अपने मॉडल का पर्याप्त परीक्षण करने के लिए कैसे तैयार करें।







हगिंग फेस डेटासेट का उपयोग कैसे करें?

हम आपको उदाहरण का उपयोग करके हगिंग फेस डेटासेट का उपयोग करने का तरीका दिखाएंगे। छोटी कहानियाँ हगिंग फेस से डेटासेट।



उदाहरण

टाइनीस्टोरीज़ डेटासेट में ट्रेन स्प्लिट में डेटा की 2 मिलियन से अधिक पंक्तियाँ हैं और हगिंग फेस प्लेटफ़ॉर्म पर इसके 2 हज़ार से अधिक डाउनलोड हैं। हम इसे नीचे दिए गए Google Colab के कोड में उपयोग करेंगे:



! रंज स्थापित करना ट्रान्सफ़ॉर्मर
! रंज स्थापित करना डेटासेट

डेटासेट से लोड_डेटासेट आयात करें

डेटासेट = लोड_डेटासेट ( 'रोननेल्डन/टिनीस्टोरीज़' )

TinyStories_Story = 3
example_string = डेटासेट [ 'रेलगाड़ी' ] [ टिनीस्टोरीज़_स्टोरी ] [ 'मूलपाठ' ]

छपाई ( example_string )


इस कोड में, नीचे दिए गए चरणों पर विचार करें:





चरण 01 : पहला कदम है ' इंस्टालेशन ट्रांसफार्मर डेटासेट का।

चरण 02 : अगला, आवश्यक डेटासेट आयात करें, ' छोटी कहानियाँ 'आपके प्रोजेक्ट में।



चरण 03 : अगला, 'का उपयोग करके चयनित डेटासेट लोड करें लोड_डेटासेट() ' समारोह।

चरण 04 : अब, हम वह स्टोरी नंबर निर्दिष्ट करते हैं जो हम TinyStories डेटासेट से चाहते हैं। हमने अपने कोड उदाहरण में संख्या 03 निर्दिष्ट की है।

चरण 05 : अंत में, हम आउटपुट दिखाने के लिए 'प्रिंट()' विधि का उपयोग करेंगे।

उत्पादन



टिप्पणी: कोड और आउटपुट को सीधे हमारे Google Colab में भी देखा जा सकता है .

निष्कर्ष

हगिंग फेस डेटासेट “उपयोगकर्ताओं के लिए अपनी ऑनलाइन लाइब्रेरी से सीधे बड़े डेटासेट आयात करते समय अपने मशीन लर्निंग मॉडल का परीक्षण करना अविश्वसनीय रूप से कुशल बनाएं। परिणामस्वरूप, एनएलपी एल्गोरिदम का अनुप्रयोग आसान और तेज़ हो गया है क्योंकि प्रोग्रामर अपनी परियोजनाओं को ऐसे डेटासेट के विरुद्ध परीक्षण करने में सक्षम हैं जिसमें गुणवत्ता और मात्रा दोनों हैं।