हगिंग फेस फिल्टर() विधि

Haginga Phesa Philtara Vidhi



हगिंग फेस में कई प्राकृतिक भाषा प्रसंस्करण (एनएलपी) मॉडल और डेटासेट हैं। इन विशाल डेटासेट में बहुत सारी जानकारी होती है जो मॉडल को सटीक रूप से प्रशिक्षित करने में मदद करती है। हालाँकि, कभी-कभी हमें संपूर्ण डेटासेट की आवश्यकता नहीं होती है क्योंकि हमें अपनी वर्तमान जरूरतों को पूरा करने के लिए इसके केवल एक छोटे से हिस्से की आवश्यकता होती है। यदि हम सभी सूचनाओं के साथ हमेशा की तरह एक ही डेटासेट का उपयोग करना चाहते हैं, तो मॉडल प्रशिक्षण और अनुकूलन में बहुत समय लगता है जो समय की बर्बादी है।

इसलिए, हमें किसी प्रकार की विधि या पैकेज की आवश्यकता है जो डेटासेट से प्रासंगिक जानकारी निकाल सके। सरल भाषा में, हम कह सकते हैं कि हमें अपनी आवश्यकताओं के अनुसार डेटासेट को फ़िल्टर करने के लिए एक अतिरिक्त फ़िल्टर विकल्प की आवश्यकता है।

हगिंग फेस डेटासेट को फ़िल्टर करने के लिए विभिन्न विकल्प प्रदान करता है जो उपयोगकर्ताओं को अनुकूलित डेटासेट बनाने में मदद करता है जिसमें केवल उदाहरण या जानकारी होती है जो विशिष्ट शर्तों को पूरा करती है।







चयन() विधि

यह विधि सूचकांकों की एक सूची पर काम करती है जिसका अर्थ है कि हमें एक सूची को परिभाषित करना होगा। उस सूची के अंदर, हमें उन सभी पंक्तियों के सूचकांक मूल्यों का उल्लेख करना होगा जिन्हें हम निकालना चाहते हैं। लेकिन यह विधि केवल छोटे डेटासेट के लिए काम करती है, बड़े डेटासेट के लिए नहीं, क्योंकि अगर यह जीबी (गीगा बाइट्स) या टीबी (टेरा बाइट्स) में है तो हम पूरे डेटासेट को नहीं देख पाते हैं।



उदाहरण :

new_dataset = डेटासेट चुनना ( [ 0 , ग्यारह , इक्कीस , चार पांच , पचास , 55 ] )

छपाई ( केवल ( new_dataset ) )

इस उदाहरण में, हमने डेटासेट से आवश्यक जानकारी को फ़िल्टर करने के लिए 'चयन' विधि का उपयोग किया।



फ़िल्टर() विधि

फ़िल्टर() विधि चयन() प्रक्रिया संबंधी समस्याओं को दूर कर देती है क्योंकि इसमें कोई विशिष्ट स्थिति नहीं होती है। फ़िल्टर() विधि उन सभी पंक्तियों को लौटाती है जो किसी विशेष स्थिति या स्थिति से मेल खाती हैं।





उदाहरण: हम इस पायथन प्रोग्राम को 'test.py' नाम से सहेजते हैं।

से डेटासेट आयात लोड_डेटासेट

# चरण 1: डेटासेट लोड करें
डाटासेट = लोड_डेटासेट ( 'आईएमडीबी' )

# चरण 2: फ़िल्टरिंग फ़ंक्शन को परिभाषित करें
डीईएफ़ कस्टम फ़िल्टर ( उदाहरण ) :
'''
सकारात्मक उदाहरणों को बनाए रखने के लिए एक कस्टम फ़िल्टरिंग फ़ंक्शन
भावना (लेबल == 1).
'''

वापस करना उदाहरण [ 'लेबल' ] == 1

# चरण 3: नया फ़िल्टर किया गया डेटासेट बनाने के लिए फ़िल्टर लागू करें
फ़िल्टर_डेटासेट = डेटासेट फ़िल्टर ( कस्टम फ़िल्टर )

# चरण 4: फ़िल्टर किए गए डेटासेट में उपलब्ध कॉलम नामों की जाँच करें
छपाई ( 'फ़िल्टर किए गए डेटासेट में उपलब्ध कॉलम:' ,
फ़िल्टर_डेटासेट. column_names )

# चरण 5: फ़िल्टर किए गए डेटासेट से जानकारी तक पहुंचें
फ़िल्टर्ड_उदाहरण = फ़िल्टर_डेटासेट [ 'रेलगाड़ी' ]
num_filtered_examples = केवल ( फ़िल्टर्ड_उदाहरण )

# चरण 6: फ़िल्टर किए गए उदाहरणों की कुल संख्या प्रिंट करें
छपाई ( 'कुल फ़िल्टर किए गए उदाहरण:' , num_filtered_examples )

आउटपुट:



स्पष्टीकरण:

पंक्ति 1: हम डेटासेट से आवश्यक लोड_डेटासेट पैकेज आयात करते हैं।

पंक्ति 4: हम Load_dataset का उपयोग करके 'imdb' डेटासेट लोड करते हैं।

पंक्तियाँ 7 से 12: हम कस्टम फ़िल्टरिंग फ़ंक्शन को परिभाषित करते हैं कस्टम फ़िल्टर उदाहरणों को सकारात्मक भावना के साथ रखने के लिए (लेबल == 1)। यह फ़ंक्शन केवल उन्हीं पंक्तियों को लौटाता है जिनका लेबल मान 1 है।

पंक्ति 15: यह पंक्ति दर्शाती है कि डेटासेट में 'आईएमडीबी' मूवी समीक्षा डेटा है। अब हम सकारात्मक समीक्षाओं को डेटाबेस से अलग करने के लिए इस डेटाबेस पर फ़िल्टर फ़ंक्शन लागू करते हैं, जिसे आगे 'फ़िल्टर_डेटासेट' में संग्रहीत किया जाता है।

पंक्तियाँ 18 और 19: अब, हम जाँचते हैं कि फ़िल्टर किए गए_डेटासेट में कौन से कॉलम नाम उपलब्ध हैं। तो, 'filtered_dataset.column_names' कोड हमारी आवश्यकताओं का विवरण प्रदान करता है।

पंक्तियाँ 22 और 23: इन पंक्तियों में, हम फ़िल्टर किए गए_डेटासेट के 'ट्रेन' कॉलम को फ़िल्टर करते हैं और ट्रेन कॉलम की कुल संख्या (लंबाई) प्रिंट करते हैं।

पंक्ति 26: इस अंतिम पंक्ति में, हम पंक्ति संख्या 23 से परिणाम प्रिंट करते हैं।

सूचकांकों के साथ फ़िल्टर()

फ़िल्टर() विधि का उपयोग सूचकांकों के साथ भी किया जा सकता है जैसा कि चयन() मोड में देखा जाता है। लेकिन इसके लिए, हमें यह उल्लेख करना होगा कि 'with_indices=true' कीवर्ड को फ़िल्टर() विधि के बाहर निर्दिष्ट करना होगा जैसा कि निम्नलिखित उदाहरण में दिखाया गया है:

अजीब_डेटासेट = डेटासेट फ़िल्टर ( लैम्ब्डा उदाहरण , आईडीएक्स: आईडीएक्स % 2 != 0 , with_indices = सत्य )

छपाई ( केवल ( अजीब_डेटासेट ) )

इस उदाहरण में, हमने डेटासेट से आवश्यक जानकारी को फ़िल्टर करने के लिए फ़िल्टर() विधि का उपयोग किया, जिसमें केवल वे पंक्तियाँ शामिल हैं जो विषम हैं।

फ़िल्टर() विधि के प्रत्येक पैरामीटर का पूरा विवरण यहां पाया जा सकता है जोड़ना .

निष्कर्ष

हगिंग फेस डेटासेट लाइब्रेरी विभिन्न डेटासेट के साथ कुशलतापूर्वक काम करने के लिए एक शक्तिशाली और उपयोगकर्ता के अनुकूल टूलसेट प्रदान करती है, विशेष रूप से प्राकृतिक भाषा प्रसंस्करण (एनएलपी) और मशीन सीखने के कार्यों के संदर्भ में। कार्यक्रम में प्रस्तुत फ़िल्टर() फ़ंक्शन शोधकर्ताओं और चिकित्सकों को उपयोगकर्ता-परिभाषित फ़िल्टरिंग मानदंडों को परिभाषित करके डेटा के प्रासंगिक उपसमूह निकालने की अनुमति देता है। इस कार्यक्षमता का उपयोग करके, उपयोगकर्ता आसानी से नए डेटासेट बना सकते हैं जो विशिष्ट शर्तों को पूरा करते हैं जैसे कि मूवी समीक्षाओं में सकारात्मक भावना बनाए रखना या विशिष्ट टेक्स्ट डेटा निकालना।

यह चरण-दर-चरण प्रदर्शन दर्शाता है कि डेटासेट को लोड करना, कस्टम फ़िल्टर फ़ंक्शंस लागू करना और फ़िल्टर किए गए डेटा तक पहुंचना कितना आसान है। इसके अलावा, फ़ंक्शन पैरामीटर का लचीलापन कस्टम फ़िल्टरिंग संचालन की अनुमति देता है, जिसमें बड़े डेटा सेट के लिए एकाधिक प्रोसेसिंग का समर्थन भी शामिल है। हगिंग फेस डेटासेट लाइब्रेरी के साथ, उपयोगकर्ता अपने डेटा को सुव्यवस्थित कर सकते हैं।