पायथन के साथ वेबसाइटों में लॉग इन करना

Logging Into Websites With Python



आज के वेब अनुप्रयोगों में लॉगिन सुविधा एक महत्वपूर्ण कार्यक्षमता है। यह सुविधा साइट के गैर-उपयोगकर्ताओं से विशेष सामग्री रखने में मदद करती है और इसका उपयोग प्रीमियम उपयोगकर्ताओं की पहचान करने के लिए भी किया जाता है। इसलिए यदि आप किसी वेबसाइट को वेब स्क्रैप करने का इरादा रखते हैं, तो आप लॉगिन सुविधा में आ सकते हैं यदि सामग्री केवल पंजीकृत उपयोगकर्ताओं के लिए उपलब्ध है।

वेब स्क्रैपिंग ट्यूटोरियल अतीत में कवर किए गए हैं, इसलिए यह ट्यूटोरियल केवल ब्राउज़र का उपयोग करके मैन्युअल रूप से करने के बजाय कोड के साथ लॉग इन करके वेबसाइटों तक पहुंच प्राप्त करने के पहलू को शामिल करता है।







इस ट्यूटोरियल को समझने और वेबसाइटों में लॉग इन करने के लिए स्क्रिप्ट लिखने में सक्षम होने के लिए, आपको HTML की कुछ समझ की आवश्यकता होगी। हो सकता है कि भयानक वेबसाइट बनाने के लिए पर्याप्त न हो, लेकिन एक बुनियादी वेब पेज की संरचना को समझने के लिए पर्याप्त हो।



यह अनुरोध और सुंदर सूप पायथन पुस्तकालयों के साथ किया जाएगा। उन पायथन पुस्तकालयों के अलावा, आपको Google क्रोम या मोज़िला फ़ायरफ़ॉक्स जैसे एक अच्छे ब्राउज़र की आवश्यकता होगी क्योंकि वे कोड लिखने से पहले प्रारंभिक विश्लेषण के लिए महत्वपूर्ण होंगे।



अनुरोध और सुंदर सूप लाइब्रेरी को टर्मिनल से पाइप कमांड के साथ स्थापित किया जा सकता है जैसा कि नीचे देखा गया है:





पाइप स्थापित अनुरोध
पिप सुंदरसूप4 स्थापित करें

स्थापना की सफलता की पुष्टि करने के लिए, पायथन के इंटरेक्टिव शेल को सक्रिय करें जो टाइप करके किया जाता है अजगर टर्मिनल में।

फिर दोनों पुस्तकालयों को आयात करें:



आयातअनुरोध
सेबीएस4आयातसुंदर सूप

कोई त्रुटि नहीं होने पर आयात सफल होता है।

प्रक्रिया

स्क्रिप्ट वाली वेबसाइट में लॉग इन करने के लिए HTML का ज्ञान और वेब कैसे काम करता है, इसकी जानकारी की आवश्यकता होती है। आइए संक्षेप में देखें कि वेब कैसे काम करता है।

वेबसाइट दो मुख्य भागों से बनी होती है, क्लाइंट-साइड और सर्वर-साइड। क्लाइंट-साइड एक वेबसाइट का वह हिस्सा होता है, जिसके साथ उपयोगकर्ता इंटरैक्ट करता है, जबकि सर्वर-साइड वेबसाइट का वह हिस्सा होता है, जहां बिजनेस लॉजिक और अन्य सर्वर ऑपरेशन जैसे डेटाबेस तक पहुंच को निष्पादित किया जाता है।

जब आप किसी वेबसाइट को उसके लिंक के माध्यम से खोलने का प्रयास करते हैं, तो आप सर्वर-साइड से अनुरोध कर रहे हैं कि वह आपको HTML फाइलें और अन्य स्थिर फाइलें जैसे सीएसएस और जावास्क्रिप्ट लाए। इस अनुरोध को GET अनुरोध के रूप में जाना जाता है। हालाँकि जब आप कोई फॉर्म भर रहे हैं, मीडिया फ़ाइल या दस्तावेज़ अपलोड कर रहे हैं, पोस्ट बना रहे हैं और सबमिट बटन पर क्लिक कर रहे हैं, तो आप सर्वर साइड को जानकारी भेज रहे हैं। इस अनुरोध को POST अनुरोध के रूप में जाना जाता है।

हमारी स्क्रिप्ट लिखते समय उन दो अवधारणाओं को समझना महत्वपूर्ण होगा।

वेबसाइट का निरीक्षण

इस लेख की अवधारणाओं का अभ्यास करने के लिए, हम उपयोग करेंगे: स्क्रैप करने के लिए उद्धरण वेबसाइट।

वेबसाइटों में लॉग इन करने के लिए उपयोगकर्ता नाम और पासवर्ड जैसी जानकारी की आवश्यकता होती है।

हालाँकि चूंकि इस वेबसाइट का उपयोग केवल अवधारणा के प्रमाण के रूप में किया जाता है, कुछ भी हो जाता है। इसलिए हम उपयोग कर रहे होंगे व्यवस्थापक उपयोगकर्ता नाम के रूप में और 12345 पासवर्ड के रूप में।

सबसे पहले, पृष्ठ स्रोत को देखना महत्वपूर्ण है क्योंकि यह वेब पेज की संरचना का एक सिंहावलोकन देगा। यह वेब पेज पर राइट क्लिक करके और व्यू पेज सोर्स पर क्लिक करके किया जा सकता है। इसके बाद, आप लॉगिन फॉर्म का निरीक्षण करते हैं। आप इसे लॉगिन बॉक्स में से किसी एक पर राइट क्लिक करके और क्लिक करके करते हैं तत्व का निरीक्षण . तत्व का निरीक्षण करने पर, आपको देखना चाहिए इनपुट टैग और फिर एक अभिभावक प्रपत्र इसके ऊपर कहीं टैग करें। इससे पता चलता है कि लॉगिन मूल रूप से फॉर्म होते हैं पद एड वेबसाइट के सर्वर-साइड पर।

अब, नोट करें नाम उपयोगकर्ता नाम और पासवर्ड बॉक्स के लिए इनपुट टैग की विशेषता, कोड लिखते समय उनकी आवश्यकता होगी। इस वेबसाइट के लिए, नाम उपयोगकर्ता नाम और पासवर्ड के लिए विशेषता हैं उपयोगकर्ता नाम तथा पासवर्ड क्रमश।

इसके बाद, हमें यह जानना होगा कि क्या अन्य पैरामीटर हैं जो लॉगिन के लिए महत्वपूर्ण होंगे। आइए इसे जल्दी से समझाएं। वेबसाइटों की सुरक्षा बढ़ाने के लिए, आमतौर पर क्रॉस साइट जालसाजी हमलों को रोकने के लिए टोकन उत्पन्न किए जाते हैं।

इसलिए, यदि उन टोकन को POST अनुरोध में नहीं जोड़ा जाता है तो लॉगिन विफल हो जाएगा। तो हम ऐसे मापदंडों के बारे में कैसे जानते हैं?

हमें नेटवर्क टैब का उपयोग करना होगा। इस टैब को Google Chrome या Mozilla Firefox पर प्राप्त करने के लिए, डेवलपर टूल खोलें और नेटवर्क टैब पर क्लिक करें।

एक बार जब आप नेटवर्क टैब में हों, तो वर्तमान पृष्ठ को रीफ्रेश करने का प्रयास करें और आप देखेंगे कि अनुरोध आ रहे हैं। जब हम लॉग इन करने का प्रयास करते हैं तो आपको POST अनुरोध भेजे जाने पर ध्यान देने का प्रयास करना चाहिए।

यहां बताया गया है कि नेटवर्क टैब खुला होने पर हम आगे क्या करेंगे। लॉगिन विवरण डालें और लॉग इन करने का प्रयास करें, आपको जो पहला अनुरोध दिखाई देगा वह POST अनुरोध होना चाहिए।

POST अनुरोध पर क्लिक करें और प्रपत्र पैरामीटर देखें। आप देखेंगे कि वेबसाइट में एक है सीएसआरएफ_टोकन मान के साथ पैरामीटर। वह मान एक गतिशील मान है, इसलिए हमें इस तरह के मूल्यों को कैप्चर करने की आवश्यकता होगी पाना का उपयोग करने से पहले पहले अनुरोध करें पद प्रार्थना।

उन अन्य वेबसाइटों के लिए जिन पर आप काम कर रहे होंगे, हो सकता है कि आपको यह दिखाई न दे सीएसआरएफ_टोकन लेकिन अन्य टोकन हो सकते हैं जो गतिशील रूप से उत्पन्न होते हैं। समय के साथ, आप उन मापदंडों को जानने में बेहतर होंगे जो वास्तव में लॉगिन प्रयास करने में महत्वपूर्ण हैं।

कोड

सबसे पहले, हमें लॉगिन पेज की पेज सामग्री तक पहुंच प्राप्त करने के लिए अनुरोध और सुंदर सूप का उपयोग करने की आवश्यकता है।

सेअनुरोधआयातसत्र
सेबीएस4आयातसुंदर सूपजैसाबी एस

साथसत्र() जैसाएस:
स्थल =एस।पाना('http://quotes.toscrape.com/login')
प्रिंट(स्थल.विषय)

हमारे द्वारा लॉग इन करने से पहले और यदि आप लॉग इन कीवर्ड की खोज करते हैं तो यह लॉगिन पेज की सामग्री का प्रिंट आउट ले लेगा। पृष्ठ सामग्री में कीवर्ड मिलेगा जो दर्शाता है कि हमने अभी तक लॉग इन नहीं किया है।

इसके बाद, हम की खोज करेंगे सीएसआरएफ_टोकन कीवर्ड जो पहले नेटवर्क टैब का उपयोग करते समय एक पैरामीटर के रूप में पाया गया था। यदि कीवर्ड a . के साथ मेल दिखाता है इनपुट टैग, तब मूल्य हर बार जब आप सुंदर सूप का उपयोग करके स्क्रिप्ट चलाते हैं तो निकाला जा सकता है।

सेअनुरोधआयातसत्र
सेबीएस4आयातसुंदर सूपजैसाबी एस

साथसत्र() जैसाएस:
स्थल =एस।पाना('http://quotes.toscrape.com/login')
bs_सामग्री=बी एस(स्थल.विषय, 'एचटीएमएल.पार्सर')
टोकन =बीएस_सामग्री।पाना('इनपुट', {'नाम':'सीएसआरएफ_टोकन'})['मूल्य']
लॉगिन_डेटा= {'उपयोगकर्ता नाम':'व्यवस्थापक','पासवर्ड':'12345', 'सीएसआरएफ_टोकन':टोकन}
एस।पद('http://quotes.toscrape.com/login',लॉगिन_डेटा)
होम_पेज=एस।पाना('http://quotes.toscrape.com')
प्रिंट(होम_पेज।विषय)

यह लॉग इन करने के बाद पेज की सामग्री को प्रिंट करेगा, और यदि आप लॉगआउट कीवर्ड की खोज करते हैं। पृष्ठ सामग्री में कीवर्ड मिलेगा जो दर्शाता है कि हम सफलतापूर्वक लॉग इन करने में सक्षम थे।

आइए कोड की प्रत्येक पंक्ति पर एक नज़र डालें।

सेअनुरोधआयातसत्र
सेबीएस4आयातसुंदर सूपजैसाबी एस

उपरोक्त कोड की पंक्तियों का उपयोग अनुरोध पुस्तकालय से सत्र वस्तु को आयात करने के लिए किया जाता है और बीएस 4 पुस्तकालय से सुंदर सूप ऑब्जेक्ट को उपनाम का उपयोग करके आयात किया जाता है बी एस .

साथसत्र() जैसाएस:

अनुरोध सत्र का उपयोग तब किया जाता है जब आप किसी अनुरोध के संदर्भ को रखने का इरादा रखते हैं, ताकि कुकीज़ और उस अनुरोध सत्र की सभी जानकारी संग्रहीत की जा सके।

bs_सामग्री=बी एस(स्थल.विषय, 'एचटीएमएल.पार्सर')
टोकन =बीएस_सामग्री।पाना('इनपुट', {'नाम':'सीएसआरएफ_टोकन'})['मूल्य']

यह कोड यहां ब्यूटीफुलसूप लाइब्रेरी का उपयोग करता है ताकि सीएसआरएफ_टोकन वेब पेज से निकाला जा सकता है और फिर टोकन वैरिएबल को सौंपा जा सकता है। आप BeautifulSoup का उपयोग करके नोड्स से डेटा निकालने के बारे में जान सकते हैं।

लॉगिन_डेटा= {'उपयोगकर्ता नाम':'व्यवस्थापक','पासवर्ड':'12345', 'सीएसआरएफ_टोकन':टोकन}
एस।पद('http://quotes.toscrape.com/login',लॉगिन_डेटा)

यहां कोड लॉग इन के लिए उपयोग किए जाने वाले पैरामीटर का एक शब्दकोश बनाता है। शब्दकोशों की कुंजी हैं नाम इनपुट टैग की विशेषताएँ और मान हैं मूल्य इनपुट टैग की विशेषताएं

NS पद पैरामीटर के साथ एक पोस्ट अनुरोध भेजने और हमें लॉग इन करने के लिए विधि का उपयोग किया जाता है।

होम_पेज=एस।पाना('http://quotes.toscrape.com')
प्रिंट(होम_पेज।विषय)

लॉगिन के बाद, उपरोक्त कोड की ये पंक्तियाँ केवल यह दिखाने के लिए पृष्ठ से जानकारी निकालती हैं कि लॉगिन सफल रहा।

निष्कर्ष

पायथन का उपयोग करके वेबसाइटों में लॉग इन करने की प्रक्रिया काफी आसान है, हालांकि वेबसाइटों का सेटअप समान नहीं है इसलिए कुछ साइटों को दूसरों की तुलना में लॉग इन करना अधिक कठिन साबित होगा। आपके पास जो भी लॉगिन चुनौतियां हैं, उन्हें दूर करने के लिए और भी बहुत कुछ किया जा सकता है।

इस सब में सबसे महत्वपूर्ण बात है HTML, Requests, BeautifulSoup का ज्ञान और आपके वेब ब्राउज़र के डेवलपर टूल के नेटवर्क टैब से प्राप्त जानकारी को समझने की क्षमता।