पायथन 3 में सेलेनियम का परिचय

सेलेनियम वेब अनुप्रयोगों के परीक्षण के लिए उपयोग किया जाने वाला एक ढांचा है। सेलेनियम आपकी वांछित वेबसाइट पर परीक्षण चलाने के लिए क्रोम या फ़ायरफ़ॉक्स जैसे ब्राउज़र को स्वचालित करता है। सेलेनियम भी एक बहुत शक्तिशाली वेब स्क्रैपिंग टूल है। सेलेनियम जावास्क्रिप्ट और सभी आधुनिक ब्राउज़र सुविधाओं का समर्थन करता है। वेबसाइटों से जानकारी निकालने में यह टूल बहुत प्रभावी है।

यह लेख आपको दिखाएगा कि अपने लिनक्स वितरण (यानी, उबंटू) पर सेलेनियम कैसे सेट करें, साथ ही सेलेनियम पायथन 3 लाइब्रेरी के साथ मूल वेब ऑटोमेशन और वेब स्क्रैपिंग कैसे करें।

आवश्यक शर्तें

इस आलेख में प्रयुक्त आदेशों और उदाहरणों को आज़माने के लिए, आपके पास निम्नलिखित होना चाहिए:

1) आपके कंप्यूटर पर एक लिनक्स वितरण (अधिमानतः उबंटू) स्थापित है।
2) आपके कंप्यूटर पर Python 3 स्थापित है।
3) आपके कंप्यूटर पर PIP 3 स्थापित है।
4) Google Chrome या Firefox वेब ब्राउज़र आपके कंप्यूटर पर स्थापित है।

आप इन विषयों पर कई लेख यहां पा सकते हैं LinuxHint.com . यदि आपको किसी और सहायता की आवश्यकता है, तो इन लेखों को देखना सुनिश्चित करें।

प्रोजेक्ट के लिए पायथन 3 वर्चुअल एनवायरनमेंट तैयार करना

पायथन वर्चुअल एनवायरनमेंट का उपयोग एक पृथक पायथन प्रोजेक्ट डायरेक्टरी बनाने के लिए किया जाता है। PIP का उपयोग करके आप जो Python मॉड्यूल स्थापित करते हैं, वे वैश्विक स्तर पर नहीं बल्कि केवल प्रोजेक्ट निर्देशिका में स्थापित किए जाएंगे।

अजगर वर्चुअलएन्व मॉड्यूल का उपयोग पायथन वर्चुअल वातावरण को प्रबंधित करने के लिए किया जाता है।

आप पायथन स्थापित कर सकते हैं वर्चुअलएन्व मॉड्यूल विश्व स्तर पर PIP 3 का उपयोग करते हुए, निम्नानुसार है:

$ sudo pip3 वर्चुअलएन्व स्थापित करें

PIP3 सभी आवश्यक मॉड्यूल को डाउनलोड और विश्व स्तर पर स्थापित करेगा।

इस बिंदु पर, पायथन वर्चुअलएन्व मॉड्यूल विश्व स्तर पर स्थापित किया जाना चाहिए।

प्रोजेक्ट डायरेक्टरी बनाएं अजगर-सेलेनियम-मूल/ आपकी वर्तमान कार्यशील निर्देशिका में, निम्नानुसार है:

$ mkdir -pv पायथन-सेलेनियम-बेसिक/ड्राइवर

अपनी नई बनाई गई परियोजना निर्देशिका पर नेविगेट करें अजगर-सेलेनियम-मूल/ , निम्नलिखित नुसार:

$सीडीअजगर-सेलेनियम-मूल/

निम्न आदेश के साथ अपनी प्रोजेक्ट निर्देशिका में एक पायथन वर्चुअल वातावरण बनाएं:

$ वर्चुअलएन्व।env

पायथन वर्चुअल वातावरण अब आपकी परियोजना निर्देशिका में बनाया जाना चाहिए।'

निम्नलिखित कमांड के माध्यम से अपनी परियोजना निर्देशिका में पायथन आभासी वातावरण को सक्रिय करें:

$ स्रोत।env/बिन/सक्रिय

जैसा कि आप देख सकते हैं, इस प्रोजेक्ट निर्देशिका के लिए पायथन वर्चुअल वातावरण सक्रिय है।

सेलेनियम पायथन लाइब्रेरी स्थापित करना

सेलेनियम पायथन पुस्तकालय आधिकारिक पायथन पीपीपीआई भंडार में उपलब्ध है।

आप इस पुस्तकालय को PIP 3 का उपयोग करके स्थापित कर सकते हैं, जो इस प्रकार है:

$ pip3 सेलेनियम स्थापित करें

सेलेनियम पायथन पुस्तकालय अब स्थापित किया जाना चाहिए।

अब जब सेलेनियम पायथन पुस्तकालय स्थापित हो गया है, तो अगली चीज जो आपको करनी है वह है अपने पसंदीदा वेब ब्राउज़र के लिए एक वेब ड्राइवर स्थापित करना। इस लेख में, मैं आपको दिखाऊंगा कि सेलेनियम के लिए फ़ायरफ़ॉक्स और क्रोम वेब ड्राइवर कैसे स्थापित करें।

फ़ायरफ़ॉक्स गेको ड्राइवर स्थापित करना

फ़ायरफ़ॉक्स गेको ड्राइवर आपको सेलेनियम का उपयोग करके फ़ायरफ़ॉक्स वेब ब्राउज़र को नियंत्रित या स्वचालित करने की अनुमति देता है।

फायरफॉक्स गेको ड्राइवर डाउनलोड करने के लिए, यहां जाएं GitHub ने मोज़िला/गेकोड्राइवर का पेज जारी किया एक वेब ब्राउज़र से।

जैसा कि आप देख सकते हैं, v0.26.0 फ़ायरफ़ॉक्स गेको ड्राइवर का नवीनतम संस्करण है जिस समय यह लेख लिखा गया था।

फ़ायरफ़ॉक्स गेको ड्राइवर को डाउनलोड करने के लिए, थोड़ा नीचे स्क्रॉल करें और अपने ऑपरेटिंग सिस्टम आर्किटेक्चर के आधार पर, लिनक्स गेकोड्राइवर tar.gz आर्काइव पर क्लिक करें।

यदि आप 32-बिट ऑपरेटिंग सिस्टम का उपयोग कर रहे हैं, तो क्लिक करें गेकोड्राइवर-v0.26.0-linux32.tar.gz संपर्क।

यदि आप 64-बिट ऑपरेटिंग सिस्टम का उपयोग कर रहे हैं, तो क्लिक करें गेकोड्राइवर-v0.26.0-linuxx64.tar.gz संपर्क।

मेरे मामले में, मैं Firefox Gecko Driver का 64-बिट संस्करण डाउनलोड करूंगा।

आपके ब्राउज़र को आपको संग्रह को सहेजने के लिए संकेत देना चाहिए। चुनते हैं फाइल सुरक्षित करें और फिर क्लिक करें ठीक है .

फायरफॉक्स गेको ड्राइवर आर्काइव को इसमें डाउनलोड किया जाना चाहिए ~/डाउनलोड निर्देशिका।

निकालें गेकोड्राइवर-v0.26.0-linux64.tar.gz से पुरालेख ~/डाउनलोड के लिए निर्देशिका ड्राइवर/ निम्न आदेश दर्ज करके अपनी परियोजना की निर्देशिका:

$टार -xzf~/डाउनलोड/गेकोड्राइवर-v0.26.0-linux64.tar.gz-सीड्राइवरों/

एक बार Firefox Gecko Driver संग्रह निकालने के बाद, एक नया छिपकली चालक बाइनरी फ़ाइल में बनाई जानी चाहिए ड्राइवर/ अपनी परियोजना की निर्देशिका, जैसा कि आप नीचे स्क्रीनशॉट में देख सकते हैं।

सेलेनियम फ़ायरफ़ॉक्स छिपकली चालक का परीक्षण

इस खंड में, मैं आपको दिखाऊंगा कि फ़ायरफ़ॉक्स गेको ड्राइवर काम कर रहा है या नहीं, यह जांचने के लिए अपनी पहली सेलेनियम पायथन स्क्रिप्ट कैसे सेट करें।

सबसे पहले, प्रोजेक्ट डायरेक्टरी खोलें अजगर-सेलेनियम-मूल/ अपने पसंदीदा आईडीई या संपादक के साथ। इस लेख में, मैं विजुअल स्टूडियो कोड का उपयोग करूंगा।

नई पायथन लिपि बनाएं ex01.py , और स्क्रिप्ट में निम्न पंक्तियाँ टाइप करें।

सेसेलेनियमआयातवेबड्राइवर
सेसेलेनियमवेबड्राइवर.सामान्य.चांबियाँ आयातचांबियाँ
से समय आयातनींद
ब्राउज़र=वेबड्राइवर।फ़ायर्फ़ॉक्स(निष्पादन योग्य_पथ='./ड्राइवर/गेकोड्राइवर')
ब्राउज़र।पाना('http://www.google.com')
नींद(5)
ब्राउज़र।छोड़ना()

एक बार जब आप कर लें, तो सहेजें ex01.py पायथन लिपि।

मैं इस लेख के बाद के खंड में कोड की व्याख्या करूंगा।

निम्न पंक्ति से सेलेनियम को फ़ायरफ़ॉक्स गेको ड्राइवर का उपयोग करने के लिए कॉन्फ़िगर करता है ड्राइवर/ आपकी परियोजना की निर्देशिका।

यह जांचने के लिए कि फ़ायरफ़ॉक्स गेको ड्राइवर सेलेनियम के साथ काम कर रहा है या नहीं, निम्नलिखित चलाएँ: ex01.py पायथन लिपि:

$ python3 ex01.पीयू

फ़ायरफ़ॉक्स वेब ब्राउज़र स्वचालित रूप से Google.com पर जाना चाहिए और 5 सेकंड के बाद खुद को बंद कर देना चाहिए। यदि ऐसा होता है, तो सेलेनियम फ़ायरफ़ॉक्स गेको ड्राइवर सही ढंग से काम कर रहा है।

क्रोम वेब ड्राइवर स्थापित करना

क्रोम वेब ड्राइवर आपको सेलेनियम का उपयोग करके Google क्रोम वेब ब्राउज़र को नियंत्रित या स्वचालित करने की अनुमति देता है।

आपको क्रोम वेब ड्राइवर का वही संस्करण डाउनलोड करना होगा जो आपके Google क्रोम वेब ब्राउज़र का है।

अपने Google क्रोम वेब ब्राउज़र की संस्करण संख्या खोजने के लिए, यहां जाएं क्रोम://सेटिंग्स/सहायता गूगल क्रोम में। संस्करण संख्या में होना चाहिए क्रोम के बारे में अनुभाग, जैसा कि आप नीचे स्क्रीनशॉट में देख सकते हैं।

मेरे मामले में, संस्करण संख्या है ८३.०.४१०३.११६ . संस्करण संख्या के पहले तीन भाग ( 83.0.4103 , मेरे मामले में) क्रोम वेब ड्राइवर संस्करण संख्या के पहले तीन भागों से मेल खाना चाहिए।

Chrome वेब ड्राइवर डाउनलोड करने के लिए, यहां जाएं आधिकारिक क्रोम ड्राइवर डाउनलोड पेज .

में वर्तमान विज्ञप्ति अनुभाग में, Google Chrome वेब ब्राउज़र की नवीनतम रिलीज़ के लिए Chrome वेब ड्राइवर उपलब्ध होगा, जैसा कि आप नीचे स्क्रीनशॉट में देख सकते हैं।

यदि आप जिस Google Chrome का उपयोग कर रहे हैं वह संस्करण में नहीं है वर्तमान विज्ञप्ति अनुभाग, थोड़ा नीचे स्क्रॉल करें, और आपको अपना वांछित संस्करण मिल जाना चाहिए।

एक बार जब आप सही क्रोम वेब ड्राइवर संस्करण पर क्लिक करते हैं, तो यह आपको निम्न पृष्ठ पर ले जाना चाहिए। पर क्लिक करें chromedriver_linux64.zip लिंक, जैसा कि नीचे स्क्रीनशॉट में बताया गया है।

क्रोम वेब ड्राइवर संग्रह अब डाउनलोड किया जाना चाहिए।

क्रोम वेब ड्राइवर संग्रह अब में डाउनलोड किया जाना चाहिए ~/डाउनलोड निर्देशिका।

आप निकाल सकते हैं chromedriver-linux64.zip से पुरालेख ~/डाउनलोड के लिए निर्देशिका ड्राइवर/ निम्न आदेश के साथ अपनी परियोजना की निर्देशिका:

$ अनज़िप~/डाउनलोड/क्रोमेड्राइवर_लिनक्स64.ज़िप-डी ड्राइवर/

Chrome वेब ड्राइवर संग्रह निकालने के बाद, एक नया क्रोमड्राइवर बाइनरी फ़ाइल में बनाई जानी चाहिए ड्राइवर/ अपनी परियोजना की निर्देशिका, जैसा कि आप नीचे स्क्रीनशॉट में देख सकते हैं।

सेलेनियम क्रोम वेब ड्राइवर का परीक्षण

इस खंड में, मैं आपको दिखाऊंगा कि क्रोम वेब ड्राइवर काम कर रहा है या नहीं, यह जांचने के लिए अपनी पहली सेलेनियम पायथन स्क्रिप्ट कैसे सेट करें।

सबसे पहले, नई पायथन लिपि बनाएं ex02.py , और स्क्रिप्ट में कोड की निम्न पंक्तियाँ टाइप करें।

सेसेलेनियमआयातवेबड्राइवर
सेसेलेनियमवेबड्राइवर.सामान्य.चांबियाँ आयातचांबियाँ
से समय आयातनींद
ब्राउज़र=वेबड्राइवर।क्रोम(निष्पादन योग्य_पथ='./ड्राइवर/क्रोमड्राइवर')
ब्राउज़र।पाना('http://www.google.com')
नींद(5)
ब्राउज़र।छोड़ना()

एक बार जब आप कर लें, तो सहेजें ex02.py पायथन लिपि।

मैं इस लेख के बाद के खंड में कोड की व्याख्या करूंगा।

निम्न पंक्ति से सेलेनियम को क्रोम वेब ड्राइवर का उपयोग करने के लिए कॉन्फ़िगर करती है ड्राइवर/ आपकी परियोजना की निर्देशिका।

यह जांचने के लिए कि क्रोम वेब ड्राइवर सेलेनियम के साथ काम कर रहा है या नहीं, चलाएँ ex02.py पायथन लिपि, इस प्रकार है:

$ python3 ex01.पीयू

Google क्रोम वेब ब्राउज़र को स्वतः Google.com पर जाना चाहिए और 5 सेकंड के बाद स्वयं को बंद कर देना चाहिए। यदि ऐसा होता है, तो सेलेनियम फ़ायरफ़ॉक्स गेको ड्राइवर सही ढंग से काम कर रहा है।

सेलेनियम के साथ वेब स्क्रैपिंग की मूल बातें

मैं अभी से फ़ायरफ़ॉक्स वेब ब्राउज़र का उपयोग करूँगा। आप चाहें तो क्रोम का भी इस्तेमाल कर सकते हैं।

एक मूल सेलेनियम पायथन लिपि नीचे स्क्रीनशॉट में दिखाई गई स्क्रिप्ट की तरह दिखनी चाहिए।

सबसे पहले, सेलेनियम आयात करें वेबड्राइवर से सेलेनियम मापांक।

अगला, आयात करें चांबियाँ से सेलेनियम.webdriver.common.keys . यह आपको उस ब्राउज़र में कीबोर्ड की प्रेस भेजने में मदद करेगा जिसे आप सेलेनियम से स्वचालित कर रहे हैं।

निम्न पंक्ति बनाता है a ब्राउज़र फ़ायरफ़ॉक्स गेको ड्राइवर (वेबड्राइवर) का उपयोग करके फ़ायरफ़ॉक्स वेब ब्राउज़र के लिए ऑब्जेक्ट। आप इस ऑब्जेक्ट का उपयोग करके फ़ायरफ़ॉक्स ब्राउज़र क्रियाओं को नियंत्रित कर सकते हैं।

वेबसाइट या यूआरएल लोड करने के लिए (मैं वेबसाइट लोड करूँगा https://www.duckduckgo.com ), बुलाएं पाना() की विधि ब्राउज़र अपने फ़ायरफ़ॉक्स ब्राउज़र पर ऑब्जेक्ट करें।

सेलेनियम का उपयोग करके, आप अपने परीक्षण लिख सकते हैं, वेब स्क्रैपिंग कर सकते हैं, और अंत में, का उपयोग करके ब्राउज़र को बंद कर सकते हैं छोड़ना() की विधि ब्राउज़र वस्तु।

ऊपर एक सेलेनियम पायथन लिपि का मूल लेआउट है। आप इन पंक्तियों को अपनी सभी सेलेनियम पायथन लिपियों में लिख रहे होंगे।

उदाहरण 1: किसी वेबपेज का शीर्षक प्रिंट करना

सेलेनियम का उपयोग करके चर्चा की गई यह सबसे आसान उदाहरण होगी। इस उदाहरण में, हम उस वेबपेज का शीर्षक प्रिंट करेंगे, जिस पर हम जा रहे हैं।

नई फ़ाइल बनाएँ ex04.py और इसमें कोड की निम्न पंक्तियाँ टाइप करें।

एक बार हो जाने के बाद, फ़ाइल को सहेजें।

यहां ही ब्राउज़र.शीर्षक विज़िट किए गए वेबपेज के शीर्षक तक पहुंचने के लिए उपयोग किया जाता है और प्रिंट () कंसोल में शीर्षक प्रिंट करने के लिए फ़ंक्शन का उपयोग किया जाएगा।

चलाने के बाद ex04.py स्क्रिप्ट, यह चाहिए:

1) फायरफॉक्स खोलें
2) अपना वांछित वेबपेज लोड करें
3) पेज का शीर्षक प्राप्त करें
4) कंसोल पर शीर्षक प्रिंट करें
5) और अंत में, ब्राउज़र बंद करें

जैसा कि आप देख सकते हैं, ex04.py स्क्रिप्ट ने वेबपेज के शीर्षक को कंसोल में अच्छी तरह से प्रिंट किया है।

$ python3 ex04.पीयू

उदाहरण 2: एकाधिक वेबपृष्ठों के शीर्षकों को प्रिंट करना

पिछले उदाहरण की तरह, आप पायथन लूप का उपयोग करके कई वेबपेजों के शीर्षक को प्रिंट करने के लिए उसी विधि का उपयोग कर सकते हैं।

यह कैसे काम करता है यह समझने के लिए, नई पायथन लिपि बनाएं ex05.py और स्क्रिप्ट में कोड की निम्नलिखित पंक्तियाँ टाइप करें:

सेसेलेनियमआयातवेबड्राइवर
सेसेलेनियमवेबड्राइवर.सामान्य.चांबियाँ आयातचांबियाँ

ब्राउज़र=वेबड्राइवर।फ़ायर्फ़ॉक्स(निष्पादन योग्य_पथ='./ड्राइवर/गेकोड्राइवर')

यूआरएल= ['https://www.duckduckgo.com', 'https://linuxhint.com', 'https://yahoo.com']
के लियेयूआरएलमेंयूआरएल:
ब्राउज़र।पाना(यूआरएल)
प्रिंट('शीर्षक: %s'% ब्राउज़र।शीर्षक)
ब्राउज़र।छोड़ना()

एक बार जब आप कर लें, तो पायथन स्क्रिप्ट को सेव करें ex05.py .

यहां ही यूआरएल सूची प्रत्येक वेबपेज का URL रखती है।

प्रति के लिये लूप का उपयोग के माध्यम से पुनरावृति करने के लिए किया जाता है यूआरएल सामान सूचि।

प्रत्येक पुनरावृत्ति पर, सेलेनियम ब्राउज़र को देखने के लिए कहता है यूआरएल और वेबपेज का शीर्षक प्राप्त करें। एक बार जब सेलेनियम वेबपेज का शीर्षक निकाल लेता है, तो यह कंसोल में प्रिंट हो जाता है।

पायथन लिपि चलाएँ ex05.py , और आपको इसमें प्रत्येक वेबपेज का शीर्षक देखना चाहिए यूआरएल सूची।

$ python3 ex05.पीयू

यह एक उदाहरण है कि कैसे सेलेनियम एक ही कार्य को कई वेबपेजों या वेबसाइटों के साथ कर सकता है।

उदाहरण 3: किसी वेबपेज से डेटा निकालना

इस उदाहरण में, मैं आपको सेलेनियम का उपयोग करके वेबपृष्ठों से डेटा निकालने की मूल बातें दिखाऊंगा। इसे वेब स्क्रैपिंग के रूप में भी जाना जाता है।

सबसे पहले, पर जाएँ Random.org फ़ायरफ़ॉक्स से लिंक। पृष्ठ को एक यादृच्छिक स्ट्रिंग उत्पन्न करनी चाहिए, जैसा कि आप नीचे स्क्रीनशॉट में देख सकते हैं।

सेलेनियम का उपयोग करके यादृच्छिक स्ट्रिंग डेटा निकालने के लिए, आपको डेटा के HTML प्रतिनिधित्व को भी जानना चाहिए।

यह देखने के लिए कि HTML में रैंडम स्ट्रिंग डेटा का प्रतिनिधित्व कैसे किया जाता है, रैंडम स्ट्रिंग डेटा का चयन करें और दायाँ माउस बटन (RMB) दबाएं और क्लिक करें तत्व का निरीक्षण करें (क्यू) , जैसा कि नीचे स्क्रीनशॉट में बताया गया है।

डेटा का HTML निरूपण में प्रदर्शित किया जाना चाहिए निरीक्षक टैब, जैसा कि आप नीचे स्क्रीनशॉट में देख सकते हैं।

आप पर भी क्लिक कर सकते हैं आइकॉन का निरीक्षण करें ( ) पृष्ठ से डेटा का निरीक्षण करने के लिए।

निरीक्षण आइकन ( ) पर क्लिक करें और उस यादृच्छिक स्ट्रिंग डेटा पर होवर करें जिसे आप निकालना चाहते हैं। डेटा का HTML प्रतिनिधित्व पहले की तरह प्रदर्शित किया जाना चाहिए।

जैसा कि आप देख सकते हैं, यादृच्छिक स्ट्रिंग डेटा HTML में लपेटा गया है के लिये टैग और इसमें वर्ग शामिल है आंकड़े .

अब जब हम उस डेटा का HTML प्रतिनिधित्व जानते हैं जिसे हम निकालना चाहते हैं, तो हम सेलेनियम का उपयोग करके डेटा निकालने के लिए एक पायथन स्क्रिप्ट बनाएंगे।

नई पायथन लिपि बनाएं ex06.py और स्क्रिप्ट में कोड की निम्नलिखित पंक्तियाँ टाइप करें

सेसेलेनियमआयातवेबड्राइवर
सेसेलेनियमवेबड्राइवर.सामान्य.चांबियाँ आयातचांबियाँ

ब्राउज़र=वेबड्राइवर।फ़ायर्फ़ॉक्स(निष्पादन योग्य_पथ='./ड्राइवर/गेकोड्राइवर')

ब्राउज़र।पाना('https://www.random.org/strings/?num=1&len=20&digits
=on&upperalpha=on&loweralpha=on&unique=on&format=html&rnd=new')

डेटा तत्व=ब्राउज़र।find_element_by_css_selector('पूर्व डेटा')
प्रिंट(डेटा तत्व।मूलपाठ)
ब्राउज़र।छोड़ना()

एक बार जब आप कर लें, तो सहेजें ex06.py पायथन लिपि।

यहां ही ब्राउजर.गेट () विधि वेबपेज को फ़ायरफ़ॉक्स ब्राउज़र में लोड करती है।

NS browser.find_element_by_css_selector() विधि विशिष्ट तत्व के लिए पृष्ठ के HTML कोड की खोज करती है और उसे वापस कर देती है।

इस मामले में, तत्व होगा पूर्व डेटा , NS के लिये टैग जिसमें वर्ग का नाम है आंकड़े .

नीचे पूर्व डेटा तत्व में संग्रहीत किया गया है डेटा तत्व चर।

स्क्रिप्ट तब चयनित की पाठ्य सामग्री को प्रिंट करती है पूर्व डेटा तत्व।

यदि आप चलाते हैं ex06.py पायथन लिपि, इसे वेबपेज से यादृच्छिक स्ट्रिंग डेटा निकालना चाहिए, जैसा कि आप नीचे स्क्रीनशॉट में देख सकते हैं।

$ python3 ex06.पीयू

जैसा कि आप देख सकते हैं, हर बार जब मैं दौड़ता हूं ex06.py पायथन लिपि, यह वेबपेज से एक अलग यादृच्छिक स्ट्रिंग डेटा निकालती है।

उदाहरण 4: वेबपेज से डेटा की सूची निकालना

पिछले उदाहरण ने आपको दिखाया कि सेलेनियम का उपयोग करके वेबपेज से एकल डेटा तत्व कैसे निकाला जाए। इस उदाहरण में, मैं आपको दिखाऊंगा कि वेबपेज से डेटा की सूची निकालने के लिए सेलेनियम का उपयोग कैसे करें।

सबसे पहले, पर जाएँ random-name-generator.info अपने फ़ायरफ़ॉक्स वेब ब्राउज़र से। हर बार जब आप पृष्ठ को पुनः लोड करते हैं तो यह वेबसाइट दस यादृच्छिक नाम उत्पन्न करेगी, जैसा कि आप नीचे स्क्रीनशॉट में देख सकते हैं। हमारा लक्ष्य सेलेनियम का उपयोग करके इन यादृच्छिक नामों को निकालना है।

यदि आप नाम सूची का अधिक बारीकी से निरीक्षण करते हैं, तो आप देख सकते हैं कि यह एक आदेशित सूची है ( मरना उपनाम)। NS मरना टैग में वर्ग का नाम भी शामिल है नाम सूची . यादृच्छिक नामों में से प्रत्येक को एक सूची आइटम के रूप में दर्शाया जाता है ( पर टैग) के अंदर मरना उपनाम।

इन यादृच्छिक नामों को निकालने के लिए, नई पायथन लिपि बनाएं ex07.py और स्क्रिप्ट में कोड की निम्न पंक्तियाँ टाइप करें।

सेसेलेनियमआयातवेबड्राइवर
सेसेलेनियमवेबड्राइवर.सामान्य.चांबियाँ आयातचांबियाँ

ब्राउज़र=वेबड्राइवर।फ़ायर्फ़ॉक्स(निष्पादन योग्य_पथ='./ड्राइवर/गेकोड्राइवर')

ब्राउज़र।पाना('http://random-name-generator.info/')

नाम सूची=ब्राउज़र।find_elements_by_css_selector('ol.nameList li')

के लियेनाममेंनाम सूची:
प्रिंट(नाम।मूलपाठ)

ब्राउज़र।छोड़ना()

एक बार जब आप कर लें, तो सहेजें ex07.py पायथन लिपि।

यहां ही ब्राउजर.गेट () विधि फ़ायरफ़ॉक्स ब्राउज़र में यादृच्छिक नाम जनरेटर वेबपेज लोड करती है।

NS browser.find_elements_by_css_selector() विधि CSS चयनकर्ता का उपयोग करती है ol.nameसूची li सभी को खोजने के लिए पर के अंदर के तत्व मरना वर्ग का नाम रखने वाला टैग नाम सूची . मैंने सभी चयनित को संग्रहीत किया है पर में तत्व नाम सूची चर।

प्रति के लिये लूप का उपयोग के माध्यम से पुनरावृति करने के लिए किया जाता है नाम सूची की सूची पर तत्व प्रत्येक पुनरावृत्ति में, की सामग्री पर तत्व कंसोल पर मुद्रित होता है।

यदि आप चलाते हैं ex07.py पायथन लिपि, यह वेबपेज से सभी यादृच्छिक नाम लाएगा और इसे स्क्रीन पर प्रिंट करेगा, जैसा कि आप नीचे स्क्रीनशॉट में देख सकते हैं।

$ python3 ex07.पीयू

यदि आप दूसरी बार स्क्रिप्ट चलाते हैं, तो इसे यादृच्छिक उपयोगकर्ता नामों की एक नई सूची वापस करनी चाहिए, जैसा कि आप नीचे स्क्रीनशॉट में देख सकते हैं।

उदाहरण 5: फॉर्म जमा करना – DuckDuckGo पर सर्च करना

यह उदाहरण पहले उदाहरण की तरह ही सरल है। इस उदाहरण में, मैं डकडकगो सर्च इंजन पर जाऊंगा और शब्द खोजूंगा सेलेनियम मुख्यालय सेलेनियम का उपयोग करना।

पहली यात्रा डकडकगो सर्च इंजन फ़ायरफ़ॉक्स वेब ब्राउज़र से।

यदि आप खोज इनपुट फ़ील्ड का निरीक्षण करते हैं, तो उसमें आईडी होना चाहिए search_form_input_homepage , जैसा कि आप नीचे स्क्रीनशॉट में देख सकते हैं।

अब, नई पायथन लिपि बनाएं ex08.py और स्क्रिप्ट में कोड की निम्न पंक्तियाँ टाइप करें।

सेसेलेनियमआयातवेबड्राइवर
सेसेलेनियमवेबड्राइवर.सामान्य.चांबियाँ आयातचांबियाँ
ब्राउज़र=वेबड्राइवर।फ़ायर्फ़ॉक्स(निष्पादन योग्य_पथ='./ड्राइवर/गेकोड्राइवर')
ब्राउज़र।पाना('https://duckduckgo.com/')
खोज इनपुट=ब्राउज़र।find_element_by_id('खोज_फॉर्म_इनपुट_होमपेज')
खोज इनपुटभेजें_कुंजी('सेलेनियम मुख्यालय'+ कुंजियाँ।प्रवेश करना)

एक बार जब आप कर लें, तो सहेजें ex08.py पायथन लिपि।

यहां ही ब्राउजर.गेट () विधि फ़ायरफ़ॉक्स वेब ब्राउज़र में DuckDuckGo सर्च इंजन के होमपेज को लोड करती है।

NS browser.find_element_by_id () विधि आईडी के साथ इनपुट तत्व का चयन करती है search_form_input_homepage और में स्टोर करता है खोज इनपुट चर।

NS searchInput.send_keys () इनपुट फ़ील्ड में कुंजी प्रेस डेटा भेजने के लिए विधि का उपयोग किया जाता है। इस उदाहरण में, यह स्ट्रिंग भेजता है सेलेनियम मुख्यालय , और एंटर कुंजी का उपयोग करके दबाया जाता है कुंजियाँ.ENTER लगातार।

जैसे ही DuckDuckGo सर्च इंजन को एंटर की प्रेस मिलती है ( कुंजियाँ.ENTER ), यह खोजता है और परिणाम प्रदर्शित करता है।

चलाएं ex08.py पायथन लिपि, इस प्रकार है:

$ python3 ex08.पीयू

जैसा कि आप देख सकते हैं, फ़ायरफ़ॉक्स वेब ब्राउज़र ने डकडकगो सर्च इंजन का दौरा किया।

यह स्वचालित रूप से टाइप किया गया सेलेनियम मुख्यालय खोज टेक्स्ट बॉक्स में।

जैसे ही ब्राउज़र को एंटर की प्रेस प्राप्त हुई ( कुंजियाँ.ENTER ), इसने खोज परिणाम प्रदर्शित किया।

उदाहरण 6: W3Schools.com पर एक फॉर्म जमा करना

उदाहरण 5 में, DuckDuckGo सर्च इंजन फॉर्म सबमिशन आसान था। आपको बस इतना करना था कि एंटर की दबाएं। लेकिन सभी फॉर्म सबमिशन के लिए ऐसा नहीं होगा। इस उदाहरण में, मैं आपको अधिक जटिल फॉर्म हैंडलिंग दिखाऊंगा।

सबसे पहले, पर जाएँ W3Schools.com का HTML फॉर्म पेज फ़ायरफ़ॉक्स वेब ब्राउज़र से। पृष्ठ लोड होने के बाद, आपको एक उदाहरण प्रपत्र देखना चाहिए। यह वह फ़ॉर्म है जिसे हम इस उदाहरण में सबमिट करेंगे।

यदि आप प्रपत्र का निरीक्षण करते हैं, तो पहला नाम इनपुट फ़ील्ड में आईडी होना चाहिए fname , NS उपनाम इनपुट फ़ील्ड में आईडी होना चाहिए नाम: , और यह जमा करने वाला बटन के पास होना चाहिए प्रकार प्रस्तुत , जैसा कि आप नीचे स्क्रीनशॉट में देख सकते हैं।

सेलेनियम का उपयोग करके इस फॉर्म को जमा करने के लिए, नई पायथन लिपि बनाएं ex09.py और स्क्रिप्ट में कोड की निम्न पंक्तियाँ टाइप करें।

सेसेलेनियमआयातवेबड्राइवर
सेसेलेनियमवेबड्राइवर.सामान्य.चांबियाँ आयातचांबियाँ
ब्राउज़र=वेबड्राइवर।फ़ायर्फ़ॉक्स(निष्पादन योग्य_पथ='./ड्राइवर/गेकोड्राइवर')
ब्राउज़र।पाना('https://www.w3schools.com/html/html_forms.asp')
fname=ब्राउज़र।find_element_by_id('fname')
नामस्पष्ट()
नामभेजें_कुंजी('शहरियार')
नाम:=ब्राउज़र।find_element_by_id('नाम')
नामस्पष्ट()
नामभेजें_कुंजी('शोवन')
जमा करने वाला बटन=ब्राउज़र।find_element_by_css_selector('इनपुट [प्रकार =' सबमिट ']')
जमा करने वाला बटन।भेजें_कुंजी(चांबियाँ।प्रवेश करना)

एक बार जब आप कर लें, तो सहेजें ex09.py पायथन लिपि।

यहां ही ब्राउजर.गेट () विधि फ़ायरफ़ॉक्स वेब ब्राउज़र में W3schools HTML प्रपत्र पृष्ठ खोलती है।

NS browser.find_element_by_id () विधि आईडी द्वारा इनपुट फ़ील्ड ढूंढती है fname तथा नाम: और यह उन्हें में संग्रहीत करता है fname तथा नाम: चर, क्रमशः।

NS fname.clear() तथा lname.clear() विधियाँ डिफ़ॉल्ट पहला नाम साफ़ करें (जॉन) fname मूल्य और अंतिम नाम (Doe) नाम: इनपुट फ़ील्ड से मान।

NS fname.send_keys () तथा lname.send_keys () तरीके प्रकार शहरियार तथा शोवोनो में पहला नाम तथा उपनाम इनपुट फ़ील्ड, क्रमशः।

NS browser.find_element_by_css_selector() विधि का चयन करता है जमा करने वाला बटन प्रपत्र का और इसे में संग्रहीत करता है जमा करने वाला बटन चर।

NS सबमिटबटन.send_keys () विधि एंटर कुंजी प्रेस भेजती है ( कुंजियाँ.ENTER ) तक जमा करने वाला बटन रूप का। यह क्रिया प्रपत्र जमा करती है।

चलाएं ex09.py पायथन लिपि, इस प्रकार है:

$ python3 ex09.पीयू

जैसा कि आप देख सकते हैं, फॉर्म स्वचालित रूप से सही इनपुट के साथ जमा किया गया है।

निष्कर्ष

यह लेख आपको पायथन 3 में सेलेनियम ब्राउज़र परीक्षण, वेब ऑटोमेशन और वेब स्क्रैपिंग लाइब्रेरी के साथ आरंभ करने में मदद करेगा। अधिक जानकारी के लिए, देखें आधिकारिक सेलेनियम पायथन दस्तावेज़ीकरण .

पायथन 3 में सेलेनियम का परिचय

आवश्यक शर्तें

प्रोजेक्ट के लिए पायथन 3 वर्चुअल एनवायरनमेंट तैयार करना

सेलेनियम पायथन लाइब्रेरी स्थापित करना

फ़ायरफ़ॉक्स गेको ड्राइवर स्थापित करना

सेलेनियम फ़ायरफ़ॉक्स छिपकली चालक का परीक्षण

क्रोम वेब ड्राइवर स्थापित करना

सेलेनियम क्रोम वेब ड्राइवर का परीक्षण

सेलेनियम के साथ वेब स्क्रैपिंग की मूल बातें

उदाहरण 1: किसी वेबपेज का शीर्षक प्रिंट करना

उदाहरण 2: एकाधिक वेबपृष्ठों के शीर्षकों को प्रिंट करना

उदाहरण 3: किसी वेबपेज से डेटा निकालना

उदाहरण 4: वेबपेज से डेटा की सूची निकालना

उदाहरण 5: फॉर्म जमा करना – DuckDuckGo पर सर्च करना

उदाहरण 6: W3Schools.com पर एक फॉर्म जमा करना

निष्कर्ष

श्रेणी

लोकप्रिय पोस्ट

HKEY_USERS | फोल्डर से यूजर प्रोफाइल का मिलान कैसे करें

MATLAB में डेटा पॉइंट कैसे प्लॉट करें

डॉकर हेलो वर्ल्ड

डॉकर कंपोज़ के साथ MySQL का उपयोग करने के चरण क्या हैं?

रास्पबेरी पाई पर ExifTool कैसे स्थापित करें?

डॉकर क्यों स्थापित किया गया है लेकिन डॉकर कंपोज़ नहीं?

सी में बूलियन वैल्यू का उपयोग कैसे करें

CentOS 8 में Nginx के लिए लोड बैलेंसर के रूप में HAProxy को कैसे सेटअप करें

Minecraft में खनन कैसे शुरू करें: एक शुरुआती मार्गदर्शिका

कलह में पाठ के माध्यम से प्रहार कैसे करें

विंडोज़ टास्क शेड्यूलर का उपयोग करके कार्य कैसे बनाएं और प्रबंधित करें

अपने रास्पबेरी पाई के मुख्य तापमान को मापें

iPhone पर पिन कैसे ड्रॉप करें? एक बुनियादी मार्गदर्शिका

बैच प्रक्रिया क्या है और AWS में इसका उपयोग कैसे करें?

हेडलेस वर्डप्रेस क्या है और कैसे शुरू करें

जावा में स्कैनर नेक्स्टइंट () विधि

लैपटॉप पर सिस्टम रिस्टोर में कितना समय लगता है?

जावास्क्रिप्ट में कक्षा का नाम कैसे प्राप्त करें

सर्वांगसम प्रतीक LaTeX का उपयोग कैसे करें

प्रोटोटाइप प्रदूषण हमलों को कैसे रोकें?