सेमल्ट एक्सपर्ट बताते हैं कि पायथन का उपयोग करके एक AJAX वेबसाइट को कैसे परिमार्जन किया जाता है

वेब स्क्रैपिंग एक ऐसी विधि है जो वेब पेज से डेटा निकालने के लिए सॉफ्टवेयर के उपयोग को रोजगार देती है। अजगर के साथ वेब को स्क्रैप करने के लिए बहुत सारे उपकरण हैं, उनमें से कुछ हैं; स्काई, स्क्रेपी, अनुरोध, और सुंदर सूप। हालांकि, इनमें से अधिकांश उपकरण इस तथ्य से सीमित हैं कि वे केवल स्थिर HTML को प्राप्त करते हैं जो सर्वर से आता है न कि जावास्क्रिप्ट द्वारा दिया गया गतिशील भाग।

हालाँकि, कुछ ऐसी तकनीकें हैं जिनसे इस समस्या को दूर किया जा सकता है:

1. स्वचालित ब्राउज़र

आप सेलेनियम या स्प्लैश जैसे स्वचालित ब्राउज़रों का उपयोग कर सकते हैं जो पूर्ण ब्राउज़र हैं जो बिना सिर के चलते हैं। हालांकि, उन्हें स्थापित करना काफी जटिल हो सकता है, और इसलिए हम नीचे दिए गए दूसरे विकल्प पर ध्यान केंद्रित करेंगे।

2. अवरोधन AJAX कॉल

इसमें पेज से AJAX कॉल को इंटरसेप्ट करने और उन्हें फिर से खेलना या पुन: उत्पन्न करने की कोशिश करना शामिल है।

इस लेख में, हम इस बात पर ध्यान देंगे कि AJAX कॉल कैसे पकड़ें और अनुरोध लाइब्रेरी और Google Chrome ब्राउज़र का उपयोग करके उन्हें फिर से चलाएँ। हालांकि स्क्रैपिंग जैसी रूपरेखा आपको अधिक कुशल समाधान प्रदान कर सकती है जब यह स्क्रैपिंग की बात आती है, तो सभी मामलों के लिए इसकी आवश्यकता नहीं होती है। AJAX कॉल ज्यादातर एक एपीआई के खिलाफ किया जाता है जो JSON ऑब्जेक्ट को वापस करेगा जिसे अनुरोध लाइब्रेरी आसानी से संभाल सकती है।

पहली बात जो आपको जानना चाहिए वह यह है कि AJAX कॉल को फिर से खेलना एक अनिर्दिष्ट एपीआई का उपयोग करने जैसा है। इसलिए, आपको उन सभी कॉल को देखना होगा जो पृष्ठ बनाते हैं। आप साइट पर जा सकते हैं, थोड़ी देर इसके साथ खेल सकते हैं और देख सकते हैं कि कुछ जानकारी कैसे प्रदान की गई है। आपके खेलने के बाद, वापस आएँ और स्क्रैप करना शुरू करें।

इससे पहले कि हम विवरण में आएं, पहले यह समझें कि पृष्ठ कैसे काम करता है। यदि आप राज्य द्वारा स्टोर पेज पर जाते हैं, तो किसी भी राज्य का चयन करें, और पेज स्टोर पर जानकारी प्रदान करेगा। हर बार जब आप एक राज्य का चयन करते हैं, तो वेबसाइट पुराने लोगों को बदलने के लिए नए स्टोर प्रदान करती है। इसका उपयोग करके प्राप्त किया जाता है, और AJAX जानकारी मांगने वाले सर्वर पर कॉल करता है। हमारा इरादा अब उस कॉल को पकड़ना और उसे फिर से खेलना है।

ऐसा करने के लिए, आपको बस इतना करना होगा कि क्रोम ब्राउज़र DevTools को खोलें और XHR उपधारा पर जाएं। XHR एक इंटरफ़ेस है जो HTTP और HTTPS अनुरोध करता है। इस प्रकार AJAX अनुरोध यहां दिखाए जाएंगे। जब आप AJAX कॉल को डबल-क्लिक करते हैं, तो आपको दुकानों पर बहुत सारी जानकारी मिलेगी। आप अनुरोधों का पूर्वावलोकन भी कर सकते हैं।

आप ध्यान देंगे कि बहुत सारा डेटा सर्वर को भेजा जाता है। हालाँकि, चिंता न करें क्योंकि यह आवश्यक नहीं है। यह देखने के लिए कि आपको किस डेटा की आवश्यकता है, आप एक कंसोल खोल सकते हैं और वेबसाइट पर विभिन्न पोस्ट अनुरोध कर सकते हैं। अब जब आप जानते हैं कि पेज कैसे काम करता है और AJAX कॉल को डिक्रिप्ट किया है, तो आप अपना स्क्रैपर लिख सकते हैं।

आप पूछ रहे होंगे, 'क्यों नहीं एक स्वचालित ब्राउज़र का उपयोग करें?' समाधान सरल है; हमेशा एक बहुत अधिक भारी और जटिल जैसे स्वचालित ब्राउज़र के रूप में तैयार होने से पहले AJAX कॉल को फिर से खेलना। यह सरल और हल्का है।

png

mass gmail