कैसे दर को सीमित किया जा रहा है
इसलिए मैंने इंटरनेट पर मेरे लिए कुछ सामान करने के लिए एक ऑटोमेशन बॉट बनाया है .. सेलेनियम पायथन का उपयोग करते हुए..क्योंकि लंबे और कराहते हुए कोडिंग सेशन .. इस प्रोजेक्ट पर काम करने के दिन और रातें मैंने आखिरकार पूरी कर ली हैं ... केवल होने के लिए 1015 त्रुटि के साथ बेतरतीब ढंग से अभिवादन "आप सीमित हो रहे हैं"।
मैं समझता हूं कि यह डीडीओएस हमलों को रोकने के लिए है। लेकिन यह एक बड़ा झटका है।
मैंने इस मामले को हल करने के लिए वेबसाइट से संपर्क किया है, लेकिन कोई फायदा नहीं हुआ है। लेकिन तीसरे पक्ष के सुरक्षा सॉफ़्टवेयर का उपयोग करें जो वे कहते हैं कि वे वेबसाइट को सीमित करने के मेरे आईपी बहिष्कार को मंजूरी दे सकते हैं।
तो मैं सोच रहा था कि वहाँ किसी भी अन्य तरीका है इस को बायपास करने के लिए .. एक कोडिंग के नजरिए से ... मुझे नहीं लगता कि समाशोधन कुकीज़ की तरह सामान कुछ भी हल करेगा .. और यह मेरे विशिष्ट आईपी पते के रूप में है कि वे अवरुद्ध कर रहे हैं
नोट: जिस वेबसाइट पर मैं अपना बॉट चला रहा हूं, उसका TofC कहता है कि आप इस पर ऑटोमेशन सॉफ्टवेयर का उपयोग नहीं कर सकते हैं। लेकिन यह नहीं कहता कि आप कैंट भी नहीं हैं।
मुझे लगता है कि रैंडम एक्सेस डिनर को रोकने के लिए कुछ और कोडिंग करने का मन नहीं करता है। मुझे लगता है कि यह 24 घंटे तक रहता है जो हानिकारक हो सकता है क्योंकि इस बिल्ड का अंतिम चरण मेरे प्रोग्राम को लंबे समय तक रोजाना चलाना है।
क्या आपको लगता है कि मैं तीसरे पक्ष की सुरक्षा के साथ संवाद कर सकता हूं ताकि वे वेबसाइट से मुझे एक्सेस देने के लिए कह सकें। मैंने पहले ही वेबसाइट के साथ मामले को सुलझाने की कोशिश की है। उन्होंने कहा था कि ए। वहां पर यह कहता है कि मैं ठीक हूं। बी समस्या मेरी तरफ से सबसे अधिक है। "हो सकता है कि कुछ दुर्भावनापूर्ण सॉफ़्टवेयर हमारी वेबसाइट तक पहुंचने की कोशिश कर रहे हों" जो कि .. दुर्भावनापूर्ण नहीं, बल्कि एक हाँ है। यही कारण है कि मुझे लगता है कि यह बेहतर होगा अगर मैं इस मामले को स्वयं हल करूं।
क्या आपको लगता है कि मुझे प्रक्रियाओं या कुछ के बीच प्रतीक्षा समय को लागू करना पड़ सकता है। मैं फँस गया हूँ।
किसी भी मदद के लिए धन्यवाद। और इसका एक ही बॉट है!
जवाब
यदि आप बेतरतीब ढंग से अभिवादन कर रहे हैं ...

... तात्पर्य है कि साइट स्वामी ने दर सीमा लागू की है जो आपके आगंतुक यातायात को प्रभावित करता है।
दर-सीमित कारण
Cloudflare संभावित ट्रैफ़िक को संभावित शब्दकोश हमले का सामना करने की कोशिश कर सकता है ।
दर-सीमा सीमा
सामान्य मामलों में, क्लाउडफ्लेयर आगंतुक को दर-सीमा देता है जब आगंतुक ट्रैफ़िक दर-सीमा सीमा को पार करता है, जिसकी गणना अद्वितीय आगंतुकों द्वारा 24 घंटे के अनछुए वेबसाइट अनुरोधों को 24 घंटों के लिए विभाजित करके की जाती है। फिर, यात्रा के अनुमानित औसत मिनटों से भाग दें। अंत में, आपकी वेबसाइट के लिए प्रति मिनट अनुमानित सीमा स्थापित करने के लिए 4 (या बड़ा) से गुणा करें। 4 से अधिक मूल्य ठीक है क्योंकि अधिकांश हमले विशिष्ट यातायात दरों के ऊपर परिमाण का एक क्रम है।
समाधान
इन मामलों में एक संभावित समाधान क्रोम ब्राउजिंग संदर्भ को आरंभ करने के लिए अनिर्धारित-क्रोमेड्रिवर का उपयोग करना होगा ।
undetected-chromedriver एक अनुकूलित सेलेनियम क्रोमेड्रिवर पैच है जो डिस्टिल नेटवर्क / इम्पर्व / डाटाडोम / बॉटप्रोटेक्टियो जैसी एंटी-बॉट सेवाओं को ट्रिगर नहीं करता है। यह स्वचालित रूप से ड्राइवर बाइनरी डाउनलोड करता है और इसे पैच करता है।
कोड ब्लॉक:
import undetected_chromedriver as uc from selenium import webdriver options = webdriver.ChromeOptions() options.add_argument("start-maximized") driver = uc.Chrome(options=options) driver.get('https://bet365.com')
संदर्भ
आप प्रासंगिक विस्तृत चर्चा के एक जोड़े को पा सकते हैं:
- हरोकू पर होस्ट किए जाने पर सेलेनियम ऐप क्लाउडफेयर पेज पर रीडायरेक्ट करता है
- लिंक्डिन एपीआई थ्रॉटल सीमा
मैं यहां आपके लिए कुछ संभावनाएं देखता हूं:
- साइट के अनुरोधों के बीच प्रतीक्षा समय का परिचय दें
- आपके द्वारा किए गए अनुरोधों को कम करें
- अपनी बॉट को यह पता लगाने के लिए बढ़ाएं कि वह कब सीमा से टकराए और आपके आईपी पते को बदल दे (जैसे कि आपको राउटर को पुनरारंभ करके)
पिछले एक कम से कम बेहतर मैं मान सकता हूँ और सबसे अधिक समय लेने वाला है।
पहला: वेबसाइट के उपयोग की शर्तों को पढ़ें, उदाहरण के लिए, robots.txt को देखें, आमतौर पर यह www.google.com/robots.txt जैसी वेबसाइट के मूल में होता है । ध्यान दें कि वेबसाइट के स्वामी की स्पष्ट शर्तों के विरुद्ध जाना, अधिकार क्षेत्र के आधार पर अवैध हो सकता है और इसके परिणामस्वरूप स्वामी आपके टूल और / या आईपी को अवरुद्ध कर सकता है।
https://www.robotstxt.org/robotstxt.html
यह आपको बताएगा कि वेबसाइट के मालिक ने स्वचालन और स्क्रैपिंग के लिए स्पष्ट रूप से क्या अनुमति दी है।
आपके द्वारा वेबसाइट की शर्तों की समीक्षा करने और समझने के बाद कि वे क्या अनुमति देते हैं, और वे आपकी प्रतिक्रिया नहीं देते हैं, और आपने निर्धारित किया है कि आप वेबसाइटों को उपयोग की शर्तों को नहीं तोड़ रहे हैं, एकमात्र वास्तविक दूसरा विकल्प प्रॉक्सी और / या वीपीएस का उपयोग होगा। यह स्क्रिप्ट को अलग-अलग IP चलाने वाली प्रणाली देगा।