सुंदर सूप - मुसीबत शूटिंग

गलती संभालना

सुंदरसुपे में दो मुख्य प्रकार की त्रुटियां हैं जिन्हें संभालने की आवश्यकता है। ये दो त्रुटियां आपकी स्क्रिप्ट से नहीं, बल्कि स्निपेट की संरचना से हैं क्योंकि ब्यूटीफुल एपीआई एक त्रुटि फेंकता है।

दो मुख्य त्रुटियां इस प्रकार हैं -

AttributeError

यह तब होता है जब डॉट नोटेशन को वर्तमान HTML टैग में एक भाई टैग नहीं मिलता है। उदाहरण के लिए, हो सकता है कि आपको यह त्रुटि आई हो, क्योंकि "एंकर टैग" गायब होने के कारण, लागत-कुंजी एक त्रुटि को फेंक देगी क्योंकि यह ट्रैवर्स करता है और एंकर टैग की आवश्यकता होती है।

KeyError

यदि आवश्यक HTML टैग विशेषता अनुपलब्ध है, तो यह त्रुटि होती है। उदाहरण के लिए, यदि हमारे पास स्निपेट में डेटा-पीआईडी ​​विशेषता नहीं है, तो पीआईडी ​​कुंजी की-एरर फेंक देगी।

किसी परिणाम को पार्स करते समय उपरोक्त दो सूचीबद्ध त्रुटियों से बचने के लिए, उस परिणाम को यह सुनिश्चित करने के लिए बायपास किया जाएगा कि एक विकृत स्निपेट को डेटाबेस में नहीं डाला गया है -

except(AttributeError, KeyError) as er:
pass

का निदान ()

जब भी हमें यह समझने में कोई कठिनाई होती है कि ब्यूटीफुल हमारे दस्तावेज़ या एचटीएमएल को क्या करता है, तो बस इसे डायग्नोस () फ़ंक्शन में पास करें। निदान () फ़ंक्शन के लिए दस्तावेज़ फ़ाइल पास करने पर, हम दिखा सकते हैं कि विभिन्न पार्सर की सूची दस्तावेज़ को कैसे संभालती है।

नीचे निदान () फ़ंक्शन के उपयोग को प्रदर्शित करने के लिए एक उदाहरण है -

from bs4.diagnose import diagnose

with open("20 Books.html",encoding="utf8") as fp:
   data = fp.read()
   
diagnose(data)

उत्पादन

पार्स करने में त्रुटि

पार्सिंग त्रुटियों के दो मुख्य प्रकार हैं। जब आप अपने दस्तावेज़ को सुंदरसुपर को खिलाते हैं, तो आपको HTMLParseError जैसा अपवाद मिल सकता है। आपको एक अप्रत्याशित परिणाम भी मिल सकता है, जहां सुंदरसुपर पार्स ट्री पार्स दस्तावेज़ से अपेक्षित परिणाम से बहुत अलग दिखता है।

सुंदरसुपर के कारण कोई भी पार्सिंग त्रुटि नहीं होती है। ऐसा इसलिए है क्योंकि बाहरी पार्सर का उपयोग हम करते हैं (html5lib, lxml) क्योंकि ब्यूटीसपॉप में कोई पार्सर कोड नहीं है। पार्सिंग त्रुटि के ऊपर हल करने का एक तरीका दूसरे पार्सर का उपयोग करना है।

from HTMLParser import HTMLParser

try:
   from HTMLParser import HTMLParseError
except ImportError, e:
   # From python 3.5, HTMLParseError is removed. Since it can never be
   # thrown in 3.5, we can just define our own class as a placeholder.
   class HTMLParseError(Exception):
      pass

Python बिल्ट-इन HTML पार्सर दो सबसे सामान्य पार्स त्रुटियों का कारण बनता है, HTMLParser.HTMLParserError: विकृत प्रारंभ टैग और HTMLParser.HTMLParserError: बुरा अंत टैग और इसे हल करने के लिए, मुख्य रूप से किसी अन्य पार्सर का उपयोग करना है: lxml या html5lib।

एक और सामान्य प्रकार का अप्रत्याशित व्यवहार यह है कि आप एक टैग नहीं खोज सकते हैं जो आपको पता है कि दस्तावेज़ में है। हालाँकि, जब आप find_all () रिटर्न [] या ढूँढें () रिटर्न कोई नहीं चलाते हैं।

यह अंतर्निहित HTML पार्सर के कारण हो सकता है कभी-कभी टैग टैग करता है जो इसे समझ में नहीं आता है।

XML पार्सर त्रुटि

डिफ़ॉल्ट रूप से, BeautifulSoup पैकेज HTML के रूप में दस्तावेज़ों को पार्स करता है, हालाँकि, यह बहुत ही आसान उपयोग है और सुंदर-सुंदर XML का उपयोग बहुत सुंदर तरीके से करता है।

दस्तावेज़ को XML के रूप में पार्स करने के लिए, आपके पास lxml पार्सर होना चाहिए और आपको सुंदरतम कंस्ट्रक्टर के दूसरे तर्क के रूप में "xml" पास करना होगा -

soup = BeautifulSoup(markup, "lxml-xml")

या

soup = BeautifulSoup(markup, "xml")

एक सामान्य XML पार्सिंग त्रुटि है -

AttributeError: 'NoneType' object has no attribute 'attrib'

ऐसा तब हो सकता है, जब खोज () या खोजक () फ़ंक्शन का उपयोग करते समय कुछ तत्व गायब या परिभाषित नहीं होते हैं।

अन्य पार्सिंग त्रुटियां

नीचे दिए गए कुछ अन्य पार्सिंग त्रुटियों के बारे में हम इस खंड में चर्चा करने जा रहे हैं -

पर्यावरण के मुद्दे

उपर्युक्त पार्सिंग त्रुटियों के अलावा, आप अन्य पार्सिंग मुद्दों जैसे पर्यावरणीय मुद्दों का सामना कर सकते हैं, जहाँ आपकी स्क्रिप्ट एक ऑपरेटिंग सिस्टम में काम कर सकती है, लेकिन किसी अन्य ऑपरेटिंग सिस्टम में नहीं या एक आभासी वातावरण में काम कर सकती है, लेकिन किसी अन्य वर्चुअल वातावरण में काम नहीं कर सकती है या नहीं भी हो सकती है। आभासी वातावरण के बाहर। ये सभी मुद्दे हो सकते हैं क्योंकि दोनों वातावरणों में अलग-अलग पार्सर लाइब्रेरी उपलब्ध हैं।

अपने वर्तमान कार्य परिवेश में अपने डिफ़ॉल्ट पार्सर को जानने या जाँचने की सलाह दी जाती है। आप वर्तमान कामकाजी परिवेश के लिए उपलब्ध वर्तमान डिफ़ॉल्ट पार्सर की जांच कर सकते हैं या फिर सुंदरसर निर्माणकर्ता के लिए दूसरे तर्कों के रूप में आवश्यक पार्सर लाइब्रेरी को स्पष्ट रूप से पास कर सकते हैं।

असंवेदनशील मामला

जैसे ही HTML टैग और विशेषताएँ केस-इनसेटिव होते हैं, सभी तीन HTML पार्सर टैग और विशेषता नामों को लोअरकेस में बदल देते हैं। हालांकि, यदि आप मिश्रित-केस या अपरकेस टैग और विशेषताओं को संरक्षित करना चाहते हैं, तो दस्तावेज़ को XML के रूप में पार्स करना बेहतर है।

UnicodeEncodeError

हमें नीचे दिए गए कोड सेगमेंट में देखें -

soup = BeautifulSoup(response, "html.parser")
   print (soup)

उत्पादन

UnicodeEncodeError: 'charmap' codec can't encode character '\u011f'

उपरोक्त समस्या दो मुख्य स्थितियों के कारण हो सकती है। आप एक यूनिकोड वर्ण को प्रिंट करने की कोशिश कर रहे होंगे जो आपके कंसोल को प्रदर्शित करने का तरीका नहीं जानता। दूसरा, आप एक फ़ाइल में लिखने की कोशिश कर रहे हैं और आप एक यूनिकोड वर्ण में पास होते हैं जो आपके डिफ़ॉल्ट एन्कोडिंग द्वारा समर्थित नहीं है।

उपरोक्त समस्या को हल करने का एक तरीका है, वांछित परिणाम प्राप्त करने के लिए सूप बनाने से पहले प्रतिक्रिया पाठ / चरित्र को सांकेतिक शब्दों में बदलना, इस प्रकार है -

responseTxt = response.text.encode('UTF-8')

KeyError: [attr]

यह टैग ['Attr' तक पहुंचने के कारण होता है जब प्रश्न में टैग attr विशेषता को परिभाषित नहीं करता है। सबसे आम त्रुटियां हैं: "कीरेरर: 'हाइपर' और" कीरोर: 'क्लास'। यदि आप निश्चित नहीं हैं कि attr परिभाषित है, तो tag.get ('attr') का उपयोग करें।

for item in soup.fetch('a'):
   try:
      if (item['href'].startswith('/') or "tutorialspoint" in item['href']):
      (...)
   except KeyError:
      pass # or some other fallback action

AttributeError

आप निम्न के रूप में विशेषता का सामना कर सकते हैं -

AttributeError: 'list' object has no attribute 'find_all'

उपरोक्त त्रुटि मुख्य रूप से होती है क्योंकि आपने अपेक्षा की थी कि find_all () एकल टैग या स्ट्रिंग लौटाता है। हालाँकि, soup.find_all तत्वों की एक अजगर सूची देता है।

आपको बस सूची के माध्यम से पुनरावृत्त करना और उन तत्वों के डेटा को पकड़ना है।