डाटा माइनिंग - माइनिंग वर्ल्ड वाइड वेब

वर्ल्ड वाइड वेब में भारी मात्रा में जानकारी है जो डेटा खनन के लिए एक समृद्ध स्रोत प्रदान करती है।

वेब खनन में चुनौतियां

वेब निम्नलिखित टिप्पणियों के आधार पर संसाधन और ज्ञान की खोज के लिए बड़ी चुनौतियां पेश करता है -

  • The web is too huge- वेब का आकार बहुत बड़ा है और तेजी से बढ़ रहा है। ऐसा लगता है कि डेटा वेयरहाउसिंग और डेटा माइनिंग के लिए वेब बहुत बड़ा है।

  • Complexity of Web pages- वेब पृष्ठों में एकीकृत संरचना नहीं होती है। वे पारंपरिक पाठ दस्तावेज़ की तुलना में बहुत जटिल हैं। वेब के डिजिटल लाइब्रेरी में भारी मात्रा में दस्तावेज़ हैं। इन पुस्तकालयों को किसी विशेष क्रमबद्ध क्रम के अनुसार व्यवस्थित नहीं किया जाता है।

  • Web is dynamic information source- वेब पर जानकारी तेजी से अपडेट की जाती है। समाचार, शेयर बाजार, मौसम, खेल, खरीदारी, आदि जैसे डेटा नियमित रूप से अपडेट किए जाते हैं।

  • Diversity of user communities- वेब पर उपयोगकर्ता समुदाय तेजी से विस्तार कर रहा है। इन उपयोगकर्ताओं की पृष्ठभूमि, रुचियां और उपयोग के उद्देश्य अलग-अलग हैं। 100 मिलियन से अधिक वर्कस्टेशन हैं जो इंटरनेट से जुड़े हैं और अभी भी तेजी से बढ़ रहे हैं।

  • Relevancy of Information - यह माना जाता है कि एक विशेष व्यक्ति आमतौर पर वेब के केवल छोटे हिस्से में रुचि रखता है, जबकि वेब के बाकी हिस्से में वह जानकारी होती है जो उपयोगकर्ता के लिए प्रासंगिक नहीं है और वांछित परिणामों को स्वाइप कर सकती है।

खनन वेब पेज लेआउट संरचना

वेब पेज की मूल संरचना दस्तावेज़ ऑब्जेक्ट मॉडल (DOM) पर आधारित है। DOM स्ट्रक्चर एक ट्री जैसे स्ट्रक्चर को संदर्भित करता है, जहां पेज में HTML टैग DOM ट्री में नोड से मेल खाता है। हम HTML में पूर्वनिर्धारित टैग का उपयोग करके वेब पेज को खंडित कर सकते हैं। HTML सिंटैक्स लचीला होता है, इसलिए वेब पेज W3C विनिर्देशों का पालन नहीं करते हैं। W3C के विनिर्देशों का पालन न करने से DOM ट्री संरचना में त्रुटि हो सकती है।

DOM संरचना को शुरू में ब्राउज़र में प्रस्तुति के लिए पेश किया गया था, न कि वेब पेज की शब्दार्थ संरचना के विवरण के लिए। DOM संरचना किसी वेब पेज के विभिन्न हिस्सों के बीच अर्थ संबंध को सही ढंग से पहचान नहीं सकती है।

दृष्टि-आधारित पृष्ठ विभाजन (VIPS)

  • VIPS का उद्देश्य अपनी दृश्य प्रस्तुति के आधार पर एक वेब पेज की शब्दार्थ संरचना को निकालना है।

  • इस तरह की शब्दार्थ संरचना एक पेड़ की संरचना से मेल खाती है। इस पेड़ में प्रत्येक नोड एक ब्लॉक से मेल खाती है।

  • एक मान प्रत्येक नोड को सौंपा गया है। इस मान को कोहरेंस की डिग्री कहा जाता है। दृश्य मान के आधार पर ब्लॉक में सुसंगत सामग्री को इंगित करने के लिए यह मान असाइन किया गया है।

  • VIPS एल्गोरिथ्म सबसे पहले HTML DOM ट्री से सभी उपयुक्त ब्लॉक्स को निकालता है। उसके बाद यह इन ब्लॉकों के बीच विभाजकों का पता लगाता है।

  • विभाजक एक वेब पेज में क्षैतिज या ऊर्ध्वाधर लाइनों को संदर्भित करते हैं जो नेत्रहीन रूप से बिना किसी ब्लॉक के पार करते हैं।

  • वेब पेज का शब्दार्थ इन ब्लॉकों के आधार पर बनाया गया है।

निम्नलिखित आंकड़ा VIPS एल्गोरिथ्म की प्रक्रिया को दर्शाता है -