การขุดข้อมูล - ปัญหา

การขุดข้อมูลไม่ใช่เรื่องง่ายเนื่องจากอัลกอริทึมที่ใช้มีความซับซ้อนมากและข้อมูลไม่สามารถใช้ได้ในที่เดียวเสมอไป จำเป็นต้องรวมเข้าด้วยกันจากแหล่งข้อมูลที่แตกต่างกัน ปัจจัยเหล่านี้ยังสร้างประเด็นบางอย่าง ในบทช่วยสอนนี้เราจะพูดถึงประเด็นสำคัญเกี่ยวกับ -

  • วิธีการขุดและการโต้ตอบกับผู้ใช้
  • ปัญหาด้านประสิทธิภาพ
  • ปัญหาประเภทข้อมูลที่หลากหลาย

แผนภาพต่อไปนี้อธิบายประเด็นสำคัญ

วิธีการขุดและปัญหาการโต้ตอบกับผู้ใช้

โดยอ้างถึงปัญหาประเภทต่อไปนี้ -

  • Mining different kinds of knowledge in databases- ผู้ใช้ที่แตกต่างกันอาจมีความสนใจในความรู้ประเภทต่างๆ ดังนั้นจึงจำเป็นสำหรับการขุดข้อมูลเพื่อให้ครอบคลุมงานการค้นหาความรู้ที่หลากหลาย

  • Interactive mining of knowledge at multiple levels of abstraction - กระบวนการขุดข้อมูลจำเป็นต้องมีการโต้ตอบเนื่องจากช่วยให้ผู้ใช้สามารถมุ่งเน้นการค้นหารูปแบบการจัดหาและปรับแต่งคำขอการขุดข้อมูลตามผลลัพธ์ที่ส่งคืน

  • Incorporation of background knowledge- เพื่อเป็นแนวทางในกระบวนการค้นพบและแสดงรูปแบบที่ค้นพบสามารถใช้ความรู้พื้นฐานได้ ความรู้พื้นฐานอาจใช้เพื่อแสดงรูปแบบที่ค้นพบไม่เพียง แต่ในรูปแบบที่กระชับเท่านั้น แต่ยังรวมถึงนามธรรมหลายระดับด้วย

  • Data mining query languages and ad hoc data mining - ภาษาแบบสอบถามการขุดข้อมูลที่อนุญาตให้ผู้ใช้อธิบายงานการขุดแบบเฉพาะกิจควรรวมเข้ากับภาษาแบบสอบถามคลังข้อมูลและปรับให้เหมาะสมสำหรับการขุดข้อมูลที่มีประสิทธิภาพและยืดหยุ่น

  • Presentation and visualization of data mining results- เมื่อค้นพบรูปแบบแล้วจำเป็นต้องแสดงในภาษาระดับสูงและการแสดงภาพ การแสดงเหล่านี้ควรเข้าใจได้ง่าย

  • Handling noisy or incomplete data- ต้องใช้วิธีการทำความสะอาดข้อมูลเพื่อจัดการกับเสียงรบกวนและวัตถุที่ไม่สมบูรณ์ในขณะที่ขุดข้อมูลตามปกติ หากไม่มีวิธีการทำความสะอาดข้อมูลความแม่นยำของรูปแบบที่ค้นพบจะไม่ดี

  • Pattern evaluation - รูปแบบที่ค้นพบควรน่าสนใจเพราะแสดงถึงความรู้ทั่วไปหรือขาดความแปลกใหม่

ปัญหาด้านประสิทธิภาพ

อาจมีปัญหาที่เกี่ยวข้องกับประสิทธิภาพดังต่อไปนี้ -

  • Efficiency and scalability of data mining algorithms - เพื่อให้สามารถดึงข้อมูลจากข้อมูลจำนวนมากในฐานข้อมูลได้อย่างมีประสิทธิภาพอัลกอริทึมการขุดข้อมูลต้องมีประสิทธิภาพและปรับขนาดได้

  • Parallel, distributed, and incremental mining algorithms- ปัจจัยต่างๆเช่นฐานข้อมูลขนาดใหญ่การกระจายข้อมูลที่กว้างและความซับซ้อนของวิธีการขุดข้อมูลกระตุ้นให้เกิดการพัฒนาอัลกอริธึมการขุดข้อมูลแบบขนานและแบบกระจาย อัลกอริทึมเหล่านี้แบ่งข้อมูลออกเป็นพาร์ติชันซึ่งจะประมวลผลต่อไปในลักษณะคู่ขนาน จากนั้นผลลัพธ์จากพาร์ติชันจะถูกรวมเข้าด้วยกัน อัลกอริทึมที่เพิ่มขึ้นอัปเดตฐานข้อมูลโดยไม่ต้องขุดข้อมูลอีกครั้งตั้งแต่เริ่มต้น

ปัญหาประเภทข้อมูลที่หลากหลาย

  • Handling of relational and complex types of data - ฐานข้อมูลอาจมีวัตถุข้อมูลที่ซับซ้อนวัตถุข้อมูลมัลติมีเดียข้อมูลเชิงพื้นที่ข้อมูลชั่วคราว ฯลฯ เป็นไปไม่ได้ที่ระบบใดระบบหนึ่งจะขุดข้อมูลประเภทนี้ทั้งหมด

  • Mining information from heterogeneous databases and global information systems- ข้อมูลมีอยู่ในแหล่งข้อมูลต่างๆบน LAN หรือ WAN แหล่งข้อมูลเหล่านี้อาจมีโครงสร้างกึ่งโครงสร้างหรือไม่มีโครงสร้าง ดังนั้นการขุดความรู้จากพวกเขาจึงเพิ่มความท้าทายให้กับการขุดข้อมูล