การขุดข้อมูล - งาน
การขุดข้อมูลเกี่ยวข้องกับรูปแบบที่สามารถขุดได้ ตามประเภทของข้อมูลที่จะขุดมีฟังก์ชันสองประเภทที่เกี่ยวข้องกับการขุดข้อมูล -
- Descriptive
- การจำแนกและการทำนาย
ฟังก์ชันพรรณนา
ฟังก์ชันอธิบายเกี่ยวข้องกับคุณสมบัติทั่วไปของข้อมูลในฐานข้อมูล นี่คือรายการฟังก์ชั่นบรรยาย -
- คำอธิบายคลาส / แนวคิด
- การขุดรูปแบบที่พบบ่อย
- การขุดของสมาคม
- การขุดของสหสัมพันธ์
- การขุดคลัสเตอร์
คำอธิบายคลาส / แนวคิด
คลาส / แนวคิดหมายถึงข้อมูลที่จะเชื่อมโยงกับคลาสหรือแนวคิด ตัวอย่างเช่นใน บริษัท ประเภทของสินค้าสำหรับการขาย ได้แก่ คอมพิวเตอร์และเครื่องพิมพ์และแนวคิดของลูกค้า ได้แก่ ผู้ใช้จ่ายจำนวนมากและผู้ใช้งบประมาณ คำอธิบายของคลาสหรือแนวคิดดังกล่าวเรียกว่าคำอธิบายคลาส / แนวคิด คำอธิบายเหล่านี้สามารถหาได้จากสองวิธีต่อไปนี้ -
Data Characterization- หมายถึงการสรุปข้อมูลของชั้นเรียนที่กำลังศึกษาอยู่ ชั้นเรียนที่อยู่ระหว่างการศึกษานี้เรียกว่าคลาสเป้าหมาย
Data Discrimination - หมายถึงการทำแผนที่หรือการจัดประเภทของคลาสที่มีกลุ่มหรือคลาสที่กำหนดไว้ล่วงหน้า
การขุดรูปแบบที่พบบ่อย
รูปแบบที่พบบ่อยคือรูปแบบที่เกิดขึ้นบ่อยครั้งในข้อมูลธุรกรรม นี่คือรายการประเภทของรูปแบบที่พบบ่อย -
Frequent Item Set - หมายถึงชุดของสิ่งของที่มักปรากฏร่วมกันเช่นนมและขนมปัง
Frequent Subsequence - ลำดับของรูปแบบที่เกิดขึ้นบ่อยครั้งเช่นการซื้อกล้องตามด้วยการ์ดหน่วยความจำ
Frequent Sub Structure - โครงสร้างย่อยหมายถึงรูปแบบโครงสร้างที่แตกต่างกันเช่นกราฟต้นไม้หรือโครงร่างซึ่งอาจใช้ร่วมกับชุดรายการหรือลำดับต่อมา
การขุดของสมาคม
สมาคมใช้ในการขายปลีกเพื่อระบุรูปแบบที่มักซื้อร่วมกัน กระบวนการนี้หมายถึงกระบวนการเปิดเผยความสัมพันธ์ระหว่างข้อมูลและกำหนดกฎการเชื่อมโยง
ตัวอย่างเช่นผู้ค้าปลีกสร้างกฎการเชื่อมโยงที่แสดงให้เห็นว่า 70% ของเวลาขายนมพร้อมขนมปังและมีขนมปังเพียง 30% เท่านั้นที่ขายบิสกิต
การขุดของสหสัมพันธ์
เป็นการวิเคราะห์เพิ่มเติมประเภทหนึ่งที่ดำเนินการเพื่อเปิดเผยความสัมพันธ์ทางสถิติที่น่าสนใจระหว่างคู่ - แอตทริบิวต์ - ค่าที่เกี่ยวข้องหรือระหว่างสองชุดรายการเพื่อวิเคราะห์ว่าหากมีผลบวกลบหรือไม่มีผลต่อกันและกัน
การขุดคลัสเตอร์
คลัสเตอร์หมายถึงกลุ่มของวัตถุประเภทเดียวกัน การวิเคราะห์คลัสเตอร์หมายถึงการสร้างกลุ่มของวัตถุที่มีความคล้ายคลึงกันมาก แต่แตกต่างจากวัตถุในคลัสเตอร์อื่น ๆ
การจำแนกและการทำนาย
การจำแนกประเภทคือกระบวนการค้นหาแบบจำลองที่อธิบายถึงคลาสข้อมูลหรือแนวคิด จุดประสงค์คือเพื่อให้สามารถใช้โมเดลนี้เพื่อทำนายคลาสของอ็อบเจ็กต์ที่ไม่ทราบเลเบลคลาส แบบจำลองที่ได้รับนี้มาจากการวิเคราะห์ชุดข้อมูลการฝึกอบรม โมเดลที่ได้รับสามารถนำเสนอในรูปแบบต่อไปนี้ -
- กฎการจำแนกประเภท (IF-THEN)
- ต้นไม้แห่งการตัดสินใจ
- สูตรทางคณิตศาสตร์
- โครงข่ายประสาท
รายการฟังก์ชันที่เกี่ยวข้องกับกระบวนการเหล่านี้มีดังนี้ -
Classification- ทำนายคลาสของวัตถุที่ไม่ทราบป้ายกำกับคลาส มีวัตถุประสงค์เพื่อค้นหาโมเดลที่ได้รับซึ่งอธิบายและแยกแยะคลาสหรือแนวคิดของข้อมูล Derived Model ขึ้นอยู่กับชุดการวิเคราะห์ของข้อมูลการฝึกอบรมเช่นออบเจ็กต์ข้อมูลที่มีป้ายชื่อคลาสเป็นที่รู้จักกันดี
Prediction- ใช้เพื่อทำนายค่าข้อมูลตัวเลขที่ขาดหายไปหรือไม่พร้อมใช้งานแทนที่จะเป็นป้ายชื่อคลาส โดยทั่วไปแล้ว Regression Analysis จะใช้สำหรับการทำนาย นอกจากนี้ยังสามารถใช้การทำนายเพื่อระบุแนวโน้มการกระจายตามข้อมูลที่มีอยู่
Outlier Analysis - ค่าผิดปกติอาจถูกกำหนดให้เป็นวัตถุข้อมูลที่ไม่สอดคล้องกับพฤติกรรมหรือรูปแบบทั่วไปของข้อมูลที่มีอยู่
Evolution Analysis - การวิเคราะห์วิวัฒนาการหมายถึงคำอธิบายและรูปแบบความสม่ำเสมอหรือแนวโน้มของวัตถุที่มีพฤติกรรมเปลี่ยนแปลงตลอดเวลา
พื้นฐานภารกิจการขุดข้อมูล
- เราสามารถระบุภารกิจการขุดข้อมูลในรูปแบบของแบบสอบถามการขุดข้อมูล
- แบบสอบถามนี้ถูกป้อนเข้าสู่ระบบ
- แบบสอบถามการขุดข้อมูลถูกกำหนดไว้ในรูปแบบดั้งเดิมของงานขุดข้อมูล
Note- ดั้งเดิมเหล่านี้ช่วยให้เราสามารถสื่อสารในลักษณะโต้ตอบกับระบบขุดข้อมูล นี่คือรายการของ Data Mining Task Primitives -
- ชุดข้อมูลที่เกี่ยวข้องกับงานที่จะขุด
- ชนิดของความรู้ที่จะขุด
- ความรู้พื้นฐานที่จะใช้ในกระบวนการค้นพบ
- การวัดความน่าสนใจและเกณฑ์สำหรับการประเมินรูปแบบ
- การเป็นตัวแทนเพื่อแสดงรูปแบบที่ค้นพบ
ชุดข้อมูลที่เกี่ยวข้องกับงานที่จะขุด
นี่คือส่วนของฐานข้อมูลที่ผู้ใช้สนใจ ส่วนนี้รวมถึงสิ่งต่อไปนี้ -
- แอตทริบิวต์ฐานข้อมูล
- มิติข้อมูลคลังข้อมูลที่น่าสนใจ
ชนิดของความรู้ที่จะขุด
หมายถึงชนิดของฟังก์ชันที่จะดำเนินการ ฟังก์ชันเหล่านี้คือ -
- Characterization
- Discrimination
- การเชื่อมโยงและการวิเคราะห์ความสัมพันธ์
- Classification
- Prediction
- Clustering
- การวิเคราะห์ค่าผิดปกติ
- การวิเคราะห์วิวัฒนาการ
ความรู้พื้นฐาน
ความรู้พื้นฐานช่วยให้สามารถขุดข้อมูลได้ในหลายระดับของนามธรรม ตัวอย่างเช่นลำดับชั้นของแนวคิดเป็นหนึ่งในความรู้พื้นฐานที่ช่วยให้สามารถขุดข้อมูลได้ในหลายระดับของนามธรรม
การวัดความน่าสนใจและเกณฑ์สำหรับการประเมินรูปแบบ
ใช้เพื่อประเมินรูปแบบที่ค้นพบโดยกระบวนการค้นพบความรู้ มีมาตรการที่น่าสนใจที่แตกต่างกันสำหรับความรู้ประเภทต่างๆ
การเป็นตัวแทนเพื่อแสดงรูปแบบที่ค้นพบ
หมายถึงรูปแบบที่จะแสดงรูปแบบที่ค้นพบ การเป็นตัวแทนเหล่านี้อาจรวมถึงสิ่งต่อไปนี้ -
- Rules
- Tables
- Charts
- Graphs
- ต้นไม้แห่งการตัดสินใจ
- Cubes