Weka - การประมวลผลข้อมูลล่วงหน้า

ข้อมูลที่รวบรวมจากสนามประกอบด้วยสิ่งที่ไม่ต้องการมากมายที่นำไปสู่การวิเคราะห์ที่ผิดพลาด ตัวอย่างเช่นข้อมูลอาจมีช่องว่างอาจมีคอลัมน์ที่ไม่เกี่ยวข้องกับการวิเคราะห์ปัจจุบันเป็นต้น ดังนั้นข้อมูลจะต้องได้รับการประมวลผลล่วงหน้าเพื่อให้เป็นไปตามข้อกำหนดของประเภทการวิเคราะห์ที่คุณต้องการ นี่คือสิ่งที่เสร็จสิ้นในโมดูลก่อนการประมวลผล

เพื่อแสดงให้เห็นถึงคุณสมบัติที่มีอยู่ในการประมวลผลล่วงหน้าเราจะใช้ไฟล์ Weather ฐานข้อมูลที่มีให้ในการติดตั้ง

ใช้ Open file ... ตัวเลือกภายใต้ Preprocess เลือกแท็ก weather-nominal.arff ไฟล์.

เมื่อคุณเปิดไฟล์หน้าจอของคุณจะมีลักษณะดังที่แสดงไว้ที่นี่ -

หน้าจอนี้จะบอกเราหลายอย่างเกี่ยวกับข้อมูลที่โหลดซึ่งจะกล่าวถึงเพิ่มเติมในบทนี้

การทำความเข้าใจข้อมูล

ก่อนอื่นให้เราดูที่ไฮไลต์ Current relationหน้าต่างย่อย จะแสดงชื่อของฐานข้อมูลที่โหลดอยู่ คุณสามารถสรุปได้สองจุดจากหน้าต่างย่อยนี้ -

  • มี 14 อินสแตนซ์ - จำนวนแถวในตาราง

  • ตารางประกอบด้วย 5 แอตทริบิวต์ - ฟิลด์ซึ่งจะกล่าวถึงในส่วนต่อไป

ทางด้านซ้ายให้สังเกต Attributes หน้าต่างย่อยที่แสดงฟิลด์ต่างๆในฐานข้อมูล

weatherฐานข้อมูลประกอบด้วยห้าฟิลด์ - แนวโน้มอุณหภูมิความชื้นลมแรงและการเล่น เมื่อคุณเลือกแอตทริบิวต์จากรายการนี้โดยคลิกที่รายละเอียดเพิ่มเติมเกี่ยวกับแอตทริบิวต์นั้นจะแสดงทางด้านขวามือ

ให้เราเลือกแอตทริบิวต์อุณหภูมิก่อน เมื่อคุณคลิกที่มันคุณจะเห็นหน้าจอต่อไปนี้ -

ใน Selected Attribute หน้าต่างย่อยคุณสามารถสังเกตสิ่งต่อไปนี้ -

  • ชื่อและประเภทของแอตทริบิวต์จะปรากฏขึ้น

  • ประเภทของไฟล์ temperature แอตทริบิวต์คือ Nominal.

  • จำนวน Missing ค่าเป็นศูนย์

  • มีค่าที่แตกต่างกันสามค่าโดยไม่มีค่าที่ไม่ซ้ำกัน

  • ตารางด้านล่างข้อมูลนี้แสดงค่าเล็กน้อยสำหรับฟิลด์นี้ว่าร้อนอ่อนและเย็น

  • นอกจากนี้ยังแสดงจำนวนและน้ำหนักในรูปของเปอร์เซ็นต์สำหรับแต่ละค่าเล็กน้อย

ที่ด้านล่างของหน้าต่างคุณจะเห็นการแสดงภาพของไฟล์ class ค่า

หากคุณคลิกที่ไฟล์ Visualize All คุณจะสามารถเห็นคุณสมบัติทั้งหมดในหน้าต่างเดียวดังที่แสดงไว้ที่นี่ -

การลบแอตทริบิวต์

หลายครั้งข้อมูลที่คุณต้องการใช้สำหรับการสร้างแบบจำลองจะมาพร้อมกับฟิลด์ที่ไม่เกี่ยวข้องมากมาย ตัวอย่างเช่นฐานข้อมูลลูกค้าอาจมีหมายเลขโทรศัพท์มือถือของเขาซึ่งเกี่ยวข้องกับการวิเคราะห์อันดับเครดิตของเขา

ในการลบ Attribute / s ให้เลือกและคลิกที่ไฟล์ Remove ปุ่มด้านล่าง

แอตทริบิวต์ที่เลือกจะถูกลบออกจากฐานข้อมูล หลังจากที่คุณประมวลผลข้อมูลล่วงหน้าอย่างสมบูรณ์แล้วคุณสามารถบันทึกไว้สำหรับการสร้างแบบจำลอง

จากนั้นคุณจะได้เรียนรู้การประมวลผลข้อมูลล่วงหน้าโดยใช้ตัวกรองกับข้อมูลนี้

การใช้ตัวกรอง

เทคนิคการเรียนรู้ของเครื่องบางอย่างเช่นการขุดกฎการเชื่อมโยงต้องใช้ข้อมูลที่เป็นหมวดหมู่ เพื่อแสดงให้เห็นถึงการใช้ฟิลเตอร์เราจะใช้weather-numeric.arff ฐานข้อมูลที่มีสอง numeric คุณลักษณะ - temperature และ humidity.

เราจะแปลงสิ่งเหล่านี้เป็น nominalโดยใช้ตัวกรองกับข้อมูลดิบของเรา คลิกที่Choose ในปุ่ม Filter หน้าต่างย่อยและเลือกตัวกรองต่อไปนี้ -

weka→filters→supervised→attribute→Discretize

คลิกที่ Apply และตรวจสอบไฟล์ temperature และ / หรือ humidityแอตทริบิวต์ คุณจะสังเกตเห็นว่าสิ่งเหล่านี้เปลี่ยนจากตัวเลขเป็นประเภทเล็กน้อย

ให้เราดูตัวกรองอื่นในขณะนี้ สมมติว่าคุณต้องการเลือกแอตทริบิวต์ที่ดีที่สุดสำหรับการตัดสินใจplay. เลือกและใช้ตัวกรองต่อไปนี้ -

weka→filters→supervised→attribute→AttributeSelection

คุณจะสังเกตเห็นว่ามันลบแอตทริบิวต์อุณหภูมิและความชื้นออกจากฐานข้อมูล

หลังจากคุณพอใจกับการประมวลผลข้อมูลล่วงหน้าแล้วให้บันทึกข้อมูลโดยคลิกที่ไฟล์ Saveปุ่ม ... คุณจะใช้ไฟล์ที่บันทึกไว้นี้สำหรับการสร้างโมเดล

ในบทต่อไปเราจะสำรวจการสร้างแบบจำลองโดยใช้อัลกอริทึม ML ที่กำหนดไว้ล่วงหน้าหลายแบบ