การค้นหาค่าผิดปกติในชุดข้อมูล

ค่าผิดปกติคือจุดข้อมูลที่ไม่ตรงกับรูปแบบของตัวเลขที่เหลือ เป็นค่าที่สูงมากหรือต่ำมากในชุดข้อมูล

วิธีง่ายๆในการค้นหาค่าผิดปกติคือการตรวจสอบตัวเลขในชุดข้อมูล เราจะเห็นว่าตัวเลขส่วนใหญ่กระจุกอยู่รอบ ๆ ช่วงและตัวเลขบางตัวต่ำหรือสูงเกินไปเมื่อเทียบกับตัวเลขอื่น ๆ ตัวเลขดังกล่าวเรียกว่าค่าผิดปกติ

Other definition of an outlier

จุดข้อมูลที่แยกจากส่วนที่เหลืออย่างชัดเจน คำจำกัดความอย่างหนึ่งของค่าผิดปกติคือจุดข้อมูลใด ๆ ที่มากกว่า 1.5 ช่วงระหว่างควอไทล์ (IQR) ที่อยู่ต่ำกว่าควอไทล์แรกหรือสูงกว่าควอไทล์ที่สาม ช่วงระหว่างควอไทล์ (IQR) คือความแตกต่างระหว่างควอร์ไทล์ที่สามและควอร์ไทล์แรกของชุดข้อมูล

ค้นหาค่าผิดปกติสำหรับข้อมูล 0, 2, 5, 6, 9, 12, 35

วิธีการแก้

สำหรับชุดข้อมูลที่กำหนดเรามีสรุปตัวเลขห้าตัวต่อไปนี้

ขั้นต่ำ = 0

ควอไทล์แรก = 2

มัธยฐาน = 6

ควอไทล์ที่สาม = 12

สูงสุด = 35

IQR = 12 - 2 = 10 ดังนั้น 1.5 · IQR = 15

ในการพิจารณาว่ามีค่าผิดปกติหรือไม่เราต้องพิจารณาตัวเลขที่ 1.5 · IQR หรือ 15 เกินจากควอไทล์

ควอร์ไทล์แรก - 1.5 · IQR = 2 - 15 = –13

ควอไทล์ที่สาม + 1.5 · IQR = 12 + 15 = 27

เนื่องจาก 35 อยู่นอกช่วงระหว่าง –13 ถึง 27 35 จึงเป็นค่าผิดปกติในชุดข้อมูลนี้

ค้นหาค่าผิดปกติในชุดข้อมูลที่ระบุด้านล่าง

28, 26, 29, 30, 81, 32, 37

วิธีการแก้

Step 1:

ข้อมูลที่แตกต่างจากตัวเลขอื่น ๆ ในชุดที่กำหนดคือ 81

Step 2:

ดังนั้นค่าผิดปกติของชุดข้อมูลนี้คือ 81

ค้นหาค่าผิดปกติในชุดข้อมูลที่ระบุด้านล่าง

16, 14, 3, 12, 15, 17, 22, 15, 52

วิธีการแก้

Step 1:

ข้อมูลที่แตกต่างจากตัวเลขอื่น ๆ ในชุดที่ระบุคือ 52

Step 2:

ดังนั้นค่าผิดปกติของชุดข้อมูลนี้คือ 52