การค้นหาค่าผิดปกติในชุดข้อมูล
ค่าผิดปกติคือจุดข้อมูลที่ไม่ตรงกับรูปแบบของตัวเลขที่เหลือ เป็นค่าที่สูงมากหรือต่ำมากในชุดข้อมูล
วิธีง่ายๆในการค้นหาค่าผิดปกติคือการตรวจสอบตัวเลขในชุดข้อมูล เราจะเห็นว่าตัวเลขส่วนใหญ่กระจุกอยู่รอบ ๆ ช่วงและตัวเลขบางตัวต่ำหรือสูงเกินไปเมื่อเทียบกับตัวเลขอื่น ๆ ตัวเลขดังกล่าวเรียกว่าค่าผิดปกติ
Other definition of an outlier
จุดข้อมูลที่แยกจากส่วนที่เหลืออย่างชัดเจน คำจำกัดความอย่างหนึ่งของค่าผิดปกติคือจุดข้อมูลใด ๆ ที่มากกว่า 1.5 ช่วงระหว่างควอไทล์ (IQR) ที่อยู่ต่ำกว่าควอไทล์แรกหรือสูงกว่าควอไทล์ที่สาม ช่วงระหว่างควอไทล์ (IQR) คือความแตกต่างระหว่างควอร์ไทล์ที่สามและควอร์ไทล์แรกของชุดข้อมูล
ค้นหาค่าผิดปกติสำหรับข้อมูล 0, 2, 5, 6, 9, 12, 35
วิธีการแก้
สำหรับชุดข้อมูลที่กำหนดเรามีสรุปตัวเลขห้าตัวต่อไปนี้
ขั้นต่ำ = 0
ควอไทล์แรก = 2
มัธยฐาน = 6
ควอไทล์ที่สาม = 12
สูงสุด = 35
IQR = 12 - 2 = 10 ดังนั้น 1.5 · IQR = 15
ในการพิจารณาว่ามีค่าผิดปกติหรือไม่เราต้องพิจารณาตัวเลขที่ 1.5 · IQR หรือ 15 เกินจากควอไทล์
ควอร์ไทล์แรก - 1.5 · IQR = 2 - 15 = –13
ควอไทล์ที่สาม + 1.5 · IQR = 12 + 15 = 27
เนื่องจาก 35 อยู่นอกช่วงระหว่าง –13 ถึง 27 35 จึงเป็นค่าผิดปกติในชุดข้อมูลนี้
ค้นหาค่าผิดปกติในชุดข้อมูลที่ระบุด้านล่าง
28, 26, 29, 30, 81, 32, 37
วิธีการแก้
Step 1:
ข้อมูลที่แตกต่างจากตัวเลขอื่น ๆ ในชุดที่กำหนดคือ 81
Step 2:
ดังนั้นค่าผิดปกติของชุดข้อมูลนี้คือ 81
ค้นหาค่าผิดปกติในชุดข้อมูลที่ระบุด้านล่าง
16, 14, 3, 12, 15, 17, 22, 15, 52
วิธีการแก้
Step 1:
ข้อมูลที่แตกต่างจากตัวเลขอื่น ๆ ในชุดที่ระบุคือ 52
Step 2:
ดังนั้นค่าผิดปกติของชุดข้อมูลนี้คือ 52