สถิติ - ฟังก์ชัน Outlier
ค่าผิดปกติในฟังก์ชันการแจกแจงความน่าจะเป็นคือตัวเลขที่มากกว่า 1.5 เท่าของความยาวของชุดข้อมูลที่อยู่ห่างจากควอไทล์ล่างหรือบน โดยเฉพาะอย่างยิ่งถ้าตัวเลขน้อยกว่า $ {Q_1 - 1.5 \ times IQR} $ หรือมากกว่า $ {Q_3 + 1.5 \ times IQR} $ แสดงว่าเป็นค่าผิดปกติ
ค่าผิดปกติถูกกำหนดและกำหนดโดยฟังก์ชันความน่าจะเป็นดังต่อไปนี้:
สูตร
$ {Outlier \ datas \ are \, \ lt Q_1 - 1.5 \ times IQR \ (หรือ) \ \ gt Q_3 + 1.5 \ times IQR} $
ที่ไหน -
$ {Q_1} $ = ควอร์ไทล์แรก
$ {Q_2} $ = ควอร์ไทล์ที่สาม
$ {IQR} $ = ช่วงควอไทล์ระหว่างกัน
ตัวอย่าง
Problem Statement:
พิจารณาชุดข้อมูลที่แสดงถึงจำนวนงานประจำงวดของนักเรียน 8 คนที่แตกต่างกัน ชุดข้อมูลการนับงานคือ 11, 13, 15, 3, 16, 25, 12 และ 14 ค้นพบข้อมูลผิดปกติจากจำนวนงานของนักเรียนเป็นระยะ
Solution:
ชุดข้อมูลที่ระบุคือ:
11 | 13 | 15 | 3 | 16 | 25 | 12 | 14 |
จัดเรียงจากน้อยไปมาก:
3 | 11 | 12 | 13 | 14 | 15 | 16 | 25 |
ค่าควอไทล์แรก () $ {Q_1} $
$ {Q_1 = \ frac {(11 + 12)} {2} \\ [7pt] \ = 11.5} $
ค่าควอไทล์ที่สาม () $ {Q_3} $
$ {Q_3 = \ frac {(15 + 16)} {2} \\ [7pt] \ = 15.5} $
ช่วงล่าง Outlier (L)
$ {Q_1 - 1.5 \ times IQR \\ [7pt] \ = 11.5 - (1.5 \ times 4) \\ [7pt] \ = 11.5 - 6 \\ [7pt] \ = 5.5} $
ช่วงบนภายนอก (L)
$ {Q_3 + 1.5 \ times IQR \\ [7pt] \ = 15.5 + (1.5 \ times 4) \\ [7pt] \ = 15.5 + 6 \\ [7pt] \ = 21.5} $
ในข้อมูลที่ระบุ 5.5 และ 21.5 มากกว่าค่าอื่น ๆ ในชุดข้อมูลที่กำหนดเช่นยกเว้น 3 และ 25 เนื่องจาก 3 มากกว่า 5.5 และ 25 น้อยกว่า 21.5
ด้วยวิธีนี้เราใช้ 3 และ 25 เป็นค่าผิดปกติ