ความน่าจะเป็นในการแจกแจงปกติแต่ละค่ามีความถี่เท่ากันได้อย่างไร? [ซ้ำ]

Jan 03 2021

เมื่อเร็ว ๆ นี้ฉันสังเกตเห็นว่าหากคุณสร้างตัวเลขที่กระจายตามปกติ 10,000 ตัวแล้วค้นหาความน่าจะเป็นที่เกี่ยวข้องกับแต่ละหมายเลข (pnorm) ความน่าจะเป็นตั้งแต่ 0 ถึง 1 แต่ละค่าจะเกิดขึ้นโดยมีความถี่เดียวกันโดยประมาณ นี่คือวิธีที่ฉันทำใน R:

var2 <- numeric(10000)
normnos <- rnorm(10000)
for (i in 1:10000) {
  var2[i] <- pnorm(normnos[i])
}
hist(var2)

เป็นไปได้อย่างไร? ถ้าความน่าจะเป็นทั้งหมดมีโอกาสที่จะเกิดขึ้นเท่า ๆ กันการแจกแจงผลลัพธ์จะไม่เหมือนกันแทนที่จะเป็นแบบปกติหรือไม่? ฉันสับสนมากและขอขอบคุณคำอธิบาย

คำตอบ

5 stbv Jan 03 2021 at 14:53
  1. pnorm ไม่ได้คำนวณความน่าจะเป็นของจำนวนตัวอย่าง แต่เป็นการคำนวณ $P(X \leq x)$- ซึ่งเป็นฟังก์ชันการแจกแจงสะสม ในการคำนวณความน่าจะเป็นของจำนวนตัวอย่างคุณจะต้องใช้ PDF - การแจกแจงปกติในกรณีนี้นั่นคือ$p(x_i - \delta < X < x_i + \delta) = N(x_i | \mu = 0, \sigma = 1)$ ($\delta$ ขนาดเล็กมาก).
  2. ฮิสโตแกรมที่คุณพล็อตคือการแจกแจงของค่า cdf ซึ่งจะสม่ำเสมอเสมอไม่ว่าจะแจกแจง สิ่งนี้เรียกว่า "ความเป็นสากลของเครื่องแบบ "
  3. ในทางคณิตศาสตร์สมมติว่า $X$ เป็นตัวแปรสุ่มที่มี pdf $p_X(x)$ และ cdf $F_X(x) = P(X \leq x)$. ปล่อย$T$ เป็นตัวแปรสุ่ม $T = F_X(X)$ - ตัวอย่างที่คุณพล็อตในฮิสโตแกรม $T$ เป็นแบบสุ่มเนื่องจาก $X$(ตัวแปรปกติในกรณีของคุณ) เป็นแบบสุ่ม จากนั้น$$F_T(t) = P(T \leq t) = P(F_X(X) \leq t) = P(X \leq F_X^{-1}(t)) = F_X(F_X^{-1}(t)) = t$$
  4. $F_T(t) = t$- นี่คือไฟล์ cdf ของการแจกแจงแบบสม่ำเสมอ ดังนั้น pdf ของ T จึงเหมือนกัน - ซึ่งเป็นสิ่งที่คุณวางแผนไว้ สังเกตว่าผกผันของ$F_{X}(x)$ มีอยู่ก็ต่อเมื่อ $F_X$ อย่างต่อเนื่องและเพิ่มขึ้นอย่างเคร่งครัด

หวังว่านี่จะช่วยได้! :)