ทำอย่างไร $t$- สถิติใช้ในการทดสอบสมมติฐาน?
ฉันมีคำถามต่อไปนี้: ตัวอย่างสุ่มขนาด 25 จากการแจกแจงปกติมีค่าเฉลี่ย 47 และส่วนเบี่ยงเบนมาตรฐาน 7 ขึ้นอยู่กับ $t$- สถิติเราสามารถพูดได้ว่าข้อมูลที่ให้มาสนับสนุนการคาดเดาว่าค่าเฉลี่ยของประชากรคือ 42?
ฉันสับสนจริงๆว่า $t$- สถิติทำงานเพื่อปฏิเสธหรือล้มเหลวในการปฏิเสธสมมติฐาน คำอธิบายจะเป็นประโยชน์มาก ขอบคุณ!
คำตอบ
T-Test แบบสองด้าน
เพิ่งจะมีชุดข้อมูลปกติกับ $n=25, \bar X = 57, S = 7$ ในหน้าต่าง R Session ของฉัน
ข้อมูลเหมาะสมสำหรับการทดสอบหรือไม่? นี่คือสรุปข้อมูลซึ่งคำนวณโดย R:
summary(x)
Min. 1st Qu. Median Mean 3rd Qu. Max.
35.18 40.78 44.83 47.00 52.35 61.34
length(x); sd(x)
[1] 25 # sample size n = 25
[1] 7 # sample standard deviation S = 7.0
stripchart(x, pch="|")
ข้อมูลสมมาตรโดยประมาณโดยไม่มีค่าผิดปกติ ผ่านการทดสอบความเป็นปกติของ Shapiro-Wilk ด้วยค่า P ด้านบน$0.05 = 5\%.$
shapiro.test(x)
Shapiro-Wilk normality test
data: x
W = 0.96136, p-value = 0.4423
ข้อมูลใกล้เคียงมากพอที่จะเป็นปกติเพื่อให้ใช้ได้
R พิมพ์สำหรับการทดสอบ t ดังนั้นนี่คือผลลัพธ์จาก R สำหรับการทดสอบทีหนึ่งตัวอย่างของ$H_0: \mu = 42$ ต่อต้าน $H_a: \mu \ne 42.$
t.test(x, mu=42)
One Sample t-test
data: x
t = 3.5714, df = 24, p-value = 0.001543
alternative hypothesis:
true mean is not equal to 42
95 percent confidence interval:
44.11054 49.88946
sample estimates:
mean of x
47
การตีความผลลัพธ์ ค่า P คือ$0.0015 < 0.05 = 5\%,$ ดังนั้นคุณจะปฏิเสธ $H_0$ที่ระดับนัยสำคัญ 5% คุณยังสามารถปฏิเสธที่ระดับ 1%
ผลลัพธ์ยังให้ช่วงความเชื่อมั่น 95% (CI) $(44.11, 49.89),$ เราจึงสามารถสรุปมูลค่าที่แท้จริงของ $\mu$อยู่ในช่วงเวลานั้น - ซึ่งไม่ได้ประกอบด้วย$\mu = 42.$
การตีความ CI นี้อย่างหนึ่งก็คือเป็นช่วงเวลาหนึ่งของสมมติฐานว่างที่ "ไม่สามารถปฏิเสธได้" โดยพิจารณาจากข้อมูลของคุณ
รายละเอียดที่คุณควรรู้เกี่ยวกับการทดสอบ @PeterForeman ได้แสดงวิธีคำนวณ T-statistic ยกเว้นค่า P คุณควรจะทำซ้ำทุกอย่างในผลลัพธ์ด้วยการคำนวณด้วยมือ
ค่า P ที่แน่นอนจะได้รับในงานพิมพ์คอมพิวเตอร์ เมื่อดูตารางที่พิมพ์ t คุณควรจะสามารถ 'วงเล็บ' ค่า P ได้ ตัวอย่างเช่นตารางของฉันมีค่า 2.467 และ 3.745 ในบรรทัด DF = 24 ซึ่งยึด T-statistic 3.5714 เมื่อมองไปที่ขอบด้านบนของตารางฉันเห็นว่าค่า P ต้องอยู่ระหว่าง$2(0.001) = 0.002$ และ $2(0.0005) = 0.001,$ซึ่งเห็นด้วยกับค่าจาก R [ค่า
2
นี้เป็นเพราะเป็นการทดสอบ t 2 ด้าน]คุณสามารถรับค่า P ที่แน่นอนของการทดสอบ 2 ด้านนี้ได้ในR หรือซอฟต์แวร์ทางสถิติอื่น ๆ มันคือความน่าจะเป็นของสถิติ T ที่ไกลออกไป$0$ กว่าที่สังเกต $T =3.5714.$ใน R ซึ่ง
pt
เป็น CDF ของการแจกแจง t ของนักเรียนการคำนวณต่อไปนี้ทำให้คุณเข้าใกล้ค่า P ในงานพิมพ์มาก (หากมีการปัดเศษค่าของสถิติ T ที่รายงานแล้วค่า P อาจไม่ตรงกันทั้งหมด แต่มีเพียงทศนิยมสองตำแหน่งแรกเท่านั้นที่มีความสำคัญต่อการตัดสินใจ)
.
2 * (1 - pt(3.5714, 24))
[1] 0.001543522
- ในการตอบคำถามของคุณในความคิดเห็น: จากตาราง t ที่พิมพ์ออกมาคุณสามารถพูดได้ว่าค่าวิกฤตสำหรับการปฏิเสธที่ระดับ 5% คือ$c = 2.064.$ นั่นคือคุณจะปฏิเสธที่ระดับ 5% ของ $|T| > 2.064,$ซึ่งมันคือ ค่าวิกฤตจะลดความน่าจะเป็น$0.025 = 2.5\% $จากหางด้านบนของการแจกแจง t ของนักเรียนด้วย DF = 24 ใน R ซึ่ง
qt
เป็นฟังก์ชันควอนไทล์ (CDF ผกผัน) คุณจะได้รับค่าวิกฤต 5% ดังที่แสดงด้านล่าง ค่าวิกฤตสำหรับการทดสอบที่ระดับนัยสำคัญ 1% คืออะไร?
${}$
qt(.975, 24)
[1] 2.063899
สรุปแบบกราฟิก รูปด้านล่างแสดงฟังก์ชันความหนาแน่นของการแจกแจง t ของนักเรียนด้วย 24 DF แนวตั้งสีน้ำเงินเหมือนแสดงค่าที่สังเกตได้ของสถิติ T ค่า P เป็นสองเท่าของพื้นที่ใต้เส้นโค้งทางขวาของเส้นนี้ ค่าวิกฤตด้านล่างและด้านบนสำหรับการทดสอบที่ระดับ 5% จะแสดงด้วยเส้นสีส้มแนวตั้ง เส้นสีแดง (ไกลออกไป) สำหรับการทดสอบที่ระดับ 1%