ทำอย่างไร $t$- สถิติใช้ในการทดสอบสมมติฐาน?

Aug 15 2020

ฉันมีคำถามต่อไปนี้: ตัวอย่างสุ่มขนาด 25 จากการแจกแจงปกติมีค่าเฉลี่ย 47 และส่วนเบี่ยงเบนมาตรฐาน 7 ขึ้นอยู่กับ $t$- สถิติเราสามารถพูดได้ว่าข้อมูลที่ให้มาสนับสนุนการคาดเดาว่าค่าเฉลี่ยของประชากรคือ 42?

ฉันสับสนจริงๆว่า $t$- สถิติทำงานเพื่อปฏิเสธหรือล้มเหลวในการปฏิเสธสมมติฐาน คำอธิบายจะเป็นประโยชน์มาก ขอบคุณ!

คำตอบ

2 BruceET Aug 16 2020 at 01:35

T-Test แบบสองด้าน

เพิ่งจะมีชุดข้อมูลปกติกับ $n=25, \bar X = 57, S = 7$ ในหน้าต่าง R Session ของฉัน

ข้อมูลเหมาะสมสำหรับการทดสอบหรือไม่? นี่คือสรุปข้อมูลซึ่งคำนวณโดย R:

summary(x)
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
  35.18   40.78   44.83   47.00   52.35   61.34 
length(x); sd(x)
[1] 25   # sample size n = 25
[1] 7    # sample standard deviation S = 7.0

stripchart(x, pch="|")

ข้อมูลสมมาตรโดยประมาณโดยไม่มีค่าผิดปกติ ผ่านการทดสอบความเป็นปกติของ Shapiro-Wilk ด้วยค่า P ด้านบน$0.05 = 5\%.$

shapiro.test(x)

        Shapiro-Wilk normality test

data:  x
W = 0.96136, p-value = 0.4423

ข้อมูลใกล้เคียงมากพอที่จะเป็นปกติเพื่อให้ใช้ได้

R พิมพ์สำหรับการทดสอบ t ดังนั้นนี่คือผลลัพธ์จาก R สำหรับการทดสอบทีหนึ่งตัวอย่างของ$H_0: \mu = 42$ ต่อต้าน $H_a: \mu \ne 42.$

t.test(x, mu=42)

        One Sample t-test

data:  x
t = 3.5714, df = 24, p-value = 0.001543
alternative hypothesis: 
  true mean is not equal to 42
95 percent confidence interval:
  44.11054 49.88946
sample estimates:
mean of x 
       47 

การตีความผลลัพธ์ ค่า P คือ$0.0015 < 0.05 = 5\%,$ ดังนั้นคุณจะปฏิเสธ $H_0$ที่ระดับนัยสำคัญ 5% คุณยังสามารถปฏิเสธที่ระดับ 1%

ผลลัพธ์ยังให้ช่วงความเชื่อมั่น 95% (CI) $(44.11, 49.89),$ เราจึงสามารถสรุปมูลค่าที่แท้จริงของ $\mu$อยู่ในช่วงเวลานั้น - ซึ่งไม่ได้ประกอบด้วย$\mu = 42.$

การตีความ CI นี้อย่างหนึ่งก็คือเป็นช่วงเวลาหนึ่งของสมมติฐานว่างที่ "ไม่สามารถปฏิเสธได้" โดยพิจารณาจากข้อมูลของคุณ

รายละเอียดที่คุณควรรู้เกี่ยวกับการทดสอบ @PeterForeman ได้แสดงวิธีคำนวณ T-statistic ยกเว้นค่า P คุณควรจะทำซ้ำทุกอย่างในผลลัพธ์ด้วยการคำนวณด้วยมือ

  • ค่า P ที่แน่นอนจะได้รับในงานพิมพ์คอมพิวเตอร์ เมื่อดูตารางที่พิมพ์ t คุณควรจะสามารถ 'วงเล็บ' ค่า P ได้ ตัวอย่างเช่นตารางของฉันมีค่า 2.467 และ 3.745 ในบรรทัด DF = 24 ซึ่งยึด T-statistic 3.5714 เมื่อมองไปที่ขอบด้านบนของตารางฉันเห็นว่าค่า P ต้องอยู่ระหว่าง$2(0.001) = 0.002$ และ $2(0.0005) = 0.001,$ซึ่งเห็นด้วยกับค่าจาก R [ค่า2นี้เป็นเพราะเป็นการทดสอบ t 2 ด้าน]

  • คุณสามารถรับค่า P ที่แน่นอนของการทดสอบ 2 ด้านนี้ได้ในR หรือซอฟต์แวร์ทางสถิติอื่น ๆ มันคือความน่าจะเป็นของสถิติ T ที่ไกลออกไป$0$ กว่าที่สังเกต $T =3.5714.$ใน R ซึ่งptเป็น CDF ของการแจกแจง t ของนักเรียนการคำนวณต่อไปนี้ทำให้คุณเข้าใกล้ค่า P ในงานพิมพ์มาก (หากมีการปัดเศษค่าของสถิติ T ที่รายงานแล้วค่า P อาจไม่ตรงกันทั้งหมด แต่มีเพียงทศนิยมสองตำแหน่งแรกเท่านั้นที่มีความสำคัญต่อการตัดสินใจ)

.

2 * (1 - pt(3.5714, 24))
[1] 0.001543522
  • ในการตอบคำถามของคุณในความคิดเห็น: จากตาราง t ที่พิมพ์ออกมาคุณสามารถพูดได้ว่าค่าวิกฤตสำหรับการปฏิเสธที่ระดับ 5% คือ$c = 2.064.$ นั่นคือคุณจะปฏิเสธที่ระดับ 5% ของ $|T| > 2.064,$ซึ่งมันคือ ค่าวิกฤตจะลดความน่าจะเป็น$0.025 = 2.5\% $จากหางด้านบนของการแจกแจง t ของนักเรียนด้วย DF = 24 ใน R ซึ่งqtเป็นฟังก์ชันควอนไทล์ (CDF ผกผัน) คุณจะได้รับค่าวิกฤต 5% ดังที่แสดงด้านล่าง ค่าวิกฤตสำหรับการทดสอบที่ระดับนัยสำคัญ 1% คืออะไร?

${}$

qt(.975, 24)
[1] 2.063899

สรุปแบบกราฟิก รูปด้านล่างแสดงฟังก์ชันความหนาแน่นของการแจกแจง t ของนักเรียนด้วย 24 DF แนวตั้งสีน้ำเงินเหมือนแสดงค่าที่สังเกตได้ของสถิติ T ค่า P เป็นสองเท่าของพื้นที่ใต้เส้นโค้งทางขวาของเส้นนี้ ค่าวิกฤตด้านล่างและด้านบนสำหรับการทดสอบที่ระดับ 5% จะแสดงด้วยเส้นสีส้มแนวตั้ง เส้นสีแดง (ไกลออกไป) สำหรับการทดสอบที่ระดับ 1%