अनुपात में दो-नमूना अंतर: मानक त्रुटि का अनुमान सामान्यता के लिए समस्या क्यों नहीं है?
सबसे पहले, यह एक बहुत ही सामान्य प्रश्न की तरह लगता है, लेकिन मैं वादा करता हूं कि मैंने लंबे समय तक अन्य समान पोस्टों के माध्यम से खोज की है और एक समाधान नहीं मिला है जो एक उत्तर प्रदान करता है। ( यह और यह बहुत करीब आता है, लेकिन मुझे नहीं लगता कि या तो यह बहुत जवाब देता है!)।
मैं अपने भ्रम की व्याख्या करने में बहुत गहन होऊंगा, इसकी तुलना पहले एक-नमूना अनुपात मामले से करूंगा। हम परीक्षण कर सकते हैं कि क्या सही अनुपात$p$ कुछ मूल्य के बराबर है $c$।
$H_0: p = c.$
$H_A: p \neq c.$
के लिये $np$ तथा $n(1-p)$ पर्याप्त रूप से बड़ा, सामान्य करने के लिए द्विपद सन्निकटन हमें देता है $\hat{p} \sim N(p, p(1-p)/n)$। इस प्रकार, जब हम परीक्षण आँकड़ा की गणना करते हैं,$Z := \frac{\hat{p} - c}{\sqrt{c(1-c)/n}}.$अशक्त परिकल्पना के तहत इसे मानक सामान्य के रूप में वितरित किया जाता है। महत्वपूर्ण रूप से, हम मानक त्रुटि का अनुमान नहीं लगा रहे हैं - यह अशक्त परिकल्पना से निर्धारित होता है!
अब, हम इसके बजाय दो-नमूना मामले पर विचार करते हैं, जहां हम अनुपात में अंतर पर एक परिकल्पना परीक्षण चलाना चाहते हैं।
$H_0: p_1 - p_2 = 0.$
$H_A: p_1 - p_2 \neq 0.$
वही द्विपद सन्निकट हमें देता है $\hat{p}_i \sim N(p_i, p_i(1-p_i)/n_i)$, $i=1,2$। तो अगर$\tilde{p}$ पूलित अनुपात है ($\hat{p} = (x_1 + x_2)/(n_1+n_2)$), मुझे पता है कि हमारी परीक्षा सांख्यिकीय द्वारा दी गई है $Z := \frac{\hat{p}_1 - \hat{p}_2}{\sqrt{\tilde{p}(1-\tilde{p})(1/n_1 + 1/n_2)}}.$
यह महत्वपूर्ण हिस्सा है जिसका मैं पालन नहीं करता हूं। एक-नमूना मामले में, हमने मानक त्रुटि का अनुमान नहीं लगाया-यह अशक्त द्वारा निर्धारित किया गया था। इसलिए, मानक सामान्य का हवाला देना समझ में आता है। दो नमूना मामले में, हम करते हैं हमारे जमा अनुपात का उपयोग कर, मानक त्रुटि अनुमान लगाने के लिए है! तो, मूल रूप से, क्या हमें इसे प्रतिबिंबित करने के लिए किसी प्रकार का समायोजन नहीं करना चाहिए? (यानी, जैसा कि हम एक टी-टेस्ट के साथ करते हैं)।
तो, मैं इसे कैसे समझा सकता हूं? हम अभी भी मानक सामान्य का हवाला देते हैं, भले ही हम इसकी मानक त्रुटि के लिए डेटा-आधारित अनुमान का उपयोग कर रहे हों?
हालांकि यह सवाल एक टी-टेस्ट के अनुरूप है, मैं समझता हूं कि हम सिर्फ एक टी-टेस्ट का उपयोग क्यों नहीं कर सकते हैं (हम अन्य मान्यताओं को पूरा नहीं करते हैं)। अब तक के उत्तर में मेरा सबसे अच्छा प्रयास बस है:
"हाँ, हम मानक त्रुटि का अनुमान लगा रहे हैं, लेकिन यह सन्निकटन हमारे मूल सामान्य सन्निकटन द्वारा द्विपद को निगल लिया जाता है, क्योंकि यह केवल उच्च स्तर की स्वतंत्रता के लिए काम करता है"?
वहाँ एक बेहतर व्याख्या है कि? यह सहज महसूस करता है कि कुछ समायोजन आवश्यक होगा, लेकिन हम एक नहीं बनाते हैं।
इस बात की संक्षिप्त व्याख्या के लिए कि मुझे दो लिंक क्यों मिले, ऐसा लगा जैसे उन्होंने इसे कवर नहीं किया है ...
@glen_b का जवाब बहुत अच्छा है, और स्पष्ट रूप से बताता है कि टी-टेस्ट के लिए आवश्यक सैद्धांतिक धारणाएं यहां क्यों नहीं होंगी। हालाँकि, मैं इसे इस सटीक मुद्दे की व्याख्या नहीं करता। इसमें एक और दो नमूना अनुपात परीक्षणों का उल्लेख किया गया है, और मेरा भ्रम यह है कि वे ऐसा महसूस नहीं करते हैं कि वे इस मोर्चे पर समान हैं। लेकिन इससे ऊपर मेरे सबसे अच्छे अनुमान को सूचित करने में मदद मिलती है, जो यह है कि हमारी सामान्यता सन्निकटन के लिए नमूना आकार के लिए पर्याप्त है, मानक त्रुटि का अनुमान मूल रूप से अप्रासंगिक है।
इसी तरह, @ व्हिबर के बहुत स्पष्ट रूप से (भूखंडों के साथ) दिखाता है कि कैसे छात्र-टी वितरण हमारे परीक्षण सांख्यिकीय को साधारण मानक की तुलना में किसी भी बेहतर (मध्यम नमूना आकार के लिए) अनुमानित नहीं करता है।
इसलिए, मैं समझता हूँ कि छात्र-वितरण का यहाँ बेहतर विकल्प क्यों नहीं है। लेकिन मेरी सुस्त उलझन बस है: भले ही छात्र-टी सही फिक्स नहीं है, फिर भी यह बताने का सबसे अच्छा तरीका क्या है कि हम यहां किसी भी प्रकार का समायोजन क्यों नहीं प्रदान करते हैं? मैं एक नमूना और दो नमूना मामले को समान रूप से वर्णित देखता हूं- "यह सामान्य है क्योंकि विचरण माध्य द्वारा निर्धारित किया जाता है"। लेकिन मामले काफी भिन्न हैं-एक में, हम मानक त्रुटि का अनुमान लगाते हैं, दूसरे में, हम नहीं करते हैं। क्या उत्तर केवल "एक बार हम पहले से ही एक सामान्य के साथ द्विपद अनुपात अंतर को अनुमानित कर रहे हैं, मानक त्रुटि का अनुमान उस अनुमान के सापेक्ष तुच्छ है, इसलिए हम इसे अनदेखा कर सकते हैं"?
जवाब
जैसा कि आप लिंक के उत्तर में, आप फिर से स्लटस्की के प्रमेय का उपयोग करते हैं , विशेष रूप से विकिपीडिया लिंक पर तीसरा (अनुपात) रूप।
अगर आप लिखेंगे $Z_n$ जैसा $X_n/Y_n$ कहाँ पे
$$X_n = \frac{\hat{p}_1 - \hat{p}_2}{\sqrt{p_0(1-p_0)(1/n_1 + 1/n_2)}}$$
$$Y_n = \frac{\sqrt{\tilde{p}(1-\tilde{p})}}{\sqrt{p_0(1-p_0)}}$$
कहाँ पे $p_0$ अशक्त के तहत सामान्य जनसंख्या अनुपात है और $n_1$ तथा $n_2$ आनुपातिक रूप से बढ़ाएँ * (या, वैकल्पिक रूप से देने से $n$ का छोटा हो $n_1$ तथा $n_2$ इसके बजाय) तब प्रमेय लागू होना चाहिए, और $Y_n$ के लिए अभिसरण करता है $1$, ताकि $n\to\infty$ क्रम $Z_n$ उसी वितरण में परिवर्तित होता है $X_n$ करता है (यानी मानक सामान्य वितरण के लिए)।
* इस भाग को औपचारिक रूप से, इसी तरह के कई तरीकों से, एक अनुक्रम से संबंधित किया जा सकता है $n_1$ तथा $n_2$ मूल्यों के लिए $n$ जबकि उन्हें अनुपात में पकड़े हुए