एकाधिक परिकल्पना परीक्षण में पी-मान क्यों और कैसे समायोजित करें
एकाधिक परिकल्पना परीक्षण तब होता है जब हम बार-बार कई विशेषताओं पर मॉडल का परीक्षण करते हैं, क्योंकि परीक्षणों की संख्या के साथ एक या अधिक गलत खोज प्राप्त करने की संभावना बढ़ जाती है। उदाहरण के लिए, जीनोमिक्स के क्षेत्र में, वैज्ञानिक अक्सर यह परीक्षण करना चाहते हैं कि रुचि के परिणाम में हजारों जीनों में से किसी की गतिविधि काफी अलग है या नहीं। या क्या जेलीबीन मुँहासे का कारण बनता है ।
इस ब्लॉग पोस्ट में, हम मॉडल पी-वैल्यू को समायोजित करके कई परिकल्पना परीक्षण के लिए उपयोग की जाने वाली कुछ लोकप्रिय विधियों को शामिल करेंगे:
- झूठी सकारात्मक दर (एफपीआर)
- परिवार-वार त्रुटि दर (FWER)
- झूठी खोज दर (एफडीआर)
इस दस्तावेज़ को निम्नलिखित छवि में संक्षेपित किया जा सकता है:
परीक्षण डेटा बनाएँ
हम यह बेहतर ढंग से समझने के लिए एक अनुरूपित उदाहरण तैयार करेंगे कि कैसे विभिन्न पी-वैल्यू में हेरफेर से विभिन्न निष्कर्ष निकल सकते हैं। इस कोड को चलाने के लिए, हमें pandas
, numpy
, scipy
और statsmodels
स्थापित पुस्तकालयों के साथ पायथन की आवश्यकता है।
इस उदाहरण के उद्देश्य के लिए, हम 1000 सुविधाओं का एक पांडा डेटाफ़्रेम बनाकर शुरू करते हैं। जिनमें से 990 (99%) के मान मीन = 0 के साथ सामान्य वितरण से उत्पन्न होंगे, जिन्हें नल मॉडल कहा जाता है। (नीचे उपयोग किए गए एक फ़ंक्शन में norm.rvs()
, माध्य तर्क का उपयोग करके सेट किया गया है loc
।) शेष 1% सुविधाएँ सामान्य वितरण माध्य = 3 से उत्पन्न होंगी, जिसे गैर-शून्य मॉडल कहा जाता है। हम इनका उपयोग दिलचस्प विशेषताओं का प्रतिनिधित्व करने के लिए करेंगे जिन्हें हम खोजना चाहते हैं।
import pandas as pd
import numpy as np
from scipy.stats import norm
from statsmodels.stats.multitest import multipletests
np.random.seed(42)
n_null = 9900
n_nonnull = 100
df = pd.DataFrame({
'hypothesis': np.concatenate((
['null'] * n_null,
['non-null'] * n_nonnull,
)),
'feature': range(n_null + n_nonnull),
'x': np.concatenate((
norm.rvs(loc=0, scale=1, size=n_null),
norm.rvs(loc=3, scale=1, size=n_nonnull),
))
})
P-मानों की गणना एक संचयी बंटन ( norm.cdf()
से ) से की जा सकती है जो देखे गए scipy.stats
के बराबर या उससे कम मान प्राप्त करने की संभावना का प्रतिनिधित्व करता है। फिर पी-वैल्यू की गणना करने के लिए हम गणना की गई संभावना से अधिक1 - norm.cdf()
संभावना खोजने के लिए गणना करते हैं :
df['p_value'] = 1 - norm.cdf(df['x'], loc = 0, scale = 1)
df
पहली अवधारणा को झूठी सकारात्मक दर कहा जाता है और इसे अशक्त परिकल्पनाओं के एक अंश के रूप में परिभाषित किया जाता है जिसे हम "महत्वपूर्ण" (जिसे टाइप I त्रुटियां भी कहा जाता है) के रूप में चिह्नित करते हैं। हमारे द्वारा पहले गणना किए गए पी-वैल्यू को उनकी बहुत परिभाषा से झूठी सकारात्मक दर के रूप में व्याख्या किया जा सकता है: जब हम शून्य वितरण का नमूना देते हैं, तो वे कम से कम एक निर्दिष्ट मूल्य के रूप में बड़े मूल्य प्राप्त करने की संभावनाएं हैं।
व्याख्यात्मक उद्देश्यों के लिए, हम 0.05 की एक सामान्य (जादुई ) पी-मान सीमा लागू करेंगे, लेकिन किसी भी सीमा का उपयोग किया जा सकता है:
df['is_raw_p_value_significant'] = df['p_value'] <= 0.05
df.groupby(['hypothesis', 'is_raw_p_value_significant']).size()
hypothesis is_raw_p_value_significant
non-null False 8
True 92
null False 9407
True 493
dtype: int64
एफपीआर के साथ मुख्य समस्या यह है कि वास्तविक परिदृश्य में हम यह नहीं जानते कि कौन सी परिकल्पनाएं शून्य हैं और कौन सी नहीं। फिर, कच्चा पी-मूल्य अपने आप में (गलत सकारात्मक दर) सीमित उपयोग का है। हमारे मामले में जब गैर-शून्य सुविधाओं का अंश बहुत छोटा होता है, तो महत्वपूर्ण के रूप में चिह्नित की गई अधिकांश विशेषताएं शून्य होंगी, क्योंकि उनमें से कई और हैं। विशेष रूप से, 92 + 493 = 585 विशेषताओं में से सही ("सकारात्मक") फ़्लैग की गई, केवल 92 हमारे गैर-शून्य वितरण से हैं। इसका मतलब है कि अधिकांश या लगभग 84% रिपोर्ट की गई महत्वपूर्ण विशेषताएं (493/585) झूठी सकारात्मक हैं!
तो, हम इस बारे में क्या कर सकते हैं? इस मुद्दे को हल करने के दो सामान्य तरीके हैं: झूठी सकारात्मक दर के बजाय, हम परिवार-वार त्रुटि दर (एफडब्ल्यूईआर) या झूठी खोज दर (एफडीआर) की गणना कर सकते हैं। इन विधियों में से प्रत्येक एक इनपुट के रूप में कच्चे, असमायोजित, पी-वैल्यू का सेट लेता है, और आउटपुट के रूप में "समायोजित पी-वैल्यू" का एक नया सेट तैयार करता है। ये "समायोजित पी-वैल्यू" एफडब्ल्यूईआर और एफडीआर पर ऊपरी सीमा के अनुमानों का प्रतिनिधित्व करते हैं। उन्हें multipletests()
फ़ंक्शन से प्राप्त किया जा सकता है, जो कि statsmodels
पायथन लाइब्रेरी का हिस्सा है:
def adjust_pvalues(p_values, method):
return multipletests(p_values, method = method)[1]
पारिवारिक-वार त्रुटि दर एक या एक से अधिक अशक्त परिकल्पनाओं को गलत तरीके से खारिज करने की संभावना है, या दूसरे शब्दों में सही अशक्त को गैर-शून्य के रूप में चिह्नित करना, या एक या अधिक गलत सकारात्मक देखने की संभावना है।
जब केवल एक परिकल्पना का परीक्षण किया जा रहा हो, तो यह अपरिष्कृत पी-मान (गलत धनात्मक दर) के बराबर होता है। हालाँकि, जितनी अधिक परिकल्पनाओं का परीक्षण किया जाता है, उतनी ही अधिक संभावना है कि हम एक या एक से अधिक झूठे सकारात्मक प्राप्त करने जा रहे हैं। FWER का अनुमान लगाने के दो लोकप्रिय तरीके हैं: बोनफेरोनी और होल्म प्रक्रियाएँ। हालांकि न तो बोनफेरोनी और न ही होल्म प्रक्रियाएं व्यक्तिगत विशेषताओं पर चलने वाले परीक्षणों की निर्भरता के बारे में कोई धारणा बनाती हैं, वे अत्यधिक रूढ़िवादी होंगे। उदाहरण के लिए, चरम स्थिति में जब सभी सुविधाएँ समान होती हैं (एक ही मॉडल को 10,000 बार दोहराया जाता है), किसी सुधार की आवश्यकता नहीं होती है। जबकि दूसरे चरम पर, जहां कोई विशेषता सहसंबद्ध नहीं है, कुछ प्रकार के सुधार की आवश्यकता है।
बोनफेरोनी प्रक्रिया
एकाधिक परिकल्पना परीक्षण के लिए सुधार के लिए सबसे लोकप्रिय तरीकों में से एक बोनफेरोनी प्रक्रिया है। इस पद्धति के लोकप्रिय होने का कारण यह है कि गणना करना बहुत आसान है, यहां तक कि हाथ से भी। यह प्रक्रिया प्रत्येक पी-मान को किए गए परीक्षणों की कुल संख्या से गुणा करती है या इसे 1 पर सेट करती है यदि यह गुणन इसे 1 से आगे बढ़ा देगा।
df['p_value_bonf'] = adjust_pvalues(df['p_value'], 'bonferroni')
df.sort_values('p_value_bonf')
होल्म की प्रक्रिया एक सुधार प्रदान करती है जो बोनफेरोनी की प्रक्रिया से अधिक शक्तिशाली है। फर्क सिर्फ इतना है कि सभी पी-मानों को परीक्षणों की कुल संख्या (यहां, 10000) से गुणा नहीं किया जाता है। इसके बजाय, प्रत्येक सॉर्ट किए गए पी-वैल्यू को 10000, 9999, 9998, 9997, ..., 3, 2, 1 के घटते क्रम से उत्तरोत्तर गुणा किया जाता है।
df['p_value_holm'] = adjust_pvalues(df['p_value'], 'holm')
df.sort_values('p_value_holm').head(10)
यदि हम फिर से 0.05 की अपनी पी-वैल्यू सीमा लागू करते हैं, तो आइए देखें कि ये समायोजित पी-वैल्यू हमारी भविष्यवाणियों को कैसे प्रभावित करते हैं:
df['is_p_value_holm_significant'] = df['p_value_holm'] <= 0.05
df.groupby(['hypothesis', 'is_p_value_holm_significant']).size()
hypothesis is_p_value_holm_significant
non-null False 92
True 8
null False 9900
dtype: int64
हालाँकि, इस दृष्टिकोण का एक नकारात्मक पहलू है: यह अन्य 92 गैर-शून्य सुविधाओं को महत्वपूर्ण के रूप में फ़्लैग करने में विफल रहा। हालांकि यह सुनिश्चित करने के लिए बहुत कठोर था कि कोई भी अशक्त विशेषता फिसल न जाए, यह केवल 8% (100 में से 8) गैर-अशक्त सुविधाओं को खोजने में सक्षम था। इसे झूठी सकारात्मक दर के दृष्टिकोण से अलग चरम के रूप में देखा जा सकता है।
क्या कोई और मध्य मैदान है? इसका उत्तर "हां" है, और वह मध्य मार्ग फाल्स डिस्कवरी रेट है।
झूठी खोज दर
क्या होगा यदि हम कुछ झूठी सकारात्मकता देने के साथ ठीक हैं, लेकिन वास्तविक सकारात्मकता के एकल-अंक प्रतिशत से अधिक पर कब्जा कर रहे हैं? हो सकता है कि हम कुछ झूठे सकारात्मक होने के साथ ठीक हों , बस इतना ही नहीं कि वे उन सभी विशेषताओं को अभिभूत कर दें जिन्हें हम महत्वपूर्ण मानते हैं - जैसा कि एफपीआर उदाहरण में मामला था।
यह एक निर्दिष्ट सीमा स्तर, मान लीजिए 0.05 पर झूठी खोज दर (FWER या FPR के बजाय) को नियंत्रित करके किया जा सकता है। फाल्स डिस्कवरी रेट को पॉज़िटिव के रूप में फ़्लैग की गई सभी विशेषताओं में से फ़ॉल्स पॉज़िटिव के अंश के रूप में परिभाषित किया गया है: FDR = FP / (FP + TP), जहाँ FP फ़ॉल्स पॉज़िटिव की संख्या है और TP ट्रू पॉज़िटिव की संख्या है। FDR सीमा को 0.05 पर सेट करके, हम कह रहे हैं कि हम अपनी सभी सुविधाओं के बीच 5% (औसतन) झूठे सकारात्मक होने के साथ ठीक हैं, हम सकारात्मक के रूप में फ़्लैग करते हैं।
एफडीआर को नियंत्रित करने के लिए कई तरीके हैं और यहां हम वर्णन करेंगे कि दो लोकप्रिय तरीकों का उपयोग कैसे करें: बेंजामिनी-होचबर्ग और बेंजामिनी-येकुटिली प्रक्रियाएं। ये दोनों प्रक्रियाएं समान हैं, हालांकि एफडब्ल्यूईआर प्रक्रियाओं की तुलना में अधिक शामिल हैं। वे अभी भी पी-मानों को क्रमबद्ध करने, उन्हें एक विशिष्ट संख्या के साथ गुणा करने और फिर कट-ऑफ मानदंड का उपयोग करने पर भरोसा करते हैं।
बेंजामिनी-होचबर्ग प्रक्रिया
Benjamini-Hochberg (BH) procedure assumes that each of the tests are independent. Dependent tests occur, for example, if the features being tested are correlated with each other. Let’s calculate the BH-adjusted p-values and compare it to our earlier result from FWER using Holm’s correction:
df['p_value_bh'] = adjust_pvalues(df['p_value'], 'fdr_bh')
df[['hypothesis', 'feature', 'x', 'p_value', 'p_value_holm', 'p_value_bh']] \
.sort_values('p_value_bh') \
.head(10)
df['is_p_value_holm_significant'] = df['p_value_holm'] <= 0.05
df.groupby(['hypothesis', 'is_p_value_holm_significant']).size()
hypothesis is_p_value_holm_significant
non-null False 92
True 8
null False 9900
dtype: int64
df['is_p_value_bh_significant'] = df['p_value_bh'] <= 0.05
df.groupby(['hypothesis', 'is_p_value_bh_significant']).size()
hypothesis is_p_value_bh_significant
non-null False 67
True 33
null False 9898
True 2
dtype: int64
Note that in this case we have 6% FDR rate, even though we aimed to control it at 5%. FDR will be controlled at a 5% rate on average: sometimes it may be lower and sometimes it may be higher.
Benjamini-Yekutieli procedure
बेंजामिनी-येकुतिएली (बीवाई) प्रक्रिया एफडीआर को नियंत्रित करती है, भले ही परीक्षण स्वतंत्र हों या नहीं। फिर से, यह ध्यान देने योग्य है कि ये सभी प्रक्रियाएँ FDR (या FWER) पर ऊपरी सीमा स्थापित करने का प्रयास करती हैं, इसलिए वे कम या अधिक रूढ़िवादी हो सकती हैं। आइए ऊपर दिए गए बीएच और होल्म प्रक्रियाओं के साथ BY प्रक्रिया की तुलना करें:
df['p_value_by'] = adjust_pvalues(df['p_value'], 'fdr_by')
df[['hypothesis', 'feature', 'x', 'p_value', 'p_value_holm', 'p_value_bh', 'p_value_by']] \
.sort_values('p_value_by') \
.head(10)
df['is_p_value_by_significant'] = df['p_value_by'] <= 0.05
df.groupby(['hypothesis', 'is_p_value_by_significant']).size()
hypothesis is_p_value_by_significant
non-null False 93
True 7
null False 9900
dtype: int64
सारांश
अंत में, प्रक्रिया का चुनाव उपयोगकर्ता पर छोड़ दिया जाता है और यह इस बात पर निर्भर करता है कि विश्लेषण क्या करने की कोशिश कर रहा है। बेंजामिनी, होचबर्ग (रॉयल स्टेट। सोसाइटी 1995) का हवाला देते हुए:
अक्सर FWER के नियंत्रण की बिल्कुल जरूरत नहीं होती है। FWER का नियंत्रण तब महत्वपूर्ण होता है जब विभिन्न व्यक्तिगत अनुमानों से एक निष्कर्ष के गलत होने की संभावना होती है जब उनमें से कम से कम एक होता है।
यह मामला हो सकता है, उदाहरण के लिए, जब कई नए उपचार एक मानक के खिलाफ प्रतिस्पर्धा कर रहे हों, और उपचार के सेट से एक एकल उपचार चुना जाता है जो मानक से काफी बेहतर घोषित किया जाता है।
अन्य मामलों में, जहां हम कुछ झूठे सकारात्मक होने के लिए ठीक हो सकते हैं, बीएच सुधार जैसे एफडीआर विधियां कम कठोर पी-वैल्यू समायोजन प्रदान करती हैं और बेहतर हो सकती हैं यदि हम प्राथमिक रूप से वास्तविक सकारात्मक की संख्या बढ़ाना चाहते हैं जो एक निश्चित पी-वैल्यू पास करते हैं सीमा।
यहां अन्य समायोजन विधियों का उल्लेख नहीं किया गया है, विशेष रूप से एक क्यू-वैल्यू जिसका उपयोग एफडीआर नियंत्रण के लिए भी किया जाता है, और लेखन के समय केवल आर पैकेज के रूप में मौजूद होता है।