एकाधिक परिकल्पना परीक्षण में पी-मान क्यों और कैसे समायोजित करें

May 05 2023
एक निश्चित दहलीज के नीचे के पी-मान अक्सर प्रासंगिक सुविधाओं का चयन करने के लिए एक विधि के रूप में उपयोग किए जाते हैं। नीचे दी गई सलाह बताती है कि उनका सही तरीके से उपयोग कैसे किया जाए।
एकाधिक परिकल्पना परीक्षण तब होता है जब हम बार-बार कई विशेषताओं पर मॉडल का परीक्षण करते हैं, क्योंकि परीक्षणों की संख्या के साथ एक या अधिक गलत खोज प्राप्त करने की संभावना बढ़ जाती है। उदाहरण के लिए, जीनोमिक्स के क्षेत्र में, वैज्ञानिक अक्सर यह परीक्षण करना चाहते हैं कि रुचि के परिणाम में हजारों जीनों में से किसी की गतिविधि काफी अलग है या नहीं।
लेखक द्वारा फोटो। वेस्टफील्ड यूटीसी मॉल, ला जोला, कैलिफोर्निया में लिया गया।

एकाधिक परिकल्पना परीक्षण तब होता है जब हम बार-बार कई विशेषताओं पर मॉडल का परीक्षण करते हैं, क्योंकि परीक्षणों की संख्या के साथ एक या अधिक गलत खोज प्राप्त करने की संभावना बढ़ जाती है। उदाहरण के लिए, जीनोमिक्स के क्षेत्र में, वैज्ञानिक अक्सर यह परीक्षण करना चाहते हैं कि रुचि के परिणाम में हजारों जीनों में से किसी की गतिविधि काफी अलग है या नहीं। या क्या जेलीबीन मुँहासे का कारण बनता है ।

इस ब्लॉग पोस्ट में, हम मॉडल पी-वैल्यू को समायोजित करके कई परिकल्पना परीक्षण के लिए उपयोग की जाने वाली कुछ लोकप्रिय विधियों को शामिल करेंगे:

  1. झूठी सकारात्मक दर (एफपीआर)
  2. परिवार-वार त्रुटि दर (FWER)
  3. झूठी खोज दर (एफडीआर)

इस दस्तावेज़ को निम्नलिखित छवि में संक्षेपित किया जा सकता है:

लेखक द्वारा छवि।

परीक्षण डेटा बनाएँ

हम यह बेहतर ढंग से समझने के लिए एक अनुरूपित उदाहरण तैयार करेंगे कि कैसे विभिन्न पी-वैल्यू में हेरफेर से विभिन्न निष्कर्ष निकल सकते हैं। इस कोड को चलाने के लिए, हमें pandas, numpy, scipyऔर statsmodelsस्थापित पुस्तकालयों के साथ पायथन की आवश्यकता है।

इस उदाहरण के उद्देश्य के लिए, हम 1000 सुविधाओं का एक पांडा डेटाफ़्रेम बनाकर शुरू करते हैं। जिनमें से 990 (99%) के मान मीन = 0 के साथ सामान्य वितरण से उत्पन्न होंगे, जिन्हें नल मॉडल कहा जाता है। (नीचे उपयोग किए गए एक फ़ंक्शन में norm.rvs(), माध्य तर्क का उपयोग करके सेट किया गया है loc।) शेष 1% सुविधाएँ सामान्य वितरण माध्य = 3 से उत्पन्न होंगी, जिसे गैर-शून्य मॉडल कहा जाता है। हम इनका उपयोग दिलचस्प विशेषताओं का प्रतिनिधित्व करने के लिए करेंगे जिन्हें हम खोजना चाहते हैं।

import pandas as pd
import numpy as np
from scipy.stats import norm
from statsmodels.stats.multitest import multipletests

np.random.seed(42)

n_null = 9900
n_nonnull = 100

df = pd.DataFrame({
    'hypothesis': np.concatenate((
        ['null'] * n_null,
        ['non-null'] * n_nonnull,
    )),
    'feature': range(n_null + n_nonnull),
    'x': np.concatenate((
        norm.rvs(loc=0, scale=1, size=n_null),
        norm.rvs(loc=3, scale=1, size=n_nonnull),
    ))
})

P-मानों की गणना एक संचयी बंटन ( norm.cdf()से ) से की जा सकती है जो देखे गए scipy.statsके बराबर या उससे कम मान प्राप्त करने की संभावना का प्रतिनिधित्व करता है। फिर पी-वैल्यू की गणना करने के लिए हम गणना की गई संभावना से अधिक1 - norm.cdf() संभावना खोजने के लिए गणना करते हैं :

df['p_value'] = 1 - norm.cdf(df['x'], loc = 0, scale = 1)
df

      
                

पहली अवधारणा को झूठी सकारात्मक दर कहा जाता है और इसे अशक्त परिकल्पनाओं के एक अंश के रूप में परिभाषित किया जाता है जिसे हम "महत्वपूर्ण" (जिसे टाइप I त्रुटियां भी कहा जाता है) के रूप में चिह्नित करते हैं। हमारे द्वारा पहले गणना किए गए पी-वैल्यू को उनकी बहुत परिभाषा से झूठी सकारात्मक दर के रूप में व्याख्या किया जा सकता है: जब हम शून्य वितरण का नमूना देते हैं, तो वे कम से कम एक निर्दिष्ट मूल्य के रूप में बड़े मूल्य प्राप्त करने की संभावनाएं हैं।

व्याख्यात्मक उद्देश्यों के लिए, हम 0.05 की एक सामान्य (जादुई ) पी-मान सीमा लागू करेंगे, लेकिन किसी भी सीमा का उपयोग किया जा सकता है:

df['is_raw_p_value_significant'] = df['p_value'] <= 0.05
df.groupby(['hypothesis', 'is_raw_p_value_significant']).size()
hypothesis  is_raw_p_value_significant
non-null    False                            8
            True                            92
null        False                         9407
            True                           493
dtype: int64

एफपीआर के साथ मुख्य समस्या यह है कि वास्तविक परिदृश्य में हम यह नहीं जानते कि कौन सी परिकल्पनाएं शून्य हैं और कौन सी नहीं। फिर, कच्चा पी-मूल्य अपने आप में (गलत सकारात्मक दर) सीमित उपयोग का है। हमारे मामले में जब गैर-शून्य सुविधाओं का अंश बहुत छोटा होता है, तो महत्वपूर्ण के रूप में चिह्नित की गई अधिकांश विशेषताएं शून्य होंगी, क्योंकि उनमें से कई और हैं। विशेष रूप से, 92 + 493 = 585 विशेषताओं में से सही ("सकारात्मक") फ़्लैग की गई, केवल 92 हमारे गैर-शून्य वितरण से हैं। इसका मतलब है कि अधिकांश या लगभग 84% रिपोर्ट की गई महत्वपूर्ण विशेषताएं (493/585) झूठी सकारात्मक हैं!

तो, हम इस बारे में क्या कर सकते हैं? इस मुद्दे को हल करने के दो सामान्य तरीके हैं: झूठी सकारात्मक दर के बजाय, हम परिवार-वार त्रुटि दर (एफडब्ल्यूईआर) या झूठी खोज दर (एफडीआर) की गणना कर सकते हैं। इन विधियों में से प्रत्येक एक इनपुट के रूप में कच्चे, असमायोजित, पी-वैल्यू का सेट लेता है, और आउटपुट के रूप में "समायोजित पी-वैल्यू" का एक नया सेट तैयार करता है। ये "समायोजित पी-वैल्यू" एफडब्ल्यूईआर और एफडीआर पर ऊपरी सीमा के अनुमानों का प्रतिनिधित्व करते हैं। उन्हें multipletests()फ़ंक्शन से प्राप्त किया जा सकता है, जो कि statsmodelsपायथन लाइब्रेरी का हिस्सा है:

def adjust_pvalues(p_values, method):
   return multipletests(p_values, method = method)[1]

पारिवारिक-वार त्रुटि दर एक या एक से अधिक अशक्त परिकल्पनाओं को गलत तरीके से खारिज करने की संभावना है, या दूसरे शब्दों में सही अशक्त को गैर-शून्य के रूप में चिह्नित करना, या एक या अधिक गलत सकारात्मक देखने की संभावना है।

जब केवल एक परिकल्पना का परीक्षण किया जा रहा हो, तो यह अपरिष्कृत पी-मान (गलत धनात्मक दर) के बराबर होता है। हालाँकि, जितनी अधिक परिकल्पनाओं का परीक्षण किया जाता है, उतनी ही अधिक संभावना है कि हम एक या एक से अधिक झूठे सकारात्मक प्राप्त करने जा रहे हैं। FWER का अनुमान लगाने के दो लोकप्रिय तरीके हैं: बोनफेरोनी और होल्म प्रक्रियाएँ। हालांकि न तो बोनफेरोनी और न ही होल्म प्रक्रियाएं व्यक्तिगत विशेषताओं पर चलने वाले परीक्षणों की निर्भरता के बारे में कोई धारणा बनाती हैं, वे अत्यधिक रूढ़िवादी होंगे। उदाहरण के लिए, चरम स्थिति में जब सभी सुविधाएँ समान होती हैं (एक ही मॉडल को 10,000 बार दोहराया जाता है), किसी सुधार की आवश्यकता नहीं होती है। जबकि दूसरे चरम पर, जहां कोई विशेषता सहसंबद्ध नहीं है, कुछ प्रकार के सुधार की आवश्यकता है।

बोनफेरोनी प्रक्रिया

एकाधिक परिकल्पना परीक्षण के लिए सुधार के लिए सबसे लोकप्रिय तरीकों में से एक बोनफेरोनी प्रक्रिया है। इस पद्धति के लोकप्रिय होने का कारण यह है कि गणना करना बहुत आसान है, यहां तक ​​कि हाथ से भी। यह प्रक्रिया प्रत्येक पी-मान को किए गए परीक्षणों की कुल संख्या से गुणा करती है या इसे 1 पर सेट करती है यदि यह गुणन इसे 1 से आगे बढ़ा देगा।

df['p_value_bonf'] = adjust_pvalues(df['p_value'], 'bonferroni')
df.sort_values('p_value_bonf')

      
                

होल्म की प्रक्रिया एक सुधार प्रदान करती है जो बोनफेरोनी की प्रक्रिया से अधिक शक्तिशाली है। फर्क सिर्फ इतना है कि सभी पी-मानों को परीक्षणों की कुल संख्या (यहां, 10000) से गुणा नहीं किया जाता है। इसके बजाय, प्रत्येक सॉर्ट किए गए पी-वैल्यू को 10000, 9999, 9998, 9997, ..., 3, 2, 1 के घटते क्रम से उत्तरोत्तर गुणा किया जाता है।

df['p_value_holm'] = adjust_pvalues(df['p_value'], 'holm')
df.sort_values('p_value_holm').head(10)

      
                

यदि हम फिर से 0.05 की अपनी पी-वैल्यू सीमा लागू करते हैं, तो आइए देखें कि ये समायोजित पी-वैल्यू हमारी भविष्यवाणियों को कैसे प्रभावित करते हैं:

df['is_p_value_holm_significant'] = df['p_value_holm'] <= 0.05
df.groupby(['hypothesis', 'is_p_value_holm_significant']).size()
hypothesis  is_p_value_holm_significant
non-null    False                            92
            True                              8
null        False                          9900
dtype: int64

हालाँकि, इस दृष्टिकोण का एक नकारात्मक पहलू है: यह अन्य 92 गैर-शून्य सुविधाओं को महत्वपूर्ण के रूप में फ़्लैग करने में विफल रहा। हालांकि यह सुनिश्चित करने के लिए बहुत कठोर था कि कोई भी अशक्त विशेषता फिसल न जाए, यह केवल 8% (100 में से 8) गैर-अशक्त सुविधाओं को खोजने में सक्षम था। इसे झूठी सकारात्मक दर के दृष्टिकोण से अलग चरम के रूप में देखा जा सकता है।

क्या कोई और मध्य मैदान है? इसका उत्तर "हां" है, और वह मध्य मार्ग फाल्स डिस्कवरी रेट है।

झूठी खोज दर

क्या होगा यदि हम कुछ झूठी सकारात्मकता देने के साथ ठीक हैं, लेकिन वास्तविक सकारात्मकता के एकल-अंक प्रतिशत से अधिक पर कब्जा कर रहे हैं? हो सकता है कि हम कुछ झूठे सकारात्मक होने के साथ ठीक हों , बस इतना ही नहीं कि वे उन सभी विशेषताओं को अभिभूत कर दें जिन्हें हम महत्वपूर्ण मानते हैं - जैसा कि एफपीआर उदाहरण में मामला था।

यह एक निर्दिष्ट सीमा स्तर, मान लीजिए 0.05 पर झूठी खोज दर (FWER या FPR के बजाय) को नियंत्रित करके किया जा सकता है। फाल्स डिस्कवरी रेट को पॉज़िटिव के रूप में फ़्लैग की गई सभी विशेषताओं में से फ़ॉल्स पॉज़िटिव के अंश के रूप में परिभाषित किया गया है: FDR = FP / (FP + TP), जहाँ FP फ़ॉल्स पॉज़िटिव की संख्या है और TP ट्रू पॉज़िटिव की संख्या है। FDR सीमा को 0.05 पर सेट करके, हम कह रहे हैं कि हम अपनी सभी सुविधाओं के बीच 5% (औसतन) झूठे सकारात्मक होने के साथ ठीक हैं, हम सकारात्मक के रूप में फ़्लैग करते हैं।

एफडीआर को नियंत्रित करने के लिए कई तरीके हैं और यहां हम वर्णन करेंगे कि दो लोकप्रिय तरीकों का उपयोग कैसे करें: बेंजामिनी-होचबर्ग और बेंजामिनी-येकुटिली प्रक्रियाएं। ये दोनों प्रक्रियाएं समान हैं, हालांकि एफडब्ल्यूईआर प्रक्रियाओं की तुलना में अधिक शामिल हैं। वे अभी भी पी-मानों को क्रमबद्ध करने, उन्हें एक विशिष्ट संख्या के साथ गुणा करने और फिर कट-ऑफ मानदंड का उपयोग करने पर भरोसा करते हैं।

बेंजामिनी-होचबर्ग प्रक्रिया

Benjamini-Hochberg (BH) procedure assumes that each of the tests are independent. Dependent tests occur, for example, if the features being tested are correlated with each other. Let’s calculate the BH-adjusted p-values and compare it to our earlier result from FWER using Holm’s correction:

df['p_value_bh'] = adjust_pvalues(df['p_value'], 'fdr_bh')
df[['hypothesis', 'feature', 'x', 'p_value', 'p_value_holm', 'p_value_bh']] \
    .sort_values('p_value_bh') \
    .head(10)

      
                
df['is_p_value_holm_significant'] = df['p_value_holm'] <= 0.05 df.groupby(['hypothesis', 'is_p_value_holm_significant']).size() hypothesis is_p_value_holm_significant non-null False 92 True 8 null False 9900 dtype: int64 df['is_p_value_bh_significant'] = df['p_value_bh'] <= 0.05 df.groupby(['hypothesis', 'is_p_value_bh_significant']).size() hypothesis is_p_value_bh_significant non-null False 67 True 33 null False 9898 True 2 dtype: int64

Note that in this case we have 6% FDR rate, even though we aimed to control it at 5%. FDR will be controlled at a 5% rate on average: sometimes it may be lower and sometimes it may be higher.

Benjamini-Yekutieli procedure

बेंजामिनी-येकुतिएली (बीवाई) प्रक्रिया एफडीआर को नियंत्रित करती है, भले ही परीक्षण स्वतंत्र हों या नहीं। फिर से, यह ध्यान देने योग्य है कि ये सभी प्रक्रियाएँ FDR (या FWER) पर ऊपरी सीमा स्थापित करने का प्रयास करती हैं, इसलिए वे कम या अधिक रूढ़िवादी हो सकती हैं। आइए ऊपर दिए गए बीएच और होल्म प्रक्रियाओं के साथ BY प्रक्रिया की तुलना करें:

df['p_value_by'] = adjust_pvalues(df['p_value'], 'fdr_by')
df[['hypothesis', 'feature', 'x', 'p_value', 'p_value_holm', 'p_value_bh', 'p_value_by']] \
    .sort_values('p_value_by') \
    .head(10)

      
                
df['is_p_value_by_significant'] = df['p_value_by'] <= 0.05 df.groupby(['hypothesis', 'is_p_value_by_significant']).size() hypothesis is_p_value_by_significant non-null False 93 True 7 null False 9900 dtype: int64

सारांश

अंत में, प्रक्रिया का चुनाव उपयोगकर्ता पर छोड़ दिया जाता है और यह इस बात पर निर्भर करता है कि विश्लेषण क्या करने की कोशिश कर रहा है। बेंजामिनी, होचबर्ग (रॉयल स्टेट। सोसाइटी 1995) का हवाला देते हुए:

अक्सर FWER के नियंत्रण की बिल्कुल जरूरत नहीं होती है। FWER का नियंत्रण तब महत्वपूर्ण होता है जब विभिन्न व्यक्तिगत अनुमानों से एक निष्कर्ष के गलत होने की संभावना होती है जब उनमें से कम से कम एक होता है।

यह मामला हो सकता है, उदाहरण के लिए, जब कई नए उपचार एक मानक के खिलाफ प्रतिस्पर्धा कर रहे हों, और उपचार के सेट से एक एकल उपचार चुना जाता है जो मानक से काफी बेहतर घोषित किया जाता है।

अन्य मामलों में, जहां हम कुछ झूठे सकारात्मक होने के लिए ठीक हो सकते हैं, बीएच सुधार जैसे एफडीआर विधियां कम कठोर पी-वैल्यू समायोजन प्रदान करती हैं और बेहतर हो सकती हैं यदि हम प्राथमिक रूप से वास्तविक सकारात्मक की संख्या बढ़ाना चाहते हैं जो एक निश्चित पी-वैल्यू पास करते हैं सीमा।

यहां अन्य समायोजन विधियों का उल्लेख नहीं किया गया है, विशेष रूप से एक क्यू-वैल्यू जिसका उपयोग एफडीआर नियंत्रण के लिए भी किया जाता है, और लेखन के समय केवल आर पैकेज के रूप में मौजूद होता है।