किसी जॉब को रिमोट बनाने से अधिक उम्मीदवार आगे बढ़ते हैं (3 का भाग 2: मोटे तौर पर सटीक मिलान)
मेरे पिछले पोस्ट में, मैंने दिखाया था कि एक नौकरी के अवसर की दूरदर्शिता वास्तव में बहुत अधिक आवेदक हित के साथ सहसंबद्ध है, लेकिन मैंने यह भी दिखाया कि यह सहसंबंध भ्रामक क्यों हो सकता है, या शायद कम से कम एक अतिरंजित संकेत है कि एक कंपनी आवेदक के संदर्भ में यथोचित अपेक्षा कर सकती है। ब्याज अगर यह ऑन-साइट के बजाय नौकरी खोलने को दूरस्थ बनाता है। अलग-अलग विज्ञापित कार्य व्यवस्थाओं के साथ जॉब पोस्टिंग - ऑन-साइट, हाइब्रिड, या रिमोट - भी अलग-अलग होते हैं, कम से कम मेरे नमूने में, जॉब पोस्टिंग में रुचि के अन्य चालकों के संदर्भ में, उन्हें कितने अनुभव की आवश्यकता होती है से लेकर किन उद्योगों तक वे किस शीर्षक में हैं।
अक्सर, इन अंतरों से प्रतीत होता है कि भाग 1 में मेरे EDA की शुरुआत में किए गए साधनों में साधारण अंतर एक पक्षपातपूर्ण अनुमान है। उदाहरण के लिए उद्योग को लें। हमने देखा कि लगभग 14% रिमोट जॉब पोस्टिंग सॉफ्टवेयर डेवलपमेंट में भूमिकाओं के लिए हैं, जबकि 5% से कम रिटेल में भूमिकाओं के लिए हैं, जो ऑन-साइट जॉब पोस्टिंग के सापेक्ष इन दो क्षेत्रों में क्रमशः अधिक और कम प्रतिनिधित्व का प्रतिनिधित्व करती हैं। यदि उद्योग श्रमिक हित का निर्धारक नहीं होता, तो इसे नज़रअंदाज़ करना ठीक हो सकता है, लेकिन, औसतन, यह शायद है।
जबकि रैखिक प्रतिगमन इस मामले में उद्योग जैसे सहसंयोजकों को धारण करने का एक बहुत प्रभावी तरीका है, जो आप अध्ययन कर रहे प्रभाव का एक निष्पक्ष अनुमान प्राप्त करने के लिए स्थिर हैं, मेरे मामले में, मैंने कई कारणों से अधिक उपयुक्त दृष्टिकोण के रूप में मिलान करने का निर्णय लिया।
मिलान पद्धति
मिलान का एक सरल लाभ यह है कि इसके मूल में यह काफी सहज और व्याख्या करने में आसान है। उद्योग, बाजार, वेतन आदि जैसे प्रमुख चरों के संदर्भ में समान या समान अवलोकन, लेकिन व्यवहार पर भिन्न एक तरह से एक दूसरे के प्रतितथ्यात्मक के रूप में कार्य करते हैं। इन आधारों पर मैचों की तुलना करने से आने वाले अवलोकन-स्तर के अनुमान निश्चित रूप से काफी शोर होंगे, लेकिन एक बड़े नमूना आकार के साथ, जब तक कि सही चर के लिए नियंत्रित किया जाता है, तब तक इसे एक निष्पक्ष उपचार प्रभाव अनुमान प्राप्त करना चाहिए।
मेरे मामले में मिलान का एक और फायदा यह है कि यह गैर पैरामीट्रिक है। रेखीय प्रतिगमन के विपरीत, कोई विनिर्देश नहीं कह रहा है कि सहसंयोजक रैखिक रूप से परिणाम से संबंधित हैं, इसकी आवश्यकता नहीं थी। उन कोवरिएट्स पर मिलान करके, इस तरह आप जिस प्रभाव में रुचि रखते हैं उसकी पहचान करने के लिए आप उन्हें स्थिर रख सकते हैं। इसके अलावा, मेरे नमूने में दर्जनों नकली चर निर्दिष्ट करने या मेरे डेटा को केवल सबसे अधिक बार होने वाले उद्योगों तक सीमित करने की कोई आवश्यकता नहीं थी (जो हमने पहले देखा था वित्त और अस्पताल/स्वास्थ्य देखभाल) या बाजार (न्यूयॉर्क शहर और शिकागो); मिलान ने मुझे उद्योग, बाजार और अन्य प्रमुख चरों पर मैचों के लिए सहसंयोजक स्थान की अधिक जांच करने की अनुमति दी।
महत्वपूर्ण कदमों में पहले उन प्रमुख चरों की पहचान करना और यह भी तय करना शामिल है कि वास्तव में कैसे मिलान किया जाए - या तो सहसंयोजक स्थान में दूरी को कम करके या प्रवृत्ति स्कोर समानता को अधिकतम करके। हालाँकि, मैंने डेटा से कई विशेषताओं को तैयार किया, शुरुआत में, मैंने तय किया कि पाँच चर पर्याप्त हो सकते हैं: बाज़ार, उद्योग, कंपनी का आकार, वेतन की जानकारी और आवश्यक वर्षों का अनुभव। मैंने दूरी मिलान पर भी समझौता किया, यह अनुमान लगाते हुए कि इस सेटिंग में मॉडलिंग प्रवृत्ति स्कोर (अर्थात प्रत्येक कार्य के रिमोट या हाइब्रिड होने की संभावना) बहुत कठिन हो सकता है। विशेष रूप से, मैंने एक मोटे सटीक मिलान ढांचे का उपयोग किया।
मेरे स्पष्ट चर बाजार, उद्योग, और, लिंक्डइन के मामले में, कंपनी का आकार (जैसे 10,001+ कर्मचारी, 501-10,000 कर्मचारी, आदि), यह दृष्टिकोण और औचित्य बहुत सीधा है। विभिन्न उपचार स्थितियों की पोस्टिंग केवल एक मेल है यदि एक ही बाजार और उद्योग में आधारित है और यदि एक ही आकार की श्रेणी में कंपनियों से है। बाजार नौकरी खोलने के हित (कम से कम ऑन-साइट और हाइब्रिड नौकरियों के लिए) पर एक प्रमुख भौगोलिक निर्धारक/बाधा है। इस बीच, उद्योग और कंपनी का आकार वरीयताओं और कौशल के आधार पर आवेदक के हित का निर्धारण करता है। इन श्रेणियों पर टिप्पणियों का मिलान करके, हम यह सुनिश्चित कर सकते हैं कि हमारे अनुमानों को प्रभावित करने वाले उनसे कोई पक्षपात नहीं हो रहा है।
जब मेरे मामले में निरंतर चर - वेतन की जानकारी और आवश्यक वर्षों के अनुभव की बात आती है तो मामले थोड़े अधिक जटिल और कम निश्चित होते हैं। बहुत कम, यदि कोई हो, टिप्पणियों में समान वेतन जानकारी और/या बिल्कुल समान आवश्यक वर्षों का अनुभव होगा। हालाँकि, आवश्यक वर्षों के अनुभव के साथ, उदाहरण के लिए, क्या एक नौकरी के लिए 5 साल के अनुभव की आवश्यकता होती है, जो 6 की आवश्यकता वाले से बहुत अलग है? शायद नहीं। इसलिए, इन चरों पर मिलान करने के लिए, कोई भी उन्हें कई डिब्बे में से एक के रूप में वर्गीकृत कर सकता है।
बिन आकार पर निर्णय लेना पूर्वाग्रह बनाम विचरण का प्रश्न है। यदि डिब्बे बहुत छोटे हैं, जिसका अर्थ है कि आप टिप्पणियों को इन निरंतर चरों पर बहुत अधिक समान होने के लिए कह रहे हैं, तो पाए गए मिलान कम होंगे, जिससे उच्च विचरण होगा। हालाँकि, यदि डिब्बे बहुत बड़े हैं, तो इन चरों पर काफी भिन्न टिप्पणियों का मिलान किया जाता है, जो एक पक्षपाती अनुमान की ओर ले जाता है, क्योंकि आपने इन चरों के लिए सफलतापूर्वक नियंत्रित नहीं किया है।
अंत में, वेतन जानकारी के लिए, मैंने $0 से $250,000 तक $10,000-चौड़े डिब्बे बनाकर रेंज माध्यिका पर मिलान किया, वेतन जानकारी की कमी वाले लोगों के लिए $0 असाइन किया - जो, भाग 1 से याद किया गया, मेरे नमूने का बहुमत था - और एक बिन उच्चतम माध्यिका वाले पोस्टिंग के लिए $250,000+। मुझे लगा कि यह बेतहाशा भिन्न वेतन आंकड़ों के साथ कोई भी अवलोकन सुनिश्चित नहीं करेगा, हालांकि कुछ अलग-अलग साधनों (और शायद बहुत अलग श्रेणी के फर्श और छत) के साथ होंगे। आवश्यक वर्षों के अनुभव के लिए, मैंने [0, 3], (3, 6], (6, 9], और 10+ के डिब्बे बनाए, उम्मीद है कि यह सुनिश्चित करेगा कि कोई निदेशक-स्तर और प्रवेश-स्तर की स्थिति पोस्टिंग नहीं थी, के लिए उदाहरण, मिलान किया जा रहा है।
जबकि इन पांच चरों पर मिलान अनिवार्य रूप से एक निष्पक्ष उपचार प्रभाव अनुमान प्राप्त करने की दिशा में एक लंबा रास्ता तय करता है, और अधिक कदम उठाए जाने की आवश्यकता है। एक मेरे परिणाम चर, प्रति दिन आवेदन से संबंधित था।
प्रति दिन आवेदन
चूँकि जॉब पोस्टिंग पहली बार पोस्ट किए जाने के बाद से कई बार देखी गई थी, इसलिए आवेदक दरों को मानकीकृत करना महत्वपूर्ण था। प्रारंभ में, मैंने सोचा था कि अगर अन्य सभी समान थे तो केवल इसी से पोस्टिंग को दिनों और यहां तक कि सप्ताहों के हिसाब से अलग कर दिया जाएगा। हालांकि, मैंने नौकरी पोस्टिंग के आवेदकों के प्रति दिन और यह कितने समय तक रहा था, के बीच एक स्पष्ट संबंध ढूंढना समाप्त कर दिया। विशेष रूप से, नए नौकरी के अवसर (उदाहरण के लिए पोस्ट किए गए, कहते हैं, देखे जाने से 6 घंटे पहले) पुराने नौकरी के अवसरों (उदाहरण के लिए अवलोकन से 2 सप्ताह पहले पोस्ट किए गए) की तुलना में प्रति 24 घंटे आवेदकों की काफी अधिक संख्या प्राप्त करने की प्रवृत्ति होती है। यह संभवतः तीन कारणों के संयोजन के कारण है: लिंक्डइन की सिफारिश प्रणाली नई पोस्टिंग के पक्ष में है, एक पोस्टिंग में ब्याज की अनुपातहीन राशि बहुत जल्दी अमल में आती है,
जो भी कारण हो, मेरे अंतिम विश्लेषण में इसका हिसाब देना महत्वपूर्ण होगा। अन्यथा, बहुत अधिक शोर परम मैचों में अपना रास्ता बना लेगा, जिससे एक सटीक उपचार प्रभाव का अनुमान लगाना बहुत कठिन हो जाएगा। ऊपर दिए गए रेखांकन की प्रवृत्ति को देखते हुए, मैंने यह भी तय किया कि क्या कोई पोस्टिंग 1 दिन से अधिक पुरानी है, जिससे कुछ अनुपयुक्त मिलानों से बचा जा सके।
मिलान: भाग 1
छह चर बाजार, उद्योग, कंपनी का आकार, आवश्यक वर्षों के अनुभव, वेतन की जानकारी और पोस्टिंग की उम्र पर मिलान की पहचान करने के लिए, मैंने उपचार विचरण के साथ सहसंयोजक स्थान में क्षेत्रों की पहचान की। यह दो चरणों में किया गया था: पहला उन छह चरों के साथ समूहीकरण करके और दूसरा केवल उन छह चरों के आधार पर डुप्लिकेट क्षेत्रों को फ़िल्टर करके। नीचे वह कोड है जिसका उपयोग मैंने चरण एक को निष्पादित करने के लिए किया था, साथ ही इसके आउटपुट का एक नमूना भी।
चरण दो इसे ऐसा बनाता है कि, जहां तक उपरोक्त तालिका में मूल्यों का संबंध है, केवल बोल्ड किए गए सहसंयोजक स्थान में नौकरी पोस्टिंग रखी जाती है क्योंकि कोई उपचार भिन्नता नहीं होती है और इसलिए अन्य उप-स्थानों में कोई संभावित मिलान नहीं होता है।
अब उपचार मूल्य विचरण के साथ इन उप-स्थानों पर ध्यान केंद्रित किया गया है, फिर मैं प्रत्येक के माध्यम से पुनरावृति करता हूं, प्रत्येक दूरस्थ नौकरी को उसी उप-स्थान में एक नियंत्रण नौकरी पोस्टिंग निर्दिष्ट करता हूं। यह ध्यान देने योग्य है कि यह मिलान असाइनमेंट प्रतिस्थापन के बिना किया जाता है, जो कि भाग 3 में दिखाए जाने वाली मेरी अंतिम मिलान प्रक्रिया के विपरीत है। मैं इस पुनरावृत्त प्रक्रिया के लिए कोड नीचे दिखाता हूं।
उपरोक्त प्रक्रिया से हाथ में मिलान किए गए नमूने के साथ, मैं लिंक्डइन पर नौकरी पोस्टिंग के "प्रचारित" होने या "आसान लागू करें ”सुविधा।
यह आउटपुट पहले दी गई परिकल्पनाओं के अनुरूप है। सबसे पहले, हम वास्तव में पाते हैं कि नौकरी का अवसर ऑन-साइट होने के बजाय दूरस्थ होने के कारण आवेदक की रुचि में उल्लेखनीय वृद्धि होती है। विशेष रूप से, हम दैनिक आवेदकों में लगभग 59% वृद्धि का अनुमान लगाते हैं। (जबकि लॉग-स्तर विनिर्देश गुणांक को 100 से गुणा करने का लॉगरिदमिक सन्निकटन 46.5% वृद्धि दर्शाता है, यह सन्निकटन इस परिमाण के प्रभाव आकारों के साथ विफल रहता है। इसके बजाय, 100 से गुणा करने से पहले घातांक गुणांक से 1 घटाना आवश्यक है।) दूसरा, बड़े होने पर, यह वृद्धि भाग 1 में ईडीए अनुभाग की शुरुआत में दिए गए साधनों में एक साधारण अंतर से निहित लगभग 300% वृद्धि से बहुत कम है।. अंत में, जबकि लिंक्डइन के प्रचार और आसान लागू सुविधा मेरे ध्यान का हिस्सा नहीं हैं, फिर भी यह ध्यान रखना दिलचस्प है कि प्रत्येक आवेदक के हित में कितना बढ़ावा दिया गया है। पूर्व के लिए, मैं दैनिक आवेदकों में लगभग 25% वृद्धि का अनुमान लगाता हूं, और बाद के लिए, मैं लगभग 160% वृद्धि का अनुमान लगाता हूं।
हालांकि खुद मैचों की गुणवत्ता को लेकर एक सवाल बना हुआ है। उदाहरण के लिए इसे लें।
जैसा कि डिजाइन किया गया है, कंपनी की जानकारी और बाजार के साथ-साथ पोस्टिंग की उम्र, आवश्यक वर्ष और भुगतान जानकारी बिन पर ओवरलैप है। लेकिन उसके बाहर, दो नौकरी के अवसर कार्य पर काफी भिन्न हैं, जैसा कि उनके नौकरी विवरण के नमूने से पता चलता है। शीर्ष भूमिका के लिए नया किराया अन्य कार्यों के बीच "एक समाधान या व्यावसायिक डोमेन के लिए एक प्रौद्योगिकी दृष्टि और रणनीति का निर्माण" करना है, जबकि नीचे की भूमिका के लिए "ओरेकल के किसी भी मॉड्यूल के कार्यान्वयन और / या उत्पादन समर्थन के लिए जिम्मेदार है। ईआरपी अनुप्रयोग।
यदि दूरस्थ और ऑन-साइट नौकरियों के बीच नौकरी के कार्यों में एक प्रणालीगत अंतर है जो नौकरी के अवसर में रुचि को भी स्पष्ट करता है, तो यह हमारे अनुमानों में पूर्वाग्रह का परिचय देगा और इस प्रकार इसका हिसाब लगाया जाना चाहिए। इस दूसरे मैच को एक अन्य उदाहरण के रूप में लें।
ये दो नौकरियां कार्यात्मक रूप से काफी भिन्न हैं और - मेरे वर्षों के अनुभव कॉलम और / या कंपनियों की अपूर्णता दोनों को दिखाते हुए हमेशा इसे नौकरी के विवरण में एक महत्वपूर्ण योग्यता के रूप में व्यक्त नहीं करते - आवश्यक योग्यता के संदर्भ में, फिर भी वे एक मेल हैं। इसके अलावा, यहां दो प्रकार की स्थिति के बीच प्रति दिन आवेदकों में अंतर है।
यदि इस प्रकार के बेमेल बड़े पैमाने पर होते हैं, तो यह मेरे अनुमानों को ऊपर की ओर ले जाएगा। मैं अपनी अगली पोस्ट में इस प्रकार के मेल खाने वाले पूर्वाग्रह को संबोधित करने की कोशिश करता हूं - बहुत असंरचित नौकरी विवरण पाठ के साथ नहीं बल्कि नौकरी के शीर्षक के साथ।