किसी जॉब को रिमोट बनाने से अधिक से अधिक उम्मीदवार आगे बढ़ते हैं (3 का भाग 3: टेक्स्ट विश्लेषण/जॉब टाइटल पर मिलान)
भाग 2 में , मैंने अपने शोध प्रश्न का उत्तर देने के प्रयास में मोटे तौर पर सटीक मिलान का उपयोग करना शुरू किया, जो पूछता है कि व्यक्तिगत रूप से काम करने के बजाय दूरस्थ कार्य के लिए नौकरी का अवसर कैसे इसमें रुचि को प्रभावित करता है। मेरे द्वारा उपयोग किए जाने वाले मेल खाने वाले चर - स्थान, उद्योग, कंपनी का आकार, वेतन की जानकारी, आवश्यक वर्षों का अनुभव, और पोस्टिंग आयु - भाग 1 में किए गए सरल खोजपूर्ण डेटा विश्लेषण द्वारा इंगित ऊर्ध्वगामी पूर्वाग्रह के प्रकार को दूर करने की दिशा में एक लंबा रास्ता तय किया गया है। . हालाँकि, इन छह चरों के मैचों के भीतर भी, नौकरी के कार्य पर पूर्वाग्रह हो सकता है। मेरे नमूने में दूरस्थ नौकरियों को उनकी दूरदर्शिता के बजाय उनके कार्य की प्रकृति के आधार पर अधिक रुचि मिल सकती है।
मैं तर्क दूंगा कि नौकरी का यह हिस्सा अपने नौकरी के शीर्षक में काफी महत्वपूर्ण रूप से दर्शाया गया है, जो कि ज्यादातर लोगों की नौकरी की तलाश में एक महत्वपूर्ण खोज पैरामीटर है। और अगर हम यह देखें कि भाग 2 के अंत में प्रत्येक मैच के प्रत्येक पक्ष में कौन से जॉब टाइटल समाप्त होने की प्रवृत्ति थी , तो हम देखते हैं कि ऑन-साइट नौकरियों को उनकी कार्य व्यवस्था के बजाय उनकी कार्यक्षमता के आधार पर कम रुचि प्राप्त करने वालों द्वारा अधिक प्रस्तुत किया जा सकता है। .
यही कारण है कि मेरी पहचान रणनीति के अंतिम भाग में नौकरी के शीर्षक पर भी मिलान करने का आह्वान किया गया। मुझे ऐसा करने के दो समान प्रभावी तरीके मिले, जिनमें से दोनों नौकरी शीर्षक पाठ से प्राप्त सुविधाओं पर दूरी मिलान पर निर्भर थे - विशेष रूप से, कॉलम यह दर्शाता है कि दिए गए नौकरी पोस्टिंग शीर्षक में कोई कीवर्ड था या नहीं। पहले में इनमें से प्रत्येक सुविधा सरल डमी चर (1 यदि कॉलम का कीवर्ड मौजूद था, 0 यदि नहीं है) और समानता की एक उपयोगी परिभाषा है जिसे जैकार्ड दूरी के रूप में जाना जाता है। दूसरी शामिल विशेषताएं न केवल विभिन्न खोजशब्दों की उपस्थिति को दर्शाती हैं, बल्कि उनके अनुमानित महत्व के अनुरूप भार भी हैं, इस मामले में समानता को यूक्लिडियन दूरी का उपयोग करके परिभाषित किया गया है।
ध्यान दें कि दोनों दृष्टिकोणों को पहले से नौकरी के शीर्षकों की कुछ सफाई की आवश्यकता होती है। जैसा कि भाग 1 में दिखाया गया है , कई दूरस्थ नौकरियां नौकरी के शीर्षक में ही अपनी दूरस्थता का विज्ञापन करती हैं, इसलिए समानता को अधिक प्रभावी ढंग से और सटीक रूप से मापने के लिए, "रिमोट," "होम," और "हाइब्रिड" जैसे शब्दों को इस भाग के आगे जॉब टाइटल से हटा दिया गया था। विश्लेषण का। अन्यथा, मेल मिलना कठिन होगा क्योंकि अलग-अलग कार्य व्यवस्थाओं वाली समान नौकरियों में उनके कार्य शीर्षक में विज्ञापित समान कार्य व्यवस्था नहीं होगी, इस प्रकार वे वास्तविक से अधिक भिन्न दिखाई देंगे।
जैकार्ड दूरी दृष्टिकोण
जैसा कि उल्लेख किया गया है, मेरे पहले दृष्टिकोण में एक साधारण मैट्रिक्स का उपयोग करके नौकरी-शीर्षक समानता का निर्धारण करना शामिल था, जिसमें यह दर्शाया गया था कि किस नौकरी के शीर्षक में कौन से कीवर्ड शामिल हैं।
भाग 2 में दिखाई गई पुनरावर्ती मैच-ढूंढने की प्रक्रिया की तरह , मैंने विभिन्न सहसंयोजक स्थानों के माध्यम से साइकिल चलाई, जिसमें मेरे पहले छह चरों पर संभावित मिलान थे, लेकिन इस मामले में मैंने इनमें से प्रत्येक स्थान के लिए एक टेक्स्ट फीचर मैट्रिक्स का निर्माण किया और प्रत्येक उपचारित अवलोकन को पाया। इस टेक्स्ट फीचर स्पेस में जैकार्ड दूरी के अनुसार निकटतम पड़ोसी (मेरे डेटा सेट के जॉब टाइटल में सभी यूनीग्राम द्वारा परिभाषित)। जैककार्ड समानता के रूप में भी जाना जाता है, यह उन सेटों के संघ के आकार से विभाजित शब्दों के दो सेटों के प्रतिच्छेदन के आकार द्वारा दिया जाता है। उदाहरण के लिए, यदि सेट ए को "किंग्स ने प्लेऑफ़ बनाया" द्वारा दिया गया था और सेट बी को "किंग्स ने सीज़न को तीन सीड के रूप में बनाया है" द्वारा दिया गया था, तो उनकी जैकार्ड समानता 4/11 निकलती है।
इसके अलावा, मैंने एक निर्णय नियम भी लागू किया जब इस आधार पर प्रत्येक उपचारित इकाई के निकटतम पड़ोसी की पहचान की गई। यदि उनकी जैकार्ड समानता 0.4 से अधिक थी, तो उन्होंने एक मैच का गठन किया। यदि नहीं, तो उस उपचारित अवलोकन में कोई तुलनीय-पर्याप्त नियंत्रण अवलोकन नहीं था और इसे अवहेलना कर दिया गया था। यह सीमा चयन बायस-वैरियंस ट्रेडऑफ़ का एक और उदाहरण है। एक बैंडविड्थ के बहुत ढीले होने से खराब मैच और अधिक पक्षपात होता है, जबकि एक का बहुत सख्त होना बेहतर लेकिन कम मैच और अधिक विचरण की ओर ले जाता है।
अंत में, जैसा कि भाग 2 में उल्लेख किया गया है , इस प्रक्रिया में, नियंत्रण मिलानों को प्रतिस्थापन के साथ चुना गया था। इसका परिणाम अधिक विचरण हो सकता है क्योंकि यह प्रभावी रूप से छोटे नमूना आकार की ओर ले जाता है जब एक से अधिक मैच में समान नियंत्रण टिप्पणियों का उपयोग किया जाता है, लेकिन यह पूर्वाग्रह को कम करता है क्योंकि सर्वोत्तम संभव मैच का चयन किया जाता है चाहे इसका उपयोग किसी अन्य उपचारित इकाई के साथ किया गया हो।
मैं अपने कोड का एक अंश देता हूं जिसमें नीचे इस पड़ोसी-ढूंढने की प्रक्रिया शामिल है। 0.6 के निर्णय पैरामीटर पर ध्यान दें, एक जैकार्ड दूरी (1 माइनस जैकार्ड समानता) मान जो 0.4 की जैकार्ड समानता से संबंधित है। इसकी संपूर्णता में कोड यहां पाया जा सकता है । अगला, मैं प्रत्येक के लिए परिणामों पर जाने से पहले अपने अन्य पाठ विश्लेषण दृष्टिकोण पर चर्चा करता हूँ।
यूक्लिडियन दूरी दृष्टिकोण
मेरे दूसरे दृष्टिकोण में विभिन्न पाठ सुविधाओं को प्राप्त करना और उन विशेषताओं का उपयोग करके यूक्लिडियन दूरी की गणना करना शामिल है। विशेष रूप से, मैंने पाया कि tf-idf का उपयोग करना, जो साधारण डमी चर के बजाय टर्म फ़्रीक्वेंसी-इनवर्स डॉक्यूमेंट फ़्रीक्वेंसी के लिए छोटा है, ने भी अच्छे मैच दिए।
इस तकनीक का प्रभाव उन शब्दों पर जोर है जो कई अन्य अवलोकनों में दिखाई नहीं देते हैं। उदाहरण के लिए, यदि "ग्राहक सेवा प्रतिनिधि" की तुलना में "ग्राहक सेवा प्रतिनिधि" से कम दूरी के रूप में "ग्राहक सेवा सहयोगी" नौकरी के शीर्षक पर विचार किया जाएगा, भले ही दोनों केवल एक शब्द पर भिन्न हों, क्योंकि शब्द "अफिसियोनाडो" आम नहीं है . यदि नौकरी के शीर्षक में असामान्य शब्दों का अर्थ है कि यह दूसरों की तुलना में कम होने की संभावना है, तो यह नौकरी के शीर्षक / कार्य समानता को मापने के लिए एक प्रभावी उपकरण हो सकता है।
इस दृष्टिकोण के लिए, मैंने एक मैच के रूप में माने जाने के लिए एक दूसरे से 2 की यूक्लिडियन दूरी के भीतर नौकरी के शीर्षक की आवश्यकता के लिए एक निर्णय नियम निर्धारित किया।
परिणाम
अब नौकरी के शीर्षक पर भी मिलान, या तो पाठ समानता दृष्टिकोण के साथ, हम भाग 2 में काफी समान अनुमानों पर पहुंचते हैं जहां हम केवल बाजार, उद्योग, कंपनी के आकार, वेतन की जानकारी, आवश्यक वर्षों के अनुभव और पोस्टिंग की उम्र से मेल खाते हैं। यह अधिक से अधिक एक नगण्य पूर्वाग्रह, यदि कोई हो, का संकेत दे सकता है, जो नौकरी के शीर्षक के माध्यम से नौकरी समारोह से मेल खाने में विफल होने से उत्पन्न होता है; हालाँकि, ये मिलान प्रक्रियाएँ विभिन्न नमूनों को प्रतिबिंबित करने वाले अनुमानों की ओर भी ले जाती हैं। उदाहरण के लिए, जबकि भाग 2 की मिलान प्रक्रिया में 9,000 से अधिक अवलोकनों का उपयोग किया गया था, यहाँ वे अपेक्षाकृत कुछ चुनिंदा मिलानों पर भरोसा करते हैं, जिनमें से प्रत्येक की अवलोकन संख्या लगभग 1,500 है।
हम विभिन्न मैचों का निरीक्षण कर सकते हैं और नीचे की तरह उचित जोड़ियां ढूंढ सकते हैं।
यह ध्यान देने योग्य है कि यूक्लिडियन दूरी दृष्टिकोण या जैकार्ड दूरी दृष्टिकोण का उपयोग करके निर्धारित किए गए कई मैच उपचार की स्थिति को छोड़कर सभी रिकॉर्ड किए गए आयामों पर आभासी डुप्लिकेट थे। यह ऊपर दिखाए गए तीसरे मैच (आखिरी दो पंक्तियों) का मामला है। इस प्रकार के मैच या तो कंपनियों के उत्पाद हैं जो वास्तव में एक ही प्रकार की स्थिति के लिए भर्ती करते हैं, लेकिन एक अलग कार्य व्यवस्था या उनकी ओर से गलती से। किसी भी तरह से, यह ऊपर की तरह बहुत ही स्वीकार्य मैच प्रदान करता है।
मेरे शोध प्रश्न से संबंधित रुचि का एक अतिरिक्त पहलू यह है कि क्या यह प्रभाव अनुमान बाजार के साथ बदलता है। विशेष रूप से, मैं परिकल्पना करता हूं कि नौकरी से आने वाले आवेदक के हित में वृद्धि ऑन-साइट के बजाय एक छोटे बाजार में बड़ी है, यह एक बड़े बाजार की तुलना में बड़ा है, यह देखते हुए कि एक छोटा बाजार एक छोटे आवेदक द्वारा अन्यथा अधिक विवश है पोखर।
इसका अध्ययन करने के लिए, सबसे पहले, मैंने अपने जैकार्ड रिमोट/ऑन-साइट नमूने के साथ जनगणना जनसंख्या डेटा को जोड़ा, यह पाते हुए कि मेरा अनुमान किसी दिए गए बाजार में प्रत्येक अतिरिक्त सौ हजार लोगों के लिए लगभग 0.7% कम हो जाता है। दूसरे शब्दों में, मेरे अनुमानों से संकेत मिलता है कि फीनिक्स जैसे बाजार में प्रभाव का आकार, जिसकी आबादी लगभग 1.6 मिलियन है, शिकागो (जनसंख्या ≈ 2.7 मिलियन), लॉस एंजिल्स जैसे बाजारों की तुलना में 7 प्रतिशत से अधिक है। (जनसंख्या ≈ 3.8 मिलियन), या न्यूयॉर्क (जनसंख्या ≈ 8.5 मिलियन)।
क्योंकि मैंने दिखाया है कि भाग 2 से मेरी कार्यप्रणाली मजबूत है और इसकी कम सख्त मिलान आवश्यकताओं से बड़ा नमूना आकार होता है, मैं बाजार द्वारा प्रभाव अनुमान विषमता के अतिरिक्त विश्लेषण के लिए उस दृष्टिकोण की ओर मुड़ सकता हूं। नीचे, हम विशिष्ट बाजार द्वारा इसके संकेत देखते हैं। मेरा अनुमान है कि प्रभाव अमेरिका, न्यूयॉर्क और लॉस एंजिल्स के सबसे बड़े शहरों में अपने सबसे छोटे के करीब है, और सिनसिनाटी, ओहियो और फ्रिस्को, टेक्सास जैसे मेरे नमूने के कुछ छोटे बाजारों में बड़ा है। दिलचस्प अपवाद फीनिक्स और मैकलीन, वर्जीनिया प्रतीत होते हैं लेकिन मेरे डेटा में उन शहरों में नौकरी के प्रकारों के परिणामस्वरूप हो सकते हैं।
मैं इस दृष्टिकोण से अन्य अनुमानों पर भी पहुँचता हूँ। सबसे पहले, मैंने पाया कि व्यक्तिगत रूप से काम करने के बजाय दूरस्थ कार्य के लिए नौकरी खोलने का औसत प्रभाव लगभग 75% (एक्सप (.5583) -1) * 100) के दैनिक आवेदकों में वृद्धि है। दूसरा, मेरा अनुमान है कि हाइब्रिड कार्य के लिए यह प्रभाव लगभग 7% है। इसके अलावा, मेरा अनुमान है कि लिंक्डइन के आसान आवेदन और प्रचारित सुविधाओं से आवेदक दरों पर क्रमशः 144% और 40% प्रभाव पड़ेगा।
अंत में, क्योंकि मेरी मिलान प्रक्रिया के परिणामस्वरूप मेरे डेटा सेट की तुलना में विभिन्न रचनाओं के मेरे डेटा के सबसेट हो गए, और मेरे अनुमान इन सबसेट से हैं, यह मेरे अंतिम मिलान किए गए नमूनों के मेकअप को देखने लायक है। नीचे, हम देखते हैं कि मेरे दूरस्थ मिलान वाले नमूने में ज्यादातर लेखा, सॉफ्टवेयर विकास, वित्त, स्वास्थ्य देखभाल और तंदुरूस्ती/फिटनेस उद्योगों से नौकरी के विज्ञापन शामिल हैं। इस बीच, मेरा हाइब्रिड मिलान वाला नमूना ज्यादातर वित्त, आईटी, स्वास्थ्य देखभाल, खुदरा और रक्षा और अंतरिक्ष उद्योगों से नौकरी पोस्टिंग से बना है।
हम यह भी देख सकते हैं कि प्रत्येक नमूने में किस प्रकार की स्थिति का अत्यधिक प्रतिनिधित्व किया गया है।
निष्कर्ष
नौकरी के शीर्षक, बाजार और आवश्यक योग्यता जैसे नौकरी पोस्टिंग रुचि के प्रमुख निर्धारकों के नियंत्रण के लिए एक मिलान दृष्टिकोण का उपयोग करते हुए, मेरा मानना है कि मुझे इस बात के पुख्ता सबूत मिले हैं कि नौकरी के दूरस्थ होने का आवेदक के हित पर पर्याप्त प्रभाव पड़ता है और यह कि नौकरी का अवसर हाइब्रिड में एक मामूली है। विशेष रूप से, मेरा अनुमान है कि ऑन-साइट के बजाय रिमोट से जॉब ओपनिंग करने से आवेदकों की संख्या में औसतन लगभग 75% की वृद्धि होगी, जबकि इसे ऑन-साइट के बजाय हाइब्रिड बनाने से औसतन लगभग 7 की वृद्धि होगी। %। इसके अलावा, मेरा विश्लेषण इंगित करता है कि उन दो प्रभावों में से पहला बाजार के आकार के अनुसार भौगोलिक रूप से भिन्न होता है, जिससे पता चलता है कि छोटे बाजारों में कंपनियां दूरस्थ कार्यबल के साथ अधिक श्रम आपूर्ति में कैसे टैप करने में सक्षम हैं।
फिर भी, मेरे दृष्टिकोण से संबंधित कुछ सीमाएँ हैं। सबसे पहले, मेरे अनुमान ज्यादातर उपचारित टिप्पणियों के सबसेट पर लागू होते हैं, जिसके लिए बहुत सारे तुलनीय नियंत्रण अवलोकन मौजूद थे - उदाहरण के लिए सॉफ्टवेयर विकास, सूचना प्रौद्योगिकी और वित्त उद्योगों में सॉफ्टवेयर इंजीनियरिंग भूमिकाएँ। यह मेरी ऑन-साइट और दूरस्थ जॉब पोस्टिंग उप-नमूने के क्रमशः बड़े और छोटे हिस्से बनाने वाली भूमिकाओं के सीधे विपरीत है। यदि हम अपने पहले ब्लॉग पोस्ट से चित्र 4 को देखें , तो इन भूमिकाओं के उदाहरण स्टोर प्रबंधक, तकनीशियन और नर्स हैं।
मेरे अनुमानों की निष्पक्षता इस बात पर भी निर्भर करती है कि संभावित रूप से भ्रमित करने वाले चरों के लिए मैंने कितनी सफलतापूर्वक नियंत्रण किया। यदि ऐसे चर हैं जो मैं उन पर मेल नहीं खाता हूं जो दोनों आवेदक के हित को निर्धारित करते हैं और उपचार से संबंधित हैं - यानी नौकरी साइट पर है, हाइब्रिड या रिमोट के साथ सहसंबंधित है - तो मेरे अनुमान कुछ हद तक पक्षपातपूर्ण हैं। साथ ही, भले ही मैंने आवश्यक मिलान चर निर्दिष्ट किए हों, फिर भी वे पूरी तरह से नियंत्रित नहीं हैं यदि डिब्बे बहुत व्यापक हैं या, मेरे नौकरी-शीर्षक मिलान के मामले में, 0.6 जैकार्ड दूरी की बैंडविड्थ/कैलिपर बहुत बड़ी है।
जो कुछ भी उल्लेख किया गया है, मुझे लगता है कि इन धारणाओं को पूरा करने के लिए सोचने के कारण हैं। मुझे लगता है कि मैं भाग 2 में निर्दिष्ट डिब्बे काफी संकीर्ण हैं। इसके अलावा, उनमें से सबसे व्यापक, पोस्ट की गई अवधि के लिए, ज्यादातर मैचों में शोर को कम करने के लिए है; जबकि मैंने दिखाया कि यह चर वास्तव में प्रति दिन आवेदकों की भविष्यवाणी करता है, इसका कोई कारण नहीं है कि इसे उपचार के साथ सहसंबद्ध किया जाना चाहिए। इसके अलावा, नौकरी-शीर्षक मिलान दृष्टिकोण (यानी कोई नहीं बनाम जैकार्ड समानता बनाम यूक्लिडियन दूरी) की परवाह किए बिना मेरे अनुमानों की सभ्य स्थिरता भी आश्वस्त है।
नतीजतन, मुझे लगता है कि मेरे नतीजे बताते हैं कि यह एक ऐसा क्षेत्र है जहां अधिक दिलचस्प निष्कर्ष निकाले जा सकते हैं। अतिरिक्त शोध यह देखने के लिए किया जा सकता है कि यह प्रभाव बाजार के अलावा अन्य आयामों, जैसे नौकरी के प्रकार, उद्योग या वरिष्ठता स्तर से कैसे भिन्न होता है। इसके अलावा, बाजार-आकार-संचालित उपचार प्रभाव परिवर्तनशीलता से संबंधित अधिक विश्लेषण किया जा सकता है ताकि यह पता लगाया जा सके कि इन प्रभावों का कौन सा हिस्सा उपलब्ध उम्मीदवारों में वृद्धि से प्रेरित है और कौन सा हिस्सा वरीयताओं से संचालित होता है जिसका मैं अपनी शुरुआत में उल्लेख करता हूं । पहला ब्लॉग पोस्ट ।