नौकरी को दूरस्थ बनाना अधिक उम्मीदवारों की ओर ले जाता है (3 का भाग 1: डेटा विवाद और EDA)
यह आश्चर्य की बात नहीं होनी चाहिए कि साइट पर काम करने के बजाय दूरस्थ कार्य के लिए नौकरी का अवसर इसमें अधिक रुचि पैदा करता है। एक बढ़े हुए उम्मीदवार पूल के साथ, वरीयताएँ भी इस अंतर को बहुत अधिक प्रभावित करती हैं। गैलप के अनुसार , 6% दूरस्थ-सक्षम कर्मचारी विशेष रूप से साइट पर काम करना पसंद करते हैं, लेकिन 34% पूरी तरह से दूरस्थ रूप से काम करना पसंद करते हैं। (60% एक संकर व्यवस्था पसंद करते हैं।)
लेकिन इस प्रभाव का आकार क्या है? किसी दिए गए बाजार में, किसी दिए गए उद्योग में, एक विशिष्ट भूमिका के लिए काम पर रखने वाली कंपनी क्या उम्मीद कर सकती है, अगर यह केवल आस-पास रहने वाले लोगों के बजाय वस्तुतः कहीं से भी काम करने वाले उम्मीदवारों के लिए नौकरी का अवसर खोलती है? मैंने लिंक्डइन से जॉब-पोस्टिंग डेटा एकत्र और विश्लेषण करके इस प्रश्न का उत्तर देना चाहा।
संग्रह
अनुभवजन्य रूप से उपरोक्त विषय को संबोधित करने के लिए, मैंने लिंक्डइन को एक उपयोगी डेटा स्रोत के रूप में पहचाना। आजकल, साइट पर नौकरी के अवसरों को पोस्ट करने वाली अधिकांश कंपनियां यह निर्दिष्ट करती हैं कि क्या नौकरी की कार्य व्यवस्था ऑन-साइट, हाइब्रिड या रिमोट है, साथ ही अन्य व्याख्यात्मक चर जैसे नौकरी का शीर्षक, बाजार और अवधि पोस्ट की गई है। महत्वपूर्ण रूप से, यह आवेदकों की संख्या के रूप में आवेदक के हित के बारे में प्रीमियम ग्राहकों की जानकारी भी प्रदान करता है।
मैंने वेब ब्राउजर ऑटोमेशन टूल सेलेनियम और पांडा, एक डेटा हेरफेर और विश्लेषण मॉड्यूल सहित कुछ पायथन प्रोग्रामिंग लाइब्रेरी के साथ अपनी डेटा-संग्रह प्रक्रिया को सुव्यवस्थित किया। उपर्युक्त चरों के मूल्यों की व्यवस्थित पहचान और लॉगिंग XPath के उपयोग के माध्यम से हुई, एक ऐसी भाषा जिसका उपयोग HTML सामग्री को क्वेरी करने के लिए किया जा सकता है।
जबकि मेरे प्रारंभिक संग्रह प्रयास बहुत व्यापक थे - एकमात्र सीमा यह थी कि पोस्टिंग संयुक्त राज्य में स्थित नौकरियों के लिए होनी चाहिए - शुरुआत में, मैंने बड़ी कंपनियों पर ध्यान केंद्रित करने का फैसला किया, जहां मेरे उपचार चर में अधिक विषमता प्रतीत होती थी (अर्थात ऑन-साइट, हाइब्रिड और दूरस्थ नौकरियों के लिए पोस्टिंग का कुछ हद तक वितरित मिश्रण)। इस दृष्टिकोण ने मेरे अंतिम नमूने को 10,000 से अधिक कर्मचारियों वाली कंपनियों से पोस्टिंग का अधिक प्रतिनिधि बना दिया, जैसा कि मैंने बाद में नीचे दिखाया।
सफाई
एक बार एकत्र किए जाने के बाद, डेटा को अच्छी मात्रा में प्रसंस्करण और सफाई की आवश्यकता होती है। सौभाग्य से, हालांकि, मेरे उपचार चर, दूरदर्शिता, एक धारणा के साथ बहुत विश्वसनीय रूप से उपलब्ध थी - कि कार्य व्यवस्था का संकेत नहीं देने वाली पोस्टिंग के लिए नौकरियां वास्तव में ऑन-साइट हैं - और एक अतिरिक्त प्रसंस्करण चरण। अधिकांश पोस्टिंग के लिए, नौकरी के शीर्षक के पास, पोस्टिंग के भीतर एक मानकीकृत स्थान में कार्य व्यवस्था मज़बूती से दी गई थी। हालाँकि, कुछ पोस्टिंग ने केवल कार्य व्यवस्था का संकेत दियानौकरी के शीर्षक में ही, उदाहरण के लिए "सॉफ्टवेयर इंजीनियर (रिमोट)।" इसलिए, डेटा को संसाधित किया गया ताकि इस प्रकार की जानकारी अंततः उपचार वैक्टर में उचित रूप से परिलक्षित हो। इनके पहले और बाद के डेटा में इस वेरिएबल का वितरण और कई अन्य प्रोसेसिंग चरण (जिनमें से बाकी नीचे वर्णित हैं) सीधे नीचे दिए गए हैं।
उठाए गए अन्य प्रसंस्करण कदमों में ड्रॉपिंग ऑब्जर्वेशन शामिल थे जिनमें कुछ प्रमुख चर के लिए मूल्यों की कमी थी। जॉब पोस्टिंग जिसके लिए एक अवधि पोस्ट किया गया मान एकत्र नहीं किया गया था, हटा दिया गया था, क्योंकि दैनिक दरों के रूप में आवेदन की संख्या को मानकीकृत करने के लिए इस चर की आवश्यकता थी। इसी तरह, जिन पोस्टिंग के लिए आवेदक संख्या का आंकड़ा एकत्र नहीं किया गया था, उन्हें भी हटा दिया गया था। संबंधित रूप से, पोस्ट किए जाने के कुछ सेकंड बाद ही जॉब पोस्टिंग के डेटा की भी अवहेलना कर दी गई।
डुप्लीकेट को फिल्टर करने का काम भी किया गया। कुछ पोस्टिंग या तो डेटा संग्रह प्रक्रिया में कई बार हुईं या लिंक्डइन पर कई बार पोस्ट की गईं। इसे संबोधित करने के लिए, मैंने नौकरी के शीर्षक, कंपनी, दूरस्थता मूल्य और स्थान के आधार पर डुप्लिकेट की पहचान की, केवल उस डुप्लिकेट को रखते हुए जिसे सबसे लंबे समय तक पोस्ट किया गया था और अन्य सभी को छोड़ दिया।
अंत में, अपेक्षाकृत असंरचित डेटा जैसे नौकरी विवरण पाठ से चर को पुनः प्राप्त करने के लिए कई अन्य कदम उठाए गए। इनमें अधिक मानकीकृत जानकारी जैसे अनुभव स्तर (दिया गया है, यदि दिया गया है, इंटर्नशिप, प्रवेश स्तर, सहयोगी, मध्य-वरिष्ठ स्तर, निदेशक, या कार्यकारी के रूप में), कंपनी का आकार (1-10 कर्मचारियों में से एक के रूप में दिया गया, 11-50 कर्मचारी) , 51-200 कर्मचारी, आदि, सभी तरह से 10,001+ कर्मचारियों तक), उद्योग और स्थान। जबकि बाद के तीन बहुत अधिक बरकरार थे, अनुभव का स्तर नहीं था, लगभग एक-तिहाई पोस्टिंग ऊपर सूचीबद्ध लिंक्डइन-प्रदत्त मूल्यों में से एक को इंगित नहीं करती थी।
दी गई भूमिका के लिए आवश्यक वर्षों का अनुभव नौकरी विवरण पाठ से प्राप्त एक चर था जो मेरे अंतिम शोध डिजाइन में योग्यता स्तर को शामिल करने के बेहतर तरीके के रूप में सेवा प्रदान करता था। इस डेटा को निकालने के लिए, कई चरणों और मान्यताओं का उपयोग किया गया था, जिनमें से सबसे महत्वपूर्ण नीचे दिए गए कोड भाग में सचित्र हैं। उदाहरण के लिए, एक चीज़ जो मुझे करने की ज़रूरत थी वह थी नौकरी के विवरण में संख्याओं के पाठ प्रतिनिधित्व को अंकों में बदलना। इसके अलावा, एक सरलीकृत धारणा जिसका मैंने उपयोग किया वह यह थी कि कंपनियों को एक भूमिका के लिए 17 वर्ष से अधिक के अनुभव की आवश्यकता नहीं होगी। मेरे डेटा में इसके कुछ अपवाद होने की संभावना है, लेकिन वे शायद बहुत दुर्लभ हैं। इसके अलावा, इसने मुझे नौकरी विवरण पाठ में गलत उम्र की आवश्यकताओं से बचने में सक्षम बनाया - अनुभव आवश्यकताओं के लिए अक्सर "18 वर्ष की आयु होनी चाहिए" के रूप में दिया जाता है। आखिरकार, मैंने नीचे दिए गए नियमित अभिव्यक्ति पैटर्न के साथ इस अनुभव की आवश्यकता को यथासंभव व्यक्त करने के कई तरीकों का पता लगाने का भी प्रयास किया। कई पैटर्न वाले नौकरी विवरण के साथ मेरा दृष्टिकोण (उदाहरण के लिए "सॉफ्टवेयर विकास में पांच से अधिक वर्षों के साथ उत्पाद प्रबंधन के अनुभव के तीन-प्लस वर्ष") दिए गए अधिकतम वर्ष संख्या को लेना था। मेरा कोड पूरी तरह से जुड़ा हुआ हैयहाँ ।
ऐसा कोई तरीका नहीं है जिससे मैं नौकरी के विवरण में आवश्यक योग्यताओं के सभी तरीकों का हिसाब दे सकूं, इसलिए आउटपुट को शायद अनुमान के रूप में संदर्भित करना सबसे अच्छा है। हालांकि, यह विभिन्न नौकरी विवरणों के कई चेक पास करता है और लिंक्डइन-प्रदत्त लेकिन अपूर्ण अनुभव-स्तर चर के साथ काफी अच्छी तरह से ट्रैक करता है। उदाहरण के लिए, मुझे लगता है कि लिंक्डइन पर एंट्री-लेवल मानी जाने वाली भूमिकाओं के लिए औसतन लगभग 2.5 साल के अनुभव की आवश्यकता होती है, जबकि उन डायरेक्टर-लेवल या उससे ऊपर के अनुभव के लिए 6 साल से अधिक की आवश्यकता होती है।
मैंने जॉब पोस्टिंग के भीतर एक समान स्थान से स्थान की जानकारी भी निकाली और मानकीकृत भौगोलिक श्रम बाजारों को प्राप्त करने में सक्षम था। कुछ मामलों में विशेष उपचार और निर्णय कॉल की आवश्यकता होती है, जैसे मिनियापोलिस और सेंट पॉल, मिनेसोटा को एक या दो बाजार के रूप में माना जाना चाहिए और क्या किसी विशिष्ट शहर (जैसे लॉस एंजिल्स) के संदर्भों को मानकीकृत करना है और इसके सामान्य क्षेत्र (जैसे लॉस एंजिल्स मेट्रोपॉलिटन एरिया) के संदर्भ ). इन दो उदाहरणों जैसे उदाहरणों में, मैंने आमतौर पर बाजारों को कम करने के बजाय अधिक व्यापक रूप से परिभाषित करने का निर्णय लिया।
अंत में, मैंने जॉब पोस्टिंग द्वारा प्रदान की गई किसी भी वेतन जानकारी को दर्शाने वाले चर भी इंजीनियर किए। मौजूद होने पर, यह या तो प्रति घंटा या वार्षिक सीमा के रूप में, या मामलों के एक छोटे अंश में गारंटीकृत दर के रूप में प्रदान किया जाता है (उदाहरण के लिए "$20/घंटा")। नतीजतन, मैं अपने विश्लेषण में उपयोग के लिए पे रेंज फ्लोर, सीलिंग और मेडियन वैरिएबल को पार्स कर सकता था। अधिकांश पोस्टिंग ने कोई वेतन जानकारी प्रदान नहीं की और इस प्रकार इन चरों के लिए 0 का मान निर्दिष्ट किया गया।
जबकि अन्य जानकारी जैसे कि नौकरी की शिक्षा आवश्यकताओं और लाभों का उल्लेख (जैसा कि मेरे पूर्ण कोड में दिखाया गया है) को पुनर्प्राप्त करने के प्रयास किए गए थे, मैं केवल उपरोक्त का वर्णन करता हूं क्योंकि वे वेरिएबल थे जो मेरे अंतिम शोध डिजाइन की सेवा करते थे, जिसे मैं बाद में समझाता हूं।
अन्वेषणात्मक डेटा विश्लेषण
सबसे पहले उपचार मूल्य द्वारा सारांश आँकड़ों को देखना आसान है। हम जल्दी से देख सकते हैं कि कार्य दूरस्थता वास्तव में प्रति दिन अधिक आवेदकों के साथ सहसंबद्ध है। हम नीचे यह भी देखते हैं कि प्रति दिन आवेदनों में भारी कमी आई है।
लेकिन कम से कम मेरे डेटा सेट में, ऑन-साइट, हाइब्रिड और रिमोट जॉब भी अन्य प्रासंगिक चर से भिन्न होते हैं। उदाहरण के लिए, हम नीचे देख सकते हैं कि अलग-अलग कार्य व्यवस्थाओं के साथ जॉब पोस्टिंग में भी अलग-अलग वेतन जानकारी होती है। दूरस्थ जॉब पोस्टिंग में ऑन-साइट जॉब पोस्टिंग की तुलना में बहुत अधिक प्रतिशत पर वेतन जानकारी शामिल होती है, और, किसी भी कारण से, वेतन जानकारी प्रदान करने वाली पोस्टिंग में, हाइब्रिड पोस्टिंग में बहुत अधिक आंकड़े होते हैं।
उपचार मूल्यों के औसत अनुमानित आवश्यक वर्षों के अनुभव में भी अंतराल हैं। विशेष रूप से, मुझे लगता है कि दूरस्थ नौकरियों के लिए ऑन-साइट नौकरियों की तुलना में लगभग एक वर्ष अधिक अनुभव की आवश्यकता होती है।
ऑन-साइट, हाइब्रिड और रिमोट जॉब पोस्टिंग महत्वपूर्ण श्रेणीबद्ध चर पर भी भिन्न होती हैं। यहां बताया गया है कि डेटा सेट में पांच सबसे अधिक बार होने वाली कंपनियों, कंपनी-आकार की श्रेणियों, उद्योगों और बाजारों में से प्रत्येक द्वारा प्रत्येक उपचार समूह के नमूने का कितना प्रतिनिधित्व किया जाता है। उदाहरण के लिए, रिमोट पोस्टिंग PwC में नौकरियों के लिए असमान रूप से हैं और डेलॉइट में नौकरियों के लिए हाइब्रिड पोस्टिंग असमान रूप से हैं। (संयोग से, वास्तव में, मेरे डेटा सेट में डेलोइट में कोई नौकरी के अवसर सख्ती से ऑन-साइट काम के लिए नहीं हैं।)
एक सवाल यह भी है कि कितनी पोस्टिंग शीर्षक, एक प्रमुख जॉब-सर्च पैरामीटर और जॉब फ़ंक्शन के प्रतिबिंब से भिन्न होती हैं। इसकी कल्पना करने का एक तरीका शब्द बादलों के माध्यम से है।
हम तीनों शब्द बादलों में अंतर देख सकते हैं, जिनमें से कुछ - स्थान, रंग, आदि - महत्वहीन हैं, लेकिन जिनमें से अन्य अधिक बता रहे हैं। उदाहरण के लिए, यह बहुत स्पष्ट है कि सॉफ्टवेयर इंजीनियरिंग भूमिकाओं में दूरस्थ नौकरी पोस्टिंग का प्रतिशत ऑन-साइट और हाइब्रिड पोस्टिंग की तुलना में अधिक है। ध्यान देने योग्य एक और बात यह है कि, जैसा कि उल्लेख किया गया है, दूरस्थ नौकरी पोस्टिंग अक्सर इस व्यवस्था को नौकरी के शीर्षक में ही विज्ञापित करती है, जिसे मैं बाद में अपने विश्लेषण में संबोधित करता हूं।
प्रत्येक उपचार उप-नमूने में कुछ यूनीग्राम और बिग्राम कितनी बार दिखाई देते हैं, इसकी खोज करके हम उपचार की स्थिति के आधार पर अधिक अनुभवजन्य रूप से नौकरी-शीर्षक के अंतर का निरीक्षण कर सकते हैं। नीचे, मैं दिखाता हूं कि दूरस्थ नौकरी पोस्टिंग अन्य असंतुलनों के बीच असमान रूप से उच्च संख्या में सॉफ़्टवेयर इंजीनियरिंग भूमिकाओं और अनुपातहीन रूप से कम संख्या में तकनीशियन भूमिकाओं के लिए हैं।
इस खोजपूर्ण डेटा विश्लेषण से पता चलता है कि नौकरी की दूरदर्शिता और प्रति दिन अधिक से अधिक आवेदकों के बीच पहले दिखाया गया मजबूत संबंध वास्तव में इन अन्य गुप्त अंतरों से प्रेरित हो सकता है। इसलिए, कार्य-कारण की पहचान करने के लिए, मेरे शोध डिजाइन को इसके लिए जिम्मेदार होना चाहिए। मैं उस पर भाग 2 में शुरू करता हूं ।