การหางานจากระยะไกลนำไปสู่แนวทาง แนวทางของผู้สมัครมากขึ้น (ตอนที่ 1 จาก 3: การถกเถียงเรื่องข้อมูลและ EDA)

May 13 2023
ไม่น่าแปลกใจเลยที่โอกาสในการทำงานสำหรับการทำงานนอกสถานที่จะนำไปสู่ความสนใจมากขึ้น นอกเหนือจากกลุ่มผู้สมัครที่ขยายใหญ่ขึ้นแล้ว ความชอบก็มีส่วนทำให้เกิดความแตกต่างนี้เช่นกัน
แหล่งที่มา

ไม่น่าแปลกใจเลยที่โอกาสในการทำงานสำหรับการทำงานนอกสถานที่จะนำไปสู่ความสนใจมากขึ้น นอกเหนือจากกลุ่มผู้สมัครที่ขยายใหญ่ขึ้นแล้ว ความชอบก็มีส่วนทำให้เกิดความแตกต่างนี้เช่นกัน จากข้อมูลของ Gallupพนักงานที่มีความสามารถทางไกล 6% ต้องการทำงานนอกสถานที่โดยเฉพาะ แต่ 34% ชอบทำงานทางไกลอย่างเต็มที่ (60% ชอบการจัดเรียงแบบไฮบริด)

แต่ขนาดของเอฟเฟกต์นี้คืออะไร? บริษัทในตลาดหนึ่งๆ ในอุตสาหกรรมหนึ่งๆ จ้างงานในตำแหน่งใดบทบาทหนึ่ง สามารถคาดหวังอะไรได้บ้างหากเปิดโอกาสในการทำงานให้กับผู้สมัครที่ทำงานจากทุกที่แทนที่จะเป็นเฉพาะผู้ที่อาศัยอยู่ใกล้เคียง ฉันต้องการตอบคำถามนี้โดยรวบรวมและวิเคราะห์ข้อมูลประกาศรับสมัครงานจาก LinkedIn

ของสะสม

เพื่อจัดการกับหัวข้อข้างต้นในเชิงประจักษ์ ฉันระบุว่า LinkedIn เป็นแหล่งข้อมูลที่มีประโยชน์ ทุกวันนี้ บริษัทส่วนใหญ่ที่โพสต์ตำแหน่งงานบนเว็บไซต์จะระบุว่าการจัดการงานนั้นเป็นแบบนอกสถานที่ แบบผสมผสาน หรือแบบระยะไกล รวมถึงค่าสำหรับตัวแปรอธิบายอื่นๆ เช่น ตำแหน่งงาน ตลาด และระยะเวลาที่โพสต์ สิ่งสำคัญคือมันยังให้ข้อมูลสมาชิกระดับพรีเมียมเกี่ยวกับความสนใจของผู้สมัครในรูปแบบของตัวเลขจำนวนผู้สมัคร

ฉันปรับปรุงกระบวนการรวบรวมข้อมูลของฉันด้วยไลบรารีการเขียนโปรแกรม Python สองสามตัว รวมถึงเครื่องมืออัตโนมัติของเว็บเบราว์เซอร์ Selenium และ pandas ซึ่งเป็นโมดูลการจัดการและวิเคราะห์ข้อมูล การระบุอย่างเป็นระบบและการบันทึกค่าของตัวแปรที่กล่าวถึงข้างต้นเกิดขึ้นผ่านการใช้ XPath ซึ่งเป็นภาษาหนึ่งที่สามารถใช้ในการสืบค้นเนื้อหา HTML

แม้ว่าความพยายามในการรวบรวมครั้งแรกของฉันจะกว้างมาก — ข้อจำกัดเพียงอย่างเดียวคือการลงรายการบัญชีต้องเป็นตำแหน่งงานในสหรัฐอเมริกาเท่านั้น — ในช่วงต้น ฉันตัดสินใจมุ่งเน้นไปที่บริษัทขนาดใหญ่ ซึ่งดูเหมือนจะมีความหลากหลายมากกว่าในตัวแปรการรักษาของฉัน (เช่น การโพสต์ผสมกันค่อนข้างกระจายสำหรับงานนอกสถานที่ งานแบบผสมผสาน และงานระยะไกล) วิธีการนี้ทำให้ตัวอย่างสุดท้ายของฉันเป็นตัวแทนของการโพสต์จากบริษัทที่มีพนักงานมากกว่า 10,000 คน ดังที่ฉันจะแสดงในภายหลังด้านล่าง

ทำความสะอาด

เมื่อรวบรวมแล้ว ข้อมูลจำเป็นต้องผ่านการประมวลผลและทำความสะอาดพอสมควร อย่างไรก็ตาม โชคดีที่ตัวแปรการรักษาของฉันซึ่งก็คือความห่างไกลนั้นเชื่อถือได้มากโดยมีข้อสันนิษฐานหนึ่งข้อ นั่นคืองานสำหรับการโพสต์ที่ไม่ได้ระบุว่ามีการเตรียมงานอยู่ในสถานที่จริง — และขั้นตอนการดำเนินการเพิ่มเติม สำหรับการลงรายการบัญชีส่วนใหญ่ การจัดการงานจะได้รับในที่ที่เป็นมาตรฐานแห่งเดียวภายในการลงรายการบัญชี ใกล้กับตำแหน่งงาน อย่างไรก็ตาม บางโพสต์ระบุถึงการจัดการงานเท่านั้นในชื่อตำแหน่งงานเอง เช่น “Software Engineer (remote)” ดังนั้น ข้อมูลจึงได้รับการประมวลผลเพื่อให้ข้อมูลประเภทนี้สะท้อนให้เห็นอย่างเหมาะสมในเวกเตอร์การรักษาในที่สุด การกระจายของตัวแปรนี้ในข้อมูลก่อนและหลังขั้นตอนการประมวลผลเหล่านี้และอื่นๆ อีกมากมาย (ส่วนที่เหลือจะอธิบายไว้ด้านล่าง) ระบุไว้ด้านล่างโดยตรง

ขั้นตอนการประมวลผลอื่นๆ ที่เกี่ยวข้องกับการทิ้งการสังเกตที่ไม่มีค่าสำหรับตัวแปรหลักบางตัว ประกาศรับสมัครงานซึ่งไม่ได้รวบรวมค่าที่ลงรายการบัญชีตามระยะเวลาที่ไม่ถูกรวบรวม เนื่องจากตัวแปรนี้จำเป็นสำหรับการกำหนดมาตรฐานการนับใบสมัครเป็นอัตรารายวัน ในทำนองเดียวกัน การโพสต์ที่ไม่ได้รวบรวมตัวเลขผู้สมัครก็ลดลงเช่นกัน ในทำนองเดียวกัน ข้อมูลเกี่ยวกับประกาศรับสมัครงานที่เกิดขึ้นเพียงไม่กี่วินาทีหลังจากที่ประกาศก็ถูกมองข้ามเช่นกัน

มีการทำงานเพื่อกรองรายการที่ซ้ำกัน การโพสต์บางอย่างเกิดขึ้นหลายครั้งในกระบวนการรวบรวมข้อมูล หรือโพสต์บน LinkedIn หลายครั้ง เพื่อแก้ไขปัญหานี้ ฉันได้ระบุรายการที่ซ้ำกันโดยพิจารณาจากตำแหน่งงาน บริษัท ค่าความห่างไกล และตำแหน่ง โดยเก็บเฉพาะรายการที่ซ้ำกันซึ่งโพสต์ไว้ยาวที่สุดและทิ้งรายการอื่นๆ ทั้งหมด

ในที่สุด ขั้นตอนอื่นๆ อีกมากมายได้ถูกนำมาใช้เพื่อดึงตัวแปรจากข้อมูลที่ค่อนข้างไม่มีโครงสร้าง เช่น ข้อความรายละเอียดงาน ข้อมูลเหล่านี้รวมถึงข้อมูลที่เป็นมาตรฐานมากขึ้น เช่น ระดับประสบการณ์ (หากได้รับทั้งหมด เช่น การฝึกงาน ระดับเริ่มต้น ผู้ร่วมงาน ระดับกลางอาวุโส ผู้อำนวยการ หรือผู้บริหาร) ขนาดของบริษัท (กำหนดให้เป็นหนึ่งในพนักงาน 1–10 คน พนักงาน 11–50 คน , พนักงาน 51–200 คน ฯลฯ ไปจนถึงพนักงาน 10,001+ คน) อุตสาหกรรมและสถานที่ตั้ง ในขณะที่สามรายการหลังนั้นยังคงสภาพเดิมอยู่มาก แต่ระดับประสบการณ์กลับไม่เป็นเช่นนั้น โดยประมาณหนึ่งในสามของการโพสต์ไม่ได้ระบุค่าใดค่าหนึ่งจาก LinkedIn ที่ระบุไว้ด้านบน

ประสบการณ์ที่จำเป็นสำหรับบทบาทที่กำหนดเป็นตัวแปรที่ได้มาจากข้อความบรรยายลักษณะงานที่ลงเอยด้วยวิธีที่ดีกว่าในการรวมระดับคุณวุฒิเข้ากับการออกแบบการวิจัยในที่สุดของฉัน ในการดึงข้อมูลนี้ มีการใช้ขั้นตอนและสมมติฐานหลายขั้นตอน ซึ่งขั้นตอนที่สำคัญที่สุดแสดงไว้ในส่วนรหัสด้านล่าง ตัวอย่างเช่น สิ่งหนึ่งที่ฉันต้องทำคือเปลี่ยนข้อความแทนตัวเลขในคำอธิบายงานให้เป็นตัวเลข นอกจากนี้ สมมติฐานง่ายๆ ที่ฉันใช้คือบริษัทไม่จำเป็นต้องมีประสบการณ์มากกว่า 17 ปีสำหรับตำแหน่ง น่าจะมีข้อยกเว้นบางประการในข้อมูลของฉัน แต่อาจมีน้อยมาก ยิ่งไปกว่านั้น สิ่งนี้ทำให้ฉันสามารถหลีกเลี่ยงข้อกำหนดด้านอายุที่ผิดพลาดในข้อความรายละเอียดงาน ซึ่งมักระบุว่า "ต้องมีอายุ 18 ปี" สำหรับข้อกำหนดด้านประสบการณ์ ในที่สุด, ฉันยังพยายามค้นหาวิธีการแสดงความต้องการประสบการณ์นี้ให้ได้มากที่สุดเท่าที่จะเป็นไปได้ด้วยรูปแบบนิพจน์ทั่วไปด้านล่าง แนวทางของฉันเกี่ยวกับคำอธิบายงานที่มีหลายรูปแบบ (เช่น "ประสบการณ์การจัดการผลิตภัณฑ์สามปีบวกและการพัฒนาซอฟต์แวร์ห้าปีบวก") คือการใช้จำนวนปีสูงสุดที่กำหนด รหัสของฉันเชื่อมโยงอย่างครบถ้วนที่นี่ .

รหัสส่วนที่ 1: การอ้างอิงข้อความเป็นตัวเลขและรูปแบบในการระบุ

ไม่มีทางที่ฉันจะอธิบายถึงวิธีการทั้งหมดที่สามารถระบุคุณสมบัติที่จำเป็นในรายละเอียดงานได้ ดังนั้น ผลลัพธ์น่าจะดีที่สุดในการอ้างถึงเป็นค่าประมาณ อย่างไรก็ตาม มันผ่านการตรวจสอบรายละเอียดงานต่างๆ มากมาย และยังติดตามได้ค่อนข้างดีด้วยตัวแปรระดับประสบการณ์ที่ LinkedIn ให้มาแต่ไม่สมบูรณ์ ตัวอย่างเช่น ฉันพบว่าบทบาทที่ถือว่าเป็นระดับเริ่มต้นบน LinkedIn โดยเฉลี่ยต้องใช้ประสบการณ์ประมาณ 2.5 ปี ในขณะที่ระดับผู้อำนวยการหรือสูงกว่ามักจะต้องการประสบการณ์มากกว่า 6 ปี

ฉันยังแยกวิเคราะห์ข้อมูลตำแหน่งที่ตั้งจากตำแหน่งที่ตั้งเดียวกันภายในประกาศรับสมัครงาน และทำให้ได้ตลาดแรงงานตามภูมิศาสตร์ที่ได้มาตรฐาน บางกรณีจำเป็นต้องได้รับการดูแลเป็นพิเศษและการตัดสิน เช่น จะถือว่ามินนิอาโปลิสและเซนต์พอล มินนิโซตาเป็นตลาดหนึ่งหรือสองแห่งหรือไม่ และกำหนดมาตรฐานการอ้างอิงถึงเมืองใดเมืองหนึ่ง (เช่น ลอสแอนเจลิส) และการอ้างอิงถึงพื้นที่ทั่วไปของเมืองนั้น (เช่น ลอสแองเจลีสเมโทรโพลิแทนแอเรีย) ). ในกรณีเช่นสองตัวอย่างนี้ ฉันมักตัดสินใจกำหนดตลาดให้กว้างขึ้นแทนที่จะให้น้อยลง

สุดท้ายนี้ ฉันยังได้ออกแบบตัวแปรที่สะท้อนถึงข้อมูลเงินเดือนที่ได้รับจากประกาศรับสมัครงาน เมื่อมีอยู่ จะมีการระบุเป็นช่วงรายชั่วโมงหรือรายปี หรือในกรณีส่วนน้อยเป็นอัตราที่รับประกัน (เช่น “$20/ชั่วโมง”) เป็นผลให้ฉันสามารถแยกวิเคราะห์ตัวแปรพื้นเพดานและค่ามัธยฐานสำหรับใช้ในการวิเคราะห์ของฉัน การผ่านรายการส่วนใหญ่ไม่ได้ให้ข้อมูลเงินเดือน และด้วยเหตุนี้จึงมีการกำหนดค่าเป็น 0 สำหรับตัวแปรเหล่านี้

แม้ว่าจะมีการพยายามกู้คืนข้อมูลอื่นๆ เช่น ข้อกำหนดการศึกษางานและการกล่าวถึงผลประโยชน์ (ดังที่แสดงในรหัสฉบับสมบูรณ์ ของฉัน ) ฉันอธิบายเฉพาะข้อมูลข้างต้นเนื่องจากตัวแปรเหล่านี้เป็นตัวแปรที่ทำหน้าที่ออกแบบการวิจัยขั้นสูงสุดของฉัน ซึ่งฉันจะอธิบายในภายหลัง

การวิเคราะห์ข้อมูลเชิงสำรวจ

ดูสถิติสรุปตามมูลค่าการรักษาก่อนได้ง่ายๆ เราเห็นได้อย่างรวดเร็วว่าความห่างไกลจากที่ทำงานมีความสัมพันธ์กับจำนวนผู้สมัครต่อวัน เป็นอย่างน้อย เรายังเห็นด้านล่างว่าแอปพลิเคชันต่อวันมีความเบ้อย่างมาก

แต่งานนอกสถานที่ งานแบบผสมผสาน และงานระยะไกลก็แตกต่างกันไปตามตัวแปรที่เกี่ยวข้องอื่นๆ ในชุดข้อมูลของฉัน อย่างน้อยที่สุด ตัวอย่างเช่น เราสามารถเห็นด้านล่างว่าประกาศรับสมัครงานที่มีการจัดเตรียมงานที่แตกต่างกันก็มีข้อมูลเงินเดือนที่แตกต่างกันเช่นกัน ประกาศรับสมัครงานทางไกลมีข้อมูลเงินเดือนในอัตราร้อยละที่สูงกว่าประกาศรับสมัครงานในสถานที่ และไม่ว่าจะด้วยเหตุผลใดก็ตาม ในบรรดาประกาศที่มีข้อมูลเงินเดือน การลงประกาศแบบผสมมักจะมีตัวเลขที่สูงกว่ามาก

นอกจากนี้ยังมีช่องว่างในค่าเฉลี่ยของประสบการณ์ที่จำเป็นโดยประมาณสำหรับค่าการรักษา โดยเฉพาะอย่างยิ่ง ฉันพบว่างานทางไกลต้องการประสบการณ์มากกว่างานนอกสถานที่ประมาณหนึ่งปี

การลงประกาศงานนอกสถานที่ แบบผสม และแบบทางไกลแตกต่างกันตามตัวแปรตามหมวดหมู่ที่สำคัญเช่นกัน ต่อไปนี้คือจำนวนตัวอย่างของกลุ่มการรักษาแต่ละกลุ่มที่แสดงโดยบริษัทที่เกิดขึ้นบ่อยที่สุดห้าแห่ง หมวดหมู่ขนาดบริษัท อุตสาหกรรม และตลาดในชุดข้อมูล ตัวอย่างเช่น การลงรายการบัญชีระยะไกลนั้นไม่เป็นสัดส่วนสำหรับงานที่ PwC และการลงรายการบัญชีแบบผสมนั้นไม่เป็นสัดส่วนสำหรับงานที่ Deloitte (อันที่จริง ไม่มีตำแหน่งงานว่างที่ Deloitte ในชุดข้อมูลของฉันเป็นงานนอกสถานที่อย่างเคร่งครัด)

นอกจากนี้ยังมีคำถามว่าการลงรายการบัญชีมีแนวโน้มที่จะแตกต่างกันมากน้อยเพียงใดตามชื่อเรื่อง พารามิเตอร์การค้นหางานที่สำคัญ และการสะท้อนถึงหน้าที่งาน วิธีหนึ่งในการทำให้เห็นภาพนี้คือการใช้เมฆคำ

คำชื่อประกาศรับสมัครงานในสถานที่ทั่วไป
คำชื่อเรื่องของการโพสต์งานแบบไฮบริดทั่วไป
คำชื่อประกาศงานทางไกลทั่วไป

เราสามารถสังเกตเห็นความแตกต่างของ word cloud ทั้งสาม ซึ่งบางคำ - ตำแหน่ง สี ฯลฯ - ไม่สำคัญ แต่คำอื่น ๆ มีความหมายมากกว่า ตัวอย่างเช่น เป็นที่ชัดเจนว่าบทบาทด้านวิศวกรรมซอฟต์แวร์มีเปอร์เซ็นต์การลงประกาศงานทางไกลมากกว่าตำแหน่งและการลงประกาศแบบผสม สิ่งที่ควรทราบอีกประการหนึ่งคือ ดังที่ได้กล่าวไว้ การประกาศรับสมัครงานทางไกลมักจะโฆษณาข้อตกลงนี้ในชื่อตำแหน่งงาน ซึ่งเป็นสิ่งที่ฉันจะกล่าวถึงในการวิเคราะห์ในภายหลัง

เราสามารถสังเกตความแตกต่างของตำแหน่งงานตามสถานะการรักษาในเชิงประจักษ์ได้มากขึ้นโดยการสำรวจว่ายูนิแกรมและบิ๊กแกรมบางรายการปรากฏในตัวอย่างย่อยการรักษาแต่ละรายการบ่อยเพียงใด ด้านล่าง ฉันแสดงให้เห็นว่าประกาศรับสมัครงานทางไกลสำหรับบทบาทด้านวิศวกรรมซอฟต์แวร์จำนวนมากอย่างไม่เป็นสัดส่วน และบทบาทช่างเทคนิคที่มีจำนวนน้อยอย่างไม่สมส่วน ท่ามกลางความไม่สมดุลอื่นๆ

สิ่งที่การวิเคราะห์ข้อมูลเชิงสำรวจนี้เปิดเผยคือความสัมพันธ์ที่แข็งแกร่งระหว่างความห่างไกลของงานกับผู้สมัครจำนวนมากต่อวันที่แสดงไว้ก่อนหน้านี้อาจได้รับแรงผลักดันจากความแตกต่างที่ซ่อนอยู่เหล่านี้ ดังนั้น เพื่อระบุสาเหตุ การออกแบบการวิจัยของฉันจำเป็นต้องคำนึงถึงเรื่องนี้ด้วย ฉันเริ่มต้นใน ส่วน ที่2