การหางานจากระยะไกลนำไปสู่แนวทาง แนวทางของผู้สมัครมากขึ้น (ตอนที่ 2 ของ 3: การจับคู่ที่แน่นอนแบบหยาบ)

May 13 2023
ในโพสต์ล่าสุดของฉัน ฉันแสดงให้เห็นว่าความห่างไกลของโอกาสในการทำงานมีความสัมพันธ์กับความสนใจของผู้สมัครมากขึ้น แต่ฉันยังแสดงให้เห็นว่าเหตุใดความสัมพันธ์นี้อาจทำให้เข้าใจผิด หรืออย่างน้อยก็เป็นการบ่งชี้ที่เกินจริงในสิ่งที่บริษัทสามารถคาดหวังได้อย่างสมเหตุสมผลในแง่ของผู้สมัคร สนใจถ้าจะทำให้การเปิดงานจากระยะไกลแทนในสถานที่ ประกาศรับสมัครงานที่มีการจัดเตรียมงานที่โฆษณาแตกต่างกัน — ในสถานที่ทำงาน แบบผสมผสาน หรือระยะไกล — มีแนวโน้มที่จะแตกต่างกันไป อย่างน้อยก็ในตัวอย่างของฉัน ในแง่ของแรงผลักดันอื่นๆ ที่น่าสนใจในการประกาศรับสมัครงาน ตั้งแต่ประสบการณ์ที่พวกเขาต้องการไปจนถึงอุตสาหกรรมประเภทใด พวกเขาอยู่ในตำแหน่งที่พวกเขามักจะมี
แหล่งที่มา

ในโพสต์ล่าสุดของฉัน ฉันแสดงให้เห็นว่าความห่างไกลของโอกาสในการทำงานมีความสัมพันธ์กับความสนใจของผู้สมัครมากขึ้น แต่ฉันยังแสดงให้เห็นว่าเหตุใดความสัมพันธ์นี้อาจทำให้เข้าใจผิด หรืออย่างน้อยก็เป็นการบ่งชี้ที่เกินจริงในสิ่งที่บริษัทสามารถคาดหวังได้อย่างสมเหตุสมผลในแง่ของผู้สมัคร สนใจถ้าจะทำให้การเปิดงานจากระยะไกลแทนในสถานที่ ประกาศรับสมัครงานที่มีการจัดเตรียมงานที่โฆษณาแตกต่างกัน — ในสถานที่ทำงาน แบบผสมผสาน หรือระยะไกล — มีแนวโน้มที่จะแตกต่างกันไป อย่างน้อยก็ในตัวอย่างของฉัน ในแง่ของแรงผลักดันอื่นๆ ที่น่าสนใจในการประกาศรับสมัครงาน ตั้งแต่ประสบการณ์ที่พวกเขาต้องการไปจนถึงอุตสาหกรรมประเภทใด พวกเขาอยู่ในตำแหน่งที่พวกเขามักจะมี

บ่อยครั้ง ความแตกต่างเหล่านี้ดูเหมือนจะบ่งชี้ว่าความแตกต่างง่ายๆ ในวิธีการที่ทำในตอนต้นของ EDA ของฉันในตอนที่ 1เป็นการประมาณการที่มีอคติสูงขึ้น ยกตัวอย่างอุตสาหกรรม เราพบว่าประมาณ 14% ของประกาศรับสมัครงานทางไกลมีไว้สำหรับบทบาทในการพัฒนาซอฟต์แวร์ ในขณะที่น้อยกว่า 5% เป็นตำแหน่งสำหรับการขายปลีก ซึ่งแสดงถึงการเป็นตัวแทนมากไปน้อยในสองส่วนนี้ ตามลำดับ เมื่อเทียบกับการประกาศรับสมัครงานนอกสถานที่ สิ่งนี้อาจไม่เป็นไรที่จะเพิกเฉยหากอุตสาหกรรมไม่ใช่ตัวกำหนดความสนใจของคนงาน แต่โดยเฉลี่ยแล้วอาจเป็นเช่นนั้น

ในขณะที่การถดถอยเชิงเส้นเป็นวิธีที่มีประสิทธิภาพมากในการคงตัวแปรร่วมเช่นอุตสาหกรรม ในกรณีนี้ค่าคงที่เพื่อให้ได้ค่าประมาณที่เป็นกลางของผลกระทบที่คุณกำลังศึกษา ในกรณีของฉัน ฉันตัดสินใจเลือกการจับคู่เป็นแนวทางที่เหมาะสมกว่าด้วยเหตุผลหลายประการ

วิธีการจับคู่

ข้อได้เปรียบง่ายๆ อย่างหนึ่งของการจับคู่คือโดยหลักแล้วมันค่อนข้างใช้งานง่ายและอธิบายได้ง่าย ข้อสังเกตที่เหมือนกันหรือคล้ายคลึงกันเพียงพอในแง่ของตัวแปรสำคัญ เช่น อุตสาหกรรม ตลาด การจ่ายเงิน ฯลฯ แต่ต่างกันที่การปฏิบัติ เสมือนเป็นข้อเท็จจริงที่ขัดแย้งกันในทางหนึ่ง การประมาณการระดับการสังเกตที่มาจากการเปรียบเทียบการจับคู่บนฐานเหล่านี้แน่นอนว่าจะมีเสียงดังพอสมควร แต่ด้วยขนาดตัวอย่างที่ใหญ่ ตราบใดที่มีการควบคุมตัวแปรที่เหมาะสม ก็ควรให้ค่าประมาณผลการรักษาที่เป็นกลาง

ข้อดีอีกประการของการจับคู่ในกรณีของฉันคือการจับคู่แบบไม่มีพารามิเตอร์ ซึ่งแตกต่างจากการถดถอยเชิงเส้น ไม่จำเป็นต้องมีข้อกำหนดที่ระบุว่าตัวแปรร่วมเกี่ยวข้องกับผลลัพธ์เชิงเส้น การจับคู่ความแปรปรวนร่วมเหล่านั้นเป็นวิธีที่คุณสามารถคงไว้ซึ่งค่าคงที่เพื่อระบุผลกระทบที่คุณสนใจ นอกจากนี้ ยังไม่จำเป็นต้องระบุตัวแปรจำลองจำนวนมากหรือจำกัดข้อมูลของฉันไว้เฉพาะในอุตสาหกรรมที่เกิดขึ้นบ่อยที่สุดในตัวอย่างของฉัน (ซึ่งเราเห็นก่อนหน้านี้คือการเงินและโรงพยาบาล/การดูแลสุขภาพ) หรือตลาด (นิวยอร์กซิตี้และชิคาโก) การจับคู่ช่วยให้ฉันสามารถตรวจสอบพื้นที่ covariate ได้มากขึ้นสำหรับการจับคู่ในอุตสาหกรรม ตลาด และตัวแปรสำคัญอื่นๆ

ขั้นตอนที่สำคัญ ได้แก่ การระบุตัวแปรหลักเหล่านั้นก่อน และการตัดสินใจว่าจะจับคู่อย่างไร โดยการลดระยะห่างในพื้นที่ตัวแปรร่วม หรือโดยการเพิ่มความคล้ายคลึงกันของคะแนนความชอบให้สูงสุด แม้ว่าฉันจะออกแบบคุณสมบัติมากมายจากข้อมูล แต่ในช่วงต้น ฉันตัดสินใจว่าตัวแปรห้าตัวอาจเพียงพอ: ตลาด อุตสาหกรรม ขนาดบริษัท ข้อมูลเงินเดือน และประสบการณ์ที่จำเป็นหลายปี ฉันยังใช้การจับคู่ระยะทาง โดยคิดว่าคะแนนความชอบของการสร้างแบบจำลองในการตั้งค่านี้ (เช่น ความน่าจะเป็นที่งานแต่ละงานเป็นแบบระยะไกลหรือแบบผสม) อาจยากเกินไป โดยเฉพาะอย่างยิ่ง ฉันใช้เฟรมเวิร์กการจับคู่แบบตรงทั้งหมดแบบหยาบ

สำหรับตลาดอุตสาหกรรมและตัวแปรตามหมวดหมู่ของฉัน และในกรณีของ LinkedIn ขนาดบริษัท (เช่น พนักงาน 10,001+ คน พนักงาน 501–10,000 คน ฯลฯ) วิธีการนี้และเหตุผลค่อนข้างตรงไปตรงมา การโพสต์สถานะการปฏิบัติที่แตกต่างกันจะตรงกันก็ต่อเมื่ออยู่ในตลาดและอุตสาหกรรมเดียวกัน และหากมาจากบริษัทในประเภทขนาดเดียวกัน ตลาดเป็นตัวกำหนด/ข้อจำกัดทางภูมิศาสตร์ที่สำคัญต่อความสนใจในการเปิดรับสมัครงาน (อย่างน้อยสำหรับงานในสถานที่และงานแบบผสมผสาน) ในขณะเดียวกัน ขนาดอุตสาหกรรมและบริษัทจะกำหนดความสนใจของผู้สมัครโดยพิจารณาจากความชอบและชุดทักษะ ด้วยการจับคู่การสังเกตในหมวดหมู่เหล่านี้ เราสามารถมั่นใจได้ว่าจะไม่มีอคติใดๆ ที่มาจากสิ่งเหล่านี้ที่ส่งผลต่อการประมาณการของเรา

เรื่องต่างๆ นั้นซับซ้อนกว่าเล็กน้อยและแน่นอนน้อยกว่าเมื่อพูดถึงตัวแปรต่อเนื่อง เช่น ข้อมูลเงินเดือนและประสบการณ์ที่ต้องใช้หลายปี ในกรณีของฉัน จะมีน้อยมาก (หากมี) ข้อสังเกตที่มีข้อมูลเงินเดือนเท่ากันทุกประการ และ/หรือประสบการณ์ที่จำเป็นเท่ากันทุกประการ อย่างไรก็ตาม งานที่ต้องใช้ประสบการณ์หลายปี งานที่ต้องใช้ประสบการณ์ 5 ปีแตกต่างจากงานที่ต้องใช้ 6 ปีมากหรือไม่ อาจจะไม่. ดังนั้นเพื่อให้ตรงกับตัวแปรเหล่านี้ เราสามารถจัดหมวดหมู่ให้เป็นของหนึ่งในหลาย ๆ ถังขยะ

การตัดสินใจเลือกขนาดถังขยะเป็นเรื่องของอคติกับความแปรปรวน หากถังขยะมีขนาดเล็กเกินไป หมายความว่าคุณกำลังขอให้การสังเกตมีความคล้ายคลึงกันมากเกินไปในตัวแปรต่อเนื่องเหล่านี้ การจับคู่ที่พบจะมีน้อย ซึ่งนำไปสู่ความแปรปรวนสูง อย่างไรก็ตาม หากถังขยะมีขนาดใหญ่เกินไป หมายความว่าการสังเกตที่ต่างกันค่อนข้างมากในตัวแปรเหล่านี้จะถูกจับคู่ ซึ่งนำไปสู่การประมาณการที่มีอคติ เนื่องจากคุณยังควบคุมตัวแปรเหล่านี้ไม่สำเร็จ

ในท้ายที่สุด สำหรับข้อมูลเงินเดือน ฉันจับคู่ค่ามัธยฐานช่วงโดยสร้างถังขยะกว้าง $10,000 จาก $0 ถึง $250,000 โดยกำหนด $0 สำหรับผู้ที่ไม่มีข้อมูลเงินเดือน — ซึ่งจำจากตอนที่ 1 ซึ่งเป็นตัวอย่างส่วนใหญ่ของฉัน — และถังของ $250,000+ สำหรับการโพสต์ที่มีค่ามัธยฐานสูงสุด ฉันคิดว่าสิ่งนี้จะทำให้มั่นใจได้ว่าจะไม่มีการสังเกตด้วยตัวเลขเงินเดือนที่แตกต่างกันอย่างมาก แม้ว่าบางวิธีจะมีวิธีการที่แตกต่างกันเล็กน้อย (และบางทีชั้นและเพดานช่วงที่แตกต่างกันมาก) ก็จะเป็นเช่นนั้น จากประสบการณ์ที่สั่งสมมาหลายปี ฉันได้สร้างคลังข้อมูล [0, 3], (3, 6], (6, 9] และ 10+ โดยหวังว่าสิ่งนี้จะช่วยให้แน่ใจว่าจะไม่มีการโพสต์ตำแหน่งระดับผู้อำนวยการและระดับเริ่มต้นสำหรับ เช่น การจับคู่

แม้ว่าการจับคู่ตัวแปรทั้งห้านี้จะช่วยให้ได้รับค่าประมาณผลการรักษาที่เป็นกลางอย่างหลีกเลี่ยงไม่ได้ แต่จำเป็นต้องมีขั้นตอนเพิ่มเติม อันหนึ่งเกี่ยวข้องกับตัวแปรผลลัพธ์ของฉัน แอปพลิเคชันต่อวัน

แอปพลิเคชันต่อวัน

เนื่องจากมีการสังเกตประกาศรับสมัครงานหลายครั้งตั้งแต่ประกาศครั้งแรก การกำหนดอัตราผู้สมัครงานให้เป็นมาตรฐานจึงเป็นเรื่องสำคัญ ในตอนแรก ฉันคิดว่าสิ่งนี้เพียงอย่างเดียวจะทำให้การโพสต์แยกตามวันและสัปดาห์เทียบเคียงได้หากทุกอย่างเท่ากัน อย่างไรก็ตาม ฉันลงเอยด้วยการค้นหาความสัมพันธ์ที่ชัดเจนระหว่างผู้สมัครงานต่อวันกับระยะเวลาที่ได้รับ โดยเฉพาะอย่างยิ่ง โอกาสในการทำงานใหม่ๆ (เช่น ที่โพสต์ เช่น 6 ชั่วโมงก่อนการสังเกต) มีแนวโน้มที่จะได้รับผู้สมัครจำนวนมากต่อ 24 ชั่วโมงมากกว่าโอกาสงานที่เก่ากว่า (เช่น ที่โพสต์ 2 สัปดาห์ก่อนการสังเกตการณ์) อาจเนื่องมาจากเหตุผลสามประการต่อไปนี้: ระบบคำแนะนำของ LinkedIn นิยมการโพสต์ที่ใหม่กว่า จำนวนความสนใจที่ไม่สมส่วนในการโพสต์เกิดขึ้นตั้งแต่เนิ่นๆ

ไม่ว่าจะด้วยเหตุผลใดก็ตาม สิ่งสำคัญคือต้องคำนึงถึงสิ่งนี้ในการวิเคราะห์ขั้นสุดท้ายของฉัน มิฉะนั้น เสียงมากมายจะเล็ดลอดเข้าสู่การแข่งขันขั้นสุดท้าย ทำให้การประเมินเอฟเฟกต์การรักษาที่แม่นยำยากขึ้นมาก จากการสังเกตแนวโน้มกราฟด้านบน ฉันตัดสินใจจับคู่ด้วยว่าโพสต์นั้นมีอายุมากกว่า 1 วันหรือไม่ เพื่อหลีกเลี่ยงการจับคู่ที่ไม่เหมาะสมจำนวนหนึ่ง

การจับคู่: ตอนที่ 1

เพื่อระบุการจับคู่ในตลาดหกตัวแปร อุตสาหกรรม ขนาดบริษัท ประสบการณ์ที่ต้องการ ข้อมูลเงินเดือน และอายุการโพสต์ ดำเนินการในสองขั้นตอน: ขั้นแรกโดยการจัดกลุ่มตามตัวแปรทั้งหกตัวบวกกับการรักษา และขั้นที่สองโดยการกรองเพื่อทำซ้ำพื้นที่ตามตัวแปรหกตัวเท่านั้น ด้านล่างนี้คือโค้ดที่ฉันใช้ดำเนินการขั้นตอนที่หนึ่ง รวมถึงตัวอย่างเอาต์พุต

ข้อมูลโค้ด 1: การระบุช่องว่าง covariate

ขั้นตอนที่สองกำหนดว่า เท่าที่ค่าในตารางด้านบนดำเนินไป จะเก็บเฉพาะประกาศรับสมัครงานในพื้นที่ covariate ที่เป็นตัวหนาเท่านั้น เนื่องจากไม่มีความแปรปรวนของการรักษา ดังนั้นจึงไม่มีการจับคู่ที่เป็นไปได้ในพื้นที่ย่อยอื่นๆ

ข้อมูลโค้ด 2: การระบุช่องว่าง covariate ที่มีความแปรปรวนของการรักษา

ตอนนี้เน้นที่พื้นที่ย่อยเหล่านี้ด้วยความแปรปรวนของค่าการรักษา จากนั้นผมทำซ้ำผ่านแต่ละรายการ โดยมอบหมายงานทางไกลแต่ละรายการที่โพสต์งานควบคุมที่ลงรายการบัญชีในพื้นที่ย่อยเดียวกัน เป็นที่น่าสังเกตว่าการกำหนดการจับคู่นี้เสร็จสิ้นโดยไม่มีการแทนที่ ซึ่งตรงกันข้ามกับกระบวนการจับคู่ขั้นสุดท้ายของฉันที่จะแสดงในส่วนที่ 3 ฉันแสดงโค้ดสำหรับกระบวนการวนซ้ำด้านล่าง

ข้อมูลโค้ด 3: ความพยายามในการจับคู่ก่อนกำหนด

ด้วยตัวอย่างที่ตรงกันในมือจากกระบวนการข้างต้น ฉันสามารถประเมินผลกระทบต่อความสนใจของผู้สมัครเกี่ยวกับโอกาสในการทำงานที่อยู่ห่างไกลแทนที่จะเป็นในสถานที่ รวมถึงผลกระทบจากการลงประกาศงานที่ได้รับการ "เลื่อนตำแหน่ง" บน LinkedIn หรือมี "ง่าย ใช้คุณสมบัติ”

ประมาณการเบื้องต้นจากการจับคู่ตัวแปร 6 ตัว ได้แก่ ตลาด อุตสาหกรรม ขนาดบริษัท ข้อมูลเงินเดือน เวลาที่โพสต์ และประสบการณ์หลายปี

ผลลัพธ์นี้สอดคล้องกับสมมติฐานที่ให้ไว้ก่อนหน้านี้ ประการแรก เราพบว่าโอกาสในการทำงานทางไกลแทนที่จะเป็นในสถานที่จริงส่งผลให้ความสนใจของผู้สมัครเพิ่มขึ้นอย่างมาก โดยเฉพาะอย่างยิ่ง เราประเมินว่าจะมีผู้สมัครเพิ่มขึ้นประมาณ 59% ต่อวัน (ในขณะที่การประมาณค่าลอการิทึมของการคูณค่าสัมประสิทธิ์ข้อมูลจำเพาะระดับบันทึกด้วย 100 บ่งชี้ว่าเพิ่มขึ้น 46.5% การประมาณนี้ล้มเหลวด้วยขนาดเอฟเฟกต์ของค่าขนาดนี้ แต่จำเป็นต้องลบ 1 ออกจากค่าสัมประสิทธิ์ยกกำลังก่อนคูณด้วย 100) ประการที่สอง แม้ว่าจะมีขนาดใหญ่ การเพิ่มขึ้นนี้ก็ยังเล็กกว่าการเพิ่มขึ้นประมาณ 300% โดยนัยจากความแตกต่างง่ายๆ ที่ให้ไว้ในตอนเริ่มต้นของส่วน EDA ในส่วนที่ 1. สุดท้ายนี้ แม้ว่าโปรโมชันของ LinkedIn และคุณลักษณะการสมัครอย่างง่ายจะไม่ได้เป็นส่วนหนึ่งของเป้าหมายของฉัน แต่ก็ยังน่าสนใจที่จะสังเกตว่าความสนใจของผู้สมัครแต่ละคนเพิ่มขึ้นมากน้อยเพียงใด สำหรับแบบแรก ฉันประเมินว่าจะมีผู้สมัครเพิ่มขึ้นประมาณ 25% ต่อวัน และสำหรับแบบหลัง ฉันประเมินว่าจะเพิ่มขึ้นประมาณ 160%

ยังคงมีคำถามเกี่ยวกับคุณภาพของการแข่งขัน ยกตัวอย่างอันนี้

ตามที่ออกแบบไว้ มีข้อมูลบริษัทและตลาดทับซ้อนกัน เช่นเดียวกับอายุการลงรายการบัญชี ปีที่ต้องการ และช่องข้อมูลการชำระเงิน แต่นอกเหนือจากนั้น โอกาสในการทำงานทั้งสองนั้นแตกต่างกันมากในด้านหน้าที่ ดังจะเห็นได้จากตัวอย่างจากคำอธิบายลักษณะงานของพวกเขา การจ้างงานใหม่สำหรับบทบาทสูงสุดคือ "สร้างวิสัยทัศน์และกลยุทธ์ด้านเทคโนโลยีสำหรับโซลูชันหรือโดเมนธุรกิจ" ท่ามกลางงานอื่นๆ ในขณะที่งานสำหรับบทบาทล่างคือ "รับผิดชอบสำหรับการนำไปใช้และ/หรือการสนับสนุนการผลิตของโมดูลใดๆ ของ Oracle โปรแกรม ERP”

หากมีความแตกต่างอย่างเป็นระบบในหน้าที่งานระหว่างงานระยะไกลและงานนอกสถานที่ซึ่งอธิบายถึงความสนใจในโอกาสงานด้วย นั่นจะทำให้เกิดอคติในการประมาณการของเรา และด้วยเหตุนี้จึงควรนำมาพิจารณาด้วย ใช้การแข่งขันอื่นนี้เป็นอีกตัวอย่างหนึ่ง

งานทั้งสองนี้มีลักษณะการทำงานที่แตกต่างกันค่อนข้างมาก และ — แสดงให้เห็นทั้งความไม่สมบูรณ์ของคอลัมน์ประสบการณ์หลายปีของฉัน และ/หรือบริษัทต่างๆ ที่ไม่ได้แสดงสิ่งนี้เป็นคุณสมบัติหลักในคำอธิบายงานเสมอไป — ในแง่ของคุณสมบัติที่จำเป็น แต่ก็ตรงกัน นอกจากนี้ นี่คือความแตกต่างของผู้สมัครต่อวันระหว่างตำแหน่งงานทั้งสองประเภท

หากความไม่ตรงกันเหล่านี้เกิดขึ้นอย่างมากมาย นั่นจะทำให้การประมาณการของฉันมีอคติสูงขึ้น ฉันพยายามที่จะจัดการกับอคติที่ตรงกันประเภทนี้ในโพสต์ถัดไป ของฉัน — ไม่ใช่ด้วยข้อความบรรยายลักษณะงานที่ไม่มีโครงสร้างมากนัก แต่ใช้ชื่อตำแหน่งงานแทน