การหางานจากระยะไกลนำไปสู่แนวทาง แนวทางของผู้สมัครมากขึ้น (ตอนที่ 3 ของ 3: การวิเคราะห์ข้อความ/การจับคู่กับตำแหน่งงาน)
ในส่วนที่ 2ฉันเริ่มใช้การจับคู่แบบตรงทั้งหมดแบบหยาบเพื่อพยายามตอบคำถามการวิจัยของฉัน ซึ่งถามว่าโอกาสในการทำงานสำหรับการทำงานทางไกลแทนการทำงานแบบตัวต่อตัวส่งผลต่อความสนใจอย่างไร ตัวแปรการจับคู่ที่ฉันใช้ — ตำแหน่งที่ตั้ง อุตสาหกรรม ขนาดบริษัท ข้อมูลเงินเดือน ประสบการณ์ที่ต้องการ และอายุการโพสต์ — ดูเหมือนจะไปไกลมากแล้วในการลบประเภทของความเอนเอียงที่สูงขึ้นซึ่งระบุโดยการวิเคราะห์ข้อมูลเชิงสำรวจอย่างง่ายที่ทำในส่วนที่1 . อย่างไรก็ตาม แม้จะตรงกับตัวแปรทั้งหกนี้ ก็ยังอาจมีอคติต่อหน้าที่การงาน งานทางไกลในตัวอย่างของฉันอาจได้รับความสนใจมากขึ้นเนื่องจากลักษณะงานของพวกเขาแทนที่จะเป็นความห่างไกล
ฉันจะเถียงว่าส่วนนี้ของงานค่อนข้างมีนัยสำคัญในชื่องาน ซึ่งเป็นพารามิเตอร์การค้นหาที่สำคัญในการหางานของคนส่วนใหญ่ และถ้าเราดูว่าตำแหน่งงานใดมีแนวโน้มที่จะลงเอยในแต่ละด้านของการแข่งขันแต่ละรายการเมื่อสิ้นสุดส่วนที่ 2เราจะเห็นว่างานในสถานที่อาจถูกนำเสนอมากเกินไปโดยผู้ที่ได้รับความสนใจน้อยกว่าเนื่องจากการทำงานมากกว่าการจัดการงาน .
นั่นคือเหตุผลที่ส่วนสุดท้ายของกลยุทธ์การระบุตัวตนของฉันเรียกร้องให้จับคู่กับตำแหน่งงานด้วย ฉันพบสองวิธีที่ได้ผลเหมือนกันในการดำเนินการนี้ ซึ่งทั้งสองวิธีอาศัยการจับคู่ระยะทางกับคุณลักษณะที่ได้รับจากข้อความชื่องาน โดยเฉพาะคอลัมน์ที่ระบุว่าชื่อประกาศรับสมัครงานมีคำสำคัญที่ระบุอยู่หรือไม่ ข้อแรกเกี่ยวข้องกับคุณลักษณะแต่ละอย่างเหล่านี้เป็นตัวแปรจำลองอย่างง่าย (1 หากมีคีย์เวิร์ดของคอลัมน์อยู่ และ 0 ถ้าไม่มี) และคำจำกัดความที่เป็นประโยชน์ของความคล้ายคลึงกันที่เรียกว่าระยะห่างของแจ็คการ์ด คุณลักษณะที่เกี่ยวข้องประการที่สองไม่ได้สะท้อนให้เห็นเฉพาะการมีอยู่ของคำสำคัญต่างๆ เท่านั้น แต่ยังให้น้ำหนักที่สอดคล้องกับนัยสำคัญโดยประมาณของคำหลักเหล่านั้นด้วย ความคล้ายคลึงกันในกรณีนี้ถูกกำหนดโดยใช้ระยะทางแบบยุคลิด
โปรดทราบว่าทั้งสองวิธีจำเป็นต้องทำความสะอาดตำแหน่งงานล่วงหน้า ดังที่แสดงในส่วนที่ 1งานทางไกลจำนวนมากโฆษณาความห่างไกลในชื่องาน ดังนั้นเพื่อให้วัดความคล้ายคลึงกันได้อย่างมีประสิทธิภาพและแม่นยำยิ่งขึ้น คำอย่างเช่น "ระยะไกล" "บ้าน" และ "ไฮบริด" จึงถูกตัดออกจากชื่องานก่อนหน้าส่วนนี้ ของการวิเคราะห์ มิฉะนั้น การจับคู่จะเกิดขึ้นได้ยากขึ้น เนื่องจากงานที่คล้ายกันซึ่งมีการจัดการงานที่แตกต่างกันจะไม่มีการจัดการงานแบบเดียวกันที่โฆษณาไว้ในตำแหน่งงานของพวกเขา จึงทำให้งานเหล่านั้นดูแตกต่างจากที่เป็นจริง
แนวทางระยะทาง Jackcard
ดังที่ได้กล่าวไว้ วิธีแรกของฉันเกี่ยวข้องกับการกำหนดความคล้ายคลึงกันของตำแหน่งงานโดยใช้เมทริกซ์แบบง่ายที่ระบุว่าตำแหน่งงานใดแสดงคำหลักใด
เช่นเดียวกับกระบวนการค้นหาการจับคู่แบบวนซ้ำที่แสดงในส่วนที่ 2ฉันได้วนผ่านสเปซโควาเรียตต่างๆ ที่จับคู่ที่เป็นไปได้กับตัวแปร 6 ตัวแรกของฉัน แต่ในกรณีนี้ ฉันยังสร้างเมทริกซ์คุณลักษณะข้อความสำหรับแต่ละสเปซเหล่านี้ และพบว่าการสังเกตที่ปฏิบัติแต่ละรายการ เพื่อนบ้านที่ใกล้ที่สุดตามระยะห่างของ Jaccard ในพื้นที่คุณลักษณะข้อความนี้ (กำหนดโดย unigrams ทั้งหมดในชื่องานของชุดข้อมูลของฉัน) หรือที่เรียกว่าความคล้ายคลึงของแจ็กการ์ด กำหนดโดยขนาดของการตัดกันของคำสองชุดหารด้วยขนาดของการรวมกันของชุดเหล่านั้น ตัวอย่างเช่น หากเซ็ต A มอบให้โดย “The Kings เข้าสู่รอบตัดเชือก” และเซ็ต B มอบให้โดย “The Kings ทำผลงานในช่วงหลังฤดูกาลเป็น 3 เมล็ด” ความคล้ายคลึงกันของ Jackcard จะออกมาเป็น 4/11
นอกจากนี้ ฉันยังใช้กฎการตัดสินใจเมื่อมีการระบุเพื่อนบ้านที่ใกล้ที่สุดของหน่วยบำบัดแต่ละแห่งบนพื้นฐานนี้ หากความคล้ายคลึงกันของ Jackcard มีค่ามากกว่า 0.4 แสดงว่าเป็นการแข่งขัน หากไม่เป็นเช่นนั้น แสดงว่าการสังเกตที่ได้รับการบำบัดนั้นไม่มีการสังเกตควบคุมที่เทียบเคียงได้เพียงพอและถูกมองข้ามไป การเลือกเกณฑ์นี้เป็นอีกตัวอย่างหนึ่งของการแลกเปลี่ยนอคติและความแปรปรวน แบนด์วิธที่หย่อนเกินไปนำไปสู่การจับคู่ที่แย่กว่าและอคติที่มากกว่า ในขณะที่การเข้มงวดเกินไปของหนึ่งนำไปสู่การจับคู่ที่ดีกว่าแต่น้อยกว่าและมีความแปรปรวนมากกว่า
สุดท้าย ตามที่กล่าวไว้ในส่วนที่ 2ในขั้นตอนนี้ การจับคู่การควบคุมถูกเลือกด้วยการแทนที่ สิ่งนี้อาจส่งผลให้เกิดความแปรปรวนมากขึ้นเนื่องจากนำไปสู่ขนาดตัวอย่างที่เล็กลงอย่างมีประสิทธิภาพเมื่อมีการใช้การสังเกตการควบคุมแบบเดียวกันในการจับคู่มากกว่าหนึ่งรายการ แต่จะลดความเอนเอียงลงเนื่องจากเลือกการจับคู่ที่ดีที่สุดเท่าที่จะเป็นไปได้โดยไม่คำนึงว่าจะใช้กับหน่วยที่รับการรักษาอื่นหรือไม่
ฉันให้ข้อความที่ตัดตอนมาจากโค้ดของฉันซึ่งรวมถึงกระบวนการค้นหาเพื่อนบ้านด้านล่าง สังเกตพารามิเตอร์การตัดสินใจที่ 0.6 ซึ่งเป็นค่าระยะทางของ Jaccard (1 ลบด้วยค่าความคล้ายคลึงของ Jaccard) ที่สอดคล้องกับค่าความคล้ายคลึงของ Jaccard ที่ 0.4 รหัสทั้งหมดสามารถพบได้ที่นี่ ต่อไป ฉันจะพูดถึงแนวทางการวิเคราะห์ข้อความอื่นๆ ของฉันก่อนที่จะพูดถึงผลลัพธ์สำหรับแต่ละวิธี
วิธีระยะทางแบบยุคลิด
วิธีที่สองของฉันเกี่ยวข้องกับการได้รับคุณสมบัติข้อความที่แตกต่างกันและการคำนวณระยะทางแบบยุคลิดโดยใช้คุณสมบัติเหล่านั้น โดยเฉพาะอย่างยิ่ง ฉันพบว่าการใช้ tf-idf ซึ่งย่อมาจากคำความถี่-ผกผันความถี่ของเอกสาร แทนที่จะใช้ตัวแปรจำลองธรรมดา ก็ให้ผลลัพธ์ที่ตรงกันเช่นกัน
ผลของเทคนิคนี้คือการเน้นคำที่ไม่ปรากฏในข้อสังเกตอื่น ๆ ตัวอย่างเช่น หากจะถือว่าตำแหน่งงาน “Customer Service Associate” นั้นห่างจาก “Customer Service Representative” น้อยกว่า “Customer Service Aficionado” แม้ว่าทั้งสองคำจะต่างกันเพียงคำเดียว เนื่องจากคำว่า “ผู้สนใจรัก” นั้นไม่มีอยู่ทั่วไป . นี่อาจเป็นเครื่องมือที่มีประสิทธิภาพในการวัดความคล้ายคลึงของตำแหน่งงาน/หน้าที่ หากคำที่ผิดปกติในชื่อตำแหน่งงานหมายความว่ามีโอกาสน้อยที่จะเทียบได้กับตำแหน่งอื่น
สำหรับแนวทางนี้ ฉันได้ตั้งกฎการตัดสินที่กำหนดให้ตำแหน่งงานต้องอยู่ในระยะห่างแบบยุคลิด 2 ตำแหน่งจากกันจึงจะถือว่าตรงกัน
ผลลัพธ์
ตอนนี้การจับคู่ตำแหน่งงานก็เช่นกัน ด้วยวิธีการความคล้ายคลึงกันของข้อความ เราก็ได้ค่าประมาณที่ค่อนข้างคล้ายกันในตอนที่ 2ซึ่งเราจับคู่เฉพาะในตลาด อุตสาหกรรม ขนาดบริษัท ข้อมูลเงินเดือน ประสบการณ์ที่จำเป็น และอายุการโพสต์ สิ่งนี้อาจบ่งบอกถึงความลำเอียงเล็กน้อย (ถ้ามี) ซึ่งเกิดจากการไม่ตรงกับหน้าที่งานผ่านตำแหน่งงาน อย่างไรก็ตาม ขั้นตอนการจับคู่เหล่านี้ยังนำไปสู่การประมาณค่าที่สะท้อนถึงตัวอย่างต่างๆ ตัวอย่างเช่น ในขณะที่ขั้นตอนการจับคู่จากส่วนที่ 2ใช้การสังเกตมากกว่า 9,000 ครั้ง ขั้นตอนเหล่านี้ใช้การจับคู่จำนวนค่อนข้างน้อย ซึ่งมีจำนวนการสังเกตประมาณ 1,500 ครั้งต่อครั้ง
เราสามารถตรวจสอบแมตช์ต่าง ๆ และค้นหาการจับคู่ที่สมเหตุสมผลได้ เช่นด้านล่าง
เป็นที่น่าสังเกตว่าการแข่งขันหลายรายการที่กำหนดโดยใช้ Euclidean Distance Approach หรือ Jaccard Distance Approach นั้นซ้ำกันเสมือนจริงในทุกมิติที่บันทึกไว้ ยกเว้นสถานะการรักษา นี่คือกรณีของการแข่งขันนัดที่สามที่แสดงด้านบน (สองแถวสุดท้าย) การจับคู่ประเภทนี้เป็นผลผลิตจากบริษัทใดบริษัทหนึ่งซึ่งจ้างงานในตำแหน่งประเภทเดียวกันแต่มีการจัดเตรียมงานที่แตกต่างกัน หรือเกิดจากความผิดพลาดในส่วนของบริษัทดังกล่าว ไม่ว่าจะด้วยวิธีใด มันมีการจับคู่ที่ยอมรับได้มากเช่นข้างต้น
ประเด็นที่น่าสนใจเพิ่มเติมที่เกี่ยวข้องกับคำถามการวิจัยของฉันคือผลกระทบนี้ประเมินการเปลี่ยนแปลงของตลาดหรือไม่ โดยเฉพาะอย่างยิ่ง ฉันจะตั้งสมมติฐานว่าการเพิ่มความสนใจของผู้สมัครที่มาจากงานที่อยู่ห่างไกลแทนที่จะเป็นในสถานที่นั้นใหญ่กว่าในตลาดที่เล็กกว่าที่เป็นในตลาดที่ใหญ่กว่า เนื่องจากตลาดที่เล็กกว่าจะถูกจำกัดโดยผู้สมัครที่มีขนาดเล็กกว่า สระน้ำ.
ในการศึกษาเรื่องนี้ อันดับแรก ฉันได้รวมข้อมูลสำมะโนประชากรเข้ากับตัวอย่าง Jaccard ทางไกล/ในสถานที่ของฉัน โดยพบว่าค่าประมาณของฉันลดลงประมาณ 0.7% ต่อทุกๆ แสนคนในตลาดที่กำหนด กล่าวอีกนัยหนึ่ง การประมาณการของฉันจะระบุว่าขนาดเอฟเฟกต์ในตลาดอย่างฟีนิกซ์ซึ่งมีประชากรประมาณ 1.6 ล้านคนนั้นมากกว่าในตลาดอย่างชิคาโก (ประชากร ≈ 2.7 ล้านคน), ลอสแองเจลิสมากกว่า 7 เปอร์เซ็นต์ (ประชากร ≈ 3.8 ล้านคน) หรือนิวยอร์ก (ประชากร ≈ 8.5 ล้านคน)
เนื่องจากฉันได้แสดงวิธีการของฉันจากส่วนที่ 2นั้นแข็งแกร่งและข้อกำหนดการจับคู่ที่เข้มงวดน้อยกว่าทำให้ได้ขนาดตัวอย่างที่ใหญ่ขึ้น ฉันจึงสามารถหันไปใช้วิธีนั้นสำหรับการวิเคราะห์เพิ่มเติมเกี่ยวกับความแตกต่างที่ประมาณการผลกระทบตามตลาด ด้านล่างนี้ เราเห็นคำแนะนำของมันตามตลาดเฉพาะ ฉันประเมินว่าผลกระทบใกล้เคียงกับที่เล็กที่สุดในเมืองที่ใหญ่ที่สุดในสหรัฐอเมริกา นิวยอร์ก และลอสแองเจลิส และใหญ่กว่าในตลาดเล็กๆ บางแห่งในกลุ่มตัวอย่างของฉัน เช่น ซินซิแนตติ โอไฮโอ และฟริสโก เท็กซัส ข้อยกเว้นที่น่าสนใจดูเหมือนจะเป็นฟีนิกซ์และแมคลีน รัฐเวอร์จิเนีย แต่อาจเป็นผลมาจากประเภทงานในเมืองเหล่านั้นในข้อมูลของฉัน
ฉันยังได้ค่าประมาณอื่นๆ จากแนวทางนี้ด้วย ประการแรก ฉันพบว่าผลโดยเฉลี่ยของการเปิดรับสมัครงานสำหรับการทำงานทางไกลแทนการทำงานด้วยตนเองคือการเพิ่มขึ้นของผู้สมัครรายวันประมาณ 75% (ประสบการณ์ (.5583)-1)*100) ประการที่สอง ฉันประเมินว่าผลกระทบนี้สำหรับงานแบบผสมผสานคือประมาณ 7% นอกจากนี้ ฉันประเมินว่าผลกระทบต่ออัตราผู้สมัครจากคุณสมบัติสมัครง่ายและโปรโมตของ LinkedIn จะอยู่ที่ประมาณ 144% และ 40% ตามลำดับ
สุดท้าย เนื่องจากขั้นตอนการจับคู่ของฉันส่งผลให้ชุดย่อยของข้อมูลของฉันมีองค์ประกอบที่แตกต่างจากชุดข้อมูลทั้งหมดของฉัน และการประมาณของฉันมาจากชุดย่อยเหล่านี้ จึงคุ้มค่าที่จะดูส่วนประกอบของตัวอย่างที่ตรงกันขั้นสุดท้ายของฉัน ด้านล่าง เราเห็นว่าตัวอย่างที่จับคู่ระยะไกลของฉันประกอบด้วยประกาศรับสมัครงานส่วนใหญ่จากอุตสาหกรรมการบัญชี การพัฒนาซอฟต์แวร์ การเงิน การดูแลสุขภาพ และสุขภาพ/ฟิตเนส ในขณะเดียวกัน ตัวอย่างการจับคู่แบบไฮบริดของฉันประกอบด้วยประกาศรับสมัครงานส่วนใหญ่จากการเงิน ไอที การดูแลสุขภาพ การค้าปลีก และการป้องกันประเทศและอุตสาหกรรมอวกาศ
เรายังสามารถดูได้ว่าประเภทตำแหน่งใดมีการแสดงตัวอย่างมากในแต่ละตัวอย่าง
บทสรุป
เมื่อใช้วิธีการจับคู่เพื่อควบคุมปัจจัยหลักของความสนใจในการประกาศรับสมัครงาน เช่น ตำแหน่งงาน ตลาด และคุณสมบัติที่จำเป็น ฉันเชื่อว่าฉันพบหลักฐานที่ชัดเจนว่าโอกาสในการทำงานที่อยู่ห่างไกลมีผลกระทบอย่างมากต่อความสนใจของผู้สมัครและโอกาสในการทำงาน ไฮบริดมีเจียมเนื้อเจียมตัว โดยเฉพาะอย่างยิ่ง ฉันประเมินว่าการเปิดงานทางไกลแทนในสถานที่ โดยเฉลี่ยแล้วจะนำไปสู่การเพิ่มจำนวนผู้สมัครประมาณ 75% ในขณะที่การเปิดใช้งานแบบผสมผสานแทนในสถานที่จะทำให้มีการเพิ่มขึ้นโดยเฉลี่ยประมาณ 7 % นอกจากนี้ การวิเคราะห์ของฉันบ่งชี้ว่าผลกระทบอย่างแรกในสองประการนั้นแตกต่างกันไปตามพื้นที่ทางภูมิศาสตร์และขนาดตลาด ซึ่งเผยให้เห็นว่าบริษัทในตลาดขนาดเล็กสามารถใช้ประโยชน์จากแรงงานจากระยะไกลได้อย่างไร
ถึงกระนั้นก็ยังมีข้อจำกัดบางประการเกี่ยวกับแนวทางของฉัน ประการแรก การประมาณการของฉันส่วนใหญ่จะนำไปใช้กับชุดย่อยของการสังเกตที่ได้รับการปฏิบัติ ซึ่งมีการสังเกตการควบคุมที่เปรียบเทียบได้จำนวนมาก เช่น บทบาทด้านวิศวกรรมซอฟต์แวร์ในการพัฒนาซอฟต์แวร์ เทคโนโลยีสารสนเทศ และอุตสาหกรรมการเงิน สิ่งนี้ตรงกันข้ามโดยตรงกับบทบาทที่ประกอบขึ้นเป็นส่วนใหญ่และเล็กของตัวอย่างย่อยการโพสต์งานในสถานที่และระยะไกลของฉัน ตามลำดับ หากเรามองย้อนกลับไปที่รูปที่ 4 จากบล็อกโพสต์แรกของฉันตัวอย่างของบทบาทเหล่านี้ ได้แก่ ผู้จัดการร้าน ช่างเทคนิค และพยาบาล
ความเป็นกลางของการประมาณการของฉันยังขึ้นอยู่กับความสำเร็จในการควบคุมตัวแปรที่อาจทำให้สับสน หากมีตัวแปรที่ฉันไม่ตรงกับความสนใจของผู้สมัครและเกี่ยวข้องกับการรักษา — เช่น สัมพันธ์กับว่างานอยู่ในสถานที่ ผสมผสาน หรือระยะไกล — ดังนั้นการประมาณการของฉันจะมีอคติในระดับหนึ่ง นอกจากนี้ แม้ว่าฉันจะระบุตัวแปรการจับคู่ที่จำเป็นแล้ว แต่ก็ยังไม่ได้รับการควบคุมอย่างสมบูรณ์ หากถังขยะกว้างเกินไป หรือในกรณีของการจับคู่ตำแหน่งงานของฉัน แบนด์วิดท์/คาลิเปอร์ของระยะห่าง 0.6 Jaccard นั้นใหญ่เกินไป
จากทั้งหมดที่กล่าวมา ฉันคิดว่ามีเหตุผลที่จะคิดว่าเป็นไปตามสมมติฐานเหล่านี้ ฉันคิดว่าถังขยะที่ฉันระบุในส่วนที่ 2ค่อนข้างแคบ ยิ่งไปกว่านั้น ส่วนที่กว้างที่สุดสำหรับระยะเวลาที่โพสต์ ส่วนใหญ่จะลดเสียงรบกวนระหว่างการแข่งขัน ในขณะที่ฉันแสดงให้เห็นว่าตัวแปรนี้คาดการณ์ผู้สมัครต่อวัน แต่ก็ไม่มีเหตุผลใดที่ควรมีความสัมพันธ์กับการรักษา นอกจากนี้ ความเสถียรที่เหมาะสมของการประมาณการของฉันโดยไม่คำนึงถึงวิธีการจับคู่ตำแหน่งงาน (เช่น ไม่มีเลยเมื่อเทียบกับความคล้ายคลึงของ Jackcard เทียบกับระยะทางแบบยุคลิด) ก็สร้างความมั่นใจได้เช่นกัน
ด้วยเหตุนี้ ฉันคิดว่าผลลัพธ์ของฉันบ่งชี้ว่านี่คือพื้นที่ที่สามารถค้นพบสิ่งที่น่าสนใจมากขึ้นได้ การวิจัยเพิ่มเติมสามารถทำได้เพื่อดูว่าผลกระทบนี้แตกต่างอย่างไรตามมิติอื่นๆ นอกเหนือจากตลาด เช่น ประเภทงาน อุตสาหกรรม หรือระดับอาวุโส นอกจากนี้ การวิเคราะห์เพิ่มเติมสามารถทำได้เกี่ยวกับความแปรปรวนของผลการรักษาที่ขับเคลื่อนด้วยขนาดตลาด เพื่อลองและแยกวิเคราะห์ว่าส่วนใดของผลกระทบเหล่านี้ถูกขับเคลื่อนโดยการเพิ่มขึ้นของผู้สมัครที่มีอยู่ และส่วนใดที่ขับเคลื่อนโดยการตั้งค่าที่ฉันอ้างถึงในตอนต้นของฉันโพสต์บล็อกแรก