Membuat Pekerjaan Jauh Memimpin Ke Jalan, Lebih Banyak Kandidat (Bagian 2 dari 3: Pencocokan Persis yang Kasar)
Dalam posting terakhir saya, saya menunjukkan bahwa keterpencilan kesempatan kerja memang berkorelasi dengan lebih banyak minat pelamar, tetapi saya juga menunjukkan mengapa korelasi ini mungkin menyesatkan, atau mungkin setidaknya indikasi yang dilebih-lebihkan tentang apa yang dapat diharapkan perusahaan secara wajar dalam hal pelamar. menarik jika itu membuat lowongan pekerjaan jarak jauh, bukan di tempat. Posting pekerjaan dengan pengaturan kerja yang diiklankan berbeda — di tempat, hybrid, atau jarak jauh — juga cenderung bervariasi, setidaknya dalam sampel saya, dalam hal pendorong minat lain dalam posting pekerjaan, mulai dari seberapa banyak pengalaman yang mereka butuhkan hingga industri apa mereka menyukai gelar apa yang cenderung mereka miliki.
Seringkali, perbedaan-perbedaan ini tampaknya menunjukkan bahwa perbedaan sederhana dalam rata-rata yang dilakukan pada awal EDA saya di Bagian 1 adalah perkiraan yang bias ke atas. Ambil contoh industri. Kami melihat bahwa sekitar 14% lowongan pekerjaan jarak jauh adalah untuk peran dalam pengembangan perangkat lunak, sementara kurang dari 5% adalah untuk peran di ritel, mewakili kelebihan dan kekurangan perwakilan di dua area ini, masing-masing, relatif terhadap postingan pekerjaan di tempat. Ini mungkin baik-baik saja untuk diabaikan jika industri bukanlah penentu minat pekerja, tetapi, secara rata-rata, mungkin demikian.
Sementara regresi linier adalah cara yang sangat efektif untuk menahan kovariat seperti industri dalam hal ini konstan untuk mendapatkan perkiraan yang tidak bias dari efek yang Anda pelajari, dalam kasus saya, saya memutuskan untuk mencocokkan sebagai pendekatan yang lebih pas karena berbagai alasan.
Metodologi Pencocokan
Salah satu keuntungan sederhana dari pencocokan adalah pada intinya cukup intuitif dan mudah dijelaskan. Pengamatan yang sama atau cukup mirip dalam hal variabel kunci seperti industri, pasar, gaji, dll. Tetapi berbeda dalam perlakuan berfungsi sebagai kontrafaktual satu sama lain. Estimasi tingkat pengamatan yang datang dari membandingkan kecocokan pada basis ini tentu saja akan sangat berisik, tetapi dengan ukuran sampel yang besar, selama variabel yang tepat dikontrol, itu akan menghasilkan estimasi efek perlakuan yang tidak bias.
Keuntungan lain dari pencocokan dalam kasus saya adalah non-parametrik. Berbeda dengan regresi linier, tidak ada spesifikasi yang mengatakan bahwa kovariat terkait dengan hasil secara linier diperlukan. Dengan mencocokkan kovariat tersebut, begitulah cara Anda mempertahankannya agar tetap konstan untuk mengidentifikasi efek yang Anda minati. Selain itu, juga tidak perlu menentukan lusinan variabel boneka atau membatasi data saya hanya pada industri yang paling sering muncul dalam sampel saya (yang kami lihat sebelumnya adalah keuangan dan rumah sakit/perawatan kesehatan) atau pasar (Kota New York dan Chicago); pencocokan memungkinkan saya untuk memeriksa lebih banyak ruang kovariat untuk kecocokan pada industri, pasar, dan variabel kunci lainnya.
Langkah-langkah penting termasuk pertama-tama mengidentifikasi variabel-variabel kunci tersebut dan juga memutuskan bagaimana sebenarnya mencocokkan — baik dengan meminimalkan jarak dalam ruang kovariat atau dengan memaksimalkan kesamaan skor kecenderungan. Meskipun saya merekayasa banyak fitur dari data, sejak awal, saya memutuskan bahwa lima variabel mungkin cukup: pasar, industri, ukuran perusahaan, info gaji, dan pengalaman bertahun-tahun yang dibutuhkan. Saya juga memilih pencocokan jarak, dengan pertimbangan bahwa skor kecenderungan pemodelan dalam pengaturan ini (yakni kemungkinan setiap pekerjaan jarak jauh atau hibrid) mungkin terlalu sulit. Secara khusus, saya menggunakan kerangka pencocokan tepat kasar.
Untuk pasar variabel kategori saya, industri, dan, dalam kasus LinkedIn, ukuran perusahaan (mis. 10.001+ karyawan, 501–10.000 karyawan, dll.), pendekatan dan pemikiran ini cukup mudah. Posting status perlakuan yang berbeda hanya cocok jika berbasis di pasar dan industri yang sama dan jika dari perusahaan dalam kategori ukuran yang sama. Pasar adalah penentu/kendala geografis utama pada minat pembukaan pekerjaan (setidaknya untuk pekerjaan di tempat dan hibrid). Sementara itu, ukuran industri dan perusahaan menentukan minat pelamar berdasarkan preferensi dan keahlian. Dengan mencocokkan pengamatan pada kategori ini, kami dapat memastikan tidak ada bias yang berasal dari mereka yang memengaruhi estimasi kami.
Masalahnya sedikit lebih rumit dan kurang pasti ketika menyangkut variabel kontinu - info gaji dan pengalaman bertahun-tahun yang dibutuhkan, dalam kasus saya. Akan ada sangat sedikit, jika ada, pengamatan yang memiliki info gaji yang persis sama dan/atau pengalaman bertahun-tahun yang sama persis. Namun, dengan pengalaman bertahun-tahun yang dibutuhkan, misalnya, apakah pekerjaan yang membutuhkan pengalaman 5 tahun jauh berbeda dari pekerjaan yang membutuhkan 6 tahun? Mungkin tidak. Oleh karena itu, untuk mencocokkan variabel-variabel ini, seseorang dapat mengkategorikannya sebagai milik salah satu dari beberapa nampan.
Memutuskan ukuran nampan adalah pertanyaan tentang bias versus varians. Jika tempat sampah terlalu kecil, artinya Anda meminta pengamatan terlalu mirip pada variabel kontinu ini, maka kecocokan yang ditemukan akan sedikit, yang mengarah ke varian tinggi. Namun, jika nampan terlalu besar, berarti pengamatan yang sangat berbeda pada variabel-variabel ini cocok, yang mengarah ke perkiraan yang bias, karena Anda belum berhasil mengontrol variabel-variabel ini.
Pada akhirnya, untuk informasi gaji, saya mencocokkan median rentang dengan membuat nampan selebar $10.000 dari $0 hingga $250.000, menugaskan $0 untuk mereka yang kekurangan info gaji — yang, ingat dari Bagian 1, adalah mayoritas sampel saya — dan sebuah nampan berisi $250,000+ untuk postingan dengan median tertinggi. Saya pikir ini akan memastikan tidak ada pengamatan dengan angka gaji yang sangat berbeda akan cocok, meskipun beberapa dengan cara yang sedikit berbeda (dan mungkin kisaran lantai dan langit-langit yang sangat berbeda) akan cocok. Untuk pengalaman bertahun-tahun yang diperlukan, saya membuat nampan [0, 3], (3, 6], (6, 9], dan 10+, berharap ini akan memastikan tidak ada posting posisi level direktur dan level awal, untuk misalnya, menjadi cocok.
Sementara pencocokan pada kelima variabel ini pasti berjalan jauh untuk mendapatkan estimasi efek pengobatan yang tidak bias, lebih banyak langkah yang perlu diambil. Salah satunya terkait dengan variabel hasil saya, aplikasi per hari.
Aplikasi per Hari
Karena posting pekerjaan diamati pada waktu yang berbeda sejak pertama kali diposting, penting untuk menstandarkan tarif pelamar. Awalnya, saya pikir ini saja akan membuat posting dipisahkan oleh hari dan bahkan minggu sebanding jika semuanya sama. Namun, saya akhirnya menemukan hubungan yang jelas antara pelamar lowongan pekerjaan per hari dan sudah berapa lama. Secara khusus, peluang kerja yang lebih baru (misalnya yang diposting, katakanlah, 6 jam sebelum diamati) cenderung telah menerima jumlah pelamar yang jauh lebih besar per 24 jam daripada peluang kerja yang lebih lama (misalnya yang diposting 2 minggu sebelum observasi). Hal ini mungkin disebabkan oleh beberapa kombinasi dari tiga alasan: sistem rekomendasi LinkedIn mendukung postingan yang lebih baru, jumlah minat yang tidak proporsional pada postingan yang terwujud sejak dini,
Apa pun alasannya, penting untuk memperhitungkan hal ini dalam analisis akhir saya. Kalau tidak, banyak kebisingan akan masuk ke pertandingan akhir, membuat perkiraan efek perawatan yang tepat jauh lebih sulit didapat. Mengamati tren grafik di atas, saya memutuskan untuk juga mencocokkan apakah posting lebih tua dari 1 hari, sehingga menghindari sejumlah kecocokan yang tidak sesuai.
Pencocokan: Bagian 1
Untuk mengidentifikasi kecocokan pada enam variabel pasar, industri, ukuran perusahaan, pengalaman bertahun-tahun yang dibutuhkan, info gaji, dan usia posting, saya mengidentifikasi area di ruang kovariat dengan varian perlakuan. Hal ini dilakukan dalam dua langkah: pertama dengan mengelompokkan berdasarkan keenam variabel tersebut ditambah perlakuan dan kedua dengan memfilter untuk menduplikasi area hanya berdasarkan keenam variabel tersebut. Di bawah ini adalah kode yang saya gunakan untuk menjalankan langkah pertama, serta contoh keluarannya.
Langkah kedua membuatnya sehingga, sejauh nilai-nilai pada tabel di atas, hanya posting pekerjaan di ruang kovariat yang dicetak tebal yang disimpan karena tidak ada varian perawatan dan karenanya tidak ada kemungkinan kecocokan di subruang lainnya.
Sekarang fokus pada subruang ini dengan varians nilai perawatan, saya kemudian mengulangi setiap subruang, menugaskan setiap posting pekerjaan jarak jauh posting pekerjaan kontrol di subruang yang sama. Perlu dicatat bahwa tugas pencocokan ini dilakukan tanpa penggantian, yang berbeda dengan proses pencocokan terakhir saya yang akan ditampilkan di Bagian 3. Saya menunjukkan kode untuk proses berulang ini di bawah.
Dengan sampel yang cocok di tangan dari proses di atas, saya dapat memperkirakan efek pada minat pelamar dari peluang kerja yang jauh, bukan di tempat, bersama dengan dampak dari posting pekerjaan yang "Dipromosikan" di LinkedIn atau memiliki "Easy Terapkan ”fitur.
Output ini konsisten dengan hipotesis yang diberikan sebelumnya. Pertama, kami benar-benar menemukan bahwa peluang kerja yang jauh dan bukannya di tempat menghasilkan peningkatan minat pelamar yang signifikan. Secara khusus, kami memperkirakan sekitar 59% peningkatan pelamar harian. (Sementara perkiraan logaritmik mengalikan koefisien spesifikasi tingkat log dengan 100 menunjukkan peningkatan 46,5%, perkiraan ini gagal dengan ukuran efek sebesar ini. Sebagai gantinya, seseorang perlu mengurangi 1 dari koefisien eksponensial sebelum mengalikan dengan 100.) Kedua, meskipun besar, peningkatan ini jauh lebih kecil daripada peningkatan sekitar 300% yang ditunjukkan oleh perbedaan sederhana dalam cara yang diberikan pada awal bagian EDA di Bagian 1. Akhirnya, sementara promosi LinkedIn dan fitur Easy Apply bukan bagian dari fokus saya, masih menarik untuk dicatat seberapa besar peningkatan minat pelamar yang diamati untuk diberikan oleh masing-masing. Untuk yang pertama, saya memperkirakan peningkatan sekitar 25% pada pelamar harian, dan untuk yang terakhir, saya memperkirakan peningkatan sekitar 160%.
Masih ada pertanyaan tentang kualitas pertandingan itu sendiri. Ambil yang ini, misalnya.
Seperti yang dirancang, ada tumpang tindih pada info perusahaan dan pasar, serta usia posting, tahun yang diperlukan, dan kotak info pembayaran. Namun di luar itu, kedua kesempatan kerja tersebut cukup berbeda fungsinya, terbukti dengan sampel dari job description masing-masing. Rekrutan baru untuk peran teratas adalah untuk "membangun visi dan strategi teknologi untuk solusi atau domain bisnis" di antara tugas-tugas lainnya, sementara yang untuk peran terbawah adalah "bertanggung jawab atas implementasi dan/atau dukungan produksi dari setiap modul Oracle. aplikasi ERP.”
Jika ada perbedaan sistemik dalam fungsi pekerjaan antara pekerjaan jarak jauh dan pekerjaan di lokasi yang juga menjelaskan minat terhadap peluang kerja, hal itu akan menimbulkan bias dalam perkiraan kami dan karenanya harus diperhitungkan. Ambil pertandingan lain ini sebagai contoh lain.
Kedua pekerjaan ini sangat berbeda secara fungsional dan - menunjukkan ketidaksempurnaan kolom pengalaman tahun saya dan / atau perusahaan tidak selalu menyatakan ini sebagai kualifikasi utama dalam deskripsi pekerjaan - dalam hal kualifikasi yang dibutuhkan, namun keduanya cocok. Selain itu, berikut perbedaan pelamar per hari antara kedua jenis jabatan tersebut.
Jika ketidakcocokan semacam ini merajalela, itu akan membiaskan perkiraan saya ke atas. Saya mencoba untuk mengatasi jenis bias pencocokan ini di posting saya berikutnya - bukan dengan teks deskripsi pekerjaan yang sangat tidak terstruktur melainkan dengan judul pekerjaan.