Membuat Pekerjaan Jarak Jauh Menghasilkan Cara, Lebih Banyak Kandidat (Bagian 1 dari 3: Perselisihan Data dan EDA)
Seharusnya tidak terlalu mengejutkan bahwa peluang kerja untuk pekerjaan jarak jauh alih-alih pekerjaan di tempat menyebabkan lebih banyak minat terhadapnya. Seiring dengan kumpulan kandidat yang diperbesar, preferensi, juga, kemungkinan besar mendorong banyak perbedaan ini. Menurut Gallup , 6% karyawan dengan kemampuan jarak jauh lebih suka bekerja secara eksklusif di tempat, tetapi 34% lebih suka bekerja sepenuhnya dari jarak jauh. (60% lebih memilih pengaturan hybrid.)
Tapi apa ukuran efek ini? Apa yang dapat diharapkan oleh perusahaan di pasar tertentu, di industri tertentu, yang mempekerjakan untuk peran tertentu, jika membuka peluang kerja bagi kandidat yang bekerja dari mana saja, bukan hanya mereka yang tinggal di sekitar? Saya ingin menjawab pertanyaan ini dengan mengumpulkan dan menganalisis data posting pekerjaan dari LinkedIn.
Koleksi
Untuk mengatasi topik di atas secara empiris, saya mengidentifikasi LinkedIn sebagai sumber data yang berguna. Saat ini, sebagian besar perusahaan memposting peluang kerja di situs menentukan apakah pengaturan kerja pekerjaan itu di tempat, hybrid, atau jarak jauh, serta nilai untuk variabel penjelas lainnya seperti judul pekerjaan, pasar, dan durasi diposting. Yang terpenting, ini juga memberikan informasi kepada pelanggan premium tentang minat pelamar dalam bentuk angka hitungan pelamar.
Saya merampingkan proses pengumpulan data saya dengan beberapa pustaka pemrograman Python, termasuk alat otomasi browser web Selenium dan panda, modul analisis dan manipulasi data. Identifikasi sistematis dan pencatatan nilai dari variabel yang disebutkan di atas terjadi melalui penggunaan XPath, bahasa yang dapat digunakan untuk membuat kueri konten HTML.
Sementara upaya pengumpulan awal saya sangat luas — satu-satunya batasan adalah posting harus untuk pekerjaan yang berbasis di Amerika Serikat — sejak awal, saya memutuskan untuk fokus pada perusahaan yang lebih besar, di mana tampaknya ada lebih banyak heterogenitas dalam variabel perawatan saya (yaitu campuran posting yang agak terdistribusi untuk pekerjaan di tempat, hibrid, dan jarak jauh). Pendekatan ini membuat sampel akhir saya jauh lebih mewakili postingan dari perusahaan dengan lebih dari 10.000 karyawan, seperti yang akan saya tunjukkan nanti di bawah.
Pembersihan
Setelah dikumpulkan, data membutuhkan pemrosesan dan pembersihan yang baik. Untungnya, bagaimanapun, variabel perawatan saya, keterpencilan, tersedia dengan sangat andal dengan satu asumsi - bahwa pekerjaan untuk posting yang tidak menunjukkan pengaturan kerja sebenarnya ada di tempat - dan langkah pemrosesan tambahan. Untuk sebagian besar posting, pengaturan kerja secara andal diberikan di satu lokasi standar dalam posting, di dekat jabatan. Namun, beberapa posting menunjukkan pengaturan kerja sajadalam judul pekerjaan itu sendiri, misalnya "Insinyur Perangkat Lunak (jarak jauh)." Oleh karena itu, data diolah sehingga jenis informasi ini pada akhirnya tercermin dengan tepat dalam vektor perlakuan. Distribusi variabel ini dalam data sebelum dan sesudah ini dan banyak langkah pemrosesan lainnya (selebihnya dijelaskan di bawah) diambil diberikan langsung di bawah ini.
Langkah-langkah pemrosesan lain yang diambil melibatkan pengamatan yang tidak memiliki nilai untuk variabel kunci tertentu. Posting pekerjaan yang nilai posting durasinya tidak dikumpulkan dihapus, karena variabel ini diperlukan untuk membakukan jumlah aplikasi sebagai tarif harian. Demikian juga, postingan yang jumlah pelamarnya tidak dikumpulkan juga akan dihapus. Terkait dengan itu, data tentang lowongan pekerjaan yang terjadi hanya beberapa detik setelah diposting juga diabaikan.
Pekerjaan juga dilakukan untuk menyaring duplikat. Beberapa postingan terjadi beberapa kali dalam proses pengumpulan data atau diposting di LinkedIn beberapa kali. Untuk mengatasinya, saya mengidentifikasi duplikat berdasarkan jabatan, perusahaan, nilai keterpencilan, dan lokasi, hanya menyimpan duplikat yang telah diposting paling lama dan menghapus yang lainnya.
Akhirnya, banyak langkah lain diambil untuk mengambil variabel dari data yang relatif tidak terstruktur seperti teks deskripsi pekerjaan. Ini termasuk informasi yang lebih standar seperti tingkat pengalaman (diberikan, jika ada, sebagai Magang, tingkat Awal, Associate, tingkat Menengah-Senior, Direktur, atau Eksekutif), ukuran perusahaan (diberikan sebagai salah satu dari 1–10 karyawan, 11–50 karyawan , 51–200 karyawan, dll., hingga 10.001+ karyawan), industri, dan lokasi. Sementara tiga yang terakhir sangat utuh, tingkat pengalaman tidak, dengan sekitar sepertiga dari posting tidak menunjukkan salah satu nilai yang disediakan LinkedIn yang tercantum di atas.
Pengalaman bertahun-tahun yang diperlukan untuk peran tertentu adalah variabel yang berasal dari teks deskripsi pekerjaan yang akhirnya berfungsi sebagai cara yang lebih baik untuk memasukkan tingkat kualifikasi ke dalam desain penelitian akhir saya. Untuk mengekstrak data ini, beberapa langkah dan asumsi, yang paling penting diilustrasikan pada bagian kode di bawah, digunakan. Misalnya, satu hal yang perlu saya lakukan adalah mengubah representasi teks dari angka dalam deskripsi pekerjaan menjadi angka. Selain itu, asumsi penyederhanaan yang saya gunakan adalah bahwa perusahaan tidak memerlukan pengalaman lebih dari 17 tahun untuk sebuah peran. Kemungkinan besar ada beberapa pengecualian untuk ini di data saya, tetapi mungkin sangat jarang. Selain itu, hal ini memungkinkan saya menghindari kesalahan persyaratan usia dalam teks deskripsi pekerjaan — sering kali diberikan sebagai “harus berusia 18 tahun” — untuk persyaratan pengalaman. Akhirnya, Saya juga berusaha untuk mendeteksi sebanyak mungkin cara untuk mengungkapkan persyaratan pengalaman ini dengan pola ekspresi reguler di bawah ini. Pendekatan saya dengan deskripsi pekerjaan yang berisi banyak pola (misalnya "pengalaman manajemen produk selama tiga tahun ditambah dengan lima tahun lebih dalam pengembangan perangkat lunak") adalah dengan mengambil jumlah tahun maksimum yang diberikan. Kode saya secara keseluruhan ditautkandi sini .
Tidak mungkin saya dapat menjelaskan semua cara kualifikasi yang diperlukan dapat diberikan dalam deskripsi pekerjaan, jadi keluarannya mungkin paling baik disebut sebagai perkiraan. Namun, itu melewati banyak pemeriksaan dari berbagai deskripsi pekerjaan dan juga melacak dengan cukup baik dengan variabel tingkat pengalaman yang disediakan LinkedIn tetapi tidak lengkap. Sebagai contoh, saya menemukan bahwa peran yang dianggap sebagai level pemula di LinkedIn rata-rata membutuhkan pengalaman sekitar 2,5 tahun, sementara level direktur atau lebih tinggi cenderung membutuhkan pengalaman lebih dari 6 tahun.
Saya juga mengurai informasi lokasi dari lokasi yang seragam dalam posting pekerjaan dan dapat memperoleh pasar tenaga kerja geografis standar. Beberapa kasus memerlukan perlakuan khusus dan panggilan penilaian, seperti apakah Minneapolis dan Saint Paul, Minnesota harus dipertimbangkan sebagai satu atau dua pasar dan apakah akan membakukan referensi ke kota tertentu (mis. Los Angeles) dan referensi ke area umumnya (mis. Area Metropolitan Los Angeles ). Dalam contoh seperti dua contoh ini, saya biasanya memutuskan untuk mendefinisikan pasar secara lebih luas daripada kurang.
Terakhir, saya juga merekayasa variabel yang mencerminkan informasi gaji apa pun yang diberikan oleh lowongan pekerjaan. Jika ada, ini diberikan sebagai rentang per jam atau tahunan, atau dalam sebagian kecil kasus sebagai tarif jaminan (mis. “$20/jam”). Hasilnya, saya dapat mengurai variabel batas gaji, plafon, dan median untuk digunakan dalam analisis saya. Sebagian besar postingan tidak memberikan info gaji dan dengan demikian diberi nilai 0 untuk variabel ini.
Sementara upaya dilakukan untuk memulihkan informasi lain seperti persyaratan pendidikan kerja dan menyebutkan manfaat (seperti yang ditunjukkan dalam kode lengkap saya ), saya hanya menjelaskan di atas karena itu adalah variabel yang melayani desain penelitian utama saya, yang akan saya jelaskan nanti.
Analisis Data Eksplorasi
Sangat mudah untuk terlebih dahulu melihat statistik ringkasan berdasarkan nilai perlakuan. Kami dapat dengan cepat melihat bahwa keterpencilan pekerjaan memang setidaknya berkorelasi dengan lebih banyak pelamar per hari. Kami juga melihat di bawah bahwa aplikasi per hari sangat miring.
Tetapi pekerjaan di tempat, hibrid, dan jarak jauh juga berbeda dengan variabel lain yang relevan, setidaknya dalam kumpulan data saya. Misalnya, kita dapat melihat di bawah bahwa lowongan pekerjaan dengan pengaturan kerja yang berbeda juga memiliki info gaji yang berbeda. Posting pekerjaan jarak jauh mencakup info gaji dengan persentase yang jauh lebih tinggi daripada posting pekerjaan di tempat, dan, untuk alasan apa pun, di antara posting yang menawarkan info gaji, yang hybrid cenderung memiliki angka yang jauh lebih tinggi.
Ada juga kesenjangan dalam perkiraan rata-rata pengalaman bertahun-tahun yang diperlukan di seluruh nilai perawatan. Secara khusus, saya menemukan bahwa pekerjaan jarak jauh membutuhkan pengalaman sekitar satu tahun lebih banyak daripada pekerjaan di tempat.
Posting pekerjaan di tempat, hibrid, dan jarak jauh juga berbeda pada variabel kategori penting. Berikut adalah berapa banyak dari masing-masing sampel kelompok perlakuan diwakili oleh masing-masing dari lima perusahaan yang paling sering muncul, kategori ukuran perusahaan, industri, dan pasar dalam kumpulan data. Misalnya, posting jarak jauh tidak proporsional untuk pekerjaan di PwC dan posting campuran tidak proporsional untuk pekerjaan di Deloitte. (Kebetulan, sebenarnya, tidak ada lowongan pekerjaan di Deloitte dalam kumpulan data saya yang hanya untuk pekerjaan di tempat.)
Ada juga pertanyaan tentang seberapa banyak posting cenderung berbeda berdasarkan judul, parameter pencarian kerja utama dan cerminan fungsi pekerjaan. Salah satu cara untuk memvisualisasikan ini adalah melalui awan kata.
Kita dapat melihat perbedaan di ketiga awan kata, beberapa di antaranya - penempatan, warna, dll. - tidak penting tetapi yang lain lebih jitu. Misalnya, cukup jelas bahwa peran rekayasa perangkat lunak adalah persentase yang lebih besar dari posting pekerjaan jarak jauh daripada untuk posting di tempat dan hibrid. Hal lain yang perlu diperhatikan adalah, seperti yang disebutkan, postingan pekerjaan jarak jauh sering mengiklankan pengaturan ini dalam judul pekerjaan itu sendiri, yang akan saya bahas dalam analisis saya nanti.
Kita dapat mengamati secara lebih empiris perbedaan jabatan berdasarkan status perlakuan dengan mengeksplorasi seberapa sering unigram dan bigram tertentu muncul di setiap sub-sampel perlakuan. Di bawah ini, saya menunjukkan bahwa lowongan pekerjaan jarak jauh adalah untuk peran rekayasa perangkat lunak dalam jumlah yang tidak proporsional dan peran teknisi dalam jumlah yang tidak proporsional, di antara ketidakseimbangan lainnya.
Apa yang diungkapkan analisis data eksplorasi ini adalah bahwa korelasi kuat antara keterpencilan pekerjaan dan pelamar yang lebih banyak per hari yang ditunjukkan sebelumnya sebenarnya dapat didorong oleh perbedaan tersembunyi lainnya ini. Oleh karena itu, untuk mengidentifikasi kausalitas, desain penelitian saya perlu memperhitungkan hal ini. Saya memulainya di Bagian 2 .