Membuat Pekerjaan Jauh Memimpin Ke Jalan, Lebih Banyak Kandidat (Bagian 3 dari 3: Analisis Teks/Mencocokkan Judul Pekerjaan)

May 13 2023
Di Bagian 2, saya mulai menggunakan pencocokan tepat kasar dalam upaya untuk menjawab pertanyaan penelitian saya, yang menanyakan bagaimana peluang kerja untuk pekerjaan jarak jauh alih-alih pekerjaan tatap muka memengaruhi minat terhadapnya. Variabel pencocokan yang saya gunakan — lokasi, industri, ukuran perusahaan, info gaji, pengalaman bertahun-tahun yang dibutuhkan, dan usia posting — tampaknya telah banyak membantu menghilangkan jenis bias ke atas yang ditunjukkan oleh analisis data eksplorasi sederhana yang dilakukan di Bagian 1 .
Sumber

Di Bagian 2 , saya mulai menggunakan pencocokan tepat kasar dalam upaya untuk menjawab pertanyaan penelitian saya, yang menanyakan bagaimana peluang kerja untuk pekerjaan jarak jauh alih-alih pekerjaan tatap muka memengaruhi minat terhadapnya. Variabel pencocokan yang saya gunakan — lokasi, industri, ukuran perusahaan, info gaji, pengalaman bertahun-tahun yang dibutuhkan, dan usia posting — tampaknya telah banyak membantu menghilangkan jenis bias ke atas yang ditunjukkan oleh analisis data eksplorasi sederhana yang dilakukan di Bagian 1 . Namun, bahkan dalam kecocokan enam variabel ini, mungkin masih ada bias pada fungsi pekerjaan. Pekerjaan jarak jauh dalam sampel saya mungkin lebih menarik berdasarkan sifat pekerjaan mereka daripada keterpencilannya.

Saya berpendapat bahwa bagian pekerjaan ini cukup signifikan terwakili dalam jabatannya, parameter pencarian utama dalam perburuan pekerjaan kebanyakan orang. Dan jika kita melihat judul pekerjaan apa yang cenderung berakhir di setiap sisi dari setiap pertandingan di akhir Bagian 2 , kita melihat bahwa pekerjaan di tempat mungkin terlalu terwakili oleh mereka yang kurang tertarik karena fungsinya daripada pengaturan kerjanya. .

Itulah mengapa bagian terakhir dari strategi identifikasi saya meminta pencocokan juga pada jabatan. Saya menemukan dua cara yang sama efektifnya untuk melakukan ini, keduanya mengandalkan pencocokan jarak pada fitur yang berasal dari teks judul pekerjaan — khususnya, kolom yang menunjukkan apakah judul posting pekerjaan tertentu memiliki kata kunci tertentu di dalamnya atau tidak. Yang pertama melibatkan masing-masing fitur ini menjadi variabel dummy sederhana (1 jika kata kunci kolom ada, 0 jika tidak) dan definisi kesamaan yang berguna yang dikenal sebagai jarak Jaccard. Yang kedua melibatkan fitur yang mencerminkan tidak hanya keberadaan berbagai kata kunci tetapi juga bobot yang sesuai dengan perkiraan signifikansinya, dengan kesamaan dalam hal ini ditentukan menggunakan jarak Euclidean.

Perhatikan bahwa kedua pendekatan memerlukan beberapa pembersihan judul pekerjaan sebelumnya. Seperti yang ditunjukkan di Bagian 1 , banyak pekerjaan jarak jauh mengiklankan keterpencilan mereka dalam judul pekerjaan itu sendiri, sehingga untuk mengukur kesamaan secara lebih efektif dan akurat, kata-kata seperti "Remote", "Home", dan "Hybrid" dihapus dari judul pekerjaan sebelum bagian ini analisis. Jika tidak, kecocokan akan lebih sulit didapat karena pekerjaan serupa dengan pengaturan kerja yang berbeda tidak akan memiliki pengaturan kerja yang sama yang diiklankan dalam judul pekerjaan mereka, sehingga membuat mereka tampak lebih berbeda dari yang sebenarnya.

Pendekatan Jarak Jaccard

Seperti disebutkan, pendekatan pertama saya melibatkan penentuan kesamaan jabatan dengan menggunakan matriks sederhana yang menunjukkan jabatan mana yang menampilkan kata kunci mana.

Seperti proses pencarian kecocokan iteratif yang ditunjukkan di Bagian 2 , saya menelusuri berbagai ruang kovariat yang memiliki potensi kecocokan pada enam variabel pertama saya, tetapi dalam kasus ini saya juga membuat matriks fitur teks untuk masing-masing ruang ini dan menemukan masing-masing pengamatan yang diperlakukan. tetangga terdekat menurut jarak Jaccard dalam ruang fitur teks ini (ditentukan oleh semua unigram dalam judul pekerjaan set data saya). Juga dikenal sebagai Kesamaan Jaccard, ini diberikan oleh ukuran persimpangan dua set kata dibagi dengan ukuran gabungan dari set tersebut. Misalnya, jika set A diberikan oleh "The Kings membuat playoff" dan set B diberikan oleh "The Kings telah membuat postseason sebagai tiga unggulan", kemiripan Jaccard mereka menjadi 4/11.

Selain itu, saya juga menerapkan aturan keputusan ketika tetangga terdekat setiap unit yang dirawat atas dasar ini diidentifikasi. Jika Kesamaan Jaccard mereka lebih besar dari 0,4, mereka cocok. Jika tidak, maka pengamatan yang diperlakukan itu tidak memiliki pengamatan kontrol yang cukup sebanding dan diabaikan. Pemilihan ambang ini adalah contoh lain dari tradeoff bias-varians. Bandwidth yang terlalu longgar menyebabkan kecocokan yang lebih buruk dan bias yang lebih besar, sedangkan yang terlalu ketat menyebabkan kecocokan yang lebih baik tetapi lebih sedikit dan lebih banyak varian.

Terakhir, seperti yang disebutkan di Bagian 2 , dalam prosedur ini, kecocokan kontrol dipilih dengan penggantian. Hal ini dapat menghasilkan lebih banyak varians karena menghasilkan ukuran sampel yang lebih kecil secara efektif ketika pengamatan kontrol yang sama digunakan di lebih dari satu kecocokan, tetapi ini mengurangi bias karena kemungkinan kecocokan terbaik dipilih terlepas dari apakah digunakan dengan unit lain yang dirawat.

Saya memberikan kutipan kode saya yang menyertakan proses pencarian tetangga di bawah ini. Catat parameter keputusan 0,6, nilai jarak Jaccard (1 dikurangi Kesamaan Jaccard) yang sesuai dengan Kesamaan Jaccard 0,4. Kode secara keseluruhan dapat ditemukan di sini . Selanjutnya, saya membahas pendekatan analisis teks saya yang lain sebelum membahas hasil masing-masing.

Cuplikan Kode 1: Mencocokkan jabatan jika jarak Jaccard <0,6

Pendekatan Jarak Euclidean

Pendekatan kedua saya melibatkan penurunan fitur teks yang berbeda dan menghitung jarak Euclidean menggunakan fitur tersebut. Secara khusus, saya menemukan bahwa menggunakan tf-idf, yang merupakan kependekan dari term frequency-inverse document frequency, alih-alih variabel dummy sederhana, juga menghasilkan kecocokan yang baik.

Efek dari teknik ini adalah penekanan pada kata-kata yang tidak muncul di banyak pengamatan lainnya. Misalnya, jika akan menganggap jabatan "Rekanan Layanan Pelanggan" kurang jauh dari "Perwakilan Layanan Pelanggan" daripada "Pecinta Layanan Pelanggan", meskipun keduanya berbeda hanya dalam satu kata, karena istilah "pecinta" tidak umum . Ini bisa menjadi alat yang efektif untuk mengukur kemiripan jabatan/fungsi jika istilah yang tidak biasa dalam jabatan berarti kemungkinan kurang sebanding dengan yang lain.

Untuk pendekatan ini, saya menetapkan aturan keputusan yang mengharuskan jabatan berada dalam jarak Euclidean 2 dari satu sama lain untuk dianggap cocok.

Hasil

Sekarang cocok dengan judul pekerjaan juga, dengan pendekatan kesamaan teks, kami sampai pada perkiraan yang cukup mirip seperti di Bagian 2 di mana kami hanya cocok di pasar, industri, ukuran perusahaan, info gaji, pengalaman bertahun-tahun yang dibutuhkan, dan usia posting. Ini mungkin menunjukkan bias yang dapat diabaikan, jika ada, yang timbul dari kegagalan mencocokkan fungsi pekerjaan melalui jabatan; namun, prosedur pencocokan ini juga mengarah pada estimasi yang mencerminkan sampel yang berbeda. Misalnya, sementara prosedur pencocokan dari Bagian 2 menggunakan lebih dari 9.000 observasi, yang di sini bergantung pada jumlah kecocokan yang relatif sedikit, dengan jumlah observasi masing-masing sekitar 1.500.

Estimasi dari pencocokan enam variabel pasar sebelumnya, industri, ukuran perusahaan, info pembayaran, waktu posting, dan pengalaman bertahun-tahun yang dibutuhkan, selain kesamaan jabatan.

Kami dapat memeriksa berbagai kecocokan dan menemukan pasangan yang masuk akal, seperti di bawah ini.

Perlu dicatat bahwa banyak kecocokan yang ditentukan dengan menggunakan pendekatan jarak Euclidean atau pendekatan jarak Jaccard adalah duplikat virtual pada semua dimensi yang direkam kecuali status perawatan. Ini adalah kasus untuk kecocokan ketiga yang ditunjukkan di atas (dua baris terakhir). Jenis kecocokan ini adalah produk dari salah satu perusahaan yang memang mempekerjakan untuk jenis posisi yang sama tetapi pengaturan kerja yang berbeda atau karena kesalahan di pihak mereka. Apa pun itu, ia menawarkan kecocokan yang sangat dapat diterima seperti di atas.

Aspek tambahan yang menarik terkait dengan pertanyaan penelitian saya adalah apakah perkiraan efek ini berubah dengan pasar. Secara khusus, saya akan berhipotesis bahwa peningkatan minat pelamar yang berasal dari pekerjaan jarak jauh alih-alih di tempat lebih besar di pasar yang lebih kecil daripada di pasar yang lebih besar, mengingat bahwa pasar yang lebih kecil sebaliknya lebih dibatasi oleh pelamar yang lebih kecil. kolam.

Untuk mempelajari ini, pertama, saya menggabungkan data populasi sensus dengan sampel jarak jauh/di tempat Jaccard saya, menemukan bahwa perkiraan saya menyusut sekitar 0,7% untuk setiap tambahan seratus ribu orang di pasar tertentu. Dengan kata lain, perkiraan saya menunjukkan bahwa ukuran efek di pasar seperti Phoenix, yang memiliki populasi sekitar 1,6 juta, lebih dari 7 poin persentase lebih besar daripada di pasar seperti Chicago (populasi ≈ 2,7 juta), Los Angeles (populasi ≈ 3,8 juta), atau New York (populasi ≈ 8,5 juta).

Karena saya telah menunjukkan metodologi saya dari Bagian 2 kuat dan persyaratan pencocokannya yang kurang ketat menghasilkan ukuran sampel yang lebih besar, saya dapat beralih ke pendekatan itu untuk analisis tambahan dari heterogenitas estimasi efek menurut pasar. Di bawah ini, kami melihat petunjuknya berdasarkan pasar tertentu. Saya memperkirakan bahwa efeknya mendekati yang terkecil di kota-kota terbesar di AS, New York, dan Los Angeles, dan lebih besar di beberapa pasar yang lebih kecil dalam sampel saya seperti Cincinatti, Ohio, dan Frisco, Texas. Pengecualian yang menarik tampaknya adalah Phoenix dan McLean, Virginia, tetapi dapat dihasilkan dari jenis pekerjaan di kota-kota tersebut dalam data saya.

Saya juga sampai pada perkiraan lain dari pendekatan ini. Pertama, saya menemukan bahwa efek rata-rata dari pembukaan pekerjaan untuk pekerjaan jarak jauh alih-alih pekerjaan tatap muka adalah peningkatan pelamar harian sekitar 75% (exp(.5583)-1)*100). Kedua, saya perkirakan efek untuk pekerjaan hybrid ini sekitar 7%. Selain itu, saya memperkirakan efek pada tarif pelamar dari fitur LinkedIn Easy Apply dan Promoted masing-masing sekitar 144% dan 40%.

Terakhir, karena prosedur pencocokan saya menghasilkan himpunan bagian dari data saya dengan komposisi yang berbeda dari kumpulan data saya secara keseluruhan, dan perkiraan saya berasal dari himpunan bagian ini, ada baiknya melihat susunan sampel akhir saya yang cocok. Di bawah, kita melihat bahwa sampel pencocokan jarak jauh saya sebagian besar terdiri dari lowongan pekerjaan dari industri akuntansi, pengembangan perangkat lunak, keuangan, perawatan kesehatan, dan kesehatan/kebugaran. Sementara itu, sampel pencocokan hibrida saya sebagian besar terdiri dari lowongan pekerjaan dari industri keuangan, TI, perawatan kesehatan, ritel, serta pertahanan dan luar angkasa.

Kami juga dapat melihat jenis posisi mana yang paling terwakili di setiap sampel.

Kesimpulan

Dengan menggunakan pendekatan pencocokan untuk mengontrol faktor penentu utama minat posting pekerjaan seperti jabatan, pasar, dan kualifikasi yang dibutuhkan, saya yakin saya telah menemukan bukti kuat bahwa peluang kerja yang jauh berdampak besar pada minat pelamar dan bahwa peluang kerja menjadi hybrid memiliki yang sederhana. Secara khusus, saya memperkirakan bahwa membuat lowongan kerja dari jarak jauh alih-alih di tempat akan, rata-rata, menyebabkan peningkatan jumlah pelamar sekitar 75%, sedangkan menjadikannya hibrid alih-alih di tempat akan menghasilkan peningkatan rata-rata sekitar 7 %. Selain itu, analisis saya menunjukkan bahwa efek pertama dari kedua efek tersebut bervariasi berdasarkan geografi menurut ukuran pasar, mengungkapkan bagaimana perusahaan di pasar yang lebih kecil dapat memanfaatkan lebih banyak pasokan tenaga kerja dengan tenaga kerja jarak jauh.

Meski begitu, ada beberapa keterbatasan terkait dengan pendekatan saya. Pertama, perkiraan saya sebagian besar berlaku untuk subset pengamatan yang diperlakukan yang terdapat banyak pengamatan kontrol yang sebanding - misalnya peran rekayasa perangkat lunak dalam pengembangan perangkat lunak, teknologi informasi, dan industri keuangan. Ini sangat kontras dengan peran yang membentuk porsi besar dan kecil dari sub-sampel posting pekerjaan saya di tempat dan jarak jauh. Jika kita melihat kembali ke Gambar 4 dari postingan blog pertama saya , contoh peran ini adalah manajer toko, teknisi, dan perawat.

Ketidakberpihakan estimasi saya juga bergantung pada seberapa berhasil saya mengontrol variabel yang berpotensi mengacaukan. Jika ada variabel yang tidak cocok dengan saya yang keduanya menentukan minat pelamar dan terkait dengan perlakuan — yaitu berkorelasi dengan apakah suatu pekerjaan ada di tempat, hibrid, atau jarak jauh — maka perkiraan saya bias sampai taraf tertentu. Juga, bahkan jika saya menentukan variabel pencocokan yang diperlukan, mereka masih tidak sepenuhnya dikontrol jika nampan terlalu lebar atau, dalam kasus pencocokan jabatan saya, bandwidth/caliper jarak 0,6 Jaccard terlalu besar.

Dengan semua yang dicatat, saya pikir ada alasan untuk menganggap asumsi ini terpenuhi. Saya pikir tempat sampah yang saya tentukan di Bagian 2 cukup sempit. Selain itu, yang terluas, untuk durasi yang diposting, sebagian besar untuk meminimalkan kebisingan di seluruh pertandingan; sementara saya menunjukkan bahwa variabel ini memang memprediksi pelamar per hari, tidak ada alasan harus berkorelasi dengan pengobatan. Selain itu, stabilitas perkiraan saya yang layak terlepas dari pendekatan pencocokan jabatan (yaitu tidak ada vs. Kesamaan Jaccard vs. Jarak Euclidean) juga meyakinkan.

Akibatnya, menurut saya hasil saya menunjukkan bahwa ini adalah area di mana temuan yang lebih menarik dapat dibuat. Penelitian tambahan dapat dilakukan untuk melihat bagaimana efek ini berbeda berdasarkan dimensi selain pasar, seperti jenis pekerjaan, industri, atau tingkat senioritas. Selain itu, lebih banyak analisis dapat dilakukan terkait dengan variabilitas efek perlakuan yang digerakkan oleh ukuran pasar untuk mencoba dan mengurai bagian mana dari efek ini yang didorong oleh peningkatan kandidat yang tersedia dan bagian mana yang didorong oleh preferensi yang saya kutip di awal artikel saya . posting blog pertama .