Bir İşi Uzak Hale Getirmek Çok Daha Fazla Adaya Yol Açar (Bölüm 2/3: Coarsened Exact Matching)

May 13 2023
Son gönderimde, bir iş fırsatının uzaklığının gerçekten de başvuranların ilgisiyle çok daha fazla ilişkili olduğunu gösterdim, ancak aynı zamanda bu ilişkinin neden yanıltıcı olabileceğini veya belki de en azından bir şirketin başvuran açısından makul olarak ne bekleyebileceğinin abartılı bir göstergesi olabileceğini de gösterdim. yerinde yerine uzaktan bir iş açması yaparsa ilgi çekicidir. Farklı reklamı yapılan iş düzenlemelerine sahip iş ilanları - yerinde, hibrit veya uzak - aynı zamanda, en azından benim örneklemimde, bir iş ilanına ilgi duyan diğer etkenler açısından, ne kadar deneyim gerektirdiklerinden hangi sektörlere ihtiyaç duyduklarına kadar değişiklik gösterme eğilimindedir. sahip olma eğiliminde oldukları unvanlara sahipler.
Kaynak

Son gönderimde , bir iş fırsatının uzaklığının gerçekten de başvuranların ilgisiyle çok daha fazla ilişkili olduğunu gösterdim, ancak bu ilişkinin neden yanıltıcı olabileceğini veya belki de en azından bir şirketin başvuran açısından makul olarak ne bekleyebileceğinin abartılı bir göstergesi olabileceğini de gösterdim. yerinde yerine uzaktan bir iş açması yaparsa ilgi çekicidir. Farklı reklamı yapılan iş düzenlemelerine sahip iş ilanları - yerinde, hibrit veya uzak - aynı zamanda, en azından benim örneklemimde, bir iş ilanına ilgi duyan diğer etkenler açısından, ne kadar deneyim gerektirdiklerinden hangi sektörlere ihtiyaç duyduklarına kadar değişiklik gösterme eğilimindedir. sahip olma eğiliminde oldukları unvanlara sahipler.

Çoğu zaman, bu farklılıklar, Bölüm 1'deki EDA'mın başında yapılan basit ortalama farkının yukarı doğru önyargılı bir tahmin olduğunu gösteriyor gibi görünüyor. Örneğin sektörü ele alalım. Uzaktan iş ilanlarının yaklaşık %14'ünün yazılım geliştirmedeki roller için olduğunu, %5'ten azının ise perakendedeki roller için olduğunu gördük; bu, yerinde iş ilanlarına göre sırasıyla bu iki alanda fazla ve eksik temsili temsil ediyor. Endüstri çalışan ilgisinin belirleyicisi değilse, bunu göz ardı etmek doğru olabilir, ancak ortalama olarak muhtemelen öyledir.

Doğrusal regresyon, üzerinde çalıştığınız etkinin tarafsız bir tahminini elde etmek için bu durumda endüstri gibi ortak değişkenleri sabit tutmanın çok etkili bir yolu olsa da, benim durumumda, birçok nedenden dolayı daha uygun bir yaklaşım olarak eşleştirmeye karar verdim.

Eşleştirme Metodolojisi

Eşleştirmenin basit bir avantajı, özünde oldukça sezgisel ve açıklanması kolay olmasıdır. Endüstri, pazar, ücret vb. gibi temel değişkenler açısından aynı veya yeterince benzer, ancak muamelede farklı olan gözlemler, bir bakıma birbirlerinin karşı olguları olarak işlev görür. Bu temellerdeki eşleşmelerin karşılaştırılmasından elde edilen gözlem düzeyindeki tahminler, elbette oldukça gürültülü olacaktır, ancak doğru değişkenler kontrol edildiği sürece, büyük bir örneklem boyutuyla, tarafsız bir tedavi etkisi tahmini vermelidir.

Benim durumumda eşleştirmenin bir başka avantajı da parametrik olmamasıdır. Doğrusal regresyondan farklı olarak, ortak değişkenlerin sonuçla doğrusal olarak ilişkili olduğunu söyleyen hiçbir spesifikasyona gerek yoktu. Bu ortak değişkenleri eşleştirerek, ilgilendiğiniz etkiyi belirlemek için onları sabit tutabilirsiniz. Ayrıca, düzinelerce kukla değişken belirtmeye veya verilerimi yalnızca örneklemimde en sık görülen sektörlerle (daha önce finans ve hastaneler/sağlık hizmetleri olduğunu gördük) veya pazarlarla (New York City ve Chicago) sınırlamaya gerek yoktu; Eşleştirme, endüstri, pazar ve diğer temel değişkenlerdeki eşleşmeler için ortak değişken alanını daha fazla incelememe olanak sağladı.

Kritik adımlar, önce bu anahtar değişkenleri tanımlamayı ve aynı zamanda ortak değişken uzayındaki mesafeyi en aza indirerek veya eğilim puanı benzerliğini en üst düzeye çıkararak gerçekte nasıl eşleştirileceğine karar vermeyi içerir. Verilerden çok sayıda özellik tasarlamış olmama rağmen, ilk başlarda beş değişkenin yeterli olabileceğine karar verdim: pazar, endüstri, şirket büyüklüğü, maaş bilgisi ve gerekli deneyim yılı. Ayrıca, bu ortamda modelleme eğilimi puanlarının (yani her işin uzak veya karma olma olasılığı) çok zor olabileceğini düşünerek mesafe eşleştirme üzerinde karar kıldım. Özellikle, kaba bir tam eşleştirme çerçevesi kullandım.

Kategorik değişkenlerim olan pazar, endüstri ve LinkedIn örneğinde şirket büyüklüğü (örn. 10.001'den fazla çalışan, 501–10.000 çalışan, vb.) için bu yaklaşım ve gerekçe oldukça basittir. Farklı tedavi durumlarının ilanları, yalnızca aynı pazar ve sektöre dayalıysa ve aynı büyüklükteki kategorideki şirketlerden geliyorsa bir eşleşmedir. Pazar, iş açma ilgisinde (en azından yerinde ve hibrit işler için) önemli bir coğrafi belirleyici/kısıtlayıcıdır. Bu arada, endüstri ve şirket büyüklüğü, adayın ilgisini tercihler ve beceriler temelinde belirler. Bu kategorilerdeki gözlemleri eşleştirerek, tahminlerimizi etkileyen bunlardan kaynaklanan herhangi bir sapma olmadığından emin olabiliriz.

Sürekli değişkenler söz konusu olduğunda - maaş bilgisi ve gerekli deneyim yılı, benim durumumda - meseleler biraz daha karmaşık ve daha az kesin. Varsa, tam olarak aynı maaş bilgisine ve/veya tam olarak aynı gerekli yıl deneyimine sahip çok az sayıda gözlem olacaktır. Ancak, gerekli deneyim yılı ile örneğin, 5 yıllık deneyim gerektiren bir iş, 6 yıllık deneyim gerektiren bir iş ile çok mu farklı? Muhtemelen değil. Bu nedenle, bu değişkenleri eşleştirmek için, bunlar birden çok bölmeden birine ait olarak kategorize edilebilir.

Kutu boyutuna karar vermek, bir önyargıya karşı varyans meselesidir. Kutular çok küçükse, yani gözlemlerin bu sürekli değişkenler üzerinde çok benzer olmasını istediğiniz anlamına geliyorsa, bulunan eşleşmeler az olacak ve bu da yüksek varyansa yol açacaktır. Bununla birlikte, bölmeler çok büyükse, yani bu değişkenler üzerinde oldukça farklı olan gözlemler eşleştirilirse, bu değişkenler için başarılı bir şekilde kontrol etmediğiniz için bu, yanlı bir tahmine yol açar.

Sonunda, maaş bilgileri için, 0 ila 250.000 ABD Doları arasında 10.000 ABD Doları genişliğinde kutular oluşturarak, maaş bilgisi olmayanlar için 0 ABD Doları atayarak - ki bu, 1. Bölümden hatırlarsınız, örneğimin çoğunluğunu oluşturuyordu - ve bir kutu En yüksek medyanlara sahip ilanlar için 250.000 $+. Bunun, çılgınca farklı maaş rakamlarına sahip hiçbir gözlemin eşleştirilmemesini sağlayacağını düşündüm, ancak bazıları mütevazı derecede farklı araçlara (ve belki de çok farklı taban ve tavanlara) sahip olabilir. Gerekli yılların deneyimi için, [0, 3], (3, 6], (6, 9] ve 10+ kutularını oluşturdum, bunun yönetici düzeyinde ve giriş düzeyinde pozisyon ilanları olmamasını sağlayacağını umuyordum. örneğin, uyumlu olmak.

Bu beş değişken üzerinde eşleştirme, tarafsız bir tedavi etkisi tahmini elde etmede kaçınılmaz olarak uzun bir yol kat ederken, daha fazla adım atılması gerekiyordu. Biri sonuç değişkenimle ilgiliydi, günlük uygulamalar.

Günlük Uygulamalar

İş ilanları, ilk yayınlandıkları andan itibaren çeşitli zamanlarda gözlemlendiğinden, başvuru oranlarının standartlaştırılması önemliydi. Başlangıçta, diğer her şey eşitse, bunun tek başına günlere ve hatta haftalara göre ayrılmış gönderileri karşılaştırılabilir hale getireceğini düşündüm. Ancak, sonunda bir iş ilanına başvuranların günlük sayısı ile ne kadar süredir devam ettiği arasında net bir ilişki buldum. Spesifik olarak, daha yeni iş fırsatları (örneğin, gözlemlenmeden 6 saat önce yayınlananlar), eski iş fırsatlarına (örneğin, gözlemden 2 hafta önce yayınlananlar) göre 24 saatte önemli ölçüde daha fazla sayıda başvuru almış olma eğilimindedir. Bu muhtemelen üç nedenin birleşiminden kaynaklanmaktadır: LinkedIn'in daha yeni ilanları destekleyen tavsiye sistemi, bir ilana orantısız miktarda ilgi çok erken gerçekleşir,

Nedeni ne olursa olsun, son analizimde bunu açıklamak önemli olacaktır. Aksi takdirde, çok fazla gürültü nihai eşleşmelere girerek kesin bir tedavi etkisi tahmini elde etmeyi çok daha zorlaştırır. Yukarıdaki grafiği gözlemleyerek, bir gönderinin 1 günden eski olup olmadığını da eşleştirmeye karar verdim, böylece bazı uygun olmayan eşleşmelerden kaçındım.

Eşleştirme: Bölüm 1

Pazar, endüstri, şirket büyüklüğü, gerekli deneyim yılı, maaş bilgisi ve ilan yaşı gibi altı değişkendeki eşleşmeleri belirlemek için ortak değişken uzayında tedavi varyansı olan alanları belirledim. Bu, iki adımda gerçekleştirildi: ilk önce bu altı değişken artı tedavi ile gruplandırarak ve ikinci olarak, yalnızca bu altı değişken temelinde yinelenen alanlara filtre uygulayarak. Aşağıda, birinci adımı yürütmek için kullandığım kodun yanı sıra çıktısının bir örneğini bulabilirsiniz.

Kod Parçacığı 1: Ortak değişken uzaylarını tanımlama

İkinci adım, yukarıdaki tablodaki değerler söz konusu olduğunda, yalnızca koyu işaretli ortak değişken alanındaki iş ilanlarının tutulmasını sağlar çünkü tedavi varyansı yoktur ve dolayısıyla diğer alt alanlarda olası eşleşmeler yoktur.

Kod Parçacığı 2: Tedavi varyansı ile ortak değişken uzaylarını belirleme

Şimdi, işlem değeri varyansına sahip bu alt alanlara odaklandım, ardından her bir uzak işi aynı alt uzayda bir kontrol işi ilanı olarak atayarak her birini yineledim. Bu eşleştirme atamasının, Bölüm 3'te gösterilecek olan son eşleştirme sürecimin aksine, değiştirmeden yapıldığını belirtmekte fayda var. Aşağıda bu yinelemeli süreç için kodu gösteriyorum.

Kod Parçacığı 3: Erken eşleştirme girişimi

Yukarıdaki süreçten elde edilen eşleştirilmiş bir örnekle, bir iş ilanının iş yeri yerine uzakta olmasının ve LinkedIn'de "Tanıtılan" bir iş ilanının veya "Kolay Uygula” özelliği.

Altı değişken üzerinde eşleştirmeden elde edilen ön tahminler: pazar, sektör, şirket büyüklüğü, maaş bilgisi, gönderi süresi ve gerekli deneyim yılı.

Bu çıktı, daha önce verilen hipotezlerle tutarlıdır. İlk olarak, bir iş fırsatının yerinde değil de uzakta olmasının, başvuru sahibinin ilgisinde önemli bir artışa yol açtığını gerçekten bulduk. Spesifik olarak, günlük başvuranlarda yaklaşık %59'luk bir artış tahmin ediyoruz. (Log düzeyinde belirtim katsayısının 100 ile çarpılmasının logaritmik yaklaşımı %46,5'lik bir artışı gösterirken, bu büyüklükteki etki büyüklüklerinde bu yaklaşım başarısız olur. Bunun yerine 100 ile çarpmadan önce üstel katsayıdan 1 çıkarmak gerekir.) İkincisi, büyük olmakla birlikte, bu artış , Bölüm 1'deki EDA bölümünün başlangıcında verilen araçlardaki basit bir farkın ima ettiği kabaca %300'lük artıştan çok daha küçüktür.. Son olarak, LinkedIn'in promosyonları ve Kolay Başvuru özelliği odak noktamın bir parçası olmasa da, her birinin başvuru sahibinin ilgisinde ne kadar artış sağladığının gözlemlenmesi ilginçtir. İlki için günlük başvuranlarda yaklaşık %25'lik bir artış tahmin ediyorum ve ikincisi için kabaca %160'lık bir artış tahmin ediyorum.

Yine de, maçların kendilerinin kalitesi hakkında bir soru var. Örneğin bunu al.

Tasarlandığı gibi, şirket bilgileri ve pazarın yanı sıra kayıt yaşı, gerekli yıllar ve ödeme bilgi kutularında örtüşme var. Ancak bunun dışında, iş tanımlarından alınan örneklerle kanıtlandığı gibi, iki iş fırsatı işlev açısından oldukça farklıdır. Üst rol için yeni işe alınan kişi, diğer görevlerin yanı sıra "bir çözüm veya iş alanı için bir teknoloji vizyonu ve stratejisi oluşturmak" iken, alt rol için olan kişi "Oracle'ın herhangi bir modülünün uygulanmasından ve/veya üretim desteğinden sorumludur". ERP uygulamaları.”

Uzak ve yerinde işler arasında iş işlevlerinde, bir iş fırsatına olan ilgiyi de açıklayan sistemik bir fark varsa, bu, tahminlerimizde yanlılığa neden olur ve bu nedenle hesaba katılmalıdır. Bu diğer maçı başka bir örnek olarak alın.

Bu iki iş, işlevsel olarak oldukça farklıdır ve - hem yıllarımdaki deneyim sütununun kusurunu gösterir, hem de şirketlerin bunu iş tanımlarında her zaman temel bir nitelik olarak ifade etmediğini gösterir - gerekli nitelikler açısından, yine de eşleşirler. Ek olarak, iki pozisyon türü arasındaki günlük başvuru sayısı farkı da buradadır.

Bu tür uyumsuzluklar çok yaygınsa, bu benim tahminlerimi yukarı doğru yönlendirir. Bir sonraki gönderimde bu tür eşleştirme önyargısını ele almaya çalışacağım - çok yapılandırılmamış iş tanımı metniyle değil, bunun yerine iş unvanıyla.