Bir İşi Uzak Hale Getirmek, Çok Daha Fazla Adaya Yol Açar (Bölüm 3/3: Metin Analizi/İş Unvanına Göre Eşleştirme)

May 13 2023
2. Kısım'da, bir iş fırsatının yüz yüze çalışmak yerine uzaktan çalışma için olmasının ona olan ilgiyi nasıl etkilediğini soran araştırma soruma yanıt verme girişiminde kaba tam eşlemeyi kullanmaya başladım. Kullandığım eşleştirme değişkenleri - konum, sektör, şirket büyüklüğü, maaş bilgisi, gerekli deneyim yılı ve ilan yaşı - Bölüm 1'de yapılan basit keşifsel veri analizinin gösterdiği yukarı yönlü önyargı türünü ortadan kaldırmada uzun bir yol kat etmiş görünüyor. .
Kaynak

2. Bölümde , bir iş fırsatının yüz yüze çalışmak yerine uzaktan çalışmak için olmasının ona olan ilgiyi nasıl etkilediğini soran araştırma soruma yanıt vermek amacıyla kaba tam eşlemeyi kullanmaya başladım. Kullandığım eşleştirme değişkenleri - konum, sektör, şirket büyüklüğü, maaş bilgisi, gerekli deneyim yılı ve ilan yaşı - Bölüm 1'de yapılan basit keşifsel veri analizinin gösterdiği yukarı yönlü önyargı türünü ortadan kaldırmada uzun bir yol kat etmiş görünüyor. . Bununla birlikte, bu altı değişkendeki eşleşmelerde bile, iş işlevine ilişkin bir önyargı olabilir. Örneğimdeki uzak işler, uzaklıkları yerine işlerinin doğası gereği daha fazla ilgi görebilir.

Bir işin bu kısmının, çoğu insanın iş arayışında önemli bir arama parametresi olan iş unvanında oldukça önemli bir şekilde temsil edildiğini iddia ediyorum. Ve 2. Bölümün sonunda her maçın her iki tarafında hangi iş unvanlarının yer alma eğiliminde olduğuna bakarsak , saha içi işlerin, çalışma düzeninden ziyade işlevsellikleri nedeniyle daha az ilgi görenler tarafından daha fazla temsil edilebileceğini görürüz. .

Bu nedenle, tanımlama stratejimin son kısmı, iş unvanına göre eşleştirmeyi de gerektiriyordu. Bunu yapmak için benzer şekilde etkili iki yol buldum, her ikisi de iş başlığı metninden türetilen özelliklere göre mesafe eşleştirmeye dayanıyordu - özellikle, belirli bir iş ilanı başlığının içinde belirli bir anahtar kelime olup olmadığını gösteren sütunlar. İlki, bu özelliklerin her birinin basit kukla değişkenler (sütun anahtar sözcüğü mevcutsa 1, değilse 0) ve Jaccard mesafesi olarak bilinen yararlı bir benzerlik tanımı olmasını içeriyordu. İkincisi, yalnızca çeşitli anahtar kelimelerin varlığını değil, aynı zamanda tahmin edilen önemlerine karşılık gelen ağırlıkları da yansıtan özellikleri içeriyordu; bu durumda benzerlik, Öklid mesafesi kullanılarak tanımlanıyor.

Her iki yaklaşımın da iş unvanlarının önceden temizlenmesini gerektirdiğini unutmayın. 1. Bölümde gösterildiği gibi , birçok uzak iş, uzaklıklarını iş unvanının kendisinde duyurur, bu nedenle benzerliği daha etkili ve doğru bir şekilde ölçmek için, "Uzak", "Ev" ve "Hibrit" gibi kelimeler bu bölümün öncesinde iş unvanlarından çıkarılmıştır. analizin. Aksi takdirde, farklı iş düzenlemelerine sahip benzer işler, iş unvanlarında ilan edilen aynı iş düzenine sahip olmayacağından, bu nedenle gerçekte olduğundan daha farklı görünmelerine neden olacağından, eşleşmeler elde etmek daha zor olacaktır.

Jaccard Mesafe Yaklaşımı

Belirtildiği gibi, ilk yaklaşımım, hangi iş unvanlarının hangi anahtar kelimeleri içerdiğini gösteren basit bir matris kullanarak iş unvanı benzerliğini belirlemekti.

Bölüm 2'de gösterilen yinelemeli eşleştirme süreci gibi , ilk altı değişkenimde potansiyel eşleşmeler tutan çeşitli ortak değişken uzayları arasında geçiş yaptım, ancak bu durumda ayrıca bu alanların her biri için bir metin özellik matrisi oluşturdum ve ele alınan her gözlemi buldum. bu metin özellik uzayında Jaccard mesafesine göre en yakın komşu (veri kümemin iş unvanlarındaki tüm unigramlarla tanımlanır). Jaccard Benzerliği olarak da bilinen bu, iki sözcük kümesinin kesişme boyutunun bu kümelerin birleşiminin boyutuna bölünmesiyle verilir. Örneğin, A seti "The Kings playoff yaptı" tarafından verildiyse ve B seti "The Kings sezon sonrasını üç seri başı yaptı" tarafından verildiyse, Jaccard benzerlikleri 4/11 olarak ortaya çıkıyor.

Ayrıca, tedavi edilen her birimin en yakın komşusunun bu temelde belirlendiği zaman için bir karar kuralı da uyguladım. Jaccard Benzerlikleri 0,4'ten büyükse, bir eşleşme oluşturuyorlardı. Değilse, o zaman bu işlenmiş gözlemin karşılaştırılabilir-yeterince kontrol gözlemi yoktu ve göz ardı edildi. Bu eşik seçimi, yanlılık-varyans takasının başka bir örneğidir. Bir bant genişliğinin çok gevşek olması daha kötü eşleşmelere ve daha fazla önyargıya yol açarken, birinin çok katı olması daha iyi ancak daha az eşleşmeye ve daha fazla varyansa yol açar.

Son olarak, Bölüm 2'de bahsedildiği gibi , bu prosedürde, değiştirme ile kontrol maçları seçildi . Bu, daha fazla varyansa neden olabilir, çünkü aynı kontrol gözlemleri birden fazla eşleşmede kullanıldığında etkili bir şekilde daha küçük bir örneklem boyutuna yol açar, ancak olası en iyi eşleşme, işlenmiş başka bir üniteyle kullanılıp kullanılmadığına bakılmaksızın seçildiğinden yanlılığı azaltır.

Aşağıda bu komşu bulma sürecini içeren kodumdan bir alıntı yapıyorum. 0,6'lık karar parametresine, 0,4'lük bir Jaccard Benzerliğine karşılık gelen bir Jaccard mesafesi (1 eksi Jaccard Benzerliği) değerine dikkat edin. Kodun tamamı burada bulunabilir . Sonra, her biri için sonuçları gözden geçirmeden önce diğer metin analizi yaklaşımımı tartışıyorum.

Kod Parçacığı 1: Jaccard mesafesi < 0,6 ise iş unvanıyla eşleştirme

Öklid Mesafesi Yaklaşımı

İkinci yaklaşımım, farklı metin özellikleri türetmeyi ve bu özellikleri kullanarak Öklid mesafesini hesaplamayı içeriyordu. Özellikle, basit kukla değişkenler yerine frekans ters belge frekansının kısaltması olan tf-idf kullanmanın da iyi eşleşmeler sağladığını buldum.

Bu tekniğin etkisi, diğer pek çok gözlemde görülmeyen kelimelerin vurgulanmasıdır. Örneğin, “Müşteri Hizmetleri Sorumlusu” iş unvanını “Müşteri Hizmetleri Temsilcisi”ne “Müşteri Hizmetleri Meraklısı”ndan daha az uzaklıkta olarak kabul edersek, “meraklı” terimi yaygın olmadığı için her ikisi de tek bir kelimede farklı olsa da . Bu, bir iş unvanındaki olağan dışı terimler onun diğerleriyle daha az karşılaştırılabilir olduğu anlamına geliyorsa, iş unvanı/işlev benzerliğini ölçmek için etkili bir araç olabilir.

Bu yaklaşım için, iş unvanlarının bir eşleşme olarak kabul edilmesi için birbirinden 2 Öklid mesafesi içinde olmasını gerektiren bir karar kuralı belirledim.

Sonuçlar

Şimdi, her iki metin benzerliği yaklaşımıyla da iş unvanını eşleştirerek, yalnızca pazar, sektör, şirket büyüklüğü, maaş bilgisi, gerekli deneyim yılı ve ilan yaşı konusunda eşleştirme yaptığımız Bölüm 2'dekine oldukça benzer tahminlere ulaşıyoruz . Bu, eğer varsa, en fazla ihmal edilebilir bir önyargıya işaret edebilir; ancak, bu eşleştirme prosedürleri aynı zamanda farklı örnekleri yansıtan tahminlere de yol açar. Örneğin, Bölüm 2'deki eşleştirme prosedüründe 9.000'den fazla gözlem kullanılırken, buradakiler, her biri yaklaşık 1.500 gözlem sayısına sahip, nispeten seçilmiş birkaç eşleşmeye dayanmaktadır.

İş unvanı benzerliğine ek olarak pazar, endüstri, şirket büyüklüğü, ödeme bilgisi, gönderi süresi ve gerekli deneyim yılı gibi önceki altı değişkenin eşleşmesinden elde edilen tahminler.

Çeşitli eşleşmeleri inceleyebilir ve aşağıdaki gibi makul eşleşmeler bulabiliriz.

Öklid mesafe yaklaşımı veya Jaccard mesafe yaklaşımı kullanılarak belirlenen eşleşmelerin çoğunun, tedavi durumu dışında kaydedilen tüm boyutlarda sanal kopyalar olduğunu belirtmekte fayda var. Bu, yukarıda gösterilen üçüncü maç için geçerlidir (son iki sıra). Bu tür eşleşmeler, aslında aynı pozisyon türü ancak farklı bir çalışma düzeni için çalışan şirketlerin veya kendi açılarından yanlışlıkla işe alınan şirketlerin ürünüdür. Her iki durumda da, yukarıdaki gibi çok kabul edilebilir eşleşmeler sunar.

Araştırma sorumla ilgili ek bir ilgi yönü, bu etki tahmininin pazarla değişip değişmediğidir. Özellikle, daha küçük bir pazarın daha küçük bir başvuru sahibi tarafından daha fazla kısıtlandığı göz önüne alındığında, bir işin yerinde değil de uzakta olmasından kaynaklanan başvuran ilgisindeki artışın daha küçük bir pazarda daha büyük bir pazarda olduğundan daha büyük olduğunu varsayıyorum. havuz.

Bunu incelemek için önce, Jaccard uzaktan/yerinde örneğimle nüfus sayımı verilerini birleştirdim ve tahminimin belirli bir pazardaki her ek yüz bin kişi için yaklaşık %0,7 oranında azaldığını buldum. Başka bir deyişle, tahminlerim Phoenix gibi yaklaşık 1,6 milyon nüfusa sahip bir pazardaki etki büyüklüğünün Chicago (nüfus ≈ 2,7 milyon), Los Angeles gibi pazarlara göre yüzde 7 daha fazla olduğunu gösteriyor. (nüfus ≈ 3,8 milyon) veya New York (nüfus ≈ 8,5 milyon).

2. Bölümdeki metodolojimin sağlam olduğunu ve daha az katı olan eşleştirme gerekliliklerinin daha büyük bir örneklem boyutuna yol açtığını gösterdiğim için , pazara göre etki tahmini heterojenliğinin ek analizi için bu yaklaşıma dönebilirim. Aşağıda, belirli pazarlara göre ipuçlarını görüyoruz. ABD, New York ve Los Angeles'taki en büyük şehirlerde etkinin en küçüğüne yakın olduğunu ve örneklemimdeki Cincinatti, Ohio ve Frisco, Texas gibi bazı küçük pazarlarda daha büyük olduğunu tahmin ediyorum. İlginç istisnalar Phoenix ve McLean, Virginia gibi görünüyor, ancak verilerimdeki bu şehirlerdeki iş türlerinden kaynaklanabilir.

Bu yaklaşımdan başka tahminlere de varıyorum. İlk olarak, yüz yüze çalışma yerine uzaktan çalışma için bir iş açılışının ortalama etkisinin, günlük başvuranlarda yaklaşık %75'lik bir artış olduğunu buldum (denp(.5583)-1)*100). İkincisi, hibrit çalışma için bu etkinin yaklaşık %7 olduğunu tahmin ediyorum. Ek olarak, LinkedIn'in Kolay Başvuru ve Tanıtılan özelliklerinin başvuru oranları üzerindeki etkilerinin sırasıyla kabaca %144 ve %40 olduğunu tahmin ediyorum.

Son olarak, eşleştirme prosedürüm, verilerimin bir bütün olarak veri setimden farklı bileşimlere sahip alt kümeleriyle sonuçlandığından ve tahminlerim bu alt kümelerden yapıldığından, son eşleşen örneklerimin makyajlarına bakmaya değer. Aşağıda, uzaktan eşleştirme örneğimin çoğunlukla muhasebe, yazılım geliştirme, finans, sağlık ve sağlıklı yaşam/fitness sektörlerindeki iş ilanlarından oluştuğunu görüyoruz. Bu arada, hibrit eşleştirilmiş örneğim çoğunlukla finans, bilişim, sağlık, perakende ve savunma ve uzay sektörlerindeki iş ilanlarından oluşuyor.

Ayrıca, her örnekte hangi konum türlerinin ağırlıklı olarak temsil edildiğini de görebiliriz.

Çözüm

İş ilanıyla ilgili ilginin iş unvanı, pazar ve gerekli nitelikler gibi temel belirleyicilerini kontrol etmek için bir eşleştirme yaklaşımı kullanarak, bir iş fırsatının uzak olmasının başvuru sahibinin ilgisi üzerinde önemli bir etkiye sahip olduğuna ve bir iş fırsatının melezin mütevazı bir tane var. Spesifik olarak, bir iş açılışını yerinde yapmak yerine uzaktan yapmanın, ortalama olarak başvuran sayısında yaklaşık %75'lik bir artışa yol açacağını, oysa bunu yerinde yerine hibrit hale getirmenin ortalama yaklaşık 7'lik bir artışa yol açacağını tahmin ediyorum. %. Ayrıca, analizim, bu iki etkiden ilkinin pazar büyüklüğüne göre coğrafyaya göre değiştiğini gösteriyor ve bu da daha küçük pazarlardaki şirketlerin uzak bir iş gücüyle işgücü arzından nasıl çok daha fazla yararlanabildiğini ortaya koyuyor.

Buna rağmen, yaklaşımımla ilgili bazı sınırlamalar var. İlk olarak, tahminlerim çoğunlukla, pek çok karşılaştırılabilir kontrol gözleminin olduğu işlenmiş gözlemlerin alt kümesi için geçerlidir - örneğin yazılım geliştirme, bilgi teknolojisi ve finans endüstrilerindeki yazılım mühendisliği rolleri. Bu, sırasıyla yerinde ve uzaktan iş ilanı alt örneklerimin büyük ve küçük kısımlarını oluşturan rollerle doğrudan zıtlık içindedir. İlk blog yazımdan Şekil 4'e kadar geri gidersek , bu rollere örnek olarak mağaza yöneticileri, teknisyenler ve hemşireler verilebilir.

Tahminlerimin yansızlığı, potansiyel olarak kafa karıştırıcı değişkenleri ne kadar başarılı bir şekilde kontrol ettiğime de bağlıdır. Hem başvuru sahibinin ilgisini belirleyen hem de tedaviyle ilgili - yani bir işin yerinde mi, hibrit mi yoksa uzak mı olduğuyla ilişkili olan - üzerinde eşleştirmediğim değişkenler varsa, o zaman tahminlerim bir dereceye kadar yanlı olur. Ayrıca, gerekli eşleştirme değişkenlerini belirtmiş olsam bile, bölmelerin çok geniş olup olmadığı veya iş-unvan eşleştirmem durumunda, 0,6 Jaccard mesafesinin bant genişliği/pergeli çok büyük olup olmadığı konusunda tam olarak kontrol edilmiyorlar.

Tüm bunlarla birlikte, bu varsayımların karşılandığını düşünmek için nedenler olduğunu düşünüyorum. Bölüm 2'de belirttiğim çöp kutularının oldukça dar olduğunu düşünüyorum. Ayrıca, yayınlanma süresi boyunca en geniş olanı, çoğunlukla maçlar boyunca gürültüyü en aza indirmek içindir; Bu değişkenin gerçekten de günlük başvuru sayısını tahmin ettiğini göstermiş olmama rağmen, bunun tedavi ile ilişkilendirilmesi için hiçbir neden yoktur. Ayrıca, iş-unvan eşleştirme yaklaşımına bakılmaksızın tahminlerimin makul istikrarı da (yani hiçbiri, Jaccard Benzerliği ve Öklid mesafesi) güven verici.

Sonuç olarak, sonuçlarımın buranın daha ilginç bulguların yapılabileceği bir alan olduğunu gösterdiğini düşünüyorum. Bu etkinin iş türü, sektör veya kıdem düzeyi gibi pazar dışındaki boyutlara göre nasıl farklılık gösterdiğini görmek için ek araştırmalar yapılabilir. Ek olarak, bu etkilerin hangi kısmının mevcut adaylardaki artıştan, hangi kısmının ise yazımın başında bahsettiğim tercihlerden kaynaklandığını çözümlemeye çalışmak için pazar büyüklüğüne dayalı tedavi etkisi değişkenliği ile ilgili daha fazla analiz yapılabilir. ilk blog gönderisi .