Bir İşi Uzak Hale Getirmek Çok Daha Fazla Adaya Yol Açar (Bölüm 1/3: Veri Düzenleme ve EDA)
Yerinde çalışmak yerine uzaktan çalışmaya yönelik bir iş fırsatının ilgiyi artırması pek şaşırtıcı gelmemeli. Genişletilmiş bir aday havuzunun yanı sıra tercihler de muhtemelen bu farkın çoğunu tetikliyor. Gallup'a göre , uzaktan çalışabilen çalışanların %6'sı yalnızca yerinde çalışmayı tercih ederken, %34'ü tamamen uzaktan çalışmayı tercih ediyor. (%60'ı hibrit düzenlemeyi tercih ediyor.)
Ancak bu etkinin boyutu nedir? Belirli bir pazarda, belirli bir sektörde, belirli bir rol için işe alan bir şirket, yalnızca yakınlarda yaşayanlar yerine neredeyse her yerden çalışan adaylara iş fırsatı açarsa ne bekleyebilir? LinkedIn'den iş ilanı verilerini toplayıp analiz ederek bu soruyu yanıtlamaya çalıştım.
Toplamak
Yukarıdaki konuyu ampirik olarak ele almak için LinkedIn'i faydalı bir veri kaynağı olarak belirledim. Günümüzde, sitede iş fırsatları yayınlayan çoğu şirket, işin iş düzenlemesinin yerinde mi, hibrit mi yoksa uzak mı olduğunu ve iş unvanı, pazar ve ilan edilen süre gibi diğer açıklayıcı değişkenlerin değerlerini belirtiyor. Daha da önemlisi, premium abonelere başvuru sahibi sayısıyla ilgili olarak başvuranın ilgisi hakkında bilgi sağlar.
Veri toplama sürecimi, web tarayıcısı otomasyon aracı Selenium ve bir veri işleme ve analiz modülü olan pandalar da dahil olmak üzere birkaç Python programlama kitaplığıyla kolaylaştırdım. Yukarıda belirtilen değişkenlerin değerlerinin sistematik olarak tanımlanması ve günlüğe kaydedilmesi, HTML içeriğini sorgulamak için kullanılabilen bir dil olan XPath kullanılarak gerçekleştirildi.
İlk toplama çabalarım çok geniş olsa da - tek sınırlama, ilanların Amerika Birleşik Devletleri merkezli işler için olması gerektiğiydi - erken, tedavi değişkenimde daha fazla heterojenlik gibi görünen daha büyük şirketlere odaklanmaya karar verdim (örn. yerinde, karma ve uzak işler için bir şekilde dağıtılmış ilan karışımı). Bu yaklaşım, aşağıda daha sonra göstereceğim gibi, nihai örneğimi 10.000'den fazla çalışanı olan şirketlerden gelen ilanları çok daha fazla temsil etti.
Temizlik
Toplandıktan sonra, veriler iyi miktarda işleme ve temizleme gerektiriyordu. Neyse ki, tedavi değişkenim olan uzaklık, tek bir varsayımla (bir iş düzenlemesini göstermeyen ilanlar için işlerin aslında yerinde olduğu varsayımıyla) ve ek bir işleme adımıyla çok güvenilir bir şekilde mevcuttu. Çoğu ilan için, iş düzenlemesi güvenilir bir şekilde ilan içinde, iş unvanının yanında standartlaştırılmış bir yerde verildi. Ancak, bazı ilanlar yalnızca iş düzenlemesini belirtiyordu.iş unvanının kendisinde, örneğin "Yazılım Mühendisi (uzak)." Bu nedenle veriler, bu tür bilgilerin nihai olarak tedavi vektörlerine uygun şekilde yansıtılması için işlendi. Bu değişkenin, bu ve diğer birçok işlem adımının (geri kalanı aşağıda açıklanmıştır) gerçekleştirilmesinden önceki ve sonraki verilerdeki dağılımları doğrudan aşağıda verilmiştir.
Atılan diğer işleme adımları, belirli anahtar değişkenler için değerleri olmayan gözlemlerin bırakılmasını içeriyordu. Başvuru sayımlarını günlük oranlar olarak standart hale getirmek için bu değişkene ihtiyaç duyulduğundan, süresi yayınlanan bir değerin toplanmadığı iş ilanları düşürüldü. Aynı şekilde, başvuru sayısı rakamı toplanmayan ilanlar da düştü. Buna bağlı olarak, yayınlandıktan sadece birkaç saniye sonra gerçekleşen iş ilanlarına ilişkin veriler de dikkate alınmadı.
Kopyaları filtrelemek için de çalışma yapıldı. Bazı gönderiler ya veri toplama sürecinde birden çok kez gerçekleşti ya da LinkedIn'de birden çok kez yayınlandı. Bunu ele almak için, kopyaları iş unvanı, şirket, uzaklık değeri ve konuma göre belirledim, yalnızca en uzun süre gönderilen kopyayı tuttum ve diğerlerini bıraktım.
Son olarak, iş tanımı metni gibi nispeten yapılandırılmamış verilerden değişkenleri almak için birçok başka adım atıldı. Bunlar, deneyim seviyesi (eğer varsa, Staj, Giriş seviyesi, Ortak, Orta-Kıdemli seviye, Direktör veya Yönetici olarak verilir), şirket büyüklüğü (1-10 çalışandan biri, 11-50 çalışandan biri olarak verilir) gibi daha standartlaştırılmış bilgileri içeriyordu. , 51–200 çalışan vb., 10.001'den fazla çalışana kadar), sektör ve konum. Son üçü çok sağlam olsa da, deneyim seviyesi değildi, gönderilerin yaklaşık üçte biri yukarıda listelenen LinkedIn tarafından sağlanan değerlerden birini göstermiyordu.
Belirli bir rol için gereken deneyim yılı, iş tanımı metninden türetilen bir değişkendi ve bu, nitelik düzeyimi nihai araştırma tasarımıma dahil etmenin daha iyi bir yolu olarak hizmet etti. Bu verileri çıkarmak için, en önemlileri aşağıdaki kod bölümünde gösterilen birkaç adım ve varsayım kullanılmıştır. Örneğin, yapmam gereken bir şey, iş tanımlarındaki sayıların metin temsillerini rakamlara dönüştürmekti. Ek olarak, kullandığım basitleştirici bir varsayım, şirketlerin bir rol için 17 yıldan fazla deneyime ihtiyaç duymayacaklarıydı. Verilerimde büyük olasılıkla bunun birkaç istisnası vardır, ancak bunlar muhtemelen çok nadirdir. Ayrıca bu, iş tanımı metnindeki - genellikle "18 yaşında olmalı" şeklinde verilen - yaş gerekliliklerini deneyim gereklilikleri ile karıştırmamamı sağladı. Nihayet, Ayrıca, bu deneyim gereksinimini mümkün olduğunca aşağıdaki düzenli ifade kalıplarıyla ifade etmenin birçok yolunu tespit etmeye çalıştım. Birden çok model içeren iş tanımlarına yaklaşımım (örneğin, "üç yıldan fazla ürün yönetimi deneyimi ve yazılım geliştirmede beş yıldan fazla deneyim") verilen maksimum yıl sayısını almaktı. Kodumun tamamı bağlantılıburada _
Bir iş tanımında gerekli niteliklerin verilebileceği tüm yolları açıklamamın bir yolu yok, bu nedenle çıktıya muhtemelen en iyi tahminler denir. Bununla birlikte, çeşitli iş tanımlarının sayısız kontrolünden geçti ve ayrıca LinkedIn tarafından sağlanan ancak eksik deneyim düzeyi değişkeni ile oldukça iyi bir şekilde takip ediyor. Örneğin, LinkedIn'de giriş seviyesi olarak kabul edilen rollerin ortalama olarak yaklaşık 2,5 yıllık deneyim gerektirdiğini, yönetici seviyesi veya daha üstünün ise 6 yıldan fazla deneyim gerektirdiğini görüyorum.
Ayrıca, iş ilanlarındaki tek tip bir konumdan konum bilgilerini ayrıştırdım ve standartlaştırılmış coğrafi işgücü pazarları elde edebildim. Minneapolis ve Saint Paul, Minnesota'nın bir mi yoksa iki pazar mı olarak kabul edileceği ve belirli bir şehre (örn. Los Angeles) ve genel bölgesine (örn. ). Bu iki örnek gibi durumlarda, genellikle pazarları daha az yerine daha geniş tanımlamaya karar verdim.
Son olarak, bir iş ilanı tarafından sağlanan herhangi bir maaş bilgisini yansıtan değişkenler de tasarladım. Mevcut olduğunda, saatlik veya yıllık bir aralık olarak veya vakaların küçük bir bölümünde garantili bir oran olarak sunulur (örneğin, “20$/saat”). Sonuç olarak, analizimde kullanmak üzere ücret aralığı taban, tavan ve medyan değişkenlerini ayrıştırabilirim. İlanların çoğu maaş bilgisi sağlamadı ve bu nedenle bu değişkenler için 0 değerleri verildi.
İş eğitimi gereklilikleri ve faydalardan bahsedilmesi gibi diğer bilgileri kurtarmak için çaba sarf edilirken ( tam kodumda gösterildiği gibi ), yalnızca yukarıdakileri açıklıyorum çünkü bunlar daha sonra açıklayacağım nihai araştırma tasarımıma hizmet eden değişkenlerdi.
Keşifsel Veri Analizi
Önce tedavi değerine göre özet istatistiklere bakmak kolaydır. İşe uzaklığın gerçekten de en azından günde daha fazla başvuru ile ilişkili olduğunu hızlı bir şekilde görebiliriz . Aşağıda, günlük başvuruların büyük ölçüde çarpık olduğunu da görüyoruz.
Ancak yerinde, hibrit ve uzak işler, en azından benim veri kümemde, diğer ilgili değişkenlere göre de farklılık gösteriyor. Örneğin, aşağıda farklı iş düzenlemelerine sahip iş ilanlarının da farklı maaş bilgilerine sahip olduğunu görebiliriz. Uzaktan iş ilanları, yerinde iş ilanlarından çok daha yüksek oranda maaş bilgisi içerir ve her ne sebeple olursa olsun, maaş bilgisi sunan ilanlar arasında hibrit ilanlar çok daha yüksek rakamlara sahip olma eğilimindedir.
Ayrıca, tedavi değerleri arasında ortalama tahmini gerekli deneyim yıllarında da boşluklar vardır. Özellikle, uzaktan işlerin yerinde işlerden yaklaşık bir yıl daha fazla deneyim gerektirdiğini görüyorum.
Yerinde, hibrit ve uzak iş ilanları da önemli kategorik değişkenlerde farklılık gösterir. Veri setinde en sık görülen beş şirket, şirket boyutu kategorisi, sektör ve pazarın her biri tarafından temsil edilen her tedavi grubu örneğinin ne kadarını burada bulabilirsiniz. Örneğin, uzak ilanlar PwC'deki işler için orantısız bir şekilde ve hibrit ilanlar Deloitte'daki işler için orantısız. (Bu arada, aslında, veri kümemdeki Deloitte'taki hiçbir açık pozisyon kesinlikle yerinde çalışma için değildir.)
Ayrıca, önemli bir iş arama parametresi ve iş işlevinin yansıması olan başlığa göre ilanların ne kadar farklılık gösterdiği sorusu da var. Bunu görselleştirmenin bir yolu kelime bulutlarıdır.
Üç kelime bulutunun hepsinde, bazıları - yerleştirme, renk vb. - önemsiz, ancak diğerleri daha anlamlı olan farklılıklar fark edebiliyoruz. Örneğin, yazılım mühendisliği rollerinin, yerinde ve hibrit ilanlara göre uzaktan iş ilanlarının daha büyük bir yüzdesi olduğu oldukça açıktır. Unutulmaması gereken başka bir nokta da, bahsedildiği gibi, uzaktan iş ilanlarının genellikle bu düzenlemeyi iş unvanının kendisinde tanıtmasıdır ki bu, daha sonraki analizimde ele alacağım bir konu.
Belirli unigramların ve bigramların her bir tedavi alt örneğinde ne sıklıkta göründüğünü keşfederek, tedavi durumuna göre iş unvanı farklılıklarını daha ampirik olarak gözlemleyebiliriz. Aşağıda, diğer dengesizliklerin yanı sıra, uzaktan iş ilanlarının orantısız şekilde yüksek sayıda yazılım mühendisliği rolü ve orantısız şekilde düşük sayıda teknisyen rolü için olduğunu gösteriyorum.
Bu keşifsel veri analizinin ortaya çıkardığı şey, daha önce gösterilen iş uzaklığı ile günde daha fazla başvuran arasındaki güçlü korelasyonun aslında bu diğer gizlenen farklılıklardan kaynaklanabileceğidir. Bu nedenle, nedenselliği belirlemek için araştırma tasarımımın bunu hesaba katması gerekiyordu. Bölüm 2'de buna başlıyorum .