Fare un lavoro a distanza porta a molti più candidati (Parte 1 di 3: Data Wrangling e EDA)
Non dovrebbe sorprendere il fatto che un'opportunità di lavoro per il lavoro a distanza anziché per il lavoro in loco porti a un maggiore interesse per essa. Insieme a un pool di candidati allargato, anche le preferenze probabilmente determinano gran parte di questa differenza. Secondo Gallup , il 6% dei dipendenti con capacità remota preferisce lavorare esclusivamente in loco, ma il 34% preferisce lavorare completamente da remoto. (Il 60% preferisce una disposizione ibrida.)
Ma qual è la dimensione di questo effetto? Cosa può aspettarsi un'azienda in un determinato mercato, in un determinato settore, che assume per un ruolo specifico, se apre un'opportunità di lavoro a candidati che lavorano praticamente da qualsiasi luogo invece che solo a quelli che vivono nelle vicinanze? Ho cercato di rispondere a questa domanda raccogliendo e analizzando i dati sulle offerte di lavoro da LinkedIn.
Collezione
Per affrontare empiricamente l'argomento di cui sopra, ho identificato LinkedIn come un'utile fonte di dati. Al giorno d'oggi, la maggior parte delle aziende che pubblica opportunità di lavoro sul sito specifica se l'accordo di lavoro del lavoro è in loco, ibrido o remoto, nonché i valori per altre variabili esplicative come il titolo del lavoro, il mercato e la durata dell'annuncio. Fondamentalmente, fornisce anche agli abbonati premium informazioni sull'interesse del richiedente sotto forma di una cifra di conteggio del richiedente.
Ho semplificato il mio processo di raccolta dati con alcune librerie di programmazione Python, incluso lo strumento di automazione del browser Web Selenium e panda, un modulo di manipolazione e analisi dei dati. L'identificazione sistematica e la registrazione dei valori delle suddette variabili è avvenuta tramite l'uso di XPath, un linguaggio che può essere utilizzato per interrogare il contenuto HTML.
Mentre i miei sforzi di raccolta iniziali erano molto ampi - l'unica limitazione era che i distacchi dovevano essere per lavori con sede negli Stati Uniti - all'inizio, ho deciso di concentrarmi su aziende più grandi, dove sembrava esserci più eterogeneità nella mia variabile di trattamento (es. un mix piuttosto distribuito di incarichi per lavori in loco, ibridi e remoti). Questo approccio ha reso il mio campione finale molto più rappresentativo dei distacchi da aziende con più di 10.000 dipendenti, come mostrerò più avanti.
Pulizia
Una volta raccolti, i dati hanno richiesto una buona quantità di elaborazione e pulizia. Fortunatamente, tuttavia, la mia variabile di trattamento, la lontananza, era disponibile in modo molto affidabile con un presupposto - che i lavori per i distacchi che non indicavano un accordo lavorativo fossero in realtà sul posto - e un'ulteriore fase di elaborazione. Per la maggior parte dei distacchi, l'organizzazione del lavoro è stata data in modo affidabile in una posizione standardizzata all'interno del distacco, vicino al titolo di lavoro. Tuttavia, alcuni annunci indicavano solo accordi di lavoronel titolo del lavoro stesso, ad esempio "Ingegnere del software (remoto)". Pertanto, i dati sono stati elaborati in modo che questo tipo di informazioni si riflettesse in modo appropriato nei vettori di trattamento. Le distribuzioni di questa variabile nei dati prima e dopo queste e molte altre fasi di elaborazione (il resto delle quali è descritto di seguito) sono fornite direttamente di seguito.
Altre fasi di elaborazione intraprese hanno comportato l'eliminazione di osservazioni prive di valori per determinate variabili chiave. Le offerte di lavoro per le quali non è stato raccolto un valore di durata pubblicato sono state eliminate, poiché questa variabile era necessaria per standardizzare i conteggi delle domande come tariffe giornaliere. Allo stesso modo, anche i messaggi per i quali non è stata raccolta una cifra relativa al conteggio dei candidati sono stati eliminati. Allo stesso modo, anche i dati sugli annunci di lavoro avvenuti pochi secondi dopo la loro pubblicazione sono stati ignorati.
Si è lavorato anche per filtrare i duplicati. Alcuni post sono stati pubblicati più volte durante il processo di raccolta dei dati o sono stati pubblicati più volte su LinkedIn. Per risolvere questo problema, ho identificato i duplicati sulla base del titolo di lavoro, dell'azienda, del valore di lontananza e della posizione, mantenendo solo il duplicato che era stato pubblicato più a lungo e eliminando tutti gli altri.
Infine, sono stati presi molti altri passaggi per recuperare variabili da dati relativamente non strutturati come il testo della descrizione del lavoro. Questi includevano informazioni più standardizzate come il livello di esperienza (indicato, se del caso, come Stage, Entry level, Associate, Mid-Senior level, Director o Executive), dimensioni dell'azienda (indicate come uno di 1-10 dipendenti, 11-50 dipendenti , 51-200 dipendenti, ecc., fino a oltre 10.001 dipendenti), settore e sede. Mentre questi ultimi tre erano molto intatti, il livello di esperienza non lo era, con circa un terzo dei post che non indicava uno dei valori forniti da LinkedIn sopra elencati.
Gli anni di esperienza richiesti per un determinato ruolo erano una variabile derivata dal testo della descrizione del lavoro che ha finito per servire come un modo migliore per incorporare il livello di qualifica nel mio progetto di ricerca finale. Per estrarre questi dati, sono stati utilizzati diversi passaggi e ipotesi, i più importanti dei quali sono illustrati nella parte di codice sottostante. Ad esempio, una cosa che dovevo fare era trasformare in cifre le rappresentazioni testuali dei numeri nelle descrizioni delle mansioni. Inoltre, un presupposto semplificativo che ho usato era che le aziende non richiedessero più di 17 anni di esperienza per un ruolo. Molto probabilmente ci sono alcune eccezioni a questo nei miei dati, ma probabilmente sono molto rare. Inoltre, questo mi ha permesso di evitare di confondere i requisiti di età nel testo della descrizione del lavoro - spesso indicato come "deve avere 18 anni" - per i requisiti di esperienza. Finalmente, Mi sono anche sforzato di rilevare quanti più modi possibili per esprimere questo requisito di esperienza con i seguenti modelli di espressione regolare. Il mio approccio con le descrizioni delle mansioni contenenti più modelli (ad esempio "più di tre anni di esperienza nella gestione del prodotto insieme a più di cinque anni nello sviluppo di software") è stato quello di prendere il numero massimo di anni indicato. Il mio codice nella sua interezza è collegatoqui .
Non è possibile spiegare in alcun modo tutti i modi in cui le qualifiche richieste possono essere fornite in una descrizione del lavoro, quindi l'output è probabilmente meglio indicato come stime. Tuttavia, ha superato numerosi controlli di varie descrizioni dei lavori e tiene traccia anche abbastanza bene con la variabile del livello di esperienza fornita da LinkedIn ma incompleta. Ad esempio, trovo che i ruoli ritenuti entry-level su LinkedIn richiedano in media circa 2,5 anni di esperienza, mentre quelli a livello di direttore o superiore tendono a richiedere più di 6 anni di esperienza.
Ho anche analizzato le informazioni sulla posizione da una posizione uniforme all'interno delle offerte di lavoro e sono stato in grado di ricavare mercati del lavoro geografici standardizzati. Alcuni casi richiedevano un trattamento speciale e chiamate di giudizio, come se considerare Minneapolis e Saint Paul, Minnesota come uno o due mercati e se standardizzare i riferimenti a una città specifica (ad es. Los Angeles) e i riferimenti alla sua area generale (ad es. Area metropolitana di Los Angeles ). In casi come questi due esempi, in genere ho deciso di definire i mercati in modo più ampio piuttosto che meno.
Infine, ho anche progettato variabili che riflettono qualsiasi informazione sullo stipendio fornita da un annuncio di lavoro. Quando presente, viene fornito come fascia oraria o annuale, o in una piccola frazione di casi come tariffa garantita (es. “$20/ora”). Di conseguenza, ho potuto analizzare le variabili base, massimale e mediana dell'intervallo di retribuzione da utilizzare nella mia analisi. La maggior parte delle registrazioni non forniva informazioni sullo stipendio e pertanto a queste variabili venivano assegnati valori pari a 0.
Sebbene siano stati compiuti sforzi per recuperare altre informazioni come i requisiti di formazione professionale e le menzioni dei benefici (come mostrato nel mio codice completo ), descrivo solo quanto sopra perché quelle erano le variabili che hanno servito il mio ultimo progetto di ricerca, che spiegherò più avanti.
Analisi esplorativa dei dati
È facile esaminare prima le statistiche riassuntive in base al valore del trattamento. Possiamo vedere rapidamente che la lontananza dal lavoro è effettivamente almeno correlata a più candidati al giorno. Di seguito vediamo anche che le applicazioni al giorno sono fortemente distorte.
Ma i lavori in loco, ibridi e remoti differiscono anche per altre variabili rilevanti, almeno nel mio set di dati. Ad esempio, possiamo vedere di seguito che le offerte di lavoro con accordi di lavoro diversi hanno anche informazioni sullo stipendio diverse. Gli annunci di lavoro da remoto includono informazioni sullo stipendio in una percentuale molto più alta rispetto agli annunci di lavoro in loco e, per qualsiasi motivo, tra gli annunci che offrono informazioni sullo stipendio, quelli ibridi tendono ad avere cifre molto più alte.
Ci sono anche lacune negli anni medi stimati richiesti di esperienza tra i valori del trattamento. In particolare, trovo che i lavori a distanza richiedano circa un anno di esperienza in più rispetto ai lavori in loco.
Gli annunci di lavoro in loco, ibridi e remoti differiscono anche su importanti variabili categoriali. Ecco quanto di ciascun campione del gruppo di trattamento è rappresentato da ciascuna delle cinque società, categorie di dimensioni aziendali, settori e mercati più ricorrenti nel set di dati. Ad esempio, i distacchi remoti sono sproporzionati per i lavori presso PwC e i distacchi ibridi sono sproporzionati per i lavori presso Deloitte. (Per inciso, infatti, nessuna offerta di lavoro presso Deloitte nel mio set di dati è per lavoro rigorosamente in loco.)
C'è anche una questione di quanto i post tendano a differire per titolo, un parametro chiave per la ricerca di lavoro e riflesso della funzione lavorativa. Un modo per visualizzarlo è tramite le nuvole di parole.
Possiamo notare differenze tra tutte e tre le nuvole di parole, alcune delle quali - posizionamento, colore, ecc. - non sono importanti, ma altre sono più significative. Ad esempio, è abbastanza chiaro che i ruoli di ingegneria del software rappresentano una percentuale maggiore di annunci di lavoro remoti rispetto a quelli in loco e ibridi. Un'altra cosa da notare è che, come accennato, le offerte di lavoro da remoto spesso pubblicizzano questa disposizione nel titolo stesso del lavoro, che è qualcosa che affronterò più avanti nella mia analisi.
Possiamo osservare in modo più empirico le differenze di titolo di lavoro in base allo stato di trattamento esplorando la frequenza con cui determinati unigrammi e bigrammi compaiono in ciascun sottocampione di trattamento. Di seguito, mostro che le offerte di lavoro da remoto sono per un numero sproporzionatamente elevato di ruoli di ingegneria del software e un numero sproporzionatamente basso di ruoli tecnici, tra gli altri squilibri.
Ciò che rivela questa analisi esplorativa dei dati è che la forte correlazione tra distanza dal lavoro e un numero maggiore di candidati al giorno mostrato in precedenza potrebbe effettivamente essere guidata da queste altre differenze in agguato. Pertanto, per identificare la causalità, il mio progetto di ricerca doveva tenerne conto. Comincio da questo nella Parte 2 .