Fare un lavoro a distanza porta a molti più candidati (Parte 2 di 3: Corrispondenza esatta approssimata)
Nel mio ultimo post , ho dimostrato che la lontananza di un'opportunità di lavoro è effettivamente correlata a un interesse molto maggiore del candidato, ma ho anche mostrato perché questa correlazione potrebbe essere fuorviante, o forse almeno un'indicazione esagerata di ciò che un'azienda può ragionevolmente aspettarsi in termini di candidato interesse se rende un'apertura di lavoro a distanza invece che in loco. Anche le offerte di lavoro con accordi di lavoro pubblicizzati in modo diverso - in loco, ibrido o remoto - tendono a variare, almeno nel mio campione, in termini di altri fattori di interesse per un'offerta di lavoro, che vanno da quanta esperienza richiedono a quali settori sono interessati ai titoli che tendono ad avere.
Spesso, queste differenze sembrerebbero indicare che la semplice differenza nelle medie fatta all'inizio del mio EDA nella Parte 1 è una stima distorta verso l'alto. Prendiamo ad esempio l'industria. Abbiamo visto che circa il 14% delle offerte di lavoro da remoto riguarda ruoli nello sviluppo di software, mentre meno del 5% riguarda ruoli nella vendita al dettaglio, rappresentando rispettivamente una sovra e una sottorappresentazione in queste due aree rispetto alle offerte di lavoro in loco. Questo potrebbe essere ignorato se l'industria non fosse un fattore determinante dell'interesse dei lavoratori, ma, in media, probabilmente lo è.
Sebbene la regressione lineare sia un modo molto efficace per mantenere costanti le covariate come l'industria in questo caso per ottenere una stima imparziale dell'effetto che stai studiando, nel mio caso ho deciso di abbinare come approccio più appropriato per molteplici motivi.
Metodologia di corrispondenza
Un semplice vantaggio della corrispondenza è che al suo interno è abbastanza intuitivo e facile da spiegare. Le osservazioni uguali o abbastanza simili in termini di variabili chiave come l'industria, il mercato, la retribuzione ecc. Le stime a livello di osservazione provenienti dal confronto delle corrispondenze su queste basi sarebbero ovviamente piuttosto rumorose, ma con un campione di grandi dimensioni, fintanto che le variabili giuste sono controllate, dovrebbe produrre una stima dell'effetto del trattamento imparziale.
Un altro vantaggio della corrispondenza nel mio caso è che non è parametrico. A differenza della regressione lineare, non era necessaria alcuna specifica che affermasse che le covariate sono correlate linearmente al risultato. Abbinando quelle covariate, è così che puoi mantenerle costanti per identificare l'effetto a cui sei interessato. Inoltre, non era nemmeno necessario specificare dozzine di variabili fittizie o limitare i miei dati solo ai settori più frequenti nel mio campione (che abbiamo visto in precedenza erano finanza e ospedali/assistenza sanitaria) o mercati (New York City e Chicago); la corrispondenza mi ha permesso di esaminare una parte maggiore dello spazio delle covariate per le corrispondenze su settore, mercato e altre variabili chiave.
I passaggi critici includono prima l'identificazione di quelle variabili chiave e anche la decisione su come effettivamente corrispondere, riducendo al minimo la distanza nello spazio delle covariate o massimizzando la somiglianza del punteggio di propensione. Sebbene abbia progettato numerose funzionalità dai dati, all'inizio ho deciso che cinque variabili potevano essere sufficienti: mercato, settore, dimensioni dell'azienda, informazioni sugli stipendi e anni di esperienza richiesti. Ho anche optato per la corrispondenza della distanza, immaginando che la modellazione dei punteggi di propensione in questa impostazione (ovvero la probabilità che ogni lavoro sia remoto o ibrido) potrebbe essere troppo difficile. In particolare, ho usato un framework di corrispondenza esatta grossolano.
Per le mie variabili categoriali mercato, settore e, nel caso di LinkedIn, dimensioni dell'azienda (ad es. 10.001+ dipendenti, 501-10.000 dipendenti, ecc.), questo approccio e la logica sono piuttosto semplici. I distacchi con status di trattamento diversi sono una corrispondenza solo se basati nello stesso mercato e settore e se provenienti da aziende della stessa categoria dimensionale. Il mercato è un determinante/vincolo geografico chiave sull'interesse per l'apertura di posti di lavoro (almeno per i lavori in loco e ibridi). Nel frattempo, l'industria e le dimensioni dell'azienda determinano l'interesse dei candidati sulla base delle preferenze e delle competenze. Abbinando le osservazioni su queste categorie, possiamo assicurarci che non vi siano pregiudizi derivanti da esse che influenzino le nostre stime.
Le cose sono leggermente più complicate e meno infallibili quando si tratta di variabili continue: informazioni sullo stipendio e anni di esperienza richiesti, nel mio caso. Ci saranno pochissime o nessuna osservazione con esattamente le stesse informazioni sullo stipendio e/o esattamente gli stessi anni di esperienza richiesti. Tuttavia, con anni di esperienza richiesti, ad esempio, un lavoro che richiede 5 anni di esperienza è molto diverso da uno che ne richiede 6? Probabilmente no. Pertanto, per corrispondere a queste variabili, è possibile classificarle come appartenenti a uno di più contenitori.
Decidere la dimensione del contenitore è una questione di pregiudizio rispetto alla varianza. Se i contenitori sono troppo piccoli, il che significa che stai chiedendo che le osservazioni siano troppo simili su queste variabili continue, le corrispondenze trovate saranno poche, portando a un'elevata varianza. Tuttavia, se i contenitori sono troppo grandi, il che significa che le osservazioni abbastanza dissimili su queste variabili sono abbinate, ciò porta a una stima distorta, perché non hai controllato con successo queste variabili.
Alla fine, per le informazioni sugli stipendi, ho confrontato la mediana dell'intervallo creando intervalli di $ 10.000 da $ 0 a $ 250.000, assegnando $ 0 a coloro che non avevano informazioni sugli stipendi - che, ricordiamo dalla Parte 1, era la maggior parte del mio campione - e un contenitore di $ 250.000+ per i post con le mediane più alte. Ho pensato che ciò avrebbe garantito che non sarebbero state abbinate osservazioni con cifre salariali molto diverse, sebbene alcune con mezzi modestamente diversi (e forse piani e limiti di gamma molto diversi) lo sarebbero state. Per gli anni di esperienza richiesti, ho creato contenitori di [0, 3], (3, 6], (6, 9] e 10+, sperando che ciò garantisse che non ci fossero posti di lavoro a livello di direttore e di livello base, per esempio, essendo corrispondente.
Mentre la corrispondenza su queste cinque variabili ha inevitabilmente contribuito notevolmente all'ottenimento di una stima imparziale dell'effetto del trattamento, è stato necessario compiere ulteriori passi. Uno era correlato alla mia variabile di risultato, applicazioni al giorno.
Applicazioni al giorno
Poiché le offerte di lavoro sono state osservate in momenti diversi da quando sono state pubblicate per la prima volta, era importante standardizzare le tariffe dei candidati. Inizialmente, pensavo che questo da solo avrebbe reso comparabili i post separati da giorni e persino settimane se tutto il resto fosse stato uguale. Tuttavia, ho finito per trovare una chiara relazione tra i candidati di un annuncio di lavoro al giorno e quanto tempo era scaduto. In particolare, le nuove opportunità di lavoro (ad esempio quelle pubblicate, diciamo, 6 ore prima di essere osservate) tendono ad aver ricevuto un numero sostanzialmente maggiore di candidati ogni 24 ore rispetto alle opportunità di lavoro precedenti (ad esempio quelle pubblicate 2 settimane prima dell'osservazione). Ciò è probabilmente dovuto a una combinazione di tre motivi: il sistema di raccomandazione di LinkedIn che favorisce i post più recenti, una quantità sproporzionata di interesse per un post si materializza molto presto,
Qualunque sia la ragione, sarebbe importante tenerne conto nella mia analisi finale. Altrimenti, un sacco di rumore si farebbe strada nelle partite finali, rendendo molto più difficile ottenere una stima precisa dell'effetto del trattamento. Osservando la tendenza sopra rappresentata, ho deciso di confrontare anche se un post è più vecchio di 1 giorno, evitando così un certo numero di corrispondenze inadatte.
Corrispondenza: Parte 1
Per identificare le corrispondenze sulle sei variabili mercato, settore, dimensioni dell'azienda, anni di esperienza richiesti, informazioni sullo stipendio ed età di distacco, ho identificato le aree nello spazio delle covariate con la varianza del trattamento. Ciò è stato fatto in due fasi: prima raggruppando in base a quelle sei variabili più il trattamento e in secondo luogo filtrando per duplicare le aree sulla base solo di quelle sei variabili. Di seguito è riportato il codice che ho utilizzato per eseguire il primo passaggio, nonché un esempio del suo output.
Il passaggio due fa in modo che, per quanto riguarda i valori nella tabella sopra, vengano mantenute solo le offerte di lavoro nello spazio delle covariate in grassetto perché non ci sono variazioni di trattamento e quindi nessuna corrispondenza possibile negli altri sottospazi.
Ora concentrato su questi sottospazi con varianza del valore del trattamento, quindi itero attraverso ciascuno, assegnando a ogni annuncio di lavoro remoto un annuncio di lavoro di controllo nello stesso sottospazio. Vale la pena notare che questa assegnazione di corrispondenza viene eseguita senza sostituzione, il che è in contrasto con il mio processo di corrispondenza finale che verrà mostrato nella Parte 3. Di seguito mostro il codice per questo processo iterativo.
Con un campione corrispondente in mano dal processo di cui sopra, posso stimare l'effetto sull'interesse del candidato di un'opportunità di lavoro remota invece che in loco, insieme agli impatti di un annuncio di lavoro "promosso" su LinkedIn o con un "Facile Applica".
Questo output è coerente con le ipotesi fornite in precedenza. In primo luogo, riscontriamo effettivamente che un'opportunità di lavoro remota anziché in loco si traduce in un aumento significativo dell'interesse dei candidati. Nello specifico, stimiamo un aumento di circa il 59% delle richieste giornaliere. (Mentre l'approssimazione logaritmica della moltiplicazione del coefficiente di specifica del livello logaritmico per 100 indica un aumento del 46,5%, questa approssimazione fallisce con dimensioni dell'effetto di questa grandezza. Invece, è necessario sottrarre 1 dal coefficiente esponenziale prima di moltiplicare per 100.) In secondo luogo, sebbene ampio, questo aumento è di gran lunga inferiore all'aumento di circa il 300% implicito in una semplice differenza nelle medie fornita all'inizio della sezione EDA nella Parte 1. Infine, sebbene le promozioni di LinkedIn e la funzione Easy Apply non facciano parte del mio obiettivo, è comunque interessante notare quanto si osserva che ciascuna di esse fornisce un aumento dell'interesse dei candidati. Per il primo, stimo un aumento di circa il 25% delle richieste giornaliere e per il secondo stimo un aumento di circa il 160%.
Tuttavia, rimane una domanda sulla qualità delle partite stesse. Prendi questo, per esempio.
Come previsto, vi è una sovrapposizione sulle informazioni sull'azienda e sul mercato, nonché sull'età di pubblicazione, sugli anni richiesti e sui contenitori delle informazioni sui pagamenti. Ma al di fuori di questo, le due opportunità di lavoro sono piuttosto diverse in funzione, come evidenziato da campioni tratti dalle descrizioni delle loro mansioni. Il nuovo assunto per il ruolo principale è quello di "costruire una visione tecnologica e una strategia per una soluzione o un dominio aziendale" tra le altre attività, mentre quello per il ruolo inferiore è "responsabile dell'implementazione e/o del supporto alla produzione di qualsiasi modulo di Oracle Applicazioni ERP.”
Se esiste una differenza sistemica nelle funzioni lavorative tra lavori remoti e in loco che spiega anche l'interesse per un'opportunità di lavoro, ciò introdurrebbe pregiudizi nelle nostre stime e quindi dovrebbe essere tenuto in considerazione. Prendi quest'altra partita come un altro esempio.
Questi due lavori sono abbastanza diversi dal punto di vista funzionale e - mostrando sia l'imperfezione della mia rubrica di anni di esperienza e / o le aziende che non sempre lo esprimono come una qualifica chiave nelle descrizioni del lavoro - in termini di qualifiche richieste, eppure corrispondono. Inoltre, ecco la differenza di candidati al giorno tra i due tipi di posizione.
Se questi tipi di discrepanze sono dilaganti, ciò distorcerebbe le mie stime verso l'alto. Cerco di affrontare questo tipo di bias di corrispondenza nel mio prossimo post , non con il testo della descrizione del lavoro molto non strutturato, ma invece con il titolo del lavoro.