Fare un lavoro a distanza porta a molti più candidati (Parte 3 di 3: Analisi del testo/Corrispondenza sul titolo del lavoro)
Nella parte 2 , ho iniziato a utilizzare la corrispondenza esatta grossolana nel tentativo di rispondere alla mia domanda di ricerca, che chiede in che modo un'opportunità di lavoro per il lavoro a distanza anziché per il lavoro di persona influisce sull'interesse per essa. Le variabili di corrispondenza che ho utilizzato - posizione, settore, dimensioni dell'azienda, informazioni sullo stipendio, anni di esperienza richiesti ed età di distacco - sembrano aver fatto molto per rimuovere il tipo di pregiudizio verso l'alto indicato dalla semplice analisi esplorativa dei dati fatta nella Parte 1 . Tuttavia, anche all'interno delle corrispondenze su queste sei variabili, potrebbe esserci ancora un pregiudizio sulla funzione lavorativa. I lavori remoti nel mio campione potrebbero suscitare più interesse in virtù della natura del loro lavoro anziché della loro lontananza.
Direi che questa parte di un lavoro è rappresentata in modo abbastanza significativo nel suo titolo di lavoro, un parametro di ricerca chiave nella ricerca di lavoro della maggior parte delle persone. E se guardiamo quali titoli di lavoro tendevano a finire su entrambi i lati di ogni partita alla fine della Parte 2 , vediamo che i lavori in loco potrebbero essere sovrarappresentati da coloro che ricevono meno interesse in virtù della loro funzionalità piuttosto che della loro organizzazione del lavoro .
Questo è il motivo per cui l'ultima parte della mia strategia di identificazione prevedeva anche la corrispondenza sul titolo di lavoro. Ho trovato due modi altrettanto efficaci per farlo, entrambi basati sulla corrispondenza della distanza su caratteristiche derivate dal testo del titolo di lavoro, in particolare, colonne che indicano se un determinato titolo di annuncio di lavoro conteneva o meno una determinata parola chiave. Il primo riguardava ciascuna di queste caratteristiche come semplici variabili fittizie (1 se la parola chiave della colonna era presente, 0 in caso contrario) e un'utile definizione di somiglianza nota come distanza di Jaccard. Il secondo riguardava le caratteristiche che riflettevano non solo la presenza di varie parole chiave, ma anche i pesi corrispondenti alla loro significatività stimata, con la somiglianza in questo caso definita utilizzando la distanza euclidea.
Si noti che entrambi gli approcci richiedevano in anticipo una pulizia dei titoli di lavoro. Come mostrato nella Parte 1 , molti lavori remoti pubblicizzano la loro lontananza nel titolo del lavoro stesso, quindi per misurare in modo più efficace e accurato la somiglianza, parole come "Remoto", "Casa" e "Ibrido" sono state rimosse dai titoli di lavoro prima di questa parte dell'analisi. In caso contrario, le corrispondenze sarebbero più difficili da trovare perché lavori simili con accordi di lavoro diversi non avranno lo stesso accordo di lavoro pubblicizzato nel loro titolo di lavoro, facendoli quindi apparire più diversi di quanto non siano in realtà.
Jaccard Approccio a Distanza
Come accennato, il mio primo approccio ha comportato la determinazione della somiglianza tra titoli di lavoro utilizzando una semplice matrice che indicava quali titoli di lavoro presentavano quali parole chiave.
Come il processo iterativo di ricerca delle corrispondenze mostrato nella Parte 2 , ho passato in rassegna i vari spazi di covariate che contenevano potenziali corrispondenze sulle mie prime sei variabili, ma in questo caso ho anche costruito una matrice di caratteristiche del testo per ciascuno di questi spazi e ho trovato ciascuna osservazione trattata vicino più vicino in base alla distanza di Jaccard in questo spazio delle caratteristiche del testo (definito da tutti gli unigrammi nei titoli di lavoro del mio set di dati). Conosciuta anche come Somiglianza di Jaccard, è data dalla dimensione dell'intersezione di due insiemi di parole divisa per la dimensione dell'unione di tali insiemi. Ad esempio, se il set A è stato dato da "The Kings ha fatto i playoff" e il set B è stato dato da "The Kings ha fatto la postseason come testa di serie a tre", la loro somiglianza con Jaccard risulta essere 4/11.
Inoltre, ho anche implementato una regola decisionale per quando è stato identificato il vicino più prossimo di ciascuna unità trattata su questa base. Se la loro somiglianza Jaccard era maggiore di 0,4, costituivano una corrispondenza. In caso contrario, l'osservazione trattata non aveva un'osservazione di controllo sufficientemente comparabile ed è stata ignorata. Questa selezione della soglia è un altro esempio del compromesso bias-variance. Una larghezza di banda troppo lassista porta a corrispondenze peggiori e a una maggiore distorsione, mentre una larghezza di banda troppo rigorosa porta a corrispondenze migliori ma meno e a una maggiore varianza.
Infine, come menzionato nella Parte 2 , in questa procedura, le corrispondenze di controllo sono state selezionate con sostituzione. Ciò può comportare una maggiore varianza perché porta a una dimensione del campione effettivamente più piccola quando le stesse osservazioni di controllo vengono utilizzate in più di una corrispondenza, ma diminuisce la distorsione perché viene selezionata la migliore corrispondenza possibile indipendentemente dal fatto che sia stata utilizzata con un'altra unità trattata.
Di seguito fornisco un estratto del mio codice che include questo processo di ricerca dei vicini. Notare il parametro decisionale di 0,6, un valore della distanza di Jaccard (1 meno Somiglianza di Jaccard) che corrisponde a una Somiglianza di Jaccard di 0,4. Il codice nella sua interezza può essere trovato qui . Successivamente, discuto il mio altro approccio di analisi del testo prima di esaminare i risultati per ciascuno.
Approccio a distanza euclidea
Il mio secondo approccio prevedeva la derivazione di diverse caratteristiche del testo e il calcolo della distanza euclidea utilizzando tali caratteristiche. In particolare, ho scoperto che l'utilizzo di tf-idf, che è l'abbreviazione di frequenza del documento inversa alla frequenza, invece di semplici variabili fittizie, produceva anche buone corrispondenze.
L'effetto di questa tecnica è un'enfasi sulle parole che non compaiono in molte altre osservazioni. Ad esempio, se consideri il titolo di lavoro "Associato del servizio clienti" meno distante da "Rappresentante del servizio clienti" rispetto a "Appassionato del servizio clienti", anche se entrambi sono diversi su una sola parola, perché il termine "appassionato" non è comune . Questo può essere uno strumento efficace per valutare la somiglianza titolo di lavoro/funzione se termini insoliti in un titolo di lavoro significano che è probabilmente meno paragonabile ad altri.
Per questo approccio, ho impostato una regola decisionale che richiede che i titoli di lavoro si trovino entro una distanza euclidea di 2 l'uno dall'altro per essere considerati una corrispondenza.
Risultati
Ora abbinando anche il titolo di lavoro, con entrambi gli approcci di somiglianza del testo, arriviamo a stime abbastanza simili a quelle della Parte 2 , dove abbiamo abbinato solo mercato, settore, dimensioni dell'azienda, informazioni sullo stipendio, anni di esperienza richiesti ed età di pubblicazione. Ciò potrebbe indicare al massimo un pregiudizio trascurabile, se presente, derivante dalla mancata corrispondenza sulla funzione lavorativa tramite titolo professionale; tuttavia, queste procedure di corrispondenza portano anche a stime che riflettono campioni diversi. Ad esempio, mentre la procedura di corrispondenza della Parte 2 utilizzava più di 9.000 osservazioni, quelle qui si basano su un numero relativamente limitato di corrispondenze, con conteggi di osservazione di circa 1.500 ciascuno.
Possiamo ispezionare varie corrispondenze e trovare abbinamenti ragionevoli, come di seguito.
Vale la pena notare che molte delle corrispondenze determinate utilizzando l'approccio a distanza euclidea o l'approccio a distanza di Jaccard erano duplicati virtuali su tutte le dimensioni registrate tranne lo stato del trattamento. Questo è il caso della terza corrispondenza mostrata sopra (ultime due righe). Questi tipi di corrispondenze sono il prodotto di entrambe le società che assumono effettivamente per lo stesso tipo di posizione ma un diverso accordo di lavoro o per errore da parte loro. Ad ogni modo, offre corrispondenze molto accettabili come sopra.
Un ulteriore aspetto di interesse relativo alla mia domanda di ricerca è se questa stima dell'effetto cambia con il mercato. In particolare, ipotizzerei che l'aumento dell'interesse dei candidati derivante da un lavoro a distanza anziché in loco sia maggiore in un mercato più piccolo rispetto a un mercato più grande, dato che un mercato più piccolo è altrimenti più vincolato da un candidato più piccolo piscina.
Per studiarlo, in primo luogo, ho unito i dati della popolazione del censimento con il mio campione Jaccard remoto/in loco, scoprendo che la mia stima si riduce di circa lo 0,7% per ogni centomila persone in più in un dato mercato. In altre parole, le mie stime indicherebbero che la dimensione dell'effetto in un mercato come Phoenix, che ha una popolazione di circa 1,6 milioni, è superiore di oltre 7 punti percentuali rispetto a mercati come Chicago (popolazione ≈ 2,7 milioni), Los Angeles (popolazione ≈ 3,8 milioni), o New York (popolazione ≈ 8,5 milioni).
Poiché ho dimostrato che la mia metodologia della Parte 2 è solida e i suoi requisiti di corrispondenza meno rigorosi portano a una dimensione del campione più ampia, posso ricorrere a tale approccio per un'ulteriore analisi dell'eterogeneità della stima degli effetti per mercato. Di seguito, ne vediamo dei suggerimenti per mercato specifico. Stimo che l'effetto sia vicino al suo minimo nelle più grandi città degli Stati Uniti, New York e Los Angeles, e maggiore in alcuni dei mercati più piccoli del mio campione come Cincinatti, Ohio e Frisco, Texas. Eccezioni interessanti sembrano essere Phoenix e McLean, Virginia, ma potrebbero essere il risultato di tipi di lavoro in quelle città nei miei dati.
Arrivo anche ad altre stime da questo approccio. In primo luogo, trovo che l'effetto medio di un'apertura di lavoro per il lavoro a distanza anziché per il lavoro di persona sia un aumento dei candidati giornalieri di circa il 75% (exp(.5583)-1)*100). In secondo luogo, stimo che questo effetto per il lavoro ibrido sia di circa il 7%. Inoltre, stimo che gli effetti sulle tariffe dei candidati delle funzionalità Easy Apply e Promoted di LinkedIn siano rispettivamente di circa il 144% e il 40%.
Infine, poiché la mia procedura di abbinamento ha prodotto sottoinsiemi dei miei dati di composizioni diverse rispetto al mio set di dati nel suo insieme e le mie stime provengono da questi sottoinsiemi, vale la pena esaminare la composizione dei miei campioni finali abbinati. Di seguito, vediamo che il mio campione con corrispondenza remota è costituito principalmente da offerte di lavoro nei settori contabilità, sviluppo software, finanza, assistenza sanitaria e benessere/fitness. Nel frattempo, il mio campione con corrispondenza ibrida è costituito principalmente da offerte di lavoro nei settori finanziario, IT, sanitario, vendita al dettaglio, difesa e spazio.
Possiamo anche vedere quali tipi di posizione sono fortemente rappresentati in ciascun campione.
Conclusione
Using a matching approach to control for key determinants of job posting interest like job title, market, and required qualifications, I believe I’ve found strong evidence that a job opportunity being remote has a substantial impact on applicant interest and that a job opportunity being hybrid has a modest one. Specifically, I estimate that making a job opening remote instead of on-site will, on average, lead to an increase in applicant count of about 75%, whereas making it hybrid instead of on-site will lead to an average increase of about 7%. Furthermore, my analysis indicates that the first of those two effects varies by geography according to market size, revealing how companies in smaller markets are able to tap into much more of the labor supply with a remote workforce.
Anche così, ci sono alcune limitazioni legate al mio approccio. In primo luogo, le mie stime si applicano principalmente al sottoinsieme di osservazioni trattate per le quali esistevano molte osservazioni di controllo comparabili, ad esempio ruoli di ingegneria del software nello sviluppo del software, nella tecnologia dell'informazione e nelle industrie finanziarie. Ciò è in diretto contrasto con i ruoli che costituiscono rispettivamente porzioni grandi e piccole dei miei sottocampioni di offerte di lavoro in loco e da remoto. Se guardiamo indietro fino alla Figura 4 dal mio primo post sul blog , esempi di questi ruoli sono i gestori di negozio, i tecnici e gli infermieri.
L'imparzialità delle mie stime dipende anche dal modo in cui ho controllato con successo le variabili potenzialmente confondenti. Se ci sono variabili su cui non ho trovato corrispondenza che determinano l'interesse del candidato e sono correlate al trattamento, ovvero correlate al fatto che un lavoro sia in loco, ibrido o remoto, allora le mie stime sono in una certa misura distorte. Inoltre, anche se ho specificato le variabili di corrispondenza necessarie, non sono ancora completamente controllate se i contenitori sono troppo larghi o, nel caso della corrispondenza del mio titolo di lavoro, la larghezza di banda/calibro di 0,6 distanza Jaccard è troppo grande.
Con tutto ciò che è stato notato, penso che ci siano ragioni per pensare che questi presupposti siano soddisfatti. Penso che i contenitori specificati nella Parte 2 siano abbastanza stretti. Inoltre, il più ampio di essi, per la durata pubblicata, serve principalmente a ridurre al minimo il rumore durante le partite; mentre ho dimostrato che questa variabile prevede effettivamente i candidati al giorno, non c'è motivo per cui dovrebbe essere correlata al trattamento. Inoltre, anche la discreta stabilità delle mie stime indipendentemente dall'approccio di corrispondenza del titolo di lavoro (vale a dire nessuno rispetto alla somiglianza di Jaccard rispetto alla distanza euclidea) è rassicurante.
Di conseguenza, penso che i miei risultati indichino che questa è un'area in cui si possono fare scoperte più interessanti. Potrebbero essere condotte ulteriori ricerche per vedere come questo effetto differisca per dimensioni diverse dal mercato, come il tipo di lavoro, l'industria o il livello di anzianità. Inoltre, si potrebbe fare un'analisi più approfondita relativa alla variabilità degli effetti del trattamento determinata dalle dimensioni del mercato per cercare di analizzare quale parte di questi effetti è determinata da un aumento dei candidati disponibili e quale parte è determinata dalle preferenze che cito all'inizio del mio primo post sul blog .