Eine Remote-Stelle führt zu viel mehr Kandidaten (Teil 3 von 3: Textanalyse/Abgleich mit der Stellenbezeichnung)

May 13 2023
In Teil 2 habe ich damit begonnen, das grobe exakte Matching zu verwenden, um meine Forschungsfrage zu beantworten. Dabei geht es darum, wie sich eine Stelle, bei der es sich um Remote-Arbeit statt um Präsenzarbeit handelt, auf das Interesse daran auswirkt. Die von mir verwendeten Matching-Variablen – Standort, Branche, Unternehmensgröße, Gehaltsinformationen, erforderliche Erfahrungsjahre und Alter der Veröffentlichung – scheinen einen großen Beitrag dazu geleistet zu haben, die Art von Aufwärtstendenz zu beseitigen, die durch die einfache explorative Datenanalyse in Teil 1 angezeigt wird .
Quelle

In Teil 2 habe ich begonnen, das grobe exakte Matching zu verwenden, um meine Forschungsfrage zu beantworten. Dabei geht es darum, wie sich eine Stelle, bei der es sich um Remote-Arbeit statt um Präsenzarbeit handelt, auf das Interesse daran auswirkt. Die von mir verwendeten Matching-Variablen – Standort, Branche, Unternehmensgröße, Gehaltsinformationen, erforderliche Erfahrungsjahre und Alter der Veröffentlichung – scheinen einen großen Beitrag dazu geleistet zu haben, die Art von Aufwärtstendenz zu beseitigen, die durch die einfache explorative Datenanalyse in Teil 1 angezeigt wird . Allerdings kann es trotz der Übereinstimmungen dieser sechs Variablen immer noch zu einer Verzerrung hinsichtlich der beruflichen Funktion kommen. Remote-Jobs in meiner Stichprobe könnten aufgrund der Art ihrer Arbeit und nicht aufgrund ihrer Abgeschiedenheit auf größeres Interesse stoßen.

Ich würde behaupten, dass dieser Teil einer Stelle ziemlich deutlich in der Berufsbezeichnung zum Ausdruck kommt, einem wichtigen Suchparameter bei der Jobsuche der meisten Menschen. Und wenn wir uns ansehen, welche Berufsbezeichnungen am Ende von Teil 2 auf beiden Seiten jedes Spiels auftauchten , sehen wir, dass Vor-Ort-Jobs möglicherweise überrepräsentiert sind, und zwar durch diejenigen, die aufgrund ihrer Funktionalität und nicht aufgrund ihrer Arbeitsvereinbarung weniger Interesse wecken .

Aus diesem Grund sah der letzte Teil meiner Identifikationsstrategie vor, auch die Berufsbezeichnung abzugleichen. Ich habe dafür zwei ähnlich effektive Methoden gefunden, die beide auf dem Distanzabgleich auf Merkmalen beruhten, die aus dem Text der Stellenbezeichnung abgeleitet wurden – insbesondere Spalten, die angeben, ob eine bestimmte Stellenausschreibung ein bestimmtes Schlüsselwort enthielt oder nicht. Bei der ersten handelte es sich bei jedem dieser Merkmale um einfache Dummy-Variablen (1, wenn das Schlüsselwort der Spalte vorhanden war, 0, wenn nicht) und eine nützliche Definition der Ähnlichkeit, die als Jaccard-Distanz bekannt ist. Bei der zweiten handelte es sich um Merkmale, die nicht nur das Vorhandensein verschiedener Schlüsselwörter widerspiegelten, sondern auch Gewichtungen entsprechend ihrer geschätzten Bedeutung, wobei die Ähnlichkeit in diesem Fall mithilfe der euklidischen Distanz definiert wurde.

Beachten Sie, dass bei beiden Ansätzen zuvor eine gewisse Bereinigung der Berufsbezeichnungen erforderlich war. Wie in Teil 1 gezeigt, geben viele Remote-Jobs ihre Abgelegenheit bereits in der Berufsbezeichnung selbst bekannt. Um die Ähnlichkeit effektiver und genauer messen zu können, wurden Wörter wie „Remote“, „Home“ und „Hybrid“ vor diesem Teil aus den Berufsbezeichnungen entfernt der Analyse. Andernfalls wäre es schwieriger, Übereinstimmungen zu finden, da ähnliche Stellen mit unterschiedlichen Arbeitsvereinbarungen nicht die gleiche Arbeitsvereinbarung in ihrer Berufsbezeichnung ausschreiben und sie dadurch unterschiedlicher erscheinen, als sie tatsächlich sind.

Jaccard-Distanzansatz

Wie bereits erwähnt, bestand mein erster Ansatz darin, die Ähnlichkeit von Berufsbezeichnungen mithilfe einer einfachen Matrix zu ermitteln, die angab, welche Berufsbezeichnungen welche Schlüsselwörter enthielten.

Wie bei dem in Teil 2 gezeigten iterativen Übereinstimmungsfindungsprozess habe ich die verschiedenen Kovariatenräume durchlaufen, die potenzielle Übereinstimmungen für meine ersten sechs Variablen enthielten, aber in diesem Fall habe ich auch eine Textmerkmalsmatrix für jeden dieser Räume erstellt und jede behandelte Beobachtung gefunden Nächster Nachbar gemäß Jaccard-Distanz in diesem Textmerkmalsraum (definiert durch alle Unigramme in den Berufsbezeichnungen meines Datensatzes). Dies wird auch als Jaccard-Ähnlichkeit bezeichnet und ergibt sich aus der Größe der Schnittmenge zweier Wortmengen dividiert durch die Größe der Vereinigung dieser Mengen. Wenn zum Beispiel Satz A durch „Die Kings haben es in die Playoffs geschafft“ und Satz B durch „Die Kings haben es als Three Seed in die Nachsaison geschafft“ gegeben wurde, ergibt sich für sie eine Jaccard-Ähnlichkeit von 4/11.

Darüber hinaus habe ich auf dieser Grundlage eine Entscheidungsregel implementiert, wann der nächste Nachbar jeder behandelten Einheit identifiziert wurde. Wenn ihre Jaccard-Ähnlichkeit größer als 0,4 war, handelte es sich um eine Übereinstimmung. Wenn nicht, gab es für die behandelte Beobachtung keine ausreichend vergleichbare Kontrollbeobachtung und sie wurde ignoriert. Diese Schwellenwertauswahl ist ein weiteres Beispiel für den Kompromiss zwischen Bias und Varianz. Eine zu lockere Bandbreite führt zu schlechteren Übereinstimmungen und größerer Verzerrung, wohingegen eine zu strenge Bandbreite zu besseren, aber weniger Übereinstimmungen und mehr Varianz führt.

Schließlich wurden bei diesem Verfahren, wie in Teil 2 erwähnt , Kontrollübereinstimmungen mit Ersatz ausgewählt. Dies kann zu mehr Varianz führen, da es zu einer effektiv kleineren Stichprobengröße führt, wenn dieselben Kontrollbeobachtungen in mehr als einem Match verwendet werden. Es verringert jedoch die Verzerrung, da der bestmögliche Match ausgewählt wird, unabhängig davon, ob er mit einer anderen behandelten Einheit verwendet wurde.

Ich gebe unten einen Auszug meines Codes, der diesen Nachbarn-Findungsprozess beinhaltet. Beachten Sie den Entscheidungsparameter 0,6, einen Jaccard-Distanzwert (1 minus Jaccard-Ähnlichkeit), der einer Jaccard-Ähnlichkeit von 0,4 entspricht. Den vollständigen Code finden Sie hier . Als Nächstes bespreche ich meinen anderen Ansatz zur Textanalyse, bevor ich die jeweiligen Ergebnisse durchgehe.

Codeausschnitt 1: Übereinstimmung mit der Berufsbezeichnung, wenn die Jaccard-Distanz < 0,6 ist

Euklidischer Distanzansatz

Mein zweiter Ansatz bestand darin, verschiedene Textmerkmale abzuleiten und mithilfe dieser Merkmale den euklidischen Abstand zu berechnen. Insbesondere habe ich herausgefunden, dass die Verwendung von tf-idf, was für „Term Frequency-Inverse Document Frequency“ steht, anstelle einfacher Dummy-Variablen ebenfalls gute Übereinstimmungen lieferte.

Der Effekt dieser Technik ist eine Betonung von Wörtern, die in vielen anderen Beobachtungen nicht auftauchen. Wenn Sie beispielsweise die Berufsbezeichnung „Kundendienstmitarbeiter“ als weniger weit entfernt von „Kundendienstmitarbeiter“ als „Kundendienstmitarbeiter“ betrachten würden, obwohl sich beide nur in einem Wort unterscheiden, weil der Begriff „Aficionado“ nicht gebräuchlich ist . Dies kann ein wirksames Instrument sein, um die Ähnlichkeit von Berufsbezeichnung und Funktion zu beurteilen, wenn ungewöhnliche Begriffe in einer Berufsbezeichnung bedeuten, dass sie wahrscheinlich weniger mit anderen vergleichbar ist.

Für diesen Ansatz habe ich eine Entscheidungsregel festgelegt, nach der Berufsbezeichnungen innerhalb eines euklidischen Abstands von 2 voneinander liegen müssen, um als Übereinstimmung zu gelten.

Ergebnisse

Wenn wir nun auch die Berufsbezeichnung abgleichen, kommen wir mit beiden Textähnlichkeitsansätzen zu ziemlich ähnlichen Schätzungen wie in Teil 2 , wo wir nur den Markt, die Branche, die Unternehmensgröße, die Gehaltsinformationen, die erforderlichen Berufsjahre und das Veröffentlichungsalter abgeglichen haben. Dies kann, wenn überhaupt, höchstens auf eine vernachlässigbare Verzerrung hindeuten, die sich daraus ergibt, dass anhand der Berufsbezeichnung keine Übereinstimmung hinsichtlich der beruflichen Funktion gefunden wird. Allerdings führen diese Matching-Verfahren auch zu Schätzungen, die unterschiedliche Stichproben widerspiegeln. Während zum Beispiel das Matching-Verfahren aus Teil 2 mehr als 9.000 Beobachtungen nutzte, stützen sich diese hier auf eine relativ kleine Anzahl von Matches mit einer Beobachtungszahl von jeweils etwa 1.500.

Schätzungen aus dem Abgleich der vorherigen sechs Variablen Markt, Branche, Unternehmensgröße, Zahlungsinformationen, gebuchte Zeit und erforderliche Berufserfahrung sowie der Ähnlichkeit der Berufsbezeichnung.

Wir können verschiedene Übereinstimmungen untersuchen und sinnvolle Paarungen finden, wie unten dargestellt.

Es ist erwähnenswert, dass viele der Übereinstimmungen, die entweder mit dem Euklidischen Distanzansatz oder dem Jaccard-Distanzansatz ermittelt wurden, bei allen aufgezeichneten Dimensionen mit Ausnahme des Behandlungsstatus virtuelle Duplikate waren. Dies ist beim oben gezeigten dritten Spiel der Fall (letzte zwei Zeilen). Diese Art von Übereinstimmungen sind das Ergebnis entweder von Unternehmen, die tatsächlich für denselben Positionstyp, aber eine andere Arbeitsvereinbarung eingestellt haben, oder von einem Fehler ihrerseits. In jedem Fall bietet es sehr akzeptable Übereinstimmungen wie die oben genannten.

Ein weiterer interessanter Aspekt im Zusammenhang mit meiner Forschungsfrage ist, ob sich diese Effektschätzung mit dem Markt ändert. Ich gehe insbesondere davon aus, dass der Anstieg des Bewerberinteresses, der dadurch entsteht, dass ein Job aus der Ferne statt vor Ort ausgeübt wird, in einem kleineren Markt größer ist als in einem größeren Markt, da ein kleinerer Markt ansonsten stärker durch einen kleineren Bewerber eingeschränkt wird Schwimmbad.

Um dies zu untersuchen, habe ich zunächst die Bevölkerungsdaten der Volkszählung mit meiner Jaccard-Remote-/Vor-Ort-Stichprobe verknüpft und festgestellt, dass meine Schätzung für jede weitere Hunderttausend Menschen in einem bestimmten Markt um etwa 0,7 % schrumpft. Mit anderen Worten: Meine Schätzungen würden darauf hindeuten, dass die Effektgröße in einem Markt wie Phoenix mit einer Bevölkerung von rund 1,6 Millionen mehr als 7 Prozentpunkte größer ist als in Märkten wie Chicago (Bevölkerung ≈ 2,7 Millionen) und Los Angeles (Bevölkerung ≈ 3,8 Millionen) oder New York (Bevölkerung ≈ 8,5 Millionen).

Da ich gezeigt habe, dass meine Methodik aus Teil 2 robust ist und ihre weniger strengen Matching-Anforderungen zu einer größeren Stichprobengröße führen, kann ich diesen Ansatz für eine zusätzliche Analyse der Heterogenität der Effektschätzungen nach Markt nutzen. Unten sehen wir Hinweise darauf nach spezifischen Märkten. Ich schätze, dass der Effekt in den größten Städten der USA, New York und Los Angeles, nahezu am geringsten ist und in einigen der kleineren Märkte meiner Stichprobe wie Cincinatti, Ohio und Frisco, Texas, größer ist. Interessante Ausnahmen scheinen Phoenix und McLean, Virginia zu sein, könnten sich jedoch aus den Jobtypen in diesen Städten in meinen Daten ergeben.

Ich komme aus diesem Ansatz auch zu anderen Schätzungen. Erstens stelle ich fest, dass der durchschnittliche Effekt einer Stellenausschreibung, die auf Remote-Arbeit statt auf Präsenzarbeit ausgerichtet ist, zu einem Anstieg der täglichen Bewerber um etwa 75 % (exp(.5583)-1)*100 führt. Zweitens schätze ich, dass dieser Effekt bei hybrider Arbeit etwa 7 % beträgt. Darüber hinaus schätze ich die Auswirkungen der Easy Apply- und Promoted-Funktionen von LinkedIn auf die Bewerberquoten auf etwa 144 % bzw. 40 %.

Da mein Matching-Verfahren schließlich dazu führte, dass Teilmengen meiner Daten eine andere Zusammensetzung hatten als mein Datensatz als Ganzes, und meine Schätzungen auf diesen Teilmengen basieren, lohnt es sich, einen Blick auf die Zusammensetzung meiner endgültigen abgeglichenen Stichproben zu werfen. Unten sehen wir, dass meine Remote-Matching-Stichprobe hauptsächlich aus Stellenausschreibungen aus den Branchen Buchhaltung, Softwareentwicklung, Finanzen, Gesundheitswesen und Wellness/Fitness besteht. Mittlerweile besteht meine Hybrid-Matched-Stichprobe hauptsächlich aus Stellenausschreibungen aus den Branchen Finanzen, IT, Gesundheitswesen, Einzelhandel sowie Verteidigung und Raumfahrt.

Wir können auch sehen, welche Positionstypen in den einzelnen Stichproben stark vertreten sind.

Abschluss

Mithilfe eines Matching-Ansatzes zur Kontrolle der Schlüsselfaktoren für das Interesse an einer Stellenausschreibung, wie Berufsbezeichnung, Markt und erforderliche Qualifikationen, glaube ich, starke Belege dafür gefunden zu haben, dass eine Jobmöglichkeit aus der Ferne einen erheblichen Einfluss auf das Interesse des Bewerbers hat und dass eine Jobchance in der Ferne liegt Hybrid hat eine bescheidene. Konkret schätze ich, dass die Bereitstellung einer Stellenausschreibung aus der Ferne statt vor Ort im Durchschnitt zu einem Anstieg der Bewerberzahl um etwa 75 % führen wird, wohingegen eine hybride Stellenausschreibung statt vor Ort zu einem durchschnittlichen Anstieg von etwa 7 % führen wird %. Darüber hinaus zeigt meine Analyse, dass der erste dieser beiden Effekte je nach Region und Marktgröße unterschiedlich ist, was zeigt, wie Unternehmen in kleineren Märkten mit einer Remote-Belegschaft einen viel größeren Teil des Arbeitskräfteangebots erschließen können.

Dennoch gibt es einige Einschränkungen in Bezug auf meinen Ansatz. Erstens gelten meine Schätzungen hauptsächlich für die Teilmenge der behandelten Beobachtungen, für die es viele vergleichbare Kontrollbeobachtungen gab – z. B. Software-Engineering-Rollen in der Softwareentwicklungs-, Informationstechnologie- und Finanzbranche. Dies steht im direkten Gegensatz zu den Rollen, die große bzw. kleine Teile meiner Teilstichproben aus Stellenausschreibungen vor Ort und aus der Ferne ausmachen. Wenn wir noch einmal auf Abbildung 4 aus meinem ersten Blogbeitrag zurückblicken , sind Beispiele für diese Rollen Filialleiter, Techniker und Krankenschwestern.

Die Unvoreingenommenheit meiner Schätzungen hängt auch davon ab, wie erfolgreich ich potenziell verwirrende Variablen kontrolliert habe. Wenn es Variablen gibt, mit denen ich nicht übereinstimmte und die sowohl das Interesse des Bewerbers bestimmen als auch mit der Behandlung in Zusammenhang stehen – d. Auch wenn ich die notwendigen Matching-Variablen angegeben habe, werden sie immer noch nicht vollständig kontrolliert, wenn die Bins zu breit sind oder, im Fall meines Jobtitel-Matchings, die Bandbreite/Dichte des Jaccard-Abstands von 0,6 zu groß ist.

Nach alledem denke ich, dass es Gründe zu der Annahme gibt, dass diese Annahmen erfüllt sind. Ich denke, die Fächer, die ich in Teil 2 spezifiziere , sind ziemlich eng. Darüber hinaus dient die breiteste davon für die angegebene Dauer vor allem dazu, den Lärm während der Spiele zu minimieren; Obwohl ich gezeigt habe, dass diese Variable tatsächlich Bewerber pro Tag vorhersagt, gibt es keinen Grund, sie mit der Behandlung zu korrelieren. Darüber hinaus ist auch die gute Stabilität meiner Schätzungen unabhängig vom Ansatz zur Übereinstimmung der Berufsbezeichnung (dh keine vs. Jaccard-Ähnlichkeit vs. euklidische Distanz) beruhigend.

Daher denke ich, dass meine Ergebnisse darauf hinweisen, dass dies ein Bereich ist, in dem interessantere Erkenntnisse gewonnen werden können. Es könnten weitere Untersuchungen durchgeführt werden, um herauszufinden, wie sich dieser Effekt je nach Dimension außerhalb des Marktes unterscheidet, etwa nach Art der Tätigkeit, Branche oder Dienstaltersstufe. Darüber hinaus könnten weitere Analysen im Zusammenhang mit der marktgrößenbedingten Variabilität der Behandlungseffekte durchgeführt werden, um herauszufinden, welcher Anteil dieser Effekte durch eine Zunahme verfügbarer Kandidaten und welcher Anteil durch Präferenzen bedingt ist, die ich am Anfang meines Artikels zitiere erster Blogbeitrag .