Einen Job aus der Ferne zu erledigen, führt zu viel mehr Kandidaten (Teil 1 von 3: Datenverarbeitung und EDA)
Es dürfte keine große Überraschung sein, dass ein Jobangebot, bei dem es sich um Remote-Arbeit statt um Arbeit vor Ort handelt, zu einem größeren Interesse daran führt. Neben einem größeren Kandidatenpool sind wahrscheinlich auch Präferenzen für diesen Unterschied verantwortlich. Laut Gallup bevorzugen 6 % der remote-fähigen Mitarbeiter die ausschließliche Arbeit vor Ort, 34 % bevorzugen jedoch die vollständige Remote-Arbeit. (60 % bevorzugen eine Hybridanordnung.)
Aber wie groß ist dieser Effekt? Was kann ein Unternehmen in einem bestimmten Markt, in einer bestimmten Branche erwarten, das für eine bestimmte Position einstellt, wenn es Bewerbern, die praktisch von überall aus arbeiten, eine Beschäftigungsmöglichkeit eröffnet, anstatt nur denen, die in der Nähe wohnen? Ich habe versucht, diese Frage zu beantworten, indem ich Daten zu Stellenausschreibungen von LinkedIn gesammelt und analysiert habe.
Sammlung
Um das oben genannte Thema empirisch anzugehen, habe ich LinkedIn als nützliche Datenquelle identifiziert. Heutzutage geben die meisten Unternehmen, die Stellenangebote auf der Website veröffentlichen, an, ob die Arbeitsvereinbarung vor Ort, hybrid oder remote erfolgt, sowie Werte für andere erklärende Variablen wie Berufsbezeichnung, Markt und veröffentlichte Dauer. Entscheidend ist, dass es Premium-Abonnenten auch Informationen über das Bewerberinteresse in Form einer Zahl der Bewerber liefert.
Ich habe meinen Datenerfassungsprozess mit einigen Python-Programmierbibliotheken optimiert, darunter dem Webbrowser-Automatisierungstool Selenium und Pandas, einem Datenmanipulations- und Analysemodul. Die systematische Identifizierung und Protokollierung der Werte der oben genannten Variablen erfolgte mithilfe von XPath, einer Sprache, mit der HTML-Inhalte abgefragt werden können.
Während meine anfänglichen Sammlungsbemühungen sehr breit gefächert waren – die einzige Einschränkung bestand darin, dass Stellenausschreibungen in den Vereinigten Staaten erfolgen mussten – entschied ich mich schon früh, mich auf größere Unternehmen zu konzentrieren, bei denen es offenbar eine größere Heterogenität in meiner Behandlungsvariable gab (d. h eine etwas verteilte Mischung aus Stellenausschreibungen für Vor-Ort-, Hybrid- und Remote-Jobs). Dieser Ansatz machte meine endgültige Stichprobe viel repräsentativer für Beiträge von Unternehmen mit mehr als 10.000 Mitarbeitern, wie ich später weiter unten zeigen werde.
Reinigung
Nach der Erfassung erforderten die Daten einen erheblichen Verarbeitungs- und Bereinigungsaufwand. Glücklicherweise war meine Behandlungsvariable, die Abgeschiedenheit, jedoch sehr zuverlässig verfügbar, mit einer Annahme – dass es sich bei Stellenausschreibungen, bei denen keine Arbeitsvereinbarung angegeben ist, tatsächlich um Vor-Ort-Stellen handelt – und einem zusätzlichen Verarbeitungsschritt. Bei den meisten Stellenausschreibungen wurde die Arbeitseinteilung zuverlässig an einer standardisierten Stelle innerhalb der Stellenausschreibung, in der Nähe der Stellenbezeichnung, angegeben. In einigen Beiträgen wurde jedoch lediglich auf eine Arbeitsvereinbarung hingewiesenin der Berufsbezeichnung selbst, z. B. „Software Engineer (remote)“. Daher wurden die Daten so verarbeitet, dass diese Art von Informationen letztendlich angemessen in den Behandlungsvektoren widergespiegelt wurden. Die Verteilungen dieser Variablen in den Daten vor und nach diesen und vielen anderen Verarbeitungsschritten (der Rest wird unten beschrieben) sind direkt unten angegeben.
Weitere Verarbeitungsschritte umfassten das Löschen von Beobachtungen, denen Werte für bestimmte Schlüsselvariablen fehlten. Stellenausschreibungen, für die kein Wert für die Anzeigedauer erfasst wurde, wurden gelöscht, da diese Variable benötigt wurde, um die Anzahl der Bewerbungen als Tagessätze zu standardisieren. Ebenso wurden Stellenausschreibungen gelöscht, für die keine Bewerberzahl erhoben wurde. Auch Daten zu Stellenausschreibungen, die nur wenige Sekunden nach ihrer Veröffentlichung erfolgten, wurden nicht berücksichtigt.
Es wurde auch daran gearbeitet, Duplikate herauszufiltern. Einige Beiträge wurden während des Datenerfassungsprozesses entweder mehrmals gefunden oder mehrfach auf LinkedIn veröffentlicht. Um dieses Problem anzugehen, habe ich Duplikate anhand der Berufsbezeichnung, des Unternehmens, des Entfernungswerts und des Standorts identifiziert, wobei ich nur das Duplikat behielt, das am längsten gepostet wurde, und alle anderen verwarf.
Schließlich wurden viele weitere Schritte unternommen, um Variablen aus relativ unstrukturierten Daten wie Stellenbeschreibungstexten abzurufen. Dazu gehörten standardisiertere Informationen wie Erfahrungsniveau (angegeben, wenn überhaupt, als Praktikum, Einstiegsniveau, Associate, Mid-Senior-Level, Direktor oder Führungskraft), Unternehmensgröße (angegeben als einer von 1–10 Mitarbeitern, 11–50 Mitarbeitern). , 51–200 Mitarbeiter usw. bis hin zu 10.001+ Mitarbeitern), Branche und Standort. Die letzten drei waren zwar weitgehend intakt, das Erfahrungsniveau jedoch nicht, da etwa ein Drittel der Beiträge keinen der oben aufgeführten von LinkedIn bereitgestellten Werte aufwiesen.
Die für eine bestimmte Rolle erforderliche Berufserfahrung in Jahren war eine aus dem Text der Stellenbeschreibung abgeleitete Variable, die letztendlich dazu diente, das Qualifikationsniveau besser in mein späteres Forschungsdesign einzubeziehen. Um diese Daten zu extrahieren, wurden mehrere Schritte und Annahmen verwendet, von denen die wichtigsten im folgenden Codeteil dargestellt sind. Ich musste beispielsweise Textdarstellungen von Zahlen in Stellenbeschreibungen in Ziffern umwandeln. Darüber hinaus ging ich vereinfachend davon aus, dass Unternehmen für eine Stelle nicht mehr als 17 Jahre Erfahrung benötigen würden. In meinen Daten gibt es davon höchstwahrscheinlich einige Ausnahmen, die aber wahrscheinlich sehr selten sind. Darüber hinaus konnte ich dadurch vermeiden, dass Altersanforderungen in Stellenbeschreibungstexten – die oft als „muss 18 Jahre alt sein“ angegeben werden – mit Anforderungen an die Berufserfahrung verwechselt werden. Endlich, Ich habe außerdem versucht, mit den folgenden regulären Ausdrucksmustern so viele Möglichkeiten wie möglich zu finden, diese Erfahrungsanforderung auszudrücken. Mein Ansatz bei Stellenbeschreibungen mit mehreren Mustern (z. B. „mehr als drei Jahre Erfahrung im Produktmanagement und mehr als fünf Jahre in der Softwareentwicklung“) bestand darin, die angegebene maximale Jahreszahl zu verwenden. Mein gesamter Code ist verlinkthier .
Es gibt keine Möglichkeit, alle Arten der Angabe erforderlicher Qualifikationen in einer Stellenbeschreibung zu berücksichtigen, daher kann man die Ergebnisse wahrscheinlich am besten als Schätzungen bezeichnen. Es hat jedoch zahlreiche Prüfungen verschiedener Stellenbeschreibungen bestanden und stimmt auch recht gut mit der von LinkedIn bereitgestellten, aber unvollständigen Variable zum Erfahrungsniveau überein. Ich finde zum Beispiel, dass Rollen, die auf LinkedIn als Einstiegspositionen gelten, im Durchschnitt etwa 2,5 Jahre Erfahrung erfordern, während Rollen auf Direktorenebene oder höher tendenziell mehr als 6 Jahre Erfahrung erfordern.
Außerdem habe ich Standortinformationen aus einem einheitlichen Ort innerhalb von Stellenausschreibungen herausgesucht und war in der Lage, standardisierte geografische Arbeitsmärkte abzuleiten. Einige Fälle erforderten eine besondere Behandlung und Beurteilung, etwa ob Minneapolis und Saint Paul, Minnesota als ein oder zwei Märkte betrachtet werden sollten und ob Verweise auf eine bestimmte Stadt (z. B. Los Angeles) und Verweise auf deren allgemeines Gebiet (z. B. Los Angeles Metropolitan Area) standardisiert werden sollten ). In Fällen wie diesen beiden Beispielen habe ich mich normalerweise dafür entschieden, Märkte eher umfassend als weniger zu definieren.
Schließlich habe ich auch Variablen entwickelt, die alle Gehaltsinformationen widerspiegeln, die in einer Stellenausschreibung bereitgestellt werden. Sofern vorhanden, wird er entweder als Stunden- oder Jahrestarif oder in einem kleinen Teil der Fälle als garantierter Tarif (z. B. „20 $/Stunde“) bereitgestellt. Dadurch konnte ich die Variablen für die Gehaltsuntergrenze, -obergrenze und den Median zur Verwendung in meiner Analyse analysieren. Die meisten Beiträge enthielten keine Gehaltsinformationen und erhielten daher für diese Variablen den Wert 0.
Während Anstrengungen unternommen wurden, um andere Informationen wie Anforderungen an die Berufsausbildung und Erwähnungen von Vorteilen zu ermitteln (wie in meinem vollständigen Code gezeigt ), beschreibe ich nur die oben genannten, da dies die Variablen waren, die meinem endgültigen Forschungsdesign dienten, das ich später erläutere.
Explorative Datenanalyse
Es ist einfach, sich zunächst die zusammenfassenden Statistiken nach Behandlungswert anzusehen. Wir können schnell erkennen, dass die Fernarbeit bei der Arbeit tatsächlich zumindest mit mehr Bewerbern pro Tag korreliert . Wir sehen unten auch, dass die Anzahl der Bewerbungen pro Tag stark verzerrt ist.
Aber Vor-Ort-, Hybrid- und Remote-Jobs unterscheiden sich zumindest in meinem Datensatz auch durch andere relevante Variablen. Unten sehen wir beispielsweise, dass Stellenausschreibungen mit unterschiedlichen Arbeitsvereinbarungen auch unterschiedliche Gehaltsinformationen enthalten. Remote-Stellenausschreibungen enthalten Gehaltsinformationen zu einem viel höheren Prozentsatz als Stellenausschreibungen vor Ort, und aus welchen Gründen auch immer weisen Hybrid-Stellenausschreibungen, die Gehaltsinformationen enthalten, tendenziell viel höhere Zahlen auf.
Es gibt auch Lücken bei den durchschnittlich geschätzten erforderlichen Erfahrungsjahren bei verschiedenen Behandlungswerten. Insbesondere finde ich, dass Remote-Jobs etwa ein Jahr mehr Erfahrung erfordern als Jobs vor Ort.
Auch bei wichtigen kategorialen Variablen unterscheiden sich Vor-Ort-, Hybrid- und Remote-Stellenausschreibungen. Hier sehen Sie, wie viel von jeder Stichprobe der Behandlungsgruppe durch jedes der fünf am häufigsten vorkommenden Unternehmen, Unternehmensgrößenkategorien, Branchen und Märkte im Datensatz repräsentiert wird. Beispielsweise sind Remote-Entsendungen bei Stellen bei PwC überproportional und Hybrid-Entsendungen bei Stellen bei Deloitte überproportional. (Übrigens gibt es in meinem Datensatz keine offenen Stellen bei Deloitte, die sich ausschließlich auf die Arbeit vor Ort beziehen.)
Es stellt sich auch die Frage, inwieweit sich die Stellenausschreibungen je nach Titel unterscheiden, einem wichtigen Parameter für die Jobsuche und einer Widerspiegelung der Stellenfunktion. Eine Möglichkeit, dies zu visualisieren, sind Wortwolken.
Wir können Unterschiede zwischen allen drei Wortwolken feststellen, von denen einige – Platzierung, Farbe usw. – unwichtig sind, andere jedoch aussagekräftiger sind. Es ist beispielsweise ziemlich klar, dass Software-Engineering-Rollen einen größeren Prozentsatz der Remote-Stellenausschreibungen ausmachen als bei Vor-Ort- und Hybrid-Stellenausschreibungen. Zu beachten ist außerdem, dass Remote-Stellenausschreibungen diese Regelung, wie bereits erwähnt, häufig in der Stellenbezeichnung selbst ankündigen, worauf ich später in meiner Analyse eingehen werde.
Wir können Unterschiede zwischen Berufsbezeichnungen je nach Behandlungsstatus empirischer beobachten, indem wir untersuchen, wie häufig bestimmte Unigramme und Bigramme in jeder Behandlungsunterstichprobe vorkommen. Im Folgenden zeige ich, dass Remote-Stellenausschreibungen neben anderen Ungleichgewichten für eine unverhältnismäßig hohe Anzahl von Software-Engineering-Rollen und eine unverhältnismäßig geringe Anzahl von Techniker-Rollen gelten.
Was diese explorative Datenanalyse aufdeckt, ist, dass der zuvor gezeigte starke Zusammenhang zwischen der Entfernung von Arbeitsplätzen und der Zahl der Bewerber pro Tag tatsächlich auf diese anderen lauernden Unterschiede zurückzuführen sein könnte. Um die Kausalität zu identifizieren, musste mein Forschungsdesign dies daher berücksichtigen. Damit beginne ich in Teil 2 .