Einen Job aus der Ferne zu erledigen, führt zu viel mehr Kandidaten (Teil 2 von 3: Vergröbertes exaktes Matching)

May 13 2023
In meinem letzten Beitrag habe ich gezeigt, dass die Entfernung einer Arbeitsmöglichkeit tatsächlich mit einem viel größeren Interesse der Bewerber zusammenhängt, aber ich habe auch gezeigt, warum dieser Zusammenhang irreführend sein könnte oder vielleicht zumindest ein übertriebener Hinweis darauf ist, was ein Unternehmen vernünftigerweise von Bewerbern erwarten kann Interesse, wenn dadurch eine Stellenausschreibung aus der Ferne statt vor Ort erfolgt. Stellenausschreibungen mit unterschiedlich ausgeschriebenen Arbeitsvereinbarungen – vor Ort, hybrid oder remote – unterscheiden sich zumindest in meiner Stichprobe tendenziell auch in Bezug auf andere Faktoren, die das Interesse an einer Stellenausschreibung wecken, angefangen bei der erforderlichen Erfahrung bis hin zu den Branchen Sie wissen, welche Titel sie tendenziell tragen.
Quelle

In meinem letzten Beitrag habe ich gezeigt, dass die Entfernung einer Stellenausschreibung tatsächlich mit einem viel größeren Interesse der Bewerber zusammenhängt, aber ich habe auch gezeigt, warum dieser Zusammenhang irreführend sein könnte oder vielleicht zumindest ein übertriebener Hinweis darauf ist, was ein Unternehmen vernünftigerweise von Bewerbern erwarten kann Interesse, wenn dadurch eine Stellenausschreibung aus der Ferne statt vor Ort erfolgt. Stellenausschreibungen mit unterschiedlich ausgeschriebenen Arbeitsvereinbarungen – vor Ort, hybrid oder remote – unterscheiden sich zumindest in meiner Stichprobe tendenziell auch in Bezug auf andere Faktoren, die das Interesse an einer Stellenausschreibung wecken, angefangen bei der erforderlichen Erfahrung bis hin zu den Branchen Sie wissen, welche Titel sie tendenziell tragen.

Oft scheinen diese Unterschiede darauf hinzudeuten, dass es sich bei der einfachen Differenz der Mittelwerte, die ich zu Beginn meiner EDA in Teil 1 vorgenommen habe , um eine nach oben gerichtete Schätzung handelt. Nehmen wir zum Beispiel die Industrie. Wir haben festgestellt, dass sich etwa 14 % der Remote-Stellenausschreibungen auf Stellen in der Softwareentwicklung beziehen, während sich weniger als 5 % auf Stellen im Einzelhandel beziehen, was in diesen beiden Bereichen im Vergleich zu Stellenausschreibungen vor Ort eine Über- bzw. Unterrepräsentation darstellt. Dies könnte man vielleicht ignorieren, wenn die Industrie nicht ein entscheidender Faktor für das Interesse der Arbeitnehmer wäre, aber im Durchschnitt ist sie es wahrscheinlich.

Während die lineare Regression eine sehr effektive Möglichkeit ist, Kovariaten wie in diesem Fall die Industrie konstant zu halten, um eine unvoreingenommene Schätzung des von Ihnen untersuchten Effekts zu erhalten, habe ich mich in meinem Fall aus mehreren Gründen für Matching als passenderen Ansatz entschieden.

Matching-Methodik

Ein einfacher Vorteil des Matchings besteht darin, dass es im Kern recht intuitiv und leicht zu erklären ist. Beobachtungen, die in Bezug auf Schlüsselvariablen wie Branche, Markt, Bezahlung usw. gleich oder ähnlich sind, sich aber in der Behandlung unterscheiden, dienen in gewisser Weise als kontrafaktische Gegenstücke zueinander. Schätzungen auf Beobachtungsebene, die sich aus dem Vergleich von Übereinstimmungen auf diesen Grundlagen ergeben, wären natürlich ziemlich verrauscht, aber bei einer großen Stichprobengröße und unter Berücksichtigung der richtigen Variablen sollte dies zu einer unvoreingenommenen Schätzung des Behandlungseffekts führen.

Ein weiterer Vorteil des Matchings in meinem Fall besteht darin, dass es nicht parametrisch ist. Anders als bei der linearen Regression war keine Spezifikation erforderlich, die besagt, dass Kovariaten linear mit dem Ergebnis zusammenhängen. Indem Sie diese Kovariaten abgleichen, können Sie sie konstant halten, um den Effekt zu identifizieren, an dem Sie interessiert sind. Darüber hinaus bestand auch keine Notwendigkeit, Dutzende von Dummy-Variablen anzugeben oder meine Daten nur auf die in meiner Stichprobe am häufigsten vorkommenden Branchen (die wir zuvor gesehen haben, waren Finanzen und Krankenhäuser/Gesundheitswesen) oder Märkte (New York City und Chicago) zu beschränken; Durch das Matching konnte ich einen größeren Teil des Kovariatenraums auf Übereinstimmungen zu Branche, Markt und anderen Schlüsselvariablen untersuchen.

Zu den entscheidenden Schritten gehören zunächst die Identifizierung dieser Schlüsselvariablen und die Entscheidung, wie eine tatsächliche Übereinstimmung erzielt werden soll – entweder durch Minimierung der Distanz im Kovariatenraum oder durch Maximierung der Ähnlichkeit der Neigungswerte. Obwohl ich schon früh zahlreiche Funktionen aus den Daten entwickelt habe, kam ich zu dem Schluss, dass fünf Variablen ausreichen könnten: Markt, Branche, Unternehmensgröße, Gehaltsinformationen und erforderliche Berufserfahrung. Ich habe mich auch für den Distanzabgleich entschieden und bin zu dem Schluss gekommen, dass die Modellierung von Neigungswerten in diesem Umfeld (d. h. der Wahrscheinlichkeit, dass es sich bei jedem Job um einen Remote- oder Hybridjob handelt) möglicherweise zu schwierig ist. Insbesondere habe ich ein vergröbertes Exact-Matching-Framework verwendet.

Für meine kategorialen Variablen Markt, Branche und, im Fall von LinkedIn, Unternehmensgröße (z. B. 10.001+ Mitarbeiter, 501–10.000 Mitarbeiter usw.) sind dieser Ansatz und die Begründung ziemlich einfach. Beiträge mit unterschiedlichem Behandlungsstatus passen nur dann zusammen, wenn sie aus demselben Markt und derselben Branche stammen und von Unternehmen derselben Größenklasse stammen. Der Markt ist eine wichtige geografische Determinante/Einschränkung für das Interesse an Stellenangeboten (zumindest für Vor-Ort- und Hybridjobs). Mittlerweile bestimmen Branche und Unternehmensgröße das Bewerberinteresse anhand von Präferenzen und Fähigkeiten. Indem wir Beobachtungen zu diesen Kategorien abgleichen, können wir sicherstellen, dass sie keine Verzerrungen hervorrufen und unsere Schätzungen beeinflussen.

Etwas komplizierter und weniger sicher sind die Dinge, wenn es um kontinuierliche Variablen geht – in meinem Fall um Gehaltsinformationen und die erforderliche Berufserfahrung. Es wird, wenn überhaupt, nur sehr wenige Beobachtungen geben, die genau die gleichen Gehaltsinformationen und/oder genau die gleichen erforderlichen Berufsjahre aufweisen. Unterscheidet sich ein Job, der beispielsweise fünf Jahre Erfahrung erfordert, stark von einem Job, der sechs Jahre Berufserfahrung erfordert? Wahrscheinlich nicht. Um diese Variablen abzugleichen, kann man sie daher als zu einer von mehreren Klassen gehörend kategorisieren.

Die Entscheidung über die Klassengröße ist eine Frage der Voreingenommenheit gegenüber der Varianz. Wenn die Klassen zu klein sind, d. h. Sie möchten, dass die Beobachtungen bei diesen kontinuierlichen Variablen zu ähnlich sind, werden nur wenige Übereinstimmungen gefunden, was zu einer hohen Varianz führt. Wenn die Abschnitte jedoch zu groß sind, was bedeutet, dass sehr unterschiedliche Beobachtungen dieser Variablen übereinstimmen, führt dies zu einer verzerrten Schätzung, da Sie die Kontrolle für diese Variablen nicht erfolgreich durchgeführt haben.

Am Ende habe ich für die Gehaltsinformationen einen Abgleich mit dem Bereichsmedian vorgenommen, indem ich 10.000 $ breite Klassen von 0 bis 250.000 $ erstellt habe, 0 $ für diejenigen zugewiesen habe, denen Gehaltsinformationen fehlten – was, wie ich mich aus Teil 1 erinnere, den Großteil meiner Stichprobe ausmachte – und eine Klasse von 250.000 $+ für Beiträge mit den höchsten Medianwerten. Ich ging davon aus, dass dies sicherstellen würde, dass keine Beobachtungen mit völlig unterschiedlichen Gehaltszahlen abgeglichen würden, wohl aber einige mit geringfügig unterschiedlichen Mittelwerten (und möglicherweise sehr unterschiedlichen Unter- und Obergrenzen). Für die erforderliche Berufserfahrung habe ich Gruppen mit [0, 3], (3, 6], (6, 9] und 10+ erstellt, in der Hoffnung, dadurch sicherzustellen, dass es keine Stellenausschreibungen auf Direktoren- und Einstiegsebene gibt zum Beispiel passend sein.

Während die Zuordnung dieser fünf Variablen unweigerlich einen großen Beitrag zur Erlangung einer unvoreingenommenen Schätzung des Behandlungseffekts leistete, mussten weitere Schritte unternommen werden. Eine davon bezog sich auf meine Ergebnisvariable, Anwendungen pro Tag.

Bewerbungen pro Tag

Da Stellenausschreibungen seit ihrer ersten Veröffentlichung zu unterschiedlichen Zeitpunkten beobachtet wurden, war es wichtig, die Bewerberquoten zu standardisieren. Anfangs dachte ich, dass dies allein die nach Tagen und sogar Wochen getrennten Beiträge vergleichbar machen würde, wenn alles andere gleich wäre. Am Ende fand ich jedoch einen klaren Zusammenhang zwischen der Anzahl der Bewerber pro Tag und der Verweildauer einer Stellenausschreibung. Insbesondere tendieren neuere Stellenangebote (z. B. solche, die beispielsweise sechs Stunden vor der Beobachtung veröffentlicht wurden) dazu, innerhalb von 24 Stunden eine wesentlich größere Anzahl von Bewerbern zu erhalten als ältere Stellenangebote (z. B. solche, die zwei Wochen vor der Beobachtung veröffentlicht wurden). Dies kann auf eine Kombination aus drei Gründen zurückzuführen sein: Das Empfehlungssystem von LinkedIn bevorzugt neuere Beiträge, ein überproportionales Interesse an einem Beitrag stellt sich sehr früh ein,

Was auch immer der Grund sein mag, es wäre wichtig, dies in meiner abschließenden Analyse zu berücksichtigen. Andernfalls würde viel Rauschen in die Endspiele gelangen, was es deutlich schwieriger machen würde, eine genaue Schätzung des Behandlungseffekts zu erhalten. Aufgrund des oben dargestellten Trends habe ich beschlossen, auch danach zu suchen, ob ein Beitrag älter als einen Tag ist, und so eine Reihe ungeeigneter Übereinstimmungen zu vermeiden.

Passend: Teil 1

Um Übereinstimmungen für die sechs Variablen Markt, Branche, Unternehmensgröße, erforderliche Berufserfahrung, Gehaltsinformationen und Posting-Alter zu identifizieren, habe ich Bereiche im Kovariatenraum mit Behandlungsvarianz identifiziert. Dies erfolgte in zwei Schritten: erstens durch Gruppierung nach diesen sechs Variablen plus Behandlung und zweitens durch Filterung nach Duplikatbereichen nur auf der Grundlage dieser sechs Variablen. Unten finden Sie den Code, den ich zum Ausführen von Schritt eins verwendet habe, sowie ein Beispiel seiner Ausgabe.

Codeausschnitt 1: Kovariatenräume identifizieren

Schritt zwei sorgt dafür, dass, soweit die Werte in der obigen Tabelle gelten, nur Stellenausschreibungen im fett gedruckten Kovariatenraum beibehalten werden, da es keine Behandlungsvarianz und daher keine möglichen Übereinstimmungen in den anderen Unterräumen gibt.

Codeausschnitt 2: Identifizieren von Kovariatenräumen mit Behandlungsvarianz

Ich konzentriere mich nun auf diese Unterbereiche mit Behandlungswertvarianz, iteriere dann durch jeden und ordne jeder Remote-Stellenausschreibung eine Kontrollstellenausschreibung in demselben Unterraum zu. Es ist erwähnenswert, dass diese Matching-Zuweisung ersatzlos erfolgt, was im Gegensatz zu meinem endgültigen Matching-Prozess steht, der in Teil 3 gezeigt wird. Den Code für diesen iterativen Prozess zeige ich unten.

Codeausschnitt 3: Früher Matching-Versuch

Mit einer passenden Stichprobe aus dem oben genannten Prozess kann ich abschätzen, welche Auswirkungen es auf das Bewerberinteresse hat, wenn eine Stellenausschreibung aus der Ferne statt vor Ort angeboten wird, zusammen mit den Auswirkungen, wenn eine Stellenausschreibung auf LinkedIn „beworben“ wird oder ein „Einfach“ erscheint Bewerben“-Funktion.

Vorläufige Schätzungen aus dem Abgleich von sechs Variablen: Markt, Branche, Unternehmensgröße, Gehaltsinformationen, geleistete Arbeitszeit und erforderliche Berufserfahrung.

Diese Ausgabe steht im Einklang mit den zuvor aufgestellten Hypothesen. Erstens stellen wir tatsächlich fest, dass eine Stellenausschreibung, die aus der Ferne statt vor Ort angeboten wird, zu einem erheblichen Anstieg des Bewerberinteresses führt. Konkret gehen wir von einem Anstieg der täglichen Bewerber um ca. 59 % aus. (Während die logarithmische Näherung der Multiplikation des logarithmischen Spezifikationskoeffizienten mit 100 einen Anstieg von 46,5 % anzeigt, schlägt diese Näherung bei Effektgrößen dieser Größenordnung fehl. Stattdessen muss man 1 vom potenzierten Koeffizienten subtrahieren, bevor man mit 100 multipliziert.) Zweitens: Obwohl dieser Anstieg groß ist, ist er weitaus kleiner als der etwa 300-prozentige Anstieg, der durch eine einfache Differenz der Mittelwerte impliziert wird, die zu Beginn des EDA-Abschnitts in Teil 1 angegeben wurde. Auch wenn die Werbeaktionen und die Funktion „Einfache Bewerbung“ von LinkedIn nicht zu meinem Schwerpunkt gehören, ist es dennoch interessant zu beobachten, wie stark das Interesse der Bewerber dadurch gesteigert wird. Für Ersteres schätze ich einen Anstieg der täglichen Bewerber um etwa 25 %, für Letzteres schätze ich einen Anstieg von etwa 160 %.

Allerdings bleibt die Qualität der Spiele selbst fraglich. Nehmen Sie zum Beispiel dieses hier.

Wie geplant gibt es Überschneidungen bei Unternehmensinformationen und Markt sowie beim Veröffentlichungsalter, den erforderlichen Jahren und den Gehaltsinformationsfächern. Abgesehen davon unterscheiden sich die beiden Stellenangebote jedoch hinsichtlich ihrer Funktion erheblich, wie Beispiele aus ihren Stellenbeschreibungen belegen. Der neue Mitarbeiter für die oberste Position soll neben anderen Aufgaben „eine Technologievision und -strategie für eine Lösung oder einen Geschäftsbereich entwickeln“, während der Mitarbeiter für die unterste Rolle „für die Implementierung und/oder Produktionsunterstützung aller Module von Oracle verantwortlich ist“. ERP-Anwendungen.“

Wenn es einen systemischen Unterschied in den Arbeitsfunktionen zwischen Remote- und Vor-Ort-Jobs gibt, der auch das Interesse an einer Arbeitsmöglichkeit erklärt, würde dies zu einer Verzerrung unserer Schätzungen führen und sollte daher berücksichtigt werden. Nehmen Sie dieses andere Spiel als weiteres Beispiel.

Diese beiden Jobs unterscheiden sich funktional und – was sowohl die Unvollkommenheit meiner Kolumne „Jahreserfahrung“ als auch die Tatsache, dass Unternehmen dies nicht immer als Schlüsselqualifikation in den Stellenbeschreibungen angeben – zeigt, hinsichtlich der erforderlichen Qualifikationen, sind aber dennoch deckungsgleich. Darüber hinaus gibt es hier noch den Unterschied bei den Bewerbern pro Tag zwischen den beiden Stellentypen.

Wenn solche Diskrepanzen weit verbreitet sind, würde das meine Schätzungen nach oben verzerren. Ich versuche, diese Art von Matching-Bias in meinem nächsten Beitrag anzugehen – nicht mit dem sehr unstrukturierten Text der Stellenbeschreibung, sondern mit der Berufsbezeichnung.