リモートでジョブを作成すると、はるかに多くの候補者が得られます (パート 2/3: 粗い完全一致)
前回の投稿で、私は、求人の遠隔性が確かに応募者のより多くの関心と相関していることを示しましたが、この相関関係が誤解を招く可能性がある、あるいはおそらく少なくとも応募者に関して企業が合理的に期待できることを誇張して示している可能性がある理由も示しました。それによって求人が現場ではなく遠隔地になれば、関心が高まるでしょう。オンサイト、ハイブリッド、リモートなど、さまざまな勤務形態が宣伝されている求人情報は、少なくとも私のサンプルでは、必要な経験の量からどの業界に至るまで、求人情報への興味を引くその他の要素も異なる傾向があります。彼らは自分がどのような肩書きを持つ傾向があるのかを考えています。
多くの場合、これらの違いは、パート 1の EDA の開始時に行われた平均値の単純な違いが、上方に偏った推定であることを示しているように見えます。産業を例に考えてみましょう。リモートの求人情報の約 14% がソフトウェア開発の職種に関するものである一方、小売業の職種に関するものは 5% 未満であることがわかりました。これは、現場の求人情報と比較して、これら 2 つの分野ではそれぞれ過大および過小評価を表しています。業界が労働者の利益を決定する要因でないのであれば、これは無視しても問題ないかもしれませんが、平均的にはおそらくそうなのでしょう。
線形回帰は、この場合の業界などの共変量を一定に保ち、研究対象の効果の不偏推定値を得る非常に効果的な方法ですが、私の場合は、複数の理由により、より適切なアプローチとしてマッチングを採用することにしました。
マッチング方法論
マッチングの単純な利点の 1 つは、本質的に非常に直感的で説明が簡単であることです。業界、市場、給与などの主要な変数に関しては同一または十分に類似しているが、扱いが異なる観察は、ある意味で相互に反事実として機能します。これらの基準に基づいて一致を比較することから得られる観察レベルの推定値には、もちろんかなりのノイズが含まれますが、サンプルサイズが大きい場合、適切な変数が制御されている限り、偏りのない治療効果の推定値が得られるはずです。
私の場合のマッチングのもう 1 つの利点は、ノンパラメトリックであることです。線形回帰とは異なり、共変量が結果に線形に関連しているという仕様は必要ありませんでした。これらの共変量を照合することで、共変量を一定に保ち、関心のある効果を特定することができます。さらに、数十のダミー変数を指定したり、サンプル内で最も頻繁に発生する業界 (先ほど見たのは金融、病院/ヘルスケア) や市場 (ニューヨーク市とシカゴ) のみにデータを限定したりする必要もありませんでした。マッチングにより、業界、市場、その他の主要な変数に一致する共変量空間をさらに詳しく調べることができました。
重要な手順には、最初にこれらの重要な変数を特定することと、共変量空間内の距離を最小化するか傾向スコアの類似性を最大化することによって、実際に一致させる方法を決定することが含まれます。私はデータから多数の特徴を設計しましたが、早い段階で、市場、業界、企業規模、給与情報、必要な経験年数という 5 つの変数で十分であると判断しました。また、この設定で傾向スコア (つまり、各ジョブがリモートまたはハイブリッドである確率) をモデル化するのは難しすぎるのではないかと考え、距離マッチングに落ち着きました。特に、粗くした完全一致フレームワークを使用しました。
私のカテゴリ変数である市場、業界、そして LinkedIn の場合は企業規模 (従業員 10,001 人以上、従業員 501 ~ 10,000 人など) にとって、このアプローチと理論的根拠は非常に簡単です。異なる待遇ステータスの投稿は、同じ市場および業界に拠点を置き、同じ規模のカテゴリにある企業の場合にのみ一致します。市場は、求人への関心を決定する重要な地理的決定要因/制約です (少なくともオンサイトおよびハイブリッドの仕事では)。一方、業界や企業の規模によって、好みやスキルセットに基づいて応募者の興味が決まります。これらのカテゴリーの観察結果を照合することで、推定値に影響を与える偏りがないことを確認できます。
連続変数、つまり私の場合、給与情報と必要な経験年数に関しては、問題は少し複雑で確実性が低くなります。まったく同じ給与情報や必要な経験年数がまったく同じ観察結果は、あったとしてもごくわずかです。しかし、たとえば経験年数が必要な場合、5 年の経験が必要な仕事と 6 年の経験が必要な仕事は大きく異なりますか? おそらくそうではありません。したがって、これらの変数を照合するには、変数を複数のビンの 1 つに属するものとして分類できます。
ビン サイズの決定は、バイアスと分散の問題です。ビンが小さすぎる場合、つまりこれらの連続変数での観測値が類似しすぎることを求めている場合、検出される一致は少なくなり、分散が大きくなります。ただし、ビンが大きすぎる場合、つまりこれらの変数に関してまったく類似していない観測値が一致する場合、これらの変数を適切に制御できていないため、推定に偏りが生じます。
最終的に、給与情報については、0 ドルから 250,000 ドルまでの 10,000 ドル幅のビンを作成し、給与情報が不足しているものには 0 ドルを割り当てて、範囲の中央値に一致させました。パート 1 で思い出したように、これがサンプルの大部分でした。最高中央値の投稿には 250,000 ドル以上。これにより、給与額が大幅に異なる観測値は一致しないが、平均値がわずかに異なる (おそらく範囲の下限と上限が非常に異なる) 観測値は一致するだろうと考えました。必要な経験年数に応じて、[0, 3]、(3, 6]、(6, 9]、および 10+) のビンを作成しました。これにより、ディレクター レベルおよびエントリー レベルのポジションの投稿がなくなることを期待していました。インスタンス、一致している。
これら 5 つの変数を照合することは必然的に、公平な治療効果推定値を得るのに大いに役立ちましたが、さらに多くのステップを踏む必要がありました。1 つは、結果変数である 1 日あたりの申請数に関連したものです。
1 日あたりのアプリケーション数
求人情報は最初に掲載されてからさまざまな時期に観察されたため、応募率を標準化することが重要でした。当初、私はこれだけで、他のすべてが同じであれば、数日または数週間で区切られた投稿を比較できるようになると考えていました。しかし、最終的には、求人広告の 1 日あたりの応募者数と求人掲載期間との間に明確な関係があることがわかりました。具体的には、新しい求人(例えば、観察の6時間前に掲載されたもの)は、古い求人(例えば、観察の2週間前に掲載されたもの)よりも24時間当たりの応募者数が大幅に多い傾向にあります。これはおそらく次の 3 つの理由の組み合わせによるものです。LinkedIn の推奨システムでは新しい投稿が優先されること、投稿に対する不釣り合いな関心が非常に早い段階で顕在化すること、
理由が何であれ、最終分析ではこれを説明することが重要です。そうしないと、最終的な一致に多くのノイズが入り込み、正確な治療効果の推定を行うことがはるかに困難になります。上記のグラフの傾向を観察して、投稿が 1 日より古いかどうかも照合することで、いくつかの不適切な照合を回避することにしました。
マッチング: パート 1
市場、業界、企業規模、必要な経験年数、給与情報、投稿年齢の 6 つの変数で一致するものを特定するために、共変量空間内の治療差異のある領域を特定しました。これは 2 つのステップで行われました。1 つ目はこれらの 6 つの変数と処理によってグループ化し、2 つ目はそれらの 6 つの変数のみに基づいて重複領域をフィルタリングすることです。以下は、ステップ 1 の実行に使用したコードとその出力のサンプルです。
ステップ 2 では、上の表の値に関する限り、太字の共変量空間内の求人情報のみが保持されるようにします。これは、治療の差異がなく、したがって他の部分空間に一致する可能性がないためです。
ここで、処理値の差異のあるこれらのサブスペースに焦点を当て、それぞれを反復処理して、同じサブスペース内の各リモート求人情報にコントロール求人情報を割り当てます。このマッチング割り当ては置換なしで行われることに注目してください。これは、パート 3 で示す最終的なマッチング プロセスとは対照的です。この反復プロセスのコードを以下に示します。
上記のプロセスで一致したサンプルを入手すれば、求人情報がオンサイトではなくリモートで提供されることによる応募者の関心への影響と、求人情報が LinkedIn 上で「宣伝」されているか、または「簡単」であることによる影響を推定できます。適用」機能。
この出力は、以前に与えられた仮説と一致しています。まず、雇用機会が現場ではなく遠隔地にあると、応募者の関心が大幅に高まることが実際にわかりました。具体的には、1 日あたりの応募者数が約 59% 増加すると推定しています。(対数レベルの仕様係数に 100 を乗算する対数近似は 46.5% の増加を示しますが、この近似はこの規模の効果サイズでは失敗します。代わりに、100 を乗算する前にべき乗された係数から 1 を引く必要があります。) 次に、この増加は大きいものの、パート 1の EDA セクションの冒頭で示された単純な平均値の違いによって暗示される約 300% の増加よりもはるかに小さいです。。最後に、LinkedIn のプロモーションと簡単応募機能は私の焦点ではありませんが、それぞれが応募者の関心をどれだけ高めることが観察されているかに注目するのは興味深いことです。前者については、毎日の応募者数が約 25% 増加すると推定し、後者については約 160% 増加すると推定しています。
ただし、試合そのものの質については疑問が残る。たとえばこれを見てみましょう。
設計どおり、企業情報と市場、投稿年齢、所要年数、有料情報ボックスに重複があります。しかし、それ以外では、職務内容のサンプルから明らかなように、2 つの雇用機会は機能面で大きく異なります。一番上の役割の新入社員は、とりわけ「ソリューションまたはビジネスドメインのテクノロジービジョンと戦略の構築」を担当し、一番下の役割の新入社員は「Oracle のモジュールの実装および/または運用サポートの責任を負う」 ERP アプリケーションです。」
リモートでの仕事とオンサイトでの仕事の間に、仕事の機能に体系的な違いがあり、それが仕事の機会への関心を説明するものである場合、それは推定値にバイアスを導入することになるため、考慮する必要があります。この他の試合を別の例として取り上げます。
これら 2 つの仕事は機能的にはまったく異なり、私の経験年数欄が不完全であること、および/または企業がこれを職務記述書の重要な資格として必ずしも表現していないことの両方を示していますが、必須資格という点では、それでもなお一致しています。さらに、2 つの職種タイプ間の 1 日あたりの応募者数の違いは次のとおりです。
このような不一致が蔓延すると、私の推定値は上方に偏ることになります。次回の投稿では、非常に構造化されていない職務記述文ではなく、役職名を使用して、この種のマッチングバイアスに対処しようとします。