リモートで仕事を作ると、はるかに多くの候補者が生まれる (パート 3/3: テキスト分析/役職の一致)
パート 2では、対面での仕事ではなくリモートでの仕事の機会がその仕事への関心にどのように影響するかという研究上の質問に答えるために、粗い完全一致を使用し始めました。私が使用したマッチング変数 (所在地、業界、企業規模、給与情報、必要な経験年数、投稿年齢) は、パート 1で行った単純な探索的データ分析によって示されたタイプの上方バイアスを除去するのに大いに役立ったようです。。ただし、これら 6 つの変数の一致の中でも、職務上の偏りが依然として存在する可能性があります。私のサンプルのリモートの仕事は、遠隔地であることよりも、その仕事の性質によって、より多くの関心を集めるかもしれません。
仕事のこの部分は、ほとんどの人の就職活動における重要な検索パラメータである役職にかなり大きく反映されていると私は主張します。そして、第 2 部の終わりに、各試合の両側でどのような役職が就く傾向があったかを見ると、現場での仕事は、勤務形態ではなく機能のおかげであまり関心を持たれていない職種によって過大に占められている可能性があることがわかります。 。
私の識別戦略の最後の部分で、役職の一致も求めたのはそのためです。これを行うための同様に効果的な方法を 2 つ見つけました。どちらも、役職名のテキスト、つまり、特定の求人タイトルに特定のキーワードが含まれているかどうかを示す列から派生した特徴に基づく距離マッチングに依存していました。1 つ目は、これらの各特徴が単純なダミー変数 (列のキーワードが存在する場合は 1、存在しない場合は 0) と、Jaccard 距離として知られる類似性の有用な定義を必要とします。2 つ目は、さまざまなキーワードの存在だけでなく、その推定重要度に対応する重みも反映する特徴であり、この場合の類似度はユークリッド距離を使用して定義されます。
どちらのアプローチでも、事前に役職をある程度クリーンアップする必要があることに注意してください。パート 1で示したように、リモートの仕事の多くは役職自体で遠隔性を宣伝しているため、類似性をより効果的かつ正確に測定するために、このパートに先立って「リモート」、「ホーム」、「ハイブリッド」などの単語が役職名から削除されました。分析の。そうしないと、勤務形態が異なる類似の仕事でも、役職名に同じ勤務形態が宣伝されておらず、実際よりも異なって見えるため、マッチングが難しくなります。
ジャカード ディスタンス アプローチ
前述したように、私の最初のアプローチは、どの役職にどのキーワードが含まれているかを示す単純なマトリックスを使用して、役職の類似性を判断することでした。
パート 2で示した反復的な一致検索プロセスと同様に、最初の 6 つの変数について潜在的な一致を保持するさまざまな共変量空間を循環しましたが、この場合、これらの空間ごとにテキスト特徴行列も構築し、処理された各観測値を見つけました。このテキスト特徴空間の Jaccard 距離に基づく最近傍 (データ セットの役職内のすべてのユニグラムによって定義されます)。ジャカード類似度としても知られるこれは、2 つの単語セットの共通部分のサイズをそれらのセットの和集合のサイズで割ることによって求められます。たとえば、セット A が「キングスがプレーオフに進出した」ことによって与えられ、セット B が「キングスが 3 シードとしてポストシーズンに進出した」によって与えられた場合、それらのジャカードの類似性は 4/11 になります。
さらに、これに基づいて各処理ユニットの最近傍が特定されるときの決定ルールも実装しました。Jaccard 類似度が 0.4 より大きい場合、一致と見なされます。そうでない場合、その処理された観察には匹敵するのに十分な対照観察が存在せず、無視されました。このしきい値の選択は、バイアスと分散のトレードオフのもう 1 つの例です。帯域幅が緩すぎると、一致が悪くなり、偏りが大きくなります。帯域幅が広すぎると、一致は良くなりますが、一致が少なくなり、分散が大きくなります。
最後に、パート 2で述べたように、この手順では、コントロールの一致が置換によって選択されました。これにより、同じ対照観測値が複数の一致で使用される場合、実質的にサンプルサイズが小さくなるため、分散が大きくなる可能性がありますが、別の処理単位で使用されたかどうかに関係なく、可能な限り最良の一致が選択されるため、偏りは減少します。
この近隣探索プロセスを含むコードの抜粋を以下に示します。決定パラメータ 0.6 は、Jaccard 類似度 0.4 に対応する Jaccard 距離 (1 から Jaccard 類似度を引いた値) の値であることに注意してください。コード全体はここにあります。次に、それぞれの結果を説明する前に、他のテキスト分析アプローチについて説明します。
ユークリッド距離アプローチ
私の 2 番目のアプローチには、さまざまなテキストの特徴を導き出し、それらの特徴を使用してユークリッド距離を計算することが含まれていました。特に、単純なダミー変数の代わりに、用語頻度 - 逆文書頻度の略である tf-idf を使用すると、良好な一致が得られることがわかりました。
このテクニックの効果は、他の多くの観察では現れない単語を強調することです。たとえば、役職名「カスタマー サービス アソシエイト」の方が、「カスタマー サービス担当者」よりも「カスタマー サービス愛好家」との距離が近いとみなした場合、たとえ両方の違いが 1 つの単語だけであっても、「愛好家」という用語は一般的ではないためです。 。これは、役職名に珍しい用語が含まれており、他の用語と比較しにくい可能性がある場合に、役職/職務の類似性を評価する効果的なツールとなります。
このアプローチでは、一致するとみなされるためには、役職間のユークリッド距離が 2 以内であることを要求する決定ルールを設定しました。
結果
いずれかのテキスト類似性アプローチを使用して役職についても照合すると、市場、業界、企業規模、給与情報、必要な経験年数、および投稿年齢のみで照合したパート 2とほぼ同様の推定値が得られます。これは、役職による職責の一致に失敗したことから生じるバイアスがあったとしても、せいぜい無視できる程度のものであることを示している可能性があります。ただし、これらの照合手順は、さまざまなサンプルを反映した推定値にもつながります。たとえば、パート 2のマッチング手順では 9,000 を超える観測値が利用されていましたが、ここでは比較的選択された数の一致に依存しており、それぞれの観測数は約 1,500 です。
以下のように、さまざまな一致を検査し、妥当な組み合わせを見つけることができます。
ユークリッド距離アプローチまたはジャカード距離アプローチのいずれかを使用して決定された一致の多くは、治療ステータスを除くすべての記録された次元で仮想重複であったことは注目に値します。これは、上に示した 3 番目の一致 (最後の 2 行) の場合です。このような種類のマッチングは、企業が実際に同じ職種で異なる勤務形態で採用しているか、企業側のミスによって発生します。いずれにせよ、上記のような非常に許容できる一致が提供されます。
私の研究課題に関連するもう 1 つの興味深い側面は、この効果の推定が市場によって変化するかどうかです。特に、小規模な市場は小規模な応募者によってより多くの制約を受けることを考えると、オンサイトではなくリモートで仕事が行われることによる応募者の関心の高まりは、大きな市場よりも小規模な市場の方が大きいのではないかと私は仮説を立てます。プール。
これを研究するために、まず国勢調査の人口データと Jaccard のリモート/オンサイトのサンプルを結合したところ、特定の市場で人口が 10 万人増えるごとに、私の推定値は約 0.7% 縮小することがわかりました。言い換えれば、私の推定によれば、人口約 160 万人のフェニックスのような市場の効果規模は、シカゴ (人口 ≈ 270 万) やロサンゼルスのような市場よりも 7 パーセント以上大きいということになります。 (人口 ≈ 380 万)、またはニューヨーク(人口 ≈ 850 万)。
第 2 部の方法論が堅牢であり、マッチング要件がそれほど厳密ではないためサンプル サイズが大きくなることが示されたため、市場ごとの効果推定の不均一性をさらに分析するためにそのアプローチを利用することができます。以下に、特定の市場ごとにそのヒントを示します。私は、米国の大都市であるニューヨークとロサンゼルスではその影響が最小に近く、オハイオ州シンシナティやテキサス州フリスコなど、私のサンプルに含まれる小規模市場の一部では影響がより大きいと推定しています。興味深い例外はバージニア州フェニックスとマクリーンのようですが、私のデータにあるこれらの都市の職種に起因する可能性があります。
このアプローチから他の推定値も得られます。まず、対面勤務ではなくリモート勤務の求人の平均効果は、1 日あたりの応募者数が約 75% 増加することがわかりました (exp(.5583)-1)*100)。次に、ハイブリッド ワークに対するこの効果は約 7% であると推定しています。さらに、LinkedIn の Easy apply 機能と Promoted 機能による応募率への影響は、それぞれ約 144% と 40% であると私は推定しています。
最後に、私のマッチング手順の結果、データセット全体とは異なる構成のデータのサブセットが得られ、私の推定値はこれらのサブセットからのものであるため、最終的にマッチングされたサンプルの構成を確認する価値があります。以下では、リモートでマッチングしたサンプルのほとんどが、会計、ソフトウェア開発、金融、ヘルスケア、ウェルネス / フィットネス業界からの求人情報で構成されていることがわかります。一方、私のハイブリッド一致サンプルは、金融、IT、ヘルスケア、小売、防衛および宇宙業界からの求人情報で主に構成されています。
また、各サンプルでどのポジション タイプが多く表示されているかもわかります。
結論
マッチングアプローチを使用して、役職、市場、必要な資格などの求人への関心の主要な決定要因を制御することで、求人機会が遠隔地にあることが応募者の関心に大きな影響を及ぼし、求人機会が応募者の関心に大きな影響を与えるという強力な証拠を見つけたと思います。ハイブリッドには控えめなものがあります。具体的には、求人募集をオンサイトではなくリモートにすると、平均して約 75% の応募者数の増加につながるのに対し、オンサイトではなくハイブリッドにすると平均で約 75% の応募者数の増加につながると推定しています。 %。さらに、私の分析では、これら 2 つの効果のうち 1 つ目は市場規模に応じて地域によって異なることが示されており、小規模市場の企業がリモートワークフォースによってどのようにしてより多くの労働力供給を活用できるのかが明らかになりました。
それでも、私のアプローチにはいくつかの制限があります。まず、私の推定値は主に、比較可能な対照観察が多数存在する処理済み観察のサブセット (たとえば、ソフトウェア開発、情報技術、金融業界におけるソフトウェア エンジニアリングの役割など) に当てはまります。これは、私のオンサイトおよびリモートの求人サブサンプルの大部分と小部分をそれぞれ構成する役割とはまったく対照的です。私の最初のブログ投稿の図 4 まで遡ってみると、これらの役割の例としては、店舗マネージャー、技術者、看護師などが挙げられます。
私の推定の不偏性は、交絡する可能性のある変数をどの程度うまく制御できたかにも依存します。応募者の関心を決定するものと、待遇に関連するもの、つまり仕事がオンサイトかハイブリッドかリモートかに相関する変数の両方で一致しなかった変数がある場合、私の推定値はある程度偏っています。また、必要な照合変数を指定したとしても、ビンが広すぎる場合や、役職照合の場合、0.6 Jaccard 距離の帯域幅/キャリパーが大きすぎる場合には、変数は完全には制御されません。
以上のことを踏まえると、これらの仮定が満たされていると考える理由があると思います。パート 2で指定したビンはかなり狭いと思います。さらに、投稿期間中の最も幅広いものは、主に試合間のノイズを最小限に抑えることです。この変数が確かに 1 日あたりの申請者数を予測することを示しましたが、それが治療と相関する理由はありません。さらに、役職一致アプローチ (つまり、なし、ジャカード類似性、ユークリッド距離) に関係なく、私の推定値がかなり安定していることも安心です。
結果として、私の結果は、これがより興味深い発見ができる領域であることを示していると思います。この効果が、職種、業界、年功レベルなど、市場以外の側面によってどのように異なるかを確認するために、追加の調査が行われる可能性があります。さらに、市場規模による治療効果の変動に関連して、これらの効果のどの部分が利用可能な候補者の増加によって引き起こされ、どの部分が私が私の冒頭で引用した好みによって引き起こされているかを解析するために、より多くの分析が行われる可能性があります。最初のブログ投稿。