リモートで仕事を作ると、はるかに多くの候補者が生まれる (パート 1/3: データ ラングリングと EDA)
現場勤務ではなくリモート勤務の仕事の機会があれば、その仕事への関心が高まるのは、それほど驚くべきことではありません。候補者プールの拡大に加えて、好みもこの違いの大きな原因となる可能性があります。Gallup によると、リモート対応可能な従業員の 6% はオンサイトのみで働くことを好みますが、34% は完全なリモートで働くことを好みます。(60% はハイブリッド構成を好みます。)
しかし、この効果の大きさはどれくらいなのでしょうか?特定の市場、特定の業界の企業が、特定の役割で採用活動を行っている場合、近くに住んでいる人だけではなく、実質的にどこからでも働く候補者に雇用の機会を与えるとしたら、何を期待できるでしょうか? 私は、LinkedIn から求人データを収集して分析することで、この質問に答えようとしました。
コレクション
上記のトピックに経験的に対処するために、私は LinkedIn を有用なデータ ソースとして特定しました。現在、サイトに求人情報を掲載しているほとんどの企業は、求人の勤務形態がオンサイトかハイブリッドかリモートか、また、役職、市場、掲載期間などの他の説明変数の値も指定しています。重要なことは、プレミアム加入者に、応募者の関心に関する情報を応募者数の数字の形で提供することです。
Web ブラウザ自動化ツール Selenium やデータ操作および分析モジュールである pandas など、いくつかの Python プログラミング ライブラリを使用してデータ収集プロセスを合理化しました。上記の変数の値の系統的な識別と記録は、HTML コンテンツのクエリに使用できる言語である XPath を使用して行われます。
私の最初の収集活動は非常に広範なものでしたが、唯一の制限は、投稿が米国に拠点を置く仕事に関するものでなければならないということでした。私は早い段階で、待遇変数により不均一性がありそうな大企業に焦点を当てることにしました。オンサイト、ハイブリッド、およびリモートの仕事の投稿がある程度分散して混在しています)。このアプローチにより、私の最終的なサンプルは、以下に示すように、従業員 10,000 人を超える企業からの投稿をよりよく反映するものになりました。
クリーニング
データを収集した後は、かなりの量の処理とクリーニングが必要でした。しかし幸いなことに、私の治療変数である遠隔性は、1 つの前提条件 (勤務形態を示さない投稿の求人は実際にはオンサイトであるという前提条件) と追加の処理ステップを使用することで、非常に確実に利用可能でした。ほとんどの投稿では、仕事の取り決めは、投稿内の標準化された 1 つの場所、役職名の近くに確実に記載されていました。ただし、一部の投稿では仕事の取り決めのみが示されていました役職自体に含めます (例: 「ソフトウェア エンジニア (リモート)」)。したがって、この種の情報が最終的に治療ベクトルに適切に反映されるようにデータが処理されました。これらおよび他の多くの処理ステップ (残りは後述) が実行される前後のデータ内のこの変数の分布を以下に示します。
実行された他の処理手順には、特定の主要な変数の値が欠如している観測値を削除することが含まれていました。この変数は応募数を日次料金として標準化するために必要であったため、投稿期間の値が収集されなかった求人情報は削除されました。同様に、応募者数が収集されなかった投稿も同様に削除されました。これに関連して、求人情報が掲載されてから数秒後に発生した求人情報も無視されました。
重複を除外する作業も行われました。一部の投稿は、データ収集プロセスで複数回発生したか、LinkedIn に複数回投稿されました。これに対処するために、役職、会社、遠隔性の値、場所に基づいて重複を特定し、最も長く投稿された重複のみを保持し、その他はすべて削除しました。
最後に、職務記述文などの比較的非構造化データから変数を取得するために、他の多くの手順が実行されました。これらには、経験レベル(ある場合は、インターンシップ、エントリーレベル、アソシエイト、中上級レベル、ディレクター、またはエグゼクティブとして指定)、企業規模(従業員 1 ~ 10 人、11 ~ 50 人のいずれかとして指定)など、より標準化された情報が含まれていました。 、従業員数 51 ~ 200 人など、従業員数 10,001 人以上まで)、業界、場所。後者の 3 つはほぼ無傷でしたが、経験レベルは無傷で、投稿の約 3 分の 1 が上記の LinkedIn 提供の値のいずれかを示していませんでした。
特定の役割に必要な経験年数は職務記述書から導き出された変数であり、最終的に私の最終的な研究計画に資格レベルを組み込むより良い方法として役立ちました。このデータを抽出するために、いくつかの手順と仮定が使用されました。そのうちの最も重要なものを以下のコード部分に示します。たとえば、私が行う必要があったことの 1 つは、職務記述書の数字のテキスト表現を数字に変換することでした。さらに、私が使用した単純化された仮定は、企業はある役割に 17 年以上の経験を必要としないというものでした。私のデータにはおそらくいくつかの例外がありますが、おそらく非常にまれです。さらに、これにより、職務記述書の年齢要件(多くの場合「18 歳以上であること」と記載されている)を経験要件と取り違えることを避けることができました。ついに、また、以下の正規表現パターンを使用して、この経験要件をできるだけ多く表現する方法を検出するよう努めました。複数のパターンを含む職務記述書 (例: 「3 年以上の製品管理経験と 5 年以上のソフトウェア開発経験」) に対する私のアプローチは、与えられた最大の年数を取ることでした。コード全体がリンクされていますここで。
必要な資格を職務記述書に記載するすべての方法を説明することは不可能なので、出力はおそらく推定値として参照するのが最適です。ただし、さまざまな職務内容の多数のチェックに合格し、LinkedIn が提供する不完全な経験レベル変数もかなり適切に追跡します。たとえば、LinkedIn で初心者レベルとみなされる役割には平均して約 2.5 年の経験が必要ですが、ディレクターレベル以上の役割には 6 年以上の経験が必要になる傾向があることがわかりました。
また、求人情報内の統一された場所から位置情報を解析し、標準化された地理的な労働市場を導き出すこともできました。一部のケースでは、ミネアポリスとミネソタ州セントポールを 1 つの市場とみなすか 2 つの市場とみなすか、特定の都市 (例: ロサンゼルス) への言及とその一般的なエリア (例: ロサンゼルス都市圏) への言及を標準化するかどうかなど、特別な扱いと判断が必要でした。 )。これら 2 つの例のような場合、私は通常、市場をより広範囲に定義することに決めました。
最後に、求人情報によって提供される給与情報を反映する変数も作成しました。存在する場合、時間単位または年間単位の範囲で提供されるか、ごく一部のケースでは保証料金 (例: 「$20/時間」) として提供されます。その結果、給与範囲の下限値、上限値、および中央値の変数を解析して分析に使用することができました。投稿の大部分では給与情報が提供されなかったため、これらの変数には 0 の値が割り当てられました。
職業教育の要件や福利厚生についての言及 (コード全体に示されているように) などの他の情報を回収する努力が払われましたが、これらは私の最終的な研究設計に役立つ変数であったため、上記のみを説明します。これについては後で説明します。
探索的データ分析
まず、治療値ごとの要約統計を確認するのは簡単です。職場の遠隔化が確かに、少なくとも1 日あたりの応募者数の増加と相関していることがすぐにわかります。以下では、1 日あたりのアプリケーション数が大きく偏っていることもわかります。
しかし、少なくとも私のデータセットでは、オンサイト、ハイブリッド、およびリモートのジョブは、他の関連する変数によっても異なります。たとえば、以下では、勤務形態が異なる求人情報には給与情報も異なることがわかります。リモートの求人情報には、オンサイトの求人情報よりもはるかに高い割合で給与情報が含まれており、何らかの理由で給与情報を提供する求人情報の中でも、ハイブリッド求人情報の数値がはるかに高くなる傾向があります。
また、治療値ごとに推定必要な経験年数の平均値にも差があります。特にリモートの仕事は、現場の仕事よりも1年ほど多くの経験が必要だと感じます。
オンサイト、ハイブリッド、およびリモートの求人情報は、重要なカテゴリ変数に関しても異なります。ここでは、各治療グループのサンプルのうち、データセット内で最も頻繁に出現する 5 つの企業、企業規模のカテゴリ、業界、および市場のそれぞれがどのくらいの割合を占めているかを示します。たとえば、PwC の求人ではリモート ポスティングが不釣り合いに多く、デロイトの求人ではハイブリッド ポスティングが不釣り合いに多くなっています。(ちなみに、実際には、私のデータセットに含まれるデロイトの求人は、厳密にオンサイト作業を対象としたものではありません。)
また、重要な求職パラメータであり職務機能を反映する役職によって、掲載内容がどの程度異なる傾向があるのかという疑問もあります。これを視覚化する 1 つの方法は、ワード クラウドを使用することです。
3 つのワード クラウドすべてに違いがあることがわかります。配置、色など、重要ではないものもありますが、より意味のあるものもあります。たとえば、ソフトウェア エンジニアリングの役割は、オンサイトやハイブリッドの求人よりもリモートでの求人の割合が高いことは明らかです。もう 1 つ注意すべきことは、前述したように、リモートの求人情報では、この取り決めを役職名自体で宣伝していることがよくあります。これについては、後の分析で取り上げます。
各治療サブサンプルで特定のユニグラムとバイグラムがどのくらいの頻度で現れるかを調査することで、治療ステータスによる役職の違いをより経験的に観察できます。以下に、リモートの求人情報で、ソフトウェア エンジニアリングの役割が不釣り合いに多く、技術者の役割が不釣り合いに少ないこと、その他の不均衡を示します。
この探索的なデータ分析で明らかになったのは、先に示した仕事の遠隔性と 1 日あたりの応募者数の増加との間の強い相関関係が、実際にはこれらの他の隠れた違いによって引き起こされている可能性があるということです。したがって、因果関係を特定するには、私の研究デザインでこれを説明する必要がありました。それについてはパート 2で説明します。