Faire un travail à distance mène à beaucoup plus de candidats (Partie 1 sur 3 : Data Wrangling et EDA)
Il ne devrait pas être aussi surprenant qu'une opportunité d'emploi pour le travail à distance au lieu d'un travail sur site suscite plus d'intérêt. Parallèlement à un bassin de candidats élargi, les préférences sont également à l'origine d'une grande partie de cette différence. Selon Gallup , 6 % des employés capables de travailler à distance préfèrent travailler exclusivement sur site, mais 34 % préfèrent travailler entièrement à distance. (60 % préfèrent un arrangement hybride.)
Mais quelle est la taille de cet effet ? À quoi une entreprise sur un marché donné, dans une industrie donnée, qui embauche pour un poste spécifique, peut-elle s'attendre si elle ouvre une opportunité d'emploi à des candidats travaillant de pratiquement n'importe où au lieu de seulement ceux qui vivent à proximité ? J'ai cherché à répondre à cette question en collectant et en analysant les données d'offres d'emploi de LinkedIn.
Collection
Pour aborder le sujet ci-dessus de manière empirique, j'ai identifié LinkedIn comme une source de données utile. De nos jours, la plupart des entreprises qui publient des offres d'emploi sur le site précisent si le mode de travail de l'emploi est sur place, hybride ou à distance, ainsi que des valeurs pour d'autres variables explicatives telles que le titre du poste, le marché et la durée affichée. Surtout, il fournit également aux abonnés premium des informations sur l'intérêt des candidats sous la forme d'un nombre de candidats.
J'ai rationalisé mon processus de collecte de données avec quelques bibliothèques de programmation Python, notamment l'outil d'automatisation de navigateur Web Selenium et pandas, un module de manipulation et d'analyse de données. L'identification systématique et l'enregistrement des valeurs des variables mentionnées ci-dessus se sont produits via l'utilisation de XPath, un langage que l'on peut utiliser pour interroger le contenu HTML.
Bien que mes efforts initiaux de collecte aient été très larges - la seule limite étant que les annonces devaient concerner des emplois basés aux États-Unis - j'ai décidé très tôt de me concentrer sur les grandes entreprises, où il semblait y avoir plus d'hétérogénéité dans ma variable de traitement (c'est-à-dire un mélange quelque peu distribué d'affichages pour des emplois sur place, hybrides et à distance). Cette approche a rendu mon échantillon final beaucoup plus représentatif des offres d'entreprises de plus de 10 000 employés, comme je le montre plus loin ci-dessous.
Nettoyage
Une fois collectées, les données ont nécessité une bonne quantité de traitement et de nettoyage. Heureusement, cependant, ma variable de traitement, l'éloignement, était disponible de manière très fiable avec une hypothèse - que les emplois pour les affichages n'indiquant pas d'arrangement de travail sont en fait sur place - et une étape de traitement supplémentaire. Pour la plupart des affichages, les conditions de travail étaient données de manière fiable à un endroit normalisé dans l'affichage, près du titre du poste. Cependant, certains affichages n'indiquaient qu'un régime de travaildans le titre du poste lui-même, par exemple "Ingénieur logiciel (distant)". Par conséquent, les données ont été traitées de manière à ce que ce type d'informations soit finalement reflété de manière appropriée dans les vecteurs de traitement. Les distributions de cette variable dans les données avant et après ces étapes de traitement et de nombreuses autres (dont le reste est décrit ci-dessous) ont été prises sont données directement ci-dessous.
D'autres étapes de traitement ont consisté à supprimer les observations qui manquaient de valeurs pour certaines variables clés. Les offres d'emploi pour lesquelles aucune valeur de durée d'affichage n'a été collectée ont été supprimées, car cette variable était nécessaire pour normaliser le nombre de candidatures en tant que taux quotidiens. De même, les affichages pour lesquels un nombre de candidats n'a pas été collecté ont également été supprimés. Dans le même ordre d'idées, les données sur les offres d'emploi qui se sont produites quelques secondes après leur publication ont également été ignorées.
Un travail a également été fait pour filtrer les doublons. Certaines publications ont soit été publiées plusieurs fois dans le processus de collecte de données, soit publiées plusieurs fois sur LinkedIn. Pour résoudre ce problème, j'ai identifié les doublons sur la base du titre du poste, de l'entreprise, de la valeur d'éloignement et de l'emplacement, en ne conservant que le doublon qui avait été affiché le plus longtemps et en supprimant tous les autres.
Enfin, de nombreuses autres mesures ont été prises pour récupérer des variables à partir de données relativement non structurées telles que le texte de description de poste. Celles-ci comprenaient des informations plus standardisées telles que le niveau d'expérience (donné, le cas échéant, en tant que stage, niveau d'entrée, associé, niveau intermédiaire, directeur ou cadre), la taille de l'entreprise (donnée comme l'un des 1 à 10 employés, 11 à 50 employés , 51 à 200 employés, etc., jusqu'à 10 001 employés et plus), l'industrie et l'emplacement. Alors que ces trois derniers étaient tout à fait intacts, le niveau d'expérience ne l'était pas, avec environ un tiers des publications n'indiquant pas l'une des valeurs fournies par LinkedIn énumérées ci-dessus.
Les années d'expérience requises pour un rôle donné étaient une variable dérivée du texte de la description de poste qui a fini par servir de meilleur moyen d'intégrer le niveau de qualification dans ma conception de recherche éventuelle. Pour extraire ces données, plusieurs étapes et hypothèses, dont les plus importantes sont illustrées dans la partie de code ci-dessous, ont été utilisées. Par exemple, une chose que je devais faire était de transformer les représentations textuelles des nombres dans les descriptions de travail en chiffres. De plus, une hypothèse simplificatrice que j'ai utilisée était que les entreprises n'exigeraient pas plus de 17 ans d'expérience pour un poste. Il y a très probablement quelques exceptions à cela dans mes données, mais elles sont probablement très rares. De plus, cela m'a permis d'éviter de confondre les exigences d'âge dans le texte de la description de poste - souvent indiquées comme "doit être âgé de 18 ans" - avec des exigences d'expérience. Enfin, Je me suis également efforcé de détecter autant de façons d'exprimer cette exigence d'expérience que possible avec les modèles d'expressions régulières ci-dessous. Mon approche avec des descriptions de poste contenant plusieurs modèles (par exemple "plus de trois ans d'expérience en gestion de produits avec plus de cinq ans dans le développement de logiciels") consistait à prendre le nombre d'années maximum donné. Mon code dans son intégralité est liéici .
Il n'y a aucun moyen que je puisse rendre compte de toutes les façons dont les qualifications requises peuvent être données dans une description de poste, de sorte que la sortie est probablement mieux qualifiée d'estimation. Cependant, il a réussi de nombreuses vérifications de diverses descriptions de poste et suit également assez bien la variable de niveau d'expérience fournie par LinkedIn mais incomplète. Par exemple, je trouve que les postes considérés comme débutants sur LinkedIn nécessitent en moyenne environ 2,5 ans d'expérience, tandis que ceux de niveau directeur ou supérieur ont tendance à nécessiter plus de 6 ans d'expérience.
J'ai également analysé les informations de localisation à partir d'un emplacement uniforme dans les offres d'emploi et j'ai pu en déduire des marchés du travail géographiques normalisés. Certains cas ont nécessité un traitement spécial et des appels de jugement, comme s'il fallait considérer Minneapolis et Saint Paul, Minnesota comme un marché ou deux et s'il fallait normaliser les références à une ville spécifique (par exemple Los Angeles) et les références à sa zone générale (par exemple la zone métropolitaine de Los Angeles ). Dans des cas comme ces deux exemples, j'ai généralement décidé de définir les marchés plus largement plutôt que moins.
Enfin, j'ai également conçu des variables reflétant toute information salariale fournie par une offre d'emploi. Lorsqu'il est présent, il est fourni sous la forme d'une fourchette horaire ou annuelle, ou dans une petite fraction des cas sous la forme d'un taux garanti (par exemple « 20 $/heure »). En conséquence, j'ai pu analyser les variables plancher, plafond et médiane de la fourchette de rémunération pour les utiliser dans mon analyse. La majorité des affichages ne fournissaient aucune information sur le salaire et se voyaient donc attribuer des valeurs de 0 pour ces variables.
Bien que des efforts aient été faits pour récupérer d'autres informations telles que les exigences en matière d'éducation professionnelle et les mentions d'avantages (comme indiqué dans mon code complet ), je ne décris que ce qui précède car ce sont les variables qui ont servi ma conception de recherche ultime, que j'expliquerai plus tard.
L'analyse exploratoire des données
Il est facile de consulter d'abord les statistiques récapitulatives par valeur de traitement. Nous pouvons rapidement voir que l'éloignement du travail est en effet au moins corrélé avec plus de candidats par jour. Nous voyons également ci-dessous que les applications par jour sont fortement biaisées.
Mais les emplois sur site, hybrides et à distance diffèrent également par d'autres variables pertinentes, du moins dans mon ensemble de données. Par exemple, nous pouvons voir ci-dessous que les offres d'emploi avec différentes modalités de travail ont également des informations sur les salaires différentes. Les offres d'emploi à distance incluent des informations sur les salaires à un pourcentage beaucoup plus élevé que les offres d'emploi sur site et, pour une raison quelconque, parmi les offres d'emploi qui offrent des informations sur les salaires, les offres hybrides ont tendance à avoir des chiffres beaucoup plus élevés.
Il existe également des écarts dans l'estimation moyenne des années d'expérience requises selon les valeurs de traitement. En particulier, je trouve que les emplois à distance nécessitent environ un an d'expérience de plus que les emplois sur place.
Les offres d'emploi sur site, hybrides et à distance diffèrent également sur des variables catégorielles importantes. Voici quelle proportion de chaque échantillon de groupe de traitement est représentée par chacune des cinq entreprises, catégories de taille d'entreprise, industries et marchés les plus fréquents dans l'ensemble de données. Par exemple, les affectations à distance concernent de manière disproportionnée les emplois chez PwC et les affectations hybrides concernent de manière disproportionnée les emplois chez Deloitte. (Incidemment, en fait, aucune offre d'emploi chez Deloitte dans mon ensemble de données ne concerne strictement le travail sur site.)
Il y a aussi la question de savoir dans quelle mesure les affichages ont tendance à différer selon le titre, un paramètre clé de la recherche d'emploi et le reflet de la fonction professionnelle. Une façon de visualiser cela est via des nuages de mots.
Nous pouvons remarquer des différences entre les trois nuages de mots, dont certains - placement, couleur, etc. - sont sans importance mais d'autres sont plus révélateurs. Par exemple, il est assez clair que les rôles de génie logiciel représentent un pourcentage plus élevé d'offres d'emploi à distance que pour les offres d'emploi sur site et hybrides. Une autre chose à noter est que, comme mentionné, les offres d'emploi à distance annoncent souvent cet arrangement dans le titre du poste lui-même, ce que j'aborderai dans mon analyse plus tard.
Nous pouvons observer plus empiriquement les différences de titre d'emploi selon le statut de traitement en explorant la fréquence à laquelle certains unigrammes et bigrammes apparaissent dans chaque sous-échantillon de traitement. Ci-dessous, je montre que les offres d'emploi à distance concernent un nombre disproportionnellement élevé de rôles d'ingénierie logicielle et un nombre disproportionnellement faible de rôles de techniciens, entre autres déséquilibres.
Ce que cette analyse exploratoire des données révèle, c'est que la forte corrélation entre l'éloignement de l'emploi et le plus grand nombre de candidats par jour montrée précédemment pourrait en fait être motivée par ces autres différences cachées. Par conséquent, pour identifier la causalité, ma conception de la recherche devait en tenir compte. Je commence là-dessus dans la partie 2 .