Hacer un trabajo remoto conduce a muchísimos más candidatos (Parte 1 de 3: disputa de datos y EDA)

May 13 2023
No debería sorprender tanto que una oportunidad de trabajo para trabajo remoto en lugar de trabajo en el sitio genere más interés en ella. Junto con un grupo de candidatos ampliado, las preferencias probablemente también impulsen gran parte de esta diferencia.
Fuente

No debería sorprender tanto que una oportunidad de trabajo para trabajo remoto en lugar de trabajo en el sitio genere más interés en ella. Junto con un grupo de candidatos ampliado, las preferencias probablemente también impulsen gran parte de esta diferencia. Según Gallup , el 6 % de los empleados con capacidad remota prefieren trabajar exclusivamente en el sitio, pero el 34 % prefiere trabajar de forma totalmente remota. (60% prefiere un arreglo híbrido).

Pero, ¿cuál es el tamaño de este efecto? ¿Qué puede esperar una empresa en un mercado dado, en una industria dada, contratando para un rol específico, si abre una oportunidad de trabajo a candidatos que trabajan desde prácticamente cualquier lugar en lugar de solo aquellos que viven cerca? Busqué responder a esta pregunta recopilando y analizando datos de publicación de trabajos de LinkedIn.

Recopilación

Para abordar el tema anterior de manera empírica, identifiqué a LinkedIn como una fuente de datos útil. Hoy en día, la mayoría de las empresas que publican oportunidades de trabajo en el sitio especifican si el acuerdo de trabajo del trabajo es en el sitio, híbrido o remoto, así como valores para otras variables explicativas como el título del trabajo, el mercado y la duración publicada. Fundamentalmente, también proporciona a los suscriptores premium información sobre el interés de los solicitantes en forma de una cifra de recuento de solicitantes.

Simplifiqué mi proceso de recopilación de datos con algunas bibliotecas de programación de Python, incluida la herramienta de automatización del navegador web Selenium y pandas, un módulo de análisis y manipulación de datos. La identificación sistemática y el registro de valores de las variables antes mencionadas se realizaron mediante el uso de XPath, un lenguaje que se puede usar para consultar contenido HTML.

Si bien mis esfuerzos de recopilación iniciales fueron muy amplios (la única limitación era que las publicaciones tenían que ser para trabajos en los Estados Unidos), al principio decidí centrarme en empresas más grandes, donde parecía haber más heterogeneidad en mi variable de tratamiento (es decir, una combinación algo distribuida de publicaciones para trabajos en el sitio, híbridos y remotos). Este enfoque hizo que mi muestra final fuera mucho más representativa de las publicaciones de empresas con más de 10 000 empleados, como muestro más adelante.

Limpieza

Una vez recopilados, los datos requerían una buena cantidad de procesamiento y limpieza. Afortunadamente, sin embargo, mi variable de tratamiento, la lejanía, estaba disponible de manera muy confiable con una suposición (que los trabajos para publicaciones que no indican un acuerdo de trabajo son en realidad en el sitio) y un paso de procesamiento adicional. Para la mayoría de las publicaciones, la organización del trabajo se proporcionó de manera confiable en una ubicación estandarizada dentro de la publicación, cerca del título del trabajo. Sin embargo, algunas publicaciones indicaban arreglo de trabajo solamenteen el título del trabajo en sí, por ejemplo, "Ingeniero de software (remoto)". Por lo tanto, los datos se procesaron para que este tipo de información finalmente se reflejara adecuadamente en los vectores de tratamiento. Las distribuciones de esta variable en los datos antes y después de estos y muchos otros pasos de procesamiento (el resto de los cuales se describen a continuación) se dan directamente a continuación.

Otros pasos de procesamiento tomados involucraron descartar observaciones que carecían de valores para ciertas variables clave. Se eliminaron las ofertas de trabajo para las que no se recopiló un valor publicado de duración, ya que esta variable era necesaria para estandarizar los recuentos de solicitudes como tarifas diarias. Del mismo modo, también se eliminaron las publicaciones para las que no se recopiló una cifra de recuento de solicitantes. En relación con esto, los datos sobre las ofertas de trabajo que ocurrieron apenas unos segundos después de que se publicaron también se ignoraron.

También se trabajó para filtrar los duplicados. Algunas publicaciones se encontraron varias veces en el proceso de recopilación de datos o se publicaron en LinkedIn varias veces. Para abordar esto, identifiqué los duplicados en función del cargo, la empresa, el valor de la lejanía y la ubicación, conservando solo el duplicado que se había publicado durante más tiempo y descartando todos los demás.

Finalmente, se tomaron muchos otros pasos para recuperar variables de datos relativamente no estructurados, como el texto de la descripción del trabajo. Estos incluían información más estandarizada como el nivel de experiencia (dado, si acaso, como pasantía, nivel de entrada, asociado, nivel medio superior, director o ejecutivo), tamaño de la empresa (dado como uno de 1 a 10 empleados, 11 a 50 empleados , 51–200 empleados, etc., hasta más de 10 001 empleados), industria y ubicación. Si bien los últimos tres estaban muy intactos, el nivel de experiencia no lo estaba, con aproximadamente un tercio de las publicaciones que no indicaban uno de los valores proporcionados por LinkedIn enumerados anteriormente.

Los años de experiencia requeridos para un rol determinado fueron una variable derivada del texto de descripción del trabajo que terminó sirviendo como una mejor manera de incorporar el nivel de calificación en mi diseño de investigación final. Para extraer estos datos, se utilizaron varios pasos y supuestos, los más importantes de los cuales se ilustran en la parte del código a continuación. Por ejemplo, una cosa que tenía que hacer era convertir las representaciones de texto de los números en las descripciones de trabajo en dígitos. Además, una suposición simplificadora que utilicé fue que las empresas no requerirían más de 17 años de experiencia para un puesto. Lo más probable es que haya algunas excepciones a esto en mis datos, pero probablemente sean muy raras. Además, esto me permitió evitar confundir los requisitos de edad en el texto de la descripción del trabajo, que a menudo se da como "debe tener 18 años de edad", con los requisitos de experiencia. Finalmente, También me esforcé por detectar tantas formas de expresar este requisito de experiencia como fuera posible con los siguientes patrones de expresión regular. Mi enfoque con las descripciones de puestos que contenían varios patrones (por ejemplo, "más de tres años de experiencia en gestión de productos junto con más de cinco años en desarrollo de software") era tomar el número máximo de años dado. Mi código en su totalidad está vinculadoaquí _

Parte 1 del código: referencia de texto a dígito y patrones para identificar

No hay forma de que pueda dar cuenta de todas las formas en que se pueden dar las calificaciones requeridas en una descripción de trabajo, por lo que probablemente el resultado se denomine mejor como estimaciones. Sin embargo, pasó numerosas verificaciones de varias descripciones de trabajo y también rastrea bastante bien con la variable de nivel de experiencia provista por LinkedIn pero incompleta. Por ejemplo, encuentro que los roles considerados de nivel de entrada en LinkedIn en promedio requieren alrededor de 2,5 años de experiencia, mientras que los de nivel de director o superior tienden a requerir más de 6 años de experiencia.

También analicé la información de ubicación de una ubicación uniforme dentro de las ofertas de trabajo y pude derivar mercados laborales geográficos estandarizados. Algunos casos requirieron un tratamiento especial y llamadas de juicio, como si considerar a Minneapolis y Saint Paul, Minnesota como uno o dos mercados y si estandarizar las referencias a una ciudad específica (p. ej., Los Ángeles) y las referencias a su área general (p. ej., el área metropolitana de Los Ángeles). ). En casos como estos dos ejemplos, normalmente decidí definir los mercados de manera más amplia en lugar de menos.

Finalmente, también diseñé variables que reflejaban cualquier información salarial proporcionada por una publicación de trabajo. Cuando está presente, se proporciona como un rango por hora o anual, o en una pequeña fracción de los casos como una tarifa garantizada (por ejemplo, “$20/hora”). Como resultado, pude analizar las variables mínimas, máximas y medianas del rango salarial para utilizarlas en mi análisis. La mayoría de las publicaciones no proporcionaron información sobre salarios y, por lo tanto, se les asignó valores de 0 para estas variables.

Si bien se hicieron esfuerzos para recuperar otra información, como los requisitos de educación laboral y las menciones de beneficios (como se muestra en mi código completo ), describo solo lo anterior porque esas fueron las variables que sirvieron para mi diseño de investigación final, que explico más adelante.

Análisis exploratorio de datos

Es fácil ver primero las estadísticas resumidas por valor de tratamiento. Podemos ver rápidamente que el trabajo remoto está al menos correlacionado con más solicitantes por día. También vemos a continuación que las aplicaciones por día están muy sesgadas.

Pero los trabajos en el sitio, híbridos y remotos también difieren por otras variables relevantes, al menos en mi conjunto de datos. Por ejemplo, podemos ver a continuación que las ofertas de trabajo con diferentes arreglos laborales también tienen información salarial diferente. Las publicaciones de trabajo remotas incluyen información salarial en un porcentaje mucho más alto que las publicaciones de trabajo en el sitio y, por alguna razón, entre las publicaciones que ofrecen información salarial, las híbridas tienden a tener cifras mucho más altas.

También hay brechas en el promedio de años de experiencia requeridos estimados entre los valores de tratamiento. En particular, encuentro que los trabajos remotos requieren aproximadamente un año más de experiencia que los trabajos en el sitio.

Las ofertas de trabajo presenciales, híbridas y remotas también difieren en importantes variables categóricas. A continuación, se muestra cuánto de cada muestra de grupo de tratamiento está representado por cada una de las cinco empresas, categorías de tamaño de empresa, industrias y mercados más frecuentes en el conjunto de datos. Por ejemplo, las publicaciones remotas son desproporcionadas para los trabajos en PwC y las publicaciones híbridas son desproporcionadas para los trabajos en Deloitte. (Dicho sea de paso, de hecho, ninguna vacante en Deloitte en mi conjunto de datos es para trabajo estrictamente en el sitio).

También existe la cuestión de cuánto tienden a diferir las publicaciones según el título, un parámetro clave de búsqueda de empleo y reflejo de la función laboral. Una forma de visualizar esto es a través de nubes de palabras.

Palabras comunes de título de publicación de trabajo en el sitio
Palabras de título de publicación de trabajo híbridas comunes
Palabras comunes del título de publicación de trabajos remotos

Podemos notar diferencias en las tres nubes de palabras, algunas de las cuales (ubicación, color, etc.) no son importantes, pero otras son más reveladoras. Por ejemplo, está bastante claro que los roles de ingeniería de software representan un mayor porcentaje de publicaciones de trabajo remotas que las publicaciones en el sitio e híbridas. Otra cosa a tener en cuenta es que, como se mencionó, las publicaciones de trabajo remotas a menudo anuncian este arreglo en el título del trabajo, que es algo que abordaré en mi análisis más adelante.

Podemos observar más empíricamente las diferencias en los títulos de trabajo por estado de tratamiento al explorar la frecuencia con la que aparecen ciertos unigramas y bigramas en cada submuestra de tratamiento. A continuación, muestro que las publicaciones de trabajo remotas son para un número desproporcionadamente alto de roles de ingeniería de software y un número desproporcionadamente bajo de roles de técnico, entre otros desequilibrios.

Lo que descubre este análisis exploratorio de datos es que la fuerte correlación entre la lejanía del trabajo y el mayor número de solicitantes por día que se mostró anteriormente en realidad podría estar impulsada por estas otras diferencias ocultas. Por lo tanto, para identificar la causalidad, mi diseño de investigación necesitaba tener esto en cuenta. Empiezo con eso en la Parte 2 .