Hacer un trabajo remoto conduce a muchísimos más candidatos (Parte 2 de 3: Coincidencia exacta simplificada)
En mi última publicación , mostré que la lejanía de una oportunidad de trabajo está de hecho correlacionada con mucho más interés del solicitante, pero también mostré por qué esta correlación puede ser engañosa, o quizás al menos una indicación exagerada de lo que una empresa puede esperar razonablemente en términos de solicitante. interés si hace una oferta de trabajo remota en lugar de en el sitio. Las ofertas de trabajo con arreglos de trabajo anunciados de manera diferente (en el sitio, híbrido o remoto) también tienden a variar, al menos en mi muestra, en términos de otros impulsores de interés en una publicación de trabajo, que van desde cuánta experiencia requieren hasta qué industrias están en los títulos que tienden a tener.
A menudo, estas diferencias parecen indicar que la simple diferencia de medias realizada al comienzo de mi EDA en la Parte 1 es una estimación sesgada hacia arriba. Tome la industria por ejemplo. Vimos que alrededor del 14 % de las ofertas de trabajo remotas son para roles en el desarrollo de software, mientras que menos del 5 % son para roles en el comercio minorista, lo que representa una sobrerrepresentación y una subrepresentación en estas dos áreas, respectivamente, en relación con las publicaciones de trabajo en el sitio. Podría estar bien ignorar esto si la industria no fuera un factor determinante del interés de los trabajadores, pero, en promedio, probablemente lo sea.
Si bien la regresión lineal es una forma muy efectiva de mantener constantes las covariables, como la industria en este caso, para obtener una estimación imparcial del efecto que está estudiando, en mi caso, decidí usar la combinación como un enfoque más adecuado por varias razones.
Metodología de emparejamiento
Una ventaja simple del emparejamiento es que, en esencia, es bastante intuitivo y fácil de explicar. Las observaciones iguales o lo suficientemente similares en términos de variables clave como la industria, el mercado, la paga, etc., pero diferentes en el tratamiento, sirven como contrafácticos entre sí de alguna manera. Las estimaciones del nivel de observación provenientes de la comparación de coincidencias sobre estas bases, por supuesto, serían bastante ruidosas, pero con un tamaño de muestra grande, siempre que se controlen las variables correctas, debería producir una estimación del efecto del tratamiento imparcial.
Otra ventaja del emparejamiento en mi caso es que no es paramétrico. A diferencia de la regresión lineal, no se necesitaba ninguna especificación que indicara que las covariables están relacionadas con el resultado de forma lineal. Al hacer coincidir esas covariables, así es como puede mantenerlas constantes para identificar el efecto que le interesa. Además, tampoco había necesidad de especificar docenas de variables ficticias o limitar mis datos solo a las industrias que ocurrían con mayor frecuencia en mi muestra (que vimos anteriormente eran finanzas y hospitales/atención médica) o mercados (la ciudad de Nueva York y Chicago); la coincidencia me permitió examinar más del espacio de covariables para coincidencias en la industria, el mercado y otras variables clave.
Los pasos críticos incluyen primero identificar esas variables clave y también decidir cómo hacer coincidir realmente, ya sea minimizando la distancia en el espacio de covariables o maximizando la similitud del puntaje de propensión. Aunque diseñé numerosas funciones a partir de los datos, desde el principio decidí que cinco variables podrían ser suficientes: mercado, industria, tamaño de la empresa, información salarial y años de experiencia requeridos. También me decidí por la coincidencia a distancia, pensando que modelar los puntajes de propensión en este entorno (es decir, la probabilidad de que cada trabajo sea remoto o híbrido) podría ser demasiado difícil. En particular, utilicé un marco de coincidencia exacta grueso.
Para mis variables categóricas mercado, industria y, en el caso de LinkedIn, tamaño de la empresa (por ejemplo, más de 10 001 empleados, 501–10 000 empleados, etc.), este enfoque y la lógica son bastante sencillos. Las publicaciones de diferentes estados de tratamiento son solo una coincidencia si se basan en el mismo mercado e industria y si son de empresas en la misma categoría de tamaño. El mercado es un determinante/restricción geográfica clave en el interés por la apertura de empleo (al menos para trabajos híbridos y en el sitio). Mientras tanto, la industria y el tamaño de la empresa determinan el interés del solicitante en función de sus preferencias y habilidades. Al hacer coincidir las observaciones en estas categorías, podemos asegurarnos de que no haya un sesgo proveniente de ellas que afecte nuestras estimaciones.
Las cosas son un poco más complicadas y menos seguras cuando se trata de variables continuas: información salarial y años de experiencia requeridos, en mi caso. Habrá muy pocas observaciones, si las hay, que tengan exactamente la misma información salarial y/o exactamente los mismos años de experiencia requeridos. Sin embargo, con los años de experiencia requeridos, por ejemplo, ¿es un trabajo que requiere 5 años de experiencia muy diferente a uno que requiere 6? Probablemente no. Por lo tanto, para hacer coincidir estas variables, se pueden categorizar como pertenecientes a uno de varios contenedores.
Decidir el tamaño del contenedor es una cuestión de sesgo versus varianza. Si los intervalos son demasiado pequeños, lo que significa que está solicitando que las observaciones sean demasiado similares en estas variables continuas, las coincidencias encontradas serán pocas, lo que generará una gran variación. Sin embargo, si los intervalos son demasiado grandes, lo que significa que las observaciones muy diferentes en estas variables coinciden, eso conduce a una estimación sesgada, porque no ha controlado con éxito estas variables.
Al final, para la información salarial, comparé la mediana del rango creando contenedores de $ 10 000 de ancho desde $ 0 a $ 250 000, asignando $ 0 para aquellos que carecían de información salarial, que, recordemos de la Parte 1, era la mayoría de mi muestra, y un contenedor de $250,000+ para publicaciones con las medianas más altas. Pensé que esto garantizaría que no se igualarían las observaciones con cifras salariales muy diferentes, aunque algunas con medios modestamente diferentes (y quizás rangos mínimos y máximos muy diferentes) sí lo serían. Para los años de experiencia requeridos, creé contenedores de [0, 3], (3, 6], (6, 9] y 10+, con la esperanza de que esto asegurara que no hubiera publicaciones de puestos de nivel de director y nivel de entrada, para ejemplo, ser coincidente.
Si bien el emparejamiento de estas cinco variables inevitablemente contribuyó en gran medida a obtener una estimación imparcial del efecto del tratamiento, era necesario tomar más medidas. Uno estaba relacionado con mi variable de resultado, aplicaciones por día.
Aplicaciones por día
Debido a que las ofertas de trabajo se observaron en varios momentos desde que se publicaron por primera vez, era importante estandarizar las tasas de postulantes. Inicialmente, pensé que esto solo haría que las publicaciones separadas por días e incluso semanas fueran comparables si todo lo demás fuera igual. Sin embargo, terminé encontrando una relación clara entre los solicitantes de un puesto de trabajo por día y cuánto tiempo había estado activo. Específicamente, las oportunidades laborales más nuevas (p. ej., las publicadas, digamos, 6 horas antes de ser observadas) tienden a recibir un número sustancialmente mayor de solicitantes cada 24 horas que las oportunidades laborales más antiguas (p. ej., las publicadas 2 semanas antes de la observación). Esto posiblemente se deba a una combinación de tres razones: el sistema de recomendación de LinkedIn favorece las publicaciones más nuevas, una cantidad desproporcionada de interés en una publicación se materializa muy pronto,
Cualquiera que sea la razón, sería importante dar cuenta de esto en mi análisis final. De lo contrario, una gran cantidad de ruido llegaría a los partidos finales, lo que haría que una estimación precisa del efecto del tratamiento fuera mucho más difícil de obtener. Al observar la tendencia del gráfico anterior, decidí hacer coincidir también si una publicación tiene más de 1 día, evitando así una cantidad de coincidencias inadecuadas.
Emparejamiento: Parte 1
Para identificar coincidencias en el mercado de seis variables, la industria, el tamaño de la empresa, los años de experiencia requeridos, la información salarial y la edad de publicación, identifiqué áreas en el espacio de covariables con varianza de tratamiento. Esto se hizo en dos pasos: primero agrupando por esas seis variables más el tratamiento y segundo filtrando para duplicar áreas sobre la base de solo esas seis variables. A continuación se muestra el código que usé para ejecutar el paso uno, así como una muestra de su salida.
El segundo paso hace que, en lo que respecta a los valores de la tabla anterior, solo se mantengan las ofertas de trabajo en el espacio de covariables en negrita porque no hay variación de tratamiento y, por lo tanto, no hay coincidencias posibles en los otros subespacios.
Ahora centrado en estos subespacios con variación de valor de tratamiento, luego itero a través de cada uno, asignando a cada publicación de trabajo remota una publicación de trabajo de control en su mismo subespacio. Vale la pena señalar que esta asignación de coincidencia se realiza sin reemplazo, lo que contrasta con mi proceso de coincidencia final que se muestra en la Parte 3. Muestro el código para este proceso iterativo a continuación.
Con una muestra coincidente en la mano del proceso anterior, puedo estimar el efecto sobre el interés del solicitante de una oportunidad de trabajo remota en lugar de en el sitio, junto con los impactos de una publicación de trabajo que se "Promociona" en LinkedIn o tiene un "Fácil". Aplicar”.
Esta salida es consistente con las hipótesis dadas anteriormente. En primer lugar, de hecho encontramos que una oportunidad de trabajo remota en lugar de presencial da como resultado un aumento significativo en el interés de los solicitantes. Específicamente, estimamos un aumento de aproximadamente 59% en los solicitantes diarios. (Si bien la aproximación logarítmica de multiplicar el coeficiente de especificación de nivel logarítmico por 100 indica un aumento del 46,5 %, esta aproximación falla con tamaños de efecto de esta magnitud. En su lugar, se debe restar 1 del coeficiente exponenciado antes de multiplicar por 100). En segundo lugar, si bien es grande, este aumento es mucho menor que el impulso de aproximadamente el 300 % que implica una simple diferencia en las medias proporcionada al comienzo de la sección EDA en la Parte 1. Finalmente, si bien las promociones de LinkedIn y la función Easy Apply no son parte de mi enfoque, aún es interesante notar cuánto aumento en el interés de los solicitantes se observa que proporciona cada uno. Para el primero, estimo un aumento de aproximadamente el 25 % en los solicitantes diarios, y para el segundo, estimo un aumento de aproximadamente el 160 %.
Sin embargo, queda una pregunta sobre la calidad de los partidos en sí. Tome éste por ejemplo.
Tal como se diseñó, existe una superposición en la información de la empresa y el mercado, así como también en la edad de publicación, los años requeridos y los contenedores de información de pago. Pero fuera de eso, las dos oportunidades de trabajo son bastante diferentes en función, como lo demuestran las muestras de sus descripciones de trabajo. El nuevo empleado para el puesto superior es "construir una estrategia y visión tecnológica para una solución o dominio empresarial", entre otras tareas, mientras que el puesto inferior es "responsable de la implementación y/o soporte de producción de cualquier módulo de Oracle". aplicaciones ERP”.
Si existe una diferencia sistémica en las funciones laborales entre los trabajos remotos y presenciales que también explica el interés en una oportunidad laboral, eso introduciría un sesgo en nuestras estimaciones y, por lo tanto, debería tenerse en cuenta. Toma este otro partido como otro ejemplo.
Estos dos trabajos son bastante diferentes funcionalmente y, mostrando tanto la imperfección de la columna de mis años de experiencia como las compañías que no siempre expresan esto como una calificación clave en las descripciones de trabajo, en términos de calificaciones requeridas, sin embargo, coinciden. Además, aquí está la diferencia de solicitantes por día entre los dos tipos de puestos.
Si este tipo de desajustes son rampantes, eso sesgaría mis estimaciones al alza. Intento abordar este tipo de sesgo de coincidencia en mi próxima publicación , no con el texto de descripción del trabajo muy poco estructurado, sino con el título del trabajo.