Hacer un trabajo remoto conduce a muchísimos más candidatos (Parte 3 de 3: análisis de texto/coincidencia con el título del trabajo)

May 13 2023
En la Parte 2, comencé a usar la coincidencia exacta gruesa en un intento de responder a mi pregunta de investigación, que pregunta cómo una oportunidad de trabajo para el trabajo remoto en lugar del trabajo en persona afecta el interés en ella. Las variables coincidentes que utilicé (ubicación, industria, tamaño de la empresa, información salarial, años de experiencia requeridos y edad de publicación) parecen haber contribuido en gran medida a eliminar el tipo de sesgo ascendente indicado por el simple análisis exploratorio de datos realizado en la Parte 1. .
Fuente

En la Parte 2 , comencé a usar la coincidencia exacta gruesa en un intento de responder a mi pregunta de investigación, que pregunta cómo una oportunidad de trabajo para el trabajo remoto en lugar del trabajo en persona afecta el interés en ella. Las variables coincidentes que utilicé (ubicación, industria, tamaño de la empresa, información salarial, años de experiencia requeridos y edad de publicación) parecen haber contribuido en gran medida a eliminar el tipo de sesgo ascendente indicado por el simple análisis exploratorio de datos realizado en la Parte 1 . . Sin embargo, incluso dentro de las coincidencias de estas seis variables, todavía puede haber un sesgo en la función del trabajo. Los trabajos remotos en mi muestra podrían obtener más interés en virtud de la naturaleza de su trabajo en lugar de su lejanía.

Yo diría que esta parte de un trabajo está representada de manera bastante significativa en su título de trabajo, un parámetro de búsqueda clave en la búsqueda de trabajo de la mayoría de las personas. Y si observamos qué títulos de trabajo tendían a terminar en cada lado de cada coincidencia al final de la Parte 2 , vemos que los trabajos en el sitio podrían estar sobrerrepresentados por aquellos que reciben menos interés en virtud de su funcionalidad en lugar de su arreglo de trabajo. .

Es por eso que la última parte de mi estrategia de identificación requería también coincidencias en el título del trabajo. Encontré dos formas igualmente efectivas de hacer esto, las cuales se basaban en la coincidencia de distancia en características derivadas del texto del título del trabajo, específicamente, columnas que indicaban si un título de publicación de trabajo dado tenía o no una palabra clave determinada. La primera implicó que cada una de estas características fueran variables ficticias simples (1 si la palabra clave de la columna estaba presente, 0 si no) y una definición útil de similitud conocida como distancia de Jaccard. El segundo involucró características que reflejaban no solo la presencia de varias palabras clave, sino también los pesos correspondientes a su significado estimado, y la similitud en este caso se definió utilizando la distancia euclidiana.

Tenga en cuenta que ambos enfoques requerían un poco de limpieza de los títulos de trabajo de antemano. Como se muestra en la Parte 1 , muchos trabajos remotos anuncian su lejanía en el título del trabajo, por lo que para medir la similitud de manera más efectiva y precisa, palabras como "Remoto", "Hogar" e "Híbrido" se eliminaron de los títulos de trabajo antes de esta parte. del analisis De lo contrario, sería más difícil encontrar coincidencias porque los trabajos similares con diferentes arreglos laborales no tendrán el mismo arreglo laboral anunciado en su título de trabajo, lo que los hará parecer más diferentes de lo que realmente son.

Enfoque de distancia Jaccard

Como se mencionó, mi primer enfoque involucró determinar la similitud del título del trabajo utilizando una matriz simple que indicaba qué títulos de trabajo presentaban qué palabras clave.

Al igual que el proceso iterativo de búsqueda de coincidencias que se muestra en la Parte 2 , recorrí los diversos espacios de covariables que tenían coincidencias potenciales en mis primeras seis variables, pero en este caso también construí una matriz de características de texto para cada uno de estos espacios y encontré cada observación tratada. vecino más cercano según la distancia de Jaccard en este espacio de características de texto (definido por todos los unigramas en los títulos de trabajo de mi conjunto de datos). También conocida como Semejanza de Jaccard, esta viene dada por el tamaño de la intersección de dos conjuntos de palabras dividido por el tamaño de la unión de esos conjuntos. Por ejemplo, si el conjunto A fue otorgado por "Los Kings llegaron a los playoffs" y el conjunto B fue otorgado por "Los Kings llegaron a la postemporada como un sembrado de tres", su similitud con Jaccard resulta ser 4/11.

Además, también implementé una regla de decisión para cuando se identificaba el vecino más cercano de cada unidad tratada sobre esta base. Si su similitud de Jaccard era superior a 0,4, constituían una coincidencia. Si no, entonces esa observación tratada no tenía una observación de control suficientemente comparable y se descartó. Esta selección de umbral es otra instancia de la compensación sesgo-varianza. Un ancho de banda demasiado laxo conduce a peores coincidencias y un mayor sesgo, mientras que uno demasiado estricto conduce a mejores pero menos coincidencias y más varianza.

Por último, como se mencionó en la Parte 2 , en este procedimiento, los partidos de control se seleccionaron con reemplazo. Esto puede resultar en una mayor varianza porque conduce a un tamaño de muestra efectivamente más pequeño cuando se usan las mismas observaciones de control en más de una coincidencia, pero disminuye el sesgo porque se selecciona la mejor coincidencia posible independientemente de si se usó con otra unidad tratada.

Doy un extracto de mi código que incluye este proceso de búsqueda de vecinos a continuación. Tenga en cuenta el parámetro de decisión de 0,6, un valor de distancia de Jaccard (1 menos la similitud de Jaccard) que corresponde a una similitud de Jaccard de 0,4. El código en su totalidad se puede encontrar aquí . A continuación, analizo mi otro enfoque de análisis de texto antes de repasar los resultados de cada uno.

Fragmento de código 1: Coincidencia en el título del trabajo si la distancia Jaccard < 0,6

Enfoque de distancia euclidiana

Mi segundo enfoque implicó derivar diferentes características del texto y calcular la distancia euclidiana usando esas características. En particular, descubrí que el uso de tf-idf, que es la abreviatura del término frecuencia-frecuencia inversa del documento, en lugar de variables ficticias simples, también produjo buenas coincidencias.

El efecto de esta técnica es un énfasis en palabras que no aparecen en muchas otras observaciones. Por ejemplo, si consideraría el título de trabajo "Asociado de servicio al cliente" a menos distancia de "Representante de servicio al cliente" que "Aficionado al servicio de atención al cliente", aunque ambos son diferentes en una sola palabra, porque el término "aficionado" no es común. . Esta puede ser una herramienta eficaz para medir la similitud del puesto/función si los términos inusuales en un puesto significan que es probable que sea menos comparable con otros.

Para este enfoque, establecí una regla de decisión que requiere que los títulos de trabajo estén dentro de una distancia euclidiana de 2 entre sí para que se consideren una coincidencia.

Resultados

Ahora, haciendo coincidir también el título del trabajo, con cualquier enfoque de similitud de texto, llegamos a estimaciones bastante similares a las de la Parte 2 , donde solo coincidimos con el mercado, la industria, el tamaño de la empresa, la información salarial, los años de experiencia requeridos y la edad de publicación. Esto podría indicar, como máximo, un sesgo insignificante, si lo hubiera, que surge de no coincidir en la función laboral a través del título del trabajo; sin embargo, estos procedimientos de comparación también conducen a estimaciones que reflejan diferentes muestras. Por ejemplo, mientras que el procedimiento de emparejamiento de la Parte 2 utilizó más de 9000 observaciones, los de aquí se basan en un número relativamente selecto de coincidencias, con recuentos de observación de alrededor de 1500 cada uno.

Estimaciones de la comparación de las seis variables anteriores de mercado, industria, tamaño de la empresa, información de pago, tiempo publicado y años de experiencia requeridos, además de la similitud del título del trabajo.

Podemos inspeccionar varias coincidencias y encontrar emparejamientos razonables, como se muestra a continuación.

Vale la pena señalar que muchas de las coincidencias determinadas utilizando el enfoque de distancia euclidiana o el enfoque de distancia de Jaccard eran duplicados virtuales en todas las dimensiones registradas, excepto en el estado del tratamiento. Este es el caso de la tercera coincidencia que se muestra arriba (las dos últimas filas). Este tipo de coincidencias son producto de que las empresas contratan para el mismo tipo de puesto pero en un arreglo de trabajo diferente o por error de su parte. De cualquier manera, ofrece coincidencias muy aceptables como la anterior.

Un aspecto adicional de interés relacionado con mi pregunta de investigación es si esta estimación del efecto cambia con el mercado. En particular, sugiero que el aumento en el interés del solicitante que proviene de un trabajo remoto en lugar de presencial es mayor en un mercado más pequeño que en un mercado más grande, dado que un mercado más pequeño está más limitado por un solicitante más pequeño. piscina.

Para estudiar esto, en primer lugar, uní los datos de población del censo con mi muestra remota/in situ de Jaccard y descubrí que mi estimación se reduce en aproximadamente un 0,7 % por cada cien mil personas adicionales en un mercado determinado. En otras palabras, mis estimaciones indicarían que el tamaño del efecto en un mercado como Phoenix, que tiene una población de alrededor de 1,6 millones, es más de 7 puntos porcentuales mayor que en mercados como Chicago (población ≈ 2,7 millones), Los Ángeles (población ≈ 3,8 millones), o Nueva York (población ≈ 8,5 millones).

Debido a que he demostrado que mi metodología de la Parte 2 es sólida y sus requisitos de coincidencia menos estrictos conducen a un tamaño de muestra más grande, puedo recurrir a ese enfoque para un análisis adicional de la heterogeneidad de la estimación del efecto por mercado. A continuación, vemos indicios de ello por mercado específico. Calculo que el efecto es casi mínimo en las ciudades más grandes de EE. UU., Nueva York y Los Ángeles, y mayor en algunos de los mercados más pequeños de mi muestra, como Cincinatti, Ohio y Frisco, Texas. Las excepciones interesantes parecen ser Phoenix y McLean, Virginia, pero podrían ser el resultado de los tipos de trabajo en esas ciudades en mis datos.

También llego a otras estimaciones a partir de este enfoque. Primero, encuentro que el efecto promedio de una oferta de trabajo para trabajo remoto en lugar de trabajo en persona es un aumento en los solicitantes diarios de alrededor del 75% (exp(.5583)-1)*100). En segundo lugar, calculo que este efecto para el trabajo híbrido es de alrededor del 7%. Además, calculo que los efectos en las tasas de postulantes de las funciones Easy Apply y Promotioned de LinkedIn son aproximadamente del 144 % y el 40 %, respectivamente.

Finalmente, debido a que mi procedimiento de comparación resultó en subconjuntos de mis datos de diferentes composiciones que mi conjunto de datos como un todo, y mis estimaciones provienen de estos subconjuntos, vale la pena observar la composición de mis muestras combinadas finales. A continuación, vemos que mi muestra coincidente remota se compone principalmente de ofertas de trabajo de las industrias de contabilidad, desarrollo de software, finanzas, atención médica y bienestar/fitness. Mientras tanto, mi muestra combinada híbrida se compone principalmente de ofertas de trabajo de las industrias de finanzas, TI, atención médica, comercio minorista y defensa y espacio.

También podemos ver qué tipos de posiciones están fuertemente representados en cada muestra.

Conclusión

Usando un enfoque de coincidencia para controlar los determinantes clave del interés en la publicación de empleo, como el título del trabajo, el mercado y las calificaciones requeridas, creo que he encontrado evidencia sólida de que una oportunidad de trabajo remota tiene un impacto sustancial en el interés del solicitante y que una oportunidad de trabajo que es híbrido tiene uno modesto. Específicamente, estimo que hacer una oferta de trabajo remota en lugar de presencial conducirá, en promedio, a un aumento en el recuento de solicitantes de alrededor del 75 %, mientras que hacerla híbrida en lugar de presencial generará un aumento promedio de alrededor de 7 % Además, mi análisis indica que el primero de esos dos efectos varía según la geografía según el tamaño del mercado, lo que revela cómo las empresas en mercados más pequeños pueden aprovechar mucho más la oferta laboral con una fuerza laboral remota.

Aun así, hay algunas limitaciones relacionadas con mi enfoque. En primer lugar, mis estimaciones se aplican principalmente al subconjunto de observaciones tratadas para las que existían muchas observaciones de control comparables, por ejemplo, roles de ingeniería de software en las industrias de desarrollo de software, tecnología de la información y finanzas. Esto está en contraste directo con los roles que componen porciones grandes y pequeñas de mis submuestras de publicación de trabajo en el sitio y remotas, respectivamente. Si miramos hacia atrás a la Figura 4 desde mi primera publicación de blog , ejemplos de estos roles son los gerentes de tienda, los técnicos y las enfermeras.

La falta de sesgo de mis estimaciones también depende del éxito con el que controlé las posibles variables de confusión. Si hay variables en las que no coincidí que determinan el interés del solicitante y están relacionadas con el tratamiento, es decir, se correlacionan con si un trabajo es en el sitio, híbrido o remoto, entonces mis estimaciones están sesgadas hasta cierto punto. Además, incluso si especifiqué las variables coincidentes necesarias, todavía no están completamente controladas si los contenedores son demasiado anchos o, en el caso de la coincidencia del título de mi trabajo, el ancho de banda/calibre de 0,6 Jaccard distancia es demasiado grande.

Con todo lo señalado, creo que hay razones para pensar que se cumplen estos supuestos. Creo que los contenedores que especifico en la Parte 2 son bastante angostos. Además, el más amplio de ellos, por la duración publicada, es principalmente para minimizar el ruido entre los partidos; Si bien mostré que esta variable predice los solicitantes por día, no hay razón para que se correlacione con el tratamiento. Además, la estabilidad decente de mis estimaciones, independientemente del enfoque de coincidencia del puesto de trabajo (es decir, ninguna frente a la similitud de Jaccard frente a la distancia euclidiana) también es tranquilizadora.

Como resultado, creo que mis resultados indican que esta es un área donde se pueden hacer hallazgos más interesantes. Se podría realizar una investigación adicional para ver cómo este efecto difiere según otras dimensiones además del mercado, como el tipo de trabajo, la industria o el nivel de antigüedad. Además, se podrían realizar más análisis relacionados con la variabilidad del efecto del tratamiento impulsada por el tamaño del mercado para tratar de analizar qué parte de estos efectos se debe a un aumento en los candidatos disponibles y qué parte se debe a las preferencias que cito al comienzo de mi primera entrada en el blog .