Fazer um trabalho remoto leva a muito, muito mais candidatos (parte 2 de 3: Correspondência exata simplificada)
Em meu último post , mostrei que a distância de uma oportunidade de trabalho está de fato correlacionada com muito mais interesse do candidato, mas também mostrei por que essa correlação pode ser enganosa, ou talvez pelo menos uma indicação exagerada do que uma empresa pode esperar razoavelmente em termos de candidato interesse se fizer uma vaga de emprego remota ao invés de presencial. Anúncios de emprego com acordos de trabalho anunciados de forma diferente - no local, híbrido ou remoto - também tendem a variar, pelo menos em minha amostra, em termos de outros motivadores de interesse em um anúncio de emprego, variando de quanta experiência eles exigem a quais setores eles estão em quais títulos eles tendem a ter.
Muitas vezes, essas diferenças parecem indicar que a simples diferença nas médias feita no início da minha EDA na Parte 1 é uma estimativa com viés ascendente. Veja a indústria, por exemplo. Vimos que cerca de 14% das postagens de trabalho remotas são para funções no desenvolvimento de software, enquanto menos de 5% são para funções no varejo, representando uma super e sub-representação nessas duas áreas, respectivamente, em relação às postagens de trabalho no local. Isso poderia ser ignorado se a indústria não fosse um determinante do interesse do trabalhador, mas, na média, provavelmente é.
Embora a regressão linear seja uma maneira muito eficaz de manter covariáveis como a indústria neste caso constante para obter uma estimativa imparcial do efeito que você está estudando, no meu caso, decidi combinar como uma abordagem mais adequada por vários motivos.
Metodologia de correspondência
Uma vantagem simples da correspondência é que, em sua essência, ela é bastante intuitiva e fácil de explicar. Observações iguais ou semelhantes o suficiente em termos de variáveis-chave, como indústria, mercado, remuneração, etc., mas diferentes no tratamento, servem como contrafactuais umas das outras de certa forma. As estimativas de nível de observação provenientes da comparação de correspondências nessas bases certamente seriam bastante ruidosas, mas com um tamanho de amostra grande, desde que as variáveis corretas sejam controladas, deve produzir uma estimativa de efeito de tratamento imparcial.
Outra vantagem da correspondência no meu caso é que ela não é paramétrica. Ao contrário da regressão linear, nenhuma especificação dizendo que as covariáveis estão relacionadas ao resultado linearmente foi necessária. Ao combinar essas covariáveis, é assim que você pode mantê-las constantes para identificar o efeito no qual está interessado. Além disso, também não havia necessidade de especificar dezenas de variáveis fictícias ou limitar meus dados apenas aos setores de ocorrência mais frequente em minha amostra (que vimos anteriormente eram finanças e hospitais/saúde) ou mercados (cidade de Nova York e Chicago); a correspondência me permitiu examinar mais do espaço de covariáveis para correspondências na indústria, mercado e outras variáveis-chave.
As etapas críticas incluem primeiro identificar essas variáveis-chave e também decidir como realmente corresponder - minimizando a distância no espaço de covariáveis ou maximizando a similaridade do escore de propensão. Embora eu tenha desenvolvido vários recursos a partir dos dados, logo no início decidi que cinco variáveis seriam suficientes: mercado, setor, tamanho da empresa, informações salariais e anos de experiência necessários. Também optei pela correspondência de distância, imaginando que modelar pontuações de propensão nesse cenário (ou seja, a probabilidade de cada trabalho ser remoto ou híbrido) pode ser muito difícil. Em particular, usei uma estrutura de correspondência exata grosseira.
Para minhas variáveis categóricas mercado, setor e, no caso do LinkedIn, tamanho da empresa (por exemplo, mais de 10.001 funcionários, 501 a 10.000 funcionários etc.), essa abordagem e a lógica são bastante diretas. Publicações de diferentes status de tratamento são apenas uma correspondência se forem baseadas no mesmo mercado e setor e se forem de empresas da mesma categoria de tamanho. O mercado é um determinante/restrição geográfica chave no interesse de abertura de emprego (pelo menos para trabalhos no local e híbridos). Enquanto isso, o setor e o tamanho da empresa determinam o interesse do candidato com base em preferências e habilidades. Ao combinar as observações nessas categorias, podemos garantir que não haja viés vindo delas afetando nossas estimativas.
As coisas são um pouco mais complicadas e menos infalíveis quando se trata de variáveis contínuas – informações salariais e anos de experiência exigidos, no meu caso. Haverá muito poucas, se houver, observações com exatamente as mesmas informações salariais e/ou exatamente os mesmos anos de experiência exigidos. No entanto, com anos de experiência exigidos, por exemplo, um trabalho que exige 5 anos de experiência é muito diferente de um que exige 6? Provavelmente não. Portanto, para combinar essas variáveis, pode-se categorizá-las como pertencentes a uma das várias caixas.
Decidir sobre o tamanho do compartimento é uma questão de viés versus variância. Se os compartimentos forem muito pequenos, o que significa que você está solicitando que as observações sejam muito semelhantes nessas variáveis contínuas, as correspondências encontradas serão poucas, levando a uma alta variância. No entanto, se os bins forem muito grandes, o que significa que observações muito diferentes nessas variáveis são combinadas, isso leva a uma estimativa tendenciosa, porque você não controlou com sucesso essas variáveis.
No final, para obter informações salariais, combinei a mediana do intervalo criando faixas de $ 10.000 de $ 0 a $ 250.000, atribuindo $ 0 para aqueles que não tinham informações salariais - que, lembre-se da Parte 1, era a maioria da minha amostra - e uma caixa de $ 250.000+ para postagens com as medianas mais altas. Imaginei que isso garantiria que nenhuma observação com valores salariais totalmente diferentes fosse correspondida, embora algumas com meios modestamente diferentes (e talvez pisos e tetos de alcance muito diferentes) fossem. Para os anos de experiência exigidos, criei compartimentos de [0, 3], (3, 6], (6, 9) e 10+, esperando que isso garantisse que não houvesse postagens de nível de diretor e nível de entrada, para exemplo, sendo correspondente.
Embora a correspondência dessas cinco variáveis inevitavelmente tenha percorrido um longo caminho para obter uma estimativa imparcial do efeito do tratamento, mais etapas precisavam ser tomadas. Um estava relacionado à minha variável de resultado, aplicações por dia.
Aplicações por dia
Como as postagens de emprego foram observadas em vários momentos desde que foram publicadas pela primeira vez, era importante padronizar as taxas de candidatos. Inicialmente, pensei que isso por si só tornaria as postagens separadas por dias e até semanas comparáveis se todo o resto fosse igual. No entanto, acabei encontrando uma relação clara entre os candidatos de um anúncio de emprego por dia e quanto tempo ele estava no ar. Especificamente, as oportunidades de trabalho mais recentes (por exemplo, aquelas publicadas, digamos, 6 horas antes de serem observadas) tendem a receber um número substancialmente maior de candidatos por 24 horas do que as oportunidades de trabalho mais antigas (por exemplo, aquelas publicadas 2 semanas antes da observação). Isso possivelmente se deve a uma combinação de três razões: o sistema de recomendação do LinkedIn favorece postagens mais recentes, uma quantidade desproporcional de interesse em uma postagem se materializa muito cedo,
Seja qual for o motivo, seria importante levar isso em consideração em minha análise final. Caso contrário, muito ruído chegaria às partidas finais, tornando muito mais difícil obter uma estimativa precisa do efeito do tratamento. Observando a tendência do gráfico acima, decidi também verificar se uma postagem tem mais de 1 dia, evitando assim um certo número de correspondências inadequadas.
Correspondência: Parte 1
Para identificar correspondências nas seis variáveis mercado, setor, tamanho da empresa, anos de experiência exigidos, informações salariais e idade de postagem, identifiquei áreas no espaço de covariáveis com variância de tratamento. Isso foi feito em duas etapas: primeiro, agrupando por essas seis variáveis mais o tratamento e, em segundo lugar, filtrando para áreas duplicadas com base apenas nessas seis variáveis. Abaixo está o código que usei para executar a primeira etapa, bem como uma amostra de sua saída.
A etapa dois faz com que, no que diz respeito aos valores da tabela acima, apenas as postagens de emprego no espaço de covariáveis em negrito sejam mantidas porque não há variação de tratamento e, portanto, nenhuma correspondência possível nos outros subespaços.
Agora focado nesses subespaços com variação de valor de tratamento, eu então itero através de cada um, atribuindo a cada anúncio de trabalho remoto um anúncio de trabalho de controle em seu mesmo subespaço. Vale a pena observar que essa atribuição de correspondência é feita sem substituição, o que contrasta com meu processo de correspondência final a ser mostrado na Parte 3. Mostro o código para esse processo iterativo abaixo.
Com uma amostra correspondente do processo acima, posso estimar o efeito no interesse do candidato de uma oportunidade de trabalho ser remota em vez de no local, juntamente com os impactos de um anúncio de emprego ser “Promovido” no LinkedIn ou ter um “Easy Aplicar”.
Esta saída é consistente com as hipóteses dadas anteriormente. Primeiro, realmente descobrimos que uma oportunidade de trabalho remota em vez de local resulta em um aumento significativo no interesse do candidato. Especificamente, estimamos um aumento de aproximadamente 59% nos candidatos diários. (Embora a aproximação logarítmica de multiplicar o coeficiente de especificação de nível logarítmico por 100 indique um aumento de 46,5%, essa aproximação falha com tamanhos de efeito dessa magnitude. Em vez disso, é preciso subtrair 1 do coeficiente exponencial antes de multiplicar por 100.) Em segundo lugar, embora grande, esse aumento é muito menor do que o aumento de aproximadamente 300% implícito por uma simples diferença nas médias fornecidas no início da seção EDA na Parte 1. Finalmente, embora as promoções do LinkedIn e o recurso Easy Apply não façam parte do meu foco, ainda é interessante observar o aumento no interesse do candidato que cada um fornece. Para o primeiro, estimo um aumento de aproximadamente 25% no número de solicitantes diários, e para o segundo, estimo um aumento de aproximadamente 160%.
Resta uma dúvida sobre a qualidade das próprias partidas, no entanto. Veja este, por exemplo.
Conforme projetado, há sobreposição de informações e mercado da empresa, bem como idade de postagem, anos necessários e caixas de informações de pagamento. Mas, fora isso, as duas oportunidades de trabalho são bastante diferentes na função, conforme evidenciado por amostras de suas descrições de trabalho. O novo contratado para a função principal é “construir uma visão e estratégia de tecnologia para uma solução ou domínio de negócios”, entre outras tarefas, enquanto o da função inferior é “responsável pela implementação e/ou suporte à produção de quaisquer módulos do Oracle Aplicações de ERP.”
Se houver uma diferença sistêmica nas funções de trabalho entre trabalhos remotos e presenciais que também explique o interesse em uma oportunidade de trabalho, isso introduziria um viés em nossas estimativas e, portanto, deve ser contabilizado. Tome esta outra correspondência como outro exemplo.
Esses dois cargos são bastante diferentes funcionalmente e - mostrando a imperfeição da coluna de meus anos de experiência e / ou empresas nem sempre expressando isso como uma qualificação importante nas descrições de cargo - em termos de qualificações exigidas, mas são compatíveis. Além disso, aqui está a diferença de candidatos por dia entre os dois tipos de cargo.
Se esses tipos de incompatibilidades forem excessivos, isso influenciaria minhas estimativas para cima. Tento abordar esse tipo de viés de correspondência em minha próxima postagem - não com o texto descritivo do cargo muito desestruturado, mas com o título do cargo.