Создание удаленной работы ведет к гораздо большему количеству кандидатов (часть 3 из 3: анализ текста / сопоставление названия должности)

May 13 2023
Во второй части я начал использовать грубое точное сопоставление, пытаясь ответить на свой исследовательский вопрос, который спрашивает, как возможность удаленной работы вместо личной работы влияет на интерес к ней. Сопоставленные переменные, которые я использовал — местоположение, отрасль, размер компании, информация о заработной плате, требуемый опыт работы и возраст должности — по-видимому, прошли долгий путь к устранению типа смещения вверх, на которое указывает простой исследовательский анализ данных, проведенный в части 1. .
Источник

В Части 2 я начал использовать грубое точное сопоставление, пытаясь ответить на свой исследовательский вопрос, который спрашивает, как возможность удаленной работы вместо личной работы влияет на интерес к ней. Сопоставленные переменные, которые я использовал — местоположение, отрасль, размер компании, информация о заработной плате, требуемый опыт работы и возраст должности — по-видимому, прошли долгий путь к устранению типа смещения вверх, на которое указывает простой исследовательский анализ данных, проведенный в части 1 . . Однако даже в пределах совпадений по этим шести переменным все еще может иметь место систематическая ошибка в отношении функции работы. Удаленные рабочие места в моей выборке могут вызывать больший интерес в силу характера их работы, а не удаленности.

Я бы сказал, что эта часть работы довольно широко представлена ​​в названии должности, ключевом параметре поиска большинства людей при поиске работы. И если мы посмотрим, какие названия должностей, как правило, оказывались на каждой стороне каждого совпадения в конце части 2 , мы увидим, что рабочие места на местах могут быть чрезмерно представлены теми, которые вызывают меньший интерес из-за их функциональности, а не их организации работы. .

Вот почему последняя часть моей стратегии идентификации требовала соответствия и по названию должности. Я нашел два одинаково эффективных способа сделать это, оба из которых основаны на сопоставлении расстояний по функциям, полученным из текста названия должности — в частности, столбцов, указывающих, есть ли в названии данной вакансии заданное ключевое слово. В первом случае каждая из этих функций представляла собой простые фиктивные переменные (1, если ключевое слово столбца присутствовало, 0, если нет) и полезное определение подобия, известное как расстояние Жаккара. Ко второму относятся признаки, отражающие не только наличие различных ключевых слов, но и веса, соответствующие их оценочной значимости, при этом сходство в данном случае определяется с помощью евклидова расстояния.

Обратите внимание, что оба подхода требовали предварительной очистки названий должностей. Как показано в части 1 , многие удаленные рабочие места сообщают о своей удаленности в самом названии должности, поэтому для более эффективного и точного измерения сходства такие слова, как «удаленный», «домашний» и «гибридный», были удалены из названий должностей перед этой частью. анализа. В противном случае совпадения будет труднее найти, потому что аналогичные рабочие места с разным рабочим графиком не будут иметь одинаковую рабочую схему, рекламируемую в их названии должности, что сделает их более разными, чем они есть на самом деле.

Подход на расстоянии Жаккара

Как уже упоминалось, мой первый подход заключался в определении схожести названий должностей с помощью простой матрицы, показывающей, какие названия должностей содержат какие ключевые слова.

Подобно итеративному процессу поиска совпадений, показанному в части 2 , я циклически перебирал различные пространства ковариатов, которые содержали потенциальные совпадения для моих первых шести переменных, но в этом случае я также построил матрицу текстовых признаков для каждого из этих пространств и нашел каждое обработанное наблюдение. ближайший сосед в соответствии с расстоянием Жаккара в этом текстовом пространстве признаков (определяется всеми униграммами в названиях должностей моего набора данных). Также известное как сходство Жаккара, оно определяется размером пересечения двух наборов слов, разделенным на размер объединения этих наборов. Например, если сет A был представлен как «Короли вышли в плей-офф», а сет B был представлен как «Короли вышли в плей-офф с тремя семенами», их сходство по Жаккару получается равным 4/11.

Кроме того, я также внедрил правило принятия решения, когда на этой основе идентифицировали ближайшего соседа каждой обрабатываемой единицы. Если их сходство по Жаккару превышало 0,4, они считались совпадением. Если нет, то обработанное наблюдение не имело достаточно сопоставимого контрольного наблюдения, и его не принимали во внимание. Этот выбор порога является еще одним примером компромисса смещения и дисперсии. Слишком слабая полоса пропускания приводит к худшему совпадению и большему смещению, тогда как слишком строгая полоса пропускания приводит к лучшему, но меньшему количеству совпадений и большей дисперсии.

Наконец, как упоминалось в Части 2 , в этой процедуре контрольные совпадения были выбраны с заменой. Это может привести к большей дисперсии, поскольку приводит к эффективному уменьшению размера выборки, когда одни и те же контрольные наблюдения используются более чем в одном совпадении, но это снижает систематическую ошибку, поскольку выбирается наилучшее возможное совпадение независимо от того, использовалось ли оно с другой обрабатываемой единицей.

Ниже я привожу отрывок из своего кода, который включает этот процесс поиска соседей. Обратите внимание на параметр решения 0,6, значение расстояния Жаккара (1 минус сходство Жаккара), которое соответствует сходству Жаккара, равному 0,4. Код целиком можно найти здесь . Далее я расскажу о другом подходе к анализу текста, прежде чем перейти к результатам для каждого из них.

Фрагмент кода 1: Соответствие по названию должности, если расстояние Жаккара < 0,6

Подход евклидова расстояния

Мой второй подход заключался в получении различных текстовых признаков и вычислении евклидова расстояния с использованием этих признаков. В частности, я обнаружил, что использование tf-idf, что является сокращением от термина «частотно-обратная частота документа», вместо простых фиктивных переменных также дало хорошие совпадения.

Результатом этого метода является выделение слов, которые не встречаются во многих других наблюдениях. Например, если рассматривать название должности «сотрудник по обслуживанию клиентов» как менее удаленное от «представителя по обслуживанию клиентов», чем «специалист по обслуживанию клиентов», даже несмотря на то, что оба они отличаются только одним словом, потому что термин «поклонник» не является общепринятым. . Это может быть эффективным инструментом для оценки схожести названия должности/функции, если необычные термины в названии должности означают, что она менее сравнима с другими.

Для этого подхода я установил правило принятия решения, требующее, чтобы названия должностей находились в пределах евклидова расстояния друг от друга, равного 2, чтобы считаться совпадением.

Полученные результаты

Теперь, сопоставляя название должности с любым подходом на основе подобия текста, мы получаем довольно схожие оценки, как и в части 2 , где мы сопоставляли только рынок, отрасль, размер компании, информацию о заработной плате, требуемый опыт работы и возраст должности. Это может указывать самое большее на незначительную предвзятость, если таковая имеется, возникающая из-за несоответствия должностных функций через название должности; однако эти процедуры сопоставления также приводят к оценкам, отражающим различные выборки. Например, в то время как процедура сопоставления из Части 2 использовала более 9000 наблюдений, здесь используется относительно небольшое число совпадений, каждое из которых насчитывает около 1500 наблюдений.

Оценки на основе сопоставления шести предыдущих переменных: рынка, отрасли, размера компании, информации об оплате, времени публикации и требуемого опыта работы, а также сходства названий должностей.

Мы можем просматривать различные совпадения и находить подходящие пары, как показано ниже.

Стоит отметить, что многие совпадения, определенные с использованием либо подхода Евклидова расстояния, либо подхода расстояния Жаккара, были виртуальными дубликатами по всем зарегистрированным измерениям, кроме статуса лечения. Это относится к третьему совпадению, показанному выше (последние две строки). Такого рода совпадения являются результатом либо того, что компании действительно нанимают сотрудников на одну и ту же должность, но с другим рабочим графиком, либо по ошибке с их стороны. В любом случае, он предлагает очень приемлемые совпадения, подобные приведенным выше.

Дополнительный аспект, представляющий интерес, связанный с моим исследовательским вопросом, заключается в том, меняется ли оценка этого эффекта в зависимости от рынка. В частности, я бы предположил, что рост интереса соискателей, связанный с удаленной работой, а не с работой на месте, больше на меньшем рынке, чем на большем рынке, учитывая, что меньший рынок в противном случае больше ограничен меньшим соискателем. бассейн.

Чтобы изучить это, во-первых, я объединил данные переписи населения с моей удаленной/локальной выборкой Jaccard и обнаружил, что моя оценка сокращается примерно на 0,7% на каждые дополнительные сто тысяч человек на данном рынке. Другими словами, по моим оценкам, размер эффекта на таком рынке, как Феникс, с населением около 1,6 миллиона человек, более чем на 7 процентных пунктов выше, чем на таких рынках, как Чикаго (население ≈ 2,7 миллиона), Лос-Анджелес. (население ≈ 3,8 млн) или Нью-Йорк (население ≈ 8,5 млн).

Поскольку я показал, что моя методология из Части 2 надежна, а ее менее строгие требования соответствия приводят к большему размеру выборки, я могу обратиться к этому подходу для дополнительного анализа неоднородности оценки эффекта по рынку. Ниже мы видим намеки на это по конкретным рынкам. По моим оценкам, эффект близок к наименьшему в крупнейших городах США, Нью-Йорке и Лос-Анджелесе, и больше на некоторых небольших рынках в моей выборке, таких как Цинцинатти, штат Огайо, и Фриско, штат Техас. Интересными исключениями являются Феникс и Маклин, штат Вирджиния, но они могут быть связаны с типами работы в этих городах в моих данных.

Я также получаю другие оценки из этого подхода. Во-первых, я считаю, что средний эффект открытия вакансии для удаленной работы, а не для работы с личным присутствием, заключается в увеличении числа ежедневных соискателей примерно на 75% (exp(0,5583)-1)*100). Во-вторых, я оцениваю, что этот эффект для гибридной работы составляет около 7%. Кроме того, я оцениваю влияние функций LinkedIn Easy Apply и Promoted на количество кандидатов примерно в 144% и 40% соответственно.

Наконец, поскольку моя процедура сопоставления привела к подмножествам моих данных, состав которых отличается от моего набора данных в целом, и мои оценки основаны на этих подмножествах, стоит взглянуть на состав моих окончательных сопоставленных выборок. Ниже мы видим, что моя удаленная подобранная выборка состоит в основном из объявлений о вакансиях в сфере бухгалтерского учета, разработки программного обеспечения, финансов, здравоохранения и велнес/фитнеса. Между тем, моя гибридная подобранная выборка состоит в основном из объявлений о вакансиях в сфере финансов, информационных технологий, здравоохранения, розничной торговли, оборонной и космической промышленности.

Мы также можем увидеть, какие типы позиций широко представлены в каждой выборке.

Заключение

Using a matching approach to control for key determinants of job posting interest like job title, market, and required qualifications, I believe I’ve found strong evidence that a job opportunity being remote has a substantial impact on applicant interest and that a job opportunity being hybrid has a modest one. Specifically, I estimate that making a job opening remote instead of on-site will, on average, lead to an increase in applicant count of about 75%, whereas making it hybrid instead of on-site will lead to an average increase of about 7%. Furthermore, my analysis indicates that the first of those two effects varies by geography according to market size, revealing how companies in smaller markets are able to tap into much more of the labor supply with a remote workforce.

Тем не менее, есть некоторые ограничения, связанные с моим подходом. Во-первых, мои оценки в основном относятся к подмножеству обработанных наблюдений, для которых существовало множество сопоставимых контрольных наблюдений — например, роли разработчиков программного обеспечения в разработке программного обеспечения, информационных технологиях и финансовых отраслях. Это находится в прямом противоречии с ролями, составляющими большую и маленькую части моих подвыборок на месте и удаленных объявлений о вакансиях соответственно. Если мы вернемся к рисунку 4 из моего первого поста в блоге , примерами этих ролей будут менеджеры магазинов, техники и медсестры.

Беспристрастность моих оценок также зависит от того, насколько успешно я контролировал потенциально смешанные переменные. Если есть переменные, которые я не сопоставил, и которые определяют заинтересованность соискателя и связаны с лечением, т. е. коррелируют с тем, является ли работа на месте, гибридной или удаленной, то мои оценки в некоторой степени предвзяты. Кроме того, даже если бы я указывал необходимые переменные сопоставления, они все равно не полностью контролировались бы, если интервалы слишком широки или, в случае моего сопоставления с названием должности, ширина полосы пропускания/калипер расстояния Жаккара 0,6 слишком велика.

Учитывая все вышесказанное, я думаю, что есть основания полагать, что эти предположения верны. Я думаю, что бины, которые я указал в Части 2 , довольно узки. Более того, самый широкий из них, по продолжительности публикации, в основном предназначен для минимизации шума между матчами; хотя я показал, что эта переменная действительно предсказывает количество поступающих в день, нет причин, по которым ее следует коррелировать с лечением. Кроме того, удовлетворительная стабильность моих оценок, независимо от подхода к сопоставлению должностей (т. е. ни одного по сравнению с подобием по Жаккару или с евклидовым расстоянием), также обнадеживает.

В результате я думаю, что мои результаты указывают на то, что в этой области можно сделать более интересные выводы. Можно провести дополнительное исследование, чтобы увидеть, как этот эффект зависит от параметров, отличных от рынка, таких как тип работы, отрасль или уровень стажа. Кроме того, можно было бы провести дополнительный анализ, связанный с изменчивостью эффектов лечения в зависимости от размера рынка, чтобы попытаться проанализировать, какая часть этих эффектов обусловлена ​​увеличением количества доступных кандидатов, а какая часть обусловлена ​​предпочтениями, которые я привел в начале моей статьи . первая запись в блоге .