Создание удаленной работы ведет к гораздо большему количеству кандидатов (часть 2 из 3: упрощенное точное соответствие)
В моем последнем посте я показал, что удаленность возможности трудоустройства действительно коррелирует с гораздо большим интересом соискателя, но я также показал, почему эта корреляция может вводить в заблуждение или, возможно, по крайней мере, преувеличенное указание на то, что компания может разумно ожидать от соискателя. интерес, если это делает открытие работы удаленным, а не на месте. Объявления о вакансиях с различными рекламируемыми условиями работы — на месте, гибридными или удаленными — также, как правило, различаются, по крайней мере, в моей выборке, с точки зрения других факторов интереса к вакансиям, начиная от требуемого опыта и заканчивая отраслями. они в том, какие титулы они, как правило, имеют.
Часто кажется, что эти различия указывают на то, что простая разница в средних значениях, сделанная в начале моего EDA в Части 1 , является завышенной оценкой. Возьмем, к примеру, промышленность. Мы увидели, что около 14% удаленных объявлений о вакансиях относятся к ролям в разработке программного обеспечения, в то время как менее 5% — к ролям в розничной торговле, что представляет собой избыточное и недостаточное представительство в этих двух областях, соответственно, по сравнению с объявлениями о вакансиях на местах. Это можно было бы игнорировать, если бы промышленность не была определяющим фактором интересов работников, но в среднем, вероятно, так оно и есть.
В то время как линейная регрессия является очень эффективным способом сохранения постоянных переменных, таких как отрасль, для получения объективной оценки эффекта, который вы изучаете, в моем случае я решил использовать сопоставление как более подходящий подход по нескольким причинам.
Методология сопоставления
Одним из простых преимуществ сопоставления является то, что по своей сути оно довольно интуитивно понятно и легко объяснимо. Наблюдения, одинаковые или достаточно похожие с точки зрения ключевых переменных, таких как отрасль, рынок, заработная плата и т. д., но различающиеся по трактовке, в некотором роде являются контрфактуальными. Оценки на уровне наблюдения, полученные в результате сравнения совпадений на этих основаниях, конечно, будут довольно зашумленными, но при большом размере выборки, если контролируются правильные переменные, это должно давать объективную оценку эффекта лечения.
Еще одним преимуществом сопоставления в моем случае является то, что оно не является параметрическим. В отличие от линейной регрессии, не требовалось никакой спецификации, говорящей о том, что ковариаты линейно связаны с результатом. Сопоставляя эти ковариаты, вы можете удерживать их постоянными, чтобы определить интересующий вас эффект. Кроме того, также не было необходимости задавать десятки фиктивных переменных или ограничивать мои данные только наиболее часто встречающимися в моей выборке отраслями (которые, как мы видели ранее, были финансами и больницами/здравоохранением) или рынками (Нью-Йорк и Чикаго); сопоставление позволило мне изучить больше ковариатного пространства для совпадений по отрасли, рынку и другим ключевым переменным.
Критические шаги включают в себя сначала определение этих ключевых переменных, а также принятие решения о том, как на самом деле сопоставить — либо путем минимизации расстояния в ковариативном пространстве, либо путем максимального сходства показателей склонности. Хотя я разработал множество функций на основе данных, на раннем этапе я решил, что может быть достаточно пяти переменных: рынок, отрасль, размер компании, информация о зарплате и требуемый многолетний опыт. Я также остановился на сопоставлении расстояний, полагая, что моделирование показателей склонности в этих условиях (то есть вероятность того, что каждая работа будет удаленной или гибридной) может оказаться слишком сложной задачей. В частности, я использовал укрупненный фреймворк точного соответствия.
Для моих категориальных переменных рынка, отрасли и, в случае LinkedIn, размера компании (например, 10 001+ сотрудников, 501–10 000 сотрудников и т. д.) этот подход и его обоснование довольно просты. Публикации с разными статусами лечения совпадают только в том случае, если они основаны на одном рынке и отрасли, а также если они принадлежат компаниям одной и той же категории размера. Рынок является ключевым географическим фактором/ограничением интереса к открытию вакансий (по крайней мере, для рабочих мест на месте и гибридных рабочих мест). Между тем, интерес соискателя определяется размером отрасли и компании на основе предпочтений и набора навыков. Сопоставляя наблюдения по этим категориям, мы можем гарантировать, что они не повлияют на наши оценки.
Ситуация немного сложнее и менее верна, когда речь идет о непрерывных переменных — в моем случае информация о зарплате и требуемом многолетнем опыте. Будет очень мало наблюдений, если они вообще будут, с точно такой же информацией о зарплате и/или точно таким же требуемым опытом. Однако, например, при требуемом опыте работы, работа, требующая 5 лет опыта, сильно отличается от работы, требующей 6 лет? Возможно нет. Следовательно, чтобы сопоставить эти переменные, их можно классифицировать как принадлежащие одному из нескольких бинов.
Принятие решения о размере бина — это вопрос смещения по сравнению с дисперсией. Если интервалы слишком малы, то есть вы хотите, чтобы наблюдения были слишком похожими на эти непрерывные переменные, тогда найденных совпадений будет мало, что приведет к высокой дисперсии. Однако, если бины слишком велики, то есть совпадают наблюдения, совершенно разные по этим переменным, это приводит к необъективной оценке, потому что вы не смогли успешно контролировать эти переменные.
В конце концов, для информации о зарплате я сопоставил медиану диапазона, создав ячейки шириной 10 000 долларов от 0 до 250 000 долларов, назначив 0 долларов для тех, у кого не было информации о зарплате — что, как вы помните из части 1, составляло большую часть моей выборки — и корзину $250 000+ за публикации с самыми высокими медианами. Я полагал, что это гарантирует, что никакие наблюдения с сильно отличающимися цифрами заработной платы не будут совпадать, хотя некоторые с немного отличающимися средними значениями (и, возможно, с очень разными нижним и верхним диапазоном) будут. Для требуемого многолетнего опыта я создал корзины [0, 3], (3, 6], (6, 9) и 10+, надеясь, что это обеспечит отсутствие объявлений о должностях уровня директора и начального уровня, для экземпляр, совпадающий.
Хотя сопоставление этих пяти переменных неизбежно привело к получению объективной оценки эффекта лечения, необходимо было предпринять дополнительные шаги. Один был связан с моей переменной результата, приложений в день.
Заявок в день
Поскольку объявления о вакансиях наблюдались в разное время с момента их первого размещения, было важно стандартизировать показатели соискателей. Первоначально я думал, что одно только это сделает сообщения, разделенные днями и даже неделями, сопоставимыми, если все остальное будет равным. Тем не менее, я обнаружил четкую взаимосвязь между количеством соискателей вакансий в день и тем, как долго они были опубликованы. В частности, новые вакансии (например, те, которые были опубликованы, скажем, за 6 часов до наблюдения), как правило, привлекали значительно большее количество кандидатов в сутки, чем старые вакансии (например, те, которые были опубликованы за 2 недели до наблюдения). Возможно, это связано с комбинацией трех причин: система рекомендаций LinkedIn отдает предпочтение более новым сообщениям, непропорциональный интерес к сообщению материализуется очень рано,
Какой бы ни была причина, было бы важно учесть это в моем окончательном анализе. В противном случае в окончательные совпадения попадет много шума, что значительно затруднит точную оценку эффекта лечения. Наблюдая за вышеприведенной тенденцией, я решил также сопоставить, старше ли публикации более 1 дня, тем самым избежав некоторого количества неподходящих совпадений.
Соответствие: Часть 1
Чтобы выявить совпадения по шести переменным: рынок, отрасль, размер компании, требуемый многолетний опыт, информация о зарплате и возраст должности, я определил области в ковариативном пространстве с дисперсией лечения. Это было сделано в два этапа: сначала путем группировки по этим шести переменным плюс лечение, а затем путем фильтрации для дублирования областей на основе только этих шести переменных. Ниже приведен код, который я использовал для выполнения первого шага, а также пример его вывода.
Второй шаг позволяет сделать так, чтобы значения в приведенной выше таблице сохранялись только объявления о вакансиях в выделенном жирным шрифтом пространстве ковариатов, потому что нет различий в обработке и, следовательно, нет возможных совпадений в других подпространствах.
Теперь, сосредоточившись на этих подпространствах с дисперсией значения обработки, я затем перебираю каждое, назначая каждой удаленной должности, публикующей контрольную работу, размещаемую в том же подпространстве. Стоит отметить, что это присваивание сопоставления выполняется без замены, в отличие от моего окончательного процесса сопоставления, который будет показан в части 3. Я показываю код для этого итеративного процесса ниже.
Имея в руках согласованную выборку из описанного выше процесса, я могу оценить влияние на заинтересованность соискателя возможности трудоустройства удаленно, а не на месте, а также влияние объявления о вакансии, которое «рекламируется» в LinkedIn или имеет «легкий Применить».
Этот вывод согласуется с гипотезами, высказанными ранее. Во-первых, мы действительно обнаружили, что возможность трудоустройства удаленно, а не на месте, приводит к значительному увеличению интереса соискателей. В частности, мы оцениваем примерно 59%-ное увеличение числа ежедневных заявителей. (Хотя логарифмическая аппроксимация умножения коэффициента спецификации логарифмического уровня на 100 указывает на увеличение на 46,5%, эта аппроксимация не работает с размерами эффекта такой величины. Вместо этого нужно вычесть 1 из возведенного в степень коэффициента перед умножением на 100.) Во-вторых, хотя это увеличение и велико, оно намного меньше, чем примерно 300-процентное увеличение, подразумеваемое простой разницей в средних значениях, указанной в начале раздела EDA в части 1.. Наконец, хотя рекламные акции LinkedIn и функция Easy Apply не являются частью моего внимания, все же интересно отметить, какое повышение интереса соискателей обеспечивает каждая из них. Для первого я оцениваю примерно 25-процентное увеличение количества ежедневных заявителей, а для второго — примерно 160-процентное увеличение.
Однако остается вопрос о качестве самих матчей. Возьмем, к примеру, этот.
Как и было задумано, существует совпадение информации о компании и рынке, а также возраст публикации, требуемые годы и информация о платежах. Но помимо этого, эти две вакансии сильно различаются по функциям, о чем свидетельствуют образцы из их должностных инструкций. Новый сотрудник на главную роль должен среди прочего «создать технологическое видение и стратегию для решения или области бизнеса», а сотрудник на нижнюю роль «отвечает за внедрение и/или производственную поддержку любых модулей Oracle». ERP-приложения».
Если существует системная разница в функциях работы между удаленными и локальными рабочими местами, которая также объясняет интерес к возможностям трудоустройства, это внесет погрешность в наши оценки и, следовательно, должно учитываться. Возьмите этот другой матч в качестве еще одного примера.
Эти две должности сильно различаются функционально и — показывая как несовершенство столбца моего многолетнего опыта, так и / или компании, не всегда указывающие это как ключевую квалификацию в описаниях должностей — с точки зрения требуемых квалификаций, тем не менее, они совпадают. Кроме того, вот разница в соискателях в день между двумя типами вакансий.
Если такого рода несоответствия широко распространены, мои оценки будут завышены. В своем следующем посте я попытаюсь устранить этот тип предвзятости соответствия — не с очень неструктурированным текстом описания работы, а вместо этого с названием должности.