Статистика - стратифицированная выборка
Эта стратегия исследования используется как часть обстоятельств, когда население может быть легко разделено на группы или слои, которые не совсем совпадают друг с другом, но компоненты внутри группы однородны по нескольким признакам, например, ученики школы могут быть разделены на группы по признаку сексуальной ориентации, предлагаемых курсов, возраста и т. д. В этом случае популяция сначала делится на слои, а затем из каждого слоя берется образец неправильной формы. Стратифицированное тестирование бывает двух видов: пропорциональное расслоенное обследование и непропорциональное расслоенное обследование.
Proportionate Stratified Sampling- При этом количество единиц, выбранных из каждой страты, пропорционально доле этой страты в населении, например, в колледже всего 2500 студентов, из которых 1500 студентов обучаются в аспирантуре, а 1000 - в аспирантуре. Если выборка из 100 должна быть выбрана с использованием пропорциональной стратифицированной выборки, то количество студентов бакалавриата в выборке будет 60, а 40 будут аспирантами. Таким образом, эти две страты представлены в выборке в той же пропорции, что и их представительство в генеральной совокупности.
Этот метод наиболее подходит, когда целью выборки является оценка совокупного значения некоторой характеристики и нет различий в дисперсиях внутри слоя.
Disproportionate Stratified Sampling- Когда целью исследования является сравнение различий между слоями, возникает необходимость выделить равные единицы из всех слоев, независимо от их доли в населении. Иногда некоторые страты более изменчивы в отношении некоторых характеристик, чем другие страты, в таком случае большее количество единиц может быть извлечено из более изменчивых слоев. В обеих ситуациях выбранная выборка является непропорционально стратифицированной выборкой.
Разницу в размере страты и ее изменчивость можно оптимально распределить, используя следующую формулу для определения размера выборки из разных страт.
Формула
$ {n_i = \ frac {n.n_i \ sigma_i} {n_1 \ sigma_1 + n_2 \ sigma_2 + ... + n_k \ sigma_k} \ for \ i = 1,2 ... k} $
Где -
$ {n_i} $ = размер выборки i страт.
$ {n} $ = размер страт.
$ {\ sigma_1} $ = стандартное отклонение i-го слоя.
Кроме того, может возникнуть ситуация, когда стоимость сбора пробы может быть больше в одной страте, чем в другой. Оптимальная непропорциональная выборка должна производиться таким образом, чтобы
$ {\ frac {n_1} {n_1 \ sigma_1 \ sqrt {c_1}} = \ frac {n_2} {n_2 \ sigma_1 \ sqrt {c_2}} = ... = \ frac {n_k} {n_k \ sigma_k \ sqrt { c_k}}} $
Где $ {c_1, c_2, ..., c_k} $ относятся к стоимости выборки в k стратах. Размер выборки из разных слоев можно определить по следующей формуле:
$ {n_i = \ frac {\ frac {n.n_i \ sigma_i} {\ sqrt {c_i}}} {\ frac {n_1 \ sigma_1} {\ sqrt {c_i}} + \ frac {n_2 \ sigma_2} {\ sqrt {c_2}} + ... + \ frac {n_k \ sigma_k} {\ sqrt {c_k}}} \ for \ i = 1,2 ... k} $
пример
Problem Statement:
В организации 5000 сотрудников, разделенных на три уровня.
Уровень A: 50 руководителей со стандартным отклонением = 9
Уровень B: 1250 работников умственного труда со стандартным отклонением = 4.
Уровень C: 3700 рабочих со стандартным отклонением = 1.
Как будет составлена выборка из 300 сотрудников на непропорциональной основе с оптимальным распределением?
Solution:
Использование формулы непропорциональной выборки для оптимального распределения.