Статистика - стратифицированная выборка

Эта стратегия исследования используется как часть обстоятельств, когда население может быть легко разделено на группы или слои, которые не совсем совпадают друг с другом, но компоненты внутри группы однородны по нескольким признакам, например, ученики школы могут быть разделены на группы по признаку сексуальной ориентации, предлагаемых курсов, возраста и т. д. В этом случае популяция сначала делится на слои, а затем из каждого слоя берется образец неправильной формы. Стратифицированное тестирование бывает двух видов: пропорциональное расслоенное обследование и непропорциональное расслоенное обследование.

  • Proportionate Stratified Sampling- При этом количество единиц, выбранных из каждой страты, пропорционально доле этой страты в населении, например, в колледже всего 2500 студентов, из которых 1500 студентов обучаются в аспирантуре, а 1000 - в аспирантуре. Если выборка из 100 должна быть выбрана с использованием пропорциональной стратифицированной выборки, то количество студентов бакалавриата в выборке будет 60, а 40 будут аспирантами. Таким образом, эти две страты представлены в выборке в той же пропорции, что и их представительство в генеральной совокупности.

    Этот метод наиболее подходит, когда целью выборки является оценка совокупного значения некоторой характеристики и нет различий в дисперсиях внутри слоя.

  • Disproportionate Stratified Sampling- Когда целью исследования является сравнение различий между слоями, возникает необходимость выделить равные единицы из всех слоев, независимо от их доли в населении. Иногда некоторые страты более изменчивы в отношении некоторых характеристик, чем другие страты, в таком случае большее количество единиц может быть извлечено из более изменчивых слоев. В обеих ситуациях выбранная выборка является непропорционально стратифицированной выборкой.

    Разницу в размере страты и ее изменчивость можно оптимально распределить, используя следующую формулу для определения размера выборки из разных страт.

    Формула

    $ {n_i = \ frac {n.n_i \ sigma_i} {n_1 \ sigma_1 + n_2 \ sigma_2 + ... + n_k \ sigma_k} \ for \ i = 1,2 ... k} $

    Где -

    • $ {n_i} $ = размер выборки i страт.

    • $ {n} $ = размер страт.

    • $ {\ sigma_1} $ = стандартное отклонение i-го слоя.

    Кроме того, может возникнуть ситуация, когда стоимость сбора пробы может быть больше в одной страте, чем в другой. Оптимальная непропорциональная выборка должна производиться таким образом, чтобы

    $ {\ frac {n_1} {n_1 \ sigma_1 \ sqrt {c_1}} = \ frac {n_2} {n_2 \ sigma_1 \ sqrt {c_2}} = ... = \ frac {n_k} {n_k \ sigma_k \ sqrt { c_k}}} $

    Где $ {c_1, c_2, ..., c_k} $ относятся к стоимости выборки в k стратах. Размер выборки из разных слоев можно определить по следующей формуле:

    $ {n_i = \ frac {\ frac {n.n_i \ sigma_i} {\ sqrt {c_i}}} {\ frac {n_1 \ sigma_1} {\ sqrt {c_i}} + \ frac {n_2 \ sigma_2} {\ sqrt {c_2}} + ... + \ frac {n_k \ sigma_k} {\ sqrt {c_k}}} \ for \ i = 1,2 ... k} $

пример

Problem Statement:

В организации 5000 сотрудников, разделенных на три уровня.

  • Уровень A: 50 руководителей со стандартным отклонением = 9

  • Уровень B: 1250 работников умственного труда со стандартным отклонением = 4.

  • Уровень C: 3700 рабочих со стандартным отклонением = 1.

Как будет составлена ​​выборка из 300 сотрудников на непропорциональной основе с оптимальным распределением?

Solution:

Использование формулы непропорциональной выборки для оптимального распределения.

$ {n_i = \ frac {n.n_i \ sigma_i} {n_1 \ sigma_1 + n_2 \ sigma_2 + n_3 \ sigma_3}} \\ [7pt] \, для потока A, {n_1 = \ frac {300 (50) (9 )} {(50) (9) + (1250) (4) + (3700) (1)}} \\ [7pt] \, = {\ frac {135000} {1950} = {14.75} \ или \ say \ {15}} \\ [7pt] \, для потока B, {n_1 = \ frac {300 (1250) (4)} {(50) (9) + (1250) (4) + (3700) (1 )}} \\ [7pt] \, = {\ frac {150000} {1950} = {163.93} \ или \ say \ {167}} \\ [7pt] \, для потока C, {n_1 = \ frac { 300 (3700) (1)} {(50) (9) + (1250) (4) + (3700) (1)}} \\ [7pt] \, = {\ frac {110000} {1950} = { 121,3} \ или \ say \ {121}} $