ВЫБОРКИ СЛУЧАЙНОЙ РЕПРЕЗЕНТАТИВНОЙ ОБЪЕМ — объем случайной выборки, при котором случайная ошибка выборки с заданной доверительной вероятностью не превысит некоторой предельно допустимой величины.
Репрезентативность выборки, при отсутствии систематической ошибки, определяется двумя показателями — уровнем доверительной вероятности (1 — α), который выбирается из значений 0.1, 0.05, 0.01 и т.п., и предельно допустимым (с точки зрения исследователя) значением случайной ошибки Δдоп. Объем выборки, который необходим для того, чтобы ошибка выборки Δ с вероятностью (1 — α) не превысила величины Δдоп, определяется по формуле:
n = (Z1-α/2 × σ²) / Δдоп ,
где Z1-α/2 — доверительный коэффициент, соответствующий доверительной вероятности (1 — α),
Δдоп — предельно допустимое значение ошибки выборки,
σ² — дисперсия переменной по генеральной совокупности.
Например, если для переменной «время, затрачиваемое на дорогу от дома до работы» дисперсия по генеральной совокупности σ² = 100, то при предельно допустимом значении ошибки выборки Δдоп = 5мин, доверительной вероятности (1 — α) = 0.95 и соответствующем ей доверительном коэффициенте z0.975 = 1.96 ≈ 2 , объем выборки, при котором ошибка с вероятностью 95% не превысит 5 минут, равен
n = (2² × 100) / 5² = 16.
Объем выборки определяется до начала исследования. Значения доверительной вероятности (1 — α) и предельно допустимой ошибки выборки Δдоп выбираются исследователем.
Дисперсия переменной по генеральной совокупности σ² , в большинстве случаев, неизвестна и должна быть каким-то образом оценена. Существует три основных подхода к оцениванию дисперсии генеральной совокупности: 1) использование литературных данных или результатов других исследований; 2) пилотажное исследование (выборочная дисперсия переменной по пилотажной выборке используется как оценка генеральной дисперсии); 3) использование «максимальной» дисперсии, которая для количественной переменной оценивается по формуле:
σ²max = (xmax — xmin)² / 12.
В последнем случае рассчитанный объем выборки будет, скорее всего, завышен, что не может снизить качество результатов исследования, но может существенно завысить его стоимость.
Если объем выборки определяется для репрезентативного представления дихотомической переменной, он вычисляется по формуле:
n = (Z²1-α/2 × p(1 — p)) / Δ²доп ,
где p — вероятность (доля) положительных ответов по генеральной совокупности,
p(1 — p) — дисперсия дихотомической переменной по генеральной совокупности.
Если p не известно, для оценки максимальной дисперсии используется значение p = 0.5. В этом случае σ²max = 0.5² = 0.25.
Поскольку объем выборки зависит от дисперсии переменной, для разных переменных он будет иметь разные значения. В этой ситуации рекомендуется вычислять объем выборки для наиболее важной переменной в исследовании, а при достаточном финансировании проекта — выбирать максимальный из объемов выборки, вычисленных для всех переменных.
Приведенные в данной статье формулы применяются для простой случайной выборки из бесконечной генеральной совокупности. Если объем генеральной совокупности сопоставим с объемом выборки, формула для вычисления объема простой случайной репрезентативной выборки принимает вид:
,
где N — объем генеральной совокупности.
Если случайная выборка извлекается с использованием процедур стратификации или кластеризации (см.
Выборка случайная стратифицированная, Выборка случайная кластеризованная), формулы для вычисления объема репрезентативной выборки усложняются. Их можно найти в специальной статистической литературе.
Для нестатистических выборок приведенные формулы не имеют смысла. На практике для квотных выборок нередко используется объем, рассчитанный для простой случайной выборки, что, однако, не может служить подтверждением их репрезентативности.
О.В. Терещенко