最小サンプルサイズと検出力テスト
人口30000人の都市のエネルギー消費量に関するデータにアクセスできるとします。スマートエネルギーの新しいテクノロジー、つまりこのテクノロジーでエネルギー消費量が減少するかどうかをテストしたいとします。30kをより小さなグループGにサブセット化して、テクノロジーを使用し、残りの人口(このテクノロジーを持っていない)と比較する必要があります。次に、エネルギー消費の平均が両方のグループで等しく、対立仮説が反対であるという仮説検定を行うことができます。しかし、テクノロジーがエネルギー消費量を削減した理由であり、偶然ではないことを確認するには、グループGの特定のレベルと最小サイズの有意なレベル(たとえば0.05)を取得する必要があります。
また、タイプIおよびタイプIIのエラーを回避するために、電力テストを実行する必要があることも読みました。しかし、それは本当に必要ですか?私はこのトピックに不慣れですが、非常に多くの異なる数式があり、グループGのサイズを決定するのにどれが正しいかわからないため、これは非常に混乱します。
回答
これはあなたの質問に対する直接の答えではありませんが、必要なサンプルサイズを取得するために「検出力とサンプルサイズ」の手順に入力する必要のある情報を示しています。
30,000世帯の1日あたりの「エネルギー単位」の現在の数がであると仮定しましょう $100.$ 新しいテクノロジーを使用すると、世帯あたりのエネルギー消費量が平均値で正規分布することが期待されます $\mu < 100$ と $\sigma = 20.$ あなたは90%の検出力で減少を検出することを望んでいます $5$エネルギー単位。したがって、特定の代替案が $H_a: \mu = 95$ 拒否確率を $0.9 = 90\%.$
確かに、この「情報」の一部は不明で推測的なものかもしれませんが、上記のすべてが必要な入力です。(入力のわずかな変化を試して、出力の効果を確認できます。)
これは、Minitabの最近のリリースからの出力です。
Power and Sample Size
1-Sample t Test
Testing mean = null (versus < null)
Calculating power for mean = null + difference
α = 0.05 Assumed standard deviation = 20
Sample Target
Difference Size Power Actual Power
-5 139 0.9 0.901145
したがって、この架空のシナリオでは、次のサンプルサイズが必要になります。 $n = 139$ 希望のパワーを得るために。次のグラフは、の減少を検出するためのパワーを示しています$5$---他の可能な減少とともに。

私の仮定では、約140の家に新技術を導入し、結果の1サンプルt検定を実行することは実行可能であるように思われます。$H_0: \mu=100$ 対。 $H_a: \mu < 100$ 5%レベルで。
注:(1)正規データの場合、このような計算では、自由度のある非心t分布を使用します。$n - 1$ 必要なパワー、検出する差のサイズ、および予測される母標準偏差に依存する非中心性パラメーター $n$ 観察。
重要な事実は $n = 129$ 観測値は、90%の差の力を与えるのに十分です。 $5/20 = 1/4$ 予想されるSDと同じ大きさ。
このサイトとインターネットで、自分のレベルの技術的な説明を検索できます。この最近のQ&Aが役立つかもしれません。
(2)多くの統計コンピュータプログラムには、「検出力とサンプルサイズ」の手順があります。Rには、さまざまなタイプのテスト用のこのような手順を備えたライブラリがあります。検出力とサンプルサイズの計算のためのオンラインサイトがありますが、それらのすべてが信頼できるわけではありません。
(3)においてR、確率関数dt
、pt
などの非中心性パラメータの(ほとんど使用されない)パラメータ」ncp`を有します。
Rでのシミュレーション: 100,000回の反復で、約2桁の精度が期待できます。したがって、シミュレーションはMinitabの出力と本質的に一致しています。
set.seed(1121)
pv = replicate(10^5, t.test(rnorm(139, 95, 20), mu=100, alt="less")$p.val)
mean(pv <= 0.05)
[1] 0.89914