Por que a variância da amostra é distribuída com n-1 graus de liberdade?
Combinando derivações intuitivas espalhadas pela web
Isso é algo com o qual sempre lutei – em parte porque não me sentia à vontade com a distribuição qui-quadrado, em parte porque a ideia de 'graus de liberdade' parecia incrivelmente vaga. A maioria das derivações são:
- símbolo pesado com muita matemática desnecessária jogado direto na sua cara
- acabam provando tecnicamente
n-1
por que tem graus de liberdade, mas de alguma forma deixando você sem saber
Por que isso Importa?
Porque ter uma boa compreensão de nossas distribuições de amostragem é importante. Raramente na vida saberemos:
- a distribuição dos nossos dados
- a verdadeira média populacional
- a verdadeira variância da população
- apenas por acaso
- improvável que seja por acaso, e podemos aceitar esse valor hipotético como verdadeiro com um 'grau de confiança'
O que estamos tentando provar?
A idéia é esta: temos alguma variável, X
- pode ser qualquer coisa. Na verdade não, não pode ser nada. Não precisamos saber muito X
, mas a única coisa que precisamos saber (ou impor) é que deve ser distribuído normalmente. Não precisamos saber a verdadeira média ou variância de X
- apenas que seja o que for, segue uma distribuição normal. Exemplos clássicos de fenômenos normalmente distribuídos são coisas naturais - altura, tamanho do sapato, peso ao nascer etc. A suposição de que vivemos em uma terra estatística clássica em forma de sino é bastante grande, mas é necessária para esse resultado estatístico específico.
Dada essa variável, X
, podemos então formar uma amostra x_1, x_2, ..., x_n
coletando n
observações da variável (por exemplo, registrando a altura de pessoas aleatórias), cada uma chamada x_i
. Como mencionado, não sabemos qual é a verdadeira média e variância da variável aleatória X
, mas podemos 'estimar' essas coisas usando nossos dados de amostra para 'inferi-las'.
Podemos escrever a média amostral como:
e variação da amostra (corrigida) como:
Estamos tentando provar o seguinte:
Em palavras - que a variância da amostra multiplicada n-1
e dividida por alguma variância da população assumida (porque não sabemos qual é a variância verdadeira) segue uma distribuição qui-quadrado com n-1
'graus de liberdade'.
Por que este é o caso?
Vamos apenas declarar o resultado intuitivo/não matemático de antemão. Porque:
- assumimos que cada um
x_i
é independente (por exemplo, sua altura não afeta minha altura - a menos que seja minha mãe lendo isso) e é uma observação de uma variável normalmente distribuída - o desvio padrão da amostra exige que você eleve ao quadrado esses valores em algum ponto (já que eles são desvios ao quadrado da média da amostra)
- valores distribuídos normalmente quadrados (padrão) é na verdade a definição de uma variável qui-quadrada
Acontece que a soma dos desvios quadrados da média amostral sempre será menor do que aqueles em torno da média populacional verdadeira. Por causa disso, nossa variância amostral (se não corrigida) sempre será uma subestimativa da variância populacional. O uso de n-1
em vez de n
graus de liberdade corrige isso porque quanto menores os graus de liberdade de uma distribuição qui-quadrado, mais apertada é a distribuição.
Essa distribuição um pouco mais apertada compensa nossa subestimação da verdadeira variância da população. Se não fizéssemos isso, falharíamos em rejeitar as hipóteses de que a verdadeira variância da população é menor do que realmente é. Espero que ao final disso você esteja convencido de que esta é a correção certa a ser feita.
Como é uma distribuição qui-quadrado?
Antes de trabalhar com a derivação - vamos apenas plotar:
- uma distribuição normal
- uma distribuição normal ao quadrado
- uma distribuição qui-quadrado
Então, à esquerda, temos uma distribuição normal padrão – nada incomum aqui. Em seguida, elevamos ao quadrado cada um dos valores amostrados da distribuição normal à esquerda. Dado que os elevamos ao quadrado, todos os valores são positivos e os desvios de zero são maiores do que para a variável normal padrão, porque um desvio de 2 se torna 4 etc.
Finalmente, temos várias variáveis qui-quadrado — 'várias', pois cada uma tem diferentes 'graus de liberdade' (dof). Em termos simples, dado que a distribuição qui-quadrado é o que obtemos se somarmos ao quadrado variáveis padrão independentes distribuídas normalmente (um bocado real), então os graus de liberdade são apenas quantos deles somamos. Você pode ver isso pela semelhança do nosso gráfico no meio com a variável qui-quadrado com 1 dof — porque nosso gráfico no meio é o que acontece se elevarmos ao quadrado apenas um valor e não adicionarmos nenhum outro valor ao quadrado.
Para obter o gráfico dof=2
, podemos apenas pegar pares de valores normalmente distribuídos, elevá-los ao quadrado e somá-los. Se fizéssemos isso 1.000 vezes e plotássemos os resultados como um histograma, obteríamos algo muito parecido com o gráfico qui-quadrado com 2 dof acima à direita.
Faz sentido intuitivo que nossa variância amostral deva seguir essa distribuição?
Sim — por 2 motivos:
- variância deve ser sempre positiva e a distribuição qui-quadrado é sempre positiva
- nossa fórmula para variância amostral envolve elevar ao quadrado nossos valores normalmente distribuídos e somá-los - o que é muito próximo da receita para uma distribuição qui-quadrado
Por que estamos nos referindo à variância da amostra 'corrigida'?
A última coisa antes de entrarmos na derivação para a distribuição da variância amostral é olhar para a definição da variância amostral em si – por que estamos dividindo por n-1
e não n
quando temos n
desvios quadrados da média amostral?
Essa correção é chamada de Correção de Bessel e é a implicação matemática do resultado declarado acima – que a soma dos desvios quadrados em torno da média amostral será sempre menor do que aqueles em torno da média populacional verdadeira. Podemos verificar novamente se dividir por n-1
é a coisa correta a fazer calculando a expectativa da variância da amostra corrigida. Se você está feliz com isso (ou apenas feliz em aceitar minha palavra de que devemos dividir por n-1
), então pule em frente.
Podemos olhar para a 'expectativa' da variância da amostra não corrigida (ou seja, dividir por n
em vez de n-1
) da seguinte forma:
onde temos:
- ampliou a quadratura
- usou a definição da média da amostra para simplificar os 2 termos mais à direita após a expansão de colchetes
- trouxe o operador de expectativa 'dentro', usando a propriedade de expectativa de que:
Reorganizando e colocando em nosso primeiro contexto temos:
que segue da definição da distribuição de X
. Então para o segundo contexto:
Substituindo esses dois valores em nossa equação original nos dá:
Em outras palavras - se dividirmos por n
em vez de n-1
nosso valor da variância da amostra, será uma subestimativa da variância da população. Quanto subestimamos? Como podemos ver na penúltima linha, subestimamos a variância da média amostral. Portanto, se a média da nossa amostra for um pouco maior que a média real, acabaremos somando desvios um pouco menores do que deveríamos e vice-versa.
Let’s demonstrate this in python — that using the sample mean rather than true population mean leads to an under-estimate. We will do the following:
- draw 100 observations from a standard normal distribution (mean zero, variance 1) 100x (so 100 samples of 100 observations)
- compute the sample variance of each sample using the sample mean
- compute the sample variance of each sample using the population mean (just zero)
- compare the 2 for all 100 of our samples and plot them
Portanto, a simulação confirma a intuição — a variação em torno da média populacional real é sempre ligeiramente maior do que a variação em torno da média amostral. Para corrigir isso, precisamos aumentar nossa variância amostral dividindo apenas por n-1
e não n
. Se realmente conhecêssemos a verdadeira média populacional, poderíamos usá-la em vez da média amostral como o centro em torno do qual calculamos nossa variabilidade. Nesse caso, acabaríamos apenas dividindo por n
em vez de n-1
.
Comece a derivação
Assim, dada uma amostra de n
observações, x_1, x_2, ..., x_n
, da variável aleatória X
, sabemos que if X
é normalmente distribuído como:
então podemos transformar X
em uma variável padrão normalmente distribuída Z
fazendo o seguinte:
Ou em palavras:
- subtraia a média para que cada observação seja centrada em torno de 0
- dispersão de escala para baixo pelo desvio padrão, então temos uma variância de 1
Então sabemos que Q
é distribuído qui-quadrado com n
dof. A parte inteligente aqui é tentar reorganizar a fórmula acima para incluir nosso termo para a variância da amostra. Na fórmula acima, estamos centralizando nossos desvios em torno da verdadeira média populacional - no entanto, na prática, não sabemos o que é isso. Temos apenas a média amostral para calcular nossos desvios. Vamos começar dividindo isso da seguinte forma:
onde temos:
- dividir o topo em 2 expressões
- expandiu os colchetes
- constantes movidas que não dependem de
i
somas externas
Primeiro termo: substituindo na variância da amostra
O primeiro termo em palavras é a soma dos desvios quadrados em torno da média da amostra dividida pela variância da população (uma constante, se conhecida). Olhando acima para a nossa definição de variância da amostra, podemos apenas inserir isso para obter:
Agora temos uma expressão onde:
- sabemos que
Q
é qui-quadrado distribuído comn
dof - o primeiro termo em nossa expressão é a quantidade exata que queremos verificar a distribuição!!!
Segundo termo: distribuição da média amostral
Nosso segundo termo é a média da amostra normalizada ao quadrado. Dado que sabemos que:
Então nós temos o seguinte resultado:
Se elevarmos ao quadrado uma variável normal padrão, obteremos uma variável qui-quadrado com 1 grau de liberdade. A quadratura do termo acima nos dá:
que é o nosso segundo termo na equação acima para Q
. Substituindo no que sabemos distributivamente sobre a equação acima, obtemos:
Dando o salto final
Para mim, o acima é bom o suficiente para me convencer - para equilibrar a equação acima distributivamente, o que nos importa (primeiro termo do lado direito) deve ter uma distribuição qui-quadrado com n-1
dof.
No entanto, formalmente, um pouco mais é necessário - para completar a prova, nós:
- precisa provar que a variância amostral e a média amostral são independentes, de modo que os dois termos à direita da equação acima sejam independentes um do outro
- uma vez provado, podemos citar o teorema de Cochran de que são variáveis independentes do qui-quadrado
- use a propriedade de unicidade das funções geradoras de momento (MGF) para demonstrar que a variável que nos interessa tem o MGF de uma variável qui-quadrado com
n-1
dof, portanto, deve ser distribuída como tal
Um toque final de intuição?
Uma outra linha de argumento que encontrei sobre por que mudamos o dof por 1 é olhando para a primeira decomposição que fizemos quando tínhamos nossa variável Q
- não sabíamos a verdadeira média da população, então dividimos o topo da fração para incluir a média da amostra e da população:
Essa é uma boa maneira de mostrar que nossa variância amostral analisa apenas o primeiro termo (a dispersão em torno da média amostral) e não o segundo termo (a dispersão da média amostral em torno da média populacional real). É esse segundo bit de variação que está faltando nos dados (não podemos saber sem realmente conhecer a média da população) que significa que precisamos usar n-1
em vez de n
para estreitar a distribuição de nossa variância amostral.
Resumo
Espero que você esteja tão convencido quanto eu de que isso não é tão mistificador quanto parece quando você recebe fórmulas e símbolos de integração. A ideia é bem legal – porque precisamos usar a média amostral para ancorar nossa medida de dispersão, perdemos parte da variância em nossa amostra – a variância da média amostral em torno da média populacional verdadeira. Como tal, ao avaliar nossa variância amostral versus alguma variância populacional hipotética, precisamos usar uma distribuição qui-quadrado com 1 grau de liberdade a menos.
Essa distribuição é um pouco mais apertada para compensar o fato de que nossa variância amostral é uma pequena subestimativa da variância verdadeira da população. Se não fizéssemos isso, falharíamos em rejeitar as hipóteses de que a verdadeira variância da população é menor do que realmente é.
PS E quanto à intuição para a ideia de 'perder um grau de liberdade'?
Achei que valia a pena acrescentar isso para completar as coisas - tirado daqui . O termo 'graus de liberdade' sempre foi um pouco duvidoso para mim e traduzido como 'partes móveis na equação'. Por esse mérito, podemos pensar nisso como o seguinte. Quando conhecemos a verdadeira média da população, a variância da amostra é distribuída qui ao quadrado com n
dof. No entanto, quando usamos a média da amostra, 'perdemos um grau de liberdade'. Por quê? Porque quando usamos a média amostral perdemos a independência entre cada observação normalizada. Em outras palavras:
Para o primeiro termo, todas as observações ( x_i
menos média) serão independentes umas das outras; mas os segundos mandatos não serão. Isso ocorre porque na segunda expressão essas observações estão sendo usadas para calcular a média amostral. No caso extremo de n=2
então, se soubermos:
- a primeira observação
- a média da amostra