Por que a variância da amostra é distribuída com n-1 graus de liberdade?

Feb 02 2022

Misturando derivações intuitivas espalhadas pela web Isso é algo com o qual sempre lutei - em parte porque não me sentia à vontade com a distribuição qui-quadrado, em parte porque a ideia de 'graus de liberdade' parecia incrivelmente vaga. A maioria das derivações são: Por que isso importa? Porque ter uma boa compreensão de nossas distribuições de amostragem é importante.

Foto de Antoine Dautry no Unsplash

Combinando derivações intuitivas espalhadas pela web

Isso é algo com o qual sempre lutei – em parte porque não me sentia à vontade com a distribuição qui-quadrado, em parte porque a ideia de 'graus de liberdade' parecia incrivelmente vaga. A maioria das derivações são:

símbolo pesado com muita matemática desnecessária jogado direto na sua cara
acabam provando tecnicamenten-1 por que tem graus de liberdade, mas de alguma forma deixando você sem saber

Por que isso Importa?

Porque ter uma boa compreensão de nossas distribuições de amostragem é importante. Raramente na vida saberemos:

a distribuição dos nossos dados
a verdadeira média populacional
a verdadeira variância da população

apenas por acaso
improvável que seja por acaso, e podemos aceitar esse valor hipotético como verdadeiro com um 'grau de confiança'

O que estamos tentando provar?

A idéia é esta: temos alguma variável, X- pode ser qualquer coisa. Na verdade não, não pode ser nada. Não precisamos saber muito X, mas a única coisa que precisamos saber (ou impor) é que deve ser distribuído normalmente. Não precisamos saber a verdadeira média ou variância de X- apenas que seja o que for, segue uma distribuição normal. Exemplos clássicos de fenômenos normalmente distribuídos são coisas naturais - altura, tamanho do sapato, peso ao nascer etc. A suposição de que vivemos em uma terra estatística clássica em forma de sino é bastante grande, mas é necessária para esse resultado estatístico específico.

Dada essa variável, X, podemos então formar uma amostra x_1, x_2, ..., x_ncoletando nobservações da variável (por exemplo, registrando a altura de pessoas aleatórias), cada uma chamada x_i. Como mencionado, não sabemos qual é a verdadeira média e variância da variável aleatória X, mas podemos 'estimar' essas coisas usando nossos dados de amostra para 'inferi-las'.

Podemos escrever a média amostral como:

Imagem do autor

e variação da amostra (corrigida) como:

Imagem do autor

Estamos tentando provar o seguinte:

Imagem do autor

Em palavras - que a variância da amostra multiplicada n-1e dividida por alguma variância da população assumida (porque não sabemos qual é a variância verdadeira) segue uma distribuição qui-quadrado com n-1'graus de liberdade'.

Por que este é o caso?

Vamos apenas declarar o resultado intuitivo/não matemático de antemão. Porque:

assumimos que cada um x_ié independente (por exemplo, sua altura não afeta minha altura - a menos que seja minha mãe lendo isso) e é uma observação de uma variável normalmente distribuída
o desvio padrão da amostra exige que você eleve ao quadrado esses valores em algum ponto (já que eles são desvios ao quadrado da média da amostra)
valores distribuídos normalmente quadrados (padrão) é na verdade a definição de uma variável qui-quadrada

Acontece que a soma dos desvios quadrados da média amostral sempre será menor do que aqueles em torno da média populacional verdadeira. Por causa disso, nossa variância amostral (se não corrigida) sempre será uma subestimativa da variância populacional. O uso de n-1em vez de ngraus de liberdade corrige isso porque quanto menores os graus de liberdade de uma distribuição qui-quadrado, mais apertada é a distribuição.

Essa distribuição um pouco mais apertada compensa nossa subestimação da verdadeira variância da população. Se não fizéssemos isso, falharíamos em rejeitar as hipóteses de que a verdadeira variância da população é menor do que realmente é. Espero que ao final disso você esteja convencido de que esta é a correção certa a ser feita.

Como é uma distribuição qui-quadrado?

Antes de trabalhar com a derivação - vamos apenas plotar:

uma distribuição normal
uma distribuição normal ao quadrado
uma distribuição qui-quadrado

Imagem do autor

Então, à esquerda, temos uma distribuição normal padrão – nada incomum aqui. Em seguida, elevamos ao quadrado cada um dos valores amostrados da distribuição normal à esquerda. Dado que os elevamos ao quadrado, todos os valores são positivos e os desvios de zero são maiores do que para a variável normal padrão, porque um desvio de 2 se torna 4 etc.

Finalmente, temos várias variáveis qui-quadrado — 'várias', pois cada uma tem diferentes 'graus de liberdade' (dof). Em termos simples, dado que a distribuição qui-quadrado é o que obtemos se somarmos ao quadrado variáveis padrão independentes distribuídas normalmente (um bocado real), então os graus de liberdade são apenas quantos deles somamos. Você pode ver isso pela semelhança do nosso gráfico no meio com a variável qui-quadrado com 1 dof — porque nosso gráfico no meio é o que acontece se elevarmos ao quadrado apenas um valor e não adicionarmos nenhum outro valor ao quadrado.

Para obter o gráfico dof=2, podemos apenas pegar pares de valores normalmente distribuídos, elevá-los ao quadrado e somá-los. Se fizéssemos isso 1.000 vezes e plotássemos os resultados como um histograma, obteríamos algo muito parecido com o gráfico qui-quadrado com 2 dof acima à direita.

Faz sentido intuitivo que nossa variância amostral deva seguir essa distribuição?

Sim — por 2 motivos:

variância deve ser sempre positiva e a distribuição qui-quadrado é sempre positiva
nossa fórmula para variância amostral envolve elevar ao quadrado nossos valores normalmente distribuídos e somá-los - o que é muito próximo da receita para uma distribuição qui-quadrado

Por que estamos nos referindo à variância da amostra 'corrigida'?

A última coisa antes de entrarmos na derivação para a distribuição da variância amostral é olhar para a definição da variância amostral em si – por que estamos dividindo por n-1e não nquando temos ndesvios quadrados da média amostral?

Essa correção é chamada de Correção de Bessel e é a implicação matemática do resultado declarado acima – que a soma dos desvios quadrados em torno da média amostral será sempre menor do que aqueles em torno da média populacional verdadeira. Podemos verificar novamente se dividir por n-1é a coisa correta a fazer calculando a expectativa da variância da amostra corrigida. Se você está feliz com isso (ou apenas feliz em aceitar minha palavra de que devemos dividir por n-1), então pule em frente.

Podemos olhar para a 'expectativa' da variância da amostra não corrigida (ou seja, dividir por nem vez de n-1) da seguinte forma:

Imagem do autor

onde temos:

ampliou a quadratura
usou a definição da média da amostra para simplificar os 2 termos mais à direita após a expansão de colchetes
trouxe o operador de expectativa 'dentro', usando a propriedade de expectativa de que:

Imagem do autor

Reorganizando e colocando em nosso primeiro contexto temos:

Imagem do autor

que segue da definição da distribuição de X. Então para o segundo contexto:

Imagem do autor

Substituindo esses dois valores em nossa equação original nos dá:

Imagem do autor

Em outras palavras - se dividirmos por nem vez de n-1nosso valor da variância da amostra, será uma subestimativa da variância da população. Quanto subestimamos? Como podemos ver na penúltima linha, subestimamos a variância da média amostral. Portanto, se a média da nossa amostra for um pouco maior que a média real, acabaremos somando desvios um pouco menores do que deveríamos e vice-versa.

Let’s demonstrate this in python — that using the sample mean rather than true population mean leads to an under-estimate. We will do the following:

draw 100 observations from a standard normal distribution (mean zero, variance 1) 100x (so 100 samples of 100 observations)
compute the sample variance of each sample using the sample mean
compute the sample variance of each sample using the population mean (just zero)
compare the 2 for all 100 of our samples and plot them

Image by author

Portanto, a simulação confirma a intuição — a variação em torno da média populacional real é sempre ligeiramente maior do que a variação em torno da média amostral. Para corrigir isso, precisamos aumentar nossa variância amostral dividindo apenas por n-1e não n. Se realmente conhecêssemos a verdadeira média populacional, poderíamos usá-la em vez da média amostral como o centro em torno do qual calculamos nossa variabilidade. Nesse caso, acabaríamos apenas dividindo por nem vez de n-1.

Comece a derivação

Assim, dada uma amostra de nobservações, x_1, x_2, ..., x_n, da variável aleatória X, sabemos que if Xé normalmente distribuído como:

Imagem do autor

então podemos transformar Xem uma variável padrão normalmente distribuída Zfazendo o seguinte:

Imagem do autor

Ou em palavras:

subtraia a média para que cada observação seja centrada em torno de 0
dispersão de escala para baixo pelo desvio padrão, então temos uma variância de 1

Imagem do autor

Então sabemos que Qé distribuído qui-quadrado com ndof. A parte inteligente aqui é tentar reorganizar a fórmula acima para incluir nosso termo para a variância da amostra. Na fórmula acima, estamos centralizando nossos desvios em torno da verdadeira média populacional - no entanto, na prática, não sabemos o que é isso. Temos apenas a média amostral para calcular nossos desvios. Vamos começar dividindo isso da seguinte forma:

Imagem do autor

onde temos:

dividir o topo em 2 expressões
expandiu os colchetes
constantes movidas que não dependem de isomas externas

Imagem do autor

Primeiro termo: substituindo na variância da amostra

O primeiro termo em palavras é a soma dos desvios quadrados em torno da média da amostra dividida pela variância da população (uma constante, se conhecida). Olhando acima para a nossa definição de variância da amostra, podemos apenas inserir isso para obter:

Imagem do autor

Agora temos uma expressão onde:

sabemos que Qé qui-quadrado distribuído com ndof
o primeiro termo em nossa expressão é a quantidade exata que queremos verificar a distribuição!!!

Segundo termo: distribuição da média amostral

Nosso segundo termo é a média da amostra normalizada ao quadrado. Dado que sabemos que:

Imagem do autor

Então nós temos o seguinte resultado:

Imagem do autor

Se elevarmos ao quadrado uma variável normal padrão, obteremos uma variável qui-quadrado com 1 grau de liberdade. A quadratura do termo acima nos dá:

Imagem do autor

que é o nosso segundo termo na equação acima para Q. Substituindo no que sabemos distributivamente sobre a equação acima, obtemos:

Imagem do autor

Dando o salto final

Para mim, o acima é bom o suficiente para me convencer - para equilibrar a equação acima distributivamente, o que nos importa (primeiro termo do lado direito) deve ter uma distribuição qui-quadrado com n-1dof.

No entanto, formalmente, um pouco mais é necessário - para completar a prova, nós:

precisa provar que a variância amostral e a média amostral são independentes, de modo que os dois termos à direita da equação acima sejam independentes um do outro
uma vez provado, podemos citar o teorema de Cochran de que são variáveis independentes do qui-quadrado
use a propriedade de unicidade das funções geradoras de momento (MGF) para demonstrar que a variável que nos interessa tem o MGF de uma variável qui-quadrado com n-1dof, portanto, deve ser distribuída como tal

Um toque final de intuição?

Uma outra linha de argumento que encontrei sobre por que mudamos o dof por 1 é olhando para a primeira decomposição que fizemos quando tínhamos nossa variável Q- não sabíamos a verdadeira média da população, então dividimos o topo da fração para incluir a média da amostra e da população:

Imagem do autor

Essa é uma boa maneira de mostrar que nossa variância amostral analisa apenas o primeiro termo (a dispersão em torno da média amostral) e não o segundo termo (a dispersão da média amostral em torno da média populacional real). É esse segundo bit de variação que está faltando nos dados (não podemos saber sem realmente conhecer a média da população) que significa que precisamos usar n-1em vez de npara estreitar a distribuição de nossa variância amostral.

Resumo

Espero que você esteja tão convencido quanto eu de que isso não é tão mistificador quanto parece quando você recebe fórmulas e símbolos de integração. A ideia é bem legal – porque precisamos usar a média amostral para ancorar nossa medida de dispersão, perdemos parte da variância em nossa amostra – a variância da média amostral em torno da média populacional verdadeira. Como tal, ao avaliar nossa variância amostral versus alguma variância populacional hipotética, precisamos usar uma distribuição qui-quadrado com 1 grau de liberdade a menos.

Essa distribuição é um pouco mais apertada para compensar o fato de que nossa variância amostral é uma pequena subestimativa da variância verdadeira da população. Se não fizéssemos isso, falharíamos em rejeitar as hipóteses de que a verdadeira variância da população é menor do que realmente é.

PS E quanto à intuição para a ideia de 'perder um grau de liberdade'?

Achei que valia a pena acrescentar isso para completar as coisas - tirado daqui . O termo 'graus de liberdade' sempre foi um pouco duvidoso para mim e traduzido como 'partes móveis na equação'. Por esse mérito, podemos pensar nisso como o seguinte. Quando conhecemos a verdadeira média da população, a variância da amostra é distribuída qui ao quadrado com ndof. No entanto, quando usamos a média da amostra, 'perdemos um grau de liberdade'. Por quê? Porque quando usamos a média amostral perdemos a independência entre cada observação normalizada. Em outras palavras:

Imagem do autor

Para o primeiro termo, todas as observações ( x_imenos média) serão independentes umas das outras; mas os segundos mandatos não serão. Isso ocorre porque na segunda expressão essas observações estão sendo usadas para calcular a média amostral. No caso extremo de n=2então, se soubermos: