Conteúdo principal
Estatística Avançada
Curso: Estatística Avançada > Unidade 3
Lição 5: Mais sobre desvio-padrão (opcional)- Análise e visão por que dividimos por n-1 para a variância da amostra imparcial
- Por que dividimos por n - 1 na variância
- Simulação mostrando viés na variância da amostra
- Simulação fornecendo a evidência de que (n-1) nos dá uma estimativa imparcial
- Estimativa imparcial da variância da população
© 2023 Khan AcademyTermos de usoPolítica de privacidadeAviso de cookies
Por que dividimos por n - 1 na variância
Outra visualização mostrando que a divisão por n-1 realmente gera uma estimativa imparcial da variação da população. Simulação em: http://www.khanacademy.org/cs/unbiased-variance-visualization/1167453164. Versão original criada por Sal Khan.
Quer participar da conversa?
- No mundo real, na maioria dos casos, não temos como obter a média de população muito grande. Sendo assim, como podemos escolher o tamanho da amostra se não temos como comparar com a população?(2 votos)
- A resposta a esta pergunta você terá quando estudar intervalos de confiança. Não adianta explicar aqui pois envolve conceitos que ainda não foram vistos até este ponto. Resposta do Henrique Campos(3 votos)
- Tem alguma explicação que diga o porquê que a variância amostral não enviesada (n-1) converge para a variância real da população? Imagino que isso seja uma questão de estatística teórica.(2 votos)
Transcrição de vídeo
RKA11C Esta é uma simulação criada pelo usuário Justin Helps, da Khan Academy, na qual nós podemos estudar mais uma vez por que dividir por "n - 1" no cálculo da variância amostral dá uma estimativa melhor
para a variância populacional. Ele usa uma distribuição probabilística
de 0 a 200 elementos na sua população, e nós podemos, com estes botões, controlar o número de elementos da amostra
e, nos gráficos abaixo, ver o que nós teríamos com a variância se fosse dividida por "n" aqui,
por "n - 1" neste outro, ou por "n - 2" neste outro. Nós poderíamos clicar e adicionar elementos
para a amostra, e ver como se comporta a variância
de acordo com o tamanho dela. Clicando e adicionando elementos à amostra, nós podemos ver o que acontece em cada gráfico
com a variância amostral em relação à variância populacional,
que é representada pela linha cheia. Repare que, mesmo aumentando bastante
o número de elementos da amostra, a variância, quando dividimos por "n",
vai sempre ficar abaixo da variância real, da variância populacional. Ela está sempre subestimada. Por outro lado, quando dividimos por "n - 1", ao aumentar o número de elementos na amostra,
nós vemos que a variância amostral converge para a variância populacional,
chegando a ficar bem perto dela neste trecho do gráfico, observe. Por outro lado, ao dividir por "n - 2"...
Veja, "n - 2" é um número menor, então o resultado seria maior. E, de fato, aqui nós acabamos
superestimando a variância. Há uma outra maneira interessante de se observar essas informações nestes outros gráficos aqui. Aqui no eixo horizontal, nós vemos a distância entre a média amostral
e a média real. Por exemplo, este ponto aqui
tem uma média amostral bastante superior à média real, a média populacional. Este outro ponto aqui tem a média amostral
bem inferior à média populacional. Para o eixo vertical, em cada ponto, nós calculamos a variância
de duas formas. Usando este denominador "n", nós calculamos a variância
usando a média populacional e depois calculamos a variância
usando a média amostral. E calculamos a diferença entre uma e outra,
uma menos a outra, para obter o que vai aqui no eixo vertical. Então, neste ponto aqui, por exemplo,
a variância calculada com a média amostral é bastante inferior, tem uma diferença grande com relação à variância calculada
com a média populacional. Observe que este gráfico inteiro
está abaixo do eixo horizontal, ou seja, estamos sempre subestimando a variância ao dividir pelo denominador "n". Já neste gráfico azul, quando nós dividimos por "n - 1", observe que a diferença entre a variância amostral
e a populacional já é menor, e o gráfico não está sempre abaixo da linha do zero,
ou seja, de quando elas são iguais. Existem momentos em que a variância
está subestimada e momentos em que ela está superestimada, mas os pontos se concentram em torno
de quando uma é igual à outra. Por outro lado, no verde,
vemos uma superestima bem maior. Para analisar um pouco melhor, vamos marcar aqui este ponto, por exemplo. Esta distância que nós temos aqui
é exatamente o resultado da diferença entre a variância amostral, então a somatória com "i",
indo de 1 até "n" minúsculo, do "xᵢ - x barra" ao quadrado,
tudo isso dividido, neste caso aqui, por "n" menos o cálculo da variância populacional. Esta distância indica exatamente o quanto
nós estamos subestimando a variância populacional usando a variância amostral,
dividindo por "n" e não por "n - 1". Aqui no gráfico azul existe uma parte
que nós estamos superestimando e uma parte que nós estamos subestimando,
com uma concentração de pontos bem grande aqui na região central. Na média aqui, nós vamos convergir
para a variância populacional ou próximo dela, para uma estimativa bem razoável. E aqui, no gráfico verde, nós estamos
superestimando bastante a variância, usando a divisão por "n - 2". Aqui nós estávamos dividindo por "n - 1". É isso aí, até o próximo vídeo!