Conteúdo principal
Estatística Avançada
Unidade 3: Aula 5
Mais sobre desvio-padrão (opcional)- Análise e visão por que dividimos por n-1 para a variância da amostra imparcial
- Por que dividimos por n - 1 na variância
- Simulação mostrando viés na variância da amostra
- Simulação fornecendo a evidência de que (n-1) nos dá uma estimativa imparcial
- Estimativa imparcial da variância da população
© 2023 Khan AcademyTermos de usoPolítica de privacidadeAviso de cookies
Por que dividimos por n - 1 na variância
Outra visualização mostrando que a divisão por n-1 realmente gera uma estimativa imparcial da variação da população. Simulação em: http://www.khanacademy.org/cs/unbiased-variance-visualization/1167453164. Versão original criada por Sal Khan.
Quer participar da conversa?
- No mundo real, na maioria dos casos, não temos como obter a média de população muito grande. Sendo assim, como podemos escolher o tamanho da amostra se não temos como comparar com a população?(1 voto)
- A resposta a esta pergunta você terá quando estudar intervalos de confiança. Não adianta explicar aqui pois envolve conceitos que ainda não foram vistos até este ponto. Resposta do Henrique Campos(2 votos)
Transcrição de vídeo
RKA11C Esta é uma simulação criada pelo usuário Justin Helps, da Khan Academy, na qual nós podemos estudar mais uma vez por que dividir por "n - 1" no cálculo da variância amostral dá uma estimativa melhor
para a variância populacional. Ele usa uma distribuição probabilística
de 0 a 200 elementos na sua população, e nós podemos, com estes botões, controlar o número de elementos da amostra
e, nos gráficos abaixo, ver o que nós teríamos com a variância se fosse dividida por "n" aqui,
por "n - 1" neste outro, ou por "n - 2" neste outro. Nós poderíamos clicar e adicionar elementos
para a amostra, e ver como se comporta a variância
de acordo com o tamanho dela. Clicando e adicionando elementos à amostra, nós podemos ver o que acontece em cada gráfico
com a variância amostral em relação à variância populacional,
que é representada pela linha cheia. Repare que, mesmo aumentando bastante
o número de elementos da amostra, a variância, quando dividimos por "n",
vai sempre ficar abaixo da variância real, da variância populacional. Ela está sempre subestimada. Por outro lado, quando dividimos por "n - 1", ao aumentar o número de elementos na amostra,
nós vemos que a variância amostral converge para a variância populacional,
chegando a ficar bem perto dela neste trecho do gráfico, observe. Por outro lado, ao dividir por "n - 2"...
Veja, "n - 2" é um número menor, então o resultado seria maior. E, de fato, aqui nós acabamos
superestimando a variância. Há uma outra maneira interessante de se observar essas informações nestes outros gráficos aqui. Aqui no eixo horizontal, nós vemos a distância entre a média amostral
e a média real. Por exemplo, este ponto aqui
tem uma média amostral bastante superior à média real, a média populacional. Este outro ponto aqui tem a média amostral
bem inferior à média populacional. Para o eixo vertical, em cada ponto, nós calculamos a variância
de duas formas. Usando este denominador "n", nós calculamos a variância
usando a média populacional e depois calculamos a variância
usando a média amostral. E calculamos a diferença entre uma e outra,
uma menos a outra, para obter o que vai aqui no eixo vertical. Então, neste ponto aqui, por exemplo,
a variância calculada com a média amostral é bastante inferior, tem uma diferença grande com relação à variância calculada
com a média populacional. Observe que este gráfico inteiro
está abaixo do eixo horizontal, ou seja, estamos sempre subestimando a variância ao dividir pelo denominador "n". Já neste gráfico azul, quando nós dividimos por "n - 1", observe que a diferença entre a variância amostral
e a populacional já é menor, e o gráfico não está sempre abaixo da linha do zero,
ou seja, de quando elas são iguais. Existem momentos em que a variância
está subestimada e momentos em que ela está superestimada, mas os pontos se concentram em torno
de quando uma é igual à outra. Por outro lado, no verde,
vemos uma superestima bem maior. Para analisar um pouco melhor, vamos marcar aqui este ponto, por exemplo. Esta distância que nós temos aqui
é exatamente o resultado da diferença entre a variância amostral, então a somatória com "i",
indo de 1 até "n" minúsculo, do "xᵢ - x barra" ao quadrado,
tudo isso dividido, neste caso aqui, por "n" menos o cálculo da variância populacional. Esta distância indica exatamente o quanto
nós estamos subestimando a variância populacional usando a variância amostral,
dividindo por "n" e não por "n - 1". Aqui no gráfico azul existe uma parte
que nós estamos superestimando e uma parte que nós estamos subestimando,
com uma concentração de pontos bem grande aqui na região central. Na média aqui, nós vamos convergir
para a variância populacional ou próximo dela, para uma estimativa bem razoável. E aqui, no gráfico verde, nós estamos
superestimando bastante a variância, usando a divisão por "n - 2". Aqui nós estávamos dividindo por "n - 1". É isso aí, até o próximo vídeo!