If you're seeing this message, it means we're having trouble loading external resources on our website.

Se você está atrás de um filtro da Web, certifique-se que os domínios *.kastatic.org e *.kasandbox.org estão desbloqueados.

Conteúdo principal

Por que dividimos por n - 1 na variância

Outra visualização mostrando que a divisão por n-1 realmente gera uma estimativa imparcial da variação da população. Simulação em: http://www.khanacademy.org/cs/unbiased-variance-visualization/1167453164. Versão original criada por Sal Khan.

Quer participar da conversa?

Você entende inglês? Clique aqui para ver mais debates na versão em inglês do site da Khan Academy.

Transcrição de vídeo

RKA11C Esta é uma simulação criada pelo usuário Justin Helps, da Khan Academy, na qual nós podemos estudar mais uma vez por que dividir por "n - 1" no cálculo da variância amostral dá uma estimativa melhor para a variância populacional. Ele usa uma distribuição probabilística de 0 a 200 elementos na sua população, e nós podemos, com estes botões, controlar o número de elementos da amostra e, nos gráficos abaixo, ver o que nós teríamos com a variância se fosse dividida por "n" aqui, por "n - 1" neste outro, ou por "n - 2" neste outro. Nós poderíamos clicar e adicionar elementos para a amostra, e ver como se comporta a variância de acordo com o tamanho dela. Clicando e adicionando elementos à amostra, nós podemos ver o que acontece em cada gráfico com a variância amostral em relação à variância populacional, que é representada pela linha cheia. Repare que, mesmo aumentando bastante o número de elementos da amostra, a variância, quando dividimos por "n", vai sempre ficar abaixo da variância real, da variância populacional. Ela está sempre subestimada. Por outro lado, quando dividimos por "n - 1", ao aumentar o número de elementos na amostra, nós vemos que a variância amostral converge para a variância populacional, chegando a ficar bem perto dela neste trecho do gráfico, observe. Por outro lado, ao dividir por "n - 2"... Veja, "n - 2" é um número menor, então o resultado seria maior. E, de fato, aqui nós acabamos superestimando a variância. Há uma outra maneira interessante de se observar essas informações nestes outros gráficos aqui. Aqui no eixo horizontal, nós vemos a distância entre a média amostral e a média real. Por exemplo, este ponto aqui tem uma média amostral bastante superior à média real, a média populacional. Este outro ponto aqui tem a média amostral bem inferior à média populacional. Para o eixo vertical, em cada ponto, nós calculamos a variância de duas formas. Usando este denominador "n", nós calculamos a variância usando a média populacional e depois calculamos a variância usando a média amostral. E calculamos a diferença entre uma e outra, uma menos a outra, para obter o que vai aqui no eixo vertical. Então, neste ponto aqui, por exemplo, a variância calculada com a média amostral é bastante inferior, tem uma diferença grande com relação à variância calculada com a média populacional. Observe que este gráfico inteiro está abaixo do eixo horizontal, ou seja, estamos sempre subestimando a variância ao dividir pelo denominador "n". Já neste gráfico azul, quando nós dividimos por "n - 1", observe que a diferença entre a variância amostral e a populacional já é menor, e o gráfico não está sempre abaixo da linha do zero, ou seja, de quando elas são iguais. Existem momentos em que a variância está subestimada e momentos em que ela está superestimada, mas os pontos se concentram em torno de quando uma é igual à outra. Por outro lado, no verde, vemos uma superestima bem maior. Para analisar um pouco melhor, vamos marcar aqui este ponto, por exemplo. Esta distância que nós temos aqui é exatamente o resultado da diferença entre a variância amostral, então a somatória com "i", indo de 1 até "n" minúsculo, do "xᵢ - x barra" ao quadrado, tudo isso dividido, neste caso aqui, por "n" menos o cálculo da variância populacional. Esta distância indica exatamente o quanto nós estamos subestimando a variância populacional usando a variância amostral, dividindo por "n" e não por "n - 1". Aqui no gráfico azul existe uma parte que nós estamos superestimando e uma parte que nós estamos subestimando, com uma concentração de pontos bem grande aqui na região central. Na média aqui, nós vamos convergir para a variância populacional ou próximo dela, para uma estimativa bem razoável. E aqui, no gráfico verde, nós estamos superestimando bastante a variância, usando a divisão por "n - 2". Aqui nós estávamos dividindo por "n - 1". É isso aí, até o próximo vídeo!