If you're seeing this message, it means we're having trouble loading external resources on our website.

Se você está atrás de um filtro da Web, certifique-se que os domínios *.kastatic.org e *.kasandbox.org estão desbloqueados.

Conteúdo principal

Análise e visão por que dividimos por n-1 para a variância da amostra imparcial

Análise da média da população, média da amostra, variância da população, variância da amostra e criação de uma visão sobre por que dividir por n-1 para a variância da amostra imparcial. Versão original criada por Sal Khan.

Quer participar da conversa?

Nenhuma postagem por enquanto.
Você entende inglês? Clique aqui para ver mais debates na versão em inglês do site da Khan Academy.

Transcrição de vídeo

RKA10 O que eu pretendo com este vídeo é dar uma ideia intuitiva de porque nós dividimos por (n -1) quando vamos calcular a variância amostral. Vamos pensar sobre uma população. Vamos supor uma certa população cujo tamanho é de "N" elementos e vamos supor que nós vamos tomar uma amostra indicada por "n" para a quantidade de elementos. Vamos pensar primeiro na média. Para a população, a média é um parâmetro. A média populacional é um parâmetro. Parâmetro refere-se à população. Para a amostra nós estamos falando, quando estamos calculando a média amostral, de uma estatística. Quando nos referimos à amostra, estamos falando de uma estatística. Para calcular a média da população, indicada pela letra grega "μ", nós tomamos a somatória... com "i" indo de 1 até "N" de todos os elementos "x" da população, ou seja, x₁ + x₂ + x₃, todos os elementos da população. E depois de somadas, de obter essa soma, nós dividimos o resultado por "N", que é a quantidade de elementos da população. Para a média amostral, nós indicamos por x-barra a média amostral e ela é obtida de maneira bastante similar: a somatória com "i" indo de 1 até "n", que é a quantidade de elementos da amostra, de todos os termos "xi", x₁, x₂ até "xn", dividido pela quantidade de elementos da amostra, ou seja, "n". E a variância? A variância é indicada pela letra grega σ² e é a média dos quadrados das diferenças entre cada elemento e a média da população. Então, neste caso, seria tomar a somatória... com "i" indo de 1 até "N" de cada elemento, dele subtraindo a média da população, que é "μ", elevado ao quadrado e depois de tudo isso, dividindo o resultado pelo número de elementos da população, que é "N". Lembrando que a variância é uma medida usada para indicar quão dispersos estão os dados em relação à média, é uma forma de medir essa dispersão. E para a amostra? Existem várias maneiras de abordar a variância amostral, existem várias maneiras com as quais as pessoas abordam a variância amostral. Uma dessas maneiras é o que nós chamamos de variância para uma amostra viciada. Para calcular a variância de uma amostra viciada, nós indicamos por s² com o subíndice "n" e nós fazemos a conta bem similar à conta da variância populacional, ou seja, a somatória com "i" indo de 1 até "n", que é o número de elementos da amostra, da diferença entre cada termo e a média amostral, x-barra, média amostral, elevado ao quadrado e depois tudo dividido por "n", que é o número de elementos da amostra. Dessa forma, calculamos a variância para uma amostra que dizemos viciada. Estamos tentando escrever a variância para uma amostra não viciada. Como nós vamos fazer isso? No último vídeo, nós tentamos desenvolver um pouco a ideia de que, para obter a variância de uma amostra não viciada, nós indicávamos por (s - 1)² e fazíamos a somatória bem parecida. Porém, nós dividimos a soma por (n - 1) e não por "n", ou seja, somatória com "i" indo de 1 até "n", todos os elementos, do "xi" menos a média amostral, tudo elevado ao quadrado e depois dividido por (n - 1), e é aí que nós vamos discutir um pouquinho esse (n - 1). Podemos começar percebendo que ao dividir por um número menor, o (n - 1) é um número menor que o "n" que nós tínhamos aqui, nós vamos, então, obter um resultado naturalmente maior. O resultado para a variância vai ser um número maior que se eu dividisse por "n" simplesmente. Isto aqui é o que nós chamamos de estimativa não viciada. Estimativa não viciada. Em outro caso aqui, estamos falando da estimativa viciada. A variância para a estimativa não viciada normalmente é indicada simplesmente por s². Vamos pensar um pouco mais sobre por que dividir por (n - 1) nos dá uma variância estimativamente melhor em relação à variância populacional, que é a variância envolvendo o cálculo com todos os elementos da população. Vamos imaginar todos os dados da população, todos os valores em uma reta numerada. Aqui tenho a minha reta numerada. Vamos supor. Todos os dados da minha população nessa reta numérica, todos os valores. Aqui tem alguns, aqui tem outros, aqui tenho mais alguns. Aqui... e aqui. Neste caso, eu tenho: 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14 elementos na minha população. Neste caso, o "N", que é o número de elementos da população, é 14. Vamos supor que a média da minha população... não vou fazer exatamente, esteja, por exemplo, por aqui. Esta é a média real, a média populacional. Vamos supor que na minha amostra tenha 3 elementos, "n" é 3. Vamos supor que eu tome, por exemplo, aleatoriamente este elemento, este elemento e este elemento. A média entre estes 3 parece estar razoavelmente próxima à média populacional, aqui seria a média amostral. Podemos imaginar também uma situação diferente com estes 3 elementos aqui: este, este e este. Neste caso, não é difícil de imaginar que a média amostral estaria, por exemplo, por aqui. E para obter a variância amostral, nós teríamos que pegar a distância entre cada ponto e a média, elevar ao quadrado e dividir pelo número de elementos. É evidente que estas distâncias aqui, em relação à média, são muito pequenas e, ao calcular a variância por este caminho, nós vamos obter um resultado muito menor que a variância original. Veja que a distância que temos dos pontos até a média é muito maior que o que vemos aqui. Ou seja, calculando a variância em cima desses 3 elementos, a variância de uma estimativa viciada, nós estamos subestimando a variância real, é um valor menor do que a variância real, a distância entre os elementos e a média populacional. É uma subestimativa. Quando dividimos por "n", nós estamos subestimando a variância. Ao dividir por (n - 1), que é um número menor, nós vamos obter uma variância amostral maior, que é uma estimativa melhor para imaginarmos a variância populacional. No próximo vídeo, usando um programa de computador, vamos analisar por que dividir por (n - 1) dá para a variância amostral uma estimativa melhor para a variância populacional. É isso aí. Estude bastante e até o próximo!