Conteúdo principal
Curso: Estatística e probabilidade > Unidade 3
Lição 6: Mais sobre desvio-padrão- Por que dividimos por n - 1 na variância
- Simulação mostrando viés na variância da amostra
- Simulação fornecendo a evidência de que (n-1) nos dá uma estimativa imparcial
- Estimativa imparcial da variância da população
- Análise e visão por que dividimos por n-1 para a variância da amostra imparcial
© 2024 Khan AcademyTermos de usoPolítica de privacidadeAviso de cookies
Análise e visão por que dividimos por n-1 para a variância da amostra imparcial
Análise da média da população, média da amostra, variância da população, variância da amostra e criação de uma visão sobre por que dividir por n-1 para a variância da amostra imparcial. Versão original criada por Sal Khan.
Quer participar da conversa?
Nenhuma postagem por enquanto.
Transcrição de vídeo
RKA10 O que eu pretendo com este vídeo é dar uma ideia intuitiva de porque nós dividimos por (n -1) quando vamos calcular a variância amostral. Vamos pensar sobre uma população. Vamos supor uma certa
população cujo tamanho é de "N" elementos e vamos supor que nós vamos tomar uma amostra indicada por "n" para a quantidade de elementos. Vamos pensar primeiro na média. Para a população, a média é um parâmetro. A média populacional é um parâmetro. Parâmetro refere-se à população. Para a amostra nós estamos falando, quando estamos
calculando a média amostral, de uma estatística. Quando nos referimos à amostra,
estamos falando de uma estatística. Para calcular a média da população, indicada
pela letra grega "μ", nós tomamos a somatória... com "i" indo de 1 até "N" de todos os elementos "x" da população, ou seja, x₁ + x₂ + x₃,
todos os elementos da população. E depois de somadas, de obter essa soma, nós dividimos o resultado por "N", que é a quantidade de elementos da população. Para a média amostral, nós indicamos por x-barra a média
amostral e ela é obtida de maneira bastante similar: a somatória com "i" indo de 1 até "n", que é a quantidade de elementos da amostra, de todos os termos "xi", x₁, x₂ até "xn", dividido pela quantidade de elementos
da amostra, ou seja, "n". E a variância? A variância é indicada pela letra grega σ² e é a média dos quadrados
das diferenças entre cada elemento e a média da população. Então, neste caso, seria tomar a somatória... com "i" indo de 1 até "N" de cada elemento, dele subtraindo a média da população, que é "μ", elevado ao quadrado e depois de tudo isso, dividindo o resultado pelo número de elementos da população, que é "N". Lembrando que a variância é uma medida usada para indicar quão dispersos estão os dados em relação
à média, é uma forma de medir essa dispersão. E para a amostra? Existem várias maneiras de abordar a variância amostral, existem várias maneiras com as quais as pessoas abordam a variância amostral. Uma dessas maneiras é o que nós chamamos de variância para uma amostra viciada. Para calcular a variância de uma
amostra viciada, nós indicamos por s² com o subíndice "n" e nós fazemos a conta bem similar à conta da variância populacional, ou seja, a somatória com "i" indo de 1 até "n", que
é o número de elementos da amostra, da diferença entre cada termo e a média amostral,
x-barra, média amostral, elevado ao quadrado e depois tudo dividido por "n", que é o número de elementos da amostra. Dessa forma, calculamos a variância para uma
amostra que dizemos viciada. Estamos tentando escrever a variância para uma amostra
não viciada. Como nós vamos fazer isso? No último vídeo, nós tentamos desenvolver um pouco a ideia de que,
para obter a variância de uma amostra não viciada, nós indicávamos por (s - 1)²
e fazíamos a somatória bem parecida. Porém, nós dividimos a soma por (n - 1) e não por "n", ou seja, somatória
com "i" indo de 1 até "n", todos os elementos, do "xi" menos a média amostral,
tudo elevado ao quadrado e depois dividido por (n - 1), e é aí que nós vamos discutir
um pouquinho esse (n - 1). Podemos começar percebendo que ao dividir por um número menor, o (n - 1) é um número menor
que o "n" que nós tínhamos aqui, nós vamos, então, obter um resultado naturalmente maior. O resultado para a variância vai ser um número maior que se eu dividisse por "n" simplesmente.
Isto aqui é o que nós chamamos de estimativa não viciada. Estimativa não viciada. Em outro caso aqui, estamos falando da estimativa viciada. A variância para a estimativa
não viciada normalmente é indicada simplesmente por s². Vamos pensar um pouco
mais sobre por que dividir por (n - 1) nos dá uma variância estimativamente melhor em relação à variância populacional, que é a variância envolvendo
o cálculo com todos os elementos da população. Vamos imaginar todos os dados da população, todos os valores em uma reta
numerada. Aqui tenho a minha reta numerada. Vamos supor. Todos os dados da minha população nessa reta numérica, todos os valores. Aqui tem alguns, aqui tem outros, aqui tenho mais alguns. Aqui... e aqui. Neste caso, eu tenho:
1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14 elementos na minha população. Neste caso, o "N",
que é o número de elementos da população, é 14. Vamos supor que a média da minha
população... não vou fazer exatamente, esteja, por exemplo, por aqui. Esta
é a média real, a média populacional. Vamos supor que na minha amostra tenha 3 elementos, "n" é 3. Vamos supor que
eu tome, por exemplo, aleatoriamente este elemento, este elemento e este elemento. A média entre estes 3 parece estar razoavelmente próxima à média populacional, aqui seria a média amostral. Podemos imaginar também uma situação diferente com estes 3
elementos aqui: este, este e este. Neste caso, não é difícil de imaginar que a média amostral estaria, por exemplo, por aqui. E para obter a variância amostral, nós teríamos que pegar a distância
entre cada ponto e a média, elevar ao quadrado e dividir pelo número de elementos. É evidente que estas distâncias aqui, em relação à média, são muito pequenas e, ao calcular a variância por este caminho, nós vamos obter um resultado muito menor que a variância original. Veja que a distância que temos dos pontos até a média é muito maior que o que vemos aqui. Ou seja, calculando a variância em cima desses 3 elementos, a variância de uma estimativa viciada,
nós estamos subestimando a variância real, é um valor menor do que
a variância real, a distância entre os elementos e a média populacional. É uma subestimativa. Quando dividimos por "n", nós estamos subestimando a variância. Ao dividir
por (n - 1), que é um número menor, nós vamos obter uma variância amostral maior, que é uma estimativa melhor para imaginarmos a variância populacional. No próximo vídeo, usando um programa de computador, vamos analisar por que dividir por (n - 1) dá para a variância amostral uma estimativa melhor para a variância populacional. É isso aí. Estude bastante e até o próximo!