If you're seeing this message, it means we're having trouble loading external resources on our website.

Se você está atrás de um filtro da Web, certifique-se que os domínios *.kastatic.org e *.kasandbox.org estão desbloqueados.

Para entrar como usuário e utilizar todos os recursos da Khan Academy, habilite o JavaScript em seu navegador.

Conteúdo principal

Curso: Estatística e probabilidade > Unidade 3

Lição 6: Mais sobre desvio-padrão

© 2024 Khan AcademyTermos de uso Política de privacidade Aviso de cookies

Análise e visão por que dividimos por n-1 para a variância da amostra imparcial

Google Sala de Aula

Análise da média da população, média da amostra, variância da população, variância da amostra e criação de uma visão sobre por que dividir por n-1 para a variância da amostra imparcial. Versão original criada por Sal Khan.

Quer participar da conversa?

Classificar por:

Nenhuma postagem por enquanto.

Você entende inglês? Clique aqui para ver mais debates na versão em inglês do site da Khan Academy.

Transcrição de vídeo

RKA10 O que eu pretendo com este vídeo é dar uma ideia intuitiva de porque nós dividimos por (n -1) quando vamos calcular a variância amostral. Vamos pensar sobre uma população. Vamos supor uma certa população cujo tamanho é de "N" elementos e vamos supor que nós vamos tomar uma amostra indicada por "n" para a quantidade de elementos. Vamos pensar primeiro na média. Para a população, a média é um parâmetro. A média populacional é um parâmetro. Parâmetro refere-se à população. Para a amostra nós estamos falando, quando estamos calculando a média amostral, de uma estatística. Quando nos referimos à amostra, estamos falando de uma estatística. Para calcular a média da população, indicada pela letra grega "μ", nós tomamos a somatória... com "i" indo de 1 até "N" de todos os elementos "x" da população, ou seja, x₁ + x₂ + x₃, todos os elementos da população. E depois de somadas, de obter essa soma, nós dividimos o resultado por "N", que é a quantidade de elementos da população. Para a média amostral, nós indicamos por x-barra a média amostral e ela é obtida de maneira bastante similar: a somatória com "i" indo de 1 até "n", que é a quantidade de elementos da amostra, de todos os termos "xi", x₁, x₂ até "xn", dividido pela quantidade de elementos da amostra, ou seja, "n". E a variância? A variância é indicada pela letra grega σ² e é a média dos quadrados das diferenças entre cada elemento e a média da população. Então, neste caso, seria tomar a somatória... com "i" indo de 1 até "N" de cada elemento, dele subtraindo a média da população, que é "μ", elevado ao quadrado e depois de tudo isso, dividindo o resultado pelo número de elementos da população, que é "N". Lembrando que a variância é uma medida usada para indicar quão dispersos estão os dados em relação à média, é uma forma de medir essa dispersão. E para a amostra? Existem várias maneiras de abordar a variância amostral, existem várias maneiras com as quais as pessoas abordam a variância amostral. Uma dessas maneiras é o que nós chamamos de variância para uma amostra viciada. Para calcular a variância de uma amostra viciada, nós indicamos por s² com o subíndice "n" e nós fazemos a conta bem similar à conta da variância populacional, ou seja, a somatória com "i" indo de 1 até "n", que é o número de elementos da amostra, da diferença entre cada termo e a média amostral, x-barra, média amostral, elevado ao quadrado e depois tudo dividido por "n", que é o número de elementos da amostra. Dessa forma, calculamos a variância para uma amostra que dizemos viciada. Estamos tentando escrever a variância para uma amostra não viciada. Como nós vamos fazer isso? No último vídeo, nós tentamos desenvolver um pouco a ideia de que, para obter a variância de uma amostra não viciada, nós indicávamos por (s - 1)² e fazíamos a somatória bem parecida. Porém, nós dividimos a soma por (n - 1) e não por "n", ou seja, somatória com "i" indo de 1 até "n", todos os elementos, do "xi" menos a média amostral, tudo elevado ao quadrado e depois dividido por (n - 1), e é aí que nós vamos discutir um pouquinho esse (n - 1). Podemos começar percebendo que ao dividir por um número menor, o (n - 1) é um número menor que o "n" que nós tínhamos aqui, nós vamos, então, obter um resultado naturalmente maior. O resultado para a variância vai ser um número maior que se eu dividisse por "n" simplesmente. Isto aqui é o que nós chamamos de estimativa não viciada. Estimativa não viciada. Em outro caso aqui, estamos falando da estimativa viciada. A variância para a estimativa não viciada normalmente é indicada simplesmente por s². Vamos pensar um pouco mais sobre por que dividir por (n - 1) nos dá uma variância estimativamente melhor em relação à variância populacional, que é a variância envolvendo o cálculo com todos os elementos da população. Vamos imaginar todos os dados da população, todos os valores em uma reta numerada. Aqui tenho a minha reta numerada. Vamos supor. Todos os dados da minha população nessa reta numérica, todos os valores. Aqui tem alguns, aqui tem outros, aqui tenho mais alguns. Aqui... e aqui. Neste caso, eu tenho: 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14 elementos na minha população. Neste caso, o "N", que é o número de elementos da população, é 14. Vamos supor que a média da minha população... não vou fazer exatamente, esteja, por exemplo, por aqui. Esta é a média real, a média populacional. Vamos supor que na minha amostra tenha 3 elementos, "n" é 3. Vamos supor que eu tome, por exemplo, aleatoriamente este elemento, este elemento e este elemento. A média entre estes 3 parece estar razoavelmente próxima à média populacional, aqui seria a média amostral. Podemos imaginar também uma situação diferente com estes 3 elementos aqui: este, este e este. Neste caso, não é difícil de imaginar que a média amostral estaria, por exemplo, por aqui. E para obter a variância amostral, nós teríamos que pegar a distância entre cada ponto e a média, elevar ao quadrado e dividir pelo número de elementos. É evidente que estas distâncias aqui, em relação à média, são muito pequenas e, ao calcular a variância por este caminho, nós vamos obter um resultado muito menor que a variância original. Veja que a distância que temos dos pontos até a média é muito maior que o que vemos aqui. Ou seja, calculando a variância em cima desses 3 elementos, a variância de uma estimativa viciada, nós estamos subestimando a variância real, é um valor menor do que a variância real, a distância entre os elementos e a média populacional. É uma subestimativa. Quando dividimos por "n", nós estamos subestimando a variância. Ao dividir por (n - 1), que é um número menor, nós vamos obter uma variância amostral maior, que é uma estimativa melhor para imaginarmos a variância populacional. No próximo vídeo, usando um programa de computador, vamos analisar por que dividir por (n - 1) dá para a variância amostral uma estimativa melhor para a variância populacional. É isso aí. Estude bastante e até o próximo!