Conteúdo principal
Estatística Avançada
Curso: Estatística Avançada > Unidade 3
Lição 5: Mais sobre desvio-padrão (opcional)- Análise e visão por que dividimos por n-1 para a variância da amostra imparcial
- Por que dividimos por n - 1 na variância
- Simulação mostrando viés na variância da amostra
- Simulação fornecendo a evidência de que (n-1) nos dá uma estimativa imparcial
- Estimativa imparcial da variância da população
© 2023 Khan AcademyTermos de usoPolítica de privacidadeAviso de cookies
Simulação mostrando viés na variância da amostra
Simulação feita por Peter Collingridge, para termos um melhor entendimento de por que dividimos por (n-1) ao calcular uma variância amostral imparcial. A simulação pode ser vista em: http://www.khanacademy.org/cs/challenge-unbiased-estimate-of-population-variance/1169428428. Versão original criada por Sal Khan.
Quer participar da conversa?
- Talvez seja ingenuidade supor alguma informação totalmente imparcial, mas não é isso que se tem que fazer. A questão é que existe muita parcialidade intencional, isto é, pessoas se utilizando de informações - as vezes ate verdadeiras, como Sal Khan mostrou ao comparar as propagandas de refrigerante fora de escala - para mostrar coisas que não necessariamente são. Então, por isso a importância de saber reconhecer um resultado viciado, como foi colhida a amostra, como se obteve os dados e qual o tratamento que foi dado a eles para que fossem apresentados ou não de determinada maneira. É um conhecimento que como todo conhecimento ajuda você a pensar e poder escolher e quem sabe tomar uma decisão diferente. Obrigado Khan Academy!(4 votos)
Transcrição de vídeo
RKA11C Temos aqui uma simulação
criada pelo Peter Collingridge usando a plataforma da Khan Academy
para Ciência da Computação, e nela nós temos alguns gráficos que vão nos ajudar a interpretar
por que dividir por "n - 1" nos dá uma variância amostral que estima melhor
a variância populacional. O que este programa faz é construir
uma distribuição populacional de uma variável aleatória, ou seja,
ele fica inventando valores para uma população de uma certa quantidade de elementos, neste caso aqui, uma população de 383 elementos. Ele inventou aleatoriamente
uma quantidade de valores e a quantidade de vezes que cada valor se repete. Por exemplo, aqui o 4 aparece 33... 34 vezes. Veja que, com esta distribuição, a média é 10,9,
foi calculada a partir de todos estes valores, e a variância é 25,5. Variância populacional.
Aqui temos os parâmetros. O programa toma aleatoriamente
amostras de vários tamanhos entre 2 e 10, ou seja, toma dois elementos com amostra
aleatoriamente, depois 3, 4... E vai calculando as variâncias amostrais. Aqui nós temos uma situação em que,
depois de gerar 2.523 amostras, nós temos esta situação: se o tamanho da amostra é 2, a variância é, em percentagem
em relação à variância populacional, de 50 e alguma coisa por cento. Neste outro gráfico, veja que o tamanho da amostra
é indicado pela cor do ponto. Mais vermelha é menor a amostra,
mais azul é maior a amostra. A média populacional está indicada
por esta linha vertical tracejada: quanto mais distante dessa linha,
menor a variância obtida para aquela amostra. Eu separei estes dois gráficos um pouco mais abaixo para estudar mais. Primeiro, que fique claro neste gráfico aqui
que se trata de uma amostra viciada. Vamos lá. Temos aqui a média 10,9,
variância 25,5 para a população... E aqui nós temos então
a variância 25,5 nesta linha tracejada, e a média 10,9 para a população. Do mesmo jeito, aqui também
estamos falando de uma amostra viciada. Esta variância de que estamos falando aqui,
para a amostra viciada, foi calculada com a somatória
para todos os pontos, de i, que é 1,
até n, que é o tamanho da amostra, de cada termo menos a média amostral,
elevado ao quadrado, depois, tudo isso dividido pelo número
de elementos da amostra, que é o n. Este gráfico mostra muitas coisas interessantes, por exemplo aqui, quando você percebe os elementos cuja média está bastante distante
da média populacional... A variância é bem pequena,
quase zero. Observe que as cores dos pontos seguem
a mesma escala deste outro gráfico: os pontos mais vermelhos
estão relacionados a amostras menores, e os pontos mais azuis a amostras maiores. Observe que aqueles pontos com média mais distante e com variância amostral menor são mais vermelhos,
ou seja, são de amostras menores. A mescla de pontos azuis e próximos do azul
está próxima ao centro desta distribuição. Essa ideia é bem razoável, porque, quando pegamos amostras bem pequenas,
a tendência é que tenhamos uma média muito diferente do que se pode estimar
para a média populacional. E, consequentemente, estamos subestimando
por meio da variância amostral. Neste outro gráfico aqui, a variância amostral representa, em porcentagem, a variância populacional. Então, quando o tamanho da amostra é 2, a variância amostral é aproximadamente
metade da variância populacional. Com o programa sendo executado,
estas barrinhas vão mudando um pouquinho de altura, mas nunca saem dali, de muito perto. Para 2, nós teríamos 50% da variância populacional para o resultado da variância amostral. Com o 3, nós temos aproximadamente 2/3. Com 4, nós vamos encontrar aproximadamente 3/4. Com 5, aproximadamente 4/5,
e assim por diante. Escrevendo matematicamente, usando o cálculo da amostra viciada,
nós estamos nos aproximando não exatamente do sigma ao quadrado, que é a variância populacional, mas nós estamos nos aproximando de "n - 1" sobre "n" vezes a variância populacional. É o que nós temos aqui. Com 2: 1/2 da variância populacional. Com 3 na amostra, 2/3... Isto é o que temos quando estamos
com uma variância viciada. Como nós vamos torná-la
uma variância amostral não viciada? Vamos usar umas aproximações. Supondo então que o cálculo da variância
para uma amostra viciada seja igual a "n - 1" sobre "n"
vezes a variância populacional. Bem, o que nós queremos aqui é chegar simplesmente em sigma ao quadrado. Precisamos cancelar isto que está
multiplicando sigma ao quadrado. Para isso, então nós precisaríamos multiplicar os dois lados desta "igualdade"
por "n" sobre "n - 1". Multipliquei aqui por isto,
tenho que multiplicar aqui também. Ora, efetuando as multiplicações,
o que nós vamos obter? Cancelamento do "n" com "n":
o "n - 1" cancela aqui, e o "n" cancela aqui. A variância populacional vai ser igual
a esta somatória dividida por "n - 1". A variância amostral é dividida por "n - 1". A simulação computacional pode ter sido um elemento mais interessante para convencer você de que dividir por "n - 1" nos leva a uma estimativa melhor da variância amostral para a variância populacional. Até o próximo vídeo!