If you're seeing this message, it means we're having trouble loading external resources on our website.

Se você está atrás de um filtro da Web, certifique-se que os domínios *.kastatic.org e *.kasandbox.org estão desbloqueados.

Conteúdo principal

Simulação mostrando viés na variância da amostra

Simulação feita por Peter Collingridge, para termos um melhor entendimento de por que dividimos por (n-1) ao calcular uma variância amostral imparcial. A simulação pode ser vista em: http://www.khanacademy.org/cs/challenge-unbiased-estimate-of-population-variance/1169428428. Versão original criada por Sal Khan.

Quer participar da conversa?

  • Avatar hopper jumping style do usuário Lucas De Oliveira
    Talvez seja ingenuidade supor alguma informação totalmente imparcial, mas não é isso que se tem que fazer. A questão é que existe muita parcialidade intencional, isto é, pessoas se utilizando de informações - as vezes ate verdadeiras, como Sal Khan mostrou ao comparar as propagandas de refrigerante fora de escala - para mostrar coisas que não necessariamente são. Então, por isso a importância de saber reconhecer um resultado viciado, como foi colhida a amostra, como se obteve os dados e qual o tratamento que foi dado a eles para que fossem apresentados ou não de determinada maneira. É um conhecimento que como todo conhecimento ajuda você a pensar e poder escolher e quem sabe tomar uma decisão diferente. Obrigado Khan Academy!
    (5 votos)
    Avatar Default Khan Academy avatar do usuário
Você entende inglês? Clique aqui para ver mais debates na versão em inglês do site da Khan Academy.

Transcrição de vídeo

RKA11C Temos aqui uma simulação criada pelo Peter Collingridge usando a plataforma da Khan Academy para Ciência da Computação, e nela nós temos alguns gráficos que vão nos ajudar a interpretar por que dividir por "n - 1" nos dá uma variância amostral que estima melhor a variância populacional. O que este programa faz é construir uma distribuição populacional de uma variável aleatória, ou seja, ele fica inventando valores para uma população de uma certa quantidade de elementos, neste caso aqui, uma população de 383 elementos. Ele inventou aleatoriamente uma quantidade de valores e a quantidade de vezes que cada valor se repete. Por exemplo, aqui o 4 aparece 33... 34 vezes. Veja que, com esta distribuição, a média é 10,9, foi calculada a partir de todos estes valores, e a variância é 25,5. Variância populacional. Aqui temos os parâmetros. O programa toma aleatoriamente amostras de vários tamanhos entre 2 e 10, ou seja, toma dois elementos com amostra aleatoriamente, depois 3, 4... E vai calculando as variâncias amostrais. Aqui nós temos uma situação em que, depois de gerar 2.523 amostras, nós temos esta situação: se o tamanho da amostra é 2, a variância é, em percentagem em relação à variância populacional, de 50 e alguma coisa por cento. Neste outro gráfico, veja que o tamanho da amostra é indicado pela cor do ponto. Mais vermelha é menor a amostra, mais azul é maior a amostra. A média populacional está indicada por esta linha vertical tracejada: quanto mais distante dessa linha, menor a variância obtida para aquela amostra. Eu separei estes dois gráficos um pouco mais abaixo para estudar mais. Primeiro, que fique claro neste gráfico aqui que se trata de uma amostra viciada. Vamos lá. Temos aqui a média 10,9, variância 25,5 para a população... E aqui nós temos então a variância 25,5 nesta linha tracejada, e a média 10,9 para a população. Do mesmo jeito, aqui também estamos falando de uma amostra viciada. Esta variância de que estamos falando aqui, para a amostra viciada, foi calculada com a somatória para todos os pontos, de i, que é 1, até n, que é o tamanho da amostra, de cada termo menos a média amostral, elevado ao quadrado, depois, tudo isso dividido pelo número de elementos da amostra, que é o n. Este gráfico mostra muitas coisas interessantes, por exemplo aqui, quando você percebe os elementos cuja média está bastante distante da média populacional... A variância é bem pequena, quase zero. Observe que as cores dos pontos seguem a mesma escala deste outro gráfico: os pontos mais vermelhos estão relacionados a amostras menores, e os pontos mais azuis a amostras maiores. Observe que aqueles pontos com média mais distante e com variância amostral menor são mais vermelhos, ou seja, são de amostras menores. A mescla de pontos azuis e próximos do azul está próxima ao centro desta distribuição. Essa ideia é bem razoável, porque, quando pegamos amostras bem pequenas, a tendência é que tenhamos uma média muito diferente do que se pode estimar para a média populacional. E, consequentemente, estamos subestimando por meio da variância amostral. Neste outro gráfico aqui, a variância amostral representa, em porcentagem, a variância populacional. Então, quando o tamanho da amostra é 2, a variância amostral é aproximadamente metade da variância populacional. Com o programa sendo executado, estas barrinhas vão mudando um pouquinho de altura, mas nunca saem dali, de muito perto. Para 2, nós teríamos 50% da variância populacional para o resultado da variância amostral. Com o 3, nós temos aproximadamente 2/3. Com 4, nós vamos encontrar aproximadamente 3/4. Com 5, aproximadamente 4/5, e assim por diante. Escrevendo matematicamente, usando o cálculo da amostra viciada, nós estamos nos aproximando não exatamente do sigma ao quadrado, que é a variância populacional, mas nós estamos nos aproximando de "n - 1" sobre "n" vezes a variância populacional. É o que nós temos aqui. Com 2: 1/2 da variância populacional. Com 3 na amostra, 2/3... Isto é o que temos quando estamos com uma variância viciada. Como nós vamos torná-la uma variância amostral não viciada? Vamos usar umas aproximações. Supondo então que o cálculo da variância para uma amostra viciada seja igual a "n - 1" sobre "n" vezes a variância populacional. Bem, o que nós queremos aqui é chegar simplesmente em sigma ao quadrado. Precisamos cancelar isto que está multiplicando sigma ao quadrado. Para isso, então nós precisaríamos multiplicar os dois lados desta "igualdade" por "n" sobre "n - 1". Multipliquei aqui por isto, tenho que multiplicar aqui também. Ora, efetuando as multiplicações, o que nós vamos obter? Cancelamento do "n" com "n": o "n - 1" cancela aqui, e o "n" cancela aqui. A variância populacional vai ser igual a esta somatória dividida por "n - 1". A variância amostral é dividida por "n - 1". A simulação computacional pode ter sido um elemento mais interessante para convencer você de que dividir por "n - 1" nos leva a uma estimativa melhor da variância amostral para a variância populacional. Até o próximo vídeo!