If you're seeing this message, it means we're having trouble loading external resources on our website.

Se você está atrás de um filtro da Web, certifique-se que os domínios *.kastatic.org e *.kasandbox.org estão desbloqueados.

Conteúdo principal

Desvio-padrão amostral e viés

Neste vídeo, mostramos um exemplo de cálculo de desvio-padrão e viés. Versão original criada por Sal Khan.

Quer participar da conversa?

Você entende inglês? Clique aqui para ver mais debates na versão em inglês do site da Khan Academy.

Transcrição de vídeo

RKA11C Vamos supor que você é um fazendeiro e cultiva melancias. E você precisa e quer analisar como estão as quantidades de sementes nas suas melancias. Naturalmente, você não pode abrir uma por uma das suas melancias e ficar contando as sementes que estão lá. Uma ideia é você tomar algumas melancias como amostra e fazer um corte, por exemplo, no formato cúbico de 1 centímetro cúbico, e verificar quantas sementes estão lá. E, a partir daí, fazer uma análise, e, claro, a estatística vai entrar para ajudar. Analisando a amostra, esperamos chegar a boas estimativas para os parâmetros populacionais. Vamos supor que você tomou algumas melancias, neste caso 8, cortou um cubo de 1 centímetro cúbico, por exemplo, de cada uma e contou quantas sementes havia lá. Então você encontrou, no pedaço de uma melancia, 4 sementes, em outra 3, em outra 5, em uma outra você encontrou 7 sementes, 2 em outra, 9 em outra, 11 em outra e 7 em outra. Estes valores compõem a amostra que nós temos. Para analisar visualmente um pouquinho, vamos supor que aqui eu tenho toda a população da minha fazenda, bem grande, e nós tomamos, nesse caso, uma pequena amostra. Vamos supor, por exemplo, que a população toda tenha 1 milhão de melancias. Seria o "N", 1 milhão de melancias. No caso da nossa amostra, nós tomamos apenas 8 melancias. É o "n" que representa a quantidade de elementos da amostra, neste caso 8. Agora, então, vamos pensar sobre o que a estatística pode medir. Vamos começar pela média aritmética. É uma medida de tendência central. No caso da amostra, a média é indicada por x barra, e é a média aritmética dos valores encontrados na amostra, ou seja, "4 + 3 + 5 + 7 + 2 + 9 + 11 + 7" divididos pelo número de elementos, que é 8. Temos aqui "4 + 3 = 7", com 5, 12. Com 7, 19. Com 2, 21... 30, 41, 48. 48 dividido por 8 nos dá uma média 6. Ou seja, média de 6 sementes em cada pedacinho de 1 centímetro cúbico na amostra. Essa, então, pode ser uma estimativa para a média populacional. Vamos agora analisar um pouco a dispersão desses elementos em relação à média, e para isso, vamos usar a variância amostral indicada por "S²". Espero que, neste momento, você já esteja convencido de por que dividir por "n - 1". E aqui, neste caso, nós temos que tomar cada elemento e subtrair dele a média. Primeiro elemento é 4, vamos subtrair a média que é 6, elevar ao quadrado. Mais: o próximo é 3 menos a média, que é 6, claro, a média amostral, elevado ao quadrado. Mais "5 - 6" elevado ao quadrado. Mais "7 - 6" elevado ao quadrado. Mais "2 - 6" elevado ao quadrado. Mais "9 - 6" elevado ao quadrado. Mais "11 - 6" elevado ao quadrado. Mais, o último lá, "7 - 6" elevado ao quadrado. Tudo isso dividido não por 8, mas por "n - 1", "8 - 1", uma unidade a menos que o número total de elementos. Estamos falando de uma variância amostral não viciada. Vamos fazer as contas: "S²", que é a variância amostral, vai ser... divisão aqui. "4 - 6 = -2", ao quadrado é igual a 4. Mais "3 - 6", -3, ao quadrado é 9. Mais "5 - 6", -1, ao quadrado é 1. Mais "7 - 6", 1, ao quadrado é 1. Mais "2 - 6", -4, ao quadrado é 16. Mais "9 - 6", 3, ao quadrado é 9. Mais "11 - 6", 5, ao quadrado é 25. E, finalmente, mais "7 - 6", que é 1, ao quadrado dá 1. Tudo isso dividido por 7. Somando tudo, vamos ter 66 sobre 7. Em forma de número misto, nós teríamos 9 inteiros mais 3/7. E, dividindo 66 por 7 para chegar a um número decimal, nós teríamos, aproximadamente, 9,43 para a variância amostral. Lembrando que dividimos por "n - 1", então trata-se de uma variância amostral não viciada, que é uma boa estimativa para a variância populacional. O que falar então do desvio padrão amostral? Vamos voltar um pouquinho. Quando nós falamos do desvio padrão populacional, nós o definimos como a raiz quadrada da variância populacional, raiz quadrada de Σ². Então é razoável você pensar: "Ora, se o desvio padrão populacional é a raiz quadrada da variância populacional, o desvio padrão amostral, indicado por 'S', vai ser a raiz quadrada da variância amostral. Vamos fazer as contas para ver o que acontece. Lembrando que eu posso pôr aqui o índice "n - 1" para indicar que estou dividindo por "n - 1", que se trata de uma variância amostral não viciada. Bem, voltando aos cálculos. Então o desvio padrão amostral aqui seria a raiz quadrada da variância 9,43, usando a calculadora para obter o valor... Vamos lá: raiz quadrada de 9,43, isso nos dá 3,07. Então aqui, aproximadamente, 3,07 para o desvio padrão amostral. Lembrando que a variância, quando nós calculamos dividindo por "n - 1", é um estimador não viciado para a variância populacional. Nós podemos pensar um pouco sobre o desvio padrão. Ele não é um estimador não viciado para o desvio padrão populacional. Olhando um pouquinho para o cálculo com que ele é feito... vejamos. Aqui temos o desvio padrão amostral. Para obtermos o desvio padrão amostral, vamos à raiz quadrada da somatória... Com "i" indo de 1 até "n", que é o número de elementos da amostra, do "xi - x barra", que é a média amostral, ao quadrado. Esse é o cálculo do desvio padrão amostral. Mas nós devemos lembrar aqui que a raiz quadrada... A função raiz quadrada de variável é não linear. "Não linear". E isso faz com que o "S", o desvio padrão amostral, não seja um bom estimador para o desvio padrão populacional. Mas, se quando nós estávamos calculando a variância, percebemos que ao dividir por "n - 1" conseguimos um estimador não viciado para a variância populacional, como nós trabalharíamos com o desvio padrão, para ter ali um estimador não viciado para o desvio padrão populacional? O trabalho com esta função, com este cálculo, para se chegar a uma estimativa, a um estimador não viciado para o desvio padrão, é bastante complexo, bastante complicado, diferentemente do trabalho com a variância, em que dividir por "n - 1" foi suficiente para determinar um estimador não viciado. Aquela divisão por "n - 1" no cálculo da variância amostral era suficiente para qualquer distribuição. Entretanto, o trabalho com o desvio padrão depende de como os dados realmente estão distribuídos, para poder determinar um estimador não viciado. Na Estatística, nós definimos o desvio padrão amostral pela raiz quadrada da variância amostral. Mas isso dá, de fato, um estimador viciado para o desvio padrão populacional. Não é um bom estimador para o desvio padrão populacional. Então, nós usamos a variância para analisar a dispersão dos dados. Por ora, é isso aí. Estude bastante! Até o próximo vídeo!