If you're seeing this message, it means we're having trouble loading external resources on our website.

Se você está atrás de um filtro da Web, certifique-se que os domínios *.kastatic.org e *.kasandbox.org estão desbloqueados.

Conteúdo principal
Tempo atual:0:00Duração total:9:33

Transcrição de vídeo

RKA11C Vamos supor que você é um fazendeiro e cultiva melancias. E você precisa e quer analisar como estão as quantidades de sementes nas suas melancias. Naturalmente, você não pode abrir uma por uma das suas melancias e ficar contando as sementes que estão lá. Uma ideia é você tomar algumas melancias como amostra e fazer um corte, por exemplo, no formato cúbico de 1 centímetro cúbico, e verificar quantas sementes estão lá. E, a partir daí, fazer uma análise, e, claro, a estatística vai entrar para ajudar. Analisando a amostra, esperamos chegar a boas estimativas para os parâmetros populacionais. Vamos supor que você tomou algumas melancias, neste caso 8, cortou um cubo de 1 centímetro cúbico, por exemplo, de cada uma e contou quantas sementes havia lá. Então você encontrou, no pedaço de uma melancia, 4 sementes, em outra 3, em outra 5, em uma outra você encontrou 7 sementes, 2 em outra, 9 em outra, 11 em outra e 7 em outra. Estes valores compõem a amostra que nós temos. Para analisar visualmente um pouquinho, vamos supor que aqui eu tenho toda a população da minha fazenda, bem grande, e nós tomamos, nesse caso, uma pequena amostra. Vamos supor, por exemplo, que a população toda tenha 1 milhão de melancias. Seria o "N", 1 milhão de melancias. No caso da nossa amostra, nós tomamos apenas 8 melancias. É o "n" que representa a quantidade de elementos da amostra, neste caso 8. Agora, então, vamos pensar sobre o que a estatística pode medir. Vamos começar pela média aritmética. É uma medida de tendência central. No caso da amostra, a média é indicada por x barra, e é a média aritmética dos valores encontrados na amostra, ou seja, "4 + 3 + 5 + 7 + 2 + 9 + 11 + 7" divididos pelo número de elementos, que é 8. Temos aqui "4 + 3 = 7", com 5, 12. Com 7, 19. Com 2, 21... 30, 41, 48. 48 dividido por 8 nos dá uma média 6. Ou seja, média de 6 sementes em cada pedacinho de 1 centímetro cúbico na amostra. Essa, então, pode ser uma estimativa para a média populacional. Vamos agora analisar um pouco a dispersão desses elementos em relação à média, e para isso, vamos usar a variância amostral indicada por "S²". Espero que, neste momento, você já esteja convencido de por que dividir por "n - 1". E aqui, neste caso, nós temos que tomar cada elemento e subtrair dele a média. Primeiro elemento é 4, vamos subtrair a média que é 6, elevar ao quadrado. Mais: o próximo é 3 menos a média, que é 6, claro, a média amostral, elevado ao quadrado. Mais "5 - 6" elevado ao quadrado. Mais "7 - 6" elevado ao quadrado. Mais "2 - 6" elevado ao quadrado. Mais "9 - 6" elevado ao quadrado. Mais "11 - 6" elevado ao quadrado. Mais, o último lá, "7 - 6" elevado ao quadrado. Tudo isso dividido não por 8, mas por "n - 1", "8 - 1", uma unidade a menos que o número total de elementos. Estamos falando de uma variância amostral não viciada. Vamos fazer as contas: "S²", que é a variância amostral, vai ser... divisão aqui. "4 - 6 = -2", ao quadrado é igual a 4. Mais "3 - 6", -3, ao quadrado é 9. Mais "5 - 6", -1, ao quadrado é 1. Mais "7 - 6", 1, ao quadrado é 1. Mais "2 - 6", -4, ao quadrado é 16. Mais "9 - 6", 3, ao quadrado é 9. Mais "11 - 6", 5, ao quadrado é 25. E, finalmente, mais "7 - 6", que é 1, ao quadrado dá 1. Tudo isso dividido por 7. Somando tudo, vamos ter 66 sobre 7. Em forma de número misto, nós teríamos 9 inteiros mais 3/7. E, dividindo 66 por 7 para chegar a um número decimal, nós teríamos, aproximadamente, 9,43 para a variância amostral. Lembrando que dividimos por "n - 1", então trata-se de uma variância amostral não viciada, que é uma boa estimativa para a variância populacional. O que falar então do desvio padrão amostral? Vamos voltar um pouquinho. Quando nós falamos do desvio padrão populacional, nós o definimos como a raiz quadrada da variância populacional, raiz quadrada de Σ². Então é razoável você pensar: "Ora, se o desvio padrão populacional é a raiz quadrada da variância populacional, o desvio padrão amostral, indicado por 'S', vai ser a raiz quadrada da variância amostral. Vamos fazer as contas para ver o que acontece. Lembrando que eu posso pôr aqui o índice "n - 1" para indicar que estou dividindo por "n - 1", que se trata de uma variância amostral não viciada. Bem, voltando aos cálculos. Então o desvio padrão amostral aqui seria a raiz quadrada da variância 9,43, usando a calculadora para obter o valor... Vamos lá: raiz quadrada de 9,43, isso nos dá 3,07. Então aqui, aproximadamente, 3,07 para o desvio padrão amostral. Lembrando que a variância, quando nós calculamos dividindo por "n - 1", é um estimador não viciado para a variância populacional. Nós podemos pensar um pouco sobre o desvio padrão. Ele não é um estimador não viciado para o desvio padrão populacional. Olhando um pouquinho para o cálculo com que ele é feito... vejamos. Aqui temos o desvio padrão amostral. Para obtermos o desvio padrão amostral, vamos à raiz quadrada da somatória... Com "i" indo de 1 até "n", que é o número de elementos da amostra, do "xi - x barra", que é a média amostral, ao quadrado. Esse é o cálculo do desvio padrão amostral. Mas nós devemos lembrar aqui que a raiz quadrada... A função raiz quadrada de variável é não linear. "Não linear". E isso faz com que o "S", o desvio padrão amostral, não seja um bom estimador para o desvio padrão populacional. Mas, se quando nós estávamos calculando a variância, percebemos que ao dividir por "n - 1" conseguimos um estimador não viciado para a variância populacional, como nós trabalharíamos com o desvio padrão, para ter ali um estimador não viciado para o desvio padrão populacional? O trabalho com esta função, com este cálculo, para se chegar a uma estimativa, a um estimador não viciado para o desvio padrão, é bastante complexo, bastante complicado, diferentemente do trabalho com a variância, em que dividir por "n - 1" foi suficiente para determinar um estimador não viciado. Aquela divisão por "n - 1" no cálculo da variância amostral era suficiente para qualquer distribuição. Entretanto, o trabalho com o desvio padrão depende de como os dados realmente estão distribuídos, para poder determinar um estimador não viciado. Na Estatística, nós definimos o desvio padrão amostral pela raiz quadrada da variância amostral. Mas isso dá, de fato, um estimador viciado para o desvio padrão populacional. Não é um bom estimador para o desvio padrão populacional. Então, nós usamos a variância para analisar a dispersão dos dados. Por ora, é isso aí. Estude bastante! Até o próximo vídeo!