Conteúdo principal
Estatística Avançada
Curso: Estatística Avançada > Unidade 3
Lição 3: Como medir a variabilidade em dados quantitativos- Faixa interquartil (FIQ)
- Faixa interquartil (FIQ)
- Variância amostral
- Desvio-padrão amostral e viés
- Desvio-padrão amostral
- Como avaliar visualmente o desvio-padrão
- Avaliações visuais do desvio-padrão
- Média e desvio-padrão versus mediana e FIQ
© 2023 Khan AcademyTermos de usoPolítica de privacidadeAviso de cookies
Desvio-padrão amostral e viés
Neste vídeo, mostramos um exemplo de cálculo de desvio-padrão e viés. Versão original criada por Sal Khan.
Quer participar da conversa?
- Na aula anterior disse que nesta aula ficaria claro porque utiliza-se (n-1). Não ficou claro. Por quê na fórmula da amostra é n-1?(8 votos)
- Como interpretar os resultado?(1 voto)
- Desculpa mas não entendi sentido em estudar a variança amostral sem poder utilizar o desvio padrão dela, já que seu desvio é um estimador viciado, não é um bom estimador.... Pode por favor me explicar ou compartilhar algum vídeo que ensine e explique a maneira que se dê para estimar um bom desvio amostral sem ser viciado?(1 voto)
Transcrição de vídeo
RKA11C Vamos supor que você é um fazendeiro
e cultiva melancias. E você precisa e quer analisar como estão as quantidades de sementes nas suas melancias. Naturalmente, você não pode abrir
uma por uma das suas melancias e ficar contando as sementes que estão lá. Uma ideia é você tomar algumas melancias
como amostra e fazer um corte, por exemplo, no formato cúbico de 1 centímetro cúbico, e verificar quantas sementes estão lá. E, a partir daí, fazer uma análise, e, claro, a estatística vai entrar para ajudar. Analisando a amostra, esperamos chegar a boas estimativas para os parâmetros populacionais. Vamos supor que você tomou algumas melancias,
neste caso 8, cortou um cubo de 1 centímetro cúbico,
por exemplo, de cada uma e contou quantas sementes havia lá. Então você encontrou, no pedaço de uma melancia,
4 sementes, em outra 3, em outra 5, em uma outra você encontrou 7 sementes, 2 em outra, 9 em outra,
11 em outra e 7 em outra. Estes valores compõem a amostra que nós temos. Para analisar visualmente um pouquinho,
vamos supor que aqui eu tenho toda a população da minha fazenda, bem grande, e nós tomamos, nesse caso, uma pequena amostra. Vamos supor, por exemplo, que a população toda
tenha 1 milhão de melancias. Seria o "N", 1 milhão de melancias.
No caso da nossa amostra, nós tomamos apenas 8 melancias. É o "n" que representa a quantidade de
elementos da amostra, neste caso 8. Agora, então, vamos pensar sobre
o que a estatística pode medir. Vamos começar pela média aritmética. É uma medida de tendência central. No caso da amostra,
a média é indicada por x barra, e é a média aritmética dos valores encontrados
na amostra, ou seja, "4 + 3 + 5 + 7 + 2 + 9 + 11 + 7" divididos pelo número de elementos, que é 8. Temos aqui "4 + 3 = 7", com 5, 12. Com 7, 19.
Com 2, 21... 30, 41, 48. 48 dividido por 8 nos dá uma média 6. Ou seja, média de 6 sementes em cada pedacinho de 1 centímetro cúbico na amostra. Essa, então, pode ser uma estimativa para a média populacional. Vamos agora analisar um pouco a dispersão desses elementos em relação à média, e para isso, vamos usar a variância amostral indicada por "S²". Espero que, neste momento, você já esteja convencido
de por que dividir por "n - 1". E aqui, neste caso, nós temos que tomar
cada elemento e subtrair dele a média. Primeiro elemento é 4, vamos subtrair a média que é 6, elevar ao quadrado. Mais: o próximo é 3 menos a média, que é 6, claro, a média amostral,
elevado ao quadrado. Mais "5 - 6" elevado ao quadrado.
Mais "7 - 6" elevado ao quadrado. Mais "2 - 6" elevado ao quadrado.
Mais "9 - 6" elevado ao quadrado. Mais "11 - 6" elevado ao quadrado.
Mais, o último lá, "7 - 6" elevado ao quadrado. Tudo isso dividido não por 8, mas por "n - 1", "8 - 1", uma unidade a menos
que o número total de elementos. Estamos falando de uma variância amostral
não viciada. Vamos fazer as contas:
"S²", que é a variância amostral, vai ser... divisão aqui. "4 - 6 = -2", ao quadrado é igual a 4. Mais "3 - 6", -3,
ao quadrado é 9. Mais "5 - 6", -1,
ao quadrado é 1. Mais "7 - 6", 1,
ao quadrado é 1. Mais "2 - 6", -4,
ao quadrado é 16. Mais "9 - 6", 3,
ao quadrado é 9. Mais "11 - 6", 5,
ao quadrado é 25. E, finalmente, mais "7 - 6", que é 1,
ao quadrado dá 1. Tudo isso dividido por 7. Somando tudo, vamos ter 66 sobre 7. Em forma de número misto,
nós teríamos 9 inteiros mais 3/7. E, dividindo 66 por 7 para chegar a um número decimal, nós teríamos, aproximadamente, 9,43 para a variância amostral. Lembrando que dividimos por "n - 1",
então trata-se de uma variância amostral não viciada, que é uma boa estimativa
para a variância populacional. O que falar então do desvio padrão amostral? Vamos voltar um pouquinho. Quando nós falamos do desvio padrão populacional, nós o definimos como a raiz quadrada da variância populacional, raiz quadrada de Σ². Então é razoável você pensar:
"Ora, se o desvio padrão populacional é a raiz quadrada da variância populacional,
o desvio padrão amostral, indicado por 'S', vai ser a raiz quadrada da variância amostral. Vamos fazer as contas para ver o que acontece. Lembrando que eu posso pôr aqui o índice "n - 1"
para indicar que estou dividindo por "n - 1", que se trata de uma variância amostral não viciada. Bem, voltando aos cálculos. Então o desvio padrão amostral aqui
seria a raiz quadrada da variância 9,43, usando a calculadora para obter o valor... Vamos lá: raiz quadrada de 9,43,
isso nos dá 3,07. Então aqui, aproximadamente, 3,07
para o desvio padrão amostral. Lembrando que a variância,
quando nós calculamos dividindo por "n - 1", é um estimador não viciado
para a variância populacional. Nós podemos pensar um pouco sobre o desvio padrão. Ele não é um estimador não viciado
para o desvio padrão populacional. Olhando um pouquinho para o cálculo
com que ele é feito... vejamos. Aqui temos o desvio padrão amostral. Para obtermos o desvio padrão amostral,
vamos à raiz quadrada da somatória... Com "i" indo de 1 até "n", que é o número de elementos da amostra, do "xi - x barra", que é a média amostral, ao quadrado. Esse é o cálculo do desvio padrão amostral. Mas nós devemos lembrar aqui que a raiz quadrada... A função raiz quadrada de variável é não linear. "Não linear". E isso faz com que o "S", o desvio padrão amostral, não seja um bom estimador
para o desvio padrão populacional. Mas, se quando nós estávamos calculando a variância, percebemos que ao dividir por "n - 1" conseguimos um estimador não viciado
para a variância populacional, como nós trabalharíamos com o desvio padrão,
para ter ali um estimador não viciado para o desvio padrão populacional? O trabalho com esta função, com este cálculo, para se chegar a uma estimativa, a um estimador não viciado para o desvio padrão, é bastante complexo, bastante complicado, diferentemente do trabalho com a variância,
em que dividir por "n - 1" foi suficiente para determinar um estimador não viciado. Aquela divisão por "n - 1" no cálculo da variância amostral era suficiente para qualquer distribuição. Entretanto, o trabalho com o desvio padrão depende de como os dados
realmente estão distribuídos, para poder determinar um estimador não viciado. Na Estatística, nós definimos o desvio padrão amostral pela raiz quadrada da variância amostral. Mas isso dá, de fato, um estimador viciado para o desvio padrão populacional. Não é um bom estimador
para o desvio padrão populacional. Então, nós usamos a variância para analisar
a dispersão dos dados. Por ora, é isso aí.
Estude bastante! Até o próximo vídeo!