Conteúdo principal
Estatística Avançada
Curso: Estatística Avançada > Unidade 3
Lição 3: Como medir a variabilidade em dados quantitativos- Faixa interquartil (FIQ)
- Faixa interquartil (FIQ)
- Variância amostral
- Desvio-padrão amostral e viés
- Desvio-padrão amostral
- Como avaliar visualmente o desvio-padrão
- Avaliações visuais do desvio-padrão
- Média e desvio-padrão versus mediana e FIQ
© 2023 Khan AcademyTermos de usoPolítica de privacidadeAviso de cookies
Variância amostral
Pensando sobre como podemos estimar a variância de uma população olhando nos dados em uma amostra. Versão original criada por Sal Khan.
Quer participar da conversa?
- Ifgigigh. Ohyoy8t8g8g8g ivigigigit(2 votos)
- Podiam colocar exercícios sobre variancia e desvio padrao pra fixar melhor(1 voto)
- Podiam colocar exercícios sobre variancia e desvio padrao pra fixar melhor(0 votos)
Transcrição de vídeo
RKA10E Vamos supor que temos que estudar
quanto tempo uma pessoa assiste TV... em um certo país, temos uma
curiosidade a respeito disso. Poderíamos, por exemplo, perguntar para cada uma das pessoas do país quanto tempo ela assiste TV por dia. E, por exemplo, em um país com a população como a dos Estados Unidos,
de 300 milhões de habitantes e fazer a pergunta, pessoa por pessoa,
pode ser um trabalho inviável. Então a ideia é que possamos tomar uma parte, uma amostra dessa população para estudar. Se nós perguntássemos um a um quanto tempo diário assiste à televisão e dividíssemos o resultado pelo total
de espectadores, teríamos a média, o parâmetro indicado pela letra grega "μ", que é a média populacional do número de horas que assiste diariamente à televisão. De fato, seria inviável fazer isso,
então nós podemos observar uma amostra da população. Vamos supor que nessa amostra, eu perguntei a 6 pessoas quanto tempo de televisão diariamente assistem. Uma pessoa,
por exemplo, respondeu 1 hora e meia, outra respondeu
4 horas, outra respondeu 1 hora, outra respondeu 2 horas
e meia de televisão por dia, outra respondeu 2 horas e outra
respondeu 1 hora. A partir desses dados que compõem a amostra, eu posso calcular a média
de horas diárias que as pessoas assistem televisão. Essa média é a somatória de todos
esses elementos divididos por 6, porque temos 6 elementos.
Quando nós estamos falando de uma amostra, em vez de usar "μ" como média, "μ" era a média populacional, a média envolvendo todos os
elementos da população, eu uso x-barra. Para obter então a média, eu vou somar todos: 1,5 + 4 + 1 + 2,5 + 2 + 1
e dividir tudo isso por 6. Adicionando tudo ali, nós vamos chegar em 12... 12 dividido por 6 é igual a 2. Então para esta amostra, a média de tempo em que as pessoas assistem televisão por dia é de 2 horas. A ideia é que esta análise da amostra permita estimar a média populacional
que é, evidentemente, uma informação muito difícil de se obter. Naturalmente eu poderia obter um resultado para uma estimativa melhor se eu tivesse
uma amostra maior, com mais dados, mas no momento vamos usar só esse
para estudar como trabalhar com eles. Uma outra questão que pode aparecer é que eu não queira saber somente a média, mas posso estar interessado também
em obter a variância dessa população, com relação ao número
de horas que assiste televisão diariamente. Fazer o cálculo da variância para todas as 300 milhões de pessoas envolvidas na população também é algo inviável, então
vamos trabalhar com a amostra. Para o cálculo da variância da amostra, em vez da letra grega "σ", nós usamos "s²", em vez de "σ²", é "S²". E para calcular
a variância, eu pego cada elemento da minha amostra, dele eu subtraio a média, que é 2, a média
amostral, que é 2 e elevo ao quadrado, somo tudo e dividido pelo número de elementos e isso vai gerar uma pequena discussão mais adiante, mas vamos lá. Vou organizar um pouco aqui. Então nós temos... preparar a divisão para o cálculo da variância, vou pegar o primeiro termo, que é 1,5... 1,5... subtrair dele a média que é
2 e elevar ao quadrado. Mais, agora tudo de novo para o segundo, que é 4... 4 menos a média que é 2² +, agora vamos usar o 1. (1 - 2)² + agora o 2,5, (2,5 - 2)² + agora o 2. (2 - 2)²... e finalmente o último 1, então (1 - 2)², e tudo isso dividido por 6. Esta pode ser uma maneira de estimar a variância populacional a partir da amostra. Vamos fazer as contas: (1,5 - 2)² dá
0,5² então vamos ter
0,25. (4 - 2)² dá 2², que é 4. (1 - 2)² dá -1²,
que é 1. Aqui (2,5 - 2)² dá 0,5² = 0,25 Aqui 0² = 0. E finalmente (1 - 2)² dá -1², que é 1. Vamos adicionar tudo isso e obtemos então 6,5/6. Vamos usar uma calculadora: 6,5 dividido por 6 e nós vamos obter 1,083333. Podemos aproximar para
1,08. Então teríamos aproximadamente 1,08. Será esta a melhor aproximação, melhor estimativa que nós temos para a variância populacional? Deixarei você pensar um pouco. Bem, o fato é que este cálculo
nos dá algo próximo da estimativa para a variância populacional, aqui estamos falando apenas da amostra com estes dados que temos aqui, mas nós poderíamos obter uma melhor aproximação ou, melhor dizendo, uma melhor estimativa para
a variância populacional a partir de uma amostra. Primeiro, vamos anotar algo aqui.
Como temos 6 elementos, é comum que esta estimativa que nós fizemos
seja indicada por "Sₙ²", variância com "n" elementos na amostra. Uma estimativa melhor para a variância populacional a partir da amostra acontece
quando, ao montarmos este cálculo, nós dividimos, não por 6, mas por
uma unidade menor, ou seja, por 5. Em um próximo vídeo, nós vamos estudar intuitivamente uma ideia de porque isso
está razoável, porque que para obter uma variância amostral mais próxima da estimativa para a variância populacional, nós dividimos pelo número de elementos
subtraído em uma unidade. Bem, neste caso, esta variância... normalmente indicada só por "S²", a variância amostral, a variância da amostra,
somente indicada por "S²", seria equivalente a dizer
"S² ₙ - ₁" Se aqui estávamos falando de "Sₙ"
com "n" elementos que eram 6, se vou dividir por 5,
eu indico por "S ₙ - ₁". Refazendo as contas aqui neste caso, nós teríamos o mesmo numerador, que é 6,5 dividido por... em vez de 6, por 5. Efetuando 6,5 dividido por 5,
vamos chegar ao resultado de 1,3. Ao dividir por "n - 1",
nós temos uma melhor estimativa para a variância populacional. É isso que nós vamos estudar
em um próximo vídeo. Então aqui 1,3 é uma estimativa mais próxima da variância populacional pensando em partir de uma amostra. Este 1,08 que encontramos está
subestimando a variância populacional. Dividindo por um número menor, nós obtemos um resultado maior, então este resultado de 1,3 está mais próximo da variância populacional. Claro, nós estamos com uma amostra bem pequena, mas com um número
grande de elementos, de fato, isso aqui vai oferecer uma estimativa melhor para a variância populacional. E como escrevemos esta
variância com a notação matemática? Estamos falando de uma somatória que vai ser
dividida por um certo denominador. A somatória destes termos, que são 6, começando
no primeiro, segundo até o sexto, ou seja, a somatória
com "i" indo de 1 até "n". Observe que estou usando
"n" minúsculo aqui, no outro vídeo anterior usamos o "N" maiúsculo porque
indicava o total de elementos da população e aqui estamos falando de uma amostra. De cada elemento vamos indicar por "xi"
menos a média amostral, que é o x-barra, tudo elevado ao quadrado e ainda, todo esse resultado dividido por "n - 1", que é uma unidade a menos do que o número
de elementos que eu tenho nesta amostra, "n - 1". Esta é a definição padrão para a variância amostral, a variância de uma amostra que
permite estimar a variância populacional. Eu deixo você aqui e no próximo vídeo, vamos procurar entender de uma maneira
intuitiva o porquê de dividir por "n - 1". Bom estudo. Até lá!