If you're seeing this message, it means we're having trouble loading external resources on our website.

Se você está atrás de um filtro da Web, certifique-se que os domínios *.kastatic.org e *.kasandbox.org estão desbloqueados.

Conteúdo principal

Variância amostral

Neste vídeo, aprofundamo-nos na medição da variabilidade em dados quantitativos, com ênfase no cálculo da variância amostral e da variância populacional. Destaca-se a importância de utilizar um tamanho de amostra menos um (n-1) para uma estimativa mais precisa. A distinção entre média amostral e média populacional também é esclarecida. Versão original criada por Sal Khan.

Quer participar da conversa?

Você entende inglês? Clique aqui para ver mais debates na versão em inglês do site da Khan Academy.

Transcrição de vídeo

RKA10E Vamos supor que temos que estudar quanto tempo uma pessoa assiste TV... em um certo país, temos uma curiosidade a respeito disso. Poderíamos, por exemplo, perguntar para cada uma das pessoas do país quanto tempo ela assiste TV por dia. E, por exemplo, em um país com a população como a dos Estados Unidos, de 300 milhões de habitantes e fazer a pergunta, pessoa por pessoa, pode ser um trabalho inviável. Então a ideia é que possamos tomar uma parte, uma amostra dessa população para estudar. Se nós perguntássemos um a um quanto tempo diário assiste à televisão e dividíssemos o resultado pelo total de espectadores, teríamos a média, o parâmetro indicado pela letra grega "μ", que é a média populacional do número de horas que assiste diariamente à televisão. De fato, seria inviável fazer isso, então nós podemos observar uma amostra da população. Vamos supor que nessa amostra, eu perguntei a 6 pessoas quanto tempo de televisão diariamente assistem. Uma pessoa, por exemplo, respondeu 1 hora e meia, outra respondeu 4 horas, outra respondeu 1 hora, outra respondeu 2 horas e meia de televisão por dia, outra respondeu 2 horas e outra respondeu 1 hora. A partir desses dados que compõem a amostra, eu posso calcular a média de horas diárias que as pessoas assistem televisão. Essa média é a somatória de todos esses elementos divididos por 6, porque temos 6 elementos. Quando nós estamos falando de uma amostra, em vez de usar "μ" como média, "μ" era a média populacional, a média envolvendo todos os elementos da população, eu uso x-barra. Para obter então a média, eu vou somar todos: 1,5 + 4 + 1 + 2,5 + 2 + 1 e dividir tudo isso por 6. Adicionando tudo ali, nós vamos chegar em 12... 12 dividido por 6 é igual a 2. Então para esta amostra, a média de tempo em que as pessoas assistem televisão por dia é de 2 horas. A ideia é que esta análise da amostra permita estimar a média populacional que é, evidentemente, uma informação muito difícil de se obter. Naturalmente eu poderia obter um resultado para uma estimativa melhor se eu tivesse uma amostra maior, com mais dados, mas no momento vamos usar só esse para estudar como trabalhar com eles. Uma outra questão que pode aparecer é que eu não queira saber somente a média, mas posso estar interessado também em obter a variância dessa população, com relação ao número de horas que assiste televisão diariamente. Fazer o cálculo da variância para todas as 300 milhões de pessoas envolvidas na população também é algo inviável, então vamos trabalhar com a amostra. Para o cálculo da variância da amostra, em vez da letra grega "σ", nós usamos "s²", em vez de "σ²", é "S²". E para calcular a variância, eu pego cada elemento da minha amostra, dele eu subtraio a média, que é 2, a média amostral, que é 2 e elevo ao quadrado, somo tudo e dividido pelo número de elementos e isso vai gerar uma pequena discussão mais adiante, mas vamos lá. Vou organizar um pouco aqui. Então nós temos... preparar a divisão para o cálculo da variância, vou pegar o primeiro termo, que é 1,5... 1,5... subtrair dele a média que é 2 e elevar ao quadrado. Mais, agora tudo de novo para o segundo, que é 4... 4 menos a média que é 2² +, agora vamos usar o 1. (1 - 2)² + agora o 2,5, (2,5 - 2)² + agora o 2. (2 - 2)²... e finalmente o último 1, então (1 - 2)², e tudo isso dividido por 6. Esta pode ser uma maneira de estimar a variância populacional a partir da amostra. Vamos fazer as contas: (1,5 - 2)² dá 0,5² então vamos ter 0,25. (4 - 2)² dá 2², que é 4. (1 - 2)² dá -1², que é 1. Aqui (2,5 - 2)² dá 0,5² = 0,25 Aqui 0² = 0. E finalmente (1 - 2)² dá -1², que é 1. Vamos adicionar tudo isso e obtemos então 6,5/6. Vamos usar uma calculadora: 6,5 dividido por 6 e nós vamos obter 1,083333. Podemos aproximar para 1,08. Então teríamos aproximadamente 1,08. Será esta a melhor aproximação, melhor estimativa que nós temos para a variância populacional? Deixarei você pensar um pouco. Bem, o fato é que este cálculo nos dá algo próximo da estimativa para a variância populacional, aqui estamos falando apenas da amostra com estes dados que temos aqui, mas nós poderíamos obter uma melhor aproximação ou, melhor dizendo, uma melhor estimativa para a variância populacional a partir de uma amostra. Primeiro, vamos anotar algo aqui. Como temos 6 elementos, é comum que esta estimativa que nós fizemos seja indicada por "Sₙ²", variância com "n" elementos na amostra. Uma estimativa melhor para a variância populacional a partir da amostra acontece quando, ao montarmos este cálculo, nós dividimos, não por 6, mas por uma unidade menor, ou seja, por 5. Em um próximo vídeo, nós vamos estudar intuitivamente uma ideia de porque isso está razoável, porque que para obter uma variância amostral mais próxima da estimativa para a variância populacional, nós dividimos pelo número de elementos subtraído em uma unidade. Bem, neste caso, esta variância... normalmente indicada só por "S²", a variância amostral, a variância da amostra, somente indicada por "S²", seria equivalente a dizer "S² ₙ - ₁" Se aqui estávamos falando de "Sₙ" com "n" elementos que eram 6, se vou dividir por 5, eu indico por "S ₙ - ₁". Refazendo as contas aqui neste caso, nós teríamos o mesmo numerador, que é 6,5 dividido por... em vez de 6, por 5. Efetuando 6,5 dividido por 5, vamos chegar ao resultado de 1,3. Ao dividir por "n - 1", nós temos uma melhor estimativa para a variância populacional. É isso que nós vamos estudar em um próximo vídeo. Então aqui 1,3 é uma estimativa mais próxima da variância populacional pensando em partir de uma amostra. Este 1,08 que encontramos está subestimando a variância populacional. Dividindo por um número menor, nós obtemos um resultado maior, então este resultado de 1,3 está mais próximo da variância populacional. Claro, nós estamos com uma amostra bem pequena, mas com um número grande de elementos, de fato, isso aqui vai oferecer uma estimativa melhor para a variância populacional. E como escrevemos esta variância com a notação matemática? Estamos falando de uma somatória que vai ser dividida por um certo denominador. A somatória destes termos, que são 6, começando no primeiro, segundo até o sexto, ou seja, a somatória com "i" indo de 1 até "n". Observe que estou usando "n" minúsculo aqui, no outro vídeo anterior usamos o "N" maiúsculo porque indicava o total de elementos da população e aqui estamos falando de uma amostra. De cada elemento vamos indicar por "xi" menos a média amostral, que é o x-barra, tudo elevado ao quadrado e ainda, todo esse resultado dividido por "n - 1", que é uma unidade a menos do que o número de elementos que eu tenho nesta amostra, "n - 1". Esta é a definição padrão para a variância amostral, a variância de uma amostra que permite estimar a variância populacional. Eu deixo você aqui e no próximo vídeo, vamos procurar entender de uma maneira intuitiva o porquê de dividir por "n - 1". Bom estudo. Até lá!