If you're seeing this message, it means we're having trouble loading external resources on our website.

Se você está atrás de um filtro da Web, certifique-se que os domínios *.kastatic.org e *.kasandbox.org estão desbloqueados.

Conteúdo principal

Inferências sobre a média da população a partir da média amostral

Uma grande parte da estatística se baseia no uso de dados de uma amostra aleatória que seja representativa da população geral. À partir da média amostral, podemos fazer inferências sobre a média da população maior. Nós vamos explicar. Versão original criada por Sal Khan.

Quer participar da conversa?

Você entende inglês? Clique aqui para ver mais debates na versão em inglês do site da Khan Academy.

Transcrição de vídeo

RKA - Digamos que a gente tente projetar algum produto para homens, um produto baseado na altura deles; e esse produto é para os Estados Unidos. Então, o ideal é saber a altura média dos homens nos Estados Unidos. Vamos anotar isto: altura média dos homens nos Estados Unidos. Como você resolveria isto? Quando eu falo de média, estou falando sobre a média aritmética. Se estivesse falando sobre outros tipos de média (e existem outros tipos, como a média geométrica), eu teria dito; mas quando as pessoas dizem média, normalmente, falam sobre a média aritmética. O que faria para descobrir a altura média dos homens nos Estados Unidos? A forma óbvia seria perguntar ou medir todos os homens nos Estados Unidos. Pegue as alturas e faça a soma de todas, depois divida pelo número de homens que existem nos Estados Unidos. Aí, vem a pergunta que, desta maneira, é prática: já que tem, aproximadamente, 300 milhões de pessoas nos Estados Unidos, a metade é de homens. Então, você terá 150 milhões... aproximadamente 150 milhões de homens nos Estados Unidos. Se quisesse a verdadeira altura média de todos os homens nos Estados Unidos, teria que pesquisar de alguma forma; ou nem fazer uma pesquisa, mas teria que ter a possibilidade de sair e medir todos os homens. E, mesmo que fizesse isso, ao terminar muitos homens poderiam ter morrido ou outros teriam nascido, e seus dados estariam, imediatamente, desatualizados. Parece impossível, ou quase impossível, conseguir a altura exata de cada homem nos Estados Unidos em tempo hábil. Então, em vez disso, dá para falar: "Ok, não consigo todos os homens, mas talvez possa fazer uma amostragem. Poderia fazer uma amostragem dos homens nos Estados Unidos, e vou fazer um esforço para que seja uma amostragem ao acaso. Não quero ter uma amostra de 100 pessoas que jogam ou jogaram basquete. Não quero uma amostra de 100 pessoas que são jogadores de vôlei. Eu quero uma amostra ao acaso. Talvez a primeira pessoa que aparecer no shopping center de uma cidade aleatória ou em várias cidades, ou coisa assim. Algo que não esteja baseado de forma alguma, ou ligado de qualquer forma, em altura. Então, você faz uma amostra e, desta amostra, pode calcular a média de, pelo menos, uma amostra. Com isso, espera-se que seja uma indicação... especialmente se for uma amostra razoavelmente ao acaso... uma indicação da média da população inteira. E o que vai ver em muitas das estatísticas é sobre o uso da informação usando coisas que podemos calcular sobre uma amostra, para inferir coisas sobre a população (já que não dá para medir diretamente toda a população). Por exemplo, se você está realmente tentando fazer isto, recomendaria fazer ao menos 100 pontos de dados, ou 1.000 (e, depois, discutiremos sobre como pode pensar se fez uma medição adequada ou qual o seu nível de confiança). Mas digamos que você é um pouco preguiçoso e faz amostra de apenas 5 homens. Então, tem essas 5 alturas. Digamos que tem: "6,2" pés; o outro tem "5,5" pés ("5,5" pés seria 5 pés e 6 polegadas); digamos que um acaba por ter "5,75" pés; outro tem "6,3"; e outro, "5,9" pés. Agora, se são destes que tem a amostra, qual seria o resultado para a média desta amostra? A gente vai pegar nossa calculadora, e tem: "6,2" + "5,5" + "5,75" + "6,3" + "5,9". A soma é "29,65". A gente quer dividir pelo número de pontos de informação que temos, então, tem 5 pontos de informação. Vamos dividir "29,65" por 5, e temos "5,93", nossa média da amostra; e vou nomear com um "x" com uma barra superior... é... (já esqueci o número) "5,93" pés. Esta é a nossa média da amostra (ou, se quer deixar mais claro, é a média aritmética da amostra). E, quando tenho este cálculo baseado numa amostra e, de alguma forma, estamos tentando estimá-la para a população inteira, chamamos de "estatística". E daí vem a dúvida: que notação usaremos se, de alguma forma, dá para medir para esta população? Digamos que não dá nem para medir a população, mas ao menos queremos denotar qual a média da população. Se quer fazer isso, a média da população é normalmente denotada pela letra grega "μ". Em muitas estatísticas, calcula-se uma média de amostra na tentativa de estimar (que talvez você não saiba) a média da população. E estes cálculos na população inteira... (às vezes, poderão fazer isso; muitas vezes, não poderá fazer)... estes são chamados de "parâmetros"... (são chamados de "parâmetros"). O que vai encontrar em muitas estatísticas está voltado para o cálculo de estatísticas de uma amostra em ordem para estimar parâmetros para uma população inteira. Agora, a última coisa que eu quero fazer é introduzir algumas notações que poderá encontrar num livro de estatística que parece muito matemático e muito difícil, mas espero que, depois de alguns minutos, entenda que, na verdade, é apenas exatamente o que fizemos, somando os números e dividindo pelo número de números que somou. Se tivesse que tirar a média da população (que é exatamente a mesma coisa, são apenas muito mais números desse contexto), teria que somar 150 milhões de números e dividir por 150 milhões. Então, como os matemáticos falam sobre uma operação assim? Somando uma porção de números e dividindo pelo número de números? Primeiro, vamos pensar sobre a média da amostra, pois é aqui que realmente fizemos o cálculo. Um matemático poderia chamar cada um desses pontos de informação... digamos que eles chamem o primeiro de "x₁"; vão chamar esse de "x₂"; e este de "x₃". Vão chamar este... (e, quando digo "sub", realmente falo "subscrito 1", "subscrito 2", "subscrito 3"...)... poderiam chamar esse de "x₄"; e esse de "x₅". Então, se tivesse "n" números desses, continuaria ("x₆", "x₇"... até "n"). Para ter a soma de todos esses, denotariam como... (vou escrever bem aqui)... diriam que a média da amostra é igual à soma de todos os meus "xᵢ". Então, dá para conceituar que esses "i" mudarão. Neste caso, o "i" começou em 1. Os "i"s irão começar em 1, até o tamanho de nossa amostra real, até chegar a "n". Neste caso, "n" foi igual a 5; e, literalmente, diz que é igual a "x₁" + "x₂" + "x₃"... até chegar ao "n". Mais uma vez, neste caso, eu tinha apenas 5. Agora, terminamos? O que significa a média da amostra? Bom, não. Não terminamos, não é apenas a soma de todos os pontos de informação, agora tem que dividir pelo número de pontos de informação que existirem. Pode parecer uma notação muito complicada, mas, na verdade, está apenas dizendo: some seus pontos de informação e divida pelo número de pontos de informação que tem. E essa letra grega sigma "Σ", em maiúsculo, literalmente, significa "soma". Faça a soma de todos os "xᵢ"... de "x₁" até "xₙ", e então divida pelo número de pontos de informação que tem. Agora, vamos pensar sobre como denotaria a mesma coisa; mas, em vez de ser para a média da amostra, fazer para a média da população. Então, a média da população será denotada com um "μ" (já falamos sobre isso); e, aqui, mais uma vez você vai pegar essa soma... mais uma vez, será a soma de todos os elementos da sua população.... então, seus "xᵢ", e você ainda começará em "i = 1". Normalmente, denota que "Ei, está usando toda a população!". Então, muitas vezes, eles colocam o "N" (maiúsculo) para, de alguma forma, denotar que esse número é, talvez, maior que esse "n" menor. Mas ainda não acabamos. A gente deve fazer a divisão pelo número de pontos de informação que estamos realmente somando. De novo, é a mesma coisa que "x₁" + "x₂" + "x₃"... até "xₙ" (maiúscula); tudo dividido por "N" (maiúsculo). Mais uma vez, nessa situação encontramos isso, prático; encontramos isso, pouco prático. Dá para debater se tem informações suficientes em nossa média de amostra bem aqui. Mas esperamos que, ao menos, de alguma forma, seja uma indicação de nossa média da população.