If you're seeing this message, it means we're having trouble loading external resources on our website.

Se você está atrás de um filtro da Web, certifique-se que os domínios *.kastatic.org e *.kasandbox.org estão desbloqueados.

Conteúdo principal

Referência: condições para inferência de uma média

Quando queremos realizar inferência (construir um intervalo de confiança ou realizar um teste de significância) sobre uma média, a precisão de nossos métodos depende de algumas condições. Antes de fazer os cálculos reais do intervalo ou teste, é importante verificar se essas condições foram atendidas ou não. Caso contrário, os cálculos e conclusões podem não estar corretos.
As condições que precisamos para inferência sobre uma média são:
  • Aleatoriedade: devem ser usados uma amostra aleatória ou experimento aleatorizado para obter os dados.
  • Normalidade: a distribuição amostral de x¯ (a média amostral) deve ser aproximadamente normal. Isso é verdadeiro se a população da qual a amostra foi obtida for normal ou se a nossa amostra for razoavelmente grande. (n30).
  • Independência: observações individuais devem ser independentes. Se a amostragem for sem reposição, o tamanho da amostra não deve ser maior que 10% da população.
Vejamos cada uma dessas condições um pouco mais a fundo.

A condição de aleatoriedade

Amostras aleatórias nos fornecem dados não viesados de uma população. Quando não usamos seleção aleatória, os dados resultantes geralmente têm alguma forma de viés, então usá-los para inferir algo sobre a população pode ser arriscado.
Mais especificamente, médias amostrais são estimadores não viesados da média de suas populações. Por exemplo, suponha que temos uma bolsa com bolas de pingue-pongue numeradas individualmente de 0 a 30, então a média da população da bolsa é 15. Poderíamos pegar amostras aleatórias de bolas da bolsa e calcular a média de cada amostra. Algumas amostras terão uma média maior que 15 e outras, uma média menor. Mas, em média, a média de cada amostra será igual a 15. Escrevemos essa propriedade como μx¯=μ, o que é verdade, desde que tomemos amostras aleatórias.
Isso não acontecerá necessariamente se usarmos uma amostra não aleatória. Amostras viesadas podem levar a resultados incorretos, portanto não devem ser usadas para criar intervalos de confiança ou realizar testes de significância.

A condição de normalidade

A distribuição amostral de x¯ (uma média amostral) é aproximadamente normal em alguns casos diferentes. A forma da distribuição amostral de x¯ depende principalmente da forma da população da qual a amostra foi obtida e do tamanho da amostra n.

Caso 1: a população parental é normalmente distribuída

Se a população parental é normalmente distribuída, a distribuição amostral de x¯ é aproximadamente normal, independentemente do tamanho amostral. Portanto, se sabemos que a população parental é normalmente distribuída, nós atendemos a essa condição mesmo se o tamanho amostral for pequeno. Na prática, entretanto, nós geralmente não sabemos se a população parental tem distribuição normal.

Caso 2: a população parental não é normalmente distribuída ou é desconhecida. Tamanho amostral grande (n30)

A distribuição amostral de x¯ será aproximadamente normal enquanto o tamanho amostral for razoavelmente grande. Por causa do teorema central do limite, quando n30 nós podemos tratar a distribuição amostral de x¯ como aproximadamente normal independentemente do formato da população parental.
Existem alguns casos raros nos quais a população parental tem um formato tão incomum que a distribuição amostral da média amostral x¯ não é exatamente normal para tamanhos amostrais próximos de 30. Esses casos são raros, portanto na prática geralmente é seguro assumir normalidade aproximada na distribuição amostral quando n30.

Caso 3: a população parental não é normalmente distribuída ou é desconhecida. Tamanho amostral pequeno (n<30)

Enquanto a população parental não tiver outliers ou assimetrias fortes, até mesmo amostras menores produzirão uma distribuição amostral de x¯ que é aproximadamente normal. Na prática, geralmente não conseguimos ver o formato da população parental, mas podemos tentar inferir o formato com base na distribuição dos dados da amostra. Se os dados amostrais mostram viés ou outliers, devemos duvidar que a parental seja aproximadamente normal e, portanto, a distribuição amostral de x¯ também pode não ser normal. Mas se os dados amostrais forem mais ou menos simétricos e não apresentarem outliers ou viés forte, podemos assumir que a distribuição amostral de x¯ será aproximadamente normal.
A ideia principal é que nós precisamos colocar nossos dados amostrais em um gráfico quando n<30 e então tomar uma decisão sobre a condição de normalidade com base na aparência dos dados amostrais.

Condição de independência

Para usar a fórmula para o desvio-padrão de x¯, precisamos que as observações individuais sejam independentes. Planejar um experimento com cuidado geralmente cuida da independência entre indivíduos (controle, diferentes tratamentos, aleatoriedade).
Em um estudo observacional que envolve amostragem sem substituição, observações individuais não são tecnicamente independentes, já que a remoção de cada observação muda a população. Entretanto, a condição dos 10% diz que se amostrarmos 10% ou menos da população podemos tratar observações individuais como independentes, já que remover cada observação não muda muito a população à medida que a amostramos. Por exemplo, se nosso tamanho amostral é n=30, deve haver pelo menos N=300 membros na população para que a amostra atenda à condição de independência.
Assumir independência entre as observações nos permite usar essa fórmula para o desvio-padrão de x¯ quando estamos criando intervalos de confiança ou realizando testes de significância:
σx¯=σn
Geralmente não sabemos o desvio-padrão σ da população, então substituímos o desvio-padrão da amostra sx como uma estimativa para σ. Quando fazemos isso, nós o chamamos de erro padrão de x¯ para diferenciá-lo do desvio-padrão.
Então, nossa fórmula para o erro padrão de x¯ é:
σx¯sxn

Resumo

Se todas essas três condições forem atendidas, podemos nos sentir bem em usar distribuições-t para criar um intervalo de confiança ou realizar um teste de significância. Satisfazer essas condições torna nossos cálculos precisos e nossas conclusões confiáveis.
A condição de aleatoriedade talvez seja a mais importante. Se violarmos a condição de aleatoriedade, provavelmente haverá um viés nos dados. A única maneira confiável de corrigir uma amostra viesada é coletar novamente os dados de maneira imparcial.
As outras duas condições são importantes, mas se não atendermos às condições de normalidade ou de independência, talvez não precisemos recomeçar. Por exemplo, há uma maneira de corrigir a falta de independência quando amostramos mais de 10% de uma população, mas está além do escopo do que estamos aprendendo agora.
A ideia principal é que é importante verificar se certas condições são atendidas antes de criarmos esses intervalos de confiança ou realizarmos esses testes de significância.

Quer participar da conversa?

Nenhuma postagem por enquanto.
Você entende inglês? Clique aqui para ver mais debates na versão em inglês do site da Khan Academy.