Conteúdo principal
Estatística Avançada
Curso: Estatística Avançada > Unidade 11
Lição 2: Como preparar um teste para a média de uma população- Como escrever hipóteses para um teste de significância de uma média.
- Como escrever hipóteses para um teste sobre uma média
- Condições para um teste-T sobre uma média
- Referência: condições para inferência de uma média
- Condições para um teste-T sobre uma média
© 2023 Khan AcademyTermos de usoPolítica de privacidadeAviso de cookies
Referência: condições para inferência de uma média
Quando queremos realizar inferência (construir um intervalo de confiança ou realizar um teste de significância) sobre uma média, a precisão de nossos métodos depende de algumas condições. Antes de fazer os cálculos reais do intervalo ou teste, é importante verificar se essas condições foram atendidas ou não. Caso contrário, os cálculos e conclusões podem não estar corretos.
As condições que precisamos para inferência sobre uma média são:
- Aleatoriedade: devem ser usados uma amostra aleatória ou experimento aleatorizado para obter os dados.
- Normalidade: a distribuição amostral de
(a média amostral) deve ser aproximadamente normal. Isso é verdadeiro se a população da qual a amostra foi obtida for normal ou se a nossa amostra for razoavelmente grande. . - Independência: observações individuais devem ser independentes. Se a amostragem for sem reposição, o tamanho da amostra não deve ser maior que
da população.
Vejamos cada uma dessas condições um pouco mais a fundo.
A condição de aleatoriedade
Amostras aleatórias nos fornecem dados não viesados de uma população. Quando não usamos seleção aleatória, os dados resultantes geralmente têm alguma forma de viés, então usá-los para inferir algo sobre a população pode ser arriscado.
Mais especificamente, médias amostrais são estimadores não viesados da média de suas populações. Por exemplo, suponha que temos uma bolsa com bolas de pingue-pongue numeradas individualmente de a , então a média da população da bolsa é . Poderíamos pegar amostras aleatórias de bolas da bolsa e calcular a média de cada amostra. Algumas amostras terão uma média maior que e outras, uma média menor. Mas, em média, a média de cada amostra será igual a . Escrevemos essa propriedade como , o que é verdade, desde que tomemos amostras aleatórias.
Isso não acontecerá necessariamente se usarmos uma amostra não aleatória. Amostras viesadas podem levar a resultados incorretos, portanto não devem ser usadas para criar intervalos de confiança ou realizar testes de significância.
A condição de normalidade
A distribuição amostral de (uma média amostral) é aproximadamente normal em alguns casos diferentes. A forma da distribuição amostral de depende principalmente da forma da população da qual a amostra foi obtida e do tamanho da amostra .
Caso 1: a população parental é normalmente distribuída
Se a população parental é normalmente distribuída, a distribuição amostral de é aproximadamente normal, independentemente do tamanho amostral. Portanto, se sabemos que a população parental é normalmente distribuída, nós atendemos a essa condição mesmo se o tamanho amostral for pequeno. Na prática, entretanto, nós geralmente não sabemos se a população parental tem distribuição normal.
Caso 2: a população parental não é normalmente distribuída ou é desconhecida. Tamanho amostral grande ( )
A distribuição amostral de será aproximadamente normal enquanto o tamanho amostral for razoavelmente grande. Por causa do teorema central do limite, quando nós podemos tratar a distribuição amostral de como aproximadamente normal independentemente do formato da população parental.
Existem alguns casos raros nos quais a população parental tem um formato tão incomum que a distribuição amostral da média amostral não é exatamente normal para tamanhos amostrais próximos de . Esses casos são raros, portanto na prática geralmente é seguro assumir normalidade aproximada na distribuição amostral quando .
Caso 3: a população parental não é normalmente distribuída ou é desconhecida. Tamanho amostral pequeno ( )
Enquanto a população parental não tiver outliers ou assimetrias fortes, até mesmo amostras menores produzirão uma distribuição amostral de que é aproximadamente normal. Na prática, geralmente não conseguimos ver o formato da população parental, mas podemos tentar inferir o formato com base na distribuição dos dados da amostra. Se os dados amostrais mostram viés ou outliers, devemos duvidar que a parental seja aproximadamente normal e, portanto, a distribuição amostral de também pode não ser normal. Mas se os dados amostrais forem mais ou menos simétricos e não apresentarem outliers ou viés forte, podemos assumir que a distribuição amostral de será aproximadamente normal.
A ideia principal é que nós precisamos colocar nossos dados amostrais em um gráfico quando e então tomar uma decisão sobre a condição de normalidade com base na aparência dos dados amostrais.
Condição de independência
Para usar a fórmula para o desvio-padrão de , precisamos que as observações individuais sejam independentes. Planejar um experimento com cuidado geralmente cuida da independência entre indivíduos (controle, diferentes tratamentos, aleatoriedade).
Em um estudo observacional que envolve amostragem sem substituição, observações individuais não são tecnicamente independentes, já que a remoção de cada observação muda a população. Entretanto, a condição dos diz que se amostrarmos ou menos da população podemos tratar observações individuais como independentes, já que remover cada observação não muda muito a população à medida que a amostramos. Por exemplo, se nosso tamanho amostral é , deve haver pelo menos membros na população para que a amostra atenda à condição de independência.
Assumir independência entre as observações nos permite usar essa fórmula para o desvio-padrão de quando estamos criando intervalos de confiança ou realizando testes de significância:
Geralmente não sabemos o desvio-padrão da população, então substituímos o desvio-padrão da amostra como uma estimativa para . Quando fazemos isso, nós o chamamos de erro padrão de para diferenciá-lo do desvio-padrão.
Então, nossa fórmula para o erro padrão de é:
Resumo
Se todas essas três condições forem atendidas, podemos nos sentir bem em usar distribuições- para criar um intervalo de confiança ou realizar um teste de significância. Satisfazer essas condições torna nossos cálculos precisos e nossas conclusões confiáveis.
A condição de aleatoriedade talvez seja a mais importante. Se violarmos a condição de aleatoriedade, provavelmente haverá um viés nos dados. A única maneira confiável de corrigir uma amostra viesada é coletar novamente os dados de maneira imparcial.
As outras duas condições são importantes, mas se não atendermos às condições de normalidade ou de independência, talvez não precisemos recomeçar. Por exemplo, há uma maneira de corrigir a falta de independência quando amostramos mais de de uma população, mas está além do escopo do que estamos aprendendo agora.
A ideia principal é que é importante verificar se certas condições são atendidas antes de criarmos esses intervalos de confiança ou realizarmos esses testes de significância.
Quer participar da conversa?
Nenhuma postagem por enquanto.