Conteúdo principal
Curso: Estatística Avançada > Unidade 10
Lição 9: Como testar a diferença de duas proporções da população- Teste de hipóteses para diferença em proporções
- Como construir hipóteses para duas proporções
- Como escrever hipóteses para testar a diferença de proporções
- Exemplo de teste de hipóteses para diferença em proporções
- Estatística de teste em um teste z de duas amostras para a diferença de proporções
- Valor-p em um teste z de duas amostras para a diferença de proporções
- Como comparar o valor-p ao nível de significância para um teste que envolve diferença de proporções
- Intervalo de confiança de teste de hipóteses para diferença em proporções
- Como tirar conclusões sobre a diferença de proporções
© 2024 Khan AcademyTermos de usoPolítica de privacidadeAviso de cookies
Teste de hipóteses para diferença em proporções
Teste de hipóteses para diferença em proporções.
Quer participar da conversa?
Nenhuma postagem por enquanto.
Transcrição de vídeo
[RKA20C] Olá, meu amigo ou minha amiga!
Tudo bem com você? Seja muito bem-vindo(a) a mais um
vídeo da Khan Academy Brasil. Neste vídeo, vamos conversar
sobre o teste de hipóteses quando estamos pensando sobre
a diferença entre proporções de duas populações diferentes. Para isso, vamos observar este exemplo. É dito que aqui estão os resultados
de uma pesquisa recente que envolveu a amostragem de
eleitores de 2 distritos vizinhos, distrito A e distrito B, e as pessoas foram questionadas
se apoiaram ou não uma nova lei. De cada distrito, pegamos uma
amostra de 100 eleitores. Assim, somos capazes de calcular a proporção da amostra
de quem apoiou a lei. Aqui, temos os dados combinados,
incluindo a proporção combinada. Foi perguntado aqui se isso sugere uma diferença significativa
entre os dois distritos. Para responder essa pergunta, a melhor coisa a fazer é
realizar um teste de hipótese. A forma de fazer isso
é definindo uma hipótese nula. Lembre-se de que nossa hipótese nula é aquela em que assumiríamos
que não há diferença. Sendo assim, vamos
considerar como verdadeiro que a proporção de pessoas
no distrito A que apoia a nova lei é igual à proporção no distrito B
que apoia a lei. Outra forma de pensar sobre isso é que a diferença entre
as proporções é igual a 0. Já a nossa hipótese alternativa é que a diferença absoluta
entre as proporções não é igual a 0. Se estivéssemos fazendo
um teste de hipótese total, definiríamos um nível de significância, que, geralmente,
denotamos aqui, com α. Muitas vezes, podemos ter um nível
de significância de 10% ou 5%. Aqui, vou definir o nível de
significância de 5%. Depois de fazer isso,
a gente vai começar assumindo que a hipótese nula
é verdadeira. Assumindo que a hipótese nula
é verdadeira, a gente vai calcular
a probabilidade de obter uma diferença entre
nossas proporções da amostra que seja igual a este extremo ou maior. Se a probabilidade for menor
que o nosso nível de significância, então, rejeitaremos
a hipótese nula, o que sugeriria a alternativa. Bem, antes de irmos mais a fundo
em nossa inferência, precisamos verificar aqui
as condições para inferência, e já vimos isso muitas vezes antes. Inicialmente, temos
a nossa condição aleatória, onde precisamos estar
confortáveis em dizer que as duas amostras aqui
são verdadeiramente aleatórias. O que, de fato, é! Aí, também temos
a nossa condição normal, que, para ser atendida, é preciso
que a gente tenha pelo menos 10 sucessos e 10 falhas
em cada uma dessas amostras. Aqui, observamos que temos
pelo menos 10 sucessos e pelo menos 10 falhas em
cada uma dessas amostras. Então, também atendemos essa condição. Por último, temos
a condição de independência. A condição de independência
é atendida quando você está realizando amostras
com substituição, ou, caso não seja com substituição, você precisa que
cada uma dessas amostras correspondam a um valor menor
que 10% da população. Acho que podemos assumir
que existem pelo menos 10.000 pessoas no distrito A e pelo menos 10.000 pessoas no distrito B. E isso permitirá atender
a condição de independência. Agora, com isso fora do caminho, vamos assumir a hipótese nula e vamos começar pensando
sobre amostragem de distribuição da diferença entre
as proporções da amostra, assumindo, claro,
essa hipótese nula. Então, a primeira coisa que
quero pensar é qual vai ser o desvio-padrão da diferença das
distribuições da amostragem. Bem, vimos em um vídeo anterior, quando falamos sobre
diferenças de proporções, que podemos pensar aqui sobre
a variância da distribuição de amostras e existe uma notação para isso. Portanto, a variância vai ser igual
à variância da distribuição amostral da proporção da amostra do distrito A mais a variância da distribuição amostral da proporção da amostra do distrito B. Em geral, você pode descobrir
a variância da distribuição amostral de uma proporção de amostra
com a seguinte fórmula... Já vimos isso antes: a variância
da distribuição amostral da proporção da amostra vai ser
igual à nossa verdadeira proporção vezes 1 menos nossa
verdadeira proporção. Tudo isso sobre o tamanho da amostra. Agora, em qualquer situação,
não sabemos as verdadeiras proporções para o distrito A
ou para o distrito B. É por isso que estamos fazendo
esse teste de hipótese para começar. Mas podemos tentar estimar isso. Lembre-se: estamos assumindo que
as verdadeiras proporções são iguais, mesmo que a gente não saiba
quais elas são. E qual será a nossa melhor
estimativa dessa verdadeira proporção se presumirmos que
o distrito A e o distrito B não têm diferença
em termos de números de pessoas que apoiam a nova lei? Bem, a melhor estimativa é
realmente a amostra combinada. A proporção da
amostra combinada, aqui. Então, para estimar esses valores, usamos essa proporção de
amostra combinada no lugar de P aqui. Aí, podemos dizer que isso vai ser a nossa proporção de
amostra combinada vezes 1 menos a nossa proporção
da amostra combinada, sobre o tamanho da nossa amostra. E já que estamos assumindo
que não há diferença entre o distrito A
e o distrito B, isso também se aplica a isto aqui. Vamos escrever aqui embaixo,
então, o desvio-padrão. O desvio-padrão da distribuição
amostral da diferença das proporções da amostra do distrito A
e do distrito B vai ser aproximadamente igual a... Lembre-se que não somos capazes
de calcular o valor exato, mas estamos usando
essa proporção combinada como a nossa melhor estimativa. Então, vamos fazer uma
raiz quadrada aqui. Um grande radical. Nesse radical, colocamos
0,55 x 1 - 0,55, que é 0,45, tudo isso sobre 100. Mais 0,55... é a mesma coisa novamente,
vezes 0,45. Lembre-se, é isso porque
estamos assumindo que a hipótese nula é verdadeira. Tudo isso sobre o tamanho da
amostra, que é 100. Agora, podemos pegar nossa calculadora
para realizar o cálculo. Assim, temos √0,55 x 0,45 / 100 Agora, poderia adicionar tudo isso
de novo dentro da raiz, mas eu posso simplesmente
multiplicar isso aqui por 2. Aí, clicando em igual, temos um resultado aproximadamente igual a 0,07. Logo, isso vai ser
aproximadamente igual a 0,07. Agora, usando isso,
podemos calcular um Z. Sendo assim, podemos pensar sobre qual é a probabilidade de
obter um certo valor de Z para este extremo. Aí, com esse resultado, vamos
calcular a probabilidade e comparar com o nosso
nível de significância. O nosso Z é igual à diferença
entre as proporções. No caso, P-chapéu A
menos P-chapéu B sobre nosso desvio-padrão
da distribuição de amostragem da diferença entre as
proporções da amostra. Ou seja, vamos colocar isso sobre 0,07. Agora, isso vai ser igual a 0,58 - 0,52, que é igual a 0,06, sobre 0,07. Podemos pegar nossa calculadora
para isso de novo. Assim, vamos pegar 0,06
e dividir por 0,07. Isso é aproximadamente
igual a 0,86. Então, isso é aproximadamente 0,86. Qual é a probabilidade de
obter algo tão extremo ou mais extremo? Bem, vamos visualizar isso
em um gráfico? Se esta aqui é a nossa distribuição
de amostragem da diferença entre nossas proporções de amostra e estamos assumindo a hipótese nula, então, a média de nossa
distribuição amostral vai ser igual a 0. Acabamos de obter um resultado que é menos que um desvio-padrão
acima da média. Isto aqui é um desvio-padrão, e aqui temos dois desvios-padrão
acima da média. Aqui, temos um desvio-padrão
abaixo da média, e aqui dois desvios-padrão abaixo. Acabamos de obter um resultado
que nos coloca bem aqui. Aí, se fosse perguntado
qual é a probabilidade de obter resultados,
pelo menos neste extremo, deveríamos considerar
toda esta área aqui e também toda esta área
aqui do outro lado. Sabendo que isso é mais que 30%... Porque, mesmo se você excluir
um desvio-padrão acima ou abaixo, se você diz algo
mais extremo que isso, então, se você colocar
esta área e esta área, você vai observar cerca de 31% ou 32%. Portanto, a probabilidade de obter algo
pelo menos nesse extremo vai ser de mais de 30%. Então, definitivamente, vai ser maior do que o nosso nível de significância. Na verdade, é completamente
razoável obter uma diferença nesse extremo se assumirmos
que a hipótese nula é verdadeira. Em vídeos futuros, podemos ir
ainda mais fundo, onde podemos apenas pesquisar isso em uma tabela Z para calcular
essas áreas mais precisamente para, então, compará-las com
o nosso nível de significância. Mas aqui não chega nem perto! Não estamos nem perto
de sermos capazes de rejeitar a hipótese nula. Então, para responder a pergunta "Isso sugere uma diferença significativa
entre os dois distritos?": não, a resposta é não. Espero que você tenha
compreendido tudo direitinho. Mais uma vez, quero deixar
para você um grande abraço. Até a próxima!