If you're seeing this message, it means we're having trouble loading external resources on our website.

Se você está atrás de um filtro da Web, certifique-se que os domínios *.kastatic.org e *.kasandbox.org estão desbloqueados.

Conteúdo principal

Teste de hipóteses para diferença em proporções

Teste de hipóteses para diferença em proporções.

Quer participar da conversa?

Nenhuma postagem por enquanto.
Você entende inglês? Clique aqui para ver mais debates na versão em inglês do site da Khan Academy.

Transcrição de vídeo

[RKA20C] Olá, meu amigo ou minha amiga! Tudo bem com você? Seja muito bem-vindo(a) a mais um vídeo da Khan Academy Brasil. Neste vídeo, vamos conversar sobre o teste de hipóteses quando estamos pensando sobre a diferença entre proporções de duas populações diferentes. Para isso, vamos observar este exemplo. É dito que aqui estão os resultados de uma pesquisa recente que envolveu a amostragem de eleitores de 2 distritos vizinhos, distrito A e distrito B, e as pessoas foram questionadas se apoiaram ou não uma nova lei. De cada distrito, pegamos uma amostra de 100 eleitores. Assim, somos capazes de calcular a proporção da amostra de quem apoiou a lei. Aqui, temos os dados combinados, incluindo a proporção combinada. Foi perguntado aqui se isso sugere uma diferença significativa entre os dois distritos. Para responder essa pergunta, a melhor coisa a fazer é realizar um teste de hipótese. A forma de fazer isso é definindo uma hipótese nula. Lembre-se de que nossa hipótese nula é aquela em que assumiríamos que não há diferença. Sendo assim, vamos considerar como verdadeiro que a proporção de pessoas no distrito A que apoia a nova lei é igual à proporção no distrito B que apoia a lei. Outra forma de pensar sobre isso é que a diferença entre as proporções é igual a 0. Já a nossa hipótese alternativa é que a diferença absoluta entre as proporções não é igual a 0. Se estivéssemos fazendo um teste de hipótese total, definiríamos um nível de significância, que, geralmente, denotamos aqui, com α. Muitas vezes, podemos ter um nível de significância de 10% ou 5%. Aqui, vou definir o nível de significância de 5%. Depois de fazer isso, a gente vai começar assumindo que a hipótese nula é verdadeira. Assumindo que a hipótese nula é verdadeira, a gente vai calcular a probabilidade de obter uma diferença entre nossas proporções da amostra que seja igual a este extremo ou maior. Se a probabilidade for menor que o nosso nível de significância, então, rejeitaremos a hipótese nula, o que sugeriria a alternativa. Bem, antes de irmos mais a fundo em nossa inferência, precisamos verificar aqui as condições para inferência, e já vimos isso muitas vezes antes. Inicialmente, temos a nossa condição aleatória, onde precisamos estar confortáveis em dizer que as duas amostras aqui são verdadeiramente aleatórias. O que, de fato, é! Aí, também temos a nossa condição normal, que, para ser atendida, é preciso que a gente tenha pelo menos 10 sucessos e 10 falhas em cada uma dessas amostras. Aqui, observamos que temos pelo menos 10 sucessos e pelo menos 10 falhas em cada uma dessas amostras. Então, também atendemos essa condição. Por último, temos a condição de independência. A condição de independência é atendida quando você está realizando amostras com substituição, ou, caso não seja com substituição, você precisa que cada uma dessas amostras correspondam a um valor menor que 10% da população. Acho que podemos assumir que existem pelo menos 10.000 pessoas no distrito A e pelo menos 10.000 pessoas no distrito B. E isso permitirá atender a condição de independência. Agora, com isso fora do caminho, vamos assumir a hipótese nula e vamos começar pensando sobre amostragem de distribuição da diferença entre as proporções da amostra, assumindo, claro, essa hipótese nula. Então, a primeira coisa que quero pensar é qual vai ser o desvio-padrão da diferença das distribuições da amostragem. Bem, vimos em um vídeo anterior, quando falamos sobre diferenças de proporções, que podemos pensar aqui sobre a variância da distribuição de amostras e existe uma notação para isso. Portanto, a variância vai ser igual à variância da distribuição amostral da proporção da amostra do distrito A mais a variância da distribuição amostral da proporção da amostra do distrito B. Em geral, você pode descobrir a variância da distribuição amostral de uma proporção de amostra com a seguinte fórmula... Já vimos isso antes: a variância da distribuição amostral da proporção da amostra vai ser igual à nossa verdadeira proporção vezes 1 menos nossa verdadeira proporção. Tudo isso sobre o tamanho da amostra. Agora, em qualquer situação, não sabemos as verdadeiras proporções para o distrito A ou para o distrito B. É por isso que estamos fazendo esse teste de hipótese para começar. Mas podemos tentar estimar isso. Lembre-se: estamos assumindo que as verdadeiras proporções são iguais, mesmo que a gente não saiba quais elas são. E qual será a nossa melhor estimativa dessa verdadeira proporção se presumirmos que o distrito A e o distrito B não têm diferença em termos de números de pessoas que apoiam a nova lei? Bem, a melhor estimativa é realmente a amostra combinada. A proporção da amostra combinada, aqui. Então, para estimar esses valores, usamos essa proporção de amostra combinada no lugar de P aqui. Aí, podemos dizer que isso vai ser a nossa proporção de amostra combinada vezes 1 menos a nossa proporção da amostra combinada, sobre o tamanho da nossa amostra. E já que estamos assumindo que não há diferença entre o distrito A e o distrito B, isso também se aplica a isto aqui. Vamos escrever aqui embaixo, então, o desvio-padrão. O desvio-padrão da distribuição amostral da diferença das proporções da amostra do distrito A e do distrito B vai ser aproximadamente igual a... Lembre-se que não somos capazes de calcular o valor exato, mas estamos usando essa proporção combinada como a nossa melhor estimativa. Então, vamos fazer uma raiz quadrada aqui. Um grande radical. Nesse radical, colocamos 0,55 x 1 - 0,55, que é 0,45, tudo isso sobre 100. Mais 0,55... é a mesma coisa novamente, vezes 0,45. Lembre-se, é isso porque estamos assumindo que a hipótese nula é verdadeira. Tudo isso sobre o tamanho da amostra, que é 100. Agora, podemos pegar nossa calculadora para realizar o cálculo. Assim, temos √0,55 x 0,45 / 100 Agora, poderia adicionar tudo isso de novo dentro da raiz, mas eu posso simplesmente multiplicar isso aqui por 2. Aí, clicando em igual, temos um resultado aproximadamente igual a 0,07. Logo, isso vai ser aproximadamente igual a 0,07. Agora, usando isso, podemos calcular um Z. Sendo assim, podemos pensar sobre qual é a probabilidade de obter um certo valor de Z para este extremo. Aí, com esse resultado, vamos calcular a probabilidade e comparar com o nosso nível de significância. O nosso Z é igual à diferença entre as proporções. No caso, P-chapéu A menos P-chapéu B sobre nosso desvio-padrão da distribuição de amostragem da diferença entre as proporções da amostra. Ou seja, vamos colocar isso sobre 0,07. Agora, isso vai ser igual a 0,58 - 0,52, que é igual a 0,06, sobre 0,07. Podemos pegar nossa calculadora para isso de novo. Assim, vamos pegar 0,06 e dividir por 0,07. Isso é aproximadamente igual a 0,86. Então, isso é aproximadamente 0,86. Qual é a probabilidade de obter algo tão extremo ou mais extremo? Bem, vamos visualizar isso em um gráfico? Se esta aqui é a nossa distribuição de amostragem da diferença entre nossas proporções de amostra e estamos assumindo a hipótese nula, então, a média de nossa distribuição amostral vai ser igual a 0. Acabamos de obter um resultado que é menos que um desvio-padrão acima da média. Isto aqui é um desvio-padrão, e aqui temos dois desvios-padrão acima da média. Aqui, temos um desvio-padrão abaixo da média, e aqui dois desvios-padrão abaixo. Acabamos de obter um resultado que nos coloca bem aqui. Aí, se fosse perguntado qual é a probabilidade de obter resultados, pelo menos neste extremo, deveríamos considerar toda esta área aqui e também toda esta área aqui do outro lado. Sabendo que isso é mais que 30%... Porque, mesmo se você excluir um desvio-padrão acima ou abaixo, se você diz algo mais extremo que isso, então, se você colocar esta área e esta área, você vai observar cerca de 31% ou 32%. Portanto, a probabilidade de obter algo pelo menos nesse extremo vai ser de mais de 30%. Então, definitivamente, vai ser maior do que o nosso nível de significância. Na verdade, é completamente razoável obter uma diferença nesse extremo se assumirmos que a hipótese nula é verdadeira. Em vídeos futuros, podemos ir ainda mais fundo, onde podemos apenas pesquisar isso em uma tabela Z para calcular essas áreas mais precisamente para, então, compará-las com o nosso nível de significância. Mas aqui não chega nem perto! Não estamos nem perto de sermos capazes de rejeitar a hipótese nula. Então, para responder a pergunta "Isso sugere uma diferença significativa entre os dois distritos?": não, a resposta é não. Espero que você tenha compreendido tudo direitinho. Mais uma vez, quero deixar para você um grande abraço. Até a próxima!