If you're seeing this message, it means we're having trouble loading external resources on our website.

Se você está atrás de um filtro da Web, certifique-se que os domínios *.kastatic.org e *.kasandbox.org estão desbloqueados.

Conteúdo principal

Teste de hipótese comparando proporções de população

Mais uma vez, continuamos a discussão dos resultados das eleições para realizar um teste de hipóteses comparando proporções populacionais. Versão original criada por Sal Khan.

Quer participar da conversa?

Nenhuma postagem por enquanto.
Você entende inglês? Clique aqui para ver mais debates na versão em inglês do site da Khan Academy.

Transcrição de vídeo

RKA9C Nos últimos vídeos, nós tentamos descobrir se havia uma diferença significativa entre a proporção de homens que gostariam de votar no candidato e a proporção de mulheres querendo votar nesse candidato. No último vídeo, na verdade, nós estimamos esse valor calculando o intervalo de confiança de 95% para essa diferença. O que eu quero neste vídeo é fazer a pergunta de uma maneira mais direta ou, em outras palavras, fazer um teste de hipótese e, então, poder verificar se tem ou não essa diferença significativa. Então, vamos fazer a nossa hipótese nula como não tendo diferença alguma na maneira como os homens e as mulheres vão votar. Então, vou colocar aqui "sem diferença" na nossa hipótese nula. E uma outra maneira de dizer isso é dizer que o "P₁" é igual ao "P₂", a proporção dos homens é igual à proporção das mulheres, ou, ainda, dizer que o "P₁" menos o "P₂", a proporção dos homens menos a das mulheres, é igual a zero. Então, esta aqui vai ser a nossa hipótese nula. E a nossa hipótese alternativa é que, sim, tem uma diferença, ou seja... Vou escrever aqui, vou dizer que nossa hipótese alternativa é que tem diferença. Uma outra maneira de dizer isso é que o nosso "P₁" é diferente do nosso "P₂". Ou, ainda, que a proporção verdadeira dos homens votando menos a das mulheres votando no candidato é diferente de zero também. E nós vamos fazer esse teste de hipótese com um nível de significância alfa (α) igual a 5%, beleza? A maneira como nós vamos fazer isto aqui, nós já vimos isso várias e várias vezes, é que nós vamos considerar essa hipótese nula como sendo verdadeira. Então, nós vamos considerar a nossa hipótese nula... Considerando isso como sendo verdadeiro, a hipótese nula, a probabilidade de se obter aquela média amostral... Então, deixa eu escrever aqui. A probabilidade de a gente conseguir aquela diferença entre a distribuição proporcional, ou melhor, entre a amostra proporcional dos homens menos a amostra proporcional das mulheres... Tudo isso dado que a nossa hipótese nula é a verdadeira. Se esta probabilidade aqui for menor que este nosso nível de significância, se isso for menor que 5%, ou seja, se a probabilidade de pegarmos essas duas amostras aqui e depois calcularmos a diferença dessas duas amostras, se isso for menor, essa probabilidade, de 5%, então, nós vamos fazer o quê? Rejeitar essa hipótese nula. Então, nós vamos rejeitar a hipótese nula. Beleza? Então, se eu considerar essa hipótese nula como sendo verdadeira, como esta distribuição aqui, nestas proporções amostrais, vai se parecer? Bem, se a distribuição populacional entre homens e mulheres for a mesma, então, esta média aqui, "P₁" menos "P₂", já que é o mesmo número, vai ser igual a zero. Ou seja, posso dizer que essa média vai ser igual a zero. Aqui é o seguinte, no exercício anterior, nós calculamos que essa diferença entre a proporção amostral dos homens que vão votar no candidato e a proporção amostral das mulheres que vão votar no candidato, esta diferença aqui, deu igual a 0,051, olha aqui. Então, o que eu quero fazer é calcular a probabilidade, claro, considerando que a nossa hipótese nula é a verdadeira, ou seja, que esta média aqui vai ser igual a zero. Então, qual é a probabilidade de nós obtermos uma diferença, entre esses valores, de 0,051? Qual vai ser essa probabilidade? O que eu vou fazer aqui, na verdade, é determinar um índice "z" para este valor aqui, ou seja, descobrir a quantos desvios padrões da média, desta média zero aqui, esse valor vai se encontrar. Aí, vou verificar se essa possibilidade de obter este resultado aqui calculando a quantidade de desvios padrões que vão estar afastados da média, se essa possibilidade de obter esse resultado vai ser menor que 5% ou não, pois, se essa probabilidade for menor que 5%, eu vou rejeitar a hipótese nula, é ou não é? Então, vamos calcular aqui como vai ficar esse índice "z". Nós estamos assumindo aqui a hipótese nula como sendo verdadeira, ou seja, que "P₁" menos o "P₂" é igual a zero. Então, o nosso índice "z", vou colocar aqui o nosso índice "z"... Isto aqui vai ser igual, então, ao que nós calculamos no último vídeo, àquela média de 0,051, e nós vamos subtrair disto aqui essa média presumida, considerando que a hipótese nula é verdadeira, ou seja, zero. Está claro? Como nós estamos assumindo que estas duas coisas são iguais, olha aqui, então, quando eu subtrair, a média disso vai dar zero, da minha nova distribuição, considerando a hipótese nula verdadeira. Então, eu vou subtrair zero daqui. Agora, eu tenho que dividir este valor pelo desvio padrão desta estatística que nós obtivemos aqui. Vamos lá! Então, é o desvio padrão de "P₁" menos o "P₂". E agora, qual será o desvio padrão que eu vou considerar aqui? No último vídeo, como você se lembra, nós determinamos uma fórmula para o desvio padrão, é isto aqui. Mas agora nós estamos considerando "P₁" e "P₂" como sendo a mesma coisa, tendo o mesmo valor. Como, neste vídeo, quando eu escrevi isto aqui, eu fiz uma aproximação, uma estimativa... Eu não quero botar esta bagunça toda lá, então, eu vou escrever uma versão mais "clean", uma versão mais limpa daquilo ali. Então, o que eu vou fazer aqui é o seguinte: o valor desse desvio padrão, vou fazer aqui do lado, esse desvio padrão da proporção amostral 1 menos a proporção amostral 2, isso vai ser igual à raiz quadrada de "P₁", que multiplica "1 menos P₁", tudo isso dividido por mil, que é o meu tamanho amostral, mais o "P₂", que multiplica "1 menos P₂", e tudo isso dividido também por mil, que é o tamanho amostral. Raiz quadrada disso tudo aqui. Só que, com essa hipótese nula, nós estamos considerando o "P₁" como sendo igual ao "P₂", ou seja, a diferença deles é igual a zero, o quer dizer que eles são iguais. Então, nós estamos considerando "P₁" igual a "P₂". E eu posso representar, então, esses dois valores como sendo, simplesmente, uma população verdadeira, uma proporção da população verdadeira, com a letra "P". Então, eu posso escrever aquilo ali tudo como sendo a raiz quadrada de quê? Na verdade, vou fatorar este 1 sobre mil aqui, que é fator comum dos dois. Então, vou colocar aqui "1/1.000" e vou multiplicar por quanto? Por "P", que multiplica "1 menos P", mais o outro "P", que multiplica "1 menos P" também. Aqui é a raiz quadrada disso tudo. Beleza? Então, isto aqui tudo... Como nós estamos assumindo a hipótese nula como verdadeira, por isso que eu coloquei esse "P" aqui dentro, tudo isso aqui vai ser igual à raiz quadrada de quê? Somando isto aqui, eu vou ter "2P", que multiplica "1 menos P", e tudo isso dividido por mil. É a raiz quadrada disso tudo, é ou não é? Novamente, isto aqui é o desvio padrão na distribuição destas estatísticas aqui, certo? A proporção amostral para os homens menos a proporção amostral para as mulheres. Só que nós não sabemos ainda o valor disto aqui, o valor desta amostra, é ou não é? Nós não sabemos quanto vale o "P". Então, vou colocar aqui uma interrogação. Só que nós podemos estimar o valor desse "P". Na verdade, como eu estou considerando a proporção dos homens igual à proporção das mulheres, eu posso considerar, então, um espaço amostral, em vez de mil, um espaço amostral de dois mil: tinha mil homens aqui e mil mulheres, então, agora vou ter duas mil pessoas. Eu posso colocar, lá naquela minha fórmula que eu estou calculando, que a minha proporção amostral... Na verdade, estou fazendo uma grande pesquisa. Em vez de fazer a pesquisa com mil homens e mil mulheres, eu estou fazendo uma grande pesquisa com duas mil pessoas, então, o nosso tamanho amostral aqui agora vai ser de 2.000. Aqui no numerador, então, já que eu estou considerando os dois grupos como sendo um só, vou colocar a quantidade de homens aqui que votou no candidato, 642, mais a quantidade de mulheres que votou no candidato, 591. Vamos lá substituir no numerador. Então, aqui vai ser "642 + 591". Agora, vamos pegar a calculadora para a gente descobrir quanto vale isto aqui. Vamos pegar a calculadora. Então, eu quero saber quanto é "642 + 591". Quanto é isso? 1.233. E eu vou dividir, como você pode ver aqui, por 2.000. Dividido por 2.000, isso vai me dar 0,6165. Então, o valor do "P" aqui vai ser de 0,6165. Esta aqui é a nossa melhor estimativa dessa proporção populacional, considerando como o mesmo grupo os homens e as mulheres, né? Só lembrando que fiz isto aqui porque estou assumindo lá em cima, na hipótese nula, que o "P₁" e o "P₂" são iguais, certo? Agora eu posso, então, pegar este valor e substituir ali no valor do "P". Aí, vou poder estimar o valor do desvio padrão desta distribuição amostral aqui, desta estatística, assumindo que a proporção de homens e mulheres é igual. Portanto, vamos calcular de quanto vai ser este desvio padrão aqui com o auxílio da calculadora novamente. Vamos lá, vou posicionar melhor aqui. Eu quero saber quanto é a raiz quadrada, abre parênteses, de duas vezes o "P"... Quanto vale o "P"? 0,6165. Tudo isso multiplicado por este valor aqui, "1 menos P". Então, eu vou abrir parênteses, 1 menos 0,6165, certo? Fecha parênteses. E tudo isso ainda está dividido por mil, é ou não é? Então, vou dividir aqui por mil e vou fechar aquele parênteses principal ali. Deixa eu ver se fiz tudo certinho. Duas vezes o "P", então, duas vezes 0,6165, vezes "1 menos "P", está aqui, 1 menos 0,6165, e tudo isso dividido por mil. Beleza, vamos dar o enter. Olha quanto deu! Deu 0,0217. Então, isto aqui deu igual a 0,0217, acabamos de calcular. Agora, se eu quiser calcular aquele índice "z" com base em tudo isso que nós fizemos aqui, vou pegar aquela média que nós presumimos no vídeo anterior, subtrair de zero, que é a nossa nova média, pois estamos considerando o "P₁" igual ao "P₂", portanto, "P₁" menos "P₂" vai ser igual a zero, e aí vou dividir pelo desvio padrão que eu acabei de calcular, que é 0,0217. Vou descobrir agora qual é o índice "z" que eu tenho que procurar lá naquela tabela. Então, para calcular esse índice "z", basta que eu divida 0,051 por este valor aqui, 0,0217. Vamos lá com a calculadora novamente. Então, eu vou querer saber quanto é 0,051 dividido pela nossa resposta anterior, que é aquele número ali. Então, isso vai ser igual... Olha aí, nós calculamos. Nós estamos a 2,35, arredondando, 2,35 desvios padrões distantes da média. Então, eu posso dizer aqui que o nosso índice "z" deu igual a 2,35. Só para fazer uma revisão do que nós estamos fazendo aqui: nós calculamos o índice "z" assumindo que essa hipótese nula é verdadeira, ou seja, que não tem diferença alguma entre a proporção dos homens e a proporção das mulheres, elas são iguais. Então, assumindo que não há diferença alguma, a média desta estatística aqui vai ser igual a zero, e o resultado que nós, de fato, encontramos para essa estatística no vídeo anterior, tem um índice "z" de 2,34 ou, na verdade, como nós arredondamos, 2,35. Está aqui. O "z" é igual a 2,35. Então, nosso "z" aqui é igual a 2,35, estamos a 2,35 desvios padrões distantes da média. E, para eu poder rejeitar essa hipótese nula, isso tem que ser menos provável que 5%. Agora, nós vamos ver lá na tabela do índice "z", está lá em cima, qual é o valor que eu tenho que considerar aqui. Ora, como eu quero um nível de significância de 5%... Deixa eu desenhar aqui como seria essa distribuição. Beleza! Então, se eu estou dizendo que a área que eu vou rejeitar, aquela hipótese nula, é de 5%, este teste aqui é um teste bicaudal! Ou seja, estou considerando distâncias acima da média e também abaixo da média. Então, se eu quero um nível de significância de 5%, estou querendo dizer que este pedaço aqui, esta área, tem 2,5% e esta área aqui, por conseguinte, por ser um gráfico simétrico, também vai ter 2,5%. Eu preciso saber o valor disto aqui, do índice "z" crítico. Então, vou escrever aqui índice "z" crítico. E, após calcular o valor desse índice "z" crítico, se eu obtiver um resultado que seja maior que este pedaço aqui, eu posso seguramente rejeitar a hipótese nula, pois vai ser uma probabilidade menor que 5% disso acontecer. Então, na verdade, eu quero o índice "z" crítico de maneira que toda esta área aqui seja menor que este valor de 97,5%, já que este pedaço, que é menor, é de 2,5%. Portanto, o que sobra aqui é 97,5%. E, na verdade, se você observar aqui em cima, nós já fizemos isso no vídeo anterior, esse valor do índice "z" deu 1,96. Certo? Está aqui este valor, 0,9750. Isso é 97,5%, então, é 1,96, olha aí. Ou seja, o valor do índice "z" crítico aqui, então, é igual a 1,96. E isto aqui está nos dizendo o quê? Ora, posso escrever isso da seguinte maneira: eu tenho 5% de chance de obter uma estatística "z"... ...uma estatística "z" que seja maior que 1,96. Isso considerando a hipótese nula como sendo verdadeira. E nós acabamos de calcular aqui que esse índice "z"... Assumindo essa hipótese nula como sendo verdadeira, esse índice "z" está aqui, é de 2,35. Então, a probabilidade de se obter este resultado aqui, dado que a hipótese nula é verdadeira, será algo menor que 5%, é ou não é? Este valor aqui, se você observar no gráfico... Como aqui é 1,96, então, 2,35 vai estar por aqui, assim, é mais extremo que esse valor. Então, graças a esses cálculos todos que nós fizemos, nós podemos rejeitar a hipótese nula. Desculpa ficar indo toda hora para cima e para baixo aqui neste vídeo! Mas eu posso rejeitar essa hipótese nula. Aí, se eu rejeitei a hipótese nula, eu posso dizer, então, que a hipótese alternativa é a que vale. Eu não tenho certeza se é ela que vale ou não, mas, estatisticamente, de acordo com nossos cálculos aqui, é ela que tem mais força, que tem mais probabilidade de acontecer. Tem, sim, uma diferença entre a proporção dos homens que votarão no candidato e das mulheres que votarão no candidato. Então, por este vídeo é só. A gente se vê nos próximos vídeos!