If you're seeing this message, it means we're having trouble loading external resources on our website.

Se você está atrás de um filtro da Web, certifique-se que os domínios *.kastatic.org e *.kasandbox.org estão desbloqueados.

Conteúdo principal

Intervalos de confiança para a diferença entre duas proporções

Introdução a intervalos z de duas amostras para estimar a diferença entre duas proporções de população.

Quer participar da conversa?

Nenhuma postagem por enquanto.
Você entende inglês? Clique aqui para ver mais debates na versão em inglês do site da Khan Academy.

Transcrição de vídeo

RKA10C E aí, pessoal! Tudo bem? Nesta aula, vamos revisar intervalos de confiança para a diferença entre duas proporções. Digamos que eu tenha aqui uma população, e que eu tenha a proporção de algo nessa população. Digamos que seja a proporção de pessoas que são canhotas. Não sei o total de pessoas que são canhotas nessa população, mas pego uma amostra de tamanho “n” e, a partir dela, eu calculo a proporção da amostra. Coloquei este circunflexo somente para diferenciar desta proporção. Ou seja, é uma proporção estimada da proporção verdadeira. E o que queremos é construir um intervalo de confiança. Mas, antes disso, preciso configurar as condições para inferência. Já fizemos isso muitas vezes. A primeira condição é a condição "aleatória", ou seja, preciso estar certo de que coletamos esta amostra da população de uma forma aleatória. A segunda condição é o que chamamos de condição "normal", ou seja, queremos garantir que as proporções da amostra são quase normais. Para garantir que esta proporção da amostra seja quase normal, se pegarmos “n” vezes esta proporção da amostra, isso tem que ser maior ou igual a 10, e “n” vezes 1 menos a proporção da amostra tem que ser maior ou igual a 10 também. A terceira condição é a condição de independência, e a maneira de fazer isso é que todos os elementos da nossa amostra devem ser feitos com substituição. Se não fizermos isso, devemos garantir que o tamanho da nossa amostra não seja superior a 10% do tamanho da população. Mas digamos que todas essas condições para inferência foram atendidas. O que fazemos? Definimos um nível de confiança. Digamos que esse nível seja de 95%. Isso significa que em 95% das vezes que passarmos por essas coisas, o intervalo de confiança que obteremos vai se sobrepor à proporção real da população. 95% é realmente algo que acontece muito. A partir desse nível de confiança, pode-se calcular um valor crítico, e você faz isso procurando em uma tabela de “Z”. Claro, é tudo revisão. Já vimos isso em aulas passadas! Meio que você precisa saber quantos desvios-padrão acima ou abaixo da média de uma distribuição normal é preciso obter para ter, digamos, 95% de nível de confiança da distribuição. Depois disso, sim, podemos calcular o intervalo de confiança. Isso vai ser igual à proporção da amostra mais ou menos o valor crítico vezes o desvio-padrão da distribuição de amostragem da proporção da amostra. Claro, tem uma maneira de calcular isso se conhecermos o valor da proporção real. Pegamos a raiz quadrada de “P”, que multiplica 1 menos “P”, dividido pelo tamanho da amostra... Mas, se conhecêssemos “P”, então, não precisaríamos fazer esse intervalo de confiança. Em vez disso, fazemos uma estimativa, ou seja, uma estimativa do desvio-padrão da proporção da amostra. Isso vai ser aproximadamente a raiz quadrada da proporção da amostra que multiplica 1 menos essa proporção da amostra dividido pelo tamanho da amostra. A razão pela qual revisei tudo isso que já vimos com mais calma em outras aulas é que vamos construir o intervalo de confiança de duas amostras, ou o intervalo “Z” para uma diferença entre proporções. Digamos que você tenha duas populações. Ou seja, aqui é a primeira população. Nessa população há uma proporção que vou chamar de P₁. Pode ser, por exemplo, a proporção de canhotos nessa população. E a outra população vou chamar de P₂, que pode ser, por exemplo, a proporção de pessoas destras. Claro, para cada uma dessas populações você retira uma amostra, sendo que nessa primeira vou chamar de n₁, que tem uma proporção de amostra P₁ com circunflexo, e na segunda população retiro uma amostra n₂ que tem uma proporção de amostra também. Claro, essas duas amostras não necessariamente têm que ter tamanhos iguais. Elas podem ter tamanhos diferentes. Claro, pode-se verificar as condições para inferência... Mas o que vamos fazer agora é calcular as proporções, ou seja, ambas as amostras devem atender à condição "aleatória", "normal" e de independência. Se isso acontece, então, devemos calcular este valor crítico. Você faz exatamente a mesma coisa: primeiro, define o nível de confiança e depois você pode definir o seu valor crítico. E você pode definir o intervalo de confiança para P₁ menos P₂. Ou seja, essa diferença é a diferença entre as proporções reais das duas populações. Isso vai ser igual à diferença entre as proporções da amostra, ou seja, P₁ com circunflexo menos P₂ com circunflexo, mais ou menos o valor crítico vezes o desvio-padrão da diferença entre as proporções da amostra. Já sabemos como calcular isto, como calcular isto e isto também, mas como calculamos isto aqui? Primeiro, vou te apresentar a fórmula, mas já quero adiantar que isso vem das propriedades de desvio-padrão e variância que vimos nas aulas passadas. Então, o desvio-padrão dessa diferença é aproximadamente a raiz quadrada da proporção da amostra 1, que multiplica 1 menos a proporção da amostra 1 dividido por n₁, mais a proporção da amostra 2, que multiplica 1 menos a proporção da amostra 2 dividido por n₂. Você resolve isso e consegue construir o seu intervalo de confiança. Mais uma vez, o que isso significa? Digamos que o seu nível de confiança seja de 90% e, com isso, você é capaz de construir este intervalo de confiança. Significa que em 90% das vezes que você fizer isso, o seu intervalo de confiança vai se sobrepor com a verdadeira diferença entre esses parâmetros populacionais. Agora, de onde tudo isso veio? Você consegue notar alguma semelhança aqui? Esta parte é aproximadamente a variância da amostra para a nossa primeira população. E esta parte é aproximadamente a variância da distribuição amostral para as proporções da amostra para a segunda população. Como eu sei disso? Se isto aqui é aproximadamente o desvio-padrão, se você elevar ao quadrado, vai ter aproximadamente a variância. Então, o que aprendemos aqui é que a variância para a distribuição amostral da diferença é a soma das variâncias de cada uma das distribuições de amostragem. Enfim, espero que esta aula tenha te ajudado. Até a próxima, pessoal!