Conteúdo principal
Curso: Estatística Avançada > Unidade 10
Lição 8: Intervalos de confiança para a diferença de duas proporções- Intervalos de confiança para a diferença entre duas proporções
- Exemplos identificando condições para inferência sobre duas proporções
- Condições para inferência sobre duas proporções
- Cálculo de um intervalo de confiança para a diferença de proporções
- Intervalo z de duas amostras para a diferença de proporções
© 2024 Khan AcademyTermos de usoPolítica de privacidadeAviso de cookies
Intervalos de confiança para a diferença entre duas proporções
Introdução a intervalos z de duas amostras para estimar a diferença entre duas proporções de população.
Quer participar da conversa?
Nenhuma postagem por enquanto.
Transcrição de vídeo
RKA10C E aí, pessoal!
Tudo bem? Nesta aula, vamos revisar
intervalos de confiança para a diferença entre duas proporções. Digamos que eu tenha aqui
uma população, e que eu tenha a proporção
de algo nessa população. Digamos que seja a proporção
de pessoas que são canhotas. Não sei o total de pessoas
que são canhotas nessa população, mas pego uma amostra
de tamanho “n” e, a partir dela, eu calculo
a proporção da amostra. Coloquei este circunflexo somente
para diferenciar desta proporção. Ou seja, é uma proporção estimada
da proporção verdadeira. E o que queremos é construir
um intervalo de confiança. Mas, antes disso, preciso configurar
as condições para inferência. Já fizemos isso muitas vezes. A primeira condição é
a condição "aleatória", ou seja, preciso estar certo de que coletamos esta amostra
da população de uma forma aleatória. A segunda condição é o que
chamamos de condição "normal", ou seja, queremos garantir que
as proporções da amostra são quase normais. Para garantir que esta proporção
da amostra seja quase normal, se pegarmos “n” vezes
esta proporção da amostra, isso tem que ser maior
ou igual a 10, e “n” vezes 1 menos
a proporção da amostra tem que ser maior
ou igual a 10 também. A terceira condição é
a condição de independência, e a maneira de fazer isso é que todos
os elementos da nossa amostra devem ser feitos com substituição. Se não fizermos isso, devemos garantir que o tamanho
da nossa amostra não seja superior a 10%
do tamanho da população. Mas digamos que todas essas condições
para inferência foram atendidas. O que fazemos? Definimos um nível de confiança. Digamos que esse
nível seja de 95%. Isso significa que em 95% das vezes
que passarmos por essas coisas, o intervalo de confiança
que obteremos vai se sobrepor à proporção
real da população. 95% é realmente algo
que acontece muito. A partir desse nível de confiança,
pode-se calcular um valor crítico, e você faz isso procurando
em uma tabela de “Z”. Claro, é tudo revisão.
Já vimos isso em aulas passadas! Meio que você precisa saber quantos
desvios-padrão acima ou abaixo da média de uma distribuição normal
é preciso obter para ter, digamos, 95% de nível
de confiança da distribuição. Depois disso, sim, podemos calcular
o intervalo de confiança. Isso vai ser igual
à proporção da amostra mais ou menos o valor crítico
vezes o desvio-padrão da distribuição de amostragem da proporção da amostra. Claro, tem uma maneira de calcular isso
se conhecermos o valor da proporção real. Pegamos a raiz quadrada de “P”,
que multiplica 1 menos “P”, dividido pelo tamanho da amostra... Mas, se conhecêssemos “P”, então, não precisaríamos fazer
esse intervalo de confiança. Em vez disso,
fazemos uma estimativa, ou seja, uma estimativa do desvio-padrão
da proporção da amostra. Isso vai ser aproximadamente
a raiz quadrada da proporção da amostra que multiplica 1 menos
essa proporção da amostra dividido pelo tamanho da amostra. A razão pela qual revisei tudo isso que já vimos com mais calma
em outras aulas é que vamos construir o intervalo
de confiança de duas amostras, ou o intervalo “Z” para uma
diferença entre proporções. Digamos que você tenha duas populações.
Ou seja, aqui é a primeira população. Nessa população há uma proporção
que vou chamar de P₁. Pode ser, por exemplo,
a proporção de canhotos nessa população. E a outra população
vou chamar de P₂, que pode ser, por exemplo,
a proporção de pessoas destras. Claro, para cada uma dessas populações
você retira uma amostra, sendo que nessa primeira
vou chamar de n₁, que tem uma proporção
de amostra P₁ com circunflexo, e na segunda população
retiro uma amostra n₂ que tem uma proporção
de amostra também. Claro, essas duas amostras
não necessariamente têm que ter tamanhos iguais. Elas podem ter tamanhos diferentes. Claro, pode-se verificar
as condições para inferência... Mas o que vamos fazer agora é calcular
as proporções, ou seja, ambas as amostras devem atender à condição "aleatória",
"normal" e de independência. Se isso acontece, então,
devemos calcular este valor crítico. Você faz exatamente a mesma coisa:
primeiro, define o nível de confiança e depois você pode definir
o seu valor crítico. E você pode definir
o intervalo de confiança para P₁ menos P₂.
Ou seja, essa diferença é a diferença entre as proporções
reais das duas populações. Isso vai ser igual à diferença
entre as proporções da amostra, ou seja, P₁ com circunflexo
menos P₂ com circunflexo, mais ou menos o valor crítico
vezes o desvio-padrão da diferença entre
as proporções da amostra. Já sabemos como calcular isto,
como calcular isto e isto também, mas como calculamos isto aqui? Primeiro, vou te apresentar a fórmula, mas já quero adiantar
que isso vem das propriedades de desvio-padrão e variância
que vimos nas aulas passadas. Então, o desvio-padrão dessa
diferença é aproximadamente a raiz quadrada
da proporção da amostra 1, que multiplica 1 menos
a proporção da amostra 1 dividido por n₁, mais a proporção da amostra 2, que multiplica 1 menos
a proporção da amostra 2 dividido por n₂. Você resolve isso e consegue
construir o seu intervalo de confiança. Mais uma vez,
o que isso significa? Digamos que o seu nível
de confiança seja de 90% e, com isso, você é capaz de construir
este intervalo de confiança. Significa que em 90% das vezes
que você fizer isso, o seu intervalo de confiança
vai se sobrepor com a verdadeira diferença entre
esses parâmetros populacionais. Agora, de onde tudo isso veio? Você consegue notar
alguma semelhança aqui? Esta parte é aproximadamente
a variância da amostra para a nossa primeira população. E esta parte é aproximadamente
a variância da distribuição amostral para as proporções da amostra
para a segunda população. Como eu sei disso? Se isto aqui é aproximadamente
o desvio-padrão, se você elevar ao quadrado,
vai ter aproximadamente a variância. Então, o que aprendemos aqui é que a variância para a distribuição
amostral da diferença é a soma das variâncias de cada
uma das distribuições de amostragem. Enfim, espero que esta aula
tenha te ajudado. Até a próxima, pessoal!