If you're seeing this message, it means we're having trouble loading external resources on our website.

Se você está atrás de um filtro da Web, certifique-se que os domínios *.kastatic.org e *.kasandbox.org estão desbloqueados.

Conteúdo principal

Condições para intervalos de confiança válidos para uma proporção

Há três condições que precisamos satisfazer antes de fazer um intervalo z de uma amostra para estimar uma proporção de população. Precisamos satisfazer as condições de aleatoriedade, normalidade e independência para que esses intervalos de confiança sejam válidos.

Quer participar da conversa?

Nenhuma postagem por enquanto.
Você entende inglês? Clique aqui para ver mais debates na versão em inglês do site da Khan Academy.

Transcrição de vídeo

RKA3JV - Olá, meu amigo ou minha amiga. Tudo bem com você? Seja muito bem-vindo ou bem-vinda a mais um vídeo da Khan Academy Brasil. Neste vídeo, vamos conversar sobre intervalos de confiança. Em outros vídeos, nós calculamos e até interpretamos os intervalos de confiança. Mas aqui vamos ter certeza de que estamos fazendo as suposições corretas para que a gente possa ter confiança em nossos intervalos de confiança, ou que estamos até calculando-os de forma certa, ou no contexto certo. Então, apenas como uma pequena revisão. Muito do que fazemos em intervalos de confiança é tentar estimar algum parâmetro de população. Vamos dizer que a gente tem uma proporção, talvez seja a proporção que vai votar em um candidato. Não podemos pesquisar todo mundo, então, pegamos uma amostra e dessa amostra, talvez calculemos uma proporção da amostra. Usando essa proporção de amostra, nós calculamos um intervalo de confiança em ambos os lados dessa proporção da amostra. E o que sabemos é que se a gente fizer isso, muitas, muitas, muitas vezes, cada vez que fizermos isso temos a propensão de ter uma proporção de amostra diferente. Então, essa seria a proporção da amostra 1. E essa seria a proporção da amostra 2. E cada vez que a gente fizer isso podemos obter, talvez essa seja a proporção da amostra 2. Não só teremos um valor diferente, que você pode dizer que é o centro do nosso intervalo, mas a margem de erro pode mudar, porque estamos usando a proporção da amostra para calcular. Agora, para assumir que isso seja uma verdade, ou seja, para que a gente tenha aqui um intervalo de confiança com confiança, primeiro, isso precisa ser uma amostra aleatória. Então, isso precisa ser uma amostra aleatória. Se você está tentando estimar a proporção de pessoas que vão votar em um certo candidato, mas você está apenas pesquisando pessoas em uma comunidade de idosos, isso não vai ser uma amostra verdadeiramente aleatória. Se a gente apenas pesquisar pessoas em um campus universitário, também não teremos uma amostra verdadeiramente aleatória. Assim como acontece com todas as coisas em estatística, você realmente quer ter certeza que você está lidando com uma amostra aleatória. Então, tome muito cuidado para fazer isso. A segunda coisa que devemos assumir é algo que às vezes é conhecido como condição normal. Lembre-se, toda a base atrás dos intervalos de confiança é que assumimos que a distribuição das proporções da amostra, a distribuição de amostragem das proporções da amostra, tem aproximadamente uma forma normal como essa. Mas, para fazer essa suposição que é quase normal, nós temos essa condição normal. E a regra aqui é que você esperaria por amostra, mais de 10 sucessos e 10 fracassos em cada uma delas. Por exemplo, se o seu tamanho de amostra foi de aproximadamente 10, Vamos dizer que a proporção verdadeira foi de 50% ou 0,5. Então, você não consideraria essa condição normal, porque você esperaria 5 sucessos e 5 falhas para cada amostra. Agora, geralmente, quando estamos fazendo intervalos de confiança, nós nem sabemos o parâmetro da população verdadeira. Sendo assim, o que faríamos, realmente, é olhar para nossa amostra e apenas contar quantos sucessos e quantas falhas nós temos. E se a gente tiver menos que 10 em qualquer uma dessas, teremos um problema. Ou seja, você tem que ter pelo menos 10 ou mais sucessos e 10 ou mais falhas em cada amostra. Sendo assim, você sempre precisa pegar uma amostra e contar quantos sucessos e quantas falhas você tem. Se essa condição não for atendida, então, a condição normal não é atendida. E as declarações que você faz sobre o seu intervalo de confiança não serão necessariamente tão válidas. A última coisa que precisamos ter certeza é conhecida como condição de independência. E essa é a regra dos 10%. Se temos uma amostra sem reposição, e às vezes é difícil fazer uma substituição. Por exemplo, se você estiver pesquisando pessoas que estão saindo de uma loja, você não pode pedir para elas voltarem para a loja, já que vai ser muito estranho você fazer isso. Sendo assim, a condição de independência é o tamanho da sua amostra. Então, deixe-me dizer que "n" tem que ser inferior a 10% do tamanho da população. Vamos dizer aqui que a população seja de 100 mil pessoas. Se você pesquisar mil pessoas, isso será 1% da população. Então, você se sentiria muito bem com isso, porque a condição de independência está sendo atendida. Mais uma vez, isso é muito valioso quando você está pegando amostra e sem reposição. Agora, para observar como os nossos intervalos de confiança vão se comportar, quando essas coisas são quebradas, eu vou me concentrar nesses dois últimos aqui. A condição de amostra aleatória, francamente, é super importante em todas as estatísticas. Então, vamos primeiro olhar para essa situação onde a condição de independência é quebrada. Você pode ver aqui que estamos usando nossa pequena simulação de chicletes, e nessa simulação de chiclete temos uma verdadeira proporção da população. Mas, alguém fazendo isso com as amostras pode não saber disso. Estamos tentando construir um intervalo de confiança com o nível de confiança de 95%. E o que configuramos aqui é que não estamos repondo, ou seja, não tem reposição. Então, não estamos olhando para cada membro de nossa amostra e colocando-o de volta. Vamos apenas pegar uma amostra de 200? E configurei a população para que seja muito maior do que 10% da população. Sendo assim, quando eu desenhei um monte de amostras, como este caso aqui, eu fiz quase 1.500 amostras com o tamanho de 200. O que você pode ver aqui são as situações onde o nosso verdadeiro parâmetro de população estava contido no intervalo de confiança que calculamos para essa amostra. Você pode ver, em vermelho, os que não estão neste intervalo. A sobreposição entre o intervalo de confiança que estamos calculando, com o verdadeiro parâmetro de população, está acontecendo em cerca de 93% das vezes. E isso é um lindo grande número de amostras. Se estiver realmente em um nível de confiança de 95%, isso deve estar acontecendo 95% das vezes. Da mesma forma, podemos olhar para uma situação onde nossa condição normal se desfaz. Podemos ver aqui que o nosso tamanho da amostra é 15. Olhando mais aqui abaixo, você pode ver o que me preocupa nessa simulação. Há menos de 10 sucessos esperados. E você pode observar que quando eu faço mais uma vez várias amostras, eu fiz mais de 2 mil amostras, mesmo assim eu tenho um aumento nesses intervalos de confiança. Já que toda vez que eu computo isso, eu tenho uma espécie de dispersão. Mesmo eu tendo uma taxa de acerto em 95% das vezes. Na verdade, é que é uma taxa de acerto de 94%. E eu fiz muitas amostras aqui. Sendo assim, a grande lição que aprendemos é que se as amostras não forem aleatórias, as informações serão distorcidas. Além disso, se você não se sente bem sobre quão normal é a sua distribuição de amostragem da proporção da amostra, ou se o tamanho da sua amostra for um valor muito grande em relação à sua população, onde você não está realizando reposições, nós violaremos esses princípios. Aí, o seu nível de confiança que você está calculando através dos intervalos de confiança, pode não ser válido. Então, é isso aí meu amigo ou minha amiga. Eu espero que você tenha compreendido tudo direitinho o que conversamos até aqui. E, mais uma vez, eu quero deixar para você um grande abraço, e até a próxima!