Se você está vendo esta mensagem, significa que estamos tendo problemas para carregar recursos externos em nosso website.

If you're behind a web filter, please make sure that the domains *.kastatic.org and *.kasandbox.org are unblocked.

Conteúdo principal

Regra dos 10% de assumir "independência" entre ensaios

Regra dos 10% de assumir "independência" entre ensaios.

Quer participar da conversa?

Nenhuma postagem por enquanto.
Você entende inglês? Clique aqui para ver mais debates na versão em inglês do site da Khan Academy.

Transcrição de vídeo

RKA14C Olá, meu amigo ou minha amiga! Tudo bem com você? Seja muito bem-vindo ou bem-vinda a mais um vídeo da Khan Academy Brasil! Neste vídeo, vamos conversar sobre a regra dos 10% de independência entre tentativas quando estamos realizando o cálculo estatístico de algum evento. À medida que a gente for avançando os nossos conhecimentos em estatística, vai ser muito importante ter que tomar algumas decisões, como, por exemplo, assumir certas distribuições como distribuições normais ou como distribuições binomiais. Porque, se pudermos fazer isso, vamos poder realizar vários tipos de inferências interessantes sobre elas. Mas, além disso, uma das coisas principais sobre distribuições normais ou sobre distribuições binomiais é presumirmos que elas são a adição, ou elas podem ser vistas como uma adição, entre um monte de tentativas independentes. Ou seja, temos que assumir que as tentativas são independentes. Isso é razoável em muitas situações, mas às vezes não. Por exemplo, vamos dizer que você está realizando uma pesquisa com pessoas que estão saindo de um shopping. Nessa pesquisa, é perguntado se elas já declararam o seu Imposto de Renda. Se elas estão saindo do shopping, é difícil fazer amostras com reposição, certo? Afinal, se elas estão saindo, você não pode simplesmente chegar e dizer: "Hei, acabei de fazer uma pergunta..." "Agora que você respondeu," "pode voltar lá para dentro do shopping?" "Porque eu quero que cada tentativa seja verdadeiramente independente". Eu acho que vai ser um pouquinho difícil de fazer isso, e, com certeza, a pessoa não vai aceitar. Mas todos nós sabemos, de forma intuitiva, que, se houver 10 mil pessoas no shopping, tendo uma amostra de 10 dessas pessoas, realmente não vai importar se cada evento ou cada entrevista é verdadeiramente independente uma da outra. Isso não importa. Afinal, elas são quase independentes umas das outras. Por causa dessa ideia que queremos fazer inferências nos baseando em coisas que estão perto de uma distribuição binomial ou uma distribuição normal. Para isso, nós temos algo chamado de regra dos 10%. A regra dos 10% diz que, se a nossa amostra for menor ou igual a 10% da população, então, estará tudo bem assumir a independência aproximada. Existem algumas maneiras razoavelmente sofisticadas de determinar esse limite de 10%. Bem, as pessoas poderiam ter escolhido 9%... Elas poderiam ter escolhido 10,1, mas 10% é um número bem redondo. E, se a gente olhar aqui para alguns exemplos, isso parece dar um bom resultado. Por exemplo, olha isto aqui: "Seja 'C' o número de meninos de 3 ensaios selecionados" "de uma sala de aula de 'n' alunos" "onde 50% da classe é menino e 50% é menina". Observe nesta tabela aqui que nós temos um monte de "n" diferentes. Se tivermos 20 alunos na classe? E se tivermos 30? E se tivermos 100? E se tivermos 10 mil? 10 mil é muita coisa, mas enfim... Podemos encontrar a probabilidade de selecionarmos 3 meninos com reposição em cada um desses cenários. Também podemos encontrar a probabilidade de selecionarmos 3 meninos sem reposição. Aí, podemos pensar sobre qual proporção é a nossa amostra em relação ao tamanho de toda a população. Aí, podemos dizer: "A regra dos 10% realmente faz sentido?" Aqui, nesta primeira coluna, estamos escolhendo 3 meninos com reposição. Nesse caso, como estamos realizando uma reposição, cada um desses ensaios é independente. Eles são verdadeiramente independentes. E, se nossos testes são independentes, então "X" seria verdadeiramente uma variável binomial. Agora, aqui na segunda coluna, não são independentes, porque não estamos realizando uma reposição. Sendo assim, pelo fato de não estarmos realizando uma reposição, "X" não é considerado uma variável aleatória binomial. Porém, vamos ver se existe um limite para o nosso tamanho de amostra ser uma porcentagem pequena o suficiente em relação a toda nossa população, onde não vamos nos sentir tão mal assumindo que "X" é próximo de ser binomial. Vamos observar isso aqui. Bem, em todos os casos onde você tem ensaios independentes e 50% da população são meninos e 50% são meninas, você vai chegar a: "1/2 vezes 1/2 vezes 1/2". Então, em todas essas situações, temos uma chance de 12,5% em que "X" vai ser igual a 3, e, neste caso, "X" é uma variável binomial. Mas olha aqui: quando 3 corresponde a um percentual grande de nossa população, neste caso aqui 15%, a porcentagem da chance de se obter 3 meninos sem reposição é de 10,5. O que é razoavelmente diferente de 12,5. É 2% diferente. Mas 2% em relação a 12,5 é alguma coisa entre 10 e 20% de diferença em termos de probabilidade. Portanto, essa é uma diferença razoavelmente grande. Mas, conforme a gente aumenta o tamanho da população sem aumentar o tamanho da amostra, a gente vai vendo que esses números se aproximam cada vez mais um do outro, de forma que, quando a gente tiver 10 mil pessoas em sua população e você estiver fazendo apenas 3 tentativas, os números vão ficando muito, muito próximos. Isto é, na verdade, 12,49%, mas é algo realmente muito próximo de 12,5. Bem, eu acho que a maioria das pessoas diria: "Tudo bem, se a sua amostra é 0,03 da população," "sem dúvida você vai se sentir muito bem" "tratando esta coluna sem reposição" "como sendo algo muito próximo de ser uma variável binomial". A maioria das pessoas também diria: "Olha, neste primeiro cenário, em que o tamanho da sua amostra" "é de 15% da população," "você não se sentiria tão bem tratando esta coluna sem reposição" "como sendo uma variável aleatória binomial, certo?" "Mas onde fica a linha divisória?". Como falamos aqui, no início do vídeo, a linha é normalmente colocada em 10%. Ou seja, se o tamanho da sua amostra é menor ou igual a 10% da sua população, é razoável tratar a sua variável aleatória como binomial, mesmo que ela não seja oficialmente binomial. Bem, você pode até pensar: "Talvez essa variável seja binomial, talvez não"... Mas, utilizando essa regra dos 10%, eu posso tratá-la como uma variável binomial. A partir daí, podemos fazer todas as inferências poderosas que tendemos a fazer na estatística. Bem, com isso dito, quanto menor a porcentagem da amostra em relação à população, melhor. Agora, para ser bem claro, isso não significa que um número tão pequeno de amostra é melhor que um número grande. Em estatística, grandes amostras tendem a ser muito melhores do que pequenas amostras. Mas, se você quiser fazer uma suposição de independência, por assim dizer, mesmo quando não é exatamente verdade, você deseja que a sua amostra seja uma pequena porcentagem da população. Então, vamos dizer aqui que, ao fazer a pesquisa em um shopping, você queira pesquisar 100 pessoas e espera que, nesse shopping, haja pelo menos 1 mil pessoas para que os seus testes sejam razoavelmente independentes. Se houver 10 mil pessoas no shopping, ou, de alguma forma, 50 mil pessoas, e teria que ser um shopping bem grande para isso, vai ser, sem dúvida, bem melhor. Enfim, meu amigo ou minha amiga, espero que você tenha compreendido tudo direitinho o que conversamos aqui. Mais uma vez, eu quero deixar para você um grande abraço. Até a próxima!