Se você está vendo esta mensagem, significa que estamos tendo problemas para carregar recursos externos em nosso website.

If you're behind a web filter, please make sure that the domains *.kastatic.org and *.kasandbox.org are unblocked.

Conteúdo principal

Intervalos de confiança e margem de erro

Intervalos de confiança e margem de erro.

Quer participar da conversa?

Nenhuma postagem por enquanto.
Você entende inglês? Clique aqui para ver mais debates na versão em inglês do site da Khan Academy.

Transcrição de vídeo

RKA2G - É tempo de eleição e existe uma disputa entre o candidato A e o candidato B. E nós estamos bastante interessados em ver qual é a probabilidade de o candidato A vencer a eleição. Para obter o resultado ideal, eu deveria perguntar para toda a população em quem cada um iria votar. Digamos que a população que vota seja de 100 mil pessoas. Eu perguntaria para cada um deles: "em quem você vai votar?" E então, eu iria conhecer um parâmetro populacional. E esse parâmetro indicaria a fração da população que apoia o candidato A. Esse valor seria, naturalmente, bastante realista, uma vez que ele foi obtido a partir de toda a população. Entretanto, o que é mais comum e mais razoável fazer é tomar uma amostra a partir dessa população para estudá-la. Nessa amostra, nós calculamos o parâmetro estatístico que queremos estudar, com o objetivo de estimar o parâmetro populacional. Vamos, então, tomar aqui uma amostra, digamos que de tamanho 100. A letra "n" indica quantos elementos tem nessa amostra. E nós vamos calcular o mesmo parâmetro para essa amostra, que seria, neste nosso exemplo, a fração da população que apoia o candidato A. Digamos, neste exemplo, que na amostra eu obtive a informação de que esse parâmetro seria 0,54, ou seja, 54% da amostra declaram votar no candidato A. É razoável pensar que, se tomássemos outra amostra, outras 100 pessoas, e fizéssemos a mesma pesquisa com elas, nós obtivéssemos outro resultado para este mesmo parâmetro. Digamos que nesta outra amostra de outras 100 pessoas, encontremos 0,58 da população que declara votar no candidato A. Nós temos ferramentas estatísticas para analisar a distribuição desses parâmetros amostrais. Em vídeos anteriores, já estudamos as distribuições amostrais de parâmetros das amostras. Como por exemplo, a parcela da população que vota em um candidato. Neste exemplo, para "n", que é o tamanho da amostra, de 100 elementos. Já que o tamanho da amostra é bem menor que o tamanho da população, menor que 10% do tamanho da população, podemos assumir que as amostras são independentes. e, assumindo que o parâmetro populacional não seja muito próximo de zero nem de 1, temos uma curva normal para representar a distribuição dos parâmetros amostrais. Esta curva, no formato de um sino. Aqui temos a informação (e eu sugiro que você procure isso em vídeos aqui da Khan Academy) de que a média da distribuição amostral do parâmetro que estamos estudando indica o parâmetro populacional. Neste caso, o parâmetro em questão é a parcela ou a fração da população que vota no candidato A. Eu vou marcar aqui, um desvio padrão, 2 desvios padrões, 3 desvios padrões acima da média e aqui, também, 1, 2, 3 desvios-padrões abaixo da média. E esta distância de um desvio padrão para a distribuição amostral do parâmetro em questão é obtida pela raiz quadrada de "p", vezes... Lembre-se de que "p" é o parâmetro populacional. "p" vezes (1 - p) sobre "n". Sendo que "n" é o tamanho da amostra, que neste caso seria 100. Vamos focar neste primeiro cenário aqui. nela nós temos o parâmetro amostral 0,54, 54% da amostra indicando que apoia o candidato A. Eu não sei exatamente onde estaria o 0,54. Ele poderia estar aqui, ou poderia estar ali. E a razão que eu não saber onde 0,54 se encontra é porque eu não sei qual é o valor real do parâmetro populacional. Vou agora fazer uma pergunta relativamente simples, que é o que vai nos nortear: qual é a probabilidade de que o parâmetro amostral, indicado aqui por "p^", que é 0,54, esteja a uma distância da média menor que dois desvios-padrões? Sugiro que você pause o vídeo e pense um pouco sobre isso. Muito bem. Dizer que eu estou querendo analisar dois desvios padrões acima ou abaixo da média desta distribuição significa olhar para esta área. Esta área indica a probabilidade de que o parâmetro em questão esteja dois desvios-padrão para cima ou para baixo da média. Nós já sabemos, ao estudar a distribuição normal, que aproximadamente 95% da área sob a curva abrange esta região de dois desvios padrões para cima ou para baixo da média Ou seja, a probabilidade perguntada é de aproximadamente 95%. Ou seja, 95% das vezes que eu tomar uma amostra de tamanho 100 e calcular esse parâmetro p^, o resultado obtido vai estar nesta faixa de dois desvios padrão para menos ou para mais da média. A partir desta afirmação, podemos construir uma outra afirmação, um pouco mais, digamos, inferencial, que nos permita fazer inferência. E essa afirmação é a seguinte: há 95% de probabilidade de que o parâmetro populacional "p" esteja a uma distância menor que 2 desvios padrão do parâmetro p^, que neste caso seria 0,54. Pause o vídeo e analise estas duas afirmações, veja como elas são equivalentes. Ou seja, se há 95% de chance de que o parâmetro amostral esteja a uma distância menor que 2 desvios-padrão da média, que representa o parâmetro populacional real, permite dizer que há 95% de chance de que o parâmetro populacional real esteja a 2 desvios-padrão, no máximo, de distância do parâmetro amostral. E isso é muito interessante porque, se nós formos capazes de descobrir que valor é este, nós seremos capazes de construir o que nós chamamos de "intervalo de confiança". Mas nós temos um pequeno problema aqui porque, para calcular o desvio padrão da distribuição amostral desse parâmetro, nós precisaríamos do parâmetro populacional, e nós não o temos. Então, pause o vídeo e verifique se, já que não temos o valor de "p", porque ele é o parâmetro populacional, que estimador nós poderíamos ter para esse parâmetro populacional? Bem, veja que nos calculamos o p^, que é o parâmetro amostral. E isso nos dá uma nova ferramenta na estatística, chamada de erro padrão dos parâmetros amostrais. E esse erro padrão é definido pela raiz quadrada... E agora, como nós não temos a informação sobre o parâmetro populacional, vamos usar o parâmetro amostral, que nós já conhecemos. Ficamos, então, com p^ vezes (1 - p^) sobre "n", que neste caso seria 100. Não vamos demonstrar neste vídeo, mas este é um estimador não viciado para este valor aqui. Colocando os valores de 0,54 no p^, vamos ficar com 0,54 vezes... 1 - 0,54 = 0,46, tudo isso sobre 100, e depois temos de fazer a raiz quadrada deste resultado. Vou usar a calculadora. Digitando aqui a raiz quadrada de 0,54 x 0,46 sobre 100, o resultado que temos aqui, aproximando para os centésimos, é 0,05. E o que isso nos dá é uma boa estimativa para o desvio-padrão do parâmetro amostral que nós estamos estudando. Podemos dizer, então, que com 95% de confiança, entre 0,44... De onde vem este 0,44? É o nosso parâmetro amostral, que é 0,54, menos dois desvios-padrões. Cada desvio-padrão é 0,05. Então, 0,54 menos 2 vezes 0,05 dá 0,44. E 0,64, que é o 0,54 do nosso parâmetro amostral, mais 2 vezes o 0,05 do desvio padrão desse parâmetro. Então, retomando: com 95% de confiança, entre 0,44 e 0,64 dos eleitores dão apoio ao candidato A. Este, então, é o nosso intervalo de confiança. E esse intervalo de confiança pode mudar, não só nos extremos, mas também no tamanho dele, a partir do tamanho da amostra que nós coletamos para obter o parâmetro amostral. E a ideia de intervalo de confiança nos permite chegar ao conceito de margem de erro. Neste caso, como construímos o intervalo de confiança baseado em dois desvios-padrão, a nossa margem de erro é de 0,1, porque é duas vezes o 0,05 do desvio-padrão calculado. Ou seja, no intervalo de confiança a partir do valor do parâmetro amostral, que é 0,54, Nós temos uma margem de erro para cima, que é 0,64, e uma margem de erro para baixo, que é 0,44. E reforçando: esta margem de erro não vai ser sempre a mesma, toda vez que eu tomar uma amostra. Dependendo do parâmetro calculado para a amostra, nós vamos ter uma margem de erro diferente, porque ela, a margem de erro, é calculada essencialmente a partir do erro padrão, que é calculado a partir do valor encontrado para o parâmetro amostral. Outra Interpretação para isso é que o método que nós usamos para obter este intervalo de confiança é que, construindo-o várias e várias vezes, cada vez com uma amostra diferente e, portanto, com um parâmetro amostral diferente, serão obtidos intervalos que incluem o parâmetro populacional real, que, lembre-se, nós não conhecemos, em 95% das vezes que nós construímos os intervalos de confiança. Em vídeos futuros, nós vamos abordar mais essa questão do intervalo de confiança e das alterações que podemos ter nele. Mas, quando você faz essas contas várias e várias vezes, em 95% das vezes o parâmetro populacional real vai estar contido nos intervalos obtidos. Uma outra questão interessante é: e se eu quiser diminuir esse intervalo de confiança, como eu posso fazer isso? Veja que, neste cálculo do erro padrão, se nós aumentarmos o denominador, o erro vai ser menor. E este denominador é justamente o tamanho da amostra, ou seja, aumentando o tamanho da amostra, eu consigo mais precisão, o que significa diminuir o intervalo de confiança . E com isso, nós encerramos. Até o próximo vídeo!