Conteúdo principal
Curso: Estatística e probabilidade > Unidade 11
Lição 1: Introdução a intervalos de confiançaIntervalos de confiança e margem de erro
Intervalos de confiança e margem de erro.
Quer participar da conversa?
Nenhuma postagem por enquanto.
Transcrição de vídeo
RKA2G - É tempo de eleição e existe uma
disputa entre o candidato A e o candidato B. E nós estamos bastante interessados
em ver qual é a probabilidade de o candidato A vencer a eleição. Para obter o resultado ideal, eu deveria
perguntar para toda a população em quem cada um iria votar. Digamos que a população que vota
seja de 100 mil pessoas. Eu perguntaria para cada um deles:
"em quem você vai votar?" E então, eu iria conhecer
um parâmetro populacional. E esse parâmetro indicaria a fração
da população que apoia o candidato A. Esse valor seria, naturalmente,
bastante realista, uma vez que ele foi obtido a partir
de toda a população. Entretanto, o que é mais comum
e mais razoável fazer é tomar uma amostra a partir
dessa população para estudá-la. Nessa amostra, nós calculamos o parâmetro
estatístico que queremos estudar, com o objetivo de estimar
o parâmetro populacional. Vamos, então, tomar aqui uma amostra,
digamos que de tamanho 100. A letra "n" indica quantos elementos
tem nessa amostra. E nós vamos calcular o mesmo parâmetro
para essa amostra, que seria, neste nosso exemplo, a fração da população que apoia o candidato A. Digamos, neste exemplo, que na amostra
eu obtive a informação de que esse parâmetro seria 0,54, ou seja, 54% da amostra declaram votar
no candidato A. É razoável pensar que, se tomássemos
outra amostra, outras 100 pessoas, e fizéssemos a mesma pesquisa com elas, nós obtivéssemos outro resultado
para este mesmo parâmetro. Digamos que nesta outra amostra
de outras 100 pessoas, encontremos 0,58 da população
que declara votar no candidato A. Nós temos ferramentas estatísticas para analisar
a distribuição desses parâmetros amostrais. Em vídeos anteriores, já estudamos as distribuições amostrais
de parâmetros das amostras. Como por exemplo, a parcela da população
que vota em um candidato. Neste exemplo, para "n", que é o tamanho
da amostra, de 100 elementos. Já que o tamanho da amostra é bem menor
que o tamanho da população, menor que 10% do tamanho da população, podemos assumir que as amostras
são independentes. e, assumindo que o parâmetro populacional
não seja muito próximo de zero nem de 1, temos uma curva normal para representar
a distribuição dos parâmetros amostrais. Esta curva, no formato de um sino. Aqui temos a informação (e eu sugiro que você
procure isso em vídeos aqui da Khan Academy) de que a média da distribuição amostral
do parâmetro que estamos estudando indica o parâmetro populacional. Neste caso, o parâmetro em questão é a parcela ou a fração da população que vota no candidato A. Eu vou marcar aqui, um desvio padrão, 2 desvios
padrões, 3 desvios padrões acima da média e aqui, também, 1, 2, 3 desvios-padrões
abaixo da média. E esta distância de um desvio padrão para
a distribuição amostral do parâmetro em questão é obtida pela raiz quadrada de "p", vezes... Lembre-se de que "p" é o parâmetro
populacional. "p" vezes (1 - p) sobre "n". Sendo que "n" é o tamanho da amostra,
que neste caso seria 100. Vamos focar neste primeiro cenário aqui. nela nós temos o parâmetro amostral 0,54, 54% da amostra indicando que
apoia o candidato A. Eu não sei exatamente onde estaria o 0,54.
Ele poderia estar aqui, ou poderia estar ali. E a razão que eu não saber onde 0,54
se encontra é porque eu não sei qual é o valor real
do parâmetro populacional. Vou agora fazer uma pergunta relativamente
simples, que é o que vai nos nortear: qual é a probabilidade de que o parâmetro
amostral, indicado aqui por "p^", que é 0,54, esteja a uma distância da média menor
que dois desvios-padrões? Sugiro que você pause o vídeo
e pense um pouco sobre isso. Muito bem. Dizer que eu estou querendo analisar dois desvios padrões acima ou abaixo
da média desta distribuição significa olhar para esta área. Esta área indica a probabilidade de que o parâmetro em questão esteja dois
desvios-padrão para cima ou para baixo da média. Nós já sabemos, ao estudar a distribuição normal, que aproximadamente 95%
da área sob a curva abrange esta região de dois desvios
padrões para cima ou para baixo da média Ou seja, a probabilidade perguntada
é de aproximadamente 95%. Ou seja, 95% das vezes que eu tomar
uma amostra de tamanho 100 e calcular esse parâmetro p^, o resultado obtido vai estar nesta faixa de dois desvios padrão para menos
ou para mais da média. A partir desta afirmação, podemos
construir uma outra afirmação, um pouco mais, digamos, inferencial, que nos permita fazer inferência. E essa afirmação é a seguinte: há 95% de probabilidade de que
o parâmetro populacional "p" esteja a uma distância menor que
2 desvios padrão do parâmetro p^, que neste caso seria 0,54. Pause o vídeo e analise estas duas afirmações,
veja como elas são equivalentes. Ou seja, se há 95% de chance de que
o parâmetro amostral esteja a uma distância menor que
2 desvios-padrão da média, que representa o parâmetro populacional real, permite dizer que há 95% de chance de que o parâmetro populacional real esteja a 2 desvios-padrão, no máximo,
de distância do parâmetro amostral. E isso é muito interessante porque, se nós formos capazes de descobrir
que valor é este, nós seremos capazes de construir
o que nós chamamos de "intervalo de confiança". Mas nós temos um pequeno problema
aqui porque, para calcular o desvio padrão da distribuição amostral desse parâmetro, nós precisaríamos do parâmetro
populacional, e nós não o temos. Então, pause o vídeo e verifique se,
já que não temos o valor de "p", porque ele é o parâmetro populacional, que estimador nós poderíamos ter
para esse parâmetro populacional? Bem, veja que nos calculamos o p^,
que é o parâmetro amostral. E isso nos dá uma nova ferramenta
na estatística, chamada de erro padrão
dos parâmetros amostrais. E esse erro padrão é definido
pela raiz quadrada... E agora, como nós não temos a informação
sobre o parâmetro populacional, vamos usar o parâmetro amostral,
que nós já conhecemos. Ficamos, então, com p^ vezes (1 - p^)
sobre "n", que neste caso seria 100. Não vamos demonstrar neste vídeo, mas este
é um estimador não viciado para este valor aqui. Colocando os valores de 0,54 no p^, vamos ficar com 0,54 vezes... 1 - 0,54 = 0,46, tudo isso sobre 100, e depois temos de fazer a raiz quadrada
deste resultado. Vou usar a calculadora. Digitando aqui a raiz quadrada de
0,54 x 0,46 sobre 100, o resultado que temos aqui, aproximando
para os centésimos, é 0,05. E o que isso nos dá é uma boa estimativa para o desvio-padrão do parâmetro
amostral que nós estamos estudando. Podemos dizer, então, que com 95%
de confiança, entre 0,44... De onde vem este 0,44? É o nosso parâmetro amostral, que é 0,54, menos dois desvios-padrões.
Cada desvio-padrão é 0,05. Então, 0,54 menos 2 vezes 0,05 dá 0,44. E 0,64, que é o 0,54 do nosso
parâmetro amostral, mais 2 vezes o 0,05 do desvio padrão
desse parâmetro. Então, retomando: com 95% de confiança, entre 0,44 e 0,64 dos eleitores dão apoio ao candidato A. Este, então, é o nosso intervalo de confiança. E esse intervalo de confiança pode mudar,
não só nos extremos, mas também no tamanho dele, a partir
do tamanho da amostra que nós coletamos para obter o parâmetro amostral. E a ideia de intervalo de confiança nos permite chegar ao conceito
de margem de erro. Neste caso, como construímos
o intervalo de confiança baseado em dois desvios-padrão, a nossa margem de erro é de 0,1, porque
é duas vezes o 0,05 do desvio-padrão calculado. Ou seja, no intervalo de confiança a partir
do valor do parâmetro amostral, que é 0,54, Nós temos uma margem de erro para cima,
que é 0,64, e uma margem de erro para baixo, que é 0,44. E reforçando: esta margem de erro não
vai ser sempre a mesma, toda vez que eu tomar uma amostra. Dependendo do parâmetro calculado
para a amostra, nós vamos ter uma margem de erro diferente, porque ela, a margem de erro, é calculada
essencialmente a partir do erro padrão, que é calculado a partir do valor encontrado
para o parâmetro amostral. Outra Interpretação para isso é que o método que nós usamos para obter
este intervalo de confiança é que, construindo-o várias e várias vezes, cada vez com uma amostra diferente e, portanto,
com um parâmetro amostral diferente, serão obtidos intervalos que incluem
o parâmetro populacional real, que, lembre-se, nós não conhecemos, em 95% das vezes que nós construímos
os intervalos de confiança. Em vídeos futuros, nós vamos abordar
mais essa questão do intervalo de confiança e das alterações que podemos ter nele. Mas, quando você faz essas contas várias
e várias vezes, em 95% das vezes o parâmetro populacional real vai estar
contido nos intervalos obtidos. Uma outra questão interessante é: e se eu quiser diminuir esse intervalo
de confiança, como eu posso fazer isso? Veja que, neste cálculo do erro padrão, se nós aumentarmos o denominador,
o erro vai ser menor. E este denominador é justamente o tamanho
da amostra, ou seja, aumentando o tamanho da amostra,
eu consigo mais precisão, o que significa diminuir o intervalo de confiança . E com isso, nós encerramos.
Até o próximo vídeo!