Conteúdo principal
Curso: Estatística e probabilidade > Unidade 12
Lição 5: Mais vídeos sobre testes de significânciaTeste de hipótese de proporção de amostra grande
Usamos uma grande amostra para testar se mais de 30% das famílias nos EUA têm acesso à internet. Versão original criada por Sal Khan.
Quer participar da conversa?
- Teria alguma diferença em relação ao resultado dessa questão se utilizarmos o valor encontrado de z (no caso, 2,14) e procurarmos direto na tabela o valor da porcentagem? Procurando na tabela o valor aproximado considerando z = 2,14, encontrei o valor de 0,0179, indicando que a chance de ocorrer esse valor é de 1,79%. Dessa forma, levando em conta o nível de significância de 5%, também rejeitaríamos a hipótese nula. Há algum erro na minha resolução?(2 votos)
- Em outros videos utiziou-se 10 como o valor mínimo para uma distribuição de Bernoulli ser considerada normal. Neste video foi utilizado 5. Existe algum padrão?(1 voto)
- "é ou não é, é ou não é, é ou não é, é ou não é?"(1 voto)
Transcrição de vídeo
[LEGENDA AUTOMÁTICA] nós queremos testar a hipótese que mais
de 30% das famílias brasileiras têm acesso à internet
um nível de significância de 5% nós pegamos uma mostra de 150 famílias e
descobrimos que 57 têm acesso então a primeira coisa que nós temos que
fazer aqui determinarmos a nossa hipótese nula e depois é uma hipótese
alternativa à nossa hipótese no aqui é o seguinte ela diz que essa afirmação aqui
que mais de 30% das famílias brasileiras essa internet é falsa
não é verdadeira ou seja a proporção das famílias brasileiras que têm acesso à
internet é menor ou igual a 30 por cento essa vai ser a nossa hipótese nula certo
ea nossa hipótese alternativa agora é a mesma coisa que o anunciado ou seja é
quase alternativa é que a proporção das famílias brasileiras é maior que 30 por
cento você pode ver aqui nós queremos testar a
hipótese que mais de 30% das famílias brasileiras têm acesso à internet
então nós estamos testando aqui a hipótese alternativa ea maneira que nós
vamos fazer isso é que nós vamos considerar um valor de p
baseado na nossa hipótese nula aqui nós vamos considerar uma proporção baseado
então nessa hipótese nula e dada a essa consideração inicial então qual é a
probabilidade que nós pegamos aqui uma mostra de 150 famílias e descubramos que
57 têm acesso à internet ora se essa probabilidade que nós
calcularmos é menor do que 5 por cento ou seja o menor que o nosso nível de
significância então nós vamos rejeitar a hipótese nula
vamos assumir então que a hipótese é verdadeira é a hipótese alternativa
então nós vamos começar considerando considere a hipótese nula
verdadeira beleza o que eu vou fazer aqui é pegar uma proporção da população
ou a média da população que nós vimos pela distribuição de bernoldi que é a
mesma coisa então nós vamos pegar essa mostra que é
tão alta que é tão grande de maneira que isso maximize a probabilidade da
hipótese nula ser verdadeira só que nós não sabemos ainda
quanto é essa proporção de 57 a cada 150 na verdade usar a calculadora e aí a
gente já determina esse valor né vamos lá schilling pac então a gente vai
ter 57 dividido o 150o a i 0,38 de escrever aqui agora que a nossa
proporção a mostrar o nosso proporção amostral é igual a 0,38
e aí quando nós consideramos a nossa hipótese numa verdadeira
nós vamos assumir que esse peak ele tem seu mais alto possível para que chegue
mais perto dessa hipótese nua ser considerada de fato verdadeira e qual
vai ser o maior valor de peak nesse caso ora o pt chegou a 30 ela não é para
chegar mais próxima que o 0,38 tem que ser 30% que a mesma coisa que 0,3 da
então eu posso escrever que eu estou considerando a nossa proporção aqui
baseado na hipótese nula essa proporção vai ser de 0,3 beleza tá tranquilo por
enquanto como então vamos seguir só para explicar um pouco melhores daqui pense
comigo 29% estaria dentro da hipótese nula 28% também só estaria mais longe de
0,38 e 38% é ou não é então o melhor valor que aproxima nesse
valor aqui de 38% é o 30 por cento então por isso que eu peguei aqui o ph 0 igual
a 0,3 que é aqui o valor máximo que o pp pode assumir tranquilo agora se
acontecer dessa proporção aquele 0,3 que a máxima para proteger lula
déa nível de significância menor que 5% aí eu me sinto bastante confortável para
ignorar a hipótese nua e considerar pode ser alternativa como sendo a hipótese é
verdadeira agora vou desenhar aqui a nossa
distribuição da população que às vezes é é muito mais fácil a gente falar com
desenho né vamos lá desenhar aqui nesse nosso
desenho assumindo que a hipótese não é verdadeira mas temos o que é que 30% da
população nessa 0,3 0,30 aqui né têm acesso à internet ou considerando essa
internet como sendo um e 70% já que 30% têm acesso 70% não têm
0,70 não tem como você pode ver essa aqui uma
distribuição de berlim ea média a média está onde mora a média vai ser
exatamente esse número aqui das pessoas que têm acesso à internet e 0,3 vou
estar por aqui bem perto do zero né 0,3 essa aqui então será nossa média beleza
fica até melhor se eu escrever assim é porque essa média estão baseando claro
naquela hipótese nulas e verdadeira então a média baseada na hipótese nula é
igual a 0,3 agora o desvio padrão dessa população
aqui em ji-paraná da população dado que o h 01 que não há hipótese não é
verdadeira isso vai ser igual nós já vimos isso em outros vídeos a
raiz quadrada do produto dessas duas probabilidades aqui ou seja 0,3
multiplicado os 0,7 logo isso daqui vai ser igual a raiz
quadrada de 0,21 até porque a gente vê a gente volta pra
isso aqui agora eu quero saber qual é a probabilidade de eu pegar uma mostra
proporcional que seja igual a 0,38 e neste caso aqui
isso vai gerar uma distribuição binomial vai ser a seguinte forma olha só vai
aparecer uma distribuição normal assim se a desenhar linha mas na verdade ela
teria um monte de barra sakineh para pegar as combinações possíveis de 150
famílias seria assim né olha aí agora se nós pegarmos um n
bastante grande aqui isso aqui vai se parecer com uma
distribuição normal agora que considera um erro bastante grande
se multiplicar o n pelo p isso gera um número maior que 5 e também
se eu pegar o n x 1 - p isso dá um número maior que 5 então essa
distribuição aqui será assim uma distribuição normal beleza
então aqui nós teremos várias barrinhas dessa né
só que como a nossa amostra é muito grande o ele o nosso aqui é 150
você percebe que 150 0,3 isso é maior do que 5 é ou não é
e também 150 vezes 0,7 isso também é maior que 5 então essa distribuição aqui
vai se aproximar bastante de uma distribuição normal
não posso desenhar como se fosse uma distribuição normal beleza a claro pra
você tranquilo então ea média dessa
distribuição normal aqui ora essa média sempre considerando que a
epa tese nula a hipótese é verdadeira a nossa média dessa população aqui ela
vai ser igual à média populacional original essa média aqui é a média da
distribuição populacional beleza e ela vai ser igual então a média populacional
hora enquanto é 0,3 é isso que o nosso desvio-padrão o
desvio padrão nessa distribuição aqui ele vem direto do limite do teorema
central e ele vai ser igual ao desvio padrão nós estamos considerando a
hipótese nula né esse desvio padrão aqui dividido pela raiz quadrada do nosso
tamanho mostrar o n e qual é o nosso n é que nesse caso 150
é ou não é não posso botar 150 ac ora agora nós já
podemos calcular isso daqui isso aqui vai ser igual a raiz quadrada
de 0,21 mas acabamos de ver que esse desvio
padrão de acordo com essa hipótese nula 0,21 e dividir isso pela raiz quadrada
de 150 vamos ver quanto estudar com a nossa
calculadora então o que eu quero calcular aqui é a raiz quadrada de 0,21
ponto que dá isso aí e agora vou pegar essa resposta e vou dividir pela raiz
quadrada de 0,2 de 150 vamos ver como isso vai dar então olha
aí dá aproximadamente 0,03 7 inscrever-se sakineh então esse nosso
desvio padrão que pegar como apropriada o desvio padrão da nossa população
mostrou aqui é igual a 0,035 e 7 agora para descobrir qual é o problema
onde a gente pegar dentro dessas amostras aqui o 0,38
basta que a gente calcula agora quanto os desvios padrões
isso aqui está nossa média e para isso basta que o cálculo então o índice z
e aí eu vou usar a estatística z aqui né o índice z
nada mais é do que essa informação quanto os desvios padrões mas estamos
afastados da média e aí com esse valor em mãos eu vejo qual
é a probabilidade disso daqui dá menos de 5% para ver se o rejeitam ou não a
hipótese nula e aí como é que a gente calcula então
esse índice z hora eu vou pegar essa proporção amostral aqui certo e vou
fazer a seguinte conta vai ser essa proporção amostral
- a nossa média dessa proporção amostral naquela distribuição e vou dividir isso
daqui pelo desvio padrão daquela nossa distribuição das proporções amostrais
isso aqui vai ser igual a 0,38 menos 0,3 tudo isso dividido o 0,0 37 e aí quando
vai dar isso daqui ora isso vai ser igual aqui no numerador
isso vai dar 0,08 netão 0,08 dividido o 0,0 37 para descobrir o valor dessa
conta aqui vou usar a calculadora também vamos lá
o que eu quero saber então é quanto é 0,08 / esse número aqui vou colocar a
nossa resposta anterior vamos lá olha aí aproximadamente 2,14
então está aqui eu posso escrever como sendo 2,14 desvios padrões distante da
média ou eu posso dizer que isso aqui é o nosso índice zena ou a nossa
estatística z beleza que nos diz como disse ante o número de desvios padrões
que nós estamos afastados da média nesse caso aqui é dois desvios padrões mais 14
centésimos é ou não é e agora será que a probabilidade de
obter isso daqui é menor que 5% se for menor que 5% eu vou rejeitar a
hipótese lula e vou ficar com a hipótese alternativa senão eu fico com a hipótese
nula para eu fazer isso então pensar que uma distribuição normalizada
como achou desenhar com uma distribuição normal normalizada
a distribuição normalizada que seria a mesma coisa que a distribuição ver aqui
né ela teria uma média 0 e cada um desses
valores aqui são invencíveis não digamos 1 - 1 enfim isso significa o quê que
esse um agente estaria um desvio-padrão distante da média e assim por diante
está claro né então o que nós temos que fazer aqui é o
seguinte a gente tem que encontrar um valor z crítico aqui então valor z crítico e eu quero que essa área aqui é
que seja maior que esse valor crítico seja então 5%
essa área necessita ser 5% tudo isso porque foi estabelecido
anunciado que esse é o nosso nível de significância qualquer coisa que tenha
uma chance menor que 5% de ocorrer pra nós aqui para nossa resolução vai
ser uma validação pra gente rejeitar a hipótese nula
então uma outra maneira de pensar sobre isso aqui é que se essa área que assim
por cento toda essa outra área aqui quanto é hora 95%
e aí como você pode perceber esse teste que nós estamos fazendo aqui é única
caudal só nos interessa esses valores aqui
maiores que 5 por cento e pra gente descobrir esse valor crítico
do z eu preciso checar aqui na minha tabela z
e aí eu preciso fazer a seguinte pergunta pra mim mesmo qual o valor
dizer aqui que seja menor que esse valor nos da probabilidade de 95% e é
exatamente essa tabela que faz nos mostrar a probabilidade que nós estamos
abaixo desse valor crítico do z então nós temos que buscar aqui um valor
que seja bem próximo de 95% a 0,94 95 0,95 05
vou pegar esse valor aqui está mais próximo de 95%
e agora qual será esse nosso em dizer ora aqui é 1,6 e outro dígito a 0,5
então 1,65 móvel posso dizer que esse valor crítico do z aqui é igual a 1,65 é
ou não é então isso é que significa o quê que a
probabilidade de nós estarmos abaixo de 1,65 desde os padrões acima da média
vai ser de 95% e isso vale para qualquer distribuição normal é ou não é
só que o nosso z que nós calculamos aqui ó
ele é 2,14 olha aí e onde vai estar esse valor de 2,14 se aqui é 1,65 2,14 vai
está acima disso está por aqui é ou não é
então esse valor aqui essa probabilidade vai ser bem menor que 5% então esse
valor aqui é que nós acabamos de ver vai ser bem menor que 5% e se você calcular
essa área aqui você vai obter o valor p mas de qualquer maneira o objetivo é que
o exercício foi ver se a gente conseguiria rejeitar a hipótese nula com
um nível de significância de 5% e nós conseguimos esse resultado aqui de 2,14
é ainda mais extremo que nosso valor crítico do z que deu 1,65 então que nós
podemos fazer aqui é o seguinte nós podemos rejeitar a nossa hipótese nula e
aí assumimos que a hipótese alternativa é a
verdadeira até o próximo vídeo