If you're seeing this message, it means we're having trouble loading external resources on our website.

Se você está atrás de um filtro da Web, certifique-se que os domínios *.kastatic.org e *.kasandbox.org estão desbloqueados.

Conteúdo principal

Intervalo de confiança para uma inclinação de uma reta de regressão

Intervalo de confiança para uma inclinação de uma reta de regressão.

Quer participar da conversa?

Nenhuma postagem por enquanto.
Você entende inglês? Clique aqui para ver mais debates na versão em inglês do site da Khan Academy.

Transcrição de vídeo

RKA3JV - Olá, meu amigo ou minha amiga! Tudo bem com você? Seja muito bem-vindo ou bem-vinda a mais um vídeo da Khan Academy Brasil. Neste vídeo, vamos resolver um exercício sobre intervalos de confiança em uma regressão linear. Esta questão diz o seguinte: Carla está interessada no relacionamento entre as horas gastas estudando e o consumo de cafeína entre os alunos de sua escola. Ela seleciona, aleatoriamente, 20 alunos da escola dela, e registra a ingestão de cafeína de cada um deles em miligrama, e a quantidade de tempo estudando em uma determinada semana. Aqui está a regressão de mínimos quadrados a partir de uma análise de sua amostra realizada com o computador. Suponha que todas as as condições para a inferência foram atendidas. Qual é o intervalo de confiança de 95% para a inclinação da linha de regressão de mínimos quadrados? Então, se você se sentir inspirado agora, que tal pausar este vídeo e ver você consegue fazer isto? Caso contrário, a gente pode fazer isso juntos, sem problema. Ok, então vamos primeiro lembrar o que está acontecendo. Vamos, então, visualizar aqui a regressão. Temos o nosso eixo horizontal ou eixo "x", onde isso é a nossa ingestão de cafeína em miligrama. E aí, no eixo vertical, no eixo "y" nós colocamos o tempo e isso aqui está em horas. O tempo estudando, neste caso. Carla seleciona aleatoriamente 20 alunos. E, assim, para cada um destes alunos, ela vê quanta cafeína eles consumiram e quanto tempo eles passaram estudando. E aí, coloca esta relação aqui neste gráfico. Assim, teremos 20 pontos de dados. 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20. Ela insere estes dados em um computador para que seja obtida a linha de regressão de mínimos quadrados. E vamos dizer que esta linha de regressão de mínimos quadrados tenha esta aparência aqui. Uma linha de regressão de mínimos quadrados tem o objetivo de tentar minimizar a distância quadrada entre a linha e todos estes pontos. E aqui temos uma tabela nos dando informações desta linha de regressão de mínimos quadrados. As coisas mais importantes aqui, se realmente queremos ajudar a visualizar ou compreender a linha, é o que temos nesta coluna. O coeficiente linear nos diz, essencialmente, qual é a interceptação "y" aqui. Portanto, temos 2,544. E aí, o coeficiente da cafeína. Esta é uma maneira de pensar sobre, para cada aumento da cafeína, quanto aumenta o tempo de estudo. Você também pode reconhecer isto aqui como a inclinação da linha de regressão de mínimos quadrados, também chamado, em alguns momentos, de coeficiente angular. Então, esta é a inclinação e isto é igual a 0,164. Agora, esta informação bem aqui nos diz o quão bem a nossa linha de regressão de mínimos quadrados se ajusta aos dados. R-quadrado, você já deve estar familiarizado, diz a variância na variável "y" que é justificada pela variável "x". Se fosse 1, ou 100%, isso significaria que tudo pode ser justificado pela variável "x". E aí, neste caso, teríamos um ajuste muito bom. Se isso fosse zero, isso significaria que nada disso pode ser justificado. E aí, teríamos um ajuste muito ruim. O "S" é o desvio-padrão dos resíduos e é uma outra medida de quanto estes pontos de dados variam a partir desta linha de regressão. Agora, esta coluna aqui vai ser muito útil para responder à nossa pergunta. Já que isso nos dá o erro padrão do coeficiente. E o coeficiente que nós realmente nos preocupamos, a estatística com a qual realmente nos importamos, é a inclinação da linha de regressão. Isso nos dá o erro padrão para inclinação da linha de regressão. Você pode ver isso como uma estimativa do desvio-padrão da distribuição de amostragem da inclinação da linha de regressão. Lembre-se, pegamos uma amostra de 20 pessoas aqui e calculamos uma estatística, que é a inclinação da linha de regressão. Cada vez que você faz uma amostra diferente, você provavelmente vai ter uma inclinação diferente. Além disso, essa inclinação é uma estimativa de algum parâmetro verdadeiro na população. Isso, às vezes, também pode ser chamado de erro padrão das linhas de regressão de mínimos quadrados. Agora, estas duas últimas colunas, você não precisa se preocupar muito com isso no contexto deste vídeo. Mas isso seria muito útil se você assumisse que não há um relacionamento entre a ingestão de cafeína e o tempo de estudo. E aí, neste caso, qual é a estatística "t" associada para as estatísticas que eu realmente calculei? E qual seria a probabilidade de conseguir algo tão extremo ou mais extremo, assumindo que não há associação? Supondo que, por exemplo, a inclinação real da linha de regressão é zero, isto aqui nos diz que temos uma probabilidade de cerca de 1%, que é muito baixa, neste caso, de chance de ter obtido estes resultados se realmente não tivesse nenhum relacionamento entre a ingestão de cafeína e o tempo de estudo. Mas com tudo isso isso fora do caminho, vamos realmente responder à pergunta. Bem, para construir um intervalo de confiança em torno de uma estatística, a gente pega o valor da estatística que a gente calculou através da amostra. Então, neste caso aqui, temos 0,164. E aí, mais ou menos, um valor crítico "t". A gente vai obter este valor crítico através do intervalo de confiança de 95% e através dos graus de liberdade. A gente já vai conversar sobre isso. Aí a gente multiplica isso aqui com o erro padrão da estatística. Neste caso, a estatística com a qual nos preocupamos é a inclinação. Então, isto aqui é 0,057. Então, colocamos aqui vezes 0,057. O motivo de usarmos aqui um valor crítico "t", em vezes de um valor crítico "z" é porque o nosso erro padrão da estatística é uma estimativa. Nós realmente não sabemos o desvio-padrão da distribuição amostral. Agora, a última coisa que a gente precisa fazer é descobrir qual é este valor crítico "t". Bem, você pode usar uma calculadora para isso, mas também podemos usar uma tabela. Eu vou fazer isso usando uma tabela. Para isso, precisamos saber quais são os graus de liberdade. Bem, quando você está fazendo isso com uma inclinação de regressão como estamos fazendo agora, os graus de liberdade serão o número de pontos de dados que a gente tem, menos 2. Então, o nosso grau de liberdade aqui vai ser 20 - 2 = 18. Eu não vou entrar em detalhes aqui sobre isso agora. Ou seja, o porquê de subtrairmos o 2 aqui. Na verdade, isto está bem além do objetivo deste vídeo, tenha certeza disso! Afinal, o objetivo disso aqui agora é só para a gente encontrar o valor de "t" na tabela. Então, este aqui é o nosso grau de liberdade. Portanto, nos preocupamos com o nível de confiança de 95%. Isto é equivalente a ter uma cauda de 2,5% em cada lado. E o nosso grau de liberdade é 18. Então, o nosso valor crítico de "t" é 2,101. Assim, o nosso intervalo de confiança de 95% vai ser 0,164, mais ou menos o nosso valor crítico "t", que é 2,101 vezes o erro padrão da estatística. Eu vou colocar entre parênteses aqui. Temos então isso vezes 0,057. E, claro, se você quiser deixar os valores exatos aqui, você pode descobrir quanto é utilizando uma calculadora. Mas eu não vou fazer isso aqui agora, tudo bem? O importante aqui é a gente interpretar tudo o que a gente está fazendo. E a forma de interpretar o intervalo de confiança de 95% é que 95% das vezes, 95% das vezes que você calcular, o intervalo de confiança vai se sobrepor ao valor verdadeiro do parâmetro que estamos estimando. Enfim, meu amigo ou minha amiga, eu espero que você tenha compreendido tudo direitinho o que conversamos aqui. E, mais uma vez, eu quero deixar para você um grande abraço, e até a próxima!