Conteúdo principal
Estatística Avançada
Curso: Estatística Avançada > Unidade 5
Lição 4: Regressão de mínimos quadrados- Cálculo da equação de uma reta de regressão
- Cálculo da equação da reta de mínimos quadrados
- Como interpretar a inclinação da reta de regressão
- Como interpretar a interceptação em y em um modelo de regressão
- Como interpretar o coeficiente angular e a interceptação em y de modelos de funções lineares
- Uso do resultado da regressão de mínimos quadrados
- Uso do resultado da regressão de mínimos quadrados
© 2023 Khan AcademyTermos de usoPolítica de privacidadeAviso de cookies
Cálculo da equação de uma reta de regressão
Cálculo da equação de uma reta de regressão de mínimos quadrados. Raciocínio que explica a consistência dessa equação.
Quer participar da conversa?
Nenhuma postagem por enquanto.
Transcrição de vídeo
RKA14C Em vídeos anteriores, nós plotamos estes dados
neste gráfico e calculamos o coeficiente
de correlação "r". Apenas como uma forma de revisar,
nós temos a fórmula aqui. Ela parece um pouco intimidadora, mas, no vídeo anterior,
vimos que isto é o produto, a multiplicação dos escores "z"
para cada um dos pontos, relacionando o eixo x
com o eixo y. Como nós dissemos, se "r = 1", então, nós temos uma correlação
positiva perfeita. Se "r = -1", nós temos uma correlação
negativa perfeita. E, se "r = 0", você não tem uma correlação. Mas, para estes dados
bivariados em particular, nós temos que "r = 0,946", o que significa que nós temos
uma correlação positiva bem forte. O que vou fazer neste vídeo é tentar
construir a ideia acerca disso. Eu irei também
encontrar a equação que define a reta de correlação
para esses dados. Antes de fazer isso, vamos observar alguns dados
estatísticos que nós temos aqui. A primeira coisa é que nós temos
quatro pontos de dados plotados. Então, vamos ver os dados
estatísticos para "x". Nós temos aqui a média e temos também
o desvio padrão. A média e o desvio padrão para "x"
estão aqui em vermelho. Deixa eu fazer uma caixa aqui só para identificar
o que estou fazendo. A média de "x" é fácil de calcular, basta somarmos
"1 + 2 + 2 + 3" e dividir por 4: "8 ÷ 4 = 2". Então, temos que "x = 2"
bem aqui. Este aqui é o desvio padrão
acima da média. E aqui é o desvio padrão
abaixo da média. Nós podemos fazer a mesma coisa
para as variáveis "y". Então, esta é a média de "y", este é o desvio padrão
acima da média de "y", e este é o desvio padrão
abaixo da média de "y". Observe a linha das médias, em especial a intersecção
dessas linhas. Observe também o desvio padrão. Essas linhas nos auxiliam
a construir a linha de regressão de forma intuitiva. Então, falando de maneira geral, a equação para a construção
de qualquer linha vai ser: "y = m . x + b", em que isto é a inclinação, e isto vai ser onde
o "y" intercepta a reta. Para a linha de regressão, vamos colocar aqui em cima
um acento circunflexo. Esse acento circunflexo, ou chapéu, é o que irá nos dizer que esta é a fórmula
da nossa linha de regressão. Bom, qual será o valor da inclinação? A inclinação vai ser igual a: "r" vezes o desvio padrão de "y" sobre o desvio padrão de "x". Isso não parece ser
intuitivo à primeira vista, mas estou esperançoso
que eu irei te auxiliar a compreender um pouco melhor. Bom, já sabemos
calcular a inclinação. Mas como vamos calcular o local
onde a reta intercepta o ponto "y"? Exatamente como você
aprendeu em álgebra, você pode calcular onde
a reta intercepta o "y" caso você já saiba a inclinação, caso esse ponto já esteja definido. Bom, mas em qual ponto
a nossa linha vai estar? Esse ponto sempre será o local
onde a média de "x" e a média de "y" se sobrepõem. Ou seja, no ponto em que
essas duas retas se cruzam. Então, a linha deve cruzar esse ponto. Assim como em vídeos anteriores
em que eu calculei valor de "r", vamos pensar o que
está acontecendo aqui. A reta de regressão definitivamente deveria passar no cruzamento
dessas linhas. Claro, isso se nós tivéssemos uma
correlação perfeitamente positiva. Se fosse uma correlação
perfeitamente positiva, a inclinação seria o valor de "r" vezes o desvio padrão de "y" sobre o desvio padrão de "x". Então, nós começaríamos neste ponto, correríamos para o desvio padrão de "x" e subiríamos o desvio padrão de "y". Se a correlação fosse perfeita, a linha de regressão seria assim. E isso faz muito sentido! Se "r" fosse igual a 1, então a inclinação
da nossa reta seria igual ao desvio padrão de "y" sobre o desvio padrão de "x". Existem paralelos com o que
você aprendeu anteriormente sobre a inclinação. Você pode dizer que:
mudando "y", muda "x". Ou seja, se você muda a medida de "y",
você muda a medida de "x". Mas isso será só no caso de "r = 1". Deixa eu escrever isso aqui. Esta reta é no caso de "r = 1". E se "r" fosse igual a 1 negativo? A linha de regressão iria
aparecer como algo assim. Essa seria a nossa linha de
correlação negativa perfeita. Agora, e se "r = 0"? A inclinação seria zero e a linha de regressão seria
igual à média de "y". Seria uma linha mais ou menos assim. Mas agora vamos pensar neste cenário. Neste cenário, "r = 0,946". Então, nós temos uma
correlação bem forte, quase próxima de 1. Se nós pegarmos 0,946 e
multiplicarmos por essa razão, se você estiver deslocando
o desvio padrão de "x", quanto você teria que mover para cima? Quando você move "r"
vezes o desvio padrão de "y", se "r = 1", então o movimento
será perfeito. O movimento será até
o ponto de encontro entre esses dois desvios padrão. Mas aqui é 0,946. Então, você terá que mover
95% desse caminho. Então, nossa linha de regressão, olhando para isso
sem a nossa equação, vai aparecer como algo assim. O que, como você pode ver, é uma boa representação
para esses pontos. Eu não irei provar isso
neste vídeo, mas agora nós temos uma intuição
sobre essas coisas. Bom, agora vamos calcular isto
para estes dados particulares: "m" será igual a "r", que é 0,946, vezes o desvio padrão de "y", que é 2,160, sobre o desvio padrão de "x", que é 0,816. Bom, vamos pegar a calculadora
para calcular isso. Então, nós temos: 0,946 vezes 2,160 dividido por 0,816. Isso vai ser igual a 2,50. Vamos considerar apenas
até a casa dos centésimos para simplificar a equação. Isso vai ser aproximadamente 2,50. E como vamos calcular o ponto onde a reta
intercepta o eixo y? Bom, lembre-se, vamos
retornar a este ponto. Então, nós temos que 2,50 vezes 2, lembre-se que essa
é a média de "x", mais "b", vai ser igual a 3, que é a média de "y". Então, nós temos que
3 vai ser igual a: "5 + b". O que será "b" se eu subtrair
5 dos dois lados? Então, nós temos que "b = -2". Nós temos agora a equação para
a nossa linha de regressão. E "ŷ", esse acento circunflexo
é o que nos diz que esta equação é referente
à linha de regressão, é igual a "2,50 . x - 2". E nós terminamos!