If you're seeing this message, it means we're having trouble loading external resources on our website.

Se você está atrás de um filtro da Web, certifique-se que os domínios *.kastatic.org e *.kasandbox.org estão desbloqueados.

Conteúdo principal

Cálculo da equação de uma reta de regressão

Cálculo da equação de uma reta de regressão de mínimos quadrados. Raciocínio que explica a consistência dessa equação.

Quer participar da conversa?

Nenhuma postagem por enquanto.
Você entende inglês? Clique aqui para ver mais debates na versão em inglês do site da Khan Academy.

Transcrição de vídeo

RKA14C Em vídeos anteriores, nós plotamos estes dados neste gráfico e calculamos o coeficiente de correlação "r". Apenas como uma forma de revisar, nós temos a fórmula aqui. Ela parece um pouco intimidadora, mas, no vídeo anterior, vimos que isto é o produto, a multiplicação dos escores "z" para cada um dos pontos, relacionando o eixo x com o eixo y. Como nós dissemos, se "r = 1", então, nós temos uma correlação positiva perfeita. Se "r = -1", nós temos uma correlação negativa perfeita. E, se "r = 0", você não tem uma correlação. Mas, para estes dados bivariados em particular, nós temos que "r = 0,946", o que significa que nós temos uma correlação positiva bem forte. O que vou fazer neste vídeo é tentar construir a ideia acerca disso. Eu irei também encontrar a equação que define a reta de correlação para esses dados. Antes de fazer isso, vamos observar alguns dados estatísticos que nós temos aqui. A primeira coisa é que nós temos quatro pontos de dados plotados. Então, vamos ver os dados estatísticos para "x". Nós temos aqui a média e temos também o desvio padrão. A média e o desvio padrão para "x" estão aqui em vermelho. Deixa eu fazer uma caixa aqui só para identificar o que estou fazendo. A média de "x" é fácil de calcular, basta somarmos "1 + 2 + 2 + 3" e dividir por 4: "8 ÷ 4 = 2". Então, temos que "x = 2" bem aqui. Este aqui é o desvio padrão acima da média. E aqui é o desvio padrão abaixo da média. Nós podemos fazer a mesma coisa para as variáveis "y". Então, esta é a média de "y", este é o desvio padrão acima da média de "y", e este é o desvio padrão abaixo da média de "y". Observe a linha das médias, em especial a intersecção dessas linhas. Observe também o desvio padrão. Essas linhas nos auxiliam a construir a linha de regressão de forma intuitiva. Então, falando de maneira geral, a equação para a construção de qualquer linha vai ser: "y = m . x + b", em que isto é a inclinação, e isto vai ser onde o "y" intercepta a reta. Para a linha de regressão, vamos colocar aqui em cima um acento circunflexo. Esse acento circunflexo, ou chapéu, é o que irá nos dizer que esta é a fórmula da nossa linha de regressão. Bom, qual será o valor da inclinação? A inclinação vai ser igual a: "r" vezes o desvio padrão de "y" sobre o desvio padrão de "x". Isso não parece ser intuitivo à primeira vista, mas estou esperançoso que eu irei te auxiliar a compreender um pouco melhor. Bom, já sabemos calcular a inclinação. Mas como vamos calcular o local onde a reta intercepta o ponto "y"? Exatamente como você aprendeu em álgebra, você pode calcular onde a reta intercepta o "y" caso você já saiba a inclinação, caso esse ponto já esteja definido. Bom, mas em qual ponto a nossa linha vai estar? Esse ponto sempre será o local onde a média de "x" e a média de "y" se sobrepõem. Ou seja, no ponto em que essas duas retas se cruzam. Então, a linha deve cruzar esse ponto. Assim como em vídeos anteriores em que eu calculei valor de "r", vamos pensar o que está acontecendo aqui. A reta de regressão definitivamente deveria passar no cruzamento dessas linhas. Claro, isso se nós tivéssemos uma correlação perfeitamente positiva. Se fosse uma correlação perfeitamente positiva, a inclinação seria o valor de "r" vezes o desvio padrão de "y" sobre o desvio padrão de "x". Então, nós começaríamos neste ponto, correríamos para o desvio padrão de "x" e subiríamos o desvio padrão de "y". Se a correlação fosse perfeita, a linha de regressão seria assim. E isso faz muito sentido! Se "r" fosse igual a 1, então a inclinação da nossa reta seria igual ao desvio padrão de "y" sobre o desvio padrão de "x". Existem paralelos com o que você aprendeu anteriormente sobre a inclinação. Você pode dizer que: mudando "y", muda "x". Ou seja, se você muda a medida de "y", você muda a medida de "x". Mas isso será só no caso de "r = 1". Deixa eu escrever isso aqui. Esta reta é no caso de "r = 1". E se "r" fosse igual a 1 negativo? A linha de regressão iria aparecer como algo assim. Essa seria a nossa linha de correlação negativa perfeita. Agora, e se "r = 0"? A inclinação seria zero e a linha de regressão seria igual à média de "y". Seria uma linha mais ou menos assim. Mas agora vamos pensar neste cenário. Neste cenário, "r = 0,946". Então, nós temos uma correlação bem forte, quase próxima de 1. Se nós pegarmos 0,946 e multiplicarmos por essa razão, se você estiver deslocando o desvio padrão de "x", quanto você teria que mover para cima? Quando você move "r" vezes o desvio padrão de "y", se "r = 1", então o movimento será perfeito. O movimento será até o ponto de encontro entre esses dois desvios padrão. Mas aqui é 0,946. Então, você terá que mover 95% desse caminho. Então, nossa linha de regressão, olhando para isso sem a nossa equação, vai aparecer como algo assim. O que, como você pode ver, é uma boa representação para esses pontos. Eu não irei provar isso neste vídeo, mas agora nós temos uma intuição sobre essas coisas. Bom, agora vamos calcular isto para estes dados particulares: "m" será igual a "r", que é 0,946, vezes o desvio padrão de "y", que é 2,160, sobre o desvio padrão de "x", que é 0,816. Bom, vamos pegar a calculadora para calcular isso. Então, nós temos: 0,946 vezes 2,160 dividido por 0,816. Isso vai ser igual a 2,50. Vamos considerar apenas até a casa dos centésimos para simplificar a equação. Isso vai ser aproximadamente 2,50. E como vamos calcular o ponto onde a reta intercepta o eixo y? Bom, lembre-se, vamos retornar a este ponto. Então, nós temos que 2,50 vezes 2, lembre-se que essa é a média de "x", mais "b", vai ser igual a 3, que é a média de "y". Então, nós temos que 3 vai ser igual a: "5 + b". O que será "b" se eu subtrair 5 dos dois lados? Então, nós temos que "b = -2". Nós temos agora a equação para a nossa linha de regressão. E "ŷ", esse acento circunflexo é o que nos diz que esta equação é referente à linha de regressão, é igual a "2,50 . x - 2". E nós terminamos!