Conteúdo principal
Estatística Avançada
Curso: Estatística Avançada > Unidade 5
Lição 5: Como analisar afastamentos da linearidade- Raciocínio para o R²
- R² ou coeficiente de determinação
- Desvio-padrão dos resíduos ou raiz do quadrado médio do desvio (RQMD)
- Como interpretar dados de regressão de computador
- Interpretação da regressão de um cálculo de computador
- Impacto da remoção de outliers em retas de regressão
- Pontos influentes na regressão
- Efeitos de pontos influentes
- Identifique pontos influentes
- Como transformar dados não lineares
- Exemplo de regressão linear usando dados transformados
- Faça uma previsão com dados transformados
© 2023 Khan AcademyTermos de usoPolítica de privacidadeAviso de cookies
R² ou coeficiente de determinação
R² ou coeficiente de determinação. Versão original criada por Sal Khan.
Quer participar da conversa?
- o que significa r² no valor de 0,0132(1 voto)
Transcrição de vídeo
RKA2 - Então, só
fazendo uma pequena lembrança do que a gente
estava vendo nos últimos vídeos. A gente viu, vou desenhar
um gráfico aqui para ilustrar isso. A gente viu que, quando a gente tem
alguns pontos desenhados no gráfico, por exemplo, aqui
eu vou ter um ponto (x₁, y₁). E vou ter outro
ponto aqui: (x₂, y₂). Aí eu posso ter vários outros
pontos separados, jogados aleatoriamente aqui, e até o meu ponto
lá em cima, o ponto (xₙ, yₙ). A gente viu que consegue
calcular uma reta, que seria, neste caso,
mais ou menos assim, acredito eu. A gente consegue calcular uma reta,
vamos supor que ela fosse assim. A gente conseguiria calcular essa reta,
a inclinação, a equação dessa reta, que teria a equação:
y = mx + b. A gente conseguiria calcular
a equação dessa reta e descobrir, a partir dela,
por exemplo, a reta que melhor caberia
entre esses pontos com o menor erro
(no caso, a menor distância quadrada) entre o ponto
e a reta. Então, aqui, por exemplo,
eu teria o erro 1, aqui eu teria o erro 2,
aqui eu teria o erro 3, nos outros pontos também
teria erros, por exemplo. Só que essa reta estaria
colocada em uma posição em que o erro total
seria o menor possível. A gente pode montar
a equação dessa reta, que nos outros vídeos eu usei como "e²",
me referindo a erro quadrado, mas neste vídeo eu vou usar a notação
em inglês, que vem de "squared error". Então, eu vou
usar aqui SE. Então, o SE
da reta (no caso, o erro quadrado da reta)
é igual a: y₁, menos,
a variação deste erro 1 (a soma de todos os erros, no caso)
vai ser, então: y₁, menos o "y"
deste ponto da reta, que vai ser justamente esta mesma
equação quando este "x" for o x₁. Então, isto aqui
menos (mx₁ + b), isto aqui mais
y₂ - (mx₂ + b), e isto aqui a gente
pode somar, e ir somando todos
os pontos que a gente tiver até chegar no ponto yₙ,
que vai ser yₙ aqui, menos, e aqui vai ter
(mxₙ + b). E isto aqui todos estes
termos vão ser quadrados, porque este é
o nosso erro quadrado, é o nosso método
de comparação, digamos. Então, agora a gente pode
fazer a seguinte pergunta: quanto da variação em "x", ou melhor,
quanto da variação em "y" é correspondida pela variação
em "x"? Então, basicamente, o que
a gente está perguntando aqui é: quanto da variação em porcentagem,
deixe-me botar aqui. Quanto da variação
em porcentagem. Quanto da variação em "y"
é correspondida pela variação em "x"? Então, correspondida
ou descrita pela variação em "x". A gente vai ter, por exemplo,
uma variação em "y" que seria
justamente este erro, esta distância aqui entre
o nosso ponto "y" e o "y" da reta, só que a gente também
vai ter uma variação em "x", o que é justamente
o que vai formar essa reta. Então, se a gente quiser saber
quanto da variação total, deixe-me colocar aqui,
quanto da variação total em "y" é correspondida pela
variação em "x", a gente pode começar
escrevendo a variação total. Então, a
variação total. A variação
total de "y". Se a gente fosse pensar
em termos de estatística, a melhor forma de a gente
fazer isso seria utilizando a média aritmética
dos valores de "y" (porque a gente está procurando
a variação total dos valores de "y"). Então, imagine
que a gente pegasse todos esses valores de "y"
que estão aqui no gráfico e pegasse o valor
médio deles. Então, a gente teria uma reta,
vou desenhar aqui neste gráfico. A gente teria, por exemplo, uma reta,
vamos supor que fosse aqui. Uma reta do
valor médio de "y", que seria alguma coisa
mais ou menos assim. Seria constante
esse valor médio. E no caso, a nossa
variação total de "y" seria sempre a distância
entre o nosso ponto e a nossa reta
do valor médio de "y". Então, por exemplo, a nossa
distância aqui seria isso tudo, a nossa distância neste ponto aqui
seria isto, neste ponto aqui seria isto, neste ponto aqui
seria isto, E assim a gente vai fazendo,
como se fosse com esta reta aqui, só que no caso a gente
está usando uma reta, uma constante
do valor médio de "y". E isso seria descrito pela fórmula:
(y₁ menos o valor médio de "y")², isto somado com
(y₂ menos a média de "y")², e isto aqui vai até chegar ao nosso
(yₙ menos o valor médio de "y")². Isso que a gente acabou de fazer
aqui, essa variação total de "y", também pode ser chamada de,
vou escrever aqui, também pode ser chamada
de erro quadrado total da variação "y". Então, a gente acabou de calcular
aqui o nosso erro quadrado com o nosso
"y" médio. E agora, só buscando cada vez
mais responder essa nossa pergunta de quanto da variação em "y"
é correspondida pela variação em "x", a gente precisa responder
outra pergunta antes. Quanto da variação total não é descrita, não é descrita pela linha,
pela regressão linear? Quanto da variação total
não é descrita pela linha? Isso a gente tem aqui,
estes valores. Quando a gente quer, por exemplo,
saber quanto da variação em "y" é correspondida
pela variação em "x", nós temos o valor
de quanto da variação em "y" não é correspondida
pela variação em "x", que é justamente
este valor aqui. É este valor do erro
quadrado da reta, que nos diz o erro
em relação a "x". E também, nós temos
agora este valor aqui, que seria o erro quadrado
para nosso "y" médio. Então, se a gente quiser
saber a porcentagem de quanto da variação total
(em porcentagem) não é descrita
pela linha, a gente pode simplesmente
fazer uma relação entre, vou botar aqui
um quociente, vou botar o erro quadrado
do valor médio de "y" embaixo, e em cima a gente coloca justamente
este nosso valor do erro quadrado da reta. Então, ficaria nosso
erro quadrado da reta. E, mesmo assim, isto aqui
que a gente acabou de olhar aqui vai nos dar o valor de quanto da
variação total não é descrito pela linha. Então, este valor aqui, por exemplo,
nunca vai ser maior do que 1. 1 seria 100%,
no caso. É uma relação,
então seria uma porcentagem do resultado desta fração,
se a gente fizesse dessa maneira. Então, a gente pode ter, por exemplo,
um número cada vez mais próximo de 1, o que significa que o erro quadrado
da reta está cada vez mais próximo desse nosso erro
quadrado do "y" médio, ou a gente pode, também,
ter um valor muito pequeno aqui, que diz que o erro foi muito pequeno. Então, a reta quase é descrita
de uma maneira mais fácil. E agora, a gente pode responder,
finalmente, a esta nossa pergunta aqui: quanto da variação em "y" é correspondida
pela variação em "x", em porcentagem? Então, se isto aqui descreve
quanto da variação em "y" não é descrita
pela linha, o que sobra
é descrito pela linha. Vamos supor que
isto aqui fosse 30%. 30% da variação total
não é descrita pela linha. Então, quanto por cento
vai ser descrito pela linha? Seria 70%, ou seja,
1 menos 30% (100% - 30%). Então, a gente consegue
descobrir que a nossa, o quanto da variação em "y" correspondido
pela variação em "x" é igual a: 1 menos o erro
quadrado da reta, sobre o erro quadrado
do valor médio de "y". E isto aqui, os nossos amigos
matemáticos resolveram chamar de: coeficiente
de determinação. Ou ainda, vocês já devem ter conhecido,
se vocês já viram isto aqui, vocês já devem ter conhecido
isto aqui pelo nome r². Então, r² é a relação
entre o total e o quanto da variação total
não é descrito pela linha. Agora, só vamos
imaginar um pouquinho. Se este nosso valor, o nosso erro
quadrado da reta, for muito pequeno, eu vou escrever isso aqui,
se o erro quadrado da reta for pequeno, o que acontece com o nosso
coeficiente de determinação? Se o erro for pequeno, isto aqui
vai ser uma fração muito, muito pequena, e este valor vai ser
muito próximo de 1, porque 1 menos uma coisa
pequena vai ser quase 1. Então, o nosso r²
vai ser grande. Vai ser grande,
no caso, próximo de 1. E isso significa que a linha
coube bem entre os pontos, foi uma
boa aproximação. Aquela linha,
digamos, é confiável. E, se o valor do nosso erro quadrado
da reta for grande, esse valor vai ser cada vez
mais próximo do total, que no caso seria cada vez
mais próximo de 1, e isto aqui ficaria
1 - 1, por exemplo, ou 1 menos um número
muito perto de 1, e o r² seria
muito grande. Então, se o nosso erro quadrado
da reta for grande, então, o r² vai ser
próximo de zero. Então, uma maneira legal
de pensar nisto aqui é como se o coeficiente
de determinação fosse o quão precisa a reta que
a gente acabou de descobrir seria para descrever todos
aqueles pontos que estão lá. Então, este foi
o vídeo de hoje. Eu sei que isso
ficou muito abstrato, mas nos próximos vídeos
a gente vai fazer com exemplos, vou deixar um pouco
mais fácil de entender. Muito obrigado por ter
assistido até aqui, e até os
próximos vídeos!