Conteúdo principal
Curso: Estatística e probabilidade > Unidade 5
Lição 6: Mais sobre regressão- Erro ao quadrado da regressão linear
- Demonstração (parte 1) minimização de erro quadrado para regressão linear
- Demonstração (parte 2) minimização do erro quadrado da regressão linear
- Demonstração (parte 3) minimização do erro quadrado da regressão linear
- Demonstração (parte 4) minimização do erro quadrado da regressão linear
- Exemplo de regressão linear
- Segundo exemplo de regressão
- Calculando R²
- Covariância e a regressão linear
© 2024 Khan AcademyTermos de usoPolítica de privacidadeAviso de cookies
Covariância e a regressão linear
Covariância, variância e a inclinação da regressão linear. Versão original criada por Sal Khan.
Quer participar da conversa?
- Para quê serve a Covariancia? E qual a diferença entre a mesma e a Variancia?(6 votos)
- Onde posso encontrar material adicional (e de qualidade, como o de vocês!!) sobre regressão linear múltipla?(5 votos)
- Conceito é importante. Para que serve?
Apenas transformar equações em outras equações não ensina nada.(0 votos)
Transcrição de vídeo
RKA2JV - E aí,
pessoal? Neste vídeo, eu vou tentar introduzir
para vocês, um pouco melhor, o conceito
de covariância. A covariância entre
duas variáveis aleatórias é definida como
o valor esperado entre a multiplicação,
ou produto, entre um ponto no espaço amostral
dessa variável aleatória e o seu
valor esperado. Então, eu posso escrever
isso desta maneira aqui: "x" menos o valor
esperado de "x", isso tudo
multiplicado por "y", menos o valor
esperado de "y". E agora eu posso
fechar a chave aqui. Esta é a nossa
expressão da covariância. Só deixe-me
fazer um pouco, botar estas cores
aqui, só para, acho que eu acabei
com meu desenho aqui. Deixe-me botar só estas cores
para ficar um pouco melhor depois, na hora de
vocês enxergarem. E agora a gente
pode continuar. Antes de continuar,
na verdade, vamos supor que a gente pegue,
no nosso espaço amostral, no nosso universo
de amostras, a gente pegue um exemplo
do nosso valor de "x", um valor, e a gente saiba que, naquele momento,
o valor que a gente pegou foi x = 1. E o nosso valor de "y" foi,
vamos supor, 3. E a gente sabe que, para aquele momento,
o nosso valor esperado de "x" era zero e o nosso valor
esperado de "y" era 4. Sendo assim, a gente
pode fazer essa multiplicação e a gente chegaria no resultado,
por exemplo, de 1 - 0, multiplicado por 3 - 4,
ou seja, 1 vezes -1. E isso daria
um valor negativo. Então, este ponto "y"
estaria abaixo da sua média, porque ele ficou
negativo aqui, e este ponto "x"
estaria acima. Este nosso
exemplo de "x" estaria acima da sua média,
porque seu valor deu positivo. Então, a gente pode fazer isso
infinitamente, para vários pontos, e sempre vai poder ver que
este resultado pode dar positivo, quando forem os dois
negativos, por exemplo; pode dar positivo, quando
forem os dois positivos, ou pode dar negativo, quando um for
positivo e o outro for negativo. Então, só continuando a expandir,
a desenvolver esta expressão, a gente pode
continuar com E, e agora eu só vou multiplicar
entre estes termos aqui, fazer a distributividade aqui,
fazer a distribuição. Então, aqui vai dar:
valor esperado de "x" vezes "y", isto aqui menos
o valor esperado de "y", vezes, menos o valor
esperado de "y", vezes "x". Isto aqui, menos o valor
esperado de "x", vezes "y". E isto aqui. Agora positivo, porque
os dois são negativos. Isto aqui mais
o valor esperado de "x" que multiplica o valor esperado
de "y", desta maneira aqui. Outra coisa que a gente precisa
saber para continuar aqui é a resposta para
a seguinte pergunta: qual é o valor esperado
do valor esperado de "x"? Nosso valor esperado
do valor esperado de "x". Pense no valor
esperado de "x" como uma constante,
como a média de um número. Vamos supor que eu tenha
um valor esperado 6. Qual é o valor
esperado do 6? É o próprio 6,
porque é a constante. Ele é um número. Ele realmente é uma constante, então,
não tem muito o que falar aqui. Então, o valor esperado de um valor
esperado é o próprio valor esperado. Sabendo disso, a gente pode
começar a aplicar isso. A gente pode começar a separar isso
em vários termos menores aqui. Então, isto vai ficar igual, melhor, vou
fazer de amarelo. Isto vai ficar igual ao
valor esperado de xy. Deixe-me pegar
a cor certa, o valor esperado de xy, menos o valor
esperado de "y". O valor esperado do valor esperado de "y"
é o próprio valor esperado de "y". Então, menos o valor
esperado de "y", multiplicado pelo
valor esperado de "x", e agora, menos
o valor esperado de "x" multiplicado pelo
valor esperado de "y". E agora, isto aqui vai dar:
mais o valor esperado de "x". Vou fazer o "mais"
em amarelo. Vou fazer na cor
certa de uma vez. Mais o valor esperado de "x",
que multiplica o valor esperado de "y". Desta maneira. Agora, a gente acabou
de achar aqui 3 termos. Por exemplo, o valor esperado de "x"
que multiplica o valor esperado de "y", o valor esperado de "x" que multiplica
o valor esperado de "y", e aqui, também, o valor esperado de "x"
que multiplica o valor esperado de "y". Então, a gente tem 3 termos.
No caso, dois de um sinal e um de outro. Então, a gente pode acabar
cortando um deles. Eu vou cortar, por exemplo,
este aqui com este aqui. A gente poderia ter
cortado este com este, mas tanto faz a ordem,
na verdade. Então, a gente fica só com
o valor esperado de xy, menos o valor
esperado de "y" multiplicado pelo
valor esperado de "x". Ok, então, isto aqui
é a nossa covariância. E agora, vamos supor que a gente
queira estimar este resultado aqui. Vamos supor que a gente queira estimar
quanto vale o valor esperado. Deixe-me fazer de uma cor,
fechar esta chave aqui. Então, vamos supor que
a gente queira estimar o valor
esperado de xy. Como a gente
pode proceder? Vocês lembram que,
aqui em cima, a gente falou mais
ou menos de valor médio, que em estatística a gente pode
considerar o valor esperado como sendo
um valor médio? Para este caso a gente
também pode fazer isso. Então, se a gente quiser
estimar isto aqui, a gente pode dizer que isto aqui
é a média do produto de xy. Desta maneira aqui. Cuidado, porque
não é isto aqui, estes dois são
coisas diferentes. É só este que está
aqui em cima. É a média do
produto de xy. A gente já fez, em alguns vídeos,
alguns exemplos usando isto aqui. Então, agora, aplicando isto que
a gente acabou de achar aqui, a gente vai descobrir
que a nossa covariância é igual à média de xy,
deixe-me fazer na cor certa. A média de xy. E quanto é uma estimativa
do valor esperado de "y"? É a média de "y".
Menos a média de "y", multiplicado pela
média de "x". Então, a gente acabou de chegar
aqui, em um ótimo resultado, porque este resultado
é muito curioso. Eu quero que vocês
tentem pensar onde mais que vocês já viram
este resultado aqui. Se vocês acompanharam
os últimos vídeos, eu encorajo vocês a pausar
neste exato momento, porque daqui
a uns 5 segundos eu vou dizer onde
a gente achou isto aqui. Então, se quiserem pensar,
ainda dá tempo. Então, vamos pensar onde
que a gente já viu isto aqui. Este valor aqui, deixe-me fazer uma
flecha aqui para o lado, é o numerador na nossa equação
de descobrir. Na equação que a gente
utilizou para descobrir o coeficiente angular da nossa
reta de regressão linear. Então, se vocês lembram
dos últimos vídeos, a gente achou que
o valor de "m" (no caso, o nosso
coeficiente angular) era igual
à média de xy, menos a média de "x"
vezes a média de "y", isto aqui sobre
a média de x² menos a
média de (x)². Se a gente for
analisar bem, então, aqui na parte de cima da nossa
expressão do coeficiente angular, aliás, como está tudo
o valor médio aqui, a gente pode achar em alguns livros
a notação "coeficiente angular médio", com esta notação de
acento circunflexo aqui, com este "chapéu"
em cima do "m". Na nossa linha de cima,
nós vamos ter a covariância entre "x" e "y". E na linha de baixo,
o que nós teremos? Vamos pensar na linha de baixo
como sendo x², então: a média de "x"
vezes "x", menos a média de "x"
vezes a média de "x". Vocês conseguem ver uma
semelhança entre isto aqui e o que está nesta primeira linha
aqui da nossa covariância? Se vocês, por acaso, conseguem
ver uma semelhança nisto aqui, é que a gente usou aqui,
para esta linha, é como se a gente tivesse
feito a covariância entre duas variáveis
aleatórias iguais, por exemplo,
"x" e "x". Isso daria exatamente
esta parte aqui de baixo da nossa expressão para
achar o coeficiente angular da reta de
regressão linear. E o que isso
quer dizer? O que é uma covariância
entre uma variável aleatória e uma outra variável aleatória,
que no caso é ela mesma? Isso é a mesma coisa
que a variância de "x". Então, o motivo pelo qual
a gente fez tudo isso aqui e eu mostrei esta equação aqui,
eu cheguei até aqui para mostrar que a variância de "x"
é a parte de baixo, o denominador da nossa equação para
achar o coeficiente angular. E aqui, agora, a gente pode
realmente observar que, no final, a nossa expressão para
achar o coeficiente angular da reta de
regressão linear é igual à covariância
de "x" e "y" dividido pela
variância de "x". Eu espero ver vocês
nos próximos vídeos, e espero que este vídeo
tenha ajudado vocês. Até a próxima,
pessoal!