If you're seeing this message, it means we're having trouble loading external resources on our website.

Se você está atrás de um filtro da Web, certifique-se que os domínios *.kastatic.org e *.kasandbox.org estão desbloqueados.

Conteúdo principal

Covariância e a regressão linear

Covariância, variância e a inclinação da regressão linear. Versão original criada por Sal Khan.

Quer participar da conversa?

Você entende inglês? Clique aqui para ver mais debates na versão em inglês do site da Khan Academy.

Transcrição de vídeo

RKA2JV - E aí, pessoal? Neste vídeo, eu vou tentar introduzir para vocês, um pouco melhor, o conceito de covariância. A covariância entre duas variáveis aleatórias é definida como o valor esperado entre a multiplicação, ou produto, entre um ponto no espaço amostral dessa variável aleatória e o seu valor esperado. Então, eu posso escrever isso desta maneira aqui: "x" menos o valor esperado de "x", isso tudo multiplicado por "y", menos o valor esperado de "y". E agora eu posso fechar a chave aqui. Esta é a nossa expressão da covariância. Só deixe-me fazer um pouco, botar estas cores aqui, só para, acho que eu acabei com meu desenho aqui. Deixe-me botar só estas cores para ficar um pouco melhor depois, na hora de vocês enxergarem. E agora a gente pode continuar. Antes de continuar, na verdade, vamos supor que a gente pegue, no nosso espaço amostral, no nosso universo de amostras, a gente pegue um exemplo do nosso valor de "x", um valor, e a gente saiba que, naquele momento, o valor que a gente pegou foi x = 1. E o nosso valor de "y" foi, vamos supor, 3. E a gente sabe que, para aquele momento, o nosso valor esperado de "x" era zero e o nosso valor esperado de "y" era 4. Sendo assim, a gente pode fazer essa multiplicação e a gente chegaria no resultado, por exemplo, de 1 - 0, multiplicado por 3 - 4, ou seja, 1 vezes -1. E isso daria um valor negativo. Então, este ponto "y" estaria abaixo da sua média, porque ele ficou negativo aqui, e este ponto "x" estaria acima. Este nosso exemplo de "x" estaria acima da sua média, porque seu valor deu positivo. Então, a gente pode fazer isso infinitamente, para vários pontos, e sempre vai poder ver que este resultado pode dar positivo, quando forem os dois negativos, por exemplo; pode dar positivo, quando forem os dois positivos, ou pode dar negativo, quando um for positivo e o outro for negativo. Então, só continuando a expandir, a desenvolver esta expressão, a gente pode continuar com E, e agora eu só vou multiplicar entre estes termos aqui, fazer a distributividade aqui, fazer a distribuição. Então, aqui vai dar: valor esperado de "x" vezes "y", isto aqui menos o valor esperado de "y", vezes, menos o valor esperado de "y", vezes "x". Isto aqui, menos o valor esperado de "x", vezes "y". E isto aqui. Agora positivo, porque os dois são negativos. Isto aqui mais o valor esperado de "x" que multiplica o valor esperado de "y", desta maneira aqui. Outra coisa que a gente precisa saber para continuar aqui é a resposta para a seguinte pergunta: qual é o valor esperado do valor esperado de "x"? Nosso valor esperado do valor esperado de "x". Pense no valor esperado de "x" como uma constante, como a média de um número. Vamos supor que eu tenha um valor esperado 6. Qual é o valor esperado do 6? É o próprio 6, porque é a constante. Ele é um número. Ele realmente é uma constante, então, não tem muito o que falar aqui. Então, o valor esperado de um valor esperado é o próprio valor esperado. Sabendo disso, a gente pode começar a aplicar isso. A gente pode começar a separar isso em vários termos menores aqui. Então, isto vai ficar igual, melhor, vou fazer de amarelo. Isto vai ficar igual ao valor esperado de xy. Deixe-me pegar a cor certa, o valor esperado de xy, menos o valor esperado de "y". O valor esperado do valor esperado de "y" é o próprio valor esperado de "y". Então, menos o valor esperado de "y", multiplicado pelo valor esperado de "x", e agora, menos o valor esperado de "x" multiplicado pelo valor esperado de "y". E agora, isto aqui vai dar: mais o valor esperado de "x". Vou fazer o "mais" em amarelo. Vou fazer na cor certa de uma vez. Mais o valor esperado de "x", que multiplica o valor esperado de "y". Desta maneira. Agora, a gente acabou de achar aqui 3 termos. Por exemplo, o valor esperado de "x" que multiplica o valor esperado de "y", o valor esperado de "x" que multiplica o valor esperado de "y", e aqui, também, o valor esperado de "x" que multiplica o valor esperado de "y". Então, a gente tem 3 termos. No caso, dois de um sinal e um de outro. Então, a gente pode acabar cortando um deles. Eu vou cortar, por exemplo, este aqui com este aqui. A gente poderia ter cortado este com este, mas tanto faz a ordem, na verdade. Então, a gente fica só com o valor esperado de xy, menos o valor esperado de "y" multiplicado pelo valor esperado de "x". Ok, então, isto aqui é a nossa covariância. E agora, vamos supor que a gente queira estimar este resultado aqui. Vamos supor que a gente queira estimar quanto vale o valor esperado. Deixe-me fazer de uma cor, fechar esta chave aqui. Então, vamos supor que a gente queira estimar o valor esperado de xy. Como a gente pode proceder? Vocês lembram que, aqui em cima, a gente falou mais ou menos de valor médio, que em estatística a gente pode considerar o valor esperado como sendo um valor médio? Para este caso a gente também pode fazer isso. Então, se a gente quiser estimar isto aqui, a gente pode dizer que isto aqui é a média do produto de xy. Desta maneira aqui. Cuidado, porque não é isto aqui, estes dois são coisas diferentes. É só este que está aqui em cima. É a média do produto de xy. A gente já fez, em alguns vídeos, alguns exemplos usando isto aqui. Então, agora, aplicando isto que a gente acabou de achar aqui, a gente vai descobrir que a nossa covariância é igual à média de xy, deixe-me fazer na cor certa. A média de xy. E quanto é uma estimativa do valor esperado de "y"? É a média de "y". Menos a média de "y", multiplicado pela média de "x". Então, a gente acabou de chegar aqui, em um ótimo resultado, porque este resultado é muito curioso. Eu quero que vocês tentem pensar onde mais que vocês já viram este resultado aqui. Se vocês acompanharam os últimos vídeos, eu encorajo vocês a pausar neste exato momento, porque daqui a uns 5 segundos eu vou dizer onde a gente achou isto aqui. Então, se quiserem pensar, ainda dá tempo. Então, vamos pensar onde que a gente já viu isto aqui. Este valor aqui, deixe-me fazer uma flecha aqui para o lado, é o numerador na nossa equação de descobrir. Na equação que a gente utilizou para descobrir o coeficiente angular da nossa reta de regressão linear. Então, se vocês lembram dos últimos vídeos, a gente achou que o valor de "m" (no caso, o nosso coeficiente angular) era igual à média de xy, menos a média de "x" vezes a média de "y", isto aqui sobre a média de x² menos a média de (x)². Se a gente for analisar bem, então, aqui na parte de cima da nossa expressão do coeficiente angular, aliás, como está tudo o valor médio aqui, a gente pode achar em alguns livros a notação "coeficiente angular médio", com esta notação de acento circunflexo aqui, com este "chapéu" em cima do "m". Na nossa linha de cima, nós vamos ter a covariância entre "x" e "y". E na linha de baixo, o que nós teremos? Vamos pensar na linha de baixo como sendo x², então: a média de "x" vezes "x", menos a média de "x" vezes a média de "x". Vocês conseguem ver uma semelhança entre isto aqui e o que está nesta primeira linha aqui da nossa covariância? Se vocês, por acaso, conseguem ver uma semelhança nisto aqui, é que a gente usou aqui, para esta linha, é como se a gente tivesse feito a covariância entre duas variáveis aleatórias iguais, por exemplo, "x" e "x". Isso daria exatamente esta parte aqui de baixo da nossa expressão para achar o coeficiente angular da reta de regressão linear. E o que isso quer dizer? O que é uma covariância entre uma variável aleatória e uma outra variável aleatória, que no caso é ela mesma? Isso é a mesma coisa que a variância de "x". Então, o motivo pelo qual a gente fez tudo isso aqui e eu mostrei esta equação aqui, eu cheguei até aqui para mostrar que a variância de "x" é a parte de baixo, o denominador da nossa equação para achar o coeficiente angular. E aqui, agora, a gente pode realmente observar que, no final, a nossa expressão para achar o coeficiente angular da reta de regressão linear é igual à covariância de "x" e "y" dividido pela variância de "x". Eu espero ver vocês nos próximos vídeos, e espero que este vídeo tenha ajudado vocês. Até a próxima, pessoal!