If you're seeing this message, it means we're having trouble loading external resources on our website.

Se você está atrás de um filtro da Web, certifique-se que os domínios *.kastatic.org e *.kasandbox.org estão desbloqueados.

Conteúdo principal

Exemplo: intuição sobre o coeficiente de correlação

Neste vídeo, explicamos a intuição por trás de coeficientes de correlação e resolvemos um problema em que combinamos coeficientes de correlação com diagramas de dispersão.

Quer participar da conversa?

Você entende inglês? Clique aqui para ver mais debates na versão em inglês do site da Khan Academy.

Transcrição de vídeo

[LEGENDA AUTOMÁTICA] nesse vídeo aqui eu retirei um exercício sobre intuição sobre coeficiente de correlação entre duas variáveis é que esse exercício você pode encontrar na própria página da quem academia mas o que seria esse coeficiente de correlação o coeficiente de correlação indica pra gente é a qualidade de um modelo linear ou seja qualidade na qual duas variáveis estão correlacionados então por exemplo que eu tenho diversos coeficientes de correlação e aqui eu tenho diversos diagramas de dispersão a gente pode perceber que nesses diagramas de dispersão a gente pode colocar modelos lineares aqui e esses modelos lineares podem estar bem adequados ou não para esses diagramas e quem vai indicar isso é o nosso coeficiente de correlação agora o objetivo desse vídeo não é aprender a calcular esses coeficientes de correlação mas sim utilizar nossa intuição para saber como cada um desses diagramas aqui se relaciona com esses coeficientes que estão apresentados aqui mas antes de fazer isso vamos dar uma olhada em alguns exemplos vamos imaginar que a gente tem aqui um sistema de coordenadas na qual aqui a gente tem a variável x e aqui a gente tenha variável y é a gente vai relacionar essas duas variáveis aqui então vamos imaginar que essas duas variáveis estejam relacionadas desse jeito aqui tem um ponto aqui tem outro ponto e aqui tem outro ponto a gente consegue perceber que existe uma certa linearidade aqui não é então a gente consegue traçar uma reta que e ver que esses pontos se ajustam muito bem a essa reta a gente também consegue perceber que à medida que essa variável x aumenta essa variável y também vai aumentar ou seja elas são coisas diretamente proporcionais quando uma aumenta a outra aumenta e nesse caso aqui quando esses pontos sérgio estão muito bem ao modelo linear e quando há essa proporcionalidade que o seja quando um aumenta o outro também aumenta a gente pode dizer que esse coeficiente de correlação r é igual a 1 agora qual seria a cara de um coeficiente de correlação negativa vamos colocar aqui novamente nosso sistema de coordenadas qual a gente tem aqui a variável x e aqui a gente tem a variável y vamos dizer que aqui também a gente tem uma correlação muito clara entre essas duas variáveis ou seja gente vai ter uma linearidade muito boa ea gente vai poder aplicar o modelo linear a essa distribuição de pontos aqui então vamos imaginar que a gente começa aqui nesse ponto vem pra cá e aqui a gente encontra um outro ponto certo então a gente percebe que tem uma linearidade muito boa que se a gente traçar uma reta de fato a gente consegue essa reta que decrescente na qual todos os pontos estão bem relacionados porém enquanto x aumento enquanto a variável x aumenta a variável y diminui ou seja a gente tem uma relação à que inversamente proporcional e aí quando temos um caso desse mesmo tendo essa correlação muito boa entre x e y os dois vão estar lá andando com sentido contrário ou seja enquanto aumenta o outro diminui e aí nesse caso o nosso coeficiente de correlação será igual a -1 agora qual seria o caso em que a gente tem um coeficiente de correlação igual a zero nesses dois casos que vimos aqui o modelo linear consegue descrever muito bem a relação entre esses dados certo tanto aqui só que no caso crescente quanto aqui no caso de crescente e vamos dizer agora que a gente tenha esse sistema de coordenadas aqui tá na qual a gente tem aqui o x e um y essas duas variáveis se relacionando só que a distribuição de pontos poderia ser desse jeito aqui a gente tem um ponto aqui outro aqui outro aqui outro aqui outro aqui outro aqui outro aqui outra que outro aqui claro está que nem precisaria ser tão organizado do jeito que eu coloquei aqui poderia ser ainda mais bagunçado mas desse jeito que fica muito difícil aplicar uma linha a esse ponto certo você não consegue aplicar o modelo linear a essa distribuição de pontos a gente poderia por exemplo traçar uma linha crescente uma decrescente uma na horizontal tudo desse jeito aqui e aí como podemos perceber a gente não conseguiria saber exatamente qual o modelo linear que a gente poderia aplicar nessa distribuição de pontos não é por esse motivo a gente diz que esse coeficiente de correlação é igual a zero então conseguiu compreender quando o coeficiente de correlação for igual a um ou mais próximo de 1 significa que a relação entre as duas variáveis é muito boa e aí a gente consegue aplicar o modelo linear muito bem a essa distribuição de pontos no caso quando é foi igual ao menos um agente vai ter também um modelo linear muito bem ajustado ao essa distribuição de pontos só que nesse caso a gente vai encontrar uma reta decrescente e quando a gente tem um r qual a zero significa que não existe nenhuma correlação entre essas duas variáveis ok agora se baseado nessas idéias que vamos tentar resolver o nosso problema o nosso primeiro diagrama de dispersão aqui a gente consegue perceber de cara que esses pontos aqui estão decrescendo certo então se a gente fosse lineares a isso se já aplicar o modelo linear a essa distribuição de pontos a gente teria algo parecido com isso aqui pra gente minimizar a distância entre esses pontos aqui então a gente teria algo muito similar a isso então observando esse modelo linear já indicara gente percebe que o nosso r é negativo já que se trata de uma linha decrescente ou seja à medida que o x aumenta o y diminui então vamos observar que dentre os nossos valores de r qual que vai se adequar a essa distribuição de pontos não podemos ter aqui é igual a 0,65 a r 0,84 porque esses dois valores aqui são positivos ea gente teria que ter uma reta crescente nesse caso a gente também não pode ter aqui um é igual a menos 0,02 porque apesar desse valor ser negativo a gente tem uma correlação aqui muito boa entre esses pontos não é e aqui nós temos um valor muito próximo de zero indicando que a correlação entre as duas variáveis é que quase não existe não é tão dentre as quatro possibilidades que nós temos aqui aqui eu me sinto mais à vontade em relacionar com esse diagrama esse - 0,72 a gente tem aqui o negativo indicando que a gente tem uma reta de crescente ea gente tem um valor razoável mente próximo a um certo indicando que existe uma correlação até muito boa dessas duas variáveis não é 100% mas pelo menos há uma correlação que dá pra gente aplicar o modelo linear de forma tranquila então esse coeficiente de correlação é rick é igual a menos 0 e regular 72 claro que se eu não tivesse essas opções aqui eu não teria como chegar a esse valor sem fazer os devidos cálculos já que nós estamos utilizando a nossa intuição para chegar essa resposta aqui mas eu poderia pelo menos dizer que se trata de um coeficiente negativo que a gente tem uma correlação assim até bem razoável entre as duas variáveis então dentre essas opções já utilizamos essa daqui observando agora o nosso segundo diagrama de dispersão e usando novamente os nossos olhos aqui para tentar correlacionar essas duas variáveis eu poderia colocar novamente é que uma reta dessa forma que já que a reta que mais se ajusta à essa distribuição de pontos de fato a gente até consegue perceber que têm pontos sobre essa linha ea gente tem alguns pontos aqui com uma certa distância dessa linha de tendência certo agora já que a gente tem uma reta crescente na qual quando x aumenta o y também aumenta o nosso r vai ser positivo então isso daqui é fato a gente vai ter um coeficiente de correlação positivo dentre as nossas opções aqui a gente tem um 0,65 eo 0,84 0,02 e negativo então não se adéqua essa distribuição de pontos aqui então temos esses dois aqui só que apenas pela nossa intuição eu não saberia dizer qual desses dois coeficientes de correlação que se ajusta essa distribuição de pontos então a única coisa que eu posso dizer até o momento é que esse é igual a 0,65 ou o qr é igual a 0,84 então pode ser uma dessas duas opções mas vamos continuar vendo os outros pra ver se a gente consegue anular uma dessas opções aqui depois temos agora o nosso diagrama de dispersão se observando essa distribuição entre esses pontos é que essa dispersão entre eles a gente não consegue chegar uma correlação muito boa entre o y yo x não é a gente nem poderia dizer se essa reta crescente ou decrescente ou uma reta horizontal então a gente poderia ter diversos modelos lineares sendo aplicado há essa distribuição de ponto ou seja não existe uma correlação muito clara entre a variável y ea variável x pelo fato de não ter essa correlação muito clara entre essas duas variáveis a gente pode dizer que o nosso coeficiente de correlação é algo muito próximo a zero então eu poderia dizer que dentre as três opções que temos aqui a única opção que tem um coeficiente de correlação muito próximo a zero é esse daqui - 0,02 então podemos dizer que esse coeficiente de correlação r aqui é igual a menos 0,02 na verdade a gente pode até aplicar o modelo linear já sabendo disso aqui não é gente já paga isso daqui e coloca algo mais ou menos parecido com esse claro poderia ser vários aqui né na verdade não dá pra dizer muito bem como que essa reta mas a gente sabe que é decrescente graças a esse coeficiente de correlação negativa aqui então já utilizamos esse valor aqui temos apenas esse estúdio vamos observar agora o nosso diagrama de dispersão de como podemos observar nós temos essa distribuição entre esses pontos aqui certo mas se você observar bem essa dispersão entre esses pontos indica pra gente que nós estamos falando de um r positivo já que a gente vai encontrar uma reta crescente aqui mais ou menos desse jeito já que essa distribuição está mostrando que quanto maior for a variável x maior será variável y então a gente tem aqui um r positivo só que qual desses dois é rivais se aplicado esse diagrama de dispersão nem a gente tem esses dois valores aqui certo se você perceber bem neste diagrama b aqui a gente tem os pontos que estão nessa linha de tendência e tem alguns que estão afastados aqui dessa reta no entanto no diagrama de a gente quase não tem nenhum ponto nessa linha além do mais a gente tem pontos que estão bem mais afastados dessa linha de tendência então a distância é ainda maior então a gente pode dizer que a correlação entre as variáveis x e y do diagrama de dispersão b é melhor do que a correlação entre as variáveis y e x do diagrama de dispersão de dessa forma posso falar pra você com muita segurança que o maior coeficiente de correlação dentre esses dois se aplica a esse diagrama que então cortar ia esse 0,65 e deixariam 0,84 para esse diagrama b e para esse diagrama de eu diria que o coeficiente de correlação é igual a 0,65 novamente o motivo de ter feito essa escolha é por que esses pontos aqui estão mais próximos dessa linha de tendência então eu consigo aplicar o modelo linear com muito mais confiança ou seja modelo linear é muito mais adequado a essa distribuição de pontos decide a grama b do que decide a grama de já que a gente tem pontos muito mais afastados dessa reta ea gente quase não tem nenhum ponto sobre a reta então conseguiu entender bem essas idéias de coeficiente de correlação e como a gente pode relacionar cada um desses valores com esses diagramas através da nossa intuição ou seja sem precisar fazer nenhum cálculo bem espero que você tenha gostado desse vídeo e nos vemos no próximo