Conteúdo principal
Estatística Avançada
Como calcular o coeficiente de correlação r
Cálculo do coeficiente de correlação r. Raciocínio por trás do cálculo e r.
Quer participar da conversa?
- Em, não entendi por qual motivo é utilizado o número de amostras - 1 (n - 1). Não seria bastante o número de amostras para realizar o cálculo de desvio padrão? 1:16(3 votos)
- A correlação na verdade daria 0,944 e não 0,946. Houve um erro no calculo de uma variável.(1 voto)
- No Excel tem uma função pronta que me deu um R de 0,89. Quem está certo, você ou o Excel?(0 votos)
Transcrição de vídeo
RKA1JV - O que vamos fazer, neste vídeo, é calcular manualmente
o coeficiente de correlação para plotar dado bivariados. Quando eu digo dados bivariados, é um jeito chique de dizer que
um valor "x" tem um correspondente "y" em um determinado ponto. Mas antes de calcular
o coeficiente de correlação, vamos entender alguns dados
estatísticos que eles nos deram. Nós estamos assumindo
que essas são amostras de uma população em que um valor "x" corresponde a um valor "y". Nós temos a média de "x", nós temos o desvio-padrão de "x". O cálculo da média consiste
em somar os valores de "x" e dividir pelo número de amostras. 1 mais 2, mais 2, mais 3, dividido por 4. Esse valor é igual a 8 dividido por 4,
que é igual a 2. O desvio-padrão de "x",
como nós vimos anteriormente, pode ser calculado da seguinte maneira: vai ser igual à raiz quadrada
de cada valor de "x", menos a média, elevada ao quadrado. Isso vai ser (1 - 2)² mais (2 - 2)²,
mais (2 - 2)², mais (3 - 2)². Tudo isso sobre o número de amostras, -1,
que é igual a 3. Podemos simplificar
facilmente essa expressão. Isso aqui é zero, isso aqui é zero, isto é 1, isto é 1, então vai ser a raiz quadrada
de 2 sobre 3, que é igual a 0,86 aproximadamente. A média de "y" é a mesma coisa
que fizemos com a média de "x". Vai ser 1 mais 2, mais 3, mais 6
dividido por 4. Vai ser 12 dividido por 4,
que vai ser igual a 3. E o desvio-padrão de "y", você vai calcular da mesma maneira
que nós calculamos o desvio-padrão de "x". Vai ser aproximadamente 2,160. Compreendido tudo isso, vamos agora pensar como o coeficiente de
correlação é calculado. Nós temos aqui a fórmula que representa
o coeficiente de correlação. À primeira vista, ela pode ser
um pouco intimidadora, até que você percebe algumas coisas. Percebemos que tudo isso corresponde ao que nós chamamos de "escore-z" para "x". Para esse "x" específico. Tudo isso representa o escore-z
desse "y" específico. Nós temos que "z" é igual ao valor de "x"
menos a média sobre o desvio-padrão de "x". Esse é o escore-z
para esse dado "x" e este é o escore-z para
o "y" correspondente. Qual é o desvio-padrão
desse ponto "x" para média? No mundo real, você não terá
apenas quatro pares de amostras. Com isso, será muito difícil
fazer esse cálculo à mão. Mas, geralmente, utilizamos ferramentas
de software de computador para isso. Mas é muito válido fazer isso manualmente para entender de forma intuitiva o que está acontecendo aqui. Nesse caso particular, "r" vai ser igual a 1 sobre
um número de pares menos 1. O que vai ser 1 sobre 3 vezes, isso vai ser o somatório
dos produtos dos escore-z. O escore-z para 1, vai ser 1 menos 2 que é a média de "x" dividido
pelo desvio-padrão de "x" que é 0,816 vezes 1. Agora, vamos fazer o escore-z de "y", 1 menos a média, que é 3 sobre o desvio-padrão de "y", que é 2,160. Nós vamos continuar fazendo isso. O próximo vai ser 2 menos 2
sobre 8,16 e é daqui que esse 2 vem. E eu estou subtraindo-o pela média e dividindo pelo desvio-padrão vezes 2. Agora, nós estamos olhando para esse 2 menos 3 sobre 2,160
mais 2 menos 2 sobre 8,16, vezes 3 menos 3 sobre 2,160. Mais o último par que é 3 menos 2
sobre 8,16, vezes 6 menos 3 sobre 2,16. Antes de pegar a calculadora, vamos ver o que dá para simplificar. 2 menos 2 é igual a zero,
zero sobre 8,16 é zero. Zero vezes esse valor é zero. 2 menos 2 é igual a zero,
3 menos 3 é igual a zero. Então, podemos simplificar
esses dois valores. 1 menos 2 é igual a -1 e 1 menos 3 é igual a -2. "R" vai ser 1 sobre 3 vezes, "menos" com "menos" é "mais", então vai ser 2 sobre 0,816 vezes 2,160. Mais 3 menos 2 é igual a 1 e 6 menos 3 é igual a 3, então, isso vai ser igual a 3
sobre 0,816 vezes 2,160. Tudo isso tem o mesmo denominador. Nós podemos simplesmente
somar os numeradores. Então, 2 sobre essa coisa, mais 3 sobre essa coisa,
vai ser 5 dessa coisa. Então, vai ser 5 sobre 0,816 vezes 2,160. Agora podemos utilizar a calculadora
para saber o resultado disso. Vai ser 1 sobre 3 vezes 5, sobre 0,816 vezes 2,160. Eu vou fechar esse parêntese
e vamos ver quanto vai dar. 0,945 o que é aproximadamente 0,946. "R" é aproximadamente 0,946. O coeficiente de correlação é a medida de quanto
uma linha pode descrever a relação entre valores "x" e valores "y". "R" sempre será maior ou igual a menos 1, ou menor ou igual a 1. Se "R" é igual a 1, significa que a linha descreve completamente
a relação entre os valores "x" e "y" e que essa linha é crescente. Se o "R" é equivale completamente a -1, significa que a linha descreve
completamente os dados "x" e "y". Nós vamos ter uma linha decrescente. Se "R" é igual a zero, significa que a linha não descreve em nada a relação entre os valores "x" e "y". Em nossa situação aqui,
o valor de "R" é próximo de 1. O que significa que a nossa linha está
bem próxima de descrever a relação entre os nossos "x" e os nossos "y". Por exemplo, eu vou tentar
desenhar uma reta aqui e essa reta tem que passar no ponto
que é a média de "x" e a média de "y". O que significa que é esse ponto aqui onde "y" é 3
e "x" é 2. Parece que essa é uma boa linha. Deixe-me desenhar sobre ela. Você percebe que essa linha
não é perfeita, mas ela é bem próxima de cada ponto. Ela permite que você compreenda
o que está acontecendo por trás. O meu próximo foco será na compreensão
do que está acontecendo aqui. O que está acontecendo com o escore-z? Como esses escores-z nos ajudam
a compreender essa propriedade de que quando "R" está próximo de 1 nós temos uma correlação positiva, uma correlação forte positiva. E quando "R" está próxima de -1, nós temos uma correlação forte negativa. Vamos desenhar o que a média significa. A média de "x" é 2 e a média de "y" é 3 e esta é a linha que é igual a 3. Agora nós podemos
desenhar o desvio-padrão. O desvio-padrão de "x" vai ser 0,816. Isso significa que se eu for
0,816 a menos de 2, eu vou encontrar o primeiro
ponto de desvio-padrão. E se eu for +0,816 de 2, eu vou encontrar o outro
ponto de desvio-padrão. Nós vamos fazer o mesmo com
o desvio-padrão de "y" que é 2,160. 2,160 é mais ou menos por aqui e menos 2,160 em relação à média de "y" é mais ou menos aqui. Vamos desenhar. Vamos desenhar outro tracejado. Por exemplo, vamos nesse primeiro par. O que nós temos que fazer? O quanto esse ponto desvia da média? Isso vai ser negativo,
vai ser -1 sobre 0,816. É por isso que nós calculamos isso. Quanto desvio-padrão da média, esse ponto está da média de "x". E quanto esse ponto está desviado
da média de "y". Vai ser -2 sobre 2,160.
Por isso, esse valor. Observe que ambos são negativos. Dessa forma, ambos contribuíram
para um valor positivo que nos auxiliou a chegar
a um valor próximo de 1. Se ambos escore-z forem negativos, significa que existe uma correlação
positiva entre as variáveis. Significa que eles são abaixo da média, mas que esse valor é parecido. Vamos para o próximo ponto (2, 2), o que aconteceu aqui? A orientação "x" é
o mesmo valor que a média. Isso se tornou zero, significa que o ponto está
no ponto zero de "x". Em função do escore-z ser zero,
todo esse cálculo foi igual a zero. Isso fez com que esse ponto
ficasse um pouco distante do nosso coeficiente de correlação. A razão desse ponto estar afastado
e não ser negativo é porque ele não está
contribuindo para a soma. Mas ele está dividindo o nosso maior valor por ser incluso como um par extra. Se nós tivéssemos um ponto no qual
o valor de "x" é inferior à média de "x", e o valor de "y" fosse
superior à média de "y". Se isso fosse um dos pontos,
porque o o escore-z de "y" seria positivo, e o escore-x seria negativo. Quando nós colocássemos isso na soma, isso iria afastar nosso valor "R" de 1. Isso faria que o nosso
coeficiente "R" fosse menor. Algo parecido com isso aconteceria se nós quiséssemos fazer
um valor de "R" ainda menor, por que nós temos um
escore-z positivo para "x" e um escore-z negativo para "y". E o produto de positivo
com negativo seria negativo.