If you're seeing this message, it means we're having trouble loading external resources on our website.

Se você está atrás de um filtro da Web, certifique-se que os domínios *.kastatic.org e *.kasandbox.org estão desbloqueados.

Conteúdo principal

Impacto da remoção de outliers em retas de regressão

Impacto da remoção de outliers na inclinação, na interceptação em y e no r das retas de regressão de mínimos quadrados.

Quer participar da conversa?

  • Avatar primosaur ultimate style do usuário Miguel Silva
    Considero que a inclinação da reta aumentou, ainda que para tornar-se mais negativa, é mais inclinada. Ou, ao menos deveríamos considerar uma alteração no enunciado da resposta para maior clareza.
    (5 votos)
    Avatar Default Khan Academy avatar do usuário
Você entende inglês? Clique aqui para ver mais debates na versão em inglês do site da Khan Academy.

Transcrição de vídeo

RKA14C "O diagrama de dispersão abaixo" "exibe um conjunto de dados bivariados" "juntamente com a sua linha de regressão" "dos mínimos quadrados." "Considere remover o anômalo (95,1)" "e calcular uma nova linha de regressão dos mínimos quadrados." Então, aqui temos o ponto que ele está pedindo para retirar. "Qual seria o efeito de remover esse dado?" "Escolha todas as respostas que se aplicam." Então, como sempre, vou pedir para você pausar o vídeo e tentar resolver por conta própria. Bom, primeiro vamos analisar esse gráfico de dispersão com este ponto aqui, sem retirá-lo. Nós temos uma linha de regressão com uma inclinação ascendente. Assim, parece que o nosso "r" já é maior do que zero. E claro que também vai ser inferior a 1. Então, vamos anotar isso. Nosso "r" vai ser maior que zero e menor que 1. Nós sabemos que não vai ser igual a 1 porque, senão, essa linha de regressão deveria se encaixar perfeitamente com todos esses pontos. O que não iria acontecer, ainda mais com um anômalo como este aqui. O residual entre este ponto e a linha é bastante elevado. Temos uma distância muito grande aqui. Seria um residual negativo e, assim, esse ponto está definitivamente reduzindo "r". Está trazendo a inclinação da linha de regressão para baixo. Então, se realmente fôssemos remover esse ponto, estaríamos mais propensos a ter uma linha de regressão que se pareça com isto aqui. Podemos observar que, aparentemente, tem um ajuste muito melhor. A razão para a linha não ter um ajuste bom na situação anterior é justamente por causa deste ponto aqui. Então, se removêssemos esse ponto, o nosso "r" aumentaria. Vamos anotar aqui: "o 'r' aumentaria". E não só isso, a nossa inclinação da linha também aumentaria. Teríamos um melhor ajuste desses dados positivamente correlacionados. Nós não teríamos este ponto arrastando a linha para baixo. Então, vamos dar uma olhada nas opções e ver qual delas se aplica ao que acabamos de discutir. Opção A: "O coeficiente de determinação (r²) aumentaria". Bom, se já vimos que "r" aumenta, então, o quadrado de "r" também deve aumentar. Logo, sim, essa opção está correta. "O coeficiente de correlação (r) se aproximaria de zero". Não. Na verdade, ele ficaria mais perto de 1, porque teríamos o melhor ajuste. Então, essa opção não está correta. "A inclinação da linha de regressão dos mínimos quadrados aumentaria". Sim, de fato, se você retirá-lo, ele vai permitir que a inclinação aumente. Então, vou marcar essa opção também. Vamos fazer um outro exemplo. Novamente: "O diagrama de dispersão abaixo" "exibe um conjunto de dados bivariados" "juntamente com sua linha de regressão dos mínimos quadrados." "Considere remover o dado anômalo (10, -18)" "e calcular uma nova linha de regressão dos mínimos quadrados." Então, seria este ponto aqui. "Qual seria o efeito de remover esse dado?" Então, o que iria acontecer desta vez? Vamos analisar primeiro sem retirar o dado anômalo e depois retiramos e decidimos sobre as opções apresentadas. Vemos aqui que temos uma inclinação negativa para a linha de regressão. Então, estamos lidando com "r" negativo. Nós já sabemos que -1 é menor que "r", que é menor que zero, mesmo sem remover o anômalo. Sabemos que não vai ser -1, porque, se "r" fosse exatamente -1, seria uma linha inclinada para baixo, mas passaria exatamente através de todos esses pontos. E, se remover este ponto, o que vai acontecer? Bom, esta linha de regressão está sendo puxada para baixo por este dado anômalo aqui. Então, se você remover esse ponto, a linha de regressão pode mover-se para cima, no sentido horário. Provavelmente você teria uma linha que se parece mais com isto. Então, podemos notar que a nova linha tem o declive mais negativo. Assim, a remoção desse dado anômalo diminuiria "r", já que "r" iria se aproximar de 1 negativo, e estaria mais perto de ser uma correlação negativa perfeita. Além disso, também iria diminuir a inclinação. Agora, vamos dar uma olhada nas alternativas. Alternativa A: "O coeficiente de determinação (r²) diminuiria". Bom, vamos ter muito cuidado aqui, porque o "r" já é negativo. E o quadrado de algo que é mais negativo não vai se tornar menor, pelo contrário. Olha só este exemplo: vamos dizer que aqui tem "r" e "r²". Vamos supor que "r" antes era -0,4, depois ele passou a ser -0,5. O quadrado de -0,4 é 0,16. O quadrado de -0,5 é 0,25. Então, por mais que ele tenha se tornado mais negativo aqui, quando você eleva ao quadrado, fica maior. Então, não: esta alternativa aqui não está correta. "A inclinação da linha de regressão dos mínimos quadrados aumentaria". Não, ela não vai aumentar, ela vai diminuir, vai haver uma forte correlação negativa. Então, também não está correta. "O ponto de interceptação em y da linha de regressão" "dos mínimos quadrados aumentaria." Quando nós retiramos o anômalo, vimos que a linha de regressão se desloca no sentido horário. Então, o ponto que corta o eixo y ficaria mais para cima, ou seja, aumentaria. Então, essa alternativa está correta.