Conteúdo principal
Estatística Avançada
Curso: Estatística Avançada > Unidade 5
Lição 5: Como analisar afastamentos da linearidade- Raciocínio para o R²
- R² ou coeficiente de determinação
- Desvio-padrão dos resíduos ou raiz do quadrado médio do desvio (RQMD)
- Como interpretar dados de regressão de computador
- Interpretação da regressão de um cálculo de computador
- Impacto da remoção de outliers em retas de regressão
- Pontos influentes na regressão
- Efeitos de pontos influentes
- Identifique pontos influentes
- Como transformar dados não lineares
- Exemplo de regressão linear usando dados transformados
- Faça uma previsão com dados transformados
© 2023 Khan AcademyTermos de usoPolítica de privacidadeAviso de cookies
Impacto da remoção de outliers em retas de regressão
Impacto da remoção de outliers na inclinação, na interceptação em y e no r das retas de regressão de mínimos quadrados.
Quer participar da conversa?
- Considero que a inclinação da reta aumentou, ainda que para tornar-se mais negativa, é mais inclinada. Ou, ao menos deveríamos considerar uma alteração no enunciado da resposta para maior clareza.(4 votos)
Transcrição de vídeo
RKA14C "O diagrama de dispersão abaixo" "exibe um conjunto de dados bivariados" "juntamente com a sua linha de regressão" "dos mínimos quadrados." "Considere remover o anômalo (95,1)" "e calcular uma nova linha de regressão
dos mínimos quadrados." Então, aqui temos o ponto que ele está
pedindo para retirar. "Qual seria o efeito
de remover esse dado?" "Escolha todas as respostas
que se aplicam." Então, como sempre, vou pedir
para você pausar o vídeo e tentar resolver por conta própria. Bom, primeiro vamos analisar esse gráfico de dispersão
com este ponto aqui, sem retirá-lo. Nós temos uma linha de regressão
com uma inclinação ascendente. Assim, parece que o nosso "r"
já é maior do que zero. E claro que também vai ser
inferior a 1. Então, vamos anotar isso. Nosso "r" vai ser maior que zero
e menor que 1. Nós sabemos que não vai ser
igual a 1 porque, senão, essa linha de regressão deveria se encaixar perfeitamente
com todos esses pontos. O que não iria acontecer, ainda mais
com um anômalo como este aqui. O residual entre este ponto
e a linha é bastante elevado. Temos uma distância muito grande aqui. Seria um residual negativo
e, assim, esse ponto está definitivamente
reduzindo "r". Está trazendo a inclinação
da linha de regressão para baixo. Então, se realmente fôssemos
remover esse ponto, estaríamos mais propensos
a ter uma linha de regressão que se pareça com isto aqui. Podemos observar que, aparentemente,
tem um ajuste muito melhor. A razão para a linha não ter
um ajuste bom na situação anterior é justamente por causa
deste ponto aqui. Então, se removêssemos esse ponto,
o nosso "r" aumentaria. Vamos anotar aqui:
"o 'r' aumentaria". E não só isso, a nossa inclinação
da linha também aumentaria. Teríamos um melhor ajuste desses
dados positivamente correlacionados. Nós não teríamos este ponto
arrastando a linha para baixo. Então, vamos dar
uma olhada nas opções e ver qual delas se aplica
ao que acabamos de discutir. Opção A: "O coeficiente de
determinação (r²) aumentaria". Bom, se já vimos que "r" aumenta, então, o quadrado de "r"
também deve aumentar. Logo, sim, essa opção está correta. "O coeficiente de correlação (r)
se aproximaria de zero". Não. Na verdade, ele ficaria
mais perto de 1, porque teríamos o melhor ajuste. Então, essa opção não está correta. "A inclinação da linha de regressão
dos mínimos quadrados aumentaria". Sim, de fato, se você retirá-lo, ele vai permitir que
a inclinação aumente. Então, vou marcar
essa opção também. Vamos fazer um outro exemplo. Novamente: "O diagrama
de dispersão abaixo" "exibe um conjunto
de dados bivariados" "juntamente com sua linha de regressão
dos mínimos quadrados." "Considere remover
o dado anômalo (10, -18)" "e calcular uma nova linha de regressão
dos mínimos quadrados." Então, seria este ponto aqui. "Qual seria o efeito de
remover esse dado?" Então, o que iria
acontecer desta vez? Vamos analisar primeiro
sem retirar o dado anômalo e depois retiramos e decidimos
sobre as opções apresentadas. Vemos aqui que temos uma inclinação
negativa para a linha de regressão. Então, estamos lidando com "r" negativo. Nós já sabemos que -1 é menor que "r", que é menor que zero, mesmo sem remover o anômalo. Sabemos que não vai ser -1, porque, se "r" fosse exatamente -1, seria uma linha inclinada para baixo, mas passaria exatamente
através de todos esses pontos. E, se remover este ponto,
o que vai acontecer? Bom, esta linha de regressão
está sendo puxada para baixo por este dado anômalo aqui. Então, se você remover esse ponto, a linha de regressão pode mover-se para cima, no sentido horário. Provavelmente você teria uma linha
que se parece mais com isto. Então, podemos notar que a nova linha
tem o declive mais negativo. Assim, a remoção desse
dado anômalo diminuiria "r", já que "r" iria se aproximar
de 1 negativo, e estaria mais perto de ser
uma correlação negativa perfeita. Além disso, também iria
diminuir a inclinação. Agora, vamos dar uma olhada
nas alternativas. Alternativa A: "O coeficiente de
determinação (r²) diminuiria". Bom, vamos ter muito cuidado aqui, porque o "r" já é negativo. E o quadrado de algo
que é mais negativo não vai se tornar menor,
pelo contrário. Olha só este exemplo: vamos dizer que aqui tem "r" e "r²". Vamos supor que "r" antes era -0,4, depois ele passou a ser -0,5. O quadrado de -0,4 é 0,16. O quadrado de -0,5 é 0,25. Então, por mais que ele tenha
se tornado mais negativo aqui, quando você eleva ao quadrado,
fica maior. Então, não: esta alternativa aqui
não está correta. "A inclinação da linha de regressão
dos mínimos quadrados aumentaria". Não, ela não vai aumentar,
ela vai diminuir, vai haver uma forte correlação negativa. Então, também não está correta. "O ponto de interceptação em y
da linha de regressão" "dos mínimos quadrados aumentaria." Quando nós retiramos o anômalo, vimos que a linha de regressão
se desloca no sentido horário. Então, o ponto que corta o eixo y
ficaria mais para cima, ou seja, aumentaria. Então, essa alternativa está correta.