Conteúdo principal
Curso: Estatística e probabilidade > Unidade 15
Lição 1: Conclusões sobre uma inclinação- Introdução à inferência sobre inclinação em regressão linear
- Condições para inferência em inclinação
- Intervalo de confiança para uma inclinação de uma reta de regressão
- Intervalo de confiança para uma inclinação
- Calcular o T estatístico para a inclinação de uma reta de regressão
- Estatística de teste para inclinação
- Como usar um valor-p para tirar conclusões em um teste sobre inclinação
- Como usar o intervalo de confiança para testar uma inclinação
- Como tirar conclusões sobre uma inclinação
© 2024 Khan AcademyTermos de usoPolítica de privacidadeAviso de cookies
Introdução à inferência sobre inclinação em regressão linear
Introdução às inclinações amostrais e como usá-las para construir intervalos de confiança ou para realizar testes sobre a inclinação populacional em regressão de mínimos quadrados.
Quer participar da conversa?
Nenhuma postagem por enquanto.
Transcrição de vídeo
RKA3JV - Olá, meu amigo ou minha amiga!
Tudo bem com você? Seja muito bem-vindo ou bem-vinda a mais um vídeo da Khan Academy Brasil. Neste vídeo, vamos conversar sobre
linhas de regressão. Mas não vai ser a primeira vez
que estamos conversando sobre isso. Sendo assim, se a ideia de uma regressão
é estranha para você, eu aconselho que você assista a alguns
vídeos introdutórios sobre isso. Afinal, aqui neste vídeo, vamos pensar sobre como podemos fazer
inferências de uma linha de regressão. Além disso, se a ideia de inferência
estatística é nova para você e se a ideia de teste
de hipótese também é, mais uma vez, assista
a estes vídeos também. Agora, para começar, vamos dizer
que suspeitamos que existe uma associação positiva entre
o tamanho do sapato e a altura. Sendo assim, o que podemos fazer aqui é colocar um eixo de coordenadas. E aqui no eixo horizontal,
no eixo "x", colocar o tamanho dos sapatos. Colocamos os tamanhos aqui também. Eu vou colocar aqui 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11 e 12. E pode continuar subindo a partir daí. Um detalhe, eu não vou definir
unidade de medida agora não. Principalmente, porque este exemplo
é para você ter uma ideia sobre linhas de regressão. Mas estes números podem
representar o número dos sapatos ou o tamanho em centímetros, ok? Bem, isso não importa muito agora. Agora, aqui no eixo vertical, no eixo "y", podemos colocar a altura. Então, isto aqui é a altura. Agora, eu vou colocar valores aqui também, que podemos estar medindo em centímetros, em metros ou até mesmo em decímetros. Isso também não importa muito aqui agora. Mas nós temos aqui
1, 2, 3, 4, 5, 6, 7. Eu acho que está bom até aqui. Aí, digamos que você pegue uma amostra
aleatória de 20 pessoas da população. Em vídeos futuros vamos falar sobre
as condições necessárias para fazer inferências apropriadas. Então, vamos representar aqui
estas 20 pessoas através de 20 pontos de dados. Podemos ter aqui uma criança pequena e aqui um adulto crescido com pés maiores
e que é mais alto. Aí vamos colocar o restante, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19 e 20. Pronto, temos estes 20 pontos de dados. O que provavelmente você vai fazer agora é inserir estes dados em um computador. Você pode fazer isso manualmente, mas agora temos computador
para fazer isso por nós. E o computador pode tentar
realizar um ajuste através de uma linha de regressão. Existem muitas técnicas
para fazer isso, mas uma técnica típica é tentar minimizar de uma forma geral a distância quadrada entre
estes pontos e esta linha. E esta linha de regressão terá uma
equação como qualquer linha teria. E tendemos a mostrar isso
colocando aqui y^ este "^" nos diz que essa
é uma linha de regressão, é igual à interceptação em "y", que representamos com a letra "a". Mais a inclinação
vezes a nossa variável "x". Não posso deixar de falar que
se você pegar outra amostra, você pode obter resultados
diferentes aqui. É por isso que nós vamos
chamar isso aqui de y₁ para nossa primeira amostra. a₁, b₁ e aqui vamos colocar 1 também. E se a gente pegasse agora
outra amostra de 20 pessoas? Bem, vamos fazer isso aqui agora. Talvez você tenha 1, aqui, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19 e 20. E aí, a gente pode tentar
encaixar uma linha nisto daqui. Esta linha vai ser mais ou menos assim. Pode ter uma interceptação com o "y"
um pouco diferente, uma inclinação ligeiramente
diferente também. Podemos representar aqui
através de uma equação. Então, a gente coloca aqui y₂
ou y^₂, na verdade. Isto é igual a a₂ + b₂ vezes "x". E assim, cada vez que
você pega uma amostra, é provável que você obtenha resultados
diferentes para estes valores que são essencialmente estatísticos. Lembre-se, as estatísticas são coisas
que nós podemos obter de amostras. Estamos tentando estimar
verdadeiros parâmetros populacionais. Bem, então quais serão os verdadeiros
parâmetros populacionais que estamos tentando estimar? Imagine o mundo bem aqui e que você é capaz de descobrir
a verdadeira relação linear ou talvez haja algum
relacionamento linear verdadeiro entre a altura e o tamanho do sapato. Você poderia conseguir se, teoricamente, você pudesse medir cada
ser humano no planeta. E dependendo do que você definir
como uma população, podem ser testadas todas as pessoas vivas ou todas as pessoas que viverão. Isso não é prático, mas vamos apenas dizer que
você realmente poderia fazer isso. Você teria bilhões de pontos de dados
aqui para a verdadeira população. Assim, se você encaixasse uma linha
de regressão para estes dados, a gente poderia ver isso como a verdadeira linha
de regressão da população. Então, isso seria y^ que é igual a, para deixar claro que aqui
é a interceptação "y" e a inclinação dos verdadeiros
parâmetros populacionais, em vez de utilizar o "a",
vamos colocar o alfa (α). E ao invés de utilizar o "b",
vamos colocar o beta (ß). E isto "x". Mas é muito difícil chegar exatamente
ao que o alfa e o beta são. E é por isso que nós os estimamos
com "a" e com "b", com base em uma amostra. Agora, o que é interessante
com isso em mente é que podemos começar a fazer inferências
baseadas em nossa amostra. Então, sabemos que, por exemplo, é improvável que b₂ seja exatamente beta. Mas quão confiantes podemos ser de que haja pelo menos
uma relação linear positiva ou uma relação linear diferente de zero? Ou pelo menos podemos criar
um intervalo de confiança em torno desta estatística para ter um bom senso
de qual é o verdadeiro parâmetro? Bem, a resposta simples. Sim, a forma que você pode fazer
uma inferência, por exemplo, para a inclinação da sua
linha de regressão para verdadeira população é através de uma amostra. Eu tenho esta inclinação bem aqui,
para essa amostra. Então, vou chamar isso aqui de b₂. E eu poderia criar um intervalo
de confiança em torno disso e, então, este intervalo de confiança vai ser baseado em alguns
valores críticos "t". Idealmente, o desvio-padrão
da distribuição de amostragem de sua estatística de amostra. Neste caso, seria a inclinação da
linha de regressão da amostra. Mas como não sabemos
exatamente o que é isso, não podemos descobrir com
precisão o desvio-padrão. Sendo assim, como fazemos isso
a partir de uma amostra? Vamos estimar o que é conhecido
como erro padrão da estatística. E vamos nos aprofundar um pouco mais
neste assunto em vídeos futuros. E já que estamos estimando aqui, vamos usar um valor "t" crítico aqui
que já estudamos antes. E aí, com base no nível de confiança
que você deseja ter, digamos que é 95%, com base nos graus de liberdade, que vai sair de muitos pontos
de dados que temos, Aí nós poderemos descobrir isto. E de nossa amostra podemos descobrir
isto e podemos descobrir isto. Aí, teremos como construir
um intervalo de confiança. Também veremos que você poderia
fazer o teste de hipótese aqui. Você poderia dizer: ei, vamos definir uma hipótese nula,
uma hipótese zero? E a hipótese nula vai dizer que não existe uma relação linear aqui
entre essas duas coisas, ou que a inclinação da linha de regressão
da verdadeira população é igual a zero. Aí, também, a gente vai ter
a hipótese alternativa. Ou seja, que é verdade que a relação
entre estas duas grandezas é maior que zero, que há uma relação linear positiva, ou que é apenas diferente de zero. Aí o que você poderia fazer é, assumindo isso, você poderia ver qual é a probabilidade
de obter uma estatística com pelo menos este extremo
ou mais extremo. Se você estiver abaixo de algum limite, você pode rejeitar a hipótese nula e aí sugerir a alternativa. Então, isto e isto são coisas
que fizemos antes quando a gente estava criando o intervalo
de confiança em torno de uma estatística ou fazendo testes de hipóteses, supondo que um parâmetro era verdadeiro. A única diferença aqui é que este
parâmetro que estamos tentando estimar, vai ser o parâmetro para uma teórica
linha de regressão populacional. E vamos fazer isso usando
estatística de amostra para uma linha de regressão de amostra. Eu espero que você
tenha compreendido tudo direitinho o que
a gente conversou aqui. E, mais uma vez, eu quero deixar
para você um grande abraço e até a próxima!