If you're seeing this message, it means we're having trouble loading external resources on our website.

Se você está atrás de um filtro da Web, certifique-se que os domínios *.kastatic.org e *.kasandbox.org estão desbloqueados.

Conteúdo principal

Introdução à inferência sobre inclinação em regressão linear

Introdução às inclinações amostrais e como usá-las para construir intervalos de confiança ou para realizar testes sobre a inclinação populacional em regressão de mínimos quadrados.

Quer participar da conversa?

Nenhuma postagem por enquanto.
Você entende inglês? Clique aqui para ver mais debates na versão em inglês do site da Khan Academy.

Transcrição de vídeo

RKA3JV - Olá, meu amigo ou minha amiga! Tudo bem com você? Seja muito bem-vindo ou bem-vinda a mais um vídeo da Khan Academy Brasil. Neste vídeo, vamos conversar sobre linhas de regressão. Mas não vai ser a primeira vez que estamos conversando sobre isso. Sendo assim, se a ideia de uma regressão é estranha para você, eu aconselho que você assista a alguns vídeos introdutórios sobre isso. Afinal, aqui neste vídeo, vamos pensar sobre como podemos fazer inferências de uma linha de regressão. Além disso, se a ideia de inferência estatística é nova para você e se a ideia de teste de hipótese também é, mais uma vez, assista a estes vídeos também. Agora, para começar, vamos dizer que suspeitamos que existe uma associação positiva entre o tamanho do sapato e a altura. Sendo assim, o que podemos fazer aqui é colocar um eixo de coordenadas. E aqui no eixo horizontal, no eixo "x", colocar o tamanho dos sapatos. Colocamos os tamanhos aqui também. Eu vou colocar aqui 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11 e 12. E pode continuar subindo a partir daí. Um detalhe, eu não vou definir unidade de medida agora não. Principalmente, porque este exemplo é para você ter uma ideia sobre linhas de regressão. Mas estes números podem representar o número dos sapatos ou o tamanho em centímetros, ok? Bem, isso não importa muito agora. Agora, aqui no eixo vertical, no eixo "y", podemos colocar a altura. Então, isto aqui é a altura. Agora, eu vou colocar valores aqui também, que podemos estar medindo em centímetros, em metros ou até mesmo em decímetros. Isso também não importa muito aqui agora. Mas nós temos aqui 1, 2, 3, 4, 5, 6, 7. Eu acho que está bom até aqui. Aí, digamos que você pegue uma amostra aleatória de 20 pessoas da população. Em vídeos futuros vamos falar sobre as condições necessárias para fazer inferências apropriadas. Então, vamos representar aqui estas 20 pessoas através de 20 pontos de dados. Podemos ter aqui uma criança pequena e aqui um adulto crescido com pés maiores e que é mais alto. Aí vamos colocar o restante, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19 e 20. Pronto, temos estes 20 pontos de dados. O que provavelmente você vai fazer agora é inserir estes dados em um computador. Você pode fazer isso manualmente, mas agora temos computador para fazer isso por nós. E o computador pode tentar realizar um ajuste através de uma linha de regressão. Existem muitas técnicas para fazer isso, mas uma técnica típica é tentar minimizar de uma forma geral a distância quadrada entre estes pontos e esta linha. E esta linha de regressão terá uma equação como qualquer linha teria. E tendemos a mostrar isso colocando aqui y^ este "^" nos diz que essa é uma linha de regressão, é igual à interceptação em "y", que representamos com a letra "a". Mais a inclinação vezes a nossa variável "x". Não posso deixar de falar que se você pegar outra amostra, você pode obter resultados diferentes aqui. É por isso que nós vamos chamar isso aqui de y₁ para nossa primeira amostra. a₁, b₁ e aqui vamos colocar 1 também. E se a gente pegasse agora outra amostra de 20 pessoas? Bem, vamos fazer isso aqui agora. Talvez você tenha 1, aqui, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19 e 20. E aí, a gente pode tentar encaixar uma linha nisto daqui. Esta linha vai ser mais ou menos assim. Pode ter uma interceptação com o "y" um pouco diferente, uma inclinação ligeiramente diferente também. Podemos representar aqui através de uma equação. Então, a gente coloca aqui y₂ ou y^₂, na verdade. Isto é igual a a₂ + b₂ vezes "x". E assim, cada vez que você pega uma amostra, é provável que você obtenha resultados diferentes para estes valores que são essencialmente estatísticos. Lembre-se, as estatísticas são coisas que nós podemos obter de amostras. Estamos tentando estimar verdadeiros parâmetros populacionais. Bem, então quais serão os verdadeiros parâmetros populacionais que estamos tentando estimar? Imagine o mundo bem aqui e que você é capaz de descobrir a verdadeira relação linear ou talvez haja algum relacionamento linear verdadeiro entre a altura e o tamanho do sapato. Você poderia conseguir se, teoricamente, você pudesse medir cada ser humano no planeta. E dependendo do que você definir como uma população, podem ser testadas todas as pessoas vivas ou todas as pessoas que viverão. Isso não é prático, mas vamos apenas dizer que você realmente poderia fazer isso. Você teria bilhões de pontos de dados aqui para a verdadeira população. Assim, se você encaixasse uma linha de regressão para estes dados, a gente poderia ver isso como a verdadeira linha de regressão da população. Então, isso seria y^ que é igual a, para deixar claro que aqui é a interceptação "y" e a inclinação dos verdadeiros parâmetros populacionais, em vez de utilizar o "a", vamos colocar o alfa (α). E ao invés de utilizar o "b", vamos colocar o beta (ß). E isto "x". Mas é muito difícil chegar exatamente ao que o alfa e o beta são. E é por isso que nós os estimamos com "a" e com "b", com base em uma amostra. Agora, o que é interessante com isso em mente é que podemos começar a fazer inferências baseadas em nossa amostra. Então, sabemos que, por exemplo, é improvável que b₂ seja exatamente beta. Mas quão confiantes podemos ser de que haja pelo menos uma relação linear positiva ou uma relação linear diferente de zero? Ou pelo menos podemos criar um intervalo de confiança em torno desta estatística para ter um bom senso de qual é o verdadeiro parâmetro? Bem, a resposta simples. Sim, a forma que você pode fazer uma inferência, por exemplo, para a inclinação da sua linha de regressão para verdadeira população é através de uma amostra. Eu tenho esta inclinação bem aqui, para essa amostra. Então, vou chamar isso aqui de b₂. E eu poderia criar um intervalo de confiança em torno disso e, então, este intervalo de confiança vai ser baseado em alguns valores críticos "t". Idealmente, o desvio-padrão da distribuição de amostragem de sua estatística de amostra. Neste caso, seria a inclinação da linha de regressão da amostra. Mas como não sabemos exatamente o que é isso, não podemos descobrir com precisão o desvio-padrão. Sendo assim, como fazemos isso a partir de uma amostra? Vamos estimar o que é conhecido como erro padrão da estatística. E vamos nos aprofundar um pouco mais neste assunto em vídeos futuros. E já que estamos estimando aqui, vamos usar um valor "t" crítico aqui que já estudamos antes. E aí, com base no nível de confiança que você deseja ter, digamos que é 95%, com base nos graus de liberdade, que vai sair de muitos pontos de dados que temos, Aí nós poderemos descobrir isto. E de nossa amostra podemos descobrir isto e podemos descobrir isto. Aí, teremos como construir um intervalo de confiança. Também veremos que você poderia fazer o teste de hipótese aqui. Você poderia dizer: ei, vamos definir uma hipótese nula, uma hipótese zero? E a hipótese nula vai dizer que não existe uma relação linear aqui entre essas duas coisas, ou que a inclinação da linha de regressão da verdadeira população é igual a zero. Aí, também, a gente vai ter a hipótese alternativa. Ou seja, que é verdade que a relação entre estas duas grandezas é maior que zero, que há uma relação linear positiva, ou que é apenas diferente de zero. Aí o que você poderia fazer é, assumindo isso, você poderia ver qual é a probabilidade de obter uma estatística com pelo menos este extremo ou mais extremo. Se você estiver abaixo de algum limite, você pode rejeitar a hipótese nula e aí sugerir a alternativa. Então, isto e isto são coisas que fizemos antes quando a gente estava criando o intervalo de confiança em torno de uma estatística ou fazendo testes de hipóteses, supondo que um parâmetro era verdadeiro. A única diferença aqui é que este parâmetro que estamos tentando estimar, vai ser o parâmetro para uma teórica linha de regressão populacional. E vamos fazer isso usando estatística de amostra para uma linha de regressão de amostra. Eu espero que você tenha compreendido tudo direitinho o que a gente conversou aqui. E, mais uma vez, eu quero deixar para você um grande abraço e até a próxima!