If you're seeing this message, it means we're having trouble loading external resources on our website.

Se você está atrás de um filtro da Web, certifique-se que os domínios *.kastatic.org e *.kasandbox.org estão desbloqueados.

Conteúdo principal

Por que o gradiente está na direção do aclive máximo.

A forma como calculamos o gradiente parece não estar relacionada à interpretação de que ele é a direção do aclive máximo. Aqui você pode ver como os dois se relacionam.   Versão original criada por Grant Sanderson.

Quer participar da conversa?

Nenhuma postagem por enquanto.
Você entende inglês? Clique aqui para ver mais debates na versão em inglês do site da Khan Academy.

Transcrição de vídeo

RKA2MP - Olá, meu amigo ou minha amiga! Tudo bem com você? Seja muito bem-vindo ou bem-vinda a mais um vídeo da Khan Academy Brasil. Neste vídeo, vamos conversar sobre por que o gradiente é em direção da subida mais íngreme . Não se esqueça que até agora, quando eu falei sobre o gradiente de uma função, que aqui vamos pensar nessa função como sendo uma função multivariável com apenas duas entradas, já que é mais fácil pensar assim, em que essa função é igual a x² + y², que é uma função muito amigável. Quando eu falei sobre o gradiente, eu deixei um mistério aberto. Eu já vou falar para você sobre o que é esse mistério. A gente tem aqui a forma de calcular esse gradiente. Colocamos aqui as derivadas parciais de uma função. Para essa função, temos aqui a parcial em relação a "x" e aqui temos a parcial em relação a "y". Mas, se fosse uma entrada de dimensão superior, a saída teria que ter quantas variáveis fosse preciso. Se fosse, por exemplo, f(x, y, z), você teria aqui ∂x, ∂y e ∂z. E essa é a maneira de calcular isso. A gente também fez uma discussão gráfica aqui do gradiente e eu falei com você que o gradiente aponta na direção mais íngreme, ou a direção com uma subida mais inclinada aqui no gráfico. E, talvez, a maneira como você pensa nisso é que você tem aqui o espaço de entrada, que neste caso é o plano xy, e aí, de alguma forma, esse plano vai ser mapeado aqui para a reta numérica, que neste caso é o espaço de saída. Aí, se você tem um determinado o ponto em algum lugar, a questão aqui a fazer é: dentre todas as direções possíveis que você pode se afastar desse ponto, dentre todas as direções que você pode ir, qual delas vai resultar em um aumento maior aqui nesta função? Ou seja, conforme você se move aqui nas várias direções, talvez um deles dê um leve empurrão aqui na saída. Talvez outro dê um grande empurrão. Outro, quem sabe, dê um empurrão um pouco negativo e outro dê um grande empurrão negativo. Observando todas essas direções, qual resulta em um maior aumento na sua função? Bem, eu meio que já falei com você sobre isso de uma forma intuitiva. Agora, se você quiser pensar em termos de gráficos, a gente pode olhar aqui o gráfico de f(x² + y²). Aqui nós temos o campo de gradiente. Todos estes vetores no plano xy são os gradientes. Quando você olha aqui debaixo, vai ver todos estes vetores apontando para uma determinada direção. Cada uma destas direções diz a você para onde você deve se mover para subir a colina naquele gráfico o mais rápido que você puder. Se você fosse um alpinista, por exemplo, e quisesse chegar ao topo o mais rápido possível, estes vetores vão te indicar a direção em que você deve se mover para chegar ao topo o mais rápido possível. É por isso que a gente chama isto de subida mais íngreme. Voltando aqui para a tela: eu não vejo essa conexão imediatamente. E eu lembro que, quando eu estava aprendendo isso pela primeira vez, não estava muito claro por que essa combinação de derivadas parciais tem algo a ver com escolher a melhor direção. Porém, agora que aprendemos a derivada direcional, isso começa a ficar mais claro. Sabendo disso, vamos dizer que, em vez de pensar em todas as direções possíveis e todas as mudanças possíveis para a saída dessas direções, vamos avaliar um único vetor. Vamos dizer que temos um vetor e vamos transformá-lo em um vetor unitário. Ao fazer isso, esse cara terá um comprimento igual a 1. Então, eu vou colocar este "v" e dizer que ele tem um comprimento igual a 1. Este é o nosso vetor. Agora que aprendemos sobre a derivada direcional, nós sabemos que a taxa na qual a função muda conforme você se move nessa direção pode ser determinada pela derivada direcional da função. Assim, podemos dizer que a derivada direcional na direção de um vetor "v" de uma função em um ponto. Nós temos esse ponto aqui. A gente vai chamá-lo de (a, b). E vamos avaliar essa derivada direcional da função aqui neste ponto (a, b). E para fazer isso, podemos pegar o gradiente da função neste ponto (a, b) (não se esqueça que o gradiente é uma função com um valor vetorial) e aí calculamos o produto escalar disso com este vetor "v" que colocamos aqui. Avaliando isso no ponto (a, b), junto com qualquer que seja o vetor, seja qual for esse valor, que neste caso aqui é um vetor unitário, nós conseguimos determinar a taxa de variação. Quando eu apresentei essa derivada direcional, eu mostrei um vetor que tinha componentes 1 e 2. Inclusive, a gente fez o produto escalar com este vetor [1, 2], com estas derivadas parciais. Este vetor [1, 2] representa um passo na direção "x" e dois passos na direção "y". Então, a quantidade em que variam as coisas deve ser uma vez a variação causada por um passo puro na direção "x" mais duas vezes uma variação causada por um passo puro na direção "y". Claro, isso foi apenas uma espécie de intuição que eu apresentei para você para que a gente começasse a compreender essa ideia de derivada direcional. Inclusive, você pode saber mais sobre isso assistindo ao vídeo de derivada direcional. Enfim, esta expressão vai ser a chave para que a gente possa escolher a direção mais íngreme. Vamos supor que esta variação realizada por "v", quando variamos as coisas nessa direção, talvez a gente varie um pouco negativamente aqui no "f". Agora, vamos supor que a gente tenha um outro vetor "w", que cause uma variação positiva. Sabendo disso, qual vai ser a maior variação aqui em "f"? Ou seja, o que estamos tentando fazer aqui é: para todos os vetores "v" que satisfaçam a propriedade que seu comprimento é 1, encontre o máximo produto escalar entre "f" (avaliado em um ponto que nos interessa) e "v". Como a gente encontra esse máximo? Inicialmente, a gente precisa pensar no que o produto escalar representa. Vamos dizer que aqui neste ponto a gente avaliou o vetor gradiente e que ele aponta nesta direção. Talvez não seja um vetor unitário, talvez seja algo muito maior. Assim, se você imaginar algum vetor unitário "v", vamos dizer que ele está aprontando nesta direção. A forma que você interpreta esse produto escalar, o produto escalar entre o gradiente de "f" e esse novo vetor "v", é que você projetaria esse vetor diretamente aqui, fazendo uma espécie de projeção perpendicular em seu vetor gradiente. E aí a gente determinaria o comprimento dessa projeção. Você sabe que comprimento é este? Bem, apenas como exemplo, vamos dizer que seja algo um pouco menor que 1, porque este é um vetor unitário. Então, vamos dizer que isto seja 0,7. Aí, você multiplica isso pelo comprimento do próprio vetor gradiente. Talvez esse vetor tenha um comprimento igual a 2. Claro, é apenas um exemplo. Não precisa ter esse valor, pode ter qualquer outro. Mas a forma como a gente interpreta esse produto escalar é que ele realiza o cálculo do produto entre estes dois vetores. Ou seja, o produto entre o comprimento de sua projeção com o comprimento do vetor gradiente. Neste caso, é o produto do 2 com o 0,7. Sabendo disso, a pergunta que eu quero fazer para você aqui é: que vetor unitário maximiza isso? Talvez, se você imaginar este vetor unitário sendo rotacionado, ele pode se movimentar um pouco para esta posição. Assim, ele vai estar apontando um pouquinho mais próximo aqui para a direção do vetor maior, do vetor gradiente. Assim, talvez, a projeção vai ser um pouco maior. Talvez essa projeção seja algo como 0,75 ou algo assim. Agora, se você pegar o vetor unitário que aponta diretamente na mesma direção desse outro vetor, aí o comprimento da projeção será apenas igual ao comprimento do próprio vetor. Ou seja, teria um comprimento igual a 1. Porque, ao projetar, não mudaríamos o valor. Então, não deve ser difícil de se convencer e, se você estiver querendo saber um pouco mais sobre a ideia do produto escalar, eu sugiro que você busque um vídeo aqui na Khan Academy. Enfim, isso deve fazer sentido, porque o vetor unitário que aponta na mesma direção do gradiente vai ser o que maximiza. Então, a resposta para qual o vetor que maximiza isso vai ser o gradiente em si, não é? Vai ser o vetor gradiente avaliado no ponto que nos interessa. Exceto pelo fato que precisamos normalizar isso, porque estamos apenas considerando vetores unitários. Para fazer isso, a gente precisa dividir este gradiente pela sua magnitude, pelo módulo do gradiente. Se a magnitude já for 1, permanece 1. Agora, se a magnitude for 2, isso acaba caindo pela metade. Então, esta é a resposta. Esta é a direção da subida mais íngreme. Uma coisa a se notar aqui é o fato de que o gradiente é essa ferramenta para calcular derivadas direcionais. Você pode pensar neste vetor como algo que você deseja realizar um produto escalar com outras coisas, (com outro vetor, como a gente fez aqui, por exemplo). Como consequência, acabamos encontrando a direção da subida mais íngreme. Além disso, isto acabou sendo o próprio vetor. Afinal, estamos dizendo aqui que o que maximiza é o produto escalar com o vetor que aponta na mesma direção do gradiente. O legal é que isso também pode nos dar uma interpretação para o comprimento do gradiente. Mas uma pergunta que eu quero te fazer aqui agora é: nós sabemos que a direção é a direção da subida mais íngreme. Mas qual é o comprimento disso? Para conversar sobre isso, vamos dar um nome para este cara. Vamos chamar esta versão normalizada aqui de "w". Então, "w" será o vetor unitário que aponta na direção do gradiente. Se você calcular a derivada direcional na direção de "w" de "f", teremos isto sendo igual ao produto escalar do gradiente de "f" com o "w". Sabemos que o "w" significa que temos o produto escalar do vetor gradiente com ele mesmo. Mas não se esqueça que ele é "w", e não gradiente, já que estamos normalizando isso. Estamos dividindo isso, não pela magnitude de "f" (isso realmente não faz sentido), mas pelo valor do gradiente. Tudo isto é igual ao gradiente de "f". Aí talvez você pense que é tudo isso sobre o gradiente de "f" avaliado em (a, b) e que eu estou sendo preguiçoso e apenas escrevendo gradiente de "f". Bem, quando você calcula o produto escalar consigo mesmo, isso significa que temos o quadrado de sua magnitude. Mas a coisa toda é dividida pela magnitude. Então, você pode cancelar isso. Você pode dizer que isso não precisa estar aqui, e este expoente não precisa estar aqui também. Assim, a derivada direcional na direção do próprio gradiente tem um valor igual à magnitude do gradiente. Isto diz que, quando você está se movendo nesta direção (na direção do gradiente) a taxa na qual a função muda é dada pela magnitude do gradiente. Então, não há dúvidas que este vetor é realmente mágico. Ele faz muitas coisas. É a ferramenta que permite que você faça o produto escalar com outros vetores para dizer a derivada direcional. Como consequência, temos a direção da subida mais íngreme. E sua magnitude diz a taxa em que as coisas mudam enquanto você se move naquela direção da subida mais íngreme. Isto é, sem dúvida, a parte central do valor escalar das funções multivariáveis. E é a extensão da derivada em todos os sentidos para quando você deseja aplicar a ideia da derivada em diversas situações. Enfim, eu espero que você tenha compreendido toda esta nossa conversa e mais uma vez eu quero deixar para você um grande abraço e até a próxima!