Conteúdo principal
Cálculo multivariável
Curso: Cálculo multivariável > Unidade 2
Lição 2: Gradiente e derivadas direcionais- Gradiente
- Cálculo de gradientes
- Gradientes e gráficos
- Gradiente visual
- Gradientes e mapas de contorno
- Derivadas direcionais
- Derivada direcional, definição formal
- Cálculo de derivadas direcionais
- Derivada direcional e inclinação
- Por que o gradiente está na direção do aclive máximo.
© 2023 Khan AcademyTermos de usoPolítica de privacidadeAviso de cookies
Por que o gradiente está na direção do aclive máximo.
A forma como calculamos o gradiente parece não estar relacionada à interpretação de que ele é a direção do aclive máximo. Aqui você pode ver como os dois se relacionam. Versão original criada por Grant Sanderson.
Quer participar da conversa?
Nenhuma postagem por enquanto.
Transcrição de vídeo
RKA2MP - Olá, meu amigo ou minha amiga!
Tudo bem com você? Seja muito bem-vindo ou bem-vinda
a mais um vídeo da Khan Academy Brasil. Neste vídeo, vamos conversar sobre por que o gradiente é em direção
da subida mais íngreme . Não se esqueça que até agora, quando eu falei sobre o gradiente
de uma função, que aqui vamos pensar nessa função como sendo uma função multivariável
com apenas duas entradas, já que é mais fácil pensar assim, em que essa função é igual a x² + y², que é uma função muito amigável. Quando eu falei sobre o gradiente,
eu deixei um mistério aberto. Eu já vou falar para você
sobre o que é esse mistério. A gente tem aqui a forma
de calcular esse gradiente. Colocamos aqui as derivadas parciais
de uma função. Para essa função,
temos aqui a parcial em relação a "x" e aqui temos a parcial em relação a "y". Mas, se fosse uma entrada
de dimensão superior, a saída teria que ter
quantas variáveis fosse preciso. Se fosse, por exemplo, f(x, y, z), você teria aqui ∂x, ∂y e ∂z. E essa é a maneira de calcular isso. A gente também fez
uma discussão gráfica aqui do gradiente e eu falei com você que o gradiente
aponta na direção mais íngreme, ou a direção com uma subida
mais inclinada aqui no gráfico. E, talvez, a maneira como você
pensa nisso é que você tem aqui o espaço de entrada,
que neste caso é o plano xy, e aí, de alguma forma, esse plano
vai ser mapeado aqui para a reta numérica, que neste caso é o espaço de saída. Aí, se você tem um determinado o ponto
em algum lugar, a questão aqui a fazer é: dentre todas as direções possíveis
que você pode se afastar desse ponto, dentre todas as direções que você pode ir, qual delas vai resultar em um aumento
maior aqui nesta função? Ou seja, conforme você se move aqui
nas várias direções, talvez um deles dê um leve empurrão
aqui na saída. Talvez outro dê um grande empurrão. Outro, quem sabe,
dê um empurrão um pouco negativo e outro dê um grande empurrão negativo. Observando todas essas direções, qual resulta em um maior aumento
na sua função? Bem, eu meio que já falei com você
sobre isso de uma forma intuitiva. Agora, se você quiser pensar
em termos de gráficos, a gente pode olhar aqui
o gráfico de f(x² + y²). Aqui nós temos o campo de gradiente. Todos estes vetores no plano xy
são os gradientes. Quando você olha aqui debaixo, vai ver todos estes vetores apontando
para uma determinada direção. Cada uma destas direções
diz a você para onde você deve se mover para subir a colina naquele gráfico
o mais rápido que você puder. Se você fosse um alpinista, por exemplo, e quisesse chegar ao topo
o mais rápido possível, estes vetores vão te indicar a direção
em que você deve se mover para chegar ao topo
o mais rápido possível. É por isso que a gente chama isto
de subida mais íngreme. Voltando aqui para a tela: eu não vejo
essa conexão imediatamente. E eu lembro que, quando eu estava
aprendendo isso pela primeira vez, não estava muito claro por que
essa combinação de derivadas parciais tem algo a ver com escolher
a melhor direção. Porém, agora que aprendemos
a derivada direcional, isso começa a ficar mais claro. Sabendo disso, vamos dizer que, em vez de pensar em todas
as direções possíveis e todas as mudanças possíveis
para a saída dessas direções, vamos avaliar um único vetor. Vamos dizer que temos um vetor e vamos transformá-lo
em um vetor unitário. Ao fazer isso, esse cara terá
um comprimento igual a 1. Então, eu vou colocar este "v" e dizer
que ele tem um comprimento igual a 1. Este é o nosso vetor. Agora que aprendemos
sobre a derivada direcional, nós sabemos que a taxa na qual a função
muda conforme você se move nessa direção pode ser determinada
pela derivada direcional da função. Assim, podemos dizer
que a derivada direcional na direção de um vetor "v"
de uma função em um ponto. Nós temos esse ponto aqui.
A gente vai chamá-lo de (a, b). E vamos avaliar essa derivada direcional
da função aqui neste ponto (a, b). E para fazer isso, podemos pegar
o gradiente da função neste ponto (a, b) (não se esqueça que o gradiente
é uma função com um valor vetorial) e aí calculamos o produto escalar disso
com este vetor "v" que colocamos aqui. Avaliando isso no ponto (a, b),
junto com qualquer que seja o vetor, seja qual for esse valor,
que neste caso aqui é um vetor unitário, nós conseguimos determinar
a taxa de variação. Quando eu apresentei
essa derivada direcional, eu mostrei um vetor
que tinha componentes 1 e 2. Inclusive, a gente fez o produto escalar com este vetor [1, 2],
com estas derivadas parciais. Este vetor [1, 2] representa
um passo na direção "x" e dois passos na direção "y". Então, a quantidade
em que variam as coisas deve ser uma vez a variação causada
por um passo puro na direção "x" mais duas vezes uma variação causada
por um passo puro na direção "y". Claro, isso foi apenas uma espécie
de intuição que eu apresentei para você para que a gente começasse a compreender
essa ideia de derivada direcional. Inclusive, você pode saber mais sobre isso assistindo ao vídeo
de derivada direcional. Enfim, esta expressão vai ser a chave para que a gente possa escolher
a direção mais íngreme. Vamos supor que esta variação
realizada por "v", quando variamos as coisas nessa direção, talvez a gente varie
um pouco negativamente aqui no "f". Agora, vamos supor
que a gente tenha um outro vetor "w", que cause uma variação positiva. Sabendo disso, qual vai ser
a maior variação aqui em "f"? Ou seja, o que estamos
tentando fazer aqui é: para todos os vetores "v" que satisfaçam
a propriedade que seu comprimento é 1, encontre o máximo produto escalar entre "f" (avaliado em um ponto
que nos interessa) e "v". Como a gente encontra esse máximo? Inicialmente, a gente precisa pensar
no que o produto escalar representa. Vamos dizer que aqui neste ponto
a gente avaliou o vetor gradiente e que ele aponta nesta direção. Talvez não seja um vetor unitário,
talvez seja algo muito maior. Assim, se você imaginar
algum vetor unitário "v", vamos dizer que ele está aprontando
nesta direção. A forma que você interpreta
esse produto escalar, o produto escalar entre o gradiente de "f"
e esse novo vetor "v", é que você projetaria esse vetor
diretamente aqui, fazendo uma espécie de projeção
perpendicular em seu vetor gradiente. E aí a gente determinaria o comprimento
dessa projeção. Você sabe que comprimento é este? Bem, apenas como exemplo, vamos dizer
que seja algo um pouco menor que 1, porque este é um vetor unitário. Então, vamos dizer que isto seja 0,7. Aí, você multiplica isso pelo comprimento
do próprio vetor gradiente. Talvez esse vetor tenha
um comprimento igual a 2. Claro, é apenas um exemplo. Não precisa ter esse valor,
pode ter qualquer outro. Mas a forma como a gente interpreta
esse produto escalar é que ele realiza o cálculo do produto
entre estes dois vetores. Ou seja, o produto entre
o comprimento de sua projeção com o comprimento do vetor gradiente. Neste caso, é o produto do 2 com o 0,7. Sabendo disso, a pergunta
que eu quero fazer para você aqui é: que vetor unitário maximiza isso? Talvez, se você imaginar
este vetor unitário sendo rotacionado, ele pode se movimentar um pouco
para esta posição. Assim, ele vai estar apontando
um pouquinho mais próximo aqui para a direção do vetor maior, do vetor gradiente. Assim, talvez, a projeção
vai ser um pouco maior. Talvez essa projeção seja algo como 0,75
ou algo assim. Agora, se você pegar o vetor unitário que aponta diretamente na mesma direção
desse outro vetor, aí o comprimento da projeção será apenas
igual ao comprimento do próprio vetor. Ou seja, teria um comprimento igual a 1. Porque, ao projetar,
não mudaríamos o valor. Então, não deve ser difícil
de se convencer e, se você estiver querendo saber um pouco
mais sobre a ideia do produto escalar, eu sugiro que você busque
um vídeo aqui na Khan Academy. Enfim, isso deve fazer sentido, porque o vetor unitário que aponta
na mesma direção do gradiente vai ser o que maximiza. Então, a resposta para qual o vetor
que maximiza isso vai ser o gradiente em si, não é? Vai ser o vetor gradiente avaliado
no ponto que nos interessa. Exceto pelo fato
que precisamos normalizar isso, porque estamos apenas considerando
vetores unitários. Para fazer isso, a gente precisa dividir
este gradiente pela sua magnitude, pelo módulo do gradiente. Se a magnitude já for 1, permanece 1. Agora, se a magnitude for 2,
isso acaba caindo pela metade. Então, esta é a resposta. Esta é a direção da subida mais íngreme. Uma coisa a se notar aqui
é o fato de que o gradiente é essa ferramenta
para calcular derivadas direcionais. Você pode pensar neste vetor
como algo que você deseja realizar um produto escalar com outras coisas, (com outro vetor,
como a gente fez aqui, por exemplo). Como consequência, acabamos encontrando
a direção da subida mais íngreme. Além disso, isto acabou sendo
o próprio vetor. Afinal, estamos dizendo aqui
que o que maximiza é o produto escalar com o vetor
que aponta na mesma direção do gradiente. O legal é que isso também
pode nos dar uma interpretação para o comprimento do gradiente. Mas uma pergunta que eu quero te fazer
aqui agora é: nós sabemos que a direção
é a direção da subida mais íngreme. Mas qual é o comprimento disso? Para conversar sobre isso,
vamos dar um nome para este cara. Vamos chamar esta versão
normalizada aqui de "w". Então, "w" será o vetor unitário
que aponta na direção do gradiente. Se você calcular a derivada direcional
na direção de "w" de "f", teremos isto sendo igual
ao produto escalar do gradiente de "f" com o "w". Sabemos que o "w" significa que temos
o produto escalar do vetor gradiente com ele mesmo. Mas não se esqueça que ele é "w",
e não gradiente, já que estamos normalizando isso. Estamos dividindo isso, não pela magnitude de "f"
(isso realmente não faz sentido), mas pelo valor do gradiente. Tudo isto é igual ao gradiente de "f". Aí talvez você pense que é tudo isso sobre o gradiente
de "f" avaliado em (a, b) e que eu estou sendo preguiçoso
e apenas escrevendo gradiente de "f". Bem, quando você calcula
o produto escalar consigo mesmo, isso significa que temos
o quadrado de sua magnitude. Mas a coisa toda é dividida
pela magnitude. Então, você pode cancelar isso. Você pode dizer
que isso não precisa estar aqui, e este expoente não precisa
estar aqui também. Assim, a derivada direcional
na direção do próprio gradiente tem um valor igual
à magnitude do gradiente. Isto diz que, quando você está se movendo
nesta direção (na direção do gradiente) a taxa na qual a função muda é dada
pela magnitude do gradiente. Então, não há dúvidas que este vetor
é realmente mágico. Ele faz muitas coisas. É a ferramenta que permite que você faça
o produto escalar com outros vetores para dizer a derivada direcional. Como consequência,
temos a direção da subida mais íngreme. E sua magnitude diz a taxa
em que as coisas mudam enquanto você se move naquela direção
da subida mais íngreme. Isto é, sem dúvida, a parte central do valor
escalar das funções multivariáveis. E é a extensão da derivada
em todos os sentidos para quando você deseja aplicar
a ideia da derivada em diversas situações. Enfim, eu espero que você tenha
compreendido toda esta nossa conversa e mais uma vez eu quero deixar para você
um grande abraço e até a próxima!