If you're seeing this message, it means we're having trouble loading external resources on our website.

Se você está atrás de um filtro da Web, certifique-se que os domínios *.kastatic.org e *.kasandbox.org estão desbloqueados.

Conteúdo principal

Máximos, mínimos e pontos de sela

Aprenda como se parecem máximos/mínimos locais de uma função de múltiplas variáveis.

Conhecimentos prévios

O que estamos construindo

  • Intuitivamente, quando você pensa em termos de gráficos, os máximos locais de funções multivariáveis são picos, assim como nas funções de variável única.
  • O gradiente de uma função multivariável em um ponto máximo será o vetor zero, que corresponde ao gráfico ter uma superfície plana tangente.
  • Formalmente, um ponto máximo local é um ponto no espaço de entrada tal que todas as outras entradas em uma pequena região perto desse ponto produzem valores menores quando aplicadas na função multivariável f.

Otimização em dimensões superiores

Uma das aplicações mais importantes do cálculo é a sua capacidade de detectar o máximo ou o mínimo de uma função.
  • Vamos supor que você esteja administrando uma empresa e precise encontrar uma função para modelar quanto dinheiro espera ganhar, com base em uma série de parâmetros, como os salários dos funcionários, os custos das matérias-primas, etc., e você queira encontrar a combinação certa de recursos que irá maximizar suas receitas.
  • Talvez você esteja projetando um carro, na esperança de torná-lo mais aerodinâmico, e tenha encontrado uma função que modela a resistência total do vento em função de muitos parâmetros que definem a forma do seu carro, e queira encontrar a forma que irá minimizar a resistência total.
  • Em aprendizado de máquina e inteligência artificial, a forma como um computador "aprende" a fazer algo é, comumente, minimizando uma "função custo" que o programador tenha especificado.

Máximos e mínimos locais, visualmente

Vamos começar pensando nas funções multivariáveis que podemos apresentar graficamente: aquelas com uma entrada bidimensional e uma saída escalar, como essa:
f(x,y)=cos(x)cos(y)ex2y2
Eu escolhi essa função porque ela tem bons picos e saliências. Chamamos cada um desses picos de máximo local, e o plural é máximos locais.
Picos
  • O ponto (x0,y0) abaixo de um pico no espaço de entrada (que nesse caso é o plano xy) é chamado de ponto de máximo local.
  • A saída de uma função em um ponto de máximo local, que você pode visualizar como a altura do gráfico acima desse ponto, é o próprio máximo local.
O termo "local" é usado para distingui-los do máximo global da função, que é o maior valor que a função pode atingir. Se você estiver no pico de uma montanha, trata-se de um máximo local, mas a menos que essa montanha seja o Monte Everest, não é um pico global.
Vou dar a definição formal de um ponto máximo local no final desse artigo. Intuitivamente, ele é um ponto especial no espaço de entrada, onde dar um pequeno passo em qualquer direção só irá diminuir o valor da função.
Da mesma forma, se o gráfico tem um pico invertido em um ponto, dizemos que a função tem um ponto mínimo local no valor (x,y) acima/abaixo desse ponto no plano xy e o valor da função neste ponto é um mínimo local. Intuitivamente, estes são os pontos em que avançar em qualquer direção só pode aumentar o valor da função.
Vales

Pontos estacionários em uma variável (revisão)

Retas tangentes em extremos locais têm inclinação 0
Retas tangentes em extremos locais têm inclinação 0
Você pode se lembrar do conceito de máximos/mínimos locais do cálculo de variável simples, em que você vê muitos problemas como esse:
Verificação do conceito: para qual valor de x a função f(x)=(x2)2+5 é maior? Qual é o valor máximo?
x=
O valor máximo de f é

No geral, máximos e mínimos locais de uma função f são estudados procurando-se os valores de entrada a tais que f(a)=0. Isso porque, enquanto a função for contínua e derivável, a reta tangente em picos e vales será horizontal, ou seja, terá inclinação de 0.
Tal ponto a tem vários nomes:
  • Ponto estacionário
  • Ponto crítico
  • Ponto estável
Todos eles significam a mesma coisa: f(a)=0
A condição de que f seja contínua e derivável é importante, pois se não fosse contínua, um ponto solitário de descontinuidade poderia ser um máximo local:
E se f é contínua, mas não derivável, um máximo local poderia parecer assim:
Em ambos os casos, falar sobre retas tangentes a esses pontos máximos não faz muito sentido, não é?
No entanto, mesmo quando f é contínua e derivável, não é suficiente que a derivada seja 0, uma vez que isso também acontece em pontos de inflexão:
Reta tangente no ponto de inflexão
Isso significa que encontrar pontos estáveis é uma boa maneira de começar a busca de um máximo, mas não é necessariamente o fim.

Pontos estacionários em duas variáveis

A história é muito parecida para as funções multivariáveis. Quando a função é contínua e derivável, todas as derivadas parciais serão 0 em um ponto máximo ou mínimo local.
fx(x0,y0,)Parcial com relação a x=0fy(x0,y0,)Parcial com relação a y=0
Em relação ao gráfico de uma função, isso significa que o seu plano tangente será reto em um máximo ou mínimo local. Por exemplo, aqui está um gráfico com muitos extremos locais e planos tangentes retos em cada um deles:
Invólucro do vídeo da Khan Academy
Dizer que todas as derivadas parciais são zero em um ponto é o mesmo que dizer o gradiente nesse ponto é o vetor zero:
=f(x0,y0,)=[fx(x0,y0,)fy(x0,y0,)]=[00]
As pessoas muitas vezes escrevem isso de forma concisa, assim:
f(x0)=0
A convenção é que as variáveis em negrito são vetores. Então x0 é um vetor dos valores de entrada (x0,y0,) e 0 é o vetor com todos os zeros.
Tal entrada x0 recebe vários nomes, como no caso de uma variável:
  • Ponto estável
  • Ponto estacionário
  • Ponto crítico
O raciocínio por trás das palavras "estável" e "estacionário" é que quando você se move ligeiramente perto dessa entrada, o valor da função não muda significativamente. A palavra "crítica" sempre me pareceu um pouco dramática demais, como se a função estivesse prestes a expirar perto desses pontos.
Tal como acontece com as funções de uma variável, não é suficiente que o gradiente seja zero para assegurar que um ponto é um máximo ou mínimo local. Por outro lado, você ainda pode ter algo semelhante a um ponto de inflexão:
Ponto de inflexão tridimensional
Mas há também uma possibilidade inteiramente nova, exclusiva das funções multivariáveis.

Pontos de sela

Considere a função f(x,y)=x2y2. Vamos fazer algumas observações sobre o que acontece em torno da origem (0,0)
  • Ambas as derivadas parciais são 0 nesse ponto:
x(x2y2)=2x2(0)=0y(x2y2)=2y2(0)=0
Portanto, (0,0) é um ponto estacionário.
  • Quando você se move apenas na direção x em torno desse ponto, a função se parece com f(x,0)=x202=x2. A função com uma única variável f(x)=x2 tem um mínimo local em x=0.
  • Quando você se move apenas na direção y em torno desse ponto, o que significa que a função se parece com f(0,y)=02y2=y2. A função com uma única variável f(y)=y2 tem um máximo local em y=0.
Em outras palavras, as direções x e y discordam sobre se essa entrada deve ser um ponto de máximo ou de mínimo. Assim, embora (0,0) seja um ponto estacionário, e não seja um ponto de inflexão, ele não pode ser um máximo ou mínimo local!
Veja um vídeo desse gráfico rodando no espaço:
Invólucro do vídeo da Khan Academy
Não é que a região em torno de (0,0,0) é parecida com a forma de uma sela de cavalo?
Sela real.
Bem, os matemáticos acharam que sim, e tiveram um daqueles raros momentos em que deram um bom nome para algo: pontos de sela. Por definição, esses são pontos estacionários onde a função tem um máximo local em uma direção, mas um mínimo local em outra direção.

Teste da maximalidade/minimalidade

"Muito bem".
Você diz,
"então não é suficiente que o gradiente seja 0, uma vez que você pode ter um ponto de inflexão ou um ponto de sela. Porém, como podemos determinar se um ponto estacionário é um máximo ou mínimo local?"
Fico feliz por você ter perguntado! Esse é o tema do próximo artigo, sobre o teste da segunda derivada parcial. Por enquanto, vamos terminar com uma definição formal de um máximo local.

Definição formal

Eu já disse isso antes, mas a razão pela qual se aprende as definições formais, mesmo quando você já tem uma intuição, é entender como ideias matemáticas intuitivas são capturadas com precisão. É uma boa prática para pensar claramente, e também pode ajudar a entender aquelas vezes onde a intuição difere da realidade.
Ao definir um máximo local, vamos usar a notação vetorial para a sua entrada, escrevendo-a como x.
Definição formal de um máximo local: uma função de valor escalar f tem um máximo local em x0 se existe algum número positivo r>0, pensado como um raio, tal que a seguinte afirmação seja verdadeira:
f(x)f(x0) para todo x tal que ||xx0||<r
Isso parece muito, então vamos por partes:
Dizer "||xx0||<r" significa que a variável x está dentro de uma distância r do ponto de máximo x0. Quando x é bidimensional é o mesmo que dizer que x fica dentro de um círculo de raio r centrado no ponto x0.
Diagrama que traduz ||xx0||<r
De modo mais geral, se x é n-dimensional, o conjunto de todos os x tais que ||xx0||<r forma uma bola n-dimensional com raio r centrado em x0.
Bola tridimensional
Podemos, então, traduzir essa definição de fala matemática para algo mais semelhante ao português, assim:
  • x0 é um ponto de máximo de f se houver alguma região pequena (em forma de bola) no espaço de entrada em torno do ponto x0 tal que o maior valor possível que você pode obter para f calculada em pontos naquela região é atingida no ponto x0.
Teste sua compreensão: escreva a definição formal para um mínimo local, e pense sobre o que cada componente significa conforme você for anotando (Resista à tentação de simplesmente copiar as palavras da definição acima).

Resumo

  • Intuitivamente, quando você pensa em termos de gráficos, os máximos locais de funções multivariáveis são picos, assim como nas funções de variável única.
  • O gradiente de uma função multivariável em um ponto máximo será o vetor zero, que corresponde ao gráfico ter uma superfície plana tangente.
  • Formalmente, um ponto máximo local é um ponto no espaço de entrada tal que todas as outras entradas em uma pequena região perto desse ponto produzem valores menores quando aplicadas na função multivariável f.

Quer participar da conversa?

Nenhuma postagem por enquanto.
Você entende inglês? Clique aqui para ver mais debates na versão em inglês do site da Khan Academy.