Conteúdo principal
Curso: Cálculo multivariável > Unidade 3
Lição 4: Otimização de funções multivariáveis (artigos)Máximos, mínimos e pontos de sela
Aprenda como se parecem máximos/mínimos locais de uma função de múltiplas variáveis.
Conhecimentos prévios
O que estamos construindo
- Intuitivamente, quando você pensa em termos de gráficos, os máximos locais de funções multivariáveis são picos, assim como nas funções de variável única.
- O gradiente de uma função multivariável em um ponto máximo será o vetor zero, que corresponde ao gráfico ter uma superfície plana tangente.
- Formalmente, um ponto máximo local é um ponto no espaço de entrada tal que todas as outras entradas em uma pequena região perto desse ponto produzem valores menores quando aplicadas na função multivariável
.
Otimização em dimensões superiores
Uma das aplicações mais importantes do cálculo é a sua capacidade de detectar o máximo ou o mínimo de uma função.
- Vamos supor que você esteja administrando uma empresa e precise encontrar uma função para modelar quanto dinheiro espera ganhar, com base em uma série de parâmetros, como os salários dos funcionários, os custos das matérias-primas, etc., e você queira encontrar a combinação certa de recursos que irá maximizar suas receitas.
- Talvez você esteja projetando um carro, na esperança de torná-lo mais aerodinâmico, e tenha encontrado uma função que modela a resistência total do vento em função de muitos parâmetros que definem a forma do seu carro, e queira encontrar a forma que irá minimizar a resistência total.
- Em aprendizado de máquina e inteligência artificial, a forma como um computador "aprende" a fazer algo é, comumente, minimizando uma "função custo" que o programador tenha especificado.
Máximos e mínimos locais, visualmente
Vamos começar pensando nas funções multivariáveis que podemos apresentar graficamente: aquelas com uma entrada bidimensional e uma saída escalar, como essa:
Eu escolhi essa função porque ela tem bons picos e saliências. Chamamos cada um desses picos de máximo local, e o plural é máximos locais.
- O ponto
abaixo de um pico no espaço de entrada (que nesse caso é o plano ) é chamado de ponto de máximo local. - A saída de uma função em um ponto de máximo local, que você pode visualizar como a altura do gráfico acima desse ponto, é o próprio máximo local.
O termo "local" é usado para distingui-los do máximo global da função, que é o maior valor que a função pode atingir. Se você estiver no pico de uma montanha, trata-se de um máximo local, mas a menos que essa montanha seja o Monte Everest, não é um pico global.
Vou dar a definição formal de um ponto máximo local no final desse artigo. Intuitivamente, ele é um ponto especial no espaço de entrada, onde dar um pequeno passo em qualquer direção só irá diminuir o valor da função.
Da mesma forma, se o gráfico tem um pico invertido em um ponto, dizemos que a função tem um ponto mínimo local no valor acima/abaixo desse ponto no plano e o valor da função neste ponto é um mínimo local. Intuitivamente, estes são os pontos em que avançar em qualquer direção só pode aumentar o valor da função.
Pontos estacionários em uma variável (revisão)
Você pode se lembrar do conceito de máximos/mínimos locais do cálculo de variável simples, em que você vê muitos problemas como esse:
Verificação do conceito: para qual valor de a função é maior? Qual é o valor máximo?
No geral, máximos e mínimos locais de uma função são estudados procurando-se os valores de entrada tais que . Isso porque, enquanto a função for contínua e derivável, a reta tangente em picos e vales será horizontal, ou seja, terá inclinação de .
Tal ponto tem vários nomes:
- Ponto estacionário
- Ponto crítico
- Ponto estável
Todos eles significam a mesma coisa:
A condição de que seja contínua e derivável é importante, pois se não fosse contínua, um ponto solitário de descontinuidade poderia ser um máximo local:
E se é contínua, mas não derivável, um máximo local poderia parecer assim:
Em ambos os casos, falar sobre retas tangentes a esses pontos máximos não faz muito sentido, não é?
No entanto, mesmo quando é contínua e derivável, não é suficiente que a derivada seja , uma vez que isso também acontece em pontos de inflexão:
Isso significa que encontrar pontos estáveis é uma boa maneira de começar a busca de um máximo, mas não é necessariamente o fim.
Pontos estacionários em duas variáveis
A história é muito parecida para as funções multivariáveis. Quando a função é contínua e derivável, todas as derivadas parciais serão em um ponto máximo ou mínimo local.
Em relação ao gráfico de uma função, isso significa que o seu plano tangente será reto em um máximo ou mínimo local. Por exemplo, aqui está um gráfico com muitos extremos locais e planos tangentes retos em cada um deles:
Dizer que todas as derivadas parciais são zero em um ponto é o mesmo que dizer o gradiente nesse ponto é o vetor zero:
As pessoas muitas vezes escrevem isso de forma concisa, assim:
A convenção é que as variáveis em negrito são vetores. Então é um vetor dos valores de entrada e é o vetor com todos os zeros.
Tal entrada recebe vários nomes, como no caso de uma variável:
- Ponto estável
- Ponto estacionário
- Ponto crítico
O raciocínio por trás das palavras "estável" e "estacionário" é que quando você se move ligeiramente perto dessa entrada, o valor da função não muda significativamente. A palavra "crítica" sempre me pareceu um pouco dramática demais, como se a função estivesse prestes a expirar perto desses pontos.
Tal como acontece com as funções de uma variável, não é suficiente que o gradiente seja zero para assegurar que um ponto é um máximo ou mínimo local. Por outro lado, você ainda pode ter algo semelhante a um ponto de inflexão:
Mas há também uma possibilidade inteiramente nova, exclusiva das funções multivariáveis.
Pontos de sela
Considere a função . Vamos fazer algumas observações sobre o que acontece em torno da origem
- Ambas as derivadas parciais são
nesse ponto:
Portanto, é um ponto estacionário.
- Quando você se move apenas na direção
em torno desse ponto, a função se parece com . A função com uma única variável tem um mínimo local em . - Quando você se move apenas na direção
em torno desse ponto, o que significa que a função se parece com . A função com uma única variável tem um máximo local em .
Em outras palavras, as direções e discordam sobre se essa entrada deve ser um ponto de máximo ou de mínimo. Assim, embora seja um ponto estacionário, e não seja um ponto de inflexão, ele não pode ser um máximo ou mínimo local!
Veja um vídeo desse gráfico rodando no espaço:
Não é que a região em torno de é parecida com a forma de uma sela de cavalo?
Bem, os matemáticos acharam que sim, e tiveram um daqueles raros momentos em que deram um bom nome para algo: pontos de sela. Por definição, esses são pontos estacionários onde a função tem um máximo local em uma direção, mas um mínimo local em outra direção.
Teste da maximalidade/minimalidade
"Muito bem".
Você diz,
"então não é suficiente que o gradiente seja , uma vez que você pode ter um ponto de inflexão ou um ponto de sela. Porém, como podemos determinar se um ponto estacionário é um máximo ou mínimo local?"
Fico feliz por você ter perguntado! Esse é o tema do próximo artigo, sobre o teste da segunda derivada parcial. Por enquanto, vamos terminar com uma definição formal de um máximo local.
Definição formal
Eu já disse isso antes, mas a razão pela qual se aprende as definições formais, mesmo quando você já tem uma intuição, é entender como ideias matemáticas intuitivas são capturadas com precisão. É uma boa prática para pensar claramente, e também pode ajudar a entender aquelas vezes onde a intuição difere da realidade.
Ao definir um máximo local, vamos usar a notação vetorial para a sua entrada, escrevendo-a como .
Definição formal de um máximo local: uma função de valor escalar tem um máximo local em se existe algum número positivo , pensado como um raio, tal que a seguinte afirmação seja verdadeira:
Isso parece muito, então vamos por partes:
Dizer " " significa que a variável está dentro de uma distância do ponto de máximo . Quando é bidimensional é o mesmo que dizer que fica dentro de um círculo de raio centrado no ponto .
De modo mais geral, se é -dimensional, o conjunto de todos os tais que forma uma bola -dimensional com raio centrado em .
Podemos, então, traduzir essa definição de fala matemática para algo mais semelhante ao português, assim:
é um ponto de máximo de se houver alguma região pequena (em forma de bola) no espaço de entrada em torno do ponto tal que o maior valor possível que você pode obter para calculada em pontos naquela região é atingida no ponto .
Teste sua compreensão: escreva a definição formal para um mínimo local, e pense sobre o que cada componente significa conforme você for anotando (Resista à tentação de simplesmente copiar as palavras da definição acima).
Resumo
- Intuitivamente, quando você pensa em termos de gráficos, os máximos locais de funções multivariáveis são picos, assim como nas funções de variável única.
- O gradiente de uma função multivariável em um ponto máximo será o vetor zero, que corresponde ao gráfico ter uma superfície plana tangente.
- Formalmente, um ponto máximo local é um ponto no espaço de entrada tal que todas as outras entradas em uma pequena região perto desse ponto produzem valores menores quando aplicadas na função multivariável
.
Quer participar da conversa?
Nenhuma postagem por enquanto.