Está en la página 1de 28

Capı́tulo 3

Máximos y mı́nimos.

Uno de los conceptos principales en ingenierı́a es el de optimización: esencialmente,


optimizar es sacar el mejor partido posible de los recursos (limitados) que tenemos, te-
niendo en cuenta las restricciones (de presupuesto, personal, de seguridad, etc.) que se nos
imponen. Matemáticamente, tiene que ver con maximizar o minimizar una variable (pode-
mos maximizar el rendimiento, la duración, la resistencia, la capacidad, etc., o minimizar
el tiempo de fabricación, el coste, etc.) que depende de otra, o de otras; por lo tanto, se
trata de determinar máximos y mı́nimos de funciones. Esto es bien conocido en el caso de
funciones de una variable. Por ejemplo, si queremos construir un cilindro de 330 mililitros
de volumen (la capacidad de una lata de refresco), se puede comprobar que si x es el radio
de la base del cilindro, la superficie de metal necesaria para construirlo es

660
f (x) = 2πx2 + .
x

Si queremos determinar cuál debe ser el radio del cilindro para minimizar la superficie de
metal necesaria para construir la lata (y por tanto, cómo debe ser el cilindro, ya que la
condición de que el volumen sea igual a 330 hace que la altura del cilindro dependa del
radio de la base), basta con determinar el mı́nimo de f (x). Para ello, teniendo en cuenta
que
660
f ′ (x) = 4πx − 2 ,
x
q
e igualando a cero, se tiene x = 3 660 4π
≈ 8, 033 cm; puede comprobarse, por ejemplo
utilizando f ′′ (x), que para ese valor de x, se alcanza efectivamente un mı́nimo. Para ese
valor del radio, estamos optimizando la fabricación de la lata, ya que estamos minimizan-
do la cantidad de metal necesario para construirla (y por tanto, el coste y el tiempo de
fabricación)1
1
Por cierto, acabo de ir al frigorı́fico y medir la base de una lata de refresco. Las dimensiones de las
latas que se comercializan son otras, luego entiendo que intervienen otras variables, por ejemplo estéticas,
etc.

53
54 CAPÍTULO 3. MÁXIMOS Y MÍNIMOS.

La pregunta es: ¿tiene sentido hablar de máximos y mı́nimos para funciones de varias
variables? Y en caso afirmativo, ¿cómo calcularlos? Esta es la cuestión que trataremos en
este tema.

3.1. Derivadas de orden superior.


Cuando derivamos una función f (x) de una variable, decimos que hemos calculado la
derivada, o la derivada primera, f ′ (x). Si derivamos f ′ (x), diremos que hemos calculado la
derivada segunda, f ′′ (x). Si a su vez derivamos f ′′ (x) entonces hemos calculado la derivada
tercera, f ′′′ (x), etc.
En el caso de funciones de varias variables, podemos hacer algo parecido; de hecho
tenemos más posibilidades, porque podemos derivar con respecto a diversas variables. Dada
f (x, y), sus derivadas parciales, que ahora podemos llamar también derivadas parciales
primeras, son, como es bien conocido, fx y fy . Las derivadas parciales segundas son:

∂ 2f
 
∂ ∂f
fxx = (fx )x = =
∂x ∂x ∂x2
∂ 2f
 
∂ ∂f
fyy = (fy )y = =
∂y ∂y ∂y 2
Y dos más, que llamamos derivadas mixtas o, más habitualmente, derivadas cruzadas,

∂ 2f
 
∂ ∂f
fyx = (fy )x = =
∂x ∂y ∂x∂y

∂ 2f
 
∂ ∂f
fxy = (fx )y = = .
∂y ∂x ∂y∂x
Por lo tanto, una función f (x, y) tiene dos derivadas primeras (o de orden 1), cuatro
derivadas segundas (o de orden 2), ocho derivadas terceras (o de orden 3), correspondientes
a derivar cada una de las derivadas segundas respecto a x ó respecto a y, etc. Análogamente,
una función F (x, y, z) tiene tres derivadas primeras, nueve derivadas segundas, veintisiete
derivadas terceras... Sin embargo, algunas de esas derivadas, bajo buenas condiciones, serán
iguales. Veamos un ejemplo:

Ejemplo 15. Consideremos f (x, y) = x3 + x2 y 3 − 2y 2 . Entonces,

fx = 3x2 + 2xy 3 , fy = 3x2 y 2 − 4y.

Además,
fxx = 6x + 2y 3 , fxy = 6xy 2 , fyx = 6xy 2 , fyy = 6x2 y − 4.

En el ejemplo anterior observamos que fxy = fyx . Esta igualdad no es casual, sino que
es consecuencia del teorema siguiente.
3.1. DERIVADAS DE ORDEN SUPERIOR. 55

Teorema 28 (Lema de Schwartz para dos variables). Sea z = f (x, y) : D ⊂ R2 → R,


función continua en un entorno del punto (a, b). Si fx , fy , fxy , fyx son continuas en este
entorno, entonces:
fxy (a, b) = fyx (a, b)
.

Si tenemos una función F (x) con x ∈ Rn , es decir, una función de más de dos variables,
el resultado es análogo.

Teorema 29. (Lema de Schwartz) Sea F (x) : D ⊂ Rn → R, función continua en un


entorno del punto x = a. Si Fxi , Fxj , Fxi xj , Fxj xi son continuas en este entorno, entonces:

Fxi xj (a) = Fxj xi (a).

De hecho, el resultado anterior se puede generalizar para derivadas de cualquier orden.


La idea es que, siempre que las derivadas hasta orden k sean continuas, el resultado de la
derivada de orden k sólo depende del número de veces que haya que derivar con respecto
a cada variable, y no del orden en que derivemos. Por ejemplo,

∂ 8F
,
∂x2 ∂y∂z 2 ∂x3

nos indica que hay que tomar una función F (x, y, z), derivarla tres veces respecto a x,
luego dos veces respecto a z, luego una respecto a y, y finalmente dos veces más respeto a
x. Bajo buenas condiciones, lo que podemos asegurar es que el resultado de esa derivada
será igual al de
∂ 8F
,
∂x5 ∂y∂z 2
donde primero derivamos dos veces respecto a z, luego respecto a y, y luego cinco veces
respecto a x, y también igual a

∂ 8F
,
∂x∂y∂x∂z∂x∂z∂x∂x

donde derivamos respecto a cada variable el mismo número de veces que antes, pero con
un orden mucho más caprichoso. El siguiente resultado corresponde a esta idea. Aquı́ se
utiliza la noción de función de clase C k : decimos que una función es de clase C k si la
función y todas sus derivadas hasta orden k son continuas.

Teorema 30. Sea F (x) : D ⊂ Rn → R, de clase C k en un entorno del punto a. Entonces,


cualquier derivada de orden k de F en a depende exclusivamente de las variables con
respecto a las que se derive, y del número de veces que se derive con respecto a cada
variable, y no del orden en que se derive.
56 CAPÍTULO 3. MÁXIMOS Y MÍNIMOS.

3.2. Extremos locales.


Consideremos en primer lugar una función de una variable, y = f (x), como se muestra
en Fig. 3.1. Los extremos locales, es decir, los máximos y los mı́nimos locales,
se alcanzan en los valores de x para los cuáles la función está localmente por encima
(mı́nimos) o por debajo (máximos) de sus inmediatos vecinos. Por ejemplo, en Fig. 3.1
tenemos máximos locales en P1 y P3 , y un mı́nimo local en P2 . En el caso de funciones
de una variable, los extremos locales se alcanzan o bien en puntos donde la recta tangente
a la gráfica de la función sea horizontal (el caso de P1 y P2 ), o bien en puntos donde la
función no sea derivable, es decir, donde no sea posible trazar la recta tangente (el caso de
P3 ). El recı́proco es falso, ya que podemos tener puntos donde la tangente sea horizontal,
pero donde no tengamos máximo ni mı́nimo local (podemos tener un punto de inflexión),
o puntos donde la función no sea derivable, pero no haya tampoco extremo local. Además,
que la tangente sea horizontal significa que f ′ (x) = 0: por lo tanto, los puntos donde la
derivada se anula son candidatos a extremo local. En la práctica, para localizar los extremos
locales de f (x), calculamos primero los valores de x donde f ′ (x) = 0 y donde f (x) no es
derivable, y después, entre esos valores, buscamos los extremos locales.

y y = f (x)
P3
P1

P2
x
a I b

Figura 3.1: Extremos locales y absolutos de una función de una variable.

También podemos hablar de extremos absolutos, pero eso requiere que fijemos un inter-
valo I ⊂ R (que puede ser toda la recta real). El máximo absoluto de una función f (x)
sobre un intervalo I, es simplemente el mayor valor que alcanza la función en el intervalo;
análogamente, el mı́nimo absoluto es el menor valor que alcanza la función f (x) sobre I.
Para calcularlo, debemos tener en cuenta dos cosas: (i) los valores que alcanza la función
en los posibles extremos locales comprendidos en I (es decir, en los valores de x ∈ I donde
f ′ (x) = 0, o donde f (x) no es derivable); (ii) los valores de la función en los extremos de I
(es decir, si I = [a, b], los valores f (a) y f (b), y si alguno de los extremos de I es ±∞, el
lı́mite correspondiente). Esencialmente, reunimos todos esos valores, y buscamos el menor
y el mayor; el menor corresponde al mı́nimo absoluto, y el mayor, al máximo absoluto.
Por ejemplo, en el caso de la función de Fig. 3.1, el mı́nimo absoluto se alcanza en x = a,
3.2. EXTREMOS LOCALES. 57

mientras que el máximo absoluto se alcanza en x = x3 , es decir, en el punto P3 .


Para hablar con propiedad, conviene observar que a lo que llamamos mı́nimo absolu-
to es al valor de la función en el punto correspondiente, y análogamente para el máximo
absoluto; por lo tanto, en el caso de Fig. 3.1 el mı́nimo absoluto es f (a), mientras que
el máximo absoluto es f (x3 ) (la ordenada de P3 ). Algunas observaciones adicionales: no
está garantizado que el máximo ni el mı́nimo absolutos existan o se alcancen en puntos con-
cretos, porque eso depende del comportamiento de la función en el intervalo. Por ejemplo,
la función de Fig. 3.1 no tiene mı́nimo absoluto cuando I = R, ya que cuando x → ±∞,
f (x) → −∞; sin embargo, sı́ tiene máximo absoluto. No obstante, si f (x) es continua, y
el intervalo I es cerrado y acotado (la palabra técnica es compacto), entonces sı́ podemos
garantizar que f (x) alcanza su máximo y mı́nimo absolutos, en puntos concretos. Puede
también suceder que el máximo o mı́nimo absolutos se alcancen simultáneamente en varios
puntos a la vez (cuando la función alcanza su valor más alto o más bajo en varios puntos,
simultáneamente).

Vamos ahora a generalizar estos conceptos para el caso de funciones de dos variables,
f (x, y). En esta sección nos centraremos en los extremos locales; en la sección siguiente
trataremos los extremos absolutos. Intuitivamente, si f (x, y) presenta un máximo local en
un punto p = (a, b), el punto de la gráfica de f (x, y) (es decir, de la superficie z = f (x, y))
al que da lugar aparece como una “cumbre”de la superficie (véase Fig. 3.2). Análogamente,
si f (x, y) presenta un mı́nimo local en un punto p = (a, b), el punto correspondiente de
z = f (x, y) aparece como un “valle”, o un “pozo”de la superficie (véase Fig. 3.2, también).

Figura 3.2: Extremos locales de una función de dos variables.

Formalicemos las definiciones de extremo local. Intuitivamente, hemos dicho que una
función alcanza un mı́nimo local (resp. máximo local) en p cuando está por debajo (resp.
por encima) de sus vecinos inmediatos. La definición siguiente persigue definir esto con
más precisión. En esta definición aparece el concepto de entorno de un punto: si p ∈ R2 ,
un entorno Ep ⊂ R2 de p (abreviadamente, E) es simplemente un subconjunto del plano
que contiene a p; por ejemplo, en Fig. 3.3 se muestra un entorno del origen.
58 CAPÍTULO 3. MÁXIMOS Y MÍNIMOS.

Definición 31. Sea f : U ⊂ R2 → R y sea p = (x0 , y0 ) un punto interior de U .


1. f (x, y) alcanza un máximo local (o relativo) en p si existe E, entorno de p, tal
que f (x, y) ≤ f (p) para todo (x, y) ∈ E.

2. f (x, y) alcanza un mı́nimo local (o relativo) en p si existe E, entorno de p, tal que


f (x, y) ≥ f (p) para todo (x, y) ∈ E.

3. Diremos que f alcanza un extremo local (o relativo) en p si en él alcanza un


máximo o un mı́nimo relativo.
Nos preguntamos ahora cómo calcular los extremos locales de f (x, y). Para ello, obser-
vamos que en los máximos y mı́nimos locales, si hay plano tangente, éste es horizontal (ver
Fig. 3.2). Puesto que la ecuación del plano tangente en el punto p = (a, b) de la gráfica de
f (x, y) es, según vimos,

fx (p)(x − a) + fy (p)(y − b) − (z − f (p)) = 0,

y puesto que un plano horizontal es de la forma z = c, para que el plano tangente en


p = (a, b) sea horizontal, debe cumplirse que fx (p) = fy (p) = 0. Esto motiva la siguiente
definición.
Definición 32. El punto p = (a, b) es un punto crı́tico de la función f (x, y) si se cumple
alguna de estas condiciones:
1. Alguna de las derivadas parciales de f en p no existe.

2. Las dos derivadas parciales de f en p existen y son nulas: fx (p) = fy (p) = 0, es


~ (p) = 0.
decir, ∇f
~ (p) = 0, decimos que p es un punto
Además, en el segundo caso, es decir, cuando ∇f
estacionario.
Conforme a lo anterior, los extremos locales de f (x, y) están entre los puntos crı́ticos
de f (x, y); es decir, se tiene el siguiente resultado.
Teorema 33. Sean D ⊂ R2 abierto y f : D ⊂ R2 → R diferenciable. Si p es un extremo
local de f , entonces es un punto crı́tico de f .
Observemos también que el teorema anterior puede demostrarse también teniendo en
cuenta que si f (x, y) tiene un, digamos, máximo, en p = (a, b), entonces f (x, b), como
función de una variable, tiene también un máximo en x = a. Si f (x, b) es derivable en
x = a, es decir, si existe fx (a, b), entonces esta derivada debe ser nula. Análogamente para
f (a, y). Esta idea puede generalizarse al caso de un mayor número de variables.
El recı́proco del Teorema 33 no es cierto, es decir, hay puntos crı́ticos de f (x, y) que no
son, sin embargo, extremos locales. Por ejemplo, consideremos la función f (x, y) = y 2 − x2 .
El punto (0, 0) es un punto crı́tico de f (x, y), ya que fx = −2x, fy = 2y, y por tanto
3.2. EXTREMOS LOCALES. 59

fx (0, 0) = fy (0, 0) = 0. Sin embargo, observemos que en (0, 0), la función f (x, y) no tiene
ni máximo ni mı́nimo local. En efecto, f (0, 0) = 02 −02 = 0. Por lo tanto, si fuera un mı́nimo
local, en las proximidades del (0, 0) tendrı́amos que f (x, y) ≥ f (0, 0), es decir, y 2 − x2 ≥ 0.
Sin embargo, eso no es cierto, porque en cualquier punto de la forma (x0 , 0), con x0 6= 0
(y cualquier entorno del (0, 0) contiene puntos de ese tipo) se tiene f (x0 , 0) = −x20 < 0.
Pero tampoco hay un mı́nimo local en (0, 0): si lo fuera, en las proximidades del (0, 0)
tendrı́amos que f (x, y) ≤ f (0, 0), es decir, y 2 − x2 ≤ 0, pero eso de nuevo es falso porque
en cualquier punto (0, y0 ), con y0 6= 0, se tiene f (0, y0 ) = y02 > 0. En Fig. 3.3, se puede
observar cómo cualquier entorno de (0, 0) contiene puntos (x0 , 0), con x0 6= 0, y (0, y0 ), con
y0 6= 0.

y
(0, y0)
(x0, 0)

Figura 3.3: Cualquier entorno del origen contiene puntos (x0 , 0) y (0, y0 ).

Definición 34. El punto p = (a, b) es un punto de silla de la función f (x, y) si es un


punto estacionario de la función, pero no es un extremo local. 2

Cabe preguntarse cuál es el aspecto de una superficie en las proximidades de un punto


de silla. Mientras que en un máximo o mı́nimo local la superficie queda localmente a un sólo
lado del plano tangente (por debajo, en el caso del máximo, y por encima, en el caso del
mı́nimo), en un punto de silla el plano tangente atraviesa la superficie, que queda a ambos
lados de él. Una imagen clásica, que además justifica la expresión “punto de silla”(por su
similitud con una silla de montar) es la del paraboloide z = y 2 − x2 , en las proximidades
del origen (ver Fig. 3.4).
Es útil, por lo tanto, disponer de algún criterio que nos indique la naturaleza de un
punto estacionario, es decir, que nos ayude a decidir si en el punto en cuestión hay un
máximo o mı́nimo local, o un punto de silla. Para ello, introducimos la siguiente definición.

Definición 35. Supongamos que f : U ⊂ R2 −→ R es de clase C 2 en un punto p ∈ U . La


matriz Hessiana de f en p es
2
Observemos que para que podamos hablar de punto estacionario, las parciales deben existir (y ser
nulas).
60 CAPÍTULO 3. MÁXIMOS Y MÍNIMOS.

Figura 3.4: El paraboloide z = y 2 − x2 en las proximidades de su punto de silla.

∂ 2f ∂ 2f
  
∂   
 ∂x2 (p) (p)  ← (p) ~
∇f →
Hf (p) =  ∂x∂y = ∂x 
 ∂ 2f ∂ 2f   ∂  
~

(p) (p) ← (p) ∇f →
∂y∂x ∂y 2 ∂y
El Hessiano de f en p es el determinante de Hf (p).
Observemos que, bajo “buenas condiciones”(es decir, siempre que las derivadas primeras
y las derivadas cruzadas sean continuas), por el Lema de Schwartz, Hf (p) es simétrica.
Por simplicidad, en lo que sigue asumiremos que esa condición se da, y escribiremos
 
A B
Hf (p) = .
B C

Escribimos también det (Hf (p)) = D = AC − B 2 .


La matriz hessiana nos permite determinar la naturaleza de un punto crı́tico en ciertos
casos, como indica el siguiente resultado. Este resultado se justifica en la Sección 3.5.
Teorema 36. Para f : R2 → R de clase C 2 en un entorno del punto crı́tico (x0 , y0 ):

1. Si D > 0, entonces f tiene


Un mı́nimo local en (x0 , y0 ) si A > 0.
Un máximo local en (x0 , y0 ) si A < 0.
2. Si D < 0, entonces (x0 , y0 ) es un punto de silla.

Observemos que el teorema anterior no cubre todos los casos: por ejemplo, si D = 0, o
si D > 0 y A = 0, el teorema no nos dice nada, y tenemos que recurrir a la Definición 31
para aclarar qué sucede en el punto. Veamos primero un ejemplo de aplicación del Teorema
36. Después veremos otro ejemplo donde el teorema no aporta nada, y donde tendremos
que recurrir a la definición.
3.2. EXTREMOS LOCALES. 61

Ejemplo 16. Sea f (x, y) = x3 + y 3 − 2xy. Como la función es polinómica, las parciales
fx = 3x2 − 3y, y fy = 3y 2 − 3x están siempre definidas, y por lo tanto los puntos crı́ticos
corresponden a los puntos (x, y) donde fx = fy = 0, es decir, a las soluciones del sistema
polinómico:  2
3x − 3y = 0,
3y 2 − 3x = 0.
En la primera ecuación despejamos y = x2 ; en la segunda, x = y 2 . Por lo tanto, se tiene
x = (x2 )2 , es decir, x4 − x = 0. Luego x = 0, x = 1. Si x = 0, entonces y = 0, y si x = 1,
y = 1, luego los puntos crı́ticos son P1 = (0, 0), y P2 = (1, 1). Para estudiar la naturaleza
de cada uno, calculamos la matriz hessiana,
 
6x −3
Hf (x, y) = ,
−3 6y
y el hessiano, entonces, es
det(Hf (x, y)) = 36xy − 9.
Como  
0 −3
Hf (0, 0) = ,
−3 0
cuyo determinante es −9, aplicando el criterio del Teorema 36 se tiene que (0, 0) es un
punto de silla. En cambio,  
6 −3
Hf (1, 1) = ,
−3 6
y aplicando el criterio del Teorema 36, se tiene que (1, 1) es un mı́nimo local.
Ejemplo 17. Consideremos ahora la función f (x, y) = x4 + y 4 + 2x2 y 2 . Como la función
es polinómica, los puntos crı́ticos son, todos ellos, estacionarios. Las parciales son fx =
4x3 + 4xy 2 = 4x(x2 + y 2 ), fy = 4y 3 + 4yx2 = 4y(x2 + y 2 ), que se anulan a la vez únicamente
en el punto P = (0, 0). Sin embargo, como

12x2 + 4y 2
 
8xy
Hf (x, y) = ,
8xy 12y 2 + 4x2
entonces  
0 0
Hf (0, 0) = ,
0 0
cuyo determinante es D = 0. Por lo tanto, Teorema 36 no es aplicable. Sin embargo,
observamos que f (0, 0) = 0. Por lo tanto, tendremos un mı́nimo local si en torno al origen,
se tiene f (x, y) ≥ f (0, 0), es decir, f (x, y) ≥ 0. Como f (x, y) = x4 + y 4 + 2x2 y 2 =
(x2 + y 2 )2 , y necesariamente (x2 + y 2 )2 ≥ 0, efectivamente, tenemos un mı́nimo local (de
hecho, absoluto).
Los conceptos y resultados anteriores son generalizables al caso de funciones F (x), con
x ∈ Rn , n ≥ 3.
62 CAPÍTULO 3. MÁXIMOS Y MÍNIMOS.

Definición 37. Sea F : U ⊂ Rn → R y sea a ∈ U :

1. F alcanza un máximo relativo (o local) en a si existe E, entorno de a, tal que


F (x) ≤ F (a) para todo x ∈ E.

2. F alcanza un mı́nimo relativo (o local) en a si existe E, entorno de a, tal que


F (x) ≥ F (a) para todo x ∈ E.

Decimos que F presenta un extremo local o relativo en a si alcanza en a un máximo


o mı́nimo relativos.

Definición 38. El punto a = (a1 , . . . , an ) es un punto crı́tico de la función F (x1 , . . . , xn )


si se cumple alguna de estas condiciones:

1. Alguna de las derivadas parciales de F en a no existe.


~ (a) = 0.
2. Todas sus derivadas parciales de F en a existen y son nulas, es decir ∇F
~ (a) = 0, decimos que x = a es un punto estacionario.
En el primer caso, es decir si ∇F
Si a es un punto estacionario, pero no un extremo local, decimos entonces que a es un
punto de silla de F (x).

Teorema 39. Sean D ⊂ Rn abierto y F : D ⊂ Rn → R diferenciable. Si a es un extremo


local de F , entonces es un punto crı́tico de F .

Definición 40. Supongamos que F : U ⊂ Rn −→ R es de clase C 2 en un punto a ∈ U . La


matriz Hessiana de F en a, HF (a), es
   

← ∂x1 ~
∇F →
 a  
 ← ∂x∂ 2
 ~
∇F → 

HF (a) =  a
.


 .
.


   
← ∂ ~
∇F →
∂xn
a

El Hessiano de F en a es el determinante de HF (a).

Finalmente, el teorema siguiente proporciona condiciones para determinar la naturaleza


de un punto crı́tico de F (x), con x ∈ Rn . Como sucedı́a con el Teorema 36, tampoco cubre
todas las situaciones posibles.

Teorema 41. Sean F : U ⊂ Rn → R y a ∈ U punto crı́tico de F . Sea Ak la submatriz de


HF (a) formada por las k primeras filas y las k primeras columnas de HF (a). Se verifica:

(1) Si los determinantes de las submatrices Ak para k = 1, . . . , n son todos no nulos y


positivos, entonces a es un mı́nimo local.
3.3. EXTREMOS ABSOLUTOS. 63

(2) Si los determinantes de las submatrices Ak para k = 1, . . . , n son todos no nulos y su


signo va alternando en la forma −, +, −, + etc., entonces a es un máximo local.

(3) Si los determinantes de las submatrices Ak para k = 1, . . . , n son todos no nulos pero
no estamos en ninguna de las situaciones anteriores, entonces a es un punto de silla.

Ejemplo 18. Sea F (x, y, z) = x2 + y 2 + z 2 + 4. Como

Fx = 2x, Fy = 2y, Fz = 2z,

el único punto crı́tico es P = (0, 0, 0). La matriz hessiana en el origen (y de hecho en


cualquier punto, porque es constante), es la matriz
 
2 0 0
HF (0, 0, 0) =  0 2 0  .
0 0 2

Por lo tanto, A1 = 2, A2 = 4, A3 = 8. Puesto que todos son positivos, por Teorema 41 en


el punto (0, 0, 0) la función F (x, y, z) alcanza un mı́nimo local. De hecho, ese mı́nimo es
absoluto, porque F (x, y, z) ≥ 4 = F (0, 0, 0).

3.3. Extremos absolutos.


Vamos ahora a generalizar la noción de extremo absoluto para funciones de varias
variables. Dada una función F (x), con x ∈ Rn , para poder hablar de extremos absolutos
de F necesitamos precisar el subconjunto U ⊂ Rn donde x toma valores. Informalmente,
el máximo absoluto de F en U , es simplemente el mayor valor que toma F cuando x
recorre U , y el mı́nimo absoluto, el menor valor. Con más detalle, se tienen las siguientes
definiciones (primero para dos variables, después para una cantidad arbitraria).

Definición 42. Sea f : U ⊂ R2 → R y sea p = (x0 , y0 ) un punto de U .

1. f alcanza en p un máximo absoluto (o global) sobre U si f (x, y) ≤ f (p) para todo


(x, y) ∈ U .

2. f alcanza en p un mı́nimo absoluto (o global) sobre U si f (x, y) ≥ f (p) para todo


(x, y) ∈ U .

3. Diremos que f alcanza en p un extremo absoluto (o global) sobre U si en p alcanza


un máximo o un mı́nimo absoluto.

Definición 43. Sea F : U ⊂ Rn → R y sea a ∈ U :

1. F alcanza en a un máximo absoluto (o global) sobre U si F (x) ≤ F (a). para todo


x ∈ U.
64 CAPÍTULO 3. MÁXIMOS Y MÍNIMOS.

2. F alcanza en a un mı́nimo absoluto (o global) sobre U si F (x) ≥ F (a). para todo


x ∈ U.
Sin embargo, se puede observar que el máximo o el mı́nimo absolutos no siempre existen.
Por ejemplo, si tomamos
1
f (x, y) = 2 ,
x + y2
con
U = {(x, y) ∈ R2 |x2 + y 2 ≤ 1},
podemos ver que aunque f (x, y) sı́ alcanza su mı́nimo absoluto en U (de hecho, en infinitos
puntos!), sin embargo no alcanza su máximo absoluto. En efecto, en este caso U es el disco
centrado en el origen, de radio 1. Cuando nos vamos aproximando al centro del disco (véase
la Fig. 3.5, donde se muestra la gráfica de la función, con forma de embudo), la función
f (x, y) va aumentando, de manera que

lim(x,y)→(0,0) f (x, y) = ∞.

Es más, el valor más pequeño para la función se obtiene en los puntos del borde del disco,
es decir, en los puntos donde x2 + y 2 = 1: en estos esos puntos, la función toma el valor 1,
y ese valor se va haciendo más y más grande a medida que nos movemos hacia el origen.
Por lo tanto, el mı́nimo absoluto de f (x, y) es 1 y se alcanza en infinitos puntos a la vez,
en concreto sobre todos los puntos de la circunferencia x2 + y 2 = 1; en cambio, no hay
máximo absoluto.

1
Figura 3.5: f (x, y) = x2 +y 2
, en U = {(x, y) ∈ R2 |x2 + y 2 ≤ 1}.

Para asegurar que se alcanzan los extremos absolutos, necesitamos ciertas condiciones
sobre la función y sobre el subconjunto U . Decimos, informalmente, que U ⊂ Rn es aco-
tado, si no se extiende indefinidamente. Por ejemplo, un disco o una esfera son acotados;
en cambio un plano no lo es. Decimos, también informalmente, que U es cerrado, cuando
contiene a su frontera. Si se dan las dos condiciones anteriores, es decir, si U ⊂ Rn es
cerrado y acotado, decimos que es compacto. Se tiene entonces el siguiente resultado, que
garantiza que se alcancen los extremos absolutos.
3.3. EXTREMOS ABSOLUTOS. 65

Teorema 44. Si F : U ⊂ Rn → R es continua en U , compacto de Rn , entonces F alcanza


un máximo y un mı́nimo absolutos en U .

Si U no es compacto y/o F no es continua en U , entonces puede o no que F tenga


extremos absolutos sobre U , pero no podemos garantizarlo. Observemos que en el caso de
Fig. 3.5, el conjunto U es compacto, pero f (x, y) no es continua en él (no es continua en
el origen).

Para calcular los extremos absolutos de F en un conjunto compacto U , procederemos


de la siguiente forma:

1. [interior de U ] Calculamos los puntos crı́ticos de F en el interior de U , que repre-


sentamos por P1 , . . . , Pm . No es necesario que estudiemos su naturaleza.

2. [frontera de U ] Estudiamos los posibles extremos absolutos de F en la frontera de


U . Para ello, en general tenemos dos posibilidades:

2.1. Parametrizar U (véase Ejemplo 19).


2.2 Utilizar multiplicadores de Lagrange (véase la siguiente sección).

En cualquier caso, en general obtendremos varios puntos Pm+1 , . . . , Pn , entre los


cuáles están los puntos donde F alcanza sus extremos absolutos en la frontera de U .

3. Evaluamos la función F en los puntos P1 , . . . , Pm , Pm+1 , . . . , Pn , y buscamos el mayor


y el menor de esos valores. El mayor valor corresponde al máximo absoluto, y el
menor, al mı́nimo absoluto.

Vamos a ver ahora un ejemplo detallado de cálculo de extremos absolutos. Antes, re-
cordemos cómo calcular extremos absolutos de una función de una variable. Si queremos
calcular los extremos absolutos de, por ejemplo, f (t) = t2 + 2t en el intervalo I = [−2, 1],
debemos buscar primero los puntos donde pueda darse extremo absoluto. Esos puntos son:
(i) los puntos del interior de I donde f ′ (t) = 0 (potenciales extremos relativos); (ii) los
puntos del extremo del intervalo, en este caso t = −2 y t = 1. En nuestro caso, como
f ′ (t) = 2t + 2, entonces f ′ (t) = 0 para t = −1, que está dentro del intervalo. Por tanto,
las posibilidades son t = −2, t = −1, t = 1. Ahora evaluamos f (t) en cada uno de esos
puntos: f (−2) = 0, f (−1) = −1, f (1) = 3. El mayor valor es 3, luego ése es el máximo
absoluto, que se alcanza en un extremo del intervalo, t = 1. El menor valor es −1, que se
alcanza en el punto t = −1, interior al intervalo, que también es extremo relativo.
Antes de abordar el ejemplo, necesitamos introducir la noción de parametrización de
una curva, sobre la cuál volveremos más adelante, en el curso, cuando abordemos las inte-
grales sobre curvas. Una parametrización de una curva f (x, y) = 0 es un par de funciones
{x(t), y(t)}, con t ∈ I (I un intervalo) de tal manera que: (a) para todo t ∈ I, el punto
(x(t), y(t)) esté en la curva; (b) todo punto de la curva pueda escribirse como (x(t), y(t))
para algún t ∈ I. En particular, debe cumplirse f (x(t), y(t)) = 0 para todo t ∈ I. Decimos
66 CAPÍTULO 3. MÁXIMOS Y MÍNIMOS.

que t es el parámetro de la curva. Por ejemplo, los puntos de la circunferencia x2 + y 2 = 1


se pueden parametrizar como
(cos(t), sen(t)),
con t ∈ [0, 2π]: efectivamente, para todo t ∈ [0, 2π] se tiene que cos2 (t) + sen2 (t) = 1, es
decir, el punto está en la curva; y todo punto de la circunferencia se puede escribir de la
forma anterior. Por ejemplo, también, el tramo del eje y entre el origen, y el punto (0, 1),
se puede parametrizar como (0, t), con t ∈ [0, 1].
En el ejemplo siguiente, la frontera del recinto está formada por varias curvas, y sobre
cada una de ellas localizamos potenciales extremos absolutos reduciendo el estudio al de
varias funciones de una variable. Para ello, parametrizamos cada una de esas curvas, de
modo que sobre cada curva la función a estudiar será una función sólo del parámetro.
Ejemplo 19. Sea f (x, y) = xy − 2x − 3y, y sea

U = {(x, y) ∈ R2 |0 ≤ x ≤ 4, 0 ≤ y ≤ 2x}.

1. Como f (x, y) es polinómica, los puntos crı́ticos en el interior de U son los puntos
donde se anula el gradiente de la función (porque no hay puntos donde alguna parcial
no exista). Como fx = y − 2, fy = x − 3, obtenemos el punto P1 = (3, 2), que
efectivamente está en el interior de U 3 .

2. La frontera de U (véase Fig. 3.6) consta de tres tramos: (a) L1 , el tramo del eje x
entre x = 0 y x = 4; (b) L2 , el tramo de la recta x = 4, desde el punto (4, 0) hasta el
punto (4, 8); (c) L3 , el tramo de la recta y = 2x desde x = 0 hasta x = 4.

8
L3
L2

0 L1 4

Figura 3.6: Frontera de U .

(a) L1 : podemos parametrizar todos los puntos de este tramo en la forma x = t,


y = 0, con 0 ≤ t ≤ 4. Por lo tanto,

f1 (t) = f |L1 = t · 0 − 2t − 3 · 0 = −2t,


3
Si obtenemos puntos crı́ticos que están fuera de U , no los consideramos!!
3.4. MÁXIMOS Y MÍNIMOS CONDICIONADOS. 67

donde t ∈ [0, 4]. Es decir, sobre los puntos de L1 , la función f es de hecho


una función de una variable, que obtenemos sustituyendo x = t, y = 0 en la
expresión analı́tica de f (x, y). Queremos calcular los valores de t (y por tanto los
puntos de L1 ) donde f1 (t) pueda alcanzar sus extremos absolutos. Esos puntos
son aquellos puntos, interiores al intervalo [0, 4], donde f1′ (t) = 0, y los puntos
correspondientes a los extremos. Como f1′ (t) = −2 6= 0, los únicos puntos son
los correspondientes a t = 0, t = 4, es decir, P2 (0, 0) y P3 (4, 0).
(b) L2 : podemos parametrizar estre tramo como x = 4, y = t, con 0 ≤ t ≤ 4. Por
lo tanto,
f2 (t) = f |L2 = 4t − 8 − 3t = t − 8.
Como f2′ (t) = 1 6= 0, los posibles extremos absolutos de f2 (t) corresponden a
t = 0, t = 4, es decir, de nuevo el punto (4, 0), que ya habı́amos obtenido antes,
y el punto P4 = (4, 8).
(c) L3 : podemos parametrizar este tramo como x = t, y = 2t, con 0 ≤ t ≤ 4. Por lo
tanto,
f3 (t) = f |L3 = 2t2 − 2t − 6t = 2t2 − 8t.
Como f3′ (t) = 4t − 8, que se anula en t = 2, tenemos como potenciales extremos
absolutos de f3 (t) los puntos P5 = (2, 4), y los puntos correspondientes a los
extremos t = 0 y t = 4 del intervalo [0, 4], es decir, de nuevo el (0, 0), que
obtuvimos al principio, y el (4, 8), que también habı́amos obtenido antes.

3. Tenemos cinco candidatos, P1 , . . . , P5 . Al evaluar f (x, y) en cada uno de ellos, se


tiene: f (P1 ) = −6; f (P2 ) = 0; f (P3 ) = −8; f (P4 ) = 0; f (P5 ) = −8. Por lo tanto,
el menor valor es −8, que se alcanza en P3 y P5 simultáneamente, y el mayor, 0,
que se alcanza en P2 y P4 simultáneamente. En consecuencia, se tiene que el mı́nimo
absoluto es -8, y el máximo absoluto, 0.

3.4. Máximos y mı́nimos condicionados.


Consideremos el siguiente problema: queremos calcular los puntos de la hipérbola xy =
1, más cercanos al origen de coordenadas. Es decir, queremos encontrar los puntos (x, y)
de la hipérbola xy = 1 cuya distancia al origen sea mı́nima. La distancia de (x, y) al punto
(0, 0) es p p
(x − 0)2 + (y − 0)2 = x2 + y 2 .
Queremos entonces hacer mı́nima la función f˜(x, y) = x2 + y 2 , pero en un caso en que
p

las variables x, y no son libres, sino que están ligadas por la condición de que (x, y) sea un
punto de la hipérbola; es decir, por la condición xy − 1 = 0. Podemos por tanto reformular
nuestro problema de la siguiente manera:

Minimizar f˜(x, y) = x2 + y 2 ,
p
68 CAPÍTULO 3. MÁXIMOS Y MÍNIMOS.

sujeta a la condición xy − 1 = 0.
Además,
√ √ como la raı́z cuadrada
p es una función monótona (es decir, si a, b > 0, entonces
a < b si y sólo si a < b), x2 + y 2 será mı́nima en el mismo punto en que lo sea x2 + y 2 .
Por lo tanto, podemos simplificar el problema como:
Minimizar f (x, y) = x2 + y 2 ,
sujeta a la condición xy − 1 = 0.
Se trata entonces de buscar el mı́nimo absoluto de la función f (x, y), sobre los puntos
de una curva g(x, y) = 0, en este caso la hipérbola xy − 1 = 0. Esto es lo que llamamos un
problema de máximos y mı́nimos condicionados, porque queremos encontrar el máximo o el
mı́nimo (absolutos) de una cierta función f (x1 , x2 , . . . , xn ), en un caso en que las variables
x1 , x2 , . . . , xn no son libres, sino que satisfacen una condición g(x1 , x2 , . . . , xn ) = 0 (se habla
de condición, o también de restricción o ligadura). Cuando sólo hay una condición (puede
haber más, como veremos después), entonces la forma general del problema es la siguiente:
Problema 1.
Maximizar/Minimizar f (x1 , x2 , . . . , xn ),
sujeta a la condición g(x1 , x2 , . . . , xn ) = 0.
Volvamos al problema original: en este caso, la solución es sencilla, sin más que repre-
sentar geométricamente la situación (ver Fig. 3.7).
y

Figura 3.7: Motivando el Teorema de Lagrange.

Geométricamente, puede verse que los puntos de la hipérbola xy = 1 que están más
próximos al origen son los puntos de intersección con la recta y = x; por lo tanto, se
cumple x2 = 1, es decir, x = ±1, y puesto que y = x, los puntos buscados son√(±1, ±1),
que aparecen marcados en rojo en Fig. 3.7.√ La distancia de ambos al origen, es 2; por lo
tanto, la respuesta a nuestra pregunta es 2. En este caso, se puede encontrar la solución
por métodos sencillos, pero en general necesitamos un procedimiento más sofisticado. La
base del método la proporciona el Teorema de Lagrange.
3.4. MÁXIMOS Y MÍNIMOS CONDICIONADOS. 69

Teorema 45. Sean f (x), g(x) funciones diferenciables en Rn . Si f (x) alcanza su máximo
~
o mı́nimo absolutos en x = x0 sobre el conjunto g(x) = 0, y ∇g(x 0 ) 6= 0, se tiene

~ (x0 ) = λ · ∇g(x
∇f ~ 0) (3.1)

para algún λ ∈ R.

Veamos que en el ejemplo inicial es ası́: en este caso, f (x, y) = x2 + y 2 , y g(x, y) =


xy − 1. Entonces ∇f~ = (2x, 2y), y ∇f~ (1, 1) = (2, 2). Por otra parte, ∇g(x,
~ y) = (y, x), y
~
∇g(1, ~ (1, 1) = 2 · ∇g(1,
1) = (1, 1). Se tiene por lo tanto que ∇f ~ 1). Se puede comprobar
que en el punto (−1, −1) tenemos la misma relación.
Ciertamente, lo anterior no es una demostración del teorema, sino una comprobación
en un caso particular. Daremos una demostración (opcional) para el caso de dos variables.

Demostración. (Opcional del Teorema 45; caso de dos variables) Por hipótesis, sabemos
~
que ∇g(x 0 ) 6= 0. Por el Teorema de la Función implı́cita, entonces tenemos o bien un
intervalo I ⊂ R, x0 ∈ I, tal que para todo x ∈ I la expresión g(x) = g(x, y) = 0 define
implı́citamente a y = y(x), con y(x) diferenciable en I, o bien un intervalo J ⊂ R, y0 ∈ J,
tal que para todo y ∈ J la expresión g(x) = g(x, y) = 0 define implı́citamente a x = x(y),
con x(y) diferenciable en J. Supongamos que se da la primera situación; la segunda es
análoga. Por lo tanto, en la vecindad de x0 la función f (x, y) que queremos maximizar o
minimizar es de hecho una función f (x, y(x)), que es diferenciable porque f y y(x) son
diferenciables. Como f (x, y(x)) tiene un máximo o mı́nimo en x = x0 ∈ I, su derivada se
debe anular en x = x0 ; por la regla de la cadena, en el punto (x0 , y0 ) se tiene

fx · 1 + fy · y ′ = 0,

es decir, ∇f ~ = (fx , fy ) en el punto (x0 , y0 ) es perpendicular al vector (1, y ′ (x0 )). Puesto que
~
(1, y ′ (x0 )) es tangente a la curva g(x, y) = 0 en (x0 , y0 ), y el vector ∇g(x 0 , y0 ) es normal
a la misma, entonces ∇f ~ (x0 ) y ∇g(x
~ 0 ) son paralelos. Además, como habı́amos supuesto
~
que ∇g(x ~ ~
0 ) 6= 0, se tiene ∇f (x0 ) = λ · ∇g(x0 ) para algún λ ∈ R.

El Teorema 45 proporciona un método para tratar los problemas de máximos y mı́nimos


condicionados con una restricción: si f (x1 , . . . , xn ) es la función a maximizar/minimizar, y
g(x1 , . . . , xn ) = 0 es la restricción a la que están sometidas las variables, entonces:

1. Formamos la función

F (x1 , . . . , xn , λ) = f (x1 , . . . , xn ) + λ · g(x1 , . . . , xn ).

La variable λ es una variable auxiliar, llamada multiplicador de Lagrange.

2. Consideramos el sistema formado al igualar a 0 todas las derivadas de la función F


(respecto a las xi , y respecto a λ; al igualar a 0 la derivada de F con respecto a λ
70 CAPÍTULO 3. MÁXIMOS Y MÍNIMOS.

obtenemos, de hecho, la condición g(x1 , . . . , xn ) = 0).


∂f ∂g
 ∂F
 ∂x1
= ∂x 1
+ λ · ∂x 1
= 0,
 .. .. ..


. . .
∂F ∂f ∂g
 = ∂xn + λ · ∂xn = 0,
 ∂x

 n
∂F
∂λ
= g = 0.

3. Resolvemos el sistema anterior para x1 , . . . , xn . Es importante observar que la varia-


ble λ es auxiliar, y su valor no nos interesa. Por tanto, en muchos casos podremos
eliminarla sin calcularla. En otros casos conviene calcularla porque ello facilita el
cálculo de las xi , que es realmente nuestro objetivo.
4. Si existe, el máximo o mı́nimo (absoluto) buscado estará entre las soluciones obteni-
das.
Obsérvese que lo que están expresando las n primeras ecuaciones del sistema anterior
~ = λ · ∇g,
es, precisamente, que ∇f ~ que es lo que garantizaba el Teorema 45.
Algunas observaciones:
Antes de comenzar el problema, conviene convencerse de si hay o no solución. Si la
hay, estará entre las soluciones del sistema anterior. Pero podrı́a no haberla!!
La técnica es aplicable al cálculo de extremos absolutos de funciones sobre la frontera
de un conjunto compacto. Si la frontera del conjunto en el que trabajamos se puede
espresar como g(x1 , . . . , xn ) = 0 (porque es una curva, o una superficie, etc.), entonces
el procedimiento anterior proporciona los posibles puntos en los que la función alcanza
un extremo absoluto sobre g(x1 , . . . , xn ) = 0.
Ejemplo 20. Queremos encontrar las dimensiones del paralelepı́pedo de volumen máximo,
inscrito en la esfera unidad. Es decir, las dimensiones de la “caja”de mayor volumen cuyos
vértices se apoyan sobre la esfera unidad. En primer lugar, observemos que hay solución,
porque no es posible inscribir en la esfera una caja de volumen arbitrariamente grande (el
volumen de la caja es necesariamente menor que el volumen de la esfera).
Para encontrar la solución, llamemos (x, y, z) a las coordenadas del vértice de la caja que
se encuentra en el primer octante (es decir, x, y, z > 0) Por simetrı́a, el resto de los vértices
serán los simétricos de éste respecto a los planos coordenados, y los ejes coordenados. Es
decir, si proyectamos sobre el plano xz, o sobre el plano yz, la situación será la siguiente:
Por tanto, si (x, y, z) es el vértice del paralelepı́pedo que estamos buscando, situado en el
primer octante, los restantes vértices serán: (−x, y, z), (x, −y, z), (x, y, −z), (−x, −y, z),
(−x, y, −z), (x, −y, −z), (−x, −y, −z). Con esto, los lados del paralelepı́pedo miden 2x,
2y, 2z respectivamente, y el volumen del paralelepı́pedo, que es la función que queremos
maximizar, es
f (x, y, z) = 2x · 2y · 2z = 8xyz.
Además, puesto que (x, y, z) es un punto de la esfera unidad, cumple x2 + y 2 + z 2 = 1. En
consecuencia, nuestro problema es el siguiente:
3.4. MÁXIMOS Y MÍNIMOS CONDICIONADOS. 71

z z

(−x, z) (x, z) (−y, z) (y, z)

x y

(−x, −z) (x−, z) (−y, −z) (y, −z)

Figura 3.8: Ejemplo 20

Maximizar f (x, y, z) = 8xyz,


sujeta a la condición x2 + y 2 + z 2 − 1 = 0.
Por lo tanto, formamos la función

F (x, y, z, λ) = 8xyz + λ · (x2 + y 2 + z 2 − 1),

donde λ es un multiplicador de Lagrange, y consideramos el sistema formado por el resul-


tado de igualar a cero las derivadas parciales de la función F (x, y, z, λ):


 Fx = 8yz + λ · 2x = 0 [1],
Fy = 8xz + λ · 2y = 0 [2],


 Fz = 8xy + λ · 2z = 0 [3],
2 2 2
Fλ = x + y + z − 1 = 0 [4].

Llamamos [1], [2], [3], [4] a las ecuaciones anteriores. En general, para resolver estos sis-
temas buscamos librarnos de los multiplicadores (a menudo sin calcularlos). Por ejemplo,
si multiplicamos [1] por y, y [2] por x, obtenemos

8y 2 z + λ · 2xy = 0,
8x2 z + λ · 2xy = 0.

Restando las ecuaciones anteriores, se deduce que 8z(y 2 − x2 ) = 0. Puesto que z > 0, se
tiene x2 = y 2 ; y como x, y > 0, concluimos que x = y. Podemos hacer algo similar con [2] y
[3]. En este caso multiplicamos [2] por z, [3] por y, restamos las ecuaciones que obtenemos,
y razonando como antes se tiene y = z. Por lo tanto, x = y = z. Sustituyendo esto en [4],
llegamos a
3x2 − 1 = 0,

de donde, puesto que x > 0, se tiene x = 3/3. Como x = y = z, y nos piden las
dimensiones de la caja, que son 2x, 2y, 2z,
√ vemos que la caja de volumen máximo, inscrita
en la esfera unidad, es el cubo de lado 2 3/3.
72 CAPÍTULO 3. MÁXIMOS Y MÍNIMOS.

En el caso más general posible, podemos tener no una, sino varias restricciones. Es
decir, la versión más general del problema es la siguiente:
Problema 2.
Maximizar/Minimizar f (x1 , x2 , . . . , xn ),
sujeta a las condiciones g1 (x1 , x2 , . . . , xn ) = 0, . . . , gk (x1 , x2 , . . . , xn ) = 0, con
k < n.
En este caso, el resultado fundamental que necesitamos es el siguiente; la demostración
es similar al caso de dos variables, utilizando una forma más general para el Teorema de
la Función Implı́cita.
Teorema 46. Sean f (x), g1 (x), . . . , gk (x) funciones de clase C 1 en Rn . Si f (x) alcanza
su máximo o mı́nimo absolutos en x = x0 sobre el conjunto de Rn definido por g1 (x) =
~ 1 (x0 ), . . . , ∇g
0, . . . , gk (x) = 0, k < n, y ∇g ~ k (x0 ) son linealmente independientes, existen
λ1 , . . . , λk ∈ R tales que
~ (x0 ) = λ1 · ∇g
∇f ~ 1 (x0 ) + · · · + λk · gk (x0 ). (3.2)
Los pasos que debemos dar para resolver un problema de este tipo son muy similares a
los del caso anterior.

1. Formamos la función
F (x, λ) = f (x) + λ1 · g1 (x) + · · · + λk · gk (x).
Las variables λ1 , . . . , λk son auxiliares, y se llaman multiplicadores de Lagrange.
2. Consideramos el sistema formado al igualar a 0 todas las derivadas de la función F
(respecto a las xi , y respecto a λ1 , . . . , λk ; al igualar a 0 la derivada de F con respecto
a λi obtenemos, de hecho, la condición gi (x) = 0). En forma compacta, este sistema
es
~ (x) + λ1 ∇g
∇f ~ 1 (x) + · · · + λk ∇g ~ k (x) = 0,
que se corresponde con Eq. 3.2.
3. Resolvemos el sistema anterior para x1 , . . . , xn . Las variables λ1 , . . . , λk son auxi-
liares, y en muchos casos podemos eliminarlas sin calcularlas. En otros casos las
calcularemos, pero sólo como un medio para llegar a x1 , . . . , xn , y no como un fin en
sı́ mismo.
4. Si existe, el máximo o mı́nimo (absoluto) buscado estará entre las soluciones obteni-
das.

Como ya observamos antes, si existe, la solución al problema estará entre las soluciones
del sistema anterior. Pero primero debemos convencernos de que, efectivamente, la solución
existe.
3.4. MÁXIMOS Y MÍNIMOS CONDICIONADOS. 73

Ejemplo 21. El plano x + y − z = 1 corta al cono x2 + y 2 = z 2 en una elipse. Queremos


hallar los puntos de ésta más cercanos al origen. En primer lugar (véase Fig. 3.9), podemos
observar que efectivamente debe haber un punto sobre la elipse que sea el más próximo al
origen (que, por cierto, es el vértice del cono). Por lo tanto, hay solución.

Figura 3.9: Ejemplo 21

Para buscarla, llamemos (x, y, z) a las coordenadas del punto que deseamos encontrar.
La distancia de ese punto al origen es
p p
(x − 0)2 + (y − 0)2 + (z − 0)2 = x2 + y 2 + z 2 .

Queremos que esta función se haga mı́nima. Sin embargo, observamos que, puesto que la
raı́z cuadrada es una función monótona creciente, dicha función se hará mı́nima allá donde
x2 + y 2 + z 2 se haga mı́nima, con lo que la función que deseamos minimizar es f (x, y, z) =
x2 + y 2 + z 2 . Como (x, y, z) es un punto de la intersección del plano x + y − z − 1 = 0 y el
cono x2 + y 2 − z 2 = 0, tenemos dos restricciones. Es decir, el problema es:

Minimizar f (x, y, z) = x2 + y 2 + z 2 ,

sujeta a las condiciones x + y − z − 1 = 0, x2 + y 2 − z 2 = 0.

Por tanto, formamos la función

F (x, y, z, λ, µ) = x2 + y 2 + z 2 + λ · (x + y − z − 1) + µ · (x2 + y 2 − z 2 ),

y consideramos el sistema que resulta al igualar a cero las derivadas parciales de F :




 Fx = 2x + λ + µ · 2x = 0 [1],
 Fy = 2y + λ + µ · 2y = 0 [2],


Fz = 2z − λ + µ · (−2z) = 0 [3],
Fλ = x+y−z−1 = 0 [4],




Fµ = x2 + y 2 − z 2 = 0 [5].

74 CAPÍTULO 3. MÁXIMOS Y MÍNIMOS.

Si ahora restamos [1] y [2], se tiene 2(x − y) + 2µ(x − y) = 0, es decir,

(x − y)(2 + 2µ) = 0,

de donde obtenemos dos posibilidades, x = y, ó µ = −1. Si x = y, entrando en [4] y [5]


obtenemos un sistema de dos ecuaciones con dos incógnitas,

2x − z = 1,
2x2 − z 2 = 0.

Este sistema tiene como soluciones



2+ 2 √
x= , z = 1 + 2,
2
y √
2− 2 √
x= , z = 1 − 2.
2
Por lo tanto, tenemos dos candidatos a solución,
√ √ ! √ √ !
2+ 2 2+ 2 √ 2− 2 2− 2 √
P1 = , , 1 + 2 , P2 = , ,1 − 2 .
2 2 2 2

Por otra parte, si µ = −1, entrando en [1] se obtiene λ = 0. Y sustituyendo µ = −1, λ = 0


en [3], llegamos a z = 0. Entrando en [4] y [5] con z = 0, se obtiene el sistema

x + y = 1,
x2 + y 2 = 0.

Sin embargo este sistema no tiene soluciones reales, ya que la única pareja que satisface
la segunda ecuación es x = 0, y = 0, que sin embargo no cumple la primera ecuación.
Por lo tanto, los únicos candidatos son P1 y P2 . Podemos ver que f (P1 ) > f (P2 ), luego
la distancia mı́nima al origen se alcanza en P2 . En realidad, P1 corresponde al punto
más alejado del origen (obsérvese que si en vez de minimizar f (x, y, z) hubiéramos elegido
maximizar f (x, y, z), el proceso habrı́a sido el mismo).

3.5. Polinomio de Taylor en varias variables (opcio-


nal).
Como en otras ocasiones, comenzamos recordando el caso de una variable. Sin du-
da ninguna, las funciones de una variable más sencillas que podemos encontrar son los
polinomios. Además, computacionalmente los polinomios son fáciles de manejar, porque
esencialmente consisten en sumas, restas y multiplicaciones (potencias incluı́das). Por lo
tanto tiene sentido pensar, dada una función f (x) y un valor x = x0 , cómo encontrar un
3.5. POLINOMIO DE TAYLOR EN VARIAS VARIABLES (OPCIONAL). 75

polinomio Pn (x), del grado n que fijemos, que aproxime suficientemente bien, en algún
sentido, la función f (x) en las proximidades del punto x = x0 . Escribamos

Pn (x) = a0 + a1 (x − x0 ) + a2 (x − x0 )2 + · · · + an (x − x0 )n .

Si la función f (x) tiene derivadas hasta orden n, para asegurar que Pn (x) aproxima bien a
f (x) para x cercano a x0 , imponemos

Pn (x0 ) = f (x0 ), Pn′ (x0 ) = f ′ (x0 ), , Pn′′ (x0 ) = f ′′ (x0 ), . . . , Pnn) (x0 ) = f n) (x0 ).

Escribiendo Pn (x0 ), Pn′ (x0 ), Pn′′ (x0 ), . . . en función de a0 , a1 , a2 , . . ., podemos obtener los
valores de los ai en función de los valores de las derivadas de f (x) en x = x0 . Más concre-
tamente, se tiene

f ′ (x0 ) f ′′ (x0 ) f n) (x0 )


Pn (x) = f (x0 ) + (x − x0 ) + (x − x0 )2 + · · · + (x − x0 )n ,
1! 2! n!
donde k! se lee “factorial de k”, y se calcula como k! = k · (k − 1) · (k − 2) · · · 2 · 1.
La expresión anterior corresponde al Polinomio de Taylor de orden n de f (x) en
x = x0 . Esencialmente, y siempre que f (x) tenga buenas propiedades, Pn (x) ≈ f (x) para
x suficiente próximo a x0 . Por ejemplo, tomemos f (x) = ex , y x = 0. Como f n) (x) = ex
para todo n, se tiene que f n) (0) = e0 = 1 para todo n. Por lo tanto, en x = 0 tendremos

x x2 xn
Pn (x) = 1 + + + ··· + .
1! 2! n!
Tomando por ejemplo n = 2, se tiene que una buena aproximación de e0,1 (obsérvese que
x = 0,1 está próximo a x = 0), serı́a

0,1 0,1 0,012


e ≈1+ + = 1,105.
1! 2!
El valor que nos devuelve un paquete de software matemático (Maple 18, en este caso)
para e0,1 es, por cierto, 1, 105170918. En general, a medida que incrementamos el grado
del polinomio, la aproximación es mejor. En Fig. 3.10 podemos visualizar la gráfica de
la función f (x) = ex (en verde) junto con su polinomio de Taylor en el origen (en azul),
para n = 1, n = 2 y n = 3. Observamos como, a medida que incrementamos el grado,
la aproximación mejora. Obsérvese también que el polinomio de Taylor de orden 1 es,
simplemente, la recta tangente. Con más precisión, el Teorema de Taylor afirma que, si
f (x) es derivable hasta orden n + 1 en x = a, y Pn (x) es su polinomio de Taylor de orden
n en x = a, entonces
f (x) = Pn (x) + Rn (x),
donde
Rn (x)
lim = 0.
|x − a|n
76 CAPÍTULO 3. MÁXIMOS Y MÍNIMOS.

Figura 3.10: Polinomio de Taylor de distintos grados para f (x) = ex en el origen.

La expresión Rn (x) = f (x) − Pn (x) recibe el nombre de resto de Taylor de f (x), de orden
n, en x = a, y el resultado anterior nos dice no sólo que Rn (x) tiende a cero cuando x → a,
sino que tiende a 0 más rápido que |x − a|n .
Nos planteamos entonces algo parecido para funciones de varias variables. Indicaremos
simplemente la idea para el caso de funciones de dos variables, f (x, y); para funciones de
un mayor número de variables, los resultados son análogos. Para una función f (x, y), y un
punto p = (x0 , y0 ), buscamos entonces un polinomio Pn (x, y), de grado n, que aproxime
bien la función en las proximidades de p. Para ello, impondremos que los valores de las
derivadas parciales de Pn (x, y) en p hasta orden n coincidan con los valores de las derivadas
parciales de f (x, y) en p hasta orden n. En el caso de n = 1, se tiene
 
1 ∂f ∂f
P1 (x, y) = f (p) + (p)(x − x0 ) + (p)(y − y0 ) .
1! ∂x ∂y
La expresión anterior deberı́a ser ya familiar: corresponde a la coordenada z del plano
tangente a la gráfica de z = f (x, y) en p. Para n = 2, se tiene
 
1 ∂f ∂f
P2 (x, y) = f (p) + (p)(x − x0 ) + (p)(y − y0 ) +
1! ∂x ∂y
 2 (3.3)
∂ 2f ∂ 2f

1 ∂ f 2 2
(p)(x − x0 ) + 2 (p)(x − x0 )(y − y0 ) + 2 (p)(y − y0 ) .
2! ∂x2 ∂x∂y ∂y
En general, para pasar de Pk−1 (x, y) a Pk (x, y), tenemos que añadir el término
k  
1 X k ∂kf
· k−j j
(p)(x − x0 )k−j (y − y0 )j ,
k! j=0 j ∂x ∂y

donde la suma se refiere a todas las derivadas de orden k de f (x, y) en p.


Bajo “buenas condiciones”, se tiene entonces que f (x, y) ≈ Pk (x, y), con (x, y) próximo
al punto (x0 , y0 ). Con mayor precisión, se tiene el siguiente resultado.
3.5. POLINOMIO DE TAYLOR EN VARIAS VARIABLES (OPCIONAL). 77

Teorema 47. Sea f (x, y) una función de clase C n+1 en un conjunto abierto U ⊂ R2 que
contiene a (x0 , y0 ), y sea Pn (x, y) su polinomio de Taylor de orden n en (x0 , y0 ). Si el
segmento que conecta (x0 , y0 ) y (x, y) está contenido en U , entonces
f (x, y) = Pn (x, y) + Rn (x, y),
donde
Rn (x, y) f (x, y) − Pn (x, y)
lim(x,y)→(x0 ,y0 ) n = lim(x,y)→(x0 ,y0 ) → 0.
k(x, y) − (x0 , y0 )k k(x, y) − (x0 , y0 )kn
La expresión Rn (x, y) recibe el nombre de resto de Taylor de f (x, y), de orden n, en (x0 , y0 ).
El resultado anterior justifica que Pn (x, y) proporciona una buena aproximación de
f (x, y) en las proximidades de (x0 , y0 ), ya que la diferencia entre ambos tiende a cero más
deprisa de lo que nos aproximamos al punto.
2 2
A modo de ejemplo, consideremos f (x, y) = e−x −y , cuya gráfica aparece en la Fig.
3.11. En las sucesivas imágenes, se muestran la gráfica de la función y la de su polinomio
de Taylor en (0, 0) para n = 1, n = 2, n = 4, n = 6 y n = 8. Puede apreciarse cómo las
graficas de los polinomios se ajustan cada vez mejor a la gráfica original, a medida que el
grado va subiendo.
El polinomio de Taylor proporciona por tanto, siempre que f cumpla ciertas condiciones,
una buena aproximación de f (x, y) en las proximidades del punto p. De hecho, podemos
utilizar el polinomio de Taylor para justificar el criterio del Teorema 36, que permitı́a
discriminar si en un punto crı́tico p tenı́amos máximo local, mı́nimo local o punto de silla,
en determinados casos. Para ello, recordemos que en un punto crı́tico las dos derivadas
primeras se anulan, es decir,
∂f ∂f
(p) = (p) = 0.
∂x ∂y
Por lo tanto, la expresión (3.3) para el Polinomio de Taylor en p, de orden 2, queda, en el
caso en que p es un punto crı́tico,
1 ∂ 2f ∂ 2f ∂ 2f
 
2 2
P2 (x, y) = f (p) + (p)(x − x0 ) + 2 (p)(x − x0 )(y − y0 ) + 2 (p)(y − y0 ) .
2! ∂x2 ∂x∂y ∂y
(3.4)
Para (x, y) suficientemente próximo a p, podemos escribir f (x, y) ≈ P2 (x, y), es decir,
1 ∂ 2f ∂ 2f ∂ 2f
 
2 2
f (x, y) ≈ f (p) + (p)(x − x0 ) + 2 (p)(x − x0 )(y − y0 ) + 2 (p)(y − y0 ) .
2! ∂x2 ∂x∂y ∂y
Por lo tanto,
∂ 2f ∂ 2f ∂ 2f
 
1 2 2
f (x, y) − f (p) ≈ (p)(x − x0 ) + 2 (p)(x − x0 )(y − y0 ) + 2 (p)(y − y0 ) .
2! ∂x2 ∂x∂y ∂y
Para poder saber si p es un máximo local, mı́nimo local o un punto de silla, necesitamos
conocer el signo de f (x, y) − f (p) en las proximidades de p: si el signo es positivo, entonces
78 CAPÍTULO 3. MÁXIMOS Y MÍNIMOS.

2 −y 2
Figura 3.11: Polinomio de Taylor de distintos grados para f (x, y) = e−x en el origen.

tendremos un mı́nimo local; si es negativo, un máximo local; y si no sucede ninguna de las


dos situaciones anteriores, un punto de silla. Pero según la expresión anterior, el signo de
f (x, y) − f (p) es el mismo de
∂ 2f 2 ∂ 2f ∂ 2f
(p)(x − x 0 ) + 2 (p)(x − x 0 )(y − y 0 ) + (p)(y − y0 )2
∂x2 ∂x∂y ∂y 2
Recuperamos ahora la notación A, B, C que introdujimos en la Sección 3.2 para las deri-
vadas segundas. Además, llamamos u = x − x0 , v = y − y0 . Observemos que para (x, y)
próximo a (x0 , y0 ), (u, v) está próximo a (0, 0). Por lo tanto, tenemos que discutir el signo
de
Au2 + Buv + Cv 2 . (3.5)
Esta expresión recibe el nombre de forma cuadrática, porque es una expresión de grado 2
en u, v. La expresión anterior puede escribirse en forma matricial como
   
"  A B u
u v · · . (3.6)
B C v
La matriz del centro de la expresión anterior, cuyos elementos son A, B, C, es una matriz
simétrica. Ahora hay que recordar algunas cosas de Álgebra Lineal. Toda matriz simétrica
3.5. POLINOMIO DE TAYLOR EN VARIAS VARIABLES (OPCIONAL). 79

M es diagonalizable. Es decir, existe una matriz diagonal J, y una matriz invertible P , tal
que M = P · J · P −1 . Pero además, por ser M simétrica, se puede conseguir que P −1 = P T ,
es decir, que la transpuesta de P coincida con la inversa de P . Por tanto, M = P · J · P T ,
donde los elementos de la matriz J son los autovalores de M . En nuestro caso,
   
A B λ1 0
=P· · PT.
B C 0 λ2

Si llevamos esto a (3.6), tenemos


   
"  λ1 0 T u
u v ·P · ·P · . (3.7)
0 λ2 v

Llamemos ahora
" 
w= u v · P.
Entonces,  
T T u
w =P · ,
v
y la expresión (3.5) queda  
λ1 0
w· · wT .
0 λ2
Si finalmente llamamos w = (w1 , w2 ), llegamos a

λ1 w12 + λ2 w2 , (3.8)

y el signo de esta expresión sı́ que resulta fácil de discutir. En concreto:

Si λ1 > 0 y λ2 > 0, entonces el signo siempre es positivo, y el punto p será un mı́nimo


local.

Si λ1 < 0 y λ2 < 0, entonces el signo siempre es negativo, y el punto p será un


máximo local.

Si λ1 y λ2 tienen distinto signo, entonces para determinados valores de w1 , w2 el signo


de la expresión (3.8) será positivo, y para otros será negativo4 ; por lo tanto, p será un
punto de silla.

No obstante, aún no hemos justificado el Teorema 36, que está enunciado en términos
de A, B, C. Para ello, necesitamos recordar algo más del Álgebra Lineal. Dos matrices R, S
tales que existe otra matriz Q cumpliendo R = Q · S · Q−1 se llaman semejantes. Y dos
4
Por ejemplo, si λ1 > 0 y λ2 < 0, para w1 = 0 y w2 6= 0 el signo es negativo, y para w1 6= 0 y w2 = 0,
positivo
80 CAPÍTULO 3. MÁXIMOS Y MÍNIMOS.

matrices semejantes tienen el mismo determinante, y también la misma traza5 . Como las
matrices    
A B λ1 0
,
B C 0 λ2
son semejantes, entonces se cumple lo anterior, y por tanto, D = AC − B 2 coincide con
λ1 · λ2 (es decir, los determinantes de ambas matrices son iguales), y A + C = λ1 + λ2 (las
trazas de ambas matrices son iguales). Ahora ya podemos demostrar el Teorema 36.
Demostración. (del Teorema 36) Consideramos los siguientes casos:

Si D < 0, como D = λ1 · λ2 , entonces λ1 , λ2 tienen distinto signo. Por tanto, p es un


punto de silla.

Si D > 0, entonces λ1 , λ2 tienen el mismo signo. Distinguimos dos casos:

• Si A > 0, entonces C > 0 también, porque de lo contrario D = AC − B 2 serı́a


negativo. Por tanto, A + C = λ1 + λ2 > 0, y como λ1 , λ2 tienen el mismo signo,
deben ser, ambos, positivos. En consecuencia, p es un mı́nimo local.
• Si A < 0, entonces C < 0 también, porque de lo contrario D = AC − B 2 serı́a
negativo. Por tanto, A + C = λ1 + λ2 < 0, y como λ1 , λ2 tienen el mismo signo,
deben ser, ambos, negativos. En consecuencia, p es un máximo local.

5
Recordemos que la traza de una matriz es la suma de los elementos de la diagonal principal

También podría gustarte