Apuntes Tema 3

Capı́tulo 3
Máximos y mı́nimos.
Uno de los conceptos principales en ingenierı́a es el de optimización: esencialmente,

optimizar es sacar el mejor partido posible de los recursos (limitados) que tenemos, te-
niendo en cuenta las restricciones (de presupuesto, personal, de seguridad, etc.) que se nos
imponen. Matemáticamente, tiene que ver con maximizar o minimizar una variable (pode-
mos maximizar el rendimiento, la duración, la resistencia, la capacidad, etc., o minimizar
el tiempo de fabricación, el coste, etc.) que depende de otra, o de otras; por lo tanto, se
trata de determinar máximos y mı́nimos de funciones. Esto es bien conocido en el caso de
funciones de una variable. Por ejemplo, si queremos construir un cilindro de 330 mililitros
de volumen (la capacidad de una lata de refresco), se puede comprobar que si x es el radio
de la base del cilindro, la superficie de metal necesaria para construirlo es
660
f (x) = 2πx2 + .
x
Si queremos determinar cuál debe ser el radio del cilindro para minimizar la superficie de
metal necesaria para construir la lata (y por tanto, cómo debe ser el cilindro, ya que la
condición de que el volumen sea igual a 330 hace que la altura del cilindro dependa del
radio de la base), basta con determinar el mı́nimo de f (x). Para ello, teniendo en cuenta
que
660
f ′ (x) = 4πx − 2 ,
x
q
e igualando a cero, se tiene x = 3 660 4π
≈ 8, 033 cm; puede comprobarse, por ejemplo
utilizando f ′′ (x), que para ese valor de x, se alcanza efectivamente un mı́nimo. Para ese
valor del radio, estamos optimizando la fabricación de la lata, ya que estamos minimizan-
do la cantidad de metal necesario para construirla (y por tanto, el coste y el tiempo de
fabricación)1
1
Por cierto, acabo de ir al frigorı́fico y medir la base de una lata de refresco. Las dimensiones de las
latas que se comercializan son otras, luego entiendo que intervienen otras variables, por ejemplo estéticas,
etc.
53
54 CAPÍTULO 3. MÁXIMOS Y MÍNIMOS.
La pregunta es: ¿tiene sentido hablar de máximos y mı́nimos para funciones de varias
variables? Y en caso afirmativo, ¿cómo calcularlos? Esta es la cuestión que trataremos en
este tema.
3.1. Derivadas de orden superior.

Cuando derivamos una función f (x) de una variable, decimos que hemos calculado la
derivada, o la derivada primera, f ′ (x). Si derivamos f ′ (x), diremos que hemos calculado la
derivada segunda, f ′′ (x). Si a su vez derivamos f ′′ (x) entonces hemos calculado la derivada
tercera, f ′′′ (x), etc.
En el caso de funciones de varias variables, podemos hacer algo parecido; de hecho
tenemos más posibilidades, porque podemos derivar con respecto a diversas variables. Dada
f (x, y), sus derivadas parciales, que ahora podemos llamar también derivadas parciales
primeras, son, como es bien conocido, fx y fy . Las derivadas parciales segundas son:
∂ 2f

∂ ∂f
fxx = (fx )x = =
∂x ∂x ∂x2
∂ 2f

∂ ∂f
fyy = (fy )y = =
∂y ∂y ∂y 2
Y dos más, que llamamos derivadas mixtas o, más habitualmente, derivadas cruzadas,
∂ 2f

∂ ∂f
fyx = (fy )x = =
∂x ∂y ∂x∂y
∂ 2f

∂ ∂f
fxy = (fx )y = = .
∂y ∂x ∂y∂x
Por lo tanto, una función f (x, y) tiene dos derivadas primeras (o de orden 1), cuatro
derivadas segundas (o de orden 2), ocho derivadas terceras (o de orden 3), correspondientes
a derivar cada una de las derivadas segundas respecto a x ó respecto a y, etc. Análogamente,
una función F (x, y, z) tiene tres derivadas primeras, nueve derivadas segundas, veintisiete
derivadas terceras... Sin embargo, algunas de esas derivadas, bajo buenas condiciones, serán
iguales. Veamos un ejemplo:
Ejemplo 15. Consideremos f (x, y) = x3 + x2 y 3 − 2y 2 . Entonces,
fx = 3x2 + 2xy 3 , fy = 3x2 y 2 − 4y.
Además,
fxx = 6x + 2y 3 , fxy = 6xy 2 , fyx = 6xy 2 , fyy = 6x2 y − 4.
En el ejemplo anterior observamos que fxy = fyx . Esta igualdad no es casual, sino que
es consecuencia del teorema siguiente.
3.1. DERIVADAS DE ORDEN SUPERIOR. 55
Teorema 28 (Lema de Schwartz para dos variables). Sea z = f (x, y) : D ⊂ R2 → R,

función continua en un entorno del punto (a, b). Si fx , fy , fxy , fyx son continuas en este
entorno, entonces:
fxy (a, b) = fyx (a, b)
.
Si tenemos una función F (x) con x ∈ Rn , es decir, una función de más de dos variables,
el resultado es análogo.
Teorema 29. (Lema de Schwartz) Sea F (x) : D ⊂ Rn → R, función continua en un

entorno del punto x = a. Si Fxi , Fxj , Fxi xj , Fxj xi son continuas en este entorno, entonces:
Fxi xj (a) = Fxj xi (a).
De hecho, el resultado anterior se puede generalizar para derivadas de cualquier orden.

La idea es que, siempre que las derivadas hasta orden k sean continuas, el resultado de la
derivada de orden k sólo depende del número de veces que haya que derivar con respecto
a cada variable, y no del orden en que derivemos. Por ejemplo,
∂ 8F
,
∂x2 ∂y∂z 2 ∂x3
nos indica que hay que tomar una función F (x, y, z), derivarla tres veces respecto a x,
luego dos veces respecto a z, luego una respecto a y, y finalmente dos veces más respeto a
x. Bajo buenas condiciones, lo que podemos asegurar es que el resultado de esa derivada
será igual al de
∂ 8F
,
∂x5 ∂y∂z 2
donde primero derivamos dos veces respecto a z, luego respecto a y, y luego cinco veces
respecto a x, y también igual a
∂ 8F
,
∂x∂y∂x∂z∂x∂z∂x∂x
donde derivamos respecto a cada variable el mismo número de veces que antes, pero con
un orden mucho más caprichoso. El siguiente resultado corresponde a esta idea. Aquı́ se
utiliza la noción de función de clase C k : decimos que una función es de clase C k si la
función y todas sus derivadas hasta orden k son continuas.
Teorema 30. Sea F (x) : D ⊂ Rn → R, de clase C k en un entorno del punto a. Entonces,

cualquier derivada de orden k de F en a depende exclusivamente de las variables con
respecto a las que se derive, y del número de veces que se derive con respecto a cada
variable, y no del orden en que se derive.
3.2. Extremos locales.

Consideremos en primer lugar una función de una variable, y = f (x), como se muestra
en Fig. 3.1. Los extremos locales, es decir, los máximos y los mı́nimos locales,
se alcanzan en los valores de x para los cuáles la función está localmente por encima
(mı́nimos) o por debajo (máximos) de sus inmediatos vecinos. Por ejemplo, en Fig. 3.1
tenemos máximos locales en P1 y P3 , y un mı́nimo local en P2 . En el caso de funciones
de una variable, los extremos locales se alcanzan o bien en puntos donde la recta tangente
a la gráfica de la función sea horizontal (el caso de P1 y P2 ), o bien en puntos donde la
función no sea derivable, es decir, donde no sea posible trazar la recta tangente (el caso de
P3 ). El recı́proco es falso, ya que podemos tener puntos donde la tangente sea horizontal,
pero donde no tengamos máximo ni mı́nimo local (podemos tener un punto de inflexión),
o puntos donde la función no sea derivable, pero no haya tampoco extremo local. Además,
que la tangente sea horizontal significa que f ′ (x) = 0: por lo tanto, los puntos donde la
derivada se anula son candidatos a extremo local. En la práctica, para localizar los extremos
locales de f (x), calculamos primero los valores de x donde f ′ (x) = 0 y donde f (x) no es
derivable, y después, entre esos valores, buscamos los extremos locales.
y y = f (x)
P3
P1
P2
x
a I b
Figura 3.1: Extremos locales y absolutos de una función de una variable.
También podemos hablar de extremos absolutos, pero eso requiere que fijemos un inter-
valo I ⊂ R (que puede ser toda la recta real). El máximo absoluto de una función f (x)
sobre un intervalo I, es simplemente el mayor valor que alcanza la función en el intervalo;
análogamente, el mı́nimo absoluto es el menor valor que alcanza la función f (x) sobre I.
Para calcularlo, debemos tener en cuenta dos cosas: (i) los valores que alcanza la función
en los posibles extremos locales comprendidos en I (es decir, en los valores de x ∈ I donde
f ′ (x) = 0, o donde f (x) no es derivable); (ii) los valores de la función en los extremos de I
(es decir, si I = [a, b], los valores f (a) y f (b), y si alguno de los extremos de I es ±∞, el
lı́mite correspondiente). Esencialmente, reunimos todos esos valores, y buscamos el menor
y el mayor; el menor corresponde al mı́nimo absoluto, y el mayor, al máximo absoluto.
Por ejemplo, en el caso de la función de Fig. 3.1, el mı́nimo absoluto se alcanza en x = a,
3.2. EXTREMOS LOCALES. 57
mientras que el máximo absoluto se alcanza en x = x3 , es decir, en el punto P3 .

Para hablar con propiedad, conviene observar que a lo que llamamos mı́nimo absolu-
to es al valor de la función en el punto correspondiente, y análogamente para el máximo
absoluto; por lo tanto, en el caso de Fig. 3.1 el mı́nimo absoluto es f (a), mientras que
el máximo absoluto es f (x3 ) (la ordenada de P3 ). Algunas observaciones adicionales: no
está garantizado que el máximo ni el mı́nimo absolutos existan o se alcancen en puntos con-
cretos, porque eso depende del comportamiento de la función en el intervalo. Por ejemplo,
la función de Fig. 3.1 no tiene mı́nimo absoluto cuando I = R, ya que cuando x → ±∞,
f (x) → −∞; sin embargo, sı́ tiene máximo absoluto. No obstante, si f (x) es continua, y
el intervalo I es cerrado y acotado (la palabra técnica es compacto), entonces sı́ podemos
garantizar que f (x) alcanza su máximo y mı́nimo absolutos, en puntos concretos. Puede
también suceder que el máximo o mı́nimo absolutos se alcancen simultáneamente en varios
puntos a la vez (cuando la función alcanza su valor más alto o más bajo en varios puntos,
simultáneamente).
Vamos ahora a generalizar estos conceptos para el caso de funciones de dos variables,
f (x, y). En esta sección nos centraremos en los extremos locales; en la sección siguiente
trataremos los extremos absolutos. Intuitivamente, si f (x, y) presenta un máximo local en
un punto p = (a, b), el punto de la gráfica de f (x, y) (es decir, de la superficie z = f (x, y))
al que da lugar aparece como una “cumbre”de la superficie (véase Fig. 3.2). Análogamente,
si f (x, y) presenta un mı́nimo local en un punto p = (a, b), el punto correspondiente de
z = f (x, y) aparece como un “valle”, o un “pozo”de la superficie (véase Fig. 3.2, también).
Figura 3.2: Extremos locales de una función de dos variables.
Formalicemos las definiciones de extremo local. Intuitivamente, hemos dicho que una
función alcanza un mı́nimo local (resp. máximo local) en p cuando está por debajo (resp.
por encima) de sus vecinos inmediatos. La definición siguiente persigue definir esto con
más precisión. En esta definición aparece el concepto de entorno de un punto: si p ∈ R2 ,
un entorno Ep ⊂ R2 de p (abreviadamente, E) es simplemente un subconjunto del plano
que contiene a p; por ejemplo, en Fig. 3.3 se muestra un entorno del origen.
Definición 31. Sea f : U ⊂ R2 → R y sea p = (x0 , y0 ) un punto interior de U .

1. f (x, y) alcanza un máximo local (o relativo) en p si existe E, entorno de p, tal
que f (x, y) ≤ f (p) para todo (x, y) ∈ E.
2. f (x, y) alcanza un mı́nimo local (o relativo) en p si existe E, entorno de p, tal que

f (x, y) ≥ f (p) para todo (x, y) ∈ E.
3. Diremos que f alcanza un extremo local (o relativo) en p si en él alcanza un

máximo o un mı́nimo relativo.
Nos preguntamos ahora cómo calcular los extremos locales de f (x, y). Para ello, obser-
vamos que en los máximos y mı́nimos locales, si hay plano tangente, éste es horizontal (ver
Fig. 3.2). Puesto que la ecuación del plano tangente en el punto p = (a, b) de la gráfica de
f (x, y) es, según vimos,
fx (p)(x − a) + fy (p)(y − b) − (z − f (p)) = 0,
y puesto que un plano horizontal es de la forma z = c, para que el plano tangente en

p = (a, b) sea horizontal, debe cumplirse que fx (p) = fy (p) = 0. Esto motiva la siguiente
definición.
Definición 32. El punto p = (a, b) es un punto crı́tico de la función f (x, y) si se cumple
alguna de estas condiciones:
1. Alguna de las derivadas parciales de f en p no existe.
2. Las dos derivadas parciales de f en p existen y son nulas: fx (p) = fy (p) = 0, es

~ (p) = 0.
decir, ∇f
~ (p) = 0, decimos que p es un punto
Además, en el segundo caso, es decir, cuando ∇f
estacionario.
Conforme a lo anterior, los extremos locales de f (x, y) están entre los puntos crı́ticos
de f (x, y); es decir, se tiene el siguiente resultado.
Teorema 33. Sean D ⊂ R2 abierto y f : D ⊂ R2 → R diferenciable. Si p es un extremo
local de f , entonces es un punto crı́tico de f .
Observemos también que el teorema anterior puede demostrarse también teniendo en
cuenta que si f (x, y) tiene un, digamos, máximo, en p = (a, b), entonces f (x, b), como
función de una variable, tiene también un máximo en x = a. Si f (x, b) es derivable en
x = a, es decir, si existe fx (a, b), entonces esta derivada debe ser nula. Análogamente para
f (a, y). Esta idea puede generalizarse al caso de un mayor número de variables.
El recı́proco del Teorema 33 no es cierto, es decir, hay puntos crı́ticos de f (x, y) que no
son, sin embargo, extremos locales. Por ejemplo, consideremos la función f (x, y) = y 2 − x2 .
El punto (0, 0) es un punto crı́tico de f (x, y), ya que fx = −2x, fy = 2y, y por tanto
fx (0, 0) = fy (0, 0) = 0. Sin embargo, observemos que en (0, 0), la función f (x, y) no tiene
ni máximo ni mı́nimo local. En efecto, f (0, 0) = 02 −02 = 0. Por lo tanto, si fuera un mı́nimo
local, en las proximidades del (0, 0) tendrı́amos que f (x, y) ≥ f (0, 0), es decir, y 2 − x2 ≥ 0.
Sin embargo, eso no es cierto, porque en cualquier punto de la forma (x0 , 0), con x0 6= 0
(y cualquier entorno del (0, 0) contiene puntos de ese tipo) se tiene f (x0 , 0) = −x20 < 0.
Pero tampoco hay un mı́nimo local en (0, 0): si lo fuera, en las proximidades del (0, 0)
tendrı́amos que f (x, y) ≤ f (0, 0), es decir, y 2 − x2 ≤ 0, pero eso de nuevo es falso porque
en cualquier punto (0, y0 ), con y0 6= 0, se tiene f (0, y0 ) = y02 > 0. En Fig. 3.3, se puede
observar cómo cualquier entorno de (0, 0) contiene puntos (x0 , 0), con x0 6= 0, y (0, y0 ), con
y0 6= 0.
y
(0, y0)
(x0, 0)
Figura 3.3: Cualquier entorno del origen contiene puntos (x0 , 0) y (0, y0 ).
Definición 34. El punto p = (a, b) es un punto de silla de la función f (x, y) si es un

punto estacionario de la función, pero no es un extremo local. 2
Cabe preguntarse cuál es el aspecto de una superficie en las proximidades de un punto

de silla. Mientras que en un máximo o mı́nimo local la superficie queda localmente a un sólo
lado del plano tangente (por debajo, en el caso del máximo, y por encima, en el caso del
mı́nimo), en un punto de silla el plano tangente atraviesa la superficie, que queda a ambos
lados de él. Una imagen clásica, que además justifica la expresión “punto de silla”(por su
similitud con una silla de montar) es la del paraboloide z = y 2 − x2 , en las proximidades
del origen (ver Fig. 3.4).
Es útil, por lo tanto, disponer de algún criterio que nos indique la naturaleza de un
punto estacionario, es decir, que nos ayude a decidir si en el punto en cuestión hay un
máximo o mı́nimo local, o un punto de silla. Para ello, introducimos la siguiente definición.
Definición 35. Supongamos que f : U ⊂ R2 −→ R es de clase C 2 en un punto p ∈ U . La

matriz Hessiana de f en p es
2
Observemos que para que podamos hablar de punto estacionario, las parciales deben existir (y ser
nulas).
Figura 3.4: El paraboloide z = y 2 − x2 en las proximidades de su punto de silla.
∂ 2f ∂ 2f
  
∂ 
 ∂x2 (p) (p)  ← (p) ~
∇f →
Hf (p) =  ∂x∂y = ∂x 
 ∂ 2f ∂ 2f   ∂
~

(p) (p) ← (p) ∇f →
∂y∂x ∂y 2 ∂y
El Hessiano de f en p es el determinante de Hf (p).
Observemos que, bajo “buenas condiciones”(es decir, siempre que las derivadas primeras
y las derivadas cruzadas sean continuas), por el Lema de Schwartz, Hf (p) es simétrica.
Por simplicidad, en lo que sigue asumiremos que esa condición se da, y escribiremos

A B
Hf (p) = .
B C
Escribimos también det (Hf (p)) = D = AC − B 2 .

La matriz hessiana nos permite determinar la naturaleza de un punto crı́tico en ciertos
casos, como indica el siguiente resultado. Este resultado se justifica en la Sección 3.5.
Teorema 36. Para f : R2 → R de clase C 2 en un entorno del punto crı́tico (x0 , y0 ):
1. Si D > 0, entonces f tiene

Un mı́nimo local en (x0 , y0 ) si A > 0.
Un máximo local en (x0 , y0 ) si A < 0.
2. Si D < 0, entonces (x0 , y0 ) es un punto de silla.
Observemos que el teorema anterior no cubre todos los casos: por ejemplo, si D = 0, o
si D > 0 y A = 0, el teorema no nos dice nada, y tenemos que recurrir a la Definición 31
para aclarar qué sucede en el punto. Veamos primero un ejemplo de aplicación del Teorema
36. Después veremos otro ejemplo donde el teorema no aporta nada, y donde tendremos
que recurrir a la definición.
Ejemplo 16. Sea f (x, y) = x3 + y 3 − 2xy. Como la función es polinómica, las parciales
fx = 3x2 − 3y, y fy = 3y 2 − 3x están siempre definidas, y por lo tanto los puntos crı́ticos
corresponden a los puntos (x, y) donde fx = fy = 0, es decir, a las soluciones del sistema
polinómico: 2
3x − 3y = 0,
3y 2 − 3x = 0.
En la primera ecuación despejamos y = x2 ; en la segunda, x = y 2 . Por lo tanto, se tiene
x = (x2 )2 , es decir, x4 − x = 0. Luego x = 0, x = 1. Si x = 0, entonces y = 0, y si x = 1,
y = 1, luego los puntos crı́ticos son P1 = (0, 0), y P2 = (1, 1). Para estudiar la naturaleza
de cada uno, calculamos la matriz hessiana,

6x −3
Hf (x, y) = ,
−3 6y
y el hessiano, entonces, es
det(Hf (x, y)) = 36xy − 9.
Como
0 −3
Hf (0, 0) = ,
−3 0
cuyo determinante es −9, aplicando el criterio del Teorema 36 se tiene que (0, 0) es un
punto de silla. En cambio,
6 −3
Hf (1, 1) = ,
−3 6
y aplicando el criterio del Teorema 36, se tiene que (1, 1) es un mı́nimo local.
Ejemplo 17. Consideremos ahora la función f (x, y) = x4 + y 4 + 2x2 y 2 . Como la función
es polinómica, los puntos crı́ticos son, todos ellos, estacionarios. Las parciales son fx =
4x3 + 4xy 2 = 4x(x2 + y 2 ), fy = 4y 3 + 4yx2 = 4y(x2 + y 2 ), que se anulan a la vez únicamente
en el punto P = (0, 0). Sin embargo, como
12x2 + 4y 2

8xy
Hf (x, y) = ,
8xy 12y 2 + 4x2
entonces
0 0
Hf (0, 0) = ,
0 0
cuyo determinante es D = 0. Por lo tanto, Teorema 36 no es aplicable. Sin embargo,
observamos que f (0, 0) = 0. Por lo tanto, tendremos un mı́nimo local si en torno al origen,
se tiene f (x, y) ≥ f (0, 0), es decir, f (x, y) ≥ 0. Como f (x, y) = x4 + y 4 + 2x2 y 2 =
(x2 + y 2 )2 , y necesariamente (x2 + y 2 )2 ≥ 0, efectivamente, tenemos un mı́nimo local (de
hecho, absoluto).
Los conceptos y resultados anteriores son generalizables al caso de funciones F (x), con
x ∈ Rn , n ≥ 3.
Definición 37. Sea F : U ⊂ Rn → R y sea a ∈ U :
1. F alcanza un máximo relativo (o local) en a si existe E, entorno de a, tal que

F (x) ≤ F (a) para todo x ∈ E.
2. F alcanza un mı́nimo relativo (o local) en a si existe E, entorno de a, tal que

F (x) ≥ F (a) para todo x ∈ E.
Decimos que F presenta un extremo local o relativo en a si alcanza en a un máximo

o mı́nimo relativos.
Definición 38. El punto a = (a1 , . . . , an ) es un punto crı́tico de la función F (x1 , . . . , xn )

si se cumple alguna de estas condiciones:
1. Alguna de las derivadas parciales de F en a no existe.

~ (a) = 0.
2. Todas sus derivadas parciales de F en a existen y son nulas, es decir ∇F
~ (a) = 0, decimos que x = a es un punto estacionario.
En el primer caso, es decir si ∇F
Si a es un punto estacionario, pero no un extremo local, decimos entonces que a es un
punto de silla de F (x).
Teorema 39. Sean D ⊂ Rn abierto y F : D ⊂ Rn → R diferenciable. Si a es un extremo

local de F , entonces es un punto crı́tico de F .
Definición 40. Supongamos que F : U ⊂ Rn −→ R es de clase C 2 en un punto a ∈ U . La

matriz Hessiana de F en a, HF (a), es
 
∂
← ∂x1 ~
∇F →
 a 
 ← ∂x∂ 2
 ~
∇F → 

HF (a) =  a
.


 .
.


 
← ∂ ~
∇F →
∂xn
a
El Hessiano de F en a es el determinante de HF (a).
Finalmente, el teorema siguiente proporciona condiciones para determinar la naturaleza

de un punto crı́tico de F (x), con x ∈ Rn . Como sucedı́a con el Teorema 36, tampoco cubre
todas las situaciones posibles.
Teorema 41. Sean F : U ⊂ Rn → R y a ∈ U punto crı́tico de F . Sea Ak la submatriz de

HF (a) formada por las k primeras filas y las k primeras columnas de HF (a). Se verifica:
(1) Si los determinantes de las submatrices Ak para k = 1, . . . , n son todos no nulos y

positivos, entonces a es un mı́nimo local.
3.3. EXTREMOS ABSOLUTOS. 63
(2) Si los determinantes de las submatrices Ak para k = 1, . . . , n son todos no nulos y su

signo va alternando en la forma −, +, −, + etc., entonces a es un máximo local.
(3) Si los determinantes de las submatrices Ak para k = 1, . . . , n son todos no nulos pero
no estamos en ninguna de las situaciones anteriores, entonces a es un punto de silla.
Ejemplo 18. Sea F (x, y, z) = x2 + y 2 + z 2 + 4. Como
Fx = 2x, Fy = 2y, Fz = 2z,
el único punto crı́tico es P = (0, 0, 0). La matriz hessiana en el origen (y de hecho en

cualquier punto, porque es constante), es la matriz
 
2 0 0
HF (0, 0, 0) =  0 2 0  .
0 0 2
Por lo tanto, A1 = 2, A2 = 4, A3 = 8. Puesto que todos son positivos, por Teorema 41 en

el punto (0, 0, 0) la función F (x, y, z) alcanza un mı́nimo local. De hecho, ese mı́nimo es
absoluto, porque F (x, y, z) ≥ 4 = F (0, 0, 0).
3.3. Extremos absolutos.

Vamos ahora a generalizar la noción de extremo absoluto para funciones de varias
variables. Dada una función F (x), con x ∈ Rn , para poder hablar de extremos absolutos
de F necesitamos precisar el subconjunto U ⊂ Rn donde x toma valores. Informalmente,
el máximo absoluto de F en U , es simplemente el mayor valor que toma F cuando x
recorre U , y el mı́nimo absoluto, el menor valor. Con más detalle, se tienen las siguientes
definiciones (primero para dos variables, después para una cantidad arbitraria).
Definición 42. Sea f : U ⊂ R2 → R y sea p = (x0 , y0 ) un punto de U .
1. f alcanza en p un máximo absoluto (o global) sobre U si f (x, y) ≤ f (p) para todo

(x, y) ∈ U .
2. f alcanza en p un mı́nimo absoluto (o global) sobre U si f (x, y) ≥ f (p) para todo

(x, y) ∈ U .
3. Diremos que f alcanza en p un extremo absoluto (o global) sobre U si en p alcanza

un máximo o un mı́nimo absoluto.
Definición 43. Sea F : U ⊂ Rn → R y sea a ∈ U :
1. F alcanza en a un máximo absoluto (o global) sobre U si F (x) ≤ F (a). para todo

x ∈ U.
2. F alcanza en a un mı́nimo absoluto (o global) sobre U si F (x) ≥ F (a). para todo

x ∈ U.
Sin embargo, se puede observar que el máximo o el mı́nimo absolutos no siempre existen.
Por ejemplo, si tomamos
1
f (x, y) = 2 ,
x + y2
con
U = {(x, y) ∈ R2 |x2 + y 2 ≤ 1},
podemos ver que aunque f (x, y) sı́ alcanza su mı́nimo absoluto en U (de hecho, en infinitos
puntos!), sin embargo no alcanza su máximo absoluto. En efecto, en este caso U es el disco
centrado en el origen, de radio 1. Cuando nos vamos aproximando al centro del disco (véase
la Fig. 3.5, donde se muestra la gráfica de la función, con forma de embudo), la función
f (x, y) va aumentando, de manera que
lim(x,y)→(0,0) f (x, y) = ∞.
Es más, el valor más pequeño para la función se obtiene en los puntos del borde del disco,
es decir, en los puntos donde x2 + y 2 = 1: en estos esos puntos, la función toma el valor 1,
y ese valor se va haciendo más y más grande a medida que nos movemos hacia el origen.
Por lo tanto, el mı́nimo absoluto de f (x, y) es 1 y se alcanza en infinitos puntos a la vez,
en concreto sobre todos los puntos de la circunferencia x2 + y 2 = 1; en cambio, no hay
máximo absoluto.
1
Figura 3.5: f (x, y) = x2 +y 2
, en U = {(x, y) ∈ R2 |x2 + y 2 ≤ 1}.
Para asegurar que se alcanzan los extremos absolutos, necesitamos ciertas condiciones
sobre la función y sobre el subconjunto U . Decimos, informalmente, que U ⊂ Rn es aco-
tado, si no se extiende indefinidamente. Por ejemplo, un disco o una esfera son acotados;
en cambio un plano no lo es. Decimos, también informalmente, que U es cerrado, cuando
contiene a su frontera. Si se dan las dos condiciones anteriores, es decir, si U ⊂ Rn es
cerrado y acotado, decimos que es compacto. Se tiene entonces el siguiente resultado, que
garantiza que se alcancen los extremos absolutos.
3.3. EXTREMOS ABSOLUTOS. 65
Teorema 44. Si F : U ⊂ Rn → R es continua en U , compacto de Rn , entonces F alcanza

un máximo y un mı́nimo absolutos en U .
Si U no es compacto y/o F no es continua en U , entonces puede o no que F tenga

extremos absolutos sobre U , pero no podemos garantizarlo. Observemos que en el caso de
Fig. 3.5, el conjunto U es compacto, pero f (x, y) no es continua en él (no es continua en
el origen).
Para calcular los extremos absolutos de F en un conjunto compacto U , procederemos

de la siguiente forma:
1. [interior de U ] Calculamos los puntos crı́ticos de F en el interior de U , que repre-

sentamos por P1 , . . . , Pm . No es necesario que estudiemos su naturaleza.
2. [frontera de U ] Estudiamos los posibles extremos absolutos de F en la frontera de

U . Para ello, en general tenemos dos posibilidades:
2.1. Parametrizar U (véase Ejemplo 19).

2.2 Utilizar multiplicadores de Lagrange (véase la siguiente sección).
En cualquier caso, en general obtendremos varios puntos Pm+1 , . . . , Pn , entre los

cuáles están los puntos donde F alcanza sus extremos absolutos en la frontera de U .
3. Evaluamos la función F en los puntos P1 , . . . , Pm , Pm+1 , . . . , Pn , y buscamos el mayor

y el menor de esos valores. El mayor valor corresponde al máximo absoluto, y el
menor, al mı́nimo absoluto.
Vamos a ver ahora un ejemplo detallado de cálculo de extremos absolutos. Antes, re-
cordemos cómo calcular extremos absolutos de una función de una variable. Si queremos
calcular los extremos absolutos de, por ejemplo, f (t) = t2 + 2t en el intervalo I = [−2, 1],
debemos buscar primero los puntos donde pueda darse extremo absoluto. Esos puntos son:
(i) los puntos del interior de I donde f ′ (t) = 0 (potenciales extremos relativos); (ii) los
puntos del extremo del intervalo, en este caso t = −2 y t = 1. En nuestro caso, como
f ′ (t) = 2t + 2, entonces f ′ (t) = 0 para t = −1, que está dentro del intervalo. Por tanto,
las posibilidades son t = −2, t = −1, t = 1. Ahora evaluamos f (t) en cada uno de esos
puntos: f (−2) = 0, f (−1) = −1, f (1) = 3. El mayor valor es 3, luego ése es el máximo
absoluto, que se alcanza en un extremo del intervalo, t = 1. El menor valor es −1, que se
alcanza en el punto t = −1, interior al intervalo, que también es extremo relativo.
Antes de abordar el ejemplo, necesitamos introducir la noción de parametrización de
una curva, sobre la cuál volveremos más adelante, en el curso, cuando abordemos las inte-
grales sobre curvas. Una parametrización de una curva f (x, y) = 0 es un par de funciones
{x(t), y(t)}, con t ∈ I (I un intervalo) de tal manera que: (a) para todo t ∈ I, el punto
(x(t), y(t)) esté en la curva; (b) todo punto de la curva pueda escribirse como (x(t), y(t))
para algún t ∈ I. En particular, debe cumplirse f (x(t), y(t)) = 0 para todo t ∈ I. Decimos
que t es el parámetro de la curva. Por ejemplo, los puntos de la circunferencia x2 + y 2 = 1

se pueden parametrizar como
(cos(t), sen(t)),
con t ∈ [0, 2π]: efectivamente, para todo t ∈ [0, 2π] se tiene que cos2 (t) + sen2 (t) = 1, es
decir, el punto está en la curva; y todo punto de la circunferencia se puede escribir de la
forma anterior. Por ejemplo, también, el tramo del eje y entre el origen, y el punto (0, 1),
se puede parametrizar como (0, t), con t ∈ [0, 1].
En el ejemplo siguiente, la frontera del recinto está formada por varias curvas, y sobre
cada una de ellas localizamos potenciales extremos absolutos reduciendo el estudio al de
varias funciones de una variable. Para ello, parametrizamos cada una de esas curvas, de
modo que sobre cada curva la función a estudiar será una función sólo del parámetro.
Ejemplo 19. Sea f (x, y) = xy − 2x − 3y, y sea
U = {(x, y) ∈ R2 |0 ≤ x ≤ 4, 0 ≤ y ≤ 2x}.
1. Como f (x, y) es polinómica, los puntos crı́ticos en el interior de U son los puntos
donde se anula el gradiente de la función (porque no hay puntos donde alguna parcial
no exista). Como fx = y − 2, fy = x − 3, obtenemos el punto P1 = (3, 2), que
efectivamente está en el interior de U 3 .
2. La frontera de U (véase Fig. 3.6) consta de tres tramos: (a) L1 , el tramo del eje x
entre x = 0 y x = 4; (b) L2 , el tramo de la recta x = 4, desde el punto (4, 0) hasta el
punto (4, 8); (c) L3 , el tramo de la recta y = 2x desde x = 0 hasta x = 4.
8
L3
L2
0 L1 4
Figura 3.6: Frontera de U .
(a) L1 : podemos parametrizar todos los puntos de este tramo en la forma x = t,

y = 0, con 0 ≤ t ≤ 4. Por lo tanto,
f1 (t) = f |L1 = t · 0 − 2t − 3 · 0 = −2t,

3
Si obtenemos puntos crı́ticos que están fuera de U , no los consideramos!!
3.4. MÁXIMOS Y MÍNIMOS CONDICIONADOS. 67
donde t ∈ [0, 4]. Es decir, sobre los puntos de L1 , la función f es de hecho

una función de una variable, que obtenemos sustituyendo x = t, y = 0 en la
expresión analı́tica de f (x, y). Queremos calcular los valores de t (y por tanto los
puntos de L1 ) donde f1 (t) pueda alcanzar sus extremos absolutos. Esos puntos
son aquellos puntos, interiores al intervalo [0, 4], donde f1′ (t) = 0, y los puntos
correspondientes a los extremos. Como f1′ (t) = −2 6= 0, los únicos puntos son
los correspondientes a t = 0, t = 4, es decir, P2 (0, 0) y P3 (4, 0).
(b) L2 : podemos parametrizar estre tramo como x = 4, y = t, con 0 ≤ t ≤ 4. Por
lo tanto,
f2 (t) = f |L2 = 4t − 8 − 3t = t − 8.
Como f2′ (t) = 1 6= 0, los posibles extremos absolutos de f2 (t) corresponden a
t = 0, t = 4, es decir, de nuevo el punto (4, 0), que ya habı́amos obtenido antes,
y el punto P4 = (4, 8).
(c) L3 : podemos parametrizar este tramo como x = t, y = 2t, con 0 ≤ t ≤ 4. Por lo
tanto,
f3 (t) = f |L3 = 2t2 − 2t − 6t = 2t2 − 8t.
Como f3′ (t) = 4t − 8, que se anula en t = 2, tenemos como potenciales extremos
absolutos de f3 (t) los puntos P5 = (2, 4), y los puntos correspondientes a los
extremos t = 0 y t = 4 del intervalo [0, 4], es decir, de nuevo el (0, 0), que
obtuvimos al principio, y el (4, 8), que también habı́amos obtenido antes.
3. Tenemos cinco candidatos, P1 , . . . , P5 . Al evaluar f (x, y) en cada uno de ellos, se

tiene: f (P1 ) = −6; f (P2 ) = 0; f (P3 ) = −8; f (P4 ) = 0; f (P5 ) = −8. Por lo tanto,
el menor valor es −8, que se alcanza en P3 y P5 simultáneamente, y el mayor, 0,
que se alcanza en P2 y P4 simultáneamente. En consecuencia, se tiene que el mı́nimo
absoluto es -8, y el máximo absoluto, 0.
3.4. Máximos y mı́nimos condicionados.

Consideremos el siguiente problema: queremos calcular los puntos de la hipérbola xy =
1, más cercanos al origen de coordenadas. Es decir, queremos encontrar los puntos (x, y)
de la hipérbola xy = 1 cuya distancia al origen sea mı́nima. La distancia de (x, y) al punto
(0, 0) es p p
(x − 0)2 + (y − 0)2 = x2 + y 2 .
Queremos entonces hacer mı́nima la función f˜(x, y) = x2 + y 2 , pero en un caso en que
p
las variables x, y no son libres, sino que están ligadas por la condición de que (x, y) sea un
punto de la hipérbola; es decir, por la condición xy − 1 = 0. Podemos por tanto reformular
nuestro problema de la siguiente manera:
Minimizar f˜(x, y) = x2 + y 2 ,
p
sujeta a la condición xy − 1 = 0.
Además,
√ √ como la raı́z cuadrada
p es una función monótona (es decir, si a, b > 0, entonces
a < b si y sólo si a < b), x2 + y 2 será mı́nima en el mismo punto en que lo sea x2 + y 2 .
Por lo tanto, podemos simplificar el problema como:
Minimizar f (x, y) = x2 + y 2 ,
sujeta a la condición xy − 1 = 0.
Se trata entonces de buscar el mı́nimo absoluto de la función f (x, y), sobre los puntos
de una curva g(x, y) = 0, en este caso la hipérbola xy − 1 = 0. Esto es lo que llamamos un
problema de máximos y mı́nimos condicionados, porque queremos encontrar el máximo o el
mı́nimo (absolutos) de una cierta función f (x1 , x2 , . . . , xn ), en un caso en que las variables
x1 , x2 , . . . , xn no son libres, sino que satisfacen una condición g(x1 , x2 , . . . , xn ) = 0 (se habla
de condición, o también de restricción o ligadura). Cuando sólo hay una condición (puede
haber más, como veremos después), entonces la forma general del problema es la siguiente:
Problema 1.
Maximizar/Minimizar f (x1 , x2 , . . . , xn ),
sujeta a la condición g(x1 , x2 , . . . , xn ) = 0.
Volvamos al problema original: en este caso, la solución es sencilla, sin más que repre-
sentar geométricamente la situación (ver Fig. 3.7).
y
Figura 3.7: Motivando el Teorema de Lagrange.
Geométricamente, puede verse que los puntos de la hipérbola xy = 1 que están más
próximos al origen son los puntos de intersección con la recta y = x; por lo tanto, se
cumple x2 = 1, es decir, x = ±1, y puesto que y = x, los puntos buscados son√(±1, ±1),
que aparecen marcados en rojo en Fig. 3.7.√ La distancia de ambos al origen, es 2; por lo
tanto, la respuesta a nuestra pregunta es 2. En este caso, se puede encontrar la solución
por métodos sencillos, pero en general necesitamos un procedimiento más sofisticado. La
base del método la proporciona el Teorema de Lagrange.
Teorema 45. Sean f (x), g(x) funciones diferenciables en Rn . Si f (x) alcanza su máximo
~
o mı́nimo absolutos en x = x0 sobre el conjunto g(x) = 0, y ∇g(x 0 ) 6= 0, se tiene
~ (x0 ) = λ · ∇g(x
∇f ~ 0) (3.1)
para algún λ ∈ R.
Veamos que en el ejemplo inicial es ası́: en este caso, f (x, y) = x2 + y 2 , y g(x, y) =

xy − 1. Entonces ∇f~ = (2x, 2y), y ∇f~ (1, 1) = (2, 2). Por otra parte, ∇g(x,
~ y) = (y, x), y
~
∇g(1, ~ (1, 1) = 2 · ∇g(1,
1) = (1, 1). Se tiene por lo tanto que ∇f ~ 1). Se puede comprobar
que en el punto (−1, −1) tenemos la misma relación.
Ciertamente, lo anterior no es una demostración del teorema, sino una comprobación
en un caso particular. Daremos una demostración (opcional) para el caso de dos variables.
Demostración. (Opcional del Teorema 45; caso de dos variables) Por hipótesis, sabemos
~
que ∇g(x 0 ) 6= 0. Por el Teorema de la Función implı́cita, entonces tenemos o bien un
intervalo I ⊂ R, x0 ∈ I, tal que para todo x ∈ I la expresión g(x) = g(x, y) = 0 define
implı́citamente a y = y(x), con y(x) diferenciable en I, o bien un intervalo J ⊂ R, y0 ∈ J,
tal que para todo y ∈ J la expresión g(x) = g(x, y) = 0 define implı́citamente a x = x(y),
con x(y) diferenciable en J. Supongamos que se da la primera situación; la segunda es
análoga. Por lo tanto, en la vecindad de x0 la función f (x, y) que queremos maximizar o
minimizar es de hecho una función f (x, y(x)), que es diferenciable porque f y y(x) son
diferenciables. Como f (x, y(x)) tiene un máximo o mı́nimo en x = x0 ∈ I, su derivada se
debe anular en x = x0 ; por la regla de la cadena, en el punto (x0 , y0 ) se tiene
fx · 1 + fy · y ′ = 0,
es decir, ∇f ~ = (fx , fy ) en el punto (x0 , y0 ) es perpendicular al vector (1, y ′ (x0 )). Puesto que
~
(1, y ′ (x0 )) es tangente a la curva g(x, y) = 0 en (x0 , y0 ), y el vector ∇g(x 0 , y0 ) es normal
a la misma, entonces ∇f ~ (x0 ) y ∇g(x
~ 0 ) son paralelos. Además, como habı́amos supuesto
~
que ∇g(x ~ ~
0 ) 6= 0, se tiene ∇f (x0 ) = λ · ∇g(x0 ) para algún λ ∈ R.
El Teorema 45 proporciona un método para tratar los problemas de máximos y mı́nimos

condicionados con una restricción: si f (x1 , . . . , xn ) es la función a maximizar/minimizar, y
g(x1 , . . . , xn ) = 0 es la restricción a la que están sometidas las variables, entonces:
1. Formamos la función
F (x1 , . . . , xn , λ) = f (x1 , . . . , xn ) + λ · g(x1 , . . . , xn ).
La variable λ es una variable auxiliar, llamada multiplicador de Lagrange.
2. Consideramos el sistema formado al igualar a 0 todas las derivadas de la función F

(respecto a las xi , y respecto a λ; al igualar a 0 la derivada de F con respecto a λ
obtenemos, de hecho, la condición g(x1 , . . . , xn ) = 0).

∂f ∂g
 ∂F
 ∂x1
= ∂x 1
+ λ · ∂x 1
= 0,
 .. .. ..


. . .
∂F ∂f ∂g
 = ∂xn + λ · ∂xn = 0,
 ∂x

 n
∂F
∂λ
= g = 0.
3. Resolvemos el sistema anterior para x1 , . . . , xn . Es importante observar que la varia-

ble λ es auxiliar, y su valor no nos interesa. Por tanto, en muchos casos podremos
eliminarla sin calcularla. En otros casos conviene calcularla porque ello facilita el
cálculo de las xi , que es realmente nuestro objetivo.
4. Si existe, el máximo o mı́nimo (absoluto) buscado estará entre las soluciones obteni-
das.
Obsérvese que lo que están expresando las n primeras ecuaciones del sistema anterior
~ = λ · ∇g,
es, precisamente, que ∇f ~ que es lo que garantizaba el Teorema 45.
Algunas observaciones:
Antes de comenzar el problema, conviene convencerse de si hay o no solución. Si la
hay, estará entre las soluciones del sistema anterior. Pero podrı́a no haberla!!
La técnica es aplicable al cálculo de extremos absolutos de funciones sobre la frontera
de un conjunto compacto. Si la frontera del conjunto en el que trabajamos se puede
espresar como g(x1 , . . . , xn ) = 0 (porque es una curva, o una superficie, etc.), entonces
el procedimiento anterior proporciona los posibles puntos en los que la función alcanza
un extremo absoluto sobre g(x1 , . . . , xn ) = 0.
Ejemplo 20. Queremos encontrar las dimensiones del paralelepı́pedo de volumen máximo,
inscrito en la esfera unidad. Es decir, las dimensiones de la “caja”de mayor volumen cuyos
vértices se apoyan sobre la esfera unidad. En primer lugar, observemos que hay solución,
porque no es posible inscribir en la esfera una caja de volumen arbitrariamente grande (el
volumen de la caja es necesariamente menor que el volumen de la esfera).
Para encontrar la solución, llamemos (x, y, z) a las coordenadas del vértice de la caja que
se encuentra en el primer octante (es decir, x, y, z > 0) Por simetrı́a, el resto de los vértices
serán los simétricos de éste respecto a los planos coordenados, y los ejes coordenados. Es
decir, si proyectamos sobre el plano xz, o sobre el plano yz, la situación será la siguiente:
Por tanto, si (x, y, z) es el vértice del paralelepı́pedo que estamos buscando, situado en el
primer octante, los restantes vértices serán: (−x, y, z), (x, −y, z), (x, y, −z), (−x, −y, z),
(−x, y, −z), (x, −y, −z), (−x, −y, −z). Con esto, los lados del paralelepı́pedo miden 2x,
2y, 2z respectivamente, y el volumen del paralelepı́pedo, que es la función que queremos
maximizar, es
f (x, y, z) = 2x · 2y · 2z = 8xyz.
Además, puesto que (x, y, z) es un punto de la esfera unidad, cumple x2 + y 2 + z 2 = 1. En
consecuencia, nuestro problema es el siguiente:
z z
(−x, z) (x, z) (−y, z) (y, z)
x y
(−x, −z) (x−, z) (−y, −z) (y, −z)
Figura 3.8: Ejemplo 20
Maximizar f (x, y, z) = 8xyz,

sujeta a la condición x2 + y 2 + z 2 − 1 = 0.
Por lo tanto, formamos la función
F (x, y, z, λ) = 8xyz + λ · (x2 + y 2 + z 2 − 1),
donde λ es un multiplicador de Lagrange, y consideramos el sistema formado por el resul-

tado de igualar a cero las derivadas parciales de la función F (x, y, z, λ):


 Fx = 8yz + λ · 2x = 0 [1],
Fy = 8xz + λ · 2y = 0 [2],


 Fz = 8xy + λ · 2z = 0 [3],
2 2 2
Fλ = x + y + z − 1 = 0 [4].

Llamamos [1], [2], [3], [4] a las ecuaciones anteriores. En general, para resolver estos sis-
temas buscamos librarnos de los multiplicadores (a menudo sin calcularlos). Por ejemplo,
si multiplicamos [1] por y, y [2] por x, obtenemos
8y 2 z + λ · 2xy = 0,
8x2 z + λ · 2xy = 0.
Restando las ecuaciones anteriores, se deduce que 8z(y 2 − x2 ) = 0. Puesto que z > 0, se
tiene x2 = y 2 ; y como x, y > 0, concluimos que x = y. Podemos hacer algo similar con [2] y
[3]. En este caso multiplicamos [2] por z, [3] por y, restamos las ecuaciones que obtenemos,
y razonando como antes se tiene y = z. Por lo tanto, x = y = z. Sustituyendo esto en [4],
llegamos a
3x2 − 1 = 0,
√
de donde, puesto que x > 0, se tiene x = 3/3. Como x = y = z, y nos piden las
dimensiones de la caja, que son 2x, 2y, 2z,
√ vemos que la caja de volumen máximo, inscrita
en la esfera unidad, es el cubo de lado 2 3/3.
En el caso más general posible, podemos tener no una, sino varias restricciones. Es
decir, la versión más general del problema es la siguiente:
Problema 2.
Maximizar/Minimizar f (x1 , x2 , . . . , xn ),
sujeta a las condiciones g1 (x1 , x2 , . . . , xn ) = 0, . . . , gk (x1 , x2 , . . . , xn ) = 0, con
k < n.
En este caso, el resultado fundamental que necesitamos es el siguiente; la demostración
es similar al caso de dos variables, utilizando una forma más general para el Teorema de
la Función Implı́cita.
Teorema 46. Sean f (x), g1 (x), . . . , gk (x) funciones de clase C 1 en Rn . Si f (x) alcanza
su máximo o mı́nimo absolutos en x = x0 sobre el conjunto de Rn definido por g1 (x) =
~ 1 (x0 ), . . . , ∇g
0, . . . , gk (x) = 0, k < n, y ∇g ~ k (x0 ) son linealmente independientes, existen
λ1 , . . . , λk ∈ R tales que
~ (x0 ) = λ1 · ∇g
∇f ~ 1 (x0 ) + · · · + λk · gk (x0 ). (3.2)
Los pasos que debemos dar para resolver un problema de este tipo son muy similares a
los del caso anterior.
1. Formamos la función
F (x, λ) = f (x) + λ1 · g1 (x) + · · · + λk · gk (x).
Las variables λ1 , . . . , λk son auxiliares, y se llaman multiplicadores de Lagrange.
2. Consideramos el sistema formado al igualar a 0 todas las derivadas de la función F
(respecto a las xi , y respecto a λ1 , . . . , λk ; al igualar a 0 la derivada de F con respecto
a λi obtenemos, de hecho, la condición gi (x) = 0). En forma compacta, este sistema
es
~ (x) + λ1 ∇g
∇f ~ 1 (x) + · · · + λk ∇g ~ k (x) = 0,
que se corresponde con Eq. 3.2.
3. Resolvemos el sistema anterior para x1 , . . . , xn . Las variables λ1 , . . . , λk son auxi-
liares, y en muchos casos podemos eliminarlas sin calcularlas. En otros casos las
calcularemos, pero sólo como un medio para llegar a x1 , . . . , xn , y no como un fin en
sı́ mismo.
4. Si existe, el máximo o mı́nimo (absoluto) buscado estará entre las soluciones obteni-
das.
Como ya observamos antes, si existe, la solución al problema estará entre las soluciones
del sistema anterior. Pero primero debemos convencernos de que, efectivamente, la solución
existe.
Ejemplo 21. El plano x + y − z = 1 corta al cono x2 + y 2 = z 2 en una elipse. Queremos

hallar los puntos de ésta más cercanos al origen. En primer lugar (véase Fig. 3.9), podemos
observar que efectivamente debe haber un punto sobre la elipse que sea el más próximo al
origen (que, por cierto, es el vértice del cono). Por lo tanto, hay solución.
Figura 3.9: Ejemplo 21
Para buscarla, llamemos (x, y, z) a las coordenadas del punto que deseamos encontrar.
La distancia de ese punto al origen es
p p
(x − 0)2 + (y − 0)2 + (z − 0)2 = x2 + y 2 + z 2 .
Queremos que esta función se haga mı́nima. Sin embargo, observamos que, puesto que la
raı́z cuadrada es una función monótona creciente, dicha función se hará mı́nima allá donde
x2 + y 2 + z 2 se haga mı́nima, con lo que la función que deseamos minimizar es f (x, y, z) =
x2 + y 2 + z 2 . Como (x, y, z) es un punto de la intersección del plano x + y − z − 1 = 0 y el
cono x2 + y 2 − z 2 = 0, tenemos dos restricciones. Es decir, el problema es:
Minimizar f (x, y, z) = x2 + y 2 + z 2 ,
sujeta a las condiciones x + y − z − 1 = 0, x2 + y 2 − z 2 = 0.
Por tanto, formamos la función
F (x, y, z, λ, µ) = x2 + y 2 + z 2 + λ · (x + y − z − 1) + µ · (x2 + y 2 − z 2 ),
y consideramos el sistema que resulta al igualar a cero las derivadas parciales de F :



 Fx = 2x + λ + µ · 2x = 0 [1],
 Fy = 2y + λ + µ · 2y = 0 [2],


Fz = 2z − λ + µ · (−2z) = 0 [3],
Fλ = x+y−z−1 = 0 [4],




Fµ = x2 + y 2 − z 2 = 0 [5].

Si ahora restamos [1] y [2], se tiene 2(x − y) + 2µ(x − y) = 0, es decir,
(x − y)(2 + 2µ) = 0,
de donde obtenemos dos posibilidades, x = y, ó µ = −1. Si x = y, entrando en [4] y [5]

obtenemos un sistema de dos ecuaciones con dos incógnitas,

2x − z = 1,
2x2 − z 2 = 0.
Este sistema tiene como soluciones

√
2+ 2 √
x= , z = 1 + 2,
2
y √
2− 2 √
x= , z = 1 − 2.
2
Por lo tanto, tenemos dos candidatos a solución,
√ √ ! √ √ !
2+ 2 2+ 2 √ 2− 2 2− 2 √
P1 = , , 1 + 2 , P2 = , ,1 − 2 .
2 2 2 2
Por otra parte, si µ = −1, entrando en [1] se obtiene λ = 0. Y sustituyendo µ = −1, λ = 0

en [3], llegamos a z = 0. Entrando en [4] y [5] con z = 0, se obtiene el sistema

x + y = 1,
x2 + y 2 = 0.
Sin embargo este sistema no tiene soluciones reales, ya que la única pareja que satisface
la segunda ecuación es x = 0, y = 0, que sin embargo no cumple la primera ecuación.
Por lo tanto, los únicos candidatos son P1 y P2 . Podemos ver que f (P1 ) > f (P2 ), luego
la distancia mı́nima al origen se alcanza en P2 . En realidad, P1 corresponde al punto
más alejado del origen (obsérvese que si en vez de minimizar f (x, y, z) hubiéramos elegido
maximizar f (x, y, z), el proceso habrı́a sido el mismo).
3.5. Polinomio de Taylor en varias variables (opcio-

nal).
Como en otras ocasiones, comenzamos recordando el caso de una variable. Sin du-
da ninguna, las funciones de una variable más sencillas que podemos encontrar son los
polinomios. Además, computacionalmente los polinomios son fáciles de manejar, porque
esencialmente consisten en sumas, restas y multiplicaciones (potencias incluı́das). Por lo
tanto tiene sentido pensar, dada una función f (x) y un valor x = x0 , cómo encontrar un
3.5. POLINOMIO DE TAYLOR EN VARIAS VARIABLES (OPCIONAL). 75
polinomio Pn (x), del grado n que fijemos, que aproxime suficientemente bien, en algún
sentido, la función f (x) en las proximidades del punto x = x0 . Escribamos
Pn (x) = a0 + a1 (x − x0 ) + a2 (x − x0 )2 + · · · + an (x − x0 )n .
Si la función f (x) tiene derivadas hasta orden n, para asegurar que Pn (x) aproxima bien a
f (x) para x cercano a x0 , imponemos
Pn (x0 ) = f (x0 ), Pn′ (x0 ) = f ′ (x0 ), , Pn′′ (x0 ) = f ′′ (x0 ), . . . , Pnn) (x0 ) = f n) (x0 ).
Escribiendo Pn (x0 ), Pn′ (x0 ), Pn′′ (x0 ), . . . en función de a0 , a1 , a2 , . . ., podemos obtener los
valores de los ai en función de los valores de las derivadas de f (x) en x = x0 . Más concre-
tamente, se tiene
f ′ (x0 ) f ′′ (x0 ) f n) (x0 )

Pn (x) = f (x0 ) + (x − x0 ) + (x − x0 )2 + · · · + (x − x0 )n ,
1! 2! n!
donde k! se lee “factorial de k”, y se calcula como k! = k · (k − 1) · (k − 2) · · · 2 · 1.
La expresión anterior corresponde al Polinomio de Taylor de orden n de f (x) en
x = x0 . Esencialmente, y siempre que f (x) tenga buenas propiedades, Pn (x) ≈ f (x) para
x suficiente próximo a x0 . Por ejemplo, tomemos f (x) = ex , y x = 0. Como f n) (x) = ex
para todo n, se tiene que f n) (0) = e0 = 1 para todo n. Por lo tanto, en x = 0 tendremos
x x2 xn
Pn (x) = 1 + + + ··· + .
1! 2! n!
Tomando por ejemplo n = 2, se tiene que una buena aproximación de e0,1 (obsérvese que
x = 0,1 está próximo a x = 0), serı́a
0,1 0,1 0,012

e ≈1+ + = 1,105.
1! 2!
El valor que nos devuelve un paquete de software matemático (Maple 18, en este caso)
para e0,1 es, por cierto, 1, 105170918. En general, a medida que incrementamos el grado
del polinomio, la aproximación es mejor. En Fig. 3.10 podemos visualizar la gráfica de
la función f (x) = ex (en verde) junto con su polinomio de Taylor en el origen (en azul),
para n = 1, n = 2 y n = 3. Observamos como, a medida que incrementamos el grado,
la aproximación mejora. Obsérvese también que el polinomio de Taylor de orden 1 es,
simplemente, la recta tangente. Con más precisión, el Teorema de Taylor afirma que, si
f (x) es derivable hasta orden n + 1 en x = a, y Pn (x) es su polinomio de Taylor de orden
n en x = a, entonces
f (x) = Pn (x) + Rn (x),
donde
Rn (x)
lim = 0.
|x − a|n
Figura 3.10: Polinomio de Taylor de distintos grados para f (x) = ex en el origen.
La expresión Rn (x) = f (x) − Pn (x) recibe el nombre de resto de Taylor de f (x), de orden
n, en x = a, y el resultado anterior nos dice no sólo que Rn (x) tiende a cero cuando x → a,
sino que tiende a 0 más rápido que |x − a|n .
Nos planteamos entonces algo parecido para funciones de varias variables. Indicaremos
simplemente la idea para el caso de funciones de dos variables, f (x, y); para funciones de
un mayor número de variables, los resultados son análogos. Para una función f (x, y), y un
punto p = (x0 , y0 ), buscamos entonces un polinomio Pn (x, y), de grado n, que aproxime
bien la función en las proximidades de p. Para ello, impondremos que los valores de las
derivadas parciales de Pn (x, y) en p hasta orden n coincidan con los valores de las derivadas
parciales de f (x, y) en p hasta orden n. En el caso de n = 1, se tiene

1 ∂f ∂f
P1 (x, y) = f (p) + (p)(x − x0 ) + (p)(y − y0 ) .
1! ∂x ∂y
La expresión anterior deberı́a ser ya familiar: corresponde a la coordenada z del plano
tangente a la gráfica de z = f (x, y) en p. Para n = 2, se tiene

1 ∂f ∂f
P2 (x, y) = f (p) + (p)(x − x0 ) + (p)(y − y0 ) +
1! ∂x ∂y
2 (3.3)
∂ 2f ∂ 2f

1 ∂ f 2 2
(p)(x − x0 ) + 2 (p)(x − x0 )(y − y0 ) + 2 (p)(y − y0 ) .
2! ∂x2 ∂x∂y ∂y
En general, para pasar de Pk−1 (x, y) a Pk (x, y), tenemos que añadir el término
k
1 X k ∂kf
· k−j j
(p)(x − x0 )k−j (y − y0 )j ,
k! j=0 j ∂x ∂y
donde la suma se refiere a todas las derivadas de orden k de f (x, y) en p.

Bajo “buenas condiciones”, se tiene entonces que f (x, y) ≈ Pk (x, y), con (x, y) próximo
al punto (x0 , y0 ). Con mayor precisión, se tiene el siguiente resultado.
Teorema 47. Sea f (x, y) una función de clase C n+1 en un conjunto abierto U ⊂ R2 que
contiene a (x0 , y0 ), y sea Pn (x, y) su polinomio de Taylor de orden n en (x0 , y0 ). Si el
segmento que conecta (x0 , y0 ) y (x, y) está contenido en U , entonces
f (x, y) = Pn (x, y) + Rn (x, y),
donde
Rn (x, y) f (x, y) − Pn (x, y)
lim(x,y)→(x0 ,y0 ) n = lim(x,y)→(x0 ,y0 ) → 0.
k(x, y) − (x0 , y0 )k k(x, y) − (x0 , y0 )kn
La expresión Rn (x, y) recibe el nombre de resto de Taylor de f (x, y), de orden n, en (x0 , y0 ).
El resultado anterior justifica que Pn (x, y) proporciona una buena aproximación de
f (x, y) en las proximidades de (x0 , y0 ), ya que la diferencia entre ambos tiende a cero más
deprisa de lo que nos aproximamos al punto.
2 2
A modo de ejemplo, consideremos f (x, y) = e−x −y , cuya gráfica aparece en la Fig.
3.11. En las sucesivas imágenes, se muestran la gráfica de la función y la de su polinomio
de Taylor en (0, 0) para n = 1, n = 2, n = 4, n = 6 y n = 8. Puede apreciarse cómo las
graficas de los polinomios se ajustan cada vez mejor a la gráfica original, a medida que el
grado va subiendo.
El polinomio de Taylor proporciona por tanto, siempre que f cumpla ciertas condiciones,
una buena aproximación de f (x, y) en las proximidades del punto p. De hecho, podemos
utilizar el polinomio de Taylor para justificar el criterio del Teorema 36, que permitı́a
discriminar si en un punto crı́tico p tenı́amos máximo local, mı́nimo local o punto de silla,
en determinados casos. Para ello, recordemos que en un punto crı́tico las dos derivadas
primeras se anulan, es decir,
∂f ∂f
(p) = (p) = 0.
∂x ∂y
Por lo tanto, la expresión (3.3) para el Polinomio de Taylor en p, de orden 2, queda, en el
caso en que p es un punto crı́tico,
1 ∂ 2f ∂ 2f ∂ 2f

2 2
P2 (x, y) = f (p) + (p)(x − x0 ) + 2 (p)(x − x0 )(y − y0 ) + 2 (p)(y − y0 ) .
2! ∂x2 ∂x∂y ∂y
(3.4)
Para (x, y) suficientemente próximo a p, podemos escribir f (x, y) ≈ P2 (x, y), es decir,
1 ∂ 2f ∂ 2f ∂ 2f

2 2
f (x, y) ≈ f (p) + (p)(x − x0 ) + 2 (p)(x − x0 )(y − y0 ) + 2 (p)(y − y0 ) .
2! ∂x2 ∂x∂y ∂y
Por lo tanto,
∂ 2f ∂ 2f ∂ 2f

1 2 2
f (x, y) − f (p) ≈ (p)(x − x0 ) + 2 (p)(x − x0 )(y − y0 ) + 2 (p)(y − y0 ) .
2! ∂x2 ∂x∂y ∂y
Para poder saber si p es un máximo local, mı́nimo local o un punto de silla, necesitamos
conocer el signo de f (x, y) − f (p) en las proximidades de p: si el signo es positivo, entonces
2 −y 2
Figura 3.11: Polinomio de Taylor de distintos grados para f (x, y) = e−x en el origen.
tendremos un mı́nimo local; si es negativo, un máximo local; y si no sucede ninguna de las

dos situaciones anteriores, un punto de silla. Pero según la expresión anterior, el signo de
f (x, y) − f (p) es el mismo de
∂ 2f 2 ∂ 2f ∂ 2f
(p)(x − x 0 ) + 2 (p)(x − x 0 )(y − y 0 ) + (p)(y − y0 )2
∂x2 ∂x∂y ∂y 2
Recuperamos ahora la notación A, B, C que introdujimos en la Sección 3.2 para las deri-
vadas segundas. Además, llamamos u = x − x0 , v = y − y0 . Observemos que para (x, y)
próximo a (x0 , y0 ), (u, v) está próximo a (0, 0). Por lo tanto, tenemos que discutir el signo
de
Au2 + Buv + Cv 2 . (3.5)
Esta expresión recibe el nombre de forma cuadrática, porque es una expresión de grado 2
en u, v. La expresión anterior puede escribirse en forma matricial como

" A B u
u v · · . (3.6)
B C v
La matriz del centro de la expresión anterior, cuyos elementos son A, B, C, es una matriz
simétrica. Ahora hay que recordar algunas cosas de Álgebra Lineal. Toda matriz simétrica
M es diagonalizable. Es decir, existe una matriz diagonal J, y una matriz invertible P , tal
que M = P · J · P −1 . Pero además, por ser M simétrica, se puede conseguir que P −1 = P T ,
es decir, que la transpuesta de P coincida con la inversa de P . Por tanto, M = P · J · P T ,
donde los elementos de la matriz J son los autovalores de M . En nuestro caso,

A B λ1 0
=P· · PT.
B C 0 λ2
Si llevamos esto a (3.6), tenemos

" λ1 0 T u
u v ·P · ·P · . (3.7)
0 λ2 v
Llamemos ahora
"
w= u v · P.
Entonces,
T T u
w =P · ,
v
y la expresión (3.5) queda
λ1 0
w· · wT .
0 λ2
Si finalmente llamamos w = (w1 , w2 ), llegamos a
λ1 w12 + λ2 w2 , (3.8)
y el signo de esta expresión sı́ que resulta fácil de discutir. En concreto:
Si λ1 > 0 y λ2 > 0, entonces el signo siempre es positivo, y el punto p será un mı́nimo

local.
Si λ1 < 0 y λ2 < 0, entonces el signo siempre es negativo, y el punto p será un

máximo local.
Si λ1 y λ2 tienen distinto signo, entonces para determinados valores de w1 , w2 el signo

de la expresión (3.8) será positivo, y para otros será negativo4 ; por lo tanto, p será un
punto de silla.
No obstante, aún no hemos justificado el Teorema 36, que está enunciado en términos
de A, B, C. Para ello, necesitamos recordar algo más del Álgebra Lineal. Dos matrices R, S
tales que existe otra matriz Q cumpliendo R = Q · S · Q−1 se llaman semejantes. Y dos
4
Por ejemplo, si λ1 > 0 y λ2 < 0, para w1 = 0 y w2 6= 0 el signo es negativo, y para w1 6= 0 y w2 = 0,
positivo
matrices semejantes tienen el mismo determinante, y también la misma traza5 . Como las
matrices
A B λ1 0
,
B C 0 λ2
son semejantes, entonces se cumple lo anterior, y por tanto, D = AC − B 2 coincide con
λ1 · λ2 (es decir, los determinantes de ambas matrices son iguales), y A + C = λ1 + λ2 (las
trazas de ambas matrices son iguales). Ahora ya podemos demostrar el Teorema 36.
Demostración. (del Teorema 36) Consideramos los siguientes casos:
Si D < 0, como D = λ1 · λ2 , entonces λ1 , λ2 tienen distinto signo. Por tanto, p es un

punto de silla.
Si D > 0, entonces λ1 , λ2 tienen el mismo signo. Distinguimos dos casos:
• Si A > 0, entonces C > 0 también, porque de lo contrario D = AC − B 2 serı́a

negativo. Por tanto, A + C = λ1 + λ2 > 0, y como λ1 , λ2 tienen el mismo signo,
deben ser, ambos, positivos. En consecuencia, p es un mı́nimo local.
• Si A < 0, entonces C < 0 también, porque de lo contrario D = AC − B 2 serı́a
negativo. Por tanto, A + C = λ1 + λ2 < 0, y como λ1 , λ2 tienen el mismo signo,
deben ser, ambos, negativos. En consecuencia, p es un máximo local.
5
Recordemos que la traza de una matriz es la suma de los elementos de la diagonal principal

Apuntes Tema 3

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Apuntes Tema 3

Cargado por

Copyright:

Formatos disponibles

Capı́tulo 3

Uno de los conceptos principales en ingenierı́a es el de optimización: esencialmente,

3.1. Derivadas de orden superior.

Ejemplo 15. Consideremos f (x, y) = x3 + x2 y 3 − 2y 2 . Entonces,

fx = 3x2 + 2xy 3 , fy = 3x2 y 2 − 4y.

Teorema 28 (Lema de Schwartz para dos variables). Sea z = f (x, y) : D ⊂ R2 → R,

Teorema 29. (Lema de Schwartz) Sea F (x) : D ⊂ Rn → R, función continua en un

Fxi xj (a) = Fxj xi (a).

De hecho, el resultado anterior se puede generalizar para derivadas de cualquier orden.

Teorema 30. Sea F (x) : D ⊂ Rn → R, de clase C k en un entorno del punto a. Entonces,

3.2. Extremos locales.

Figura 3.1: Extremos locales y absolutos de una función de una variable.

mientras que el máximo absoluto se alcanza en x = x3 , es decir, en el punto P3 .

Figura 3.2: Extremos locales de una función de dos variables.

Definición 31. Sea f : U ⊂ R2 → R y sea p = (x0 , y0 ) un punto interior de U .

2. f (x, y) alcanza un mı́nimo local (o relativo) en p si existe E, entorno de p, tal que

3. Diremos que f alcanza un extremo local (o relativo) en p si en él alcanza un

fx (p)(x − a) + fy (p)(y − b) − (z − f (p)) = 0,

y puesto que un plano horizontal es de la forma z = c, para que el plano tangente en

2. Las dos derivadas parciales de f en p existen y son nulas: fx (p) = fy (p) = 0, es

Definición 34. El punto p = (a, b) es un punto de silla de la función f (x, y) si es un

Cabe preguntarse cuál es el aspecto de una superficie en las proximidades de un punto

Definición 35. Supongamos que f : U ⊂ R2 −→ R es de clase C 2 en un punto p ∈ U . La

Figura 3.4: El paraboloide z = y 2 − x2 en las proximidades de su punto de silla.

Escribimos también det (Hf (p)) = D = AC − B 2 .

1. Si D > 0, entonces f tiene

Definición 37. Sea F : U ⊂ Rn → R y sea a ∈ U :

1. F alcanza un máximo relativo (o local) en a si existe E, entorno de a, tal que

2. F alcanza un mı́nimo relativo (o local) en a si existe E, entorno de a, tal que

Decimos que F presenta un extremo local o relativo en a si alcanza en a un máximo

Definición 38. El punto a = (a1 , . . . , an ) es un punto crı́tico de la función F (x1 , . . . , xn )

1. Alguna de las derivadas parciales de F en a no existe.

Teorema 39. Sean D ⊂ Rn abierto y F : D ⊂ Rn → R diferenciable. Si a es un extremo

Definición 40. Supongamos que F : U ⊂ Rn −→ R es de clase C 2 en un punto a ∈ U . La

El Hessiano de F en a es el determinante de HF (a).

Finalmente, el teorema siguiente proporciona condiciones para determinar la naturaleza

Teorema 41. Sean F : U ⊂ Rn → R y a ∈ U punto crı́tico de F . Sea Ak la submatriz de

(1) Si los determinantes de las submatrices Ak para k = 1, . . . , n son todos no nulos y

(2) Si los determinantes de las submatrices Ak para k = 1, . . . , n son todos no nulos y su

Ejemplo 18. Sea F (x, y, z) = x2 + y 2 + z 2 + 4. Como

Fx = 2x, Fy = 2y, Fz = 2z,

el único punto crı́tico es P = (0, 0, 0). La matriz hessiana en el origen (y de hecho en

Por lo tanto, A1 = 2, A2 = 4, A3 = 8. Puesto que todos son positivos, por Teorema 41 en

3.3. Extremos absolutos.

Definición 42. Sea f : U ⊂ R2 → R y sea p = (x0 , y0 ) un punto de U .

1. f alcanza en p un máximo absoluto (o global) sobre U si f (x, y) ≤ f (p) para todo

2. f alcanza en p un mı́nimo absoluto (o global) sobre U si f (x, y) ≥ f (p) para todo

3. Diremos que f alcanza en p un extremo absoluto (o global) sobre U si en p alcanza

Definición 43. Sea F : U ⊂ Rn → R y sea a ∈ U :

1. F alcanza en a un máximo absoluto (o global) sobre U si F (x) ≤ F (a). para todo

2. F alcanza en a un mı́nimo absoluto (o global) sobre U si F (x) ≥ F (a). para todo

Teorema 44. Si F : U ⊂ Rn → R es continua en U , compacto de Rn , entonces F alcanza

Si U no es compacto y/o F no es continua en U , entonces puede o no que F tenga

Para calcular los extremos absolutos de F en un conjunto compacto U , procederemos

1. [interior de U ] Calculamos los puntos crı́ticos de F en el interior de U , que repre-

2. [frontera de U ] Estudiamos los posibles extremos absolutos de F en la frontera de

2.1. Parametrizar U (véase Ejemplo 19).

En cualquier caso, en general obtendremos varios puntos Pm+1 , . . . , Pn , entre los

3. Evaluamos la función F en los puntos P1 , . . . , Pm , Pm+1 , . . . , Pn , y buscamos el mayor

que t es el parámetro de la curva. Por ejemplo, los puntos de la circunferencia x2 + y 2 = 1

Figura 3.6: Frontera de U .

(a) L1 : podemos parametrizar todos los puntos de este tramo en la forma x = t,

f1 (t) = f |L1 = t · 0 − 2t − 3 · 0 = −2t,