Está en la página 1de 122

C

ALCULO NUM

ERICO
Departamento de Matematica Aplicada
Universidad de Salamanca
Luis Ferragut Canals
3-febrero-2008
2

Indice general
1. Introduccion al Calculo Numerico 7
2. Resolucion numerica de ecuaciones de una variable 9
2.1. Metodo de la biseccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.2. El metodo de punto jo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.3. El metodo de Newton . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.4. Modicaciones del metodo de Newton . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.5. El metodo de la secante . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
3. Generalidades sobre el analisis numerico matricial 27
3.1. Los dos principales problemas del calculo numerico matricial . . . . . . . . . . . . . . . . 27
3.2. Repaso de conceptos y resultados del

Algebra Lineal . . . . . . . . . . . . . . . . . . . . . 28
3.2.1. Notaciones y primeras deniciones . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
3.2.2. Valores propios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
3.2.3. Reduccion de matrices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.3. Normas vectoriales y normas matriciales . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
3.3.1. Deniciones y ejemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
3.3.2. Caracterizacion de valores propios y convergencia de sucesiones de matrices . . . . 37
3.3.3. Condicionamiento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
3
4

INDICE GENERAL
4. Metodos directos para la resolucion de ecuaciones lineales 49
4.1. Nociones preliminares. El metodo de Gauss . . . . . . . . . . . . . . . . . . . . . . . . . . 49
4.1.1. Descripcion del metodo de Gauss para un sistema de 4 ecuaciones con 4 incognitas 49
4.1.2. Escritura matricial de las operaciones de eliminacion . . . . . . . . . . . . . . . . . 51
4.1.3. El metodo de eliminacion de Gauss para un sistema regular N N . . . . . . . . . 53
4.1.4. Existencia y unicidad de A = LU . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
4.1.5. Complejidad algoritmica del metodo de eliminacion de Gauss . . . . . . . . . . . . 60
4.2. El metodo de Cholesky para matrices simetricas y denidas positiva . . . . . . . . . . . . 61
5. Metodos iterativos para la resolucion de sistemas de ecuaciones lineales 63
5.1. Generalidades y descripcion de algunos metodos . . . . . . . . . . . . . . . . . . . . . . . 63
5.1.1. Descripcion del metodo de Jacobi . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
5.1.2. Descripcion del metodo de Gauss-Seidel . . . . . . . . . . . . . . . . . . . . . . . . 67
5.1.3. Metodos de relajacion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
5.1.4. Control de parada de las iteraciones . . . . . . . . . . . . . . . . . . . . . . . . . . 69
5.1.5. Metodos por bloques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
5.2. Estudio de la convergencia de los metodos de Jacobi, Gauss-Seidel y S.O.R. . . . . . . . . 70
5.2.1. Matrices a diagonal dominante . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
5.2.2. Matrices hermticas y denidas postivas . . . . . . . . . . . . . . . . . . . . . . . . 74
5.2.3. Comparacion de los metodos de Jacobi y Gauss-Seidel. B usqueda del parametro de
relajaci on optimo en el metodo S.O.R. . . . . . . . . . . . . . . . . . . . . . . . . . 75
6. Optimizacion sin restricciones 81
6.1. Fundamentos de la optimizacion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
6.1.1. Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81

INDICE GENERAL 5
6.1.2. Extremos relativos y diferenciabilidad . . . . . . . . . . . . . . . . . . . . . . . . . 83
6.1.3. Extremos y convexidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
6.2. Metodos de gradiente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
6.2.1. Metodo de gradiente para la minimizacion sin restricciones . . . . . . . . . . . . . 89
6.2.2. Metodo del gradiente con paso optimo . . . . . . . . . . . . . . . . . . . . . . . . . 92
6.3. Metodo de relajacion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
6.4. Metodos de Newton . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
7. Optimizacion de funciones cuadratricas 105
7.1. Generalidades sobre las funciones cuadraticas . . . . . . . . . . . . . . . . . . . . . . . . . 105
7.2. Metodos de descenso . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
7.2.1. Metodo general de descenso . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
7.2.2. Propiedades de convergencia de los metodos de descenso . . . . . . . . . . . . . . . 107
7.3. Metodo de gradiente con paso optimo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
7.3.1. Descipcion del metodo de gradiente con paso optimo . . . . . . . . . . . . . . . . . 111
7.3.2. Convergencia del metodo de gradiente con paso optimo . . . . . . . . . . . . . . . 112
7.4. Metodo de Gradiente Conjugado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115
7.4.1. Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115
7.4.2. Algoritmo de Gradiente Conjugado . . . . . . . . . . . . . . . . . . . . . . . . . . 117
7.4.3. Propiedades del algoritmo de Gradiente Congugado . . . . . . . . . . . . . . . . . 117
6

INDICE GENERAL
Captulo 1
Introduccion al Calculo Numerico
Desarrollar en clases practicas.
Ejercicios
1. Desarrollar un programa que permita calcular = 2
k
tal que 1,0 + = 1,0 en el ordenador.
7
8 Introduccion al Calculo Numerico
Captulo 2
Resolucion numerica de ecuaciones
de una variable
En este tema se discute uno de los problemas basicos del calculo numerico: Dada una funcion f de
una variable real a valores reales, hallar los valores de la variable x que satisfagan la ecuacion f(x) = 0.

Este es uno de los problemas mas antiguos en aproximacion numerica y sigue siendo hoy en da objeto de
investigacion. Los procedimientos que estudiaremos son algunos de los mas clasicos, como el metodo de la
biseccion, el metodo de punto jo o el metodo de Newton-Raphson, basicamente desarrollado por Newton
hace aproximadamente 300 a nos y los derivados de este que son el origen de los mas recientes metodos
de Quasi-Newton para resolver sistemas de ecuaciones no lineales, que se estudiaran en la segunda parte
de esta asignatura.
El problema de hallar las races de una ecuacion, f(x) = 0, aparece frecuentemente en el trabajo
cientco. Por ejemplo, en teora de la difraccion de la luz necesitamos las races de la equacion
x tan x = 0 (2.1)
En el calculo de orbitas planetarias necesitamos las races de la ecuacion de Kepler
x a sin x = b (2.2)
para varios valores de a y b. En teora de la combustion
x = e
x
(2.3)
para varios valores de y .
El problema general, planteado en el caso mas sencillo de una funcion de variable real y cuya imagen
sea un n umero real, es el siguiente:
Dada una funcion f : R R, encontrar los valores de x para los cuales f(x) = 0. A continuacion
consideraremos varios de los procedimientos estandar para resolver este problema.
9
10 Resolucion numerica de ecuaciones de una variable
2.1. Metodo de la biseccion
Se basa en la aplicacion reiterada del teorema de Bolzano. Si f es una funcion continua denida sobre
un intervalo cerrado [a, b] tal que f(a).f(b) < 0 entonces f debe tener un cero en ]a, b[.
El metodo de la biseccion explota esta propiedad de la siguiente manera:
1. Hacemos c =
a+b
2
2. Si f(a).f(c) < 0, entonces f tiene un cero en ]a, c[ hacemos b c
Si f(a).f(c) > 0, entonces f(c).f(b) < 0 y f tiene un cero en ]c, b[ hacemos a c
Si f(a).f(c) = 0, est claro que f(c) = 0 y hemos encontrado un cero.
En las dos primeras situaciones del punto 2, hemos reducido el problema a la b usqueda de ceros en
un intervalo de longitud la mitad que la del intervalo original.
La situacion f(c) = 0 es poco probable que se de en la practica, debido a los errores de redondeo.
As el criterio para concluir no debe depender de que f(c) = 0, sino que permitiremos una tolerancia
razonable, tal como |f(c)| < 10
10
si trabajamos en doble precision (Depende del ordenador).
Pseudo-codigo del algoritmo de la biseccion
input a, b, M, ,
u f(a)
v f(b)
e b a
output a, b, u, v
if sign(u) = sign(v) then STOP
For k = 1, ..., M do
e
e
2
c a +e
w f(c)
output k, c, w, e
if |e| < or |w| < then STOP
if sign(w) = sign(u) then
2.1 Metodo de la biseccion 11
b c
v w
else
a c
u w
endif
end
Varias de las partes de este pseudo-codigo necesitan explicacion adicional. En primer lugar el punto
medio c se calcula como c a +
ba
2
en lugar de c
a+b
2
. Al hacerlo as se sigue la estrategia general
de que , al efectuar calculos numericos, es mejor calcular una cantidad a nadiendo un peque no termino
de correccion a una aproximacion obtenida previamente. En segundo lugar, es mejor determinar si la
funcion cambia de signo en el intervalo recurriendo a que sign(w) = sign(u) en lugar de utilizar w.u < 0
ya que esta ultima requiere una multiplicacion innecesaria. Por otra parte e corresponde al calculo de la
cota del error que se establece mas adelante.
En el algoritmo hay tres criterios que pueden detener la ejecucion:
M, se nala el maximo n umero de pasos que permitira el usuario. Un algoritmo correctamente di-
se nado tiene que ser nito.
Por otra parte la ejecucion del programa se puede detener, ya sea cuando el error es sucientemente
peque no o cuando lo es el valor de f(c). Los parametros y controlan esta situacion. Se pueden
dar ejemplos en los que se satisface uno de los dos criterios sin que el otro se satisfaga.
Teorema 2.1 : Analisis del error
Sea f continua en [a, b] = [a
0
, b
0
] con f(a).f(b) < 0. Sean [a
0
, b
0
], [a
1
, b
1
], ..., [a
n
, b
n
] los intervalos
sucesivos generados por el metodo de la biseccion. Entonces los lmites lm
n
a
n
, lm
n
b
n
existen,
son iguales y representan un cero de f. Si r = lm
n
c
n
con c
n
=
a
n
+b
n
2
, entonces
|r c
n
| 2
n+1
(b
0
a
0
)
Demostracion:
Por la propia construccion del algoritmo, tenemos,
a
0
a
1
... b
0
b
0
b
1
... a
0
b
n+1
a
n+1
=
b
n
a
n
2
n 0
12 Resolucion numerica de ecuaciones de una variable
La sucesion {a
n
} converge debido a que es creciente y esta acotada superiormente.
La sucesion {b
n
} converge por ser decreciente y estar acotada inferiormente.
Tambien tendremos
b
n
a
n
=
b
n1
a
n1
2
= ... =
b
0
a
0
2
n
As
lma
n
lmb
n
= lm
b
0
a
0
2
n
= 0
Si escribimos r = lma
n
= lmb
n
, tomando lmites en la desigualdad f(a
n
).f(b
n
) < 0, resulta f(r)
2
=
f(r).f(r) 0, es decir f(r) = 0.
Finalmente, en la etapa en la que se ha construido el intervalo [a
n
, b
n
], si se detiene en este momento
el algoritmo, sabemos que la raiz de la ecuacion se encuentra en ese intervalo. La mejor estimacion para
esa raiz ser el punto medio c
n
=
a
n
+b
n
2
y el error cometido vericara
|r c
n
|
b
n
a
n
2

1
2
b
0
a
0
2
n
=
b
0
a
0
2
n+1

Ejercicios
1. Encontrar la raiz mas cercana a cero de la ecuacion
e
x
= sin x (2.4)
Indicacion: Antes de aplicar rutinariamente el procedimiento anterior conviene hacer un analisis
sencillo del problema planteado y tratar de localizar la posible solucion. Por ejemplo, esbozando las
gracas de e
x
y de sin x, resulta evidente que no existen raices positivas de f(x) = e
x
sin x.
2. Supongamos que el metodo de la biseccion se inicia con el intervalo [50, 63]. Cuantos pasos deben
darse para calcular una raiz con una precision relativa de 10
12
.
2.2. El metodo de punto jo
Utilizaremos este metodo para resolver ecuaciones de la forma x = f(x). Observemos que si queremos
hallar las races de una ecuacion g(x) = 0, podemos ponerla de la forma anterior, por ejemplo, haciendo
f(x) = x g(x) o mas generalmente f(x) = x (x)g(x) donde (x) = 0, es una funcion adecuadamente
elegida, que puede ser constante o no.
2.2 El metodo de punto jo 13
De manera mas precisa el problema planteado es el siguiente:
dada f : [a, b] [a, b] funcion continua, hallar x [a, b] tal que x = f(x)
Teorema 2.2 de existencia
El problema anterior tiene al menos una solucion.
Demostracion:
Si a = f(a) o b = f(b) entonces a o b es una solucion. Supongamos pues que a = f(a) y que b = f(b).
Pongamos g(x) = x f(x), tendremos, g(a) = a f(a) < 0 y g(b) = b f(b) > 0. Por el teorema de
Bolzano existe al menos x ]a, b[ tal que g( x) = 0, es decir, x = f( x).
Teorema 2.3 de unicidad Supongamos ademas que se verica la siguiente hipotesis:
Existe k < 1 tal que |f(x) f(y)| k|x y| Para todo x, y [a, b], entonces el punto jo x es unico.
Demostracion:
Sean x
1
y x
2
dos puntos jos de f, x
1
= x
2
, es decir, x
1
, x
2
[a, b], x
1
= f( x
1
) y x
2
= f( x
2
).
| x
1
x
2
| = |f( x
1
) f( x
2
)| k| x
1
x
2
| < | x
1
x
2
|

Observacion: Si f es diferenciable y existe un n umero k < 1 tal que |f

(x)| < k para todo x [a, b],


entonces para [a, b], resulta |f(x) f(y)| = |f

()||x y| k|x y|.


Algoritmo de punto jo
x
0
[a, b], arbitrario.
Obtenido x
n
, se calcula x
n+1
= f(x
n
).
Control de error y de parada.
Pseudo-codigo
input x
0
, M,
x x
0
For k = 1, ..., M do
14 Resolucion numerica de ecuaciones de una variable
x
1
x
x f(x)
e |x x
1
|
output k, x, e
if e < STOP
end
Comentario: El control del error se puede sustituir por otro, por ejemplo, controlando el error relativo
|
xx
1
x
| siempre que estemos seguros que la solucion buscada no este cerca de x = 0.
Teorema 2.4 de convergencia
Sea f : [a, b] [a, b] continua y tal que
|f(x) f(y)| < k|x y| x, y [a, b], k < 1
entonces la sucesion x
n
generada por el algoritmo de punto jo verica
lm
n
x
n
= x
siendo x el unico punto jo de f.
Demostracion:
|x
n
x| = |f(x
n
) f( x)| |x
n1
x| ... k
n
|x
0
x|
de donde
lm
n
|x
n
x| |x
0
x| lm
n
k
n
= 0
pues k < 1.
Teorema 2.5 : Analisis del error
f con las hipotesis del teorema anterior, entonces
|x
n
x|
k
n
1 k
|x
1
x
0
|
Demostracion:
|x
n+1
x
n
| = |f(x
n
) f(x
n1
)| k|x
n
x
n1
| ... k
n
|x
1
x
0
|
2.2 El metodo de punto jo 15
Para m > n 1 tendremos,
|x
m
x
n
| = |x
m
x
m1
+x
m1
x
m2
+x
m2
... +x
n+1
x
n
|
|x
m
x
m1
+|x
m1
x
m2
| +... +|x
n+1
x
n
|
(k
m1
+k
m2
+... +k
n
)|x
1
x
0
|
k
n
(1 +k +... +k
mn1
)|x
1
x
0
|
Pasando al lmite cuando m se obtiene
|x
n
x|
k
n
1 k
|x
1
x
0
|

Observacion: El torema anterior permite demostrar la existencia de punto jo sin hacer uso del
torema de Bolzano. En efecto, la estimacion
|x
m
x
n
|
k
n
1 k
|x
1
x
0
|
demuestra que la sucesion x
1
, x
2
, ..., x
n
, ... es de Cauchy, por lo tanto convergente; sea lm
n
x
n
= x.
Pasando al lmite en la expresion x
n+1
= f(x
n
), resulta x = f(x).
Comentario: Lo anterior es un ejemplo del torema mas general del punto jo de Banach en espacios
metricos completos, siguiente:
Sea f : MM una aplicacion de un espacio metrico completo M en s mismo tal que
d(f(x), f(y)) kd(x, y), k < 1
Entonces f tiene un unico punto jo que se puede calcular con el algoritmo anterior.
Denicion: Orden de convergencia, nocion de convergencia lineal, cuadratica y orden .
Supongamos que (x
n
), n = 1, ... es una sucesion convergente cuyo lmite es p. Sea e
n
= x
n
p. Si
existen dos constantes > 0 y > 0 tales que
lim
n
|e
n+1
|
|e
n
|

=
diremos que (x
n
) converge hacia p, con orden . En particular:
Si = 1, diremos que la convergencia es lineal.
Si = 2, diremos que la convergencia es cuadratica.
16 Resolucion numerica de ecuaciones de una variable
Si 1 < < 2, diremos que la convergencia es superlineal.
Orden de convergencia del metodo de punto jo
El metodo de punto jo tiene convergencia lineal si f

es continua y f

( x) = 0 siendo x el punto jo
de f. En efecto,
e
n+1
= x
n+1
x = f(x
n
) f( x) = f

(
n
)(x
n
x) = f

(
n
)e
n
donde
n
[x
n
, x], nalmente
lim
n
|e
n+1
|
|e
n
|
= lim
n
|f

(
n
)| = |f

( x)| = > 0
Ejercicios
1. Sea f : R R, continua. Podemos armar que f tiene un punto jo ?
2. Demostrar que las siguientes funciones son contractivas (Lipschitzianas de constante menor que 1)
en los intervalos indicados y determinar el valor optimo de la constante de Lipschitz.
1
1+x
2
en un intervalo arbitrario.
1
2
x sobre 1 x 5
arctan(x) sobre un intervalo que excluye el 0.
|x|
3/2
sobre |x| 1/3
3. Si en una calculadora se mano se introduce un n umero y se presiona repetidamente la tecla que
corresponde al coseno. Que n umero aparecera eventualmente ? Razonalo.
4. Sea p un n umero positivo. Cual es el valor de la siguiente expresion ?
x =
_
p +

p +...
5. En astronoma se conoce como ecuacion de Kepler a la siguiente expresion x = y sen(y) con
0 1. Demostrar que para cada x [0, ] existe una y que satisface la ecuacion y aplicar el
algoritmo de punto jo para resolverla.
2.3. El metodo de Newton
Consideremos de nuevo el problema de buscar las races de una ecuacion del tipo f(x) = 0.
Construccion del metodo de Newton
2.3 El metodo de Newton 17
Supongamos que x es una raiz de la ecuacion anterior y supongamos ademas que f es dos veces
derivable con continuidad. Si x es una aproximacion de x, podemos escribir,
0 = f( x) = f(x) +f

(x)(x x) +
1
2
f

()( x x)
2
Si x esta cerca de x, ( x x)
2
es un n umero peque no y podremos despreciar el ultimo termino frente a
los otros, y x vendra dado aproximadamente por
x x
f(x)
f

(x)
Como hemos despreciado el termino cuadratico este valor no sera exactamente x, pero es de esperar que
sera una mejor aproximacion que el valor x de partida. De ah el siguiente
Algoritmo de Newton
x
0
, valor cercano a x.
Calculado x
n
, obtenemos x
n+1
,
x
n+1
= x
n

f(x
n
)
f

(x
n
)
Interpretacion graca: Se deja como ejercicio.
Pseudocodigo
1. input x
0
, M, ,
2. v f(x
0
)
3. output 0, x
0
, v
4. if |v| < then STOP
5. for k = 1, ..., M do
x
1
x
0

v
f

(x
0
)
v f(x
1
)
output k, x
1
, v
if |x
1
x
0
| < or |v| < then STOP
x
0
x
1
6. end
18 Resolucion numerica de ecuaciones de una variable
Observacion: Cualquier programa que se base en el metodo de Newton requerira un subprograma o
procedimiento para calcular f(x) y f

(x).
Ejercicios
1. Aplicar el metodo de Newton para encontrar el cero negativo de la funcion f(x) = e
x
1,5
arctan(x).
2. Dar un ejemplo graco de no convergencia del metodo de Newton.
Analisis numerico del metodo de Newton
Demostraremos, para una clase amplia de problemas, que el metodo de Newton converge cuadrati-
camente hacia la raiz de una ecuacion no lineal con tal que la aproximacion inicial sea sucientemente
buena. Sin embargo puede no haber convergencia para una aproximacion inicial no cercana a la solucion.
Necesitaremos primero un lema sobre funciones.
Lema 2.1 Sea I un intervalo abierto de la recta real y f : I R una funcion vericando la propiedad,
0 tal que x, y I verica
|f

(x) f

(y)| |x y|
Entonces,
|f(y) f(x) f

(x)(y x)|

2
|y x|
2
Demostracion:
f(y) f(x) =
_
y
x
f

(z)dz
f(y) f(x) f

(x)(y x) =
_
y
x
[f

(z) f

(x)]dz
haciendo el cambio de variable z = x +t(y x), dz = (y x)dt, resulta
f(y) f(x) f

(x)(y x) =
_
1
0
[f

(x +t(y x)) f

(x)](y x)dt
|f(y) f(x) f

(x)(y x)| |y x|
_
1
0
|t(y x)|dt
|y x|
2
_
1
0
tdt =

2
|y x|
2
Observacion: El lema anterior permite estimar el resto de un desarrollo de Taylor de orden 1 sin
necesidad de utilizar las derivadas segundas de f.
2.3 El metodo de Newton 19
Teorema 2.6 de convergencia local del metodo de Newton
Sea f : I R, I intervalo abierto de R y sea f

vericando
1. 0 tal que x, y I verica
|f

(x) f

(y)| |x y|
2. Para alg un > 0, |f

(x)| para todo x I


3. f(x) = 0 tiene una solucion x I
Entonces, existe alg un > 0 tal que si |x
0
x| < , la sucesion x
0
, x
1
, ... generada por el algoritmo
de Newton
x
n+1
= x
n

f(x)
f

(x
n
)
existe y converge hacia x. Ademas para n = 0, 1, ...
|x
n+1
x|

2
|x
n
x|
2
es decir, la convergencia es cuadratica.
Demostracion:
Sea ]0, 1[, sea el radio del mayor intervalo de centro x tal que este contenido en I; denimos
= mn{ ,
2

}. Utilizando el principio de induccion, demostraremos que para n = 0, 1, 2, ... se verica


|x
n+1
x| |x
n
x| <
en efecto, para n = 0,
x
1
x = x
0
x
f(x
0
)
f

(x
0
)
= x
0
x
f(x
0
) f( x)
f

(x
0
)
=
1
f

(x
0
)
[f( x) f(x
0
) f

(x
0
)( x x
0
)]
Haciendo uso del lema anterior,
|x
1
x|

2|f

(x
0
)|
|x
0
x|
2
de donde, utilizando las hipotesis sobre f

(x)
|x
1
x|

2
|x
0
x|
2
20 Resolucion numerica de ecuaciones de una variable
Como |x
0
x|
2

tenemos,
|x
1
x|

2
|x
0
x||x
0
x| |x
0
x| < <
Por lo que x
1
verica las mismas propiedades que x
0
y la prueba se completa por induccion.
Ejercicios
1. Estudiar, analizando la convergencia y el orden de la misma del metodo de Newton como algoritmo
de punto jo, aplicado a la funcion g(x) = x
f(x)
f

(x)
.
2. Sea f tal que f

( x) = 0 y |f

(x)| > 0 en un entorno de x, demostrar que el orden de convergencia


del metodo de Newton es a lo sumo lineal.
3. Sea f una funcion que tiene una raiz de multiplicidad m en x, es decir, f( x) = 0, f

( x) =
0, ..., f
(m1)
( x) = 0, f
(m)
( x) = 0.
Demostrar que f(x) = (x x)
m
q(x) donde x no es una raiz de q(x) = 0, es decir, q( x) = 0.
Considerar el metodo de Newton modicado siguiente:
x
n+1
= x
n

mf(x
n
)
f

(x
n
)
y demostrar que la convergencia es cuadratica.
4. Aplicar el metodo de punto jo para resolver la ecuacion 3ln(x) = x. Hacia que raiz converge
eventualmente ?
Transformar la ecuacion adecuadamente para que el algoritmo de punto jo converja hacia la
raiz mas proxima a cero.
Comparar la velocidad de convergencia del metodo de punto jo con la obtenida con el metodo
de Newton.
5. Considerar la ecuacion x = e
x
Determinar para que valores de la ecuacion no tiene solucion, tiene una unica solucion o
tiene dos soluciones.
Analizar el metodo de punto jo para resolver dicha ecuacion: Hay convergencia ?, en caso
armativo, hacia que solucion. ? Cual es el orden de convergencia? Distinguir el caso de una
solucion y de dos soluciones. En el caso de dos soluciones Podemos obtener las dos soluciones
por aplicacion directa del metodo de punto jo?
Analizar el metodo de Newton para resolver la anterior ecuacion. Hay convergencia global ?
Cual es el orden de convergencia ?
2.4 Modicaciones del metodo de Newton 21
6. Sea f diferenciable, estrictamente creciente, convexa y con una raiz. Demostrar que la raiz es unica
y que la iteracion de Newton es convergente cualquiera que sea el valor inicial elegido.
7. Utilizar el metodo de Newton para calcular la raiz cuadrada de 2 y de 3 y vericar que la convergencia
es cuadratica.
8. Calcular la raiz doble de f(x) = x
2
2x + 1 que es x = 1. Observar que la convergencia es solo
lineal.
2.4. Modicaciones del metodo de Newton
En muchas aplicaciones, f(x) no viene dada por una formula explcita, por ejemplo si f(x) es el resul-
tado de alg un algoritmo numerico o de un proceso experimental. Como f

(x) no estara en consecuencia


disponible, el metodo de Newton debera modicarse de modo que unicamente requiera valores de f(x).
Cuando f

(x) no esta disponible, podemos remplazarlo por una aproximacion suya, por ejemplo,
tomando la pendiente de la secante formada a partir de dos puntos sobre la graca de la funcion, es decir,
aproximamos la derivada en un punto x
n
mediante
f

(x
n
) a
n
=
f(x
n
+h
n
) f(x
n
)
h
n
El algoritmo sera
x
0
, valor cercano a x
x
n+1
= x
n

f(x
n
)
a
n
donde a
n
=
f(x
n
+h
n
)f(x
n
)
h
n
.
Seguira funcionando el metodo ?
Como elegir adecuadamente h
n
en cada paso ?
Analisis del error
Consideremos primero el metodo anterior donde a
n
es una aproximacion adecuada de f

(a
n
). Bajo
22 Resolucion numerica de ecuaciones de una variable
las mismas hipotesis que en el caso del metodo de Newton tendremos
x
1
x = x
0
x
f(x
0
)
a
0
x
1
x = a
1
0
[f( x) f(x
0
) a
0
( x x
0
)]
= a
1
0
[f( x) f(x
0
) f

(x
0
)( x x
0
) + (f

(x
0
) a
0
)( x x
0
)]
|x
1
x| |a
1
0
|[

2
| x x
0
|
2
+|f

(x
0
) a
0
|| x x
0
|]
Aparece un termino adicional que contribuye al error, |f

(x
0
) a
0
|| x x
0
|. Depende como elijamos
a
0
, a
1
, ... y de que sean valores sucientemente cercanos a f

(x
0
), f

(x
1
), ... para que la convergencia no se
deteriore. Veamos algunas posibilidades. Consideramos la eleccion a
n
=
f(x
n
+h
n
)f(x
n
)
h
n
. En primer lugar
veamos el siguiente lema.
Lema 2.2
|a
n
f

(x
n
)|
|h
n
|
2
Demostracion:
|
f(x
n
+h
n
) f(x
n
)
h
n
f

(x
n
)| = |
f(x
n
+h
n
) f(x
n
) h
n
f

(x
n
)
h
n
|

2
|h
n
|
donde hemos utilizado el lema de la seccion anterior.
Teorema 2.7 de convergencia del metodo de Newton modicado
Sea f : I R, I un intervalo abierto de R y f

vericando la condicion de Lipschitz siguiente:


0 tal que x, y I se verica
|f

(x) f

(y)| |x y|
Supongamos que para alg un > 0, |f

(x)| x I. Si f(x) = 0 tiene una solucion x I, entonces


existen dos constantes y

tales que si (h
n
)
n
> 0 es una sucesion de n umeros reales con 0 < |h
n
|

y si |x
0
x| < , entonces la sucesion x
0
, x
1
, x
2
, ... generada por el algoritmo de Newton modicado
x
n+1
= x
n

f(x
n
)
a
n
, donde a
n
=
f(x
n
+h
n
)f(x
n
)
h
n
esta bien denido y converge linealmente hacia x.
Si lmh
n
= 0 la convergencia es superlineal.
Si existe alguna constante c tal que
|h
n
| c|x
n
x|,
la convergencia es cuadratica.
2.4 Modicaciones del metodo de Newton 23
Demostracion:
|x
1
x| |a
1
0
|(

2
| x x
0
|
2
+|f

(x
0
) a
0
|| x x
0
|)
Seg un el lema anterior |f

(x
0
) a
0
|

2
|h
0
|, de donde
|x
1
x| |a
1
0
|(

2
(| x x
0
| +|h
0
|)| x x
0
|
Por otra parte como |f

(x)| > 0 x I
|f

(x
0
)| |a
0
| |f

(x
0
) a
0
|

2
|h
0
|
|a
0
| |f

(x
0
)|

2
|h
0
|
y eligiendo

sucientemente peque no de modo que siendo |h


0
| <

resulte

2
|h
0
| <

2
tendremos
|a
0
|

2
=

2
es decir, |a
1
0
|
2

y nalmente
|x
1
x|

(|x
0
x| +|h
0
|)|x
0
x|
Ahora, eligiendo y

de modo que

( +

) < 1
|x
1
x| |x
0
x|
y el razonamiento sigue inductivamente, teniendo
|x
n+1
x|

(|x
n
x| +|h
n
|)|x
n
x|
y
|x
n+1
x| |x
n
x| ...
n+1
|x
0
x|
de donde lim|x
n
x| = 0 y la convergencia es al menos lineal.
Si lm
n
|h
n
| = 0 entonces
|
x
n+1
x
x
n
x
|

(|x
n
x| +|h
n
|) 0
y la convergencia es superlineal.
Si |h
n
| c|x
n
x|
|x
n+1
x|

(1 +c)|x
n
x|
2
y la convergencia es cuadratica.
Ejercicio
24 Resolucion numerica de ecuaciones de una variable
1. Con las mismas hipotesis que el ejercicio anterior demostrar la equivalencia de las condiciones
a)
c
1
|h
n
| c
1
|x
n
x|
b)
c
2
|h
n
| c
2
|f(x
n
)|
Observaciones
El analisis de la convergencia proporcionado por el teorema anterior nos proporciona informacion
sobre como elegir h
n
de manera que el metodo sea convergente con convergencia lineal, superlineal o
cuadr atica.
Sin embargo la aritmetica con precision nita puede jugar un importante papel y dar lugar a ciertas
limitaciones. Obviamente, en la practica, h
n
no puede ser demasiado peque no en relacion a x
n
. Por
ejemplo, si fl(x
n
) = 0 y |h
n
| |x
n
|., siendo la precision del ordenador, entonces fl(x
n
+ h
n
) =
fl(x
n
) y el numerador en
f(x
n
+h
n
)f(x
n
)
h
n
sera nulo. Incluso si h
n
es sucientemente grande de modo
que fl(x
n
+ h
n
) = fl(x
n
) hay una perdidad de precision al restar n umeros parecidos. Por ejemplo,
supongamos que operamos con 5 dgitos signicativos y tenemos f(x
n
) = 1,0001 y f(x
n
+ h
n
) = 1,0010
con h
n
= 10
4
. En este caso f(x
n
+h
n
) f(x
n
) = 9,0 10
4
y a
n
= 9. Se han perdido la mayor parte de
los dgitos signicativos al hacer la diferencia.
2.5. El metodo de la secante
Una manera de aproximar f

(x
n
) es utilizar los valores de f en x
n
y x
n+1
, es decir,
f

(x
n
) a
n
=
f(x
n
) f(x
n1
)
x
n
x
n1
obtenemos as el llamado metodo de la secante,
x
0
, x
1
x
n+1
= x
n
f(x
n
)
x
n
x
n1
f(x
n
)f(x
n1
)
y que necesita de una sola evaluacion de la funcion en cada iteracion.
Analisis del error
Vamos a ver que si hay convergencia esta es superlineal. El metodo de la secante es un caso parti-
cular del metodo de Newton modicado al aproximar las derivadas de la funcion mediante el cociente
incremental; el metodo de la secante corresponde a tomar h
n
= x
n
x
n1
.
2.5 El metodo de la secante 25
Seg un el analisis efectuado anteriormente
|x
n+1
x|

(|x
n
x| +|x
n
x
n1
|)|x
n
x|

(|x
n
x|
2
+|x
n
x
n1
||x
n
x|)
ahora bien, x
n
x
n1
= x
n
x + x x
n1
= e
n
e
n1
de donde,
|e
n+1
|

(|e
n
|
2
+|e
n
e
n1
||e
n
|)

(|e
n
|
2
+|e
n
|
2
+|e
n
||e
n1
|)
|e
n+1
|
|e
n
|

(2|e
n
| +|e
n1
|)
lm
|e
n+1
|
|e
n
|
= 0
es decir, la convergencia es superlineal.
Podemos estimar el orden preciso (valor de en la denicion) de la convergencia. Hemos visto que la
convergencia es al menos superlineal, como
|e
n+1
| c
1
|e
n
|
2
+c
2
|e
n
||e
n1
|
podemos escribir,
|e
n+1
|
|e
n
||e
n1
|
c
1
|e
n
|
|e
n1
|
+c
2
Como la convergencia es superlineal, para n ,
|e
n
|
|e
n1
|
0 y
|e
n+1
|
|e
n
||e
n1
|
c
2
poniendo |e
n+1
| A|e
n
|

con A = 0 indicara convergencia de orden .


A|e
n
|

|e
n
||e
n1
|
c
2
Despejando |e
n1
| de la relacion |e
n
| A|e
n1
|

, resulta |e
n1
| = A
1/
|e
n
|
1/
, reordenando
A|e
n
|
1
c
2
A
1/
|e
n
|
1/
y
c
1
2
A
1+1/|
|e
n
|
1

+1
26 Resolucion numerica de ecuaciones de una variable
como el primer miembro una constante distinta de cero y en el segundo |e
n
| 0, necesariamente
1


+ 1 = 0, es decir,
2
1 = 0, de donde nalmente,
=
1 +

5
2
1,62
.
Ejercicios
1. Escribir el pseudo-codigo del metodo de la secante.
2. Interpretacion graca del metodo de la secante.
3. Resolver utilizando el metodo de Newton (con x
0
= /4.) y utilizando el metodo de la secante (con
x
0
= 0,5, x
1
= /4.) la ecuacion cos(x)x = 0. Estudiar la ecacia de los dos metodos, comparando
el orden de convergencia y el n umero de evaluaciones funcionales.
Captulo 3
Generalidades sobre el analisis
numerico matricial
3.1. Los dos principales problemas del calculo numerico matri-
cial
Los dos principales problemas del calculo numerico matricial son
1. Resolucion de sistemas lineales:
Hallar x = [x
1
, ..., x
n
]
t
R
n
vericando
a
11
x
1
+ ... +a
1n
x
d
= b
1
a
21
x
1
+ ... +a
2n
x
d
= b
2
...
a
n1
x
1
+ ... +a
nn
x
d
= b
n
donde
A =
_
_
a
11
... a
1n
...
a
n1
... a
nn
_
_
.
y
b = [b
1
, ..., b
n
]
t
R
n
o escrito en forma matricial: Dada A R
nn
y b R
n
, hallar x R
n
que verique
Ax = b
2. Calculo de valores y vectores propios de una matriz:
27
28 Generalidades sobre el analisis numerico matricial
Dada A R
nn
, hallar los pares (, v) RR
n
que veriquen
Av = v
.
3.2. Repaso de conceptos y resultados del

Algebra Lineal
3.2.1. Notaciones y primeras deniciones
Consideramos V un espacio vectorial de dimension nita sobre un cuerpo K (en la practica R o C).
Sea [e
1
, ..., e
n
] una base de V .
Todo vector v V se puede expresar de la forma v =

v
i
e
i
.
Cuando la base [e
1
, ..., e
n
] esta denida sin ambiguedad podemos identicar V con K
n
.
v se escribe con notacion matricial
v = (v
1
, ..., v
n
)
t
=
_

_
v
1
.
.
.
v
n
_

_
.
Designaremos mediante v
t
= [v
1
, ..., v
n
] al vector transpuesto de v y mediante v

= [ v
1
, ..., v
n
] al vector
adjunto, donde designa el n umero complejo conjugado de .
La aplicacion (., .) : V V K denida por
(u, v) = v
t
u = u
t
v =
d

i=1
u
i
v
i
si K = R
(u, v) = v

u = u

v =
d

i=1
u
i
v
i
si K = C
se llama producto escalar eucldeo si K = R y producto escalar hermtico si K = C.
Dos vectores son ortogonales si (u, v) = 0.
Un conjunto de vectores {v
1
, ..., v
k
} son ortonormales si (v
i
, v
j
) =
ij
.
3.2 Repaso de conceptos y resultados del

Algebra Lineal 29
Sean V y W dos espacios vectoriales sobre el mismo cuerpo K, con bases respectivas [e
j
]
n
j=1
y [w
i
]
m
j=1
.
Sea A : V W una aplicacion lineal. Referida a estas bases la aplicacion lineal se representa por una
matriz de m las por n columnas A:
A =
_
_
a
11
... a
1n
...
a
m1
... a
mn
_
_
.
Los elementos a
ij
de la matriz estan denidos de forma unica por las relaciones
Ae
j
=
m

i=1
a
ij
w
i
j = 1, ..., n
Dicho de otra manera, la jesima columna (a
1j
, ..., a
mj
)
t
de la matriz A representa el vector Ae
j
en
la base [w
i
]
m
i=1
.
Una matriz de m las por n columnas se designa del tipo (m, n) y se denota A
m,n
(K) o simplemente
A
m,n
el espacio vectorial sobre el cuerpo K formado por las matrices (m, n) de elementos en K.
Dada una matriz A = (a
ij
) i = 1, ..., m j = 1, ..., n, A A
m,n
(C se dene la matriz adjunta por las
relaciones
(Au, v)
m
= (u, A

v)
n
u C
n
v C
m
Estas relaciones implican (A

)
ij
= a
ji
. analogamente, si A A
m,n
(R) se dene A
t
A
m,n
(R) por las
relaciones
(Au, v)
m
= (u, A
t
v)
n
u R
n
v R
m
y estas relaciones implican (A
t
)
ij
= a
ji
.
A la composicion de aplicaciones B A lineales le corresponde el producto de matrices BA. Se tienen
las relaciones
(AB)
t
= B
t
A
t
(AB)

= B

Cuando el n umero de las coincide con el n umero de columnas las matrices se llaman cuadradas. El
conjunto A
n
= A
n,n
es el anillo de matrices cuadradas. Para A A
n
, A = (a
ij
) los elementos a
ii
se llaman elementos diagonales. La matriz I = (
ij
) se llama matriz unidad. Una matriz es invertible
o regular, si existe una matriz ( unica si existe) denotada A
1
, llamada inversa de A tal que AA
1
=
A
1
A = I. En caso contrario se dice que A es singular. Si A y B son inversibles se tiene:
(AB)
1
= B
1
A
1
30 Generalidades sobre el analisis numerico matricial
(A
t
)
1
= (A
1
)
t
(A

)
1
= (A
1
)

Deniciones Sea A A
n
, A es:
Simetrica, si A es real y A = A
t
.
Hermtica o autoadjunta, si A = A

.
Ortogonal, si A es real y AA
t
= A
t
A = I, es decir, A
t
= A
1
.
Unitaria, si AA

= A

A = I, es decir, A

= A
1
Normal, si AA

= A

A
Una matriz Aes diagonal si sus terminos a
ij
= 0 i = j. Escribiremos A = diag(a
ii
) = diag(a
11
, ..., a
nn
).
Se dene la traza de A, tr(A) =

n
i=1
a
ii
y determinante de A, det(A) =

sgn()a
(1),1
...a
(n),n
.
3.2.2. Valores propios
Los valores propios
i
=
i
(A), 1 i n de una matriz A de orden n son las n raices reales o
complejas, distintas o no, del polinomio caracterstico:
p
A
: C p
A
() = det(AI)
El espectro sp(A) de la matriz A es el subconjunto sp(A) =

n
i=1
{
i
(A)} del plano complejo. Recordemos
las relaciones
tr(A) =

n
i=1

i
(A)
det(A) =
n
i=1

i
(A)
tr(AB) = tr(BA)
tr(A+B) = tr(A) +tr(B)
det(AB) = det(BA) = det(A)det(B)
Las dos primeras se pueden obtener como consecuencia del lema de Schur que veremos mas adelante.
Denicion 3.1 El radio espectral de una matriz A es el n umero mayor o igual que cero dado por
(A) = max
i=1,...,n
{|
i
(A)|}
A todo valor propio de A se le asocia al menos un vector p tal que Ap = p llamado vector propio
correspondiente valor propio . Si sp(A) el subespacio {v V ; Av = v} de dimension al menos 1,
se llama subespacio propio correspondiente al valor propio .
3.2 Repaso de conceptos y resultados del

Algebra Lineal 31
3.2.3. Reduccion de matrices
Sea V en espacio vectorial de dimension nita n. A : V V una aplicacion lineal representada
por una matriz A relativa a una base [e
i
]
i=1,...,n
. Relativa a otra base [w
i
]
i=1,...,n
la misma aplicacion
esta representada por la matriz B = P
1
AP, donde P es la matriz regular cuyo jesimo vector columna
esta formado por las componentes de [w
j
] en la base [e
i
]. La matriz P se llama matriz de paso de la base
[e
i
] a la base [w
i
].
La cuestion que se plantea es ahora la de hallar una base [w
i
] en la que la matriz B sea lo mas sencilla
posible, por ejemplo diagonal. S existe tal posibilidad se dice que A es diagonalizable, en cuyo caso los
elementos diagonales de P
1
AP son los valores propios
1
, ...,
n
de A y la jesima columna de P son
las componentes de un vector propio asociado a
j
, en efecto, tenemos
P
1
AP = = diag(
i
) AP = P Ap
j
=
j
p
j
1 j n
es decir, el par (p
j
,
j
) es la solucion de
(A
j
I)p
j
= 0
como es un sistema homogeneo con solucion no trivial
j
es solucion de
det(AI) = 0
y
j
es un valor propio seg un la denicion dada anteriormente.
Denicion 3.2 Dos matrices A y B relacionadas de la forma
B = P
1
AP
se dice que son semejantes.
Propiedades de las matrices semejantes
det(A) = det(B)
tr(A) = tr(B)
sp(A) = sp(B)
En efecto, la primera es consecuencia de
det(B) = det(P
1
)det(A)det(P) = det(P)
1
det(A)det(P) = det(A)
La segunda, se obtiene mediante calculo
tr(B) =

b
ii
=

kl
p
1
ik
a
kl
p
li
=

kl
(a
kl

i
p
li
p
1
ik
) =

kl
a
kl

kl
=

a
kk
= tr(A)
32 Generalidades sobre el analisis numerico matricial
nalmente la tercera,
det(B I) = det(P
1
AP P
1
P) = det(P
1
(AI)P) = det(AI)
Observacion: Los elementos de la diagonal de una matriz triangular son sus valores propios. En
efecto, si
B =
_

_
b
11
b
12
... b
1n
0 b
22
... b
2n
...
0 0 ... b
nn
_

_
entonces,
det(B I) = 0
n
i=1
(b
ii
) = 0
i
= b
ii
El siguiente lema es fundamental en el estudio de los valores propios y vectores propios de una matriz.
Lema de Schur: Dada una matriz cuadrada A, existe una matriz unitaria U tal que U
1
AU es
triangular. Resulta entonces que
U
1
AU =
_

1
b
12
... b
1n
0
2
... b
2n
...
0 0 ...
n
_

_
donde
1
, ...,
n
son los valores propios de A.
Demostracion: Procedemos por induccion. El teorema es cierto para n = 1 de manera trivial.
Suponiendo entonces que es cierto para matrices de orden n 1, probaremos que es cierto para matrices
de orden n.
Sea u
1
,
1
un vector propio y el correspondiente valor propio de A, donde u
1
esta normalizado, es
decir, (u
1
, u
1
) = 1. Elijamos una base [u
1
, ..., u
n
] de C
n
ortonormal (que podemos construir, por ejemplo
utilizando el metodo de Gram-Schmidt). Entonces U = [u
1
, ..., u
n
] es una matriz unitaria y tendremos
U

AU = U

[Au
1
, ..., Au
n
] =
_

_
u

1
.
.
.
u

n
_

_
. [
1
u
1
, Au
2
, ..., Au
n
] =
_

1
c
12
... c
1n
0
... A
1
0
_

_
donde c
1j
= u

1
Au
j
j = 2, ..., n y A
1
es de orden n 1.
3.2 Repaso de conceptos y resultados del

Algebra Lineal 33
Sea U
1
una matriz unitaria de orden n 1 tal que U

1
A
1
U
1
es triangular (hipotesis de induccion) y
designamos
U
2
=
_

_
1 0 ... 0
0
... U
1
0
_

_
Entonces U
2
y UU
2
son unitarias y obtenemos
(UU
2
)

A(UU
2
) = U

2
(U

AU)U
2
=
_

_
1 0 ... 0
0
... U

1
0
_

_
.
_

1
c
12
... c
1n
0
... A
1
0
_

_
.
_

_
1 0 ... 0
0
... U
1
0
_

_
=
_

1
b
12
... b
1n
0
... U

1
A
1
U
1
0
_

_
donde
[
1
, b
12
, ..., b
1n
] = [
1
, c
12
, ..., c
1n
]U
2
resulta entonces
U

AU =
_

1
b
12
... b
1n
0
2
... b
2n
...
0 0 ...
n
_

_
donde
1
, ...,
n
son los valores propios de A.
El siguiente corolario es fundamental importancia en muchas aplicaciones. Muestra que todos los
valores propios de una matriz autoadjunta son reales.
Corolario 3.1 Si una matriz es autoadjunta, es decir, A = A

, es diagonalizable y sus valores propios


son reales. Analogamente si una matriz es simetrica, es diagonalizable y sus valores propios son reales.
Demostracion: Por el lema de Schur, existe una matriz unitaria U tal que
U

AU =
_

1
b
12
... b
1n
0
2
... b
2n
...
0 0 ...
n
_

_
34 Generalidades sobre el analisis numerico matricial
Como A es autoadjunta
_

1
0 ... 0

b
12

2
... 0
... ...

b
1n
... ...

n
_

_
= (U

AU)

= U

U = U

AU =
_

1
b
12
... b
1n
0
2
... b
2n
...
0 0 ...
n
_

_
por lo tanto
i
=

i
y b
ij
= 0 i = j, es decir, U

AU = diag(
i
). La demostracion para matrices simetricas
es analoga.
El siguiente corolario caracteriza a las matrices diagonalizables.
Corolario 3.2 A es normal si y solo si es diagonalizable y tiene una base de vectores propios ortonor-
males.
Demostracion: Sea A una matriz normal y U una matriz unitaria tales que T = U

AU es triangular
superior. Veamos que T es tambien normal, en efecto,
T

T = (U

AU)

(U

AU) = U

UU

AU = U

AU
TT

= (U

AU)(U

AU)

= U

AUU

U = U

AA

U
como A

A = AA

se deduce que T

T = TT

. Escribamos,
T =
_

_
t
11
t
12
... t
1n
0 t
22
... t
2n
...
0 0 ... t
nn
_

_
tenemos,
T

T =
_

t
11
0 ... 0

t
12

t
22
... 0
... ...

t
1n
... ...

t
nn
_

_
.
_

_
t
11
t
12
... t
1n
0 t
22
... t
2n
...
0 0 ... t
nn
_

_
TT

=
_

_
t
11
t
12
... t
1n
0 t
22
... t
2n
...
0 0 ... t
nn
_

_
.
_

t
11
0 ... 0

t
12

t
22
... 0
... ...

t
1n
... ...

t
nn
_

_
El termino (T

T)
11
es igual a |t
11
|
2
. Por otra parte el termino (TT

)
11
es igual a |t
11
|
2
+|t
12
|
2
+... +|t
1n
|
2
lo que implica necesariamente que t
12
= t
13
= ... = t
1n
= 0. Analogamente demostramos que t
23
= t
24
=
... = t
2n
= 0, etc. Por lo tanto T es diagonal y A es diagonalizable.
Recprocamente, si A es tal que U

AU es diagonal con U unitaria, entonces A es normal. En efecto,


D = U

AU y UDU

= A de donde
AA

= (UDU

)(UDU

= UDU

UD

= UDD

A = (UDU

(UDU

) = UD

UDU

= UD

DU

y por tanto AA

= A

A pues DD

= D

D.
3.3 Normas vectoriales y normas matriciales 35
3.3. Normas vectoriales y normas matriciales
3.3.1. Deniciones y ejemplos
Denicion: Norma de un vector
Sea v K
d
, (K = R, C) se llama norma de un vector a una aplicacion
||.|| : K
d
R
v ||v|| (3.1)
vericando las propiedades,
1. ||v|| 0 v R
d
y ||v|| = 0 solo si v = 0.
2. ||v|| = ||||v|| R v R
d
.
3. ||u +v|| ||u|| +||v|| u, v R
d
.
Ejemplos:
1. Norma l
2
: ||v||
2
= (

v
2
i
)
1/2
2. Norma l
1
: ||v||
1
=

|v
i
|
3. Norma l

: ||v||

= max |v
i
|
4. Norma l
p
, p 1: ||v||
p
= (

|v
i
|
p
)
1/p
Ejercicio: Vericar que l
1
, l
2
y l

son efectivamente una norma en K


d
Se llaman Normas eucldeas a las que derivan de un producto escalar, es decir, ||v|| = (v, v)
1/2
,
donde (., .) es una aplicacion
(., .) : K
d
K
d
K
u, v (u, v)
vericando las propiedades siguientes:
1. (u, v) = (v, u) u, v K
d
, si K = C
(u, v) = (v, u) u, v K
d
, si K = R
36 Generalidades sobre el analisis numerico matricial
2. (u, v) = (u, v) K, u, v K
d
3. (u +v, w) = (u, v) + (u, w) u, v, w K
d
4. (v, v) 0 v K
d
; (v, v) = 0 solo si u = 0.
Ejemplo: (u, v) =

u
i
v
i
en R
d
(u, v) =

u
i
v
i
en C
d
La norma l
2
es la norma asociada a este producto escalar.
Convergencia de una sucesion de vectores en R
d
o C
d
.
Una sucesion (v
k
)
k
de vectores converge hacia un vector v si y solo si lm
k
||v
k
v|| = 0.
Teorema 3.1 Las siguientes armaciones son equivalentes,
1. La sucesion (v
k
)
k
de vectores converge hacia un vector v en una norma determinada.
2. La sucesion (v
k
)
k
de vectores converge hacia un vector v en cualquier norma.
3. Las componentes de los vectores de la sucesion (v
k
)
k
convergen hacia la correspondiente componente
del vector v.
Denicion: Norma matricial
Sea A
d
el anillo de matrices de orden d d de terminos reales (o complejos). Una norma matricial es
una aplicacion
||.|| : A
d
R
A ||A||
vericando las siguientes propiedades:
1. ||A|| 0 A A
d
y ||A|| = 0 solo si A = 0
2. ||A|| = ||||A|| R (o C) A A
d
3. ||A+B|| ||A|| +||B|| A, B A
d
4. ||AB|| ||A||||B|| A, B A
d
3.3 Normas vectoriales y normas matriciales 37
Normas matriciales subordinadas: Toda norma vectorial induce la correspondiente norma matri-
cial mediante:
||A|| = max
v=0
||Av||
||v||
= max
||v||=1
||Av||
Ejercicios
1. Vericar la anterior igualdad.
2. Una norma subordinada verica ||Av|| ||A||||v||
3. Una norma subordinada es una norma matricial.
4. Demostrar que si A A
n
, entonces ||A||

= max
||x||

=1
||A|| = max
1in

j=1,...,n
|a
ij
|.
5. Demostrar que si A A
n
, entonces ||A||
1
= max
||x||

=1
||Ax|| = max
1jn

i=1,...,n
|a
ij
|.
3.3.2. Caracterizacion de valores propios y convergencia de sucesiones de
matrices
Denicion: Radio espectral de una matriz
El radio espectral de una matriz A A
n
es el n umero
(A) = max
Sp(A)
||
es decir, el maximo valor absoluto del conjunto de valores propios.
Teorema 3.2 : Caracterizacion del mnimo y m aximo valor propio
Hemos visto como consecuencia del lema de Schur que si A es una matriz simetrica (o autoadjunta)
es diagonalizable y sus valores propios son reales, que podremos ordenarlos de la forma
1
, ...,
n
.
Entonces,
1
y
n
estan caracterizados por

1
= mn
v=0
(Av, v)
(v, v)

n
= max
v=0
(Av, v)
(v, v)
Nota: El cociente R
A
(v) =
(Av,v)
(v,v)
se llama cociente de Rayleigh asociado al vector v.
Demostracion:
Primero observar que max
v=0
R
A
(v) = max
||v||
2
=1
(Av, v) y mn
v=0
R
A
(v) = mn
||v||
2
=1
(Av, v).
38 Generalidades sobre el analisis numerico matricial
Sea [u
1
, u
2
, ..., u
n
] una base de vectores propios ortonormales entre s.
Para v de norma unidad, tenemos, v =

n
i=1

i
u
i
con ||v||
2
2
= (v, v) =

n
i=1
|
i
|
2
= 1.
R
A
(v) =
(Av, v)
(v, v)
= (Av, v) =
n

i=1

i
|
i
|
2
Mayorando
i
por
d
y minorando por
1
resulta,

1
=
1
n

i=1
|
i
|
2
= R
A
(v)
n

i=1

n
|
i
|
2
=
n
n

i=
|
i
|
2
=
n
Por otra parte, tomando v = u
1
R
A
(u
1
) =
(Au
1
, u
1
)
(u
1
, u
1
)
=
1
y tomando v = u
n
R
A
(u
1
) =
(Au
n
, u
n
)
(u
n
, u
n
)
=
n
termina la demostracion.
Observacion: Para un par vector propio, valor propio (u
i
,
i
) se tiene
R
A
(u
i
) =
i
Propiedad: Si una matriz simetrica es denida positiva (resp. semidenida positiva), es decir,
(Av, v) > 0 v = 0
(resp.(Av, v) 0 v = 0) sus valores propios son positivos (resp. mayores o igual a cero), en efecto

i
=
(Au
i
, u
i
)
(u
i
, u
i
)
> 0
(resp.
i
=
(Au
i
,u
i
)
(u
i
,u
i
)
0).
Teorema 3.3 Para toda matriz A
||A||
2
= ((A

A))
1/2
Demostracion: Primero observemos que A

A es hermtica y semidenida positiva.


||A||
2
2
= max
||v||
2
=1
||Av||
2
2
= max
||v||
2
=1
(Av, Av) = max
||v||
2
=1
(A

Av, v) = max
v=0
R
A

A
(v) =
n
= |
n
| = (A

A)
donde
n
es el maximo valor propio de A

A que es mayor o igual que cero, pues A

A es una matriz
hermtica semidenida positiva.
3.3 Normas vectoriales y normas matriciales 39
Teorema 3.4 Para toda matriz A real
||A||
2
= ((A
t
A))
1/2
Demostracion: Primero observemos que A
t
A es simetrica y semidenida positiva.
||A||
2
2
= max
||v||
2
=1
||Av||
2
2
= max
||v||
2
=1
(Av, Av) = max
||v||
2
=1
(A
t
Av, v) = max
v=0
R
A
t
A
(v) =
n
= |
n
| = (A
t
A)
donde
n
es el maximo valor propio de A
t
A que es mayor o igual que cero, pues A
t
A es una matriz
simetrica semidenida positiva.
Corolario 3.3 Si A es una matriz simetrica ||A||
2
= (A).
Demostracion: A es simetrica si y solo si A = A
t
. Si es un valor propio de A,
2
es un valor propio
de A
2
, lo que implica (A)
2
= ((A))
2
, de donde
((A))
2
= (A
2
) = (A
t
A) = ||A||
2
2
y nalmente ||A||
2
= (A).
ejercicios
1. Para toda matriz cuadrada A demostrar
(A

A) = (AA

)
y concluir ||A||
2
= ||A

||
2
y que si Q es una matriz unitaria entonces ||Q||
2
= 1.
2. Demostrar la invariancia de la norma, ||.||
2
por transformacion unitaria.
3. Demostrar que si A es normal ||A||
2
= (A).
Teorema 3.5 1. Sea A una matriz cuadrada cualquiera y ||.|| una norma matricial, subordinada o
no, cualquiera. Entonces,
(A) ||A||
2. Dada una matriz cuadrada A y un n umero > 0 existe al menos una norma matricial subordinada
tal que
||A|| (A) +
Demostracion:
1. Veamos primero el caso de una norma matricial subordinada. Si es un valor propio de A y p el
correspondiente vector propio, es decir Ap = p,
||||p|| = ||p|| = ||Ap|| ||A||||p||
40 Generalidades sobre el analisis numerico matricial
de donde, || ||A|| y (A) ||A||. Consideremos ahora el caso de una norma cualquiera, y sea p
un vector propio vericando
p = 0, Ap = p, || = (A)
y sea q un vector tal que la matriz pq
t
no sea nula. como
(A)||pq
t
|| = ||pq
t
|| ||A||||pq
t
||
resulta (A) ||A||.
2. El lema de Schur nos dice que existe una matriz unitaria tal que U

AU es triangular, siendo por


tanto los elementos de la diagonal los valores propios de A.
U

AU =
_

1
b
12
... b
1n
0
2
... b
2n
...
0 0 ...
n
_

_
A todo esclar = 0 le asociamos la matriz D

= diag(1, ,
2
, ...,
n1
) de manera que
(UD

)
1
A(UD

) =
_

1
b
12

2
b
13
...
n1
b
1n
0
2
b
23
...
n2
b
2n
...
0 0 ...
n1
b
(n1)n
0 0 0 ...
n
_

_
Dado > 0, jamos de manera que
n

j=i+1
|
ji
b
ij
| 1 i n 1
Entonces la aplicacion
||.|| : A
n
R
A ||(UD

)
1
A(UD)||

es la norma buscada. En efecto, tenemos por una parte


||A|| (A) +
pues ||C||

= max
i

j
|c
ij
| y es efectivamente una norma matricial subordinada por la norma
vectorial
v ||(UD

)
1
v||

Aclaremos esto ultimo:


||A|| = max
||x||=1
||Ax|| = max
||(UD

)
1
x||

=1
||(UD

)
1
Ax||

= max
||v||

=1
||(UD

)
1
A(UD

)v||

= ||(UD

)
1
AUD||

3.3 Normas vectoriales y normas matriciales 41


Sucesiones de matrices: Dada una matriz A A
n
consideramos la sucesion A
k
= AA...A k veces.
Queremos estudiar en que condiciones lm
k
A
k
= 0, o lo que es lo mismo lm
k
||A
k
|| = 0 o de forma
equivalente lm
k
a
(k)
ij
= 0 1 i, j n donde a
(k)
ij
es el termino ij de A
k
.
Teorema 3.6 Sea A una matriz cuadrada. Las propiedades siguientes son equivalentes,
1. lm
k
A
k
= 0
2. lm
k
A
k
v = 0 v R
n
3. (A) < 1
4. ||A|| < 1 para alguna norma subordinada.
Demostracion
1. (1) (2): Sea ||.|| una norma vectorial y su correspondiente norma matricial subordinada,
v R
n
||A
k
v|| ||A
k
||||v||
que implica
0 lm
k
||A
k
v|| ||v|| lm
k
||A
k
|| = 0
2. (2) (3): Si (A) fuera mayor o igual que 1, quiere decir que existe un vector propio v y su
correspondiente valor propio tal que || 1, de donde, la sucesion de vectores {A
k
v} verica
A
k
v =
k
v que no tiene lmite nulo en contra de la hipotesis.
3. (3) (4): Sea (A) < 1, para todo > 0 existe una norma matricial subordinada tal que ||A||
(A) +, tomando sucientemente peque no tendremos, ||A|| < 1.
4. (4) (1): Si ||A|| < 1 entonces
||A
k
|| ||A||
k
0 para k
Ejercicios
1. Sea ||.|| una norma matricial subordinada y B una matriz tal que ||B|| < 1, demostrar que la matriz
I +B es no singular y que
||(I +B)
1
||
1
1 ||B||
2. Sea una matriz de la forma I + B singular, demostrar que entonces ||B|| 1 para toda norma
matricial.
42 Generalidades sobre el analisis numerico matricial
3. Sea B una matriz cuadrada y ||.|| una norma matricial cualquiera, entonces
lm
k
||B
k
||
1/k
= (B)
4. Considerar la norma matricial
||.||
S
: A
n
R
denida por
||A||
S
= (
n

ij
|a
ij
|
2
)
1/2
llamada norma de Schur.
Demostrar que es una norma matricial, no subordinada a ninguna norma vectorial.
Demostrar que ||A||
S
= (tr(A

A))
1/2
Demostrar ||A||
2
||A||
S

n||A||
2
Valores singulares: Para una matriz rectangular, la nocion de valor propio, no tiene sentido. Sin
embargo, se puede introducir otro concepto que es el de valor singular.
Denicion 3.3 Dada una matriz rectangular de m las por n columnas A, se llaman valores singulares
{
i
} de A las raices cuadradas positivas de los valores propios de la matriz cuadrada A

A de orden n.
Tenemos el siguiente resultado general que generaliza el obtenido para matrices cuadradas.
Teorema 3.7 Dada una matriz rectangular de m las por n columnas A. Existen dos matrices cuadradas
unitarias U y V de orden m y n respectivamente tales que
U

AV =
donde es una matriz rectangular de m las por n columnas de la forma
=
_

1
0 ... 0
0
2
... 0
0 ... ... 0
0 ... ...
n
0 ... ... 0
0 ... ... 0
_

_
Donde {
i
} son los valores singulares de la matriz A.
Demostracion: A

A es una matriz autoadjunta de orden n, entonces existe una matriz unitaria V


de orden n tal que
V

(A

A)V = diag(
2
i
)
3.3 Normas vectoriales y normas matriciales 43
siendo {
i
} los valores singulares de A.
Sea c
j
el vector de dimension m formado por la jesima columna de AV . La igualdad matricial
anterior se puede escribir
c

i
c
j
=
2
i

ij
, 1 j n
Sean {
1
,
2
, ...,
r
} el conjunto de valores singulares no nulos y {
r+1
, ...,
n
} el conjunto, eventualmente
vaco de valores singulares nulos.
Tenemos pues, c
j
= 0 para r + 1 j n, ya que ||c
j
||
2
2
= 0.
Pongamos u
j
=
c
j

j
, para 1 j r.
Tenemos pues por construccion u

i
u
j
=
ij
, para 1 i, j r.
Los r vectores [u
i
] pueden completarse para formar una base ortonormal de C
m
.
Tendremos entonces u

i
u
j
=
ij
, para 1 i, j m y c
j
=
j
u
j
, para 1 j n pues para j r es la
denicion de u
j
y para j r + 1 la igualdad anterior es 0 = 0.
Sea U la matriz cuadrada de orden m, cuya iesima columna esta formada por el vector u
i
. Es una
matriz unitaria. Resulta nalmente
(U

AV )
ij
= u

i
c
j
1 i m 1 j n
que se escribe tambien
U

AV = =
_

1
0 ... 0
0
2
... 0
0 ... ... 0
0 ...
r
0
0 ... ... 0
0 ... ... 0
_

3.3.3. Condicionamiento
Supongamos que queremos resolver un sistema de ecuaciones
Au = b
En la practica debido a errores de redondeo, falta de precision en los datos, etc. resolvemos un sistema
distinto
(A+ A)v = b + b
44 Generalidades sobre el analisis numerico matricial
donde A y b son perturbaciones de A y de b respectivamente.
La pregunta que nos hacemos ahora, es estimar o evaluar la diferencia u v en funcion de A y de
b.

Este sera el problema de condicionamiento asociado al sistema de ecuaciones anterior. Veamos un
ejemplo,
A =
_

_
10 7 8 7
7 5 6 5
8 6 10 9
7 5 9 10
_

_
.
y
b = [32 23 33 31]
t
A+ A =
_

_
10 7 8,1 7,2
7,08 5,04 6 5
8 5,98 9,89 9
6,99 4,99 9 9,98
_

_
.
y
b + b = [32,01 22,99 33,01 30,99]
t
es decir
A =
_

_
0 0 0,1 0,2
0,08 0,04 0 0
0 0,02 0,11 0
0,01 0,01 0 0,02
_

_
.
b = [0,01 0,01 0,01 0,01]
t
La soluci on de Au = b es u = [1 1 1 1]
t
mientras que la solucion de Az = b+b es [1,82 0,36 1,35 0,79]
t
,
es decir u = u z = [0,82 1,36 0,35 0,21]
t
La solucion de (A+A)z = b es z = [81 137 34 22]
t
, es decir u = u z = [0,82 136 35 21]
t
as una perturbacion relativa del segundo miembro del orden de 310
4
implica una perturbacion relative
del segundo miembro del orden de 0,8: El error se amplica en un factor de 2500 aproximadamente. Una
perturbacion relativa de la matriz de orden 10
2
conlleva una perturbacion relativa de la solucion de
orden 80. A continuacion vamos a explicar este fenomeno.
Denicion: Condicionamiento de una matriz
Sea ||.|| una norma matricial, el condicionamiento de una matriz regular A asociado a la norma dada,
es el n umero
cond(A) = ||A||.||A
1
||
En particular
3.3 Normas vectoriales y normas matriciales 45
cond
1
(A) = ||A||
1
.||A
1
||
1
cond

(A) = ||A||

.||A
1
||

cond
2
(A) = ||A||
2
.||A
1
||
2
Propiedades del n umero de condicionamiento
1. cond(A) = cond(A), A, = 0
2. cond(A) 1 si el condicionamiento se calcula para una norma inducida.
3. cond
2
(A) =

max

min
donde
max
y
min
son respectivamente el valor singular maximo y el valor
singular mnimo de la matriz A.
4. cond
2
(A) = 1 si y solo si A = Q donde es un escalar y Q es una matriz unitaria.
Demostracion
1. cond(A) = ||A||.||(A)
1
|| = ||||A||.|
1
|||A
1
|| = ||A||.||A
1
|| = cond(A)
2. 1 = ||I|| = ||AA
1
|| ||A||.||A
1
|| = cond(A)
3. ||A||
2
= ((A

A))
1/2
=
max
||A
1
||
2
= (((A
1
)

A
1
))
1/2
= ((A

A))
1/2
=
1

min
de donde cond
2
(A) = ||A||
2
||A
1
||
2
=

max

min
4. Recordemos que para toda matriz A regular existen dos matrices unitarias U y V y una matriz
diagonal cuyos coecientes diagonales son los valores singulares
i
de A tales que
A = UV

Seg un la propiedad anterior cond


2
(A) = 1 si y solo si los valores singulares son todos iguales. Sea
este valor, entonces = I y A = UV

donde Q = UV

es una matriz unitaria.


Diremos que una matriz esta bien condicionada si su n umero de condicionamiento no es mucho mas
grande que 1. La ultima propiedad muestra que las matrices unitarias son las que poseen el mejor n umero
de condicionamiento posible, de ah su uso frecuente en algoritmos de analisis numerico.
Vamos ahora a estudiar el efecto de las perturbaciones en funcion del n umero de condicionamiento de
una matriz.
46 Generalidades sobre el analisis numerico matricial
Teorema 3.8 Sea A una matriz regular. Sea u y u+u las soluciones respectivas de los sistemas lineales
Au = b A(u + u) = b + b
tenemos
||u||
||u||
cond(A)
||b||
||b||
Demostracion: Restando las dos ecuaciones obtenemos
A(u) = b u = A
1
(b)
||u|| = ||A
1
(b)|| ||A
1
||||b||
Como ||b|| = ||Au|| ||A||.||u||, es decir
1
||u||

||A||
||b||
resulta
||u||
||u||
||A||||A
1
||
||b||
||b||
= cond(A)
||b||
||b||

La estimacion anterior es la mejor posible, es decir, no existe ning un n umero k, k < cond(a) tal que
verique
||u||
||u||
k
b
||b||
se verique siempre. En efecto, existen vectores b y u vericando
||A
1
(b)|| = ||A
1
||.||b||
||Au|| = ||A||.||u||
y para estos valores tendremos
||u||
||u||
= ||A||.||A
1
||
||b||
||b||
pues u = A
1
(b) y Au = b. Por ejemplo veamos dos de estos vectores, supongamos por ejemplo que
A es simetrica y denida positiva, de valores propios 0 <
1
, ...,
n
y sean u
1
, ..., u
n
una base ortonormal
de vectores propios
Au
n
=
n
u
n
Au
1
=
1
u
1
tomemos b =
n
u
n
y b =
1
u
1
, tendremos u = u
n
y u = u
1
||u||
2
||u||
2
=
||u
1
||
2
||u
n
||
2
= 1
||b||
2
||b||
2
=
|
1
|

n
|
=
1
cond
2
(A)
3.3 Normas vectoriales y normas matriciales 47
nalmente,
||u||
2
||u||
2
= 1 = cond
2
(A)
||b||
||b||
Veamos ahora como afecta el condicionamiento de una matriz cuando se modican sus terminos
Teorema 3.9 Sea A una matriz regular, y sean u y u + u las soluciones de los dos sistemas lineales
Au = b (A+ A)(u + u) = b
tenemos
||u||
||u + u||
cond(A)
||A||
||A||
Demostracion:
Au = b = (A+ A)(u + u) = Au +A(u) + (A)(u + u)
0 = A(u) + A(u + u)
u = A
1
A(u + u)
||u|| ||A
1
||.||A||.||u + u||
||u||
||u + u||
||A
1
||.||A|| = cond(A)
||A||
||A||
Ejercicios
1. Sea A la matriz diagonal de orden n = 100 denida por a
11
= 1 y a
ii
= 0,1 2 i n. Calcular
||A||
2
, ||A
1
||
2
, cond
2
(A), det(A).
2. Sea A triangular superior, bidiagonal, denida por a
ii
= 1, a
i,i+1
= 2 i a
ij
= 0 en cualquier otro
caso. Es decir,
A =
_

_
1 2 0 ... 0
0 1 2 ... 0
... ... ... ... ...
0 ... ... 1 2
0 ... ... 0 1
_

_
A
1
=
_

_
1 2 4 ... (2)
i1
... (2)
n1
0 1 2 ... ... ... (2)
n2
... ... ... ... ... ... ...
0 ... ... ... ... 1 2
0 ... ... ... ... ... 1
_

_
Vericar la expresion de A
1
.
Calcular ||A||

, ||A
1
||

, ||A||
1
, ||A
1
||
1
, cond

(A), cond
1
(A).
Calcular det(A).
48 Generalidades sobre el analisis numerico matricial
3. Con las notaciones anteriores considerar
A =
_

_
10 7 8 7
7 5 6 5
8 6 10 9
7 5 9 10
_

_
b =
_

_
32
23
33
31
_

_
b =
_

_
0,01
0,01
0,01
0,01
_

_
Calcular cond
2
(A) y comparar la estimacion
||Au||
2
||u||
2
cond
2
(A)
||b||
||b||
con el verdadero valor de
||Au||
2
||u||
2
.
Captulo 4
Metodos directos para la resolucion
de ecuaciones lineales
4.1. Nociones preliminares. El metodo de Gauss
4.1.1. Descripcion del metodo de Gauss para un sistema de 4 ecuaciones con
4 incognitas
Consideremos el siguiente problema:
Hallar x = [x
1
, ..., x
4
]
t
R
n
vericando
2x
1
+ 1x
2
+ 0x
3
+ 4x
4
= 2
4x
1
2x
2
+ 3x
3
7x
4
= 9
4x
1
+ 1x
2
2x
3
+ 8x
4
= 2
0x
1
3x
2
12x
3
1x
4
= 2
que escribiremos en forma matricial Ax = b con
A =
_

_
2 1 0 4
4 2 3 7
4 1 2 8
0 3 12 1
_

_
b =
_

_
2
9
2
2
_

_
x =
_

_
x
1
x
2
x
3
x
4
_

_
Ahora realizaremos una serie de transformaciones en el sistema anterior.
Primera etapa: Poniendo A
1
= A, b
1
= b trataremos de eliminar la incognita x
1
de la ecuaciones
2, 3 y 4. Para ello multiplicamos la primera ecuacion por 2 y la a nadimos a la segunda ecuacion que se
transforma en
0x
1
+ 0x
2
+ 3x
3
+ 1x
4
= 5
49
50 Metodos directos para la resolucion de ecuaciones lineales
An alogamente, multiplicamos la primera ecuacion por 2 y la a nadimos a la tercera ecuacion
0x
1
1x
2
2x
3
+ 0x
4
= 2
Puesto que x
1
no interviene en la cuarta ecuacion no modicamos esta. Al nal de esta primera etapa de
eliminaci on de x
1
obtenemos un sistema equivalente A
2
x = b
2
con
A
2
=
_

_
2 1 0 4
0 0 3 1
0 1 2 0
0 3 12 1
_

_
b =
_

_
2
5
2
2
_

_
Segunda etapa: Eliminacion de x
2
. Para eliminar x
2
de las ecuaciones tercera y cuarta, no podemos
utilizar la segunda ecuacion puesto que en ella el coeciente de x
2
, que llamamos pivote, es nulo. Por
el contrario, se puede utilizar una de las dos ultimas ecuaciones. Elijamos, por ejemplo, la tercera, en
este caso, es el coeciente 1 que juega el papel de pivote. Puesto que el coeciente de x
2
en la segunda
ecuacion es ya nulo, x
2
esta eliminada en esta ecuacion. Multipliquemos la tercera ecuacion ( la del pivote)
por 3 y sumemosla a la cuarta, que se convierte en
0x
1
+ 0x
2
6x
3
x
4
= 8
Si permutamos las ecuaciones segunda y tercera, obtenemos el sistema lineal equivalente A
3
x = b
3
con
A
3
=
_

_
2 1 0 4
0 1 2 0
0 0 3 1
0 0 6 1
_

_
b =
_

_
2
2
5
8
_

_
Tercera etapa: Eliminacion de x
3
en la cuarta ecuacion. Solo queda eliminar x
3
en la ultima ecuacion.
Como el coeciente x
3
de la tercera ecuacion es no nulo, lo elegiremos como pivote. Se multiplica la
tercera ecuacion por 2 y la a nadimos a la cuarta para obtener
0x
1
+ 0x
2
+ 0x
3
+x
4
= 2
el sistema de ecuaciones lineales, equivalente, que nalmente hemos obtenido es A
4
x = b
4
con
A
4
=
_

_
2 1 0 4
0 1 2 0
0 0 3 1
0 0 0 1
_

_
b =
_

_
2
2
5
2
_

_
Resolucion del sistema triangular La matriz A
4
es triangular superior. Para obtener la solucion del
sistema A
4
x = b
4
, se resuelve primero la cuarta ecuacion, despues la tercera, etc, mediante un proceso
llamado de remonte.
x
4
= 2
x
3
= (5 x
4
)/3 = 1
x
2
= 2 2x
3
= 4
x
1
= (2 x
2
4x
4
)/2 = 3
Hemos obtenido la solucion x = [3 4 1 2]
t
.
4.1 Nociones preliminares. El metodo de Gauss 51
4.1.2. Escritura matricial de las operaciones de eliminacion
La transformacion consistenete en multiplicar la primera componente de a
1
de un vector por un
n umero y a nadirlo a la segunad componente a
2
se puede representar mediante la multiplicacion de una
matriz, llamemosla E
1
por este vector, en efecto, poniendo
E
1
=
_

_
1 0 0 0
1 0 0
0 0 1 0
0 0 0 1
_

_
tendremos, designando a = [a
1
a
2
a
3
a
4
]
t
E
1
a =
_

_
1 0 0 0
1 0 0
0 0 1 0
0 0 0 1
_

_
_

_
a
1
a
2
a
3
a
4
_

_
=
_

_
a
1
a
1
+a
2
a
3
a
4
_

_
An alogamente, multiplicar a
1
por y a nadirlo a a
3
se puede expresar
E
2
a =
_

_
1 0 0 0
0 1 0 0
0 1 0
0 0 0 1
_

_
_

_
a
1
a
2
a
3
a
4
_

_
=
_

_
a
1
a
2
a
1
+a
3
a
4
_

_
Efectuar las dos transformaciones sucesivas (el orden no tiene importancia) equivales a multiplicar el
vector por el producto de las dos matrices
M
1
= E
2
E
1
=
_

_
1 0 0 0
0 1 0 0
0 1 0
0 0 0 1
_

_
_

_
1 0 0 0
1 0 0
0 0 1 0
0 0 0 1
_

_
=
_

_
1 0 0 0
1 0 0
0 1 0
0 0 0 1
_

_
Las anteriores transformaciones son invertibles y
E
1
1
=
_

_
1 0 0 0
1 0 0
0 0 1 0
0 0 0 1
_

_
E
1
2
=
_

_
1 0 0 0
0 1 0 0
0 1 0
0 0 0 1
_

_
M
1
1
=
_

_
1 0 0 0
1 0 0
0 1 0
0 0 0 1
_

_
con el signicado correspondiente: Si a a
2
+a
1
le restamos a
1
volvemos a obtener a
2
. Llamemos L
1
a la inversa de M
1
, M
1
1
= E
1
1
E
1
2
. En la primera etapa, a partir del sistema A
1
x = b
1
, eligiendo = 2
y = 2 hemos obtenido el sistema A
2
x = b
2
con M
1
A
1
= A
2
y M
1
b
1
= b
2
. De donde deducimos las
relaciones
A
1
= L
1
A
2
b
1
= L
1
b
2
En la segunda etapa, se ha efectuado una permutacion de las las segunda y tercera para obtener un pivote
no nulo. Esto se interpreta matricialmente por la multiplicacion por la matriz elemental de permutacion
52 Metodos directos para la resolucion de ecuaciones lineales
P siguiente
P =
_

_
1 0 0 0
0 0 1 0
0 1 0 0
0 0 0 1
_

_
Despues se ha eliminado x
2
, que equivale a la multiplicacion por la matriz M
2
, donde
M
2
=
_

_
1 0 0 0
0 1 0 0
0 0 1 0
0 3 0 1
_

_
El sistema obtenido es A
3
x = b
3
con
A
3
= M
2
PA
2
b
3
= M
2
Pb
2
poniendo
L
2
= M
1
2
=
_

_
1 0 0 0
0 1 0 0
0 0 1 0
0 3 0 1
_

_
se deduce
PA
2
= L
2
A
3
Pb
2
= L
2
b
3
Finalmente, la ultima etapa conduce al sistema A
4
x = b
4
donde
A
4
= M
3
A
3
b
4
= M
3
b
3
o bien
A
3
= L
3
A
4
b
3
= L
3
b
4
con
L
3
= M
1
3
=
_

_
1 0 0 0
0 1 0 0
0 0 1 0
0 0 2 1
_

_
Llamando U = A
4
y c = b
4
hemos llegado al sistema equivalente
Ux = c
que es triangular superior.
Interpretacion del metodo de Gauss como metodo de factorizacion: Pongamos
L
1

= PL
1
P
t
=
_

_
1 0 0 0
1 0 0
0 1 0
0 0 0 1
_

_
4.1 Nociones preliminares. El metodo de Gauss 53
donde = 2 y = 2 y L = L
1

L
2
L
3
. Un calculo simple da
L =
_

_
1 0 0 0
2 1 0 0
2 0 1 0
0 0 0 1
_

_
_

_
1 0 0 0
0 1 0 0
0 0 1 0
0 3 0 1
_

_
_

_
1 0 0 0
0 1 0 0
0 0 1 0
0 0 2 1
_

_
=
_

_
1 0 0 0
2 1 0 0
2 0 1 0
0 3 2 1
_

_
Observemos que para obtener L basta copiar en su sitio respectivo los coecientes bajo la diagonal de
L
1

, L
2
y L
3
. Calculemos el producto LU:
LU = L
1

L
2
L
3
A
4
= L
1

L
2
A
3
= L
1

PA
2
= PL
1
P
t
PA
2
= PL
1
A
2
= PA
1
= PA
Hemos obtenido as la factorizacion de la matriz PA en el producto de dos matrices triangulares,
una triangular inferior L (del ingles Lower) con los coecientes diagonales iguales a 1 y una triangular
superior U ( del ingles Upper). El calculo de P, L y U puede hacerse independientemente del segundo
miembro b. A continuacion para resolver el sistema Ax = b, se resolvera PAx = LUx = Pb resolviendo
dos sistemas triangulares
Ly = Pb
Ux = y
4.1.3. El metodo de eliminacion de Gauss para un sistema regular N N
Para resolver el sistema lineal Ax = b donde A es una matriz de orden N regular, la vamos a tansformar
en N 1 etapas en un sistema equivalente Ux = c, donde U es una matriz triangular superior.
Describiremos primero la primera etapa y luego la k-esima etapa que sustituye el sistema A
k
x = b
k
por un sistema equivalente A
k+1
x = b
k+1
.
Introducimos las matrices ampliadas

A
k
de formato N (N + 1) obtenidas a nadiendo el segundo
miembro b
k
a la matriz A
k
.

A
k
= [A
k
|b
k
]
1. Primera etapa: Eliminacion de x
1
de las ecuaciones 2 a N.
Vamos a tener que efectuar divisiones por el coeciente A
1
(1, 1) al que llamaremos primer pivote. Si
este coeciente es nulo, se efect ua previamente una permutacion de la primera la con la la p, para
conseguir una matriz cuyo coeciente, de posicion (1, 1) no sea nulo. Esto es siempre posible, pues
det(A
1
) = 0 implica que existe al menos un coeciente no nulo en la primera columna. Se vera mas
tarde como, en la practica, se dene la permutacion para evitar tener un pivote demasiado peque no
en valor absoluto.
54 Metodos directos para la resolucion de ecuaciones lineales
Este intercambio es equivalente a la multiplicacion del sistema A
1
x = b
1
por una matriz elemental
de permutacion P
1
tal que:
P
1
=
_

_
0 ... ... 1
... 1 ... ...
... ... 1
1 ... ... 0
... ... ... ... 1
... ... ... ... ... ... ... ...
1
_

_
Para escribir las formulas que siguen llamaremos tambien A
1
a la matriz de partida incluso si hemos
intercambiado la primera la y la la p. Para i comprendido entre 2 y N restamos de la i-esima la
la primera la multiplicada por
L(i, 1) =
A
1
(i, 1)
A
1
(1, 1)
tenemos pues las f ormulas siguientes. Llamando

A
2
a la matriz transformada

A
2
(i, j) =

A
1
(i, j) L(i, 1)

A
1
(1, j) 2 i N 1 j N + 1
Para j = 1 observamos

A
2
(i, 1) = 0 2 i N como queramos. Efectuaremos los calculos
solamente para 2 j N + 1.

A
2
posee la estructura siguiente

A
2
=
_

_
x ... ... ... x
0 x ... ... x
0 x x ... x
... ... ... ... ...
0 x ... ... x

x
.
.
.
x
_

_
Como las primeras las de

A
1
y de

A
2
son iguales podemos escribir

A
1
(i, j) = L(i, 1)

A
2
(1, j) +

A
2
(i, j)
Denimos ahora el vector l
1
de dimension N y la matriz cuadrada L
1
de orden N mediante
l
1
(1) = 0 l
1
(i) = L(i, 1) para 2 i N
L
1
=
_

_
1 0 ... ... 0
l
1
(2) 1 0 ... 0
l
1
(3) 0 1 ... 0
... ... ... ... ...
l
1
(N) 0 ... ... 1
_

_
= I +l
1
e
t
1
donde e
1
es el primer vector de la base canonica de R
N
.
L
1
es triangular inferior, los coecientes de su diagonal son iguales a 1, as pues det(L
1
) = 1. Fuera
de la diagonal los unicos terminos distintos de cero son los de la primera columna. La multiplicacion
4.1 Nociones preliminares. El metodo de Gauss 55
por la izquierda de una matriz por L
1
equivale a a nadir la primera la multiplicada por L(i, 1) a la
i-esima la y esto para 2 i N. Podemos pues escribir
P
1

A
1
= L
1

A
2
como P
1
1
= P
1
tenemos

A
1
= P
1
L
1

A
2
es decir
A
1
= P
1
L
1
A
2
b
1
= P
1
L
1
b
2
Como det(L
1
) = 1 deducimos det(A
1
) =
1
det(A
2
) donde
1
= +1 si no se ha efectuado ninguna
permutacion y = 1 en caso contrario.
2. k-esima etapa:Eliminacion de x
k
de las ecuaciones k + 1 hasta N.
El calculo que se va a describir monstrara, por induccion que al nal de la etapa (k + 1) la matriz

A
k
posee la estructura siguiente

A
k
= [A
k
, b
k
] =
_

_
x ... ... ... ... x x x
0 x ... ... ... x
0 0 x ... ... x
... ... ... ... ... ...
0 0 ... ... ... x
0 0 ... ... ... 0 x ... ... ... ... x
0 0 ... ... ... 0 x x ... ... ... x
0 0 ... ... ... 0 x x ... ... ... x
... ... ... ... ... ... ... ... ... ... ... x
0 0 ... ... ... 0 x x ... ... ... x

x
.
.
.
.
.
.
.
.
x
_

_
=
_
T
k
X
O A

X
X
_
donde los coecientes de A
k
situados debajo de la diagonal, en los k 1 primeras columnas son
nulos, siendo el bloque T
k
de la gura triangular superior. Si consideramos la descomposicion de
A
k
en bloques de dimension k 1 y N k + 1 como en la gura, vemos que
det(A
k
) = det(T
k
).det(A

k
)
Demostraremos mas adelante por induccion que |det(A
k
)| = |det(A)| = 0. Ello implica que det(A

k
) =
0 de donde al menos uno de los coecientes de la primera columna de A

k
, A
k
(i, k) i k es distinto
de cero. Si el k-esimo pivote, es decir el coeciente A
k
(k, k) es nulo, se puede permutar la k-esima
la con una la de ndice p k +1 tal que A
k
(p, k) = 0 y este coeciente jugara el papel de pivote.
Esta permutacion es equivalente a la multiplicacion del sistema
A
k
x
x
= b
k
56 Metodos directos para la resolucion de ecuaciones lineales
por una matriz de permutacion elemental P
k
P
k
=
_

_
1
... ... ... ... ... ... ... ... ...
1
0 ... ... 1
. 1 .
... ... ... . ... ... . ... ...
. 1 .
1 ... ... 0
1
... ... ... ... ... ... ... ... ...
1
_

_
Ahora las k primeras las no se cambian y para k +1 i N se resta de la i-esima la la k-esima
la multiplicada por
L(i, k) =
A
k
(i, k)
A
k
(k, k)
Se dene

A
k+1
a partir de

A
k
por las formulas

A
k+1
(i, j) =

A
k
(i, j) L(i, k)

A
k
(k, j) para k + 1 i N 1 j N + 1
tomando j = k
A
k+1
(i, k) = A
k
(i, k)
A
k
(i, k)
A
k
(k, k)
= 0
que es el resultado buscado. Ademas para todos los ndices j k 1 tenemos A
k
(k, j) = 0 y
A
k
(i, j) = 0 para i k + 1, de donde A
k+1
(i, j) = 0 para i k + 1. Es decir los ceros de las k 1
primeras columnas de las las k + 1 a N se conservan. Observemos que las ceros de las las 1 a k
se conservan pues estas las no se modican. La matriz

A
k+1
tiene pues la estructura de la matriz
anterior

A
k
cambiando k por k + 1.
El n umero de operaciones efectuado en esta k-esima etapa es:
N k divisiones.
(N k)
2
adiciones y multiplicaciones para los coecientes A
k+1
.
N k adiciones y multiplicaciones para los coecientes de b
k+1
.
Como la k-esima la de

A
k
y de

A
k+1
son iguales podemos escribir

A
k
(i, j) = L(i, k)

A
k+1
(k, j) +

A
k+1
(i, j) para k + 1 i N 1 j N + 1
Denimos el vector l
k
de dimension N y la matriz cuadrada L
k
de orden N por
l
k
(i) = 0 para i k l
k
(i) = L(i, k) k + 1 i N
4.1 Nociones preliminares. El metodo de Gauss 57
L
k
=
_

_
1
1
... ... ... ... ... ... O ...
1
l
k
(k + 1)
O ...
l
k
(N) 1
_

_
= I +l
k
e
t
k
donde e
k
, es el k-esimo vector de la base canonica.
Tenemos:
det(L
k
) = 1
P
k

A
k
= L
k

A
k+1
Como P
2
k
= I,

A
k
= P
k
L
k

A
k+1
A
k
= P
k
L
k
A
k+1
b
k
= P
K
L
K
b
k+1
det(A
k
) =
k
det(A
k+1
)
k
=
_
1 si P
k
= I
1 si P
k
= I
Por induccion tenemos |det(A
k
)| = |det(A)|.
3. Resolucion del sistema triangular: Al nal de la etapa N 1, la matriz A
N
es triangular superior.
Solo falta realizar la etapa de remonte para resolver el sistema lineal Ux = c, cuya i-esima ecuacion
se escribe
U(i, i)x
i
+
N

j=i+1
U(i, j)x
j
= c
i
Se calculan las componentes de x por orden de ndice decreciente empezando por x
N
:
_
x
N
=
c
N
U(N,N)
x
i
=
c
i

P
N
j=i+1
U(i,j)x
j
U(i,i)
Como los U(i, i) son los pivotes sucesivos, son todos no nulos y las formulas anteriores son validas.
El n umero de operaciones a efectuar en esta fase es:
N divisiones.

N
i
(N i) =
N(n1)
2
adiciones y multiplicaciones.
4. Calculo del determinante: det(A
k
) = det(A
k+1
) para 1 k N 1 donde = 1 o = +1 seg un
se halla realizado una permutacion o no en la k-esima etapa.
det(A) = det(A
1
) = (1)
p
det(A
N
) = (1)
p
det(U)
siendo p el n umero de permutaciones de las realizadas. Como U es triangular superior
det(U) =
N
i=1
U(i, i)
58 Metodos directos para la resolucion de ecuaciones lineales
5. Interpretacion matricial: PA = LU
Hemos visto,
A
k
= P
k
L
K
A
k+1
1 k N 1
sabiendo que A
1
= A A
N
= U matriz triangular superior y siendo P
k
la matriz de permutacion
de ndices k y l con l k. Podemos enunciar el siguiente
Lema 4.1 P
p
matriz de permutacion de ndices p y q p entonces para k < p
L
k
P
p
= P
p
L

k
o P
p
L
k
P
p
= L

k
donde la matriz L

k
obtiene de L
k
permutando los coecientes de las lneas p y q en la k-esima
columna.
Demostracion: para p > k P
p
e
k
= e
k
y l

k
= P
p
l
k
.
L

k
= P
p
(I +l
k
e
t
k
)P
p
= P
2
p
+l

k
e
t
k
= I +l

k
e
t
k
donde l

k
se deduce de l
k
por permutacion de las componentes p y q.
Lema 4.2 Sea l
k
1 k N 1 una sucesion de N 1 vectores de dimension N tales que las k
primeras componentes de l
k
sean nulas, entonces:
(I +l
1
e
t
1
)(I +l
2
e
t
2
)...(I +l
N1
e
t
N1
) = I +l
1
e
t
1
+l
2
e
t
2
+... +l
N1
e
t
N1
Demostracion: Observar que los productos l
i
e
t
i
l
j
e
t
j
con i < j son nulos pues e
t
i
l
j
= l
j
(i) = 0 para
j > i.
Teorema 4.1 Sea A una matriz regular de orden N. Existe una matriz de permutacion P y dos
matrices L y U, L triangular inferior de diagonal unidad, U triangular superior, tales que
PA = LU
Demostracion: A = A
1
= P
1
L
1
P
2
L
2
...P
N1
L
N1
U Se verica facilmente
A = P
1
P
2
...P
N1
L

1
L

2
...L

N1
U
donde
L

k
= P
N1
P
N2
....P
k1
L
k
P
k+1
...P
N2
P
N1
L = L

1
L

2
...L

N1
P = P
N1
P
N2
...P
1
PA = LU
4.1 Nociones preliminares. El metodo de Gauss 59
4.1.4. Existencia y unicidad de A = LU
Teorema 4.2 Sea A una matriz regular de orden N. A posee una factorizacion A = LU donde L es
triangular inferior de diagonal unidad y U es triangular superior, si y solo si, todas las submatrices
principales A
(k)
de A son regulares. En ese caso
U(k, k) =
det(A
(k)
)
det(A
(k1)
)
Demostracion: Si A = LU, descomponemos las tres matrices en bloques de ordenk y orden N k
_
A
11
A
12
A
21
A
22
_
=
_
L
11
O
L
21
L
22
_
.
_
U
11
U
12
O U
22
_
Por denicion A
11
es la submatriz principal de orden k
A
11
= L
11
U
11
det(A
11
) = det(L
11
)det(U
11
) =
k
i=1
U(i, i) = 0
y de ah
U(k, k) =
det(A
(k)
)
det(A
(k1)
)
.
Recprocamente, si los determinantes de las submatrices principales A
(k)
son todos distintos de cero,
veamos que teoricamente podriamos aplicar el algoritmo de eliminacion de Gauss sin efectuar permuta-
ciones.
Procedemos por induccion
Para k = 1, como A
(1)
= A
11
= 0, en la primera etapa no necesitamos efectuar ninguna permutacion
de las.
Supongamos que la eliminacion sin permutaciones se ha podido realizar hasta la etapa k 1. Antes
de la etapa k-esima, tendremos
A = A
1
= L
1
L
2
....L
k1
A
k
= RA
k
donde R es triangular inferior de diagonal unidad. Descomponiendo en A, R y A
k
= B en bloques
_
A
11
A
12
A
21
A
22
_
=
_
R
11
O
R
21
I
_
.
_
B
11
B
12
O B
22
_
resulta A
11
= R
11
B
11
, como det(R
11
) = 1
det(B
11
) = det(A
11
) = det(A
(k)
) = 0
y B
11
es triangular superior tenemos todos sus elementos diagonales no nulos, en particular,
B(k, k) = A
k
(k, k) se puede elegir como pivote en la siguiente etapa.
60 Metodos directos para la resolucion de ecuaciones lineales
Teorema 4.3 de unicidad
Si una matriz regular A de orden N, posee una factorizacion A = LU, con L triangular inferior de
diagonal unidad y U triangular superior, entonces la factorizacion es unica.
Demostracion: Supongamos A = L
1
U
1
= L
2
U
2
, resulta X = L
1
2
L
1
= U
2
U
1
1
, de donde necesaria-
mente X = I.
4.1.5. Complejidad algoritmica del metodo de eliminacion de Gauss
Factorizacion En la etapa k-esima de la factorizacion, N k divisiones y (N k)
2
sumas y multi-
plicaciones. sumando para todo k = 1, ..., N 1:
N1

k=1
(N k)
2
=
1
3
N(N 1/2)(N 1)
sumas y multiplicaciones y
N1

k=1
=
1
2
N(N 1)
divisiones
Resolucion de un sistema triangular
1
2
N(N 1)
sumas y multiplicaciones y N divisiones.
En total O(
N
3
3
) para la factorizacion y O(N
2
) para la resolucion de los sistemas triangulares. Por ejemplo
resolver un sistema de 100 ecuaciones signica realizar del orden de 10
6
/3 operaciones.
Tema para clase de practicas: Requarimientos de memoria del algoritmo de Gauss. Solo se necesita
el espacio ocupado por la matriz y el vector segundo miembro inicial y un segundo vector adicional si es
necesario realizar permutaciones.
Ejercicios:
1. Inuencia de los errores de redondeo. Resolver el sistema siguiente
x
1
+x
2
= 1/2
x
1
+x
2
= 1
sin realizar permutaciones y realizando una permutacion de las para evitar pivotes peque nos.
Comparar con la solucion exacta.
4.2 El metodo de Cholesky para matrices simetricas y denidas positiva 61
4.2. El metodo de Cholesky para matrices simetricas y denidas
positiva
Consideramos en esta seccion una matrices A simetricas y denidas positiva. Una factorizacion regular
de Cholesky es una factorizacion de la forma A = BB
t
donde B es triangular inferior. Si los coecientes
de la diagonal de B son todos positivos se dice que es una factorizacion positiva de Cholesky.
Teorema 4.4 de existencia y unicidad
A posee una factorizacion regular de Cholesky si y solamente es denida positiva. En este caso posee
una factorizacion positiva unica.
Demostracion:
Necesidad: Sea A simetrica y supongamos que A = BB
t
con B triangular inferior. Entonces A es
denida positiva, en efecto
(Ax, x) = (BB
t
x, x) = (B
t
x, B
t
x) = ||B
t
x||
2
> 0 x = 0
Suciencia: Sea A simetrica y denida positiva, es decir, (Ax, x) > 0 x = 0. Procedemos por
induccion. El resultado es obviamente cierto para matrices de orden 1. Supongamos pues que es
cierto para matrices de orden N 1 y demostremos que entonces sera cierto para matrices de orden
N. Descomponemos la matriz A en bloques,
A =
_
R a
a
t

_
donde R es una matriz de orden N1, a un vector de R
N
y un n umero real. Como A es simetrica
denida positiva, necesariamente tambien lo sera R. Por la hipotesis de induccion que R = MM
t
con M triangular inferior de orden N 1, por tanto R es simetrica y denida positiva. Busquemos
B de la forma
B =
_
M O
r
t

_
con r R
N1
y R. Se deber cumplir
_
R a
a
t

_
=
_
M O
r
t

_
.
_
M
t
r
O
_
=
_
MM
t
Mr
r
t
M r
t
r +
2
_
identicando terminos
a = Mr
= r
t
r +
2
es decir
r = M
1
a
62 Metodos directos para la resolucion de ecuaciones lineales

2
= r
t
r
de donde

2
= a
t
R
1
a
Basta vericar ahora que es necesariamente un n umero real, es decir, que a
t
R
1
a > 0. En
efecto, como A es denida positiva, para todo vector x R
N
distinto de cero se tiene
x
t
_
R a
a
t

_
x > 0
tomando x =
_
R
1
1

t
_
R
1
a 1

_
R a
a
t

_ _
R
1
a
1
_
= a
t
R
1
a
de ah el resultado buscado.
Queda por vericar la unicidad. Supongamos que existen B
1
y B
2
matrices triangular inferior tales
que
A = B
1
B
t
1
= B
2
B
t
2
resulta
X = B
1
2
B
1
= B
t
2
B
t
1
de donde necesariamente X es diagonal y ademas los terminos de la diagonal verican
b
(1)
ii
b
(2)
ii
=
b
(2)
ii
b
(1)
ii
de donde
(b
(1)
ii
)
2
= (b
(2)
ii
)
2
eligiendo la diagonal con terminos positivos, resulta
b
(1)
ii
= b
2
ii
es decir B
1
= B
2
.
Captulo 5
Metodos iterativos para la resolucion
de sistemas de ecuaciones lineales
5.1. Generalidades y descripcion de algunos metodos
Los metodos directos son ecaces para sistemas de tama no moderado, por ejemplo N 1000 o en el
caso de matrices huecas N 5000 , 10000. Para valores signicativamente mayores los metodos directos
pierden ecacia, no solo porque el n umero de operaciones necesario crece desmesuradamente sino tambien
porque la acumulacion de errores de redondeo puede desvirtuar el resultado.
En el caso de grandes sistemas de ecuaciones, los llamados metodos iterativos, resultan mas conve-
nientes. De forma generica: Para resolver un sistema Ax = b, se transforma en otro equivalente (es decir,
con la misma solucion) que tenga la forma
x = Bx +c
expresion que sugiere el siguinete metodo iterativo
_
x
(0)
, arbitrario
x
(k+1)
= Bx
(k)
+c
Diremos que el metodo es convergente, si
lm
k
x
(k)
= x
cualquiera que sea el valor inicial x
(0)
elegido.
Teorema 5.1 El metodo iterativo anterior es convergente si (B) < 1, o de forma equivalente si ||B|| < 1
para al menos una norma matricial (que podemos elegir subordinada).
63
64 Metodos iterativos para la resolucion de sistemas de ecuaciones lineales
Demostracion:
x = Bx +c
x
(k+1)
= Bx
(k)
+c
restando
x
(k+1)
x = B(x
(k)
x)
Llamando e
(0)
= x
(0)
x al error inicial y e
(k)
= x
(k)
x al error en la iteracion k resulta e
(k+1)
= Be
(k)
y tambien
e
(k)
= Be
(k1)
= ... = B
k
e
(0)
de donde
||e
(k)
|| = ||B
k
e
(0)
|| ||B
k
||||e
(0)
|| ||B||
k
||e
(0)
||
Si ||B|| < 1 entonces
lm
k
||e
(k)
|| = 0
es decir,
lm
k
x
(k)
= x

5.1.1. Descripci on del metodo de Jacobi


Supongamos que queremos resolver el sistema
a
11
x
1
+ ... +a
1n
x
d
= b
1
a
21
x
1
+ ... +a
2n
x
d
= b
2
...
a
n1
x
1
+ ... +a
nn
x
d
= b
n
que podemos escribir
a
11
x
1
= b
1

j=1
a
1j
x
j
a
22
x
2
= b
2

j=2
a
2j
x
j
...
a
NN
x
N
= b
N

j=N
a
Nj
x
j
5.1 Generalidades y descripcion de algunos metodos 65
El algoritmo de Jacobi se escribe Dado x
(0)
R
N
arbitrario, una vez calculado una aproximacion x
(k)
,
calculamos x
(k)
de la manera siguiente:
x
(k+1)
1
=
b
1

j=1
a
1j
x
(k)
j
a
11
x
(k+1)
2
=
b
2

j=2
a
2j
x
(k)
j
a
22
...
x
(k+1)
N
=
b
N

j=N
a
Nj
x
(k)
j
a
NN
Este metodo esta denido solo si a
ii
= 0 para i = 1, ..., N. La ecuacion i-esima
x
(k+1)
i
=
b
i

j=i
a
ij
x
(k)
j
a
ii
se puede escribir tambien, restando en los dos miembros x
(k)
i
as:
x
(k+1)
i
x
i
=
b
i

N
j=1
a
ij
x
(k)
j
a
ii
=
r
(k)
i
a
ii
donde hemos designado mediante r
(k)
al vector residuo
r
(k)
= b Ax
(k)
correspondiente al valor x
(k)
.
Vamos a escribir el metodo anterior en forma matricial. Podremos
A = D E F
donde
D, es la parte diagonal de A, D
ii
= a
ii
, i = 1, ..., N
E, es la parte estrictamente triangular inferior
_
(E)
ij
= a
ij
i > j
(E)
ij
= 0 i j
F, es la parte estrictamente triangular superior
_
(F)
ij
= a
ij
i < j
(F)
ij
= 0 i j
66 Metodos iterativos para la resolucion de sistemas de ecuaciones lineales
Entonces la iteracion de Jacobi se escribe
x
(k+1)
= D
1
(E +F)x
(k)
+D
1
b
o bien,
x
(k+1)
= (I D
1
A)x
(k)
+D
1
b
es pues de la forma general con B = I D
1
A y c = D
1
b.
Pseudocodigo de una iteracion del metodo de Jacobi
For i = 1, ..., N do
s b(i)
For j = 1, ..., i 1 do
s s A(i, j) x(j)
end
For j = i + 1, ..., N do
s s A(i, j) x(j)
end
y(i)
s
A(i,i)
For i = 1, ..., N do
x(i) y(i)
end
end
Ejercicios
1. Considerar el sistema
10x
1
+x
2
= 11
2x
1
+ 10x
2
= 12
a) Calcular la solucion exacta.
b) Calcular el radio espectral de la matriz asociada.
c) Aplicar el metodo de Jacobi.
2. Considerar el sistema
x
1
+ 10x
2
= 11
10x
1
+ 2x
2
= 12
a) Calcular la solucion exacta.
b) Calcular el radio espectral de la matriz asociada.
c) Aplicar el metodo de Jacobi.
5.1 Generalidades y descripcion de algunos metodos 67
5.1.2. Descripcion del metodo de Gauss-Seidel
Si observamos con atencion la expresion general de una iteracion del algoritmo de Jacobi, observaremos
que si procedemos en el orden natural, i = 1, 2, ..., N, al calcular x
(k+1)
i
, los valores x
(k+1)
1
, x
(k+1)
2
, ..., x
(k+1)
i1
ya los hemos obtenido. Si el metodo es convergente, tenemos la esperanza que estos i 1 valores esten
m as cerca de la solucion que los anteriores x
(k)
1
, x
(k)
2
, ..., x
(k)
i1
. Por lo tanto podemos utilizarlos en lugar
de estos en la expresion que sirve para calcular x
(k+1)
i
, quedando
x
(k+1)
i
=
b
i

i1
j=1
a
ij
x
(k+1)
j

N
j=i+1
a
ij
x
(k)
j
a
ii
Obtenemos as el llamado metodo de Gauss-Seidel, que podemos escribir de la forma
i

j=1
a
ij
x
(k+1)
j
= b
i

j=i+1
a
ij
x
(k)
j
o en forma matricial
(D E)x
(k+1)
= b +Fx
(k)
y tambien
x
(k+1)
= (D E)
1
Fx
(k)
+ (D E)
1
b
En cada iteracion del algoritmo de Gauss-Seidel resolvemos un sistema triangular. Veamos el pseu-
docodigo que es mas sencillo incluso que el correspondiente al algoritmo de Jacobi.
Pseudocodigo de una iteracion del metodo de Gauss-Seidel
For i = 1, ..., N do
s b(i)
For j = 1, ..., N do
s s A(i, j) x(j)
end
x(i) x(i) +
s
A(i,i)
end
donde hemos utilizado la expresion equivalente
= x
(k+1)
i
x
(k)
i
=
b
i

i1
j=1
a
ij
x
(k+1)
j

N
j=i
a
ij
x
(k)
j
a(i, i)
x
(k+1)
i
= x
(k)
i
+
68 Metodos iterativos para la resolucion de sistemas de ecuaciones lineales
5.1.3. Metodos de relajacion
Se pueden generalizar los dos metodos anteriores de Jacobi y Gauss-Seidel, introduciendo un parametro
> 0. Sea x
(k)
i
ya calculado y x
(k+1)
i
obtenido a partir de x
(k)
i
por uno de los dos metodos precedentes.
Se dene entonces la combinacion lineal
x
(k+1)
i
= x
(k+1)
i
+ (1 )x
(k)
i
Si el metodo de partida es el de Jacobi, obtenemos para i = 1, ..., N
x
(k+1)
i
=

a
ii
(b
i

j=i
a
ij
x
(k)
j
) + (1 )x
(k)
i
o bien multiplicando por a
ii
a
ii
x
(k+1)
i
= (b
i

j=i
a
ij
x
(k)
j
) + (1 )a
ii
x
(k)
i
y con notacion matricial
Dx
(k+1)
= (1 )Dx
(k)
+b +(E +F)x
(k)
y tambien
x
(k+1)
= (I D
1
A)x
(k)
+D
1
b
En el caso del metodo de Gauss-Seidel, el correspondiente metodo de relajacion se llama S.O.R.
(Succesive Over Relaxation) y se escribe
x
(k+1)
i
=

a
ii
(b
i

i1

j=1
a
ij
x
(k+1)
j

N

j=i+1
a
ij
x
(k)
j
) + (1 )x
(k)
i
y con notacion matricial
(D E)x
(k+1)
= b + ((1 )D +F)x
(k)
es decir
x
(k+1)
= (
D

E)
1
b + (
D

E)
1
(
1

D +F)x
(k)
Pseudocodigo de una iteracion del metodo de S.O.R.
For i = 1, ..., N do
s b(i)
For j = 1, ..., N do
s s A(i, j) x(j)
end
x(i) x(i) +
s
A(i,i)
end
5.1 Generalidades y descripcion de algunos metodos 69
5.1.4. Control de parada de las iteraciones
Designemos mediante r
(k)
al vector residuo correspondiente a la iteracion k-esima, es decir,
r
(k)
= b Ax
(k)
Un posible control de parada consiste en parar en la k-esima iteracion si
||r
(k)
||
||b||

para elegido convenientemente peque no.
Esta relacion implica que el error e
(k)
= x x
(k)
verica
||e
(k)
||
||x||
cond(A)
siendo x la solucion exacta de Ax = b. En efecto, como
||e
(k)
|| = ||A
1
r
(k)
|| ||A
1
||||r
(k)
||
entonces
||e
(k)
|| ||A
1
||.||b|| ||A
1
||.||Ax|| cond(A)||x||
y de ah la armaci on realizada.
Comentarios
1. En el metodo de Jacobi, aparece explcitamente el residuo r
(k)
= (r
(k)
i
) con r
(k)
i
= b
i

N
j=1
a
ij
x
(k)
j
.
2. Sin embargo en el metodo de Gauss Seidel o S.O.R. no aparece el residuo sino el vector r
(k)
= (r
(k,i)
i
)
donde
r
(k,i)
i
= b
i

i1

j=1
a
ij
x
(k+1)
j

N

j=i
a
ij
x
(k)
j
Podemos realizar el control de parada con r
(k)
, es decir parar las iteraciones si
|| r
(k)
||
||b||

lo que evita calculos suplementarios.
A menudo otro control de parada consiste en interrumpir las iteraciones cuando
||x
(k)
x
(k1)
|| ||x
(k)
||
que es un control comodo desde el punto de vista del calculo. Presenta sin embargo el inconveniente que
podra darse en ciertos casos en los que se vericase el control sin que x
(k)
estuviese cerca de la solucion
x. Por ejemplo si para alg un k resulta x
(k)
= 0 sin ser esta la solucion buscada.
70 Metodos iterativos para la resolucion de sistemas de ecuaciones lineales
5.1.5. Metodos por bloques
Los metodos precedentes se pueden generalizar a metodos por bloques.
Supongamos que A y el correspondiente sistema de ecuaciones lo descomponemos en bloques
_
_
A
11
... A
1p
...
A
p1
... A
pp
_
_
_
_
X
1
...
X
p
_
_
=
_
_
B
1
...
B
p
_
_
donde A
11
, ...A
pp
son matrices cuadradas y donde X
i
, B
i
son vectores cuya dimension es igual al orden
de las matrices A
ii
.
De manera analoga a la efectuada precedentemente se dene la descomposicion de A por bloques
A = D E F
donde
D, es la parte diagonal de bloques de A, D
ii
= A
ii
, i = 1, ..., N
E, es la parte estrictamente triangular inferior
_
(E)
ij
= A
ij
i > j
(E)
ij
= 0 i j
F, es la parte estrictamente triangular superior
_
(F)
ij
= A
ij
i < j
(F)
ij
= 0 i j
Por ejemplo el metodo de relajacion por bloques sera
A
ii
(X
(k+1)
i
X
(k)
i
) = (B
i

i1

j=1
A
ij
X
(k+1)
j

p

j=i
A
ij
X
(k)
j
)
Para calcular las componentes del vector X
(k+1)
i
, es necesario resolver el sistema A
ii
X
(k+1)
i
= C
i
donde C
i
es un vector conocido. Es necesario que esto sea relativamente sencillo. Por ejemplo, si utilizamos
una factorizacion A
ii
= LU, bastara hacerla una sola vez para cada bloque A
ii
y esta factorizacion se
utilizara en cada iteracion.
5.2. Estudio de la convergencia de los metodos de Jacobi, Gauss-
Seidel y S.O.R.
Los metodos anteriores son de la forma general
x
(k+1)
= Bx
(k)
+c
5.2 Estudio de la convergencia de los metodos de Jacobi, Gauss-Seidel y S.O.R. 71
La condicion necesaria y suciente de convergencia es
(B) < 1
Para el metodo de Jacobi
B = D
1
(E +F)
Para el metodo de Gauss-Seidel
B = (D E)
1
F
Para el metodo S.O.R.
B = (
D

E)
1
(
1

D +F)
Estos matrices se pueden expresar en funcion de L = D
1
E y de U = D
1
F que son respectivamente
dos matrices triangulares inferior y superior respectivamente con diagonal nula
L =
_

_
0 0 ... 0

a
21
a
22
0 ... 0
... ...

a
N1
a
NN

a
N2
a
NN
... 0
_

_
U =
_

_
0
a
12
a
11
...
a
1N
a
11
0 0 ...
a
2N
a
22
...
0 0 ... 0
_

_
Tenemos pues para el metodo de Jacobi
I = D
1
(E +F) = D
1
E +D
1
F = L +U
para el metodo de Gauss-Seidel
L

= (D E)
1
F = (I D
1
E)D
1
F = (I L)
1
U
y para el metodo S.O.R.
L

= (DE)
1
((1 )D+F) = (I D
1
E)
1
((1 )I +D
1
F) = (I L)
1
((1 )I +U)
Observacion: D
1
A = D
1
(D E F) = I L U.
Vamos a ver una condicion necesaria para que el radio espectral de la matriz del metodo S.O.R. sea
menor que la unidad.
Teorema 5.2 Para toda matriz A, el radio espectral de la matriz del metodo de relajacion S.O.R. es
superior o igual a | 1| en consecuencia una condicion necesaria para que el metodo sea convergente es
0 < < 2.
Demostracion: Los valores propios de la matriz L

del metodo de relajacion verican la relacion

N
i=1

i
(L

) = det(L

) =
det(
1

D +F)
det(
D

E)
=
(
1

)
N
a
ii
(
1

)
N
a
ii
= (1 )
N
72 Metodos iterativos para la resolucion de sistemas de ecuaciones lineales
y como por otra parte
(L

) |
i
|
lo que implica

N
(L

)
N
i=1
|
i
| = | 1|
N
resulta nalmente
(L

) | 1|

Corolario 5.1 Para toda matriz A, una condicion necesaria de convergencia del metodo de S.O.R. es
0 < < 2
5.2.1. Matrices a diagonal dominante
Denicion 5.1 Una matriz A de orden N se llama estrictamente diagonal dominante si
|a
ii
| >
N

j = 1
j = k
|a
ij
| para i = 1, ..., N
Teorema 5.3 Si A es una matriz de orden N estrictamente diagonal dominante entonces es no singular.
Demostracion: Consideremos el sistema de ecuaciones
Ax = 0
y veamos que tiene como unica solucion x = 0.
Por reduccion al absurdo, supongamos que x = [x
1
, ..., x
N
]
t
es una solucion distinta de cero. En este
caso para alg un k, 0 < |x
k
| = max
1jN
|x
j
|
Como

N
j=1
a
ij
x
j
= 0 para todo i = 1, ..., N, tomando i = k resulta
a
kk
x
k
=
N

j = 1
j = k
a
kj
x
j
de donde
|a
kk
||x
k
|
N

j = 1
j = k
|a
kj
||x
j
|
5.2 Estudio de la convergencia de los metodos de Jacobi, Gauss-Seidel y S.O.R. 73
es decir
|a
kk
|
N

j = 1
j = k
|a
kj
|
|x
j
|
|x
k
|

N

j = 1
j = k
|a
kj
|
en contradicion con la propiedad de A de ser estrictamente diagonal dominante.
Teorema 5.4 Sea A, matriz de orden N estrictamente diagonal dominante. Entonces el metodo de Jacobi
para resolver un sistema de ecuaciones lineales asociado a dicha matriz es convergente.
Demostracion: La matriz de iteracion para el metodo de Jacobi es B = D
1
(E + F) = L + U.
Demostraremos que ||B||

< 1. En efecto,
B = L +U =
_

_
0
a
12
a
11
... ...
a
1N
a
11

a
21
a
22
0 ... ...
a
2N
a
22
... ... ...

a
N1
a
NN

a
N2
a
NN
... ... 0
_

_
de donde
||B||

= max
1iN
N

j = 1
j = k
|a
ij
/a
ii
| = max
1iN

j=i
|a
ij
|
|a
ii
|
< 1
pues A es estrictamente diagonal dominante.
Teorema 5.5 Sea A una matriz estrictamente diagonal dominante, entonces el metodo de Gauss-Seidel
para resolver un sistema de ecuaciones lineales asociado a dicha matriz es convergente.
Demostracion: La matriz asociada a la iteracion de Gauss-Seidel es
L
1
= (D E)
1
F = (I L)
1
U
Para determinar el radio espectral de L
1
, calcularemos primero los valores propios, es decir, las races del
polinomio caracterstico
p() = det(I L
1
) = 0
Observando que det(I L) = 1 resulta
p() = det(I L)det(I L
1
)
= det(I L)det(I (I L)
1
U)
= det((I L) U)
= det((I L
U

))
=
N
det(I L
U

)
74 Metodos iterativos para la resolucion de sistemas de ecuaciones lineales
de donde p() = 0 si = 0 o bien si det(I L
U

) = 0.
Queremos demostrar que todas las races de p() = 0 verican || < 1. Supongamos por reduccion
al absurdo que existe al menos una raiz tal que || 1. Entonces por una parte det(I l
U

) = 0
y por otra parte como A = D E F es estrictamente diagonal dominante, tambien lo es I L U
y lo ser a tambien I L
U

si || 1. Por lo tanto I L
U

es no singular en contradiccion con


det(I L
U

) = 0.
5.2.2. Matrices hermticas y denidas postivas
Teorema 5.6 Sea A hermtica y denida positiva, descompuesta de la forma A = M N con M no
singular. Si la matriz hermtica M

+N es denida positiva, entonces B = M


1
N = I M
1
A verica
(B) < 1.
Demostracion: M

+N es efectivamente hermtica, en efecto, M

+N = A

+N

+N = A+N

+N =
M +N

.
Vamos a demostrar que ||M
1
N|| < 1 para la norma matricial subordinada a la norma vectorial
||.|| : v (Av, v)
1/2
que es una norma pues A es hermtica y denida positiva.
Como
||M
1
N|| = ||I M
1
A|| = sup
||v||=1
||v M
1
Av||
y la aplicacion
v ||v M
1
Av||
denida en el conjunto compacto {v C
N
; ||v|| = 1} es continua, alcanza su valor maximo para alg un v
determinado de dicho conjunto. Veamos ahora que para ||v|| = 1, ||vM
1
Av|| < 1. En efecto, denotamos
w = M
1
Av y calculemos ||v w||
||v M
1
Av||
2
= ||v w||
2
= (Av, v) (Av, w) (Aw, v) + (Aw, w)
teniendo en cuenta que Av = Mw y que A es hermtica, resulta (Av, w) = (Mw, w) y (Aw, v) = (M

w, w),
de donde
||v M
1
Av||
2
= 1 ((M

+N)w, w)
y puesto que si v = 0 y M y A son no singulares, w = M
1
Av = 0, ademas como M

+ N es denida
positiva ((M

+N)w, w) > 0 resultando nalmente ||v M


1
Av|| < 1 y (M
1
N) < 1.
5.2 Estudio de la convergencia de los metodos de Jacobi, Gauss-Seidel y S.O.R. 75
Corolario 5.2 Si A es hermtica y denida positiva el metodo S.O.R. por punto o por bloques converge
si y solo si 0 < < 2.
Demostracion: En el metodo S.O.R. la descomposicion A = MN es M =
D

E, N =
1

D+F.
De manera que
M

+N =
D

+
1

D +F
como A es hermtica D = D

y F = E

de modo que
M

+N =
2

D
Solo resta vericar que D es denida positiva. En efecto, sean A
ii
, i = 1, ..., p los bloques de D. Cada
bloque es denido positivo pues, para v
i
= 0
(A
ii
v
i
, v
i
) = (A v
i
, v
i
) > 0
donde v
i
se obtiene prolongando v
i
con coordenadas nulas hasta obtener el correspondiente vector de
dimension N. Finalmente
(Dv, v) =
p

i=1
(A
ii
v
i
, v
i
) > 0
La matriz M

+N =
2

D es pues denida positiva si y solo si 0 < < 2.


Ejercicios
1. Considerar la matriz
A =
_

_
2 1 ... 0
1 2 ... 0
...
0 ... 1 2
_

_
que aperece al aproximar mediante diferencias nitas la ecuacion diferencial
u

= f en [a, b]
u(a) = u(b) = 0
Demostrar que el metodo S.O.R. con 0 < < 2, y el metodo de Jacobi convergen al resolver
sistemas asociados a esta matriz.
5.2.3. Comparacion de los metodos de Jacobi y Gauss-Seidel. B usqueda del
parametro de relajacion optimo en el metodo S.O.R.
Teorema 5.7 Sea A una matriz tridiagonal con bloques diagonales no singulares. Entonces los radios
espectrales de las matrices de iteracion del metodo de Jacobi y Gauss-Seidel por bloques estan relacionados
por
(L
1
) =
2
(J)
76 Metodos iterativos para la resolucion de sistemas de ecuaciones lineales
de manera que los dos metodos convergen o divergen simultaneamente y si convergen el metodo de
Gauss-Seidel converge mas rapidamente que el metodo de Jacobi.
Empezaremos demostrando un lema.
Lema 5.1 Sea A una matriz tridiagonal por bloques de orden N.
A =
_

_
A
11
A
12
0 ... ... 0
A
21
A
22
A
23
0 ... 0
0 A
32
A
33
A
34
... 0
... ... ... ... ... ...
0 ... ... ... A
p1,p1
A
p1,p
0 ... ... ... A
p,p1
A
p,p
_

_
donde cada bloque A
ii
es una matriz de orden n
i
y

p
i=1
n
i
= N. Sea ahora la descomposicion por
bloques A = D E F donde D es la diagonal de bloques
_

_
A
11
0 ... 0
0 A
22
... 0
... ... ... ...
0 ... 0 A
pp
_

_
y E y F la parte triangular inferior y superior respectivamente excluida la diagonal. Sea un n umero
no nulo y llamemos A() = D E
1

F entonces
det(A()) = det(A)
Demostracion: Tenemos
A() =
_

_
A
11
1

A
12
0 ... ... 0
A
21
A
22
1

A
23
0 ... 0
0 A
32
A
33
1

A
34
... 0
... ... ... ... ... ...
0 ... ... ... A
p1,p1
1

A
p1,p
0 ... ... ... A
p,p1
A
p,p
_

_
y consideremos la matriz
S =
_

_
I
1
0 ... 0
0
2
I
2
... 0
... ... ... ...
0 ... 0
p
I
p
_

_
donde I
i
es la matriz unidad de orden n
i
.
det(S) = det(I
1
)det(
2
I
2
)....det(
p
I
p
) =
(n
1
+2n
2
+...+pn
p
)
5.2 Estudio de la convergencia de los metodos de Jacobi, Gauss-Seidel y S.O.R. 77
por otra parte
S
1
=
_

1
I
1
0 ... 0
0
2
I
2
... 0
... ... ... ...
0 ... 0
p
I
p
_

_
det(S
1
) =
(n
1
+2n
2
+...+pn
p
)
Veamos que A() = SAS
1
, en efecto
(SAS
1
)
ij
=
p

k,l=1
S
il
A
kl
S
1
lj
=

i

j
A
ij
de modo que
Para j = i (SAS
1
)
ii
= A
ii
Para j = i 1 (SAS
1
)
i,i1
= A
i,i1
Para j = i + 1 (SAS
1
)
i,i+1
=
1

A
i,i+1
de donde nalmente
det(A()) = det(S)det(A)det(S
1
) = det(A)

Demostracion del teorema


La matriz de iteracion del metodo de Jacobi es J = D
1
(E+F) y sus valores propios son las races
de la ecuacion
P
J
() = det(I D
1
(E +F)) = 0
y tambien
det(D)P
J
() = det(D)det(I D
1
(E +F)) = det(D E F) = 0
por lo tanto los valores propios de J son las races de la ecuacion
det(D E F) = 0
La matriz de la iteracion del metodo de Gauss-Seidel es L
1
= (D E)
1
F y sus valores propios
son las races de la ecuacion
P
L
1
() = det(I (D E)
1
F) = 0
y tambien
det(D E)P
L
1
() = det(D E)det(I (D E)
1
F) = det(D E F) = 0
78 Metodos iterativos para la resolucion de sistemas de ecuaciones lineales
de donde
det(D E)P
L
1
() = det(

E
1

F)) = 0
es decir, los valores propios de L
1
son las races de la ecuacion
(

)
N
det(

D E F) = 0
donde hemos aplicado el lema anterior.
Comparando las dos ecuaciones, la que nos da los valores propios de J y de L
1
vemos que si es un valor
propio de L
1
entonces

lo es de J y tambien si es valor propio de J,


2
lo es de L
1
y de ah que
(L
1
) =
2
(J)

Teorema 5.8 : Comparacion de los metodos de Jacobi y S.O.R.


Sea A una matriz tridiagonal por bloques con det(A
ii
) = 0 y tal que todos los valores propios de la
matriz de iteracion de Jacobi sean reales. Entonces el metodo de Jacobi por bloques y el metodo S.O.R.
por bloques para 0 < < 2 convergen o divergen simultaneamente. Cuando convergen, la funcion
]0, 2[(L

)
tiene la forma indicada en la gura, donde
opt
=
2
1+

1
2
(J)
Demostracion: Hemos visto anteriormente que para el metodo de Jacobi, los valores propios de
la matriz de iteracion J = D
1
(E +F) estan caracterizados por
P
J
() = 0 det(D E F) = 0
Por otra parte para el metodo S.O.R. los valores propios de la matriz de iteracion
L

= (
D

E)
1
(
1

D +F)
son las soluciones de
P
L

() = det(I (
D

E)
1
(
1

D +F)) = 0
y de
det(
D

E)P
L

() = det((
D

E) (
1

D +F)) = 0
o bien de
det(
+ 1

D E F) = 0
5.2 Estudio de la convergencia de los metodos de Jacobi, Gauss-Seidel y S.O.R. 79
sacando factor com un

y aplicando el lema anterior

N/2
det(
+ 1

D E F) = 0
En resumen: Si es valor propio de J entonces es valor propio de L

si se verica la relacion
+ 1

=
es decir
( + 1)
2
=
2

2
Vamos a estudiar la funcion = (, ) para cada valor de 0. es solucion de la ecuacion de
segundo grado

2
(
2

2
2 + 2) + ( 1)
2
= 0 (5.1)
cuyas races son

1
=
(
2

2
2 + 2) +

2
4 + 4
2
y

2
=
(
2

2
2 + 2)

2
4 + 4
2
1. consideramos el caso (J) 1, es decir, existe al menos un valor propio 1. Entonces

1

1
2
(
2
2 + 2) +

2
_

2
4 + 4
=

2
2
+ 1 +

2
2
= 1
por lo tanto (L

) 1.
2. Consideramos el caso (J) < 1. Es decir para todo valor propio 0, < 1. Estudiemos el valor
de las races
1
y
2
en funcion de para 0 jo. Empecemos estudiando para que valores
de las races son reales o complejas. Para ello observemos que las races del discriminante de la
ecuacion de segundo grado (5.1) son

0
=
2

4 4
2

2
=
2
1 +

1
2

1
=
2 +

4 4
2

2
=
2
1

1
2
(ver gura)
Tenemos pues, 1 <
0
< 2 <
1
.
80 Metodos iterativos para la resolucion de sistemas de ecuaciones lineales
a) Estudiemos (, ) para
0
< < 2. En este caso
1
y
2
son complejos conjugados y
|
1
| = |
2
|. Como |
1
||
2
| = ( 1)
2
, resulta |
1
| = |
2
| = 1. (Ver gura)
b) Para 0 < <
0
,
1
y
2
son reales y consideremos
1
que es el valor propio de mayor valor
absoluto. Los valores de
1
y

1
(donde la derivada es respecto a ) en funcion de distintos
valores son para un valor jo de son
0 1
0
1
2

0
1

1
1
Ejercicios
1. Considerar un sistema de ecuaciones
Ax = b
asociado a la matriz
A =
_
1 a
a 1
_
a) Calcular la matriz J correspondiente a la iteracion de Jacobi .
b) Calcular para que valores de a el metodo de Jacobi sera convergente.
c) Calcular la matriz L

correspondiente al metodo S.O.R. .


d) Para que valores del parametro de relajacion y para que valores de a el metodo S.O.R.
sera convergente ?
e) Calcular el para metro optimo
op
del metodo S.O.R. en funcion de a. Cual es el radio
espectral
L

op
correspondiente al metodo S.O.R. con este valor optimo del parametro de
relajacion ?
2. Considerar el siguiente sistema de ecuaciones
4x
1
+ 3x
2
= 24
3x
1
+ 4x
2
x
3
= 30
x
2
+ 4x
3
= 24
(5.2)
a) Hallar la matriz de iteracion correspondiente al metodo de Jacobi.
b) Demostrar que el metodo de Jacobi es convergente para resolver este sistema.
c) Estimar la velocidad asintotica de convergencia del metodo de Jacobi.
d) Estimar la velocidad asintotica de convergencia del metodo de Gauss-Seidel.
e) Calcular el valor optimo del parametro de relajacion del correspondiente metodo S.O.R.
f ) Estimar la velocidad asintotica de convergencia del metodo S.O.R. con parametro optimo.
g) Estimar el n umero mnimo de iteraciones que hay que realizar con el metodo de Jacobi, con el
metodo de Gauss-Seidel y con el metodo S.O.R. con parametro optimo para obtener la solucion
con un error relativo menor que 0,001.
h) Resolver el sistema utilizando los tres metodos anteriores y comparar los resultados.
Captulo 6
Optimizacion sin restricciones
6.1. Fundamentos de la optimizacion
6.1.1. Introduccion
En el espacio eucldeo R
d
con la norma eucldea que denotamos ||.|| y que deriva del correspondiente
producto escalar que denotaremos mediante (., .), consideremos
K un subconjunto cerrado de R
d
J : K R una funcion sobre K
Consideraremos el problema siguiente: Hallar u K tal que
J(u) = nf
vK
J(v)
Si K = R
d
el problema anterior se llama de optimizacion sin restricciones.
En que condiciones el problema anterior tiene solucion?
Si tiene soluci on es esta unica?
Se dice que u realiza el mnimo global de J.
Vamos a tratar de responder a las anteriores preguntas.
Teorema 6.1 de Weierstrass
Sea K un conjunto compacto de R
d
, no vaco y J : K R continua en K. Entonces el problema:
81
82 Optimizacion sin restricciones
Hallar u K tal que
J(u) = nf
vK
J(v)
tiene solucion.
Demostracion:
K compacto y J continua implica que J(K) es compacto en R, por tanto J(K) esta acotado inferior-
mente y existe un extremo inferior, es decir, existe un n umero > tal que =nf
vK
J(v).
Consideremos una sucesion minimizante (u
n
)
n
, es decir, u
n
K tal que J(u
n
)
n
. Una tal
sucesion la podemos siempre construir tomando por ejemplo 0 < < 1, u
n
K tal que
J(u
n
) +
n
(u
n
)
n
es una sucesion en el compacto K, por lo tanto existe una subsucesion convergente (u

. Sea
u el lmite de (u

). Gracias a la continuidad de J(.) tendremos = lm

J(u

) = J(u).
Una variante del anterior teorema de Weierstrass es el siguiente:
Teorema 6.2 Sea J : R
d
R continua, vericando la propiedad (coercividad)
lm
||v||
J(v) =
Entonces existe u R
d
tal que
J(u) = nf
vR
J(v)
Demostracion:
Llamemos = nf
vR
d J(v). En principio pordra tomar el valor . Consideremos una sucesion
(u
n
)
n
minimizante de elementos de R
d
, es decir,
J(u
n
) nf
vR
d
J(u) =
J(u
n
) +
n
si es nito y si = entonces tomaremos u
n
de modo que J(u
n
) .
La sucesion (u
n
)
n
esta acotada, pues si no fuera as, resultara
lm
||u
n
||
J(u
n
) =
en contra de la eleccion de (u
n
)
n
.
6.1 Fundamentos de la optimizacion 83
Podemos pues extraer una subsucesion convergente. Sea (u

tal que lmu

= u; como J es continua
resulta lmJ(u

) = J(u) y es un n umero nito.


Ejercicio: Dar 3 contraejemplos en los que el problema anterior no tenga solucion debido a que:
1. K no sea compacto.
2. J no sea continua.
3. J no sea coerciva.
6.1.2. Extremos relativos y diferenciabilidad
En este apartado consideraremos la nocion de extremo relativo y la relacionaremos con las nociones
de diferencial.
Denicion 6.1 Sea A R
d
un conjunto abierto y J : A R. Se dice que J(.) tiene un mnimo relativo
en u A si existe un entorno U de u tal que
v U J(u) J(v)
An alogamente J(.) tiene un maximo relativo en u A si existe un entorno U de u tal que
v U J(u) J(v)
Teorema 6.3 Condicion necesaria de extremo relativo
A abierto de R
d
, J : A R diferenciable en A. Si J(.) tiene un extremo relativo en u A (maximo o
mnimo) entonces la diferencial de J(.) en u es la aplicacion nula, es decir, DJ(u) = 0, o bien identicando
DJ(u) con un elemento de R
d
,
(DJ(u), v) = 0 v R
d
Nota 6.1 Referido a la base canonica de R
d
el vector de R
d
, DJ(u) se escribira J

(u), es decir, la matriz


Jacobiana de J(.) en el punto u. en este caso la matriz jacobiana en un matriz la. La transpuesta de
esta matriz es un vector columna que se suele llamar vector gradiente de J() en u y se escribe J(u).
Cuando identiquemos DJ(u) con un vector de R
d
escribiremos indistintamente (DJ(u), v) o (J(u), v).
Demostracion:
Caso d = 1: Sea A abierto de R, u A, f : A R R, f(u) f(v) v U, entorno de u.
Tendremos, por ejemplo
f

(u) = lm
h0
+
f(u +h) f(u)
h
0
84 Optimizacion sin restricciones
f

(u) = lm
h0

f(u +h) f(u)


h
0
de donde f

(u) = 0.
Caso general d > 1
Fijemos h con norma sucientemente peque na de modo que u+th U t ]1, +1[. Introducimos
ahora la funcion
f :] 1, +1[R
t J(u +th)
Sea f = J g donde
g : R R
d
t u +th
Si J tiene un mnimo relativo en u, es decir, J(u) J(u +th), entonces f(0) f(t) t ] 1, 1[.
Resulta f(.) tiene un mnimo relativo en 0 y por lo tanto f

(0) = 0, es decir, aplicando la regla de


la cadena
f

(t) = DJ(g(t)) Dg(t) = J

(u +th).g

(t) = J

(u +th).h
de modo que
f

(0) = J

(u).h = 0
Como la direccion h es cualquiera resulta J

(u) = 0.
Vamos ahora a tener en cuenta las derivadas segundas, para obtener una condicion necesaria y su-
ciente de mnimo relativo.
Teorema 6.4 Condicion necesaria de mnimo relativo.
Sea A un abierto de R
d
, J : A R dos veces diferenciable en u A; Entonces si J(.) admite un
mnmo relativo en u, entonces la diferencial segunda de J(.) en u verica,
D
2
J(u)(u, u) 0 h R
d
o de manera equivalente, la matriz Hessiana de J(.) en u es semidenida positiva.
Demostracion:
Utilizaremos el desarrollo de Taylor con resto de Taylor-Young.
J(u +h) = J(u) +DJ(u)(h) +
1
2
D
2
J(u)(h, h) +(h)||h||
2
donde (h)
h0
0. Como DJ(u) = 0 resulta,
0 J(u +h) J(u) =
1
2
D
2
J(u)(h, h) +(h)||h||
2
6.1 Fundamentos de la optimizacion 85
Sustituyendo h por th con t R de modo que u +th A
0 J(u +th) J(u) =
t
2
2
(D
2
J(u)(h, h) + 2(th)||h||
2
)
Dividiendo por
t
2
2
0 D
2
J(u)(h, h) + 2(th)||h||
2
pasando al lmite cuando t 0, (th) 0 lo que implica D
2
J(u)(h, h) 0.
Vamos a buscar ahora condiciones sucientes de mnimo relativo. Necesitamos primero una denicion
y un lema.
Denicion 6.2 Sea B : R
d
R
d
R una aplicacion bilineal. Se dice que B es denida positiva si
B(v, v) 0 v R
d
y
B(v, v) = 0, si y solo si v = 0
Lema 6.1 Sea B : R
d
R
d
R una aplicacion bilineal y denida positiva, entonces existe una constante
> 0 tal que
B(v, v) ||v||
2
Demostracion:
Consideremos el conjunto S = {v R
d
; ||v|| = 1} que es compacto (cerrado y acotado) y la aplicacion
J : v J(v) = B(v, v) que es continua sobre el compacto S. entonces alcanza el mnmo en el compacto
(teorema de Weierstrass). Sea u el punto donde alcanza este mnimo, es decir,
= J(u) = mn
vS
J(v)
tendremos = 0 pues u S u = 0. Finalmente v R
d
v = 0,
v
||v||
S y
J(
v
||v||
) = B(
v
||v||
,
v
||v||
) B(v, v) ||v||
2
.
Teorema 6.5 Condicion suciente de mnimo relativo.
Sea A abierto de R
d
y J : A R dos veces diferenciable, tal que DJ(u) = 0 en u A.
Si la funcion J(.) es tal que su diferencial segunda en u es denida positiva entonces J tiene un mnimo
relativo en u.
86 Optimizacion sin restricciones
Demostracion:
Consideremos el desarrollo de Taylor-Young en un entorno de u.
J(u +h) = J(u) +DJ(u)(h) +
1
2
D
2
J(u)(h, h) +(h)||h||
2
donde (h)
h0
0
J(u +h) J(u) =
1
2
D
2
J(u)(h, h) +(h)||h||
2
J(u +h) J(u)
1
2
||h||
2
+(h)||h||
2
J(u +h) J(u)
1
2
( + 2(h))||h||
2
Para ||h|| sucientemente pequeo tendremos
1
2
( + 2(h)) > 0, es decir J(u +h) J(u) 0.
Ejercicio: vericar que J : A R donde
A = {(x, y) R
2
x
2
+y
2
< 1}
J(x, y) = log(x
2
+y
2
+ 1)
tiene un mnimo relativo en (0, 0).
6.1.3. Extremos y convexidad
Vamos a introducir la convexidad en el estudio de los extremos de funciones. Recordemos primero las
nociones de conjunto convexo y de funcion convexa.
Denicion 6.3 Conjunto convexo.
Un conjunto K R
d
se dice que es convexo si
u, v K, se verica u + (1 )v K [0, 1]
Denicion 6.4 Funcion convexa y estrictamente convexa.
Sea K R
d
un conjunto convexo. Una funcion J : K R
d
R se dice que es convexa en K, si
para todo [0, 1] y para todo u, v K se verica
J(u + (1 )v) J(u) + (1 )J(v)
Adem as se dice que la funcion es estrictamente convexa si para todo ]0, 1[ y para todo u, v K se
verica
J(u + (1 )v) < J(u) + (1 )J(v)
Vamos a estudiar ahora algunas propiedades de la funciones convexas y diferenciables.
6.1 Fundamentos de la optimizacion 87
Teorema 6.6 Sea J : A R
d
R donde A es un abierto de R
d
. Sea K una parte convexa de A.
1. J(.) es convexa en K si y solo si
J(v) J(u) + (J(u), v u) u, v K
2. J(.) es estrictamente convexa en K si y solo si
J(v) > J(u) + (J(u), v u) u, v K
Ejercicio: Interpretar geometricamente las anteriores desigualdades.
Demostracion:
1. Si J(.) es convexa en K y u, v K entonces para ]0, 1[
u +(v u) K
J(u +(v u)) (1 )J(u) +J(v)
J(u +(v u)) J(u) (J(v) J(u))
J(u +(v u)) J(u)

J(v) J(u)
haciendo 0
+
(J(u), v u) J(v) J(u)
Recprocamente, sea J(.) vericando
J(v) J(u) + (J(u), v u) v, u K
Sea ]0, 1[ y tomemos primero en el lugar de u, v +(u v), resulta
J(v) J(v +(u v)) (J(v +(u v)), u v)
Ahora en el lugar de v tomemos u y en el lugar de u tomemos v +(u v), resulta
J(u) J(v +(u v)) + (1 )(J(v +(u v)), u v)
Multiplicando la primera por (1 ) y la segunda por y sumando
(1 )J(v) +J(u) J(v +(u v))
es decir
J(u + (1 )v) J(u) + (1 )J(v)
88 Optimizacion sin restricciones
2. Si J(.) es estrictamente convexa, el razonamiento anterior no es aplicable pues la desigualdad estricta
se pierde al pasar al lmite. Procedemos entonces de la siguiente manera: Sea ]0, 1[ y ]0, 1[
vericando > , resulta
u +(v u) = u

u +

u +(v u) =

u +

(u +(v u))
de donde
J(u +(v u)) = J(

u +

(u +(v u))

J(u) +

J(u +(v u))


J(u +(v u)) J(u)

(J(u +(v u) J(u))


J((u +(v u)) J(u)


J(u +(v u)) J(u)

<
(1 )J(u) +J(v) J(u)

= J(v) J(u)
pasando al lmite cuando 0, resulta
(J(u), v u)
J(u +(v u)) J(u)

< J(v) J(u)


La recproca es identica al caso anterior.

Corolario 6.1 Sea J : R


d
R una funcion convexa y diferenciable en u tal que J(u) = 0. Entonces
J(.) admite un mnimo en u.
Demostracion:
J(.) convexa y diferenciable implica
J(v) J(u) + (J(u), v u) v R
d
es decir,
J(v) J(u) v R
d

Ejercicios
1. Estudiar los puntos crticos (puntos u donde J(u) = 0) de las funciones
J(x, y) = e
1+x
2
+y
2
6.2 Metodos de gradiente 89
J(x, y, z) = x
2
+y
2
+z
2
+xy
J(x, y) = x
4
+y
4
J(x, y) = x
2
2xy + 2y
2
2. Sea R
2
y J : R una funcion diferenciable en y sea DJ(a) = 0 donde a . Supongamos
ademas que existe D
2
J(a) siendo la matriz Hessiana
H(a) =
_
r s
s t
_
.
Demostrar que si r > 0 y rt s
2
> 0 entonces J(.) tiene un mnimo local en a
6.2. Metodos de gradiente
6.2.1. Metodo de gradiente para la minimizacion sin restricciones
Sea J : R
d
R diferenciable. Consideraremos el problema siguiente: Hallar u R
d
tal que
J(u) = nf
vR
d
J(v)
El metodo de gradiente es
1. u
0
R
d
, arbitrario
2. Conocido u
n
se calcula u
n+1
de la siguiente manera
u
n+1
= u
n

n
J(u
n
)
Nota 6.2 d
n
= u
n
es la direccion de maximo descenso local. En efecto,
J(u
n
+
n
d
n
) = J(u
n
) +
n
(J(u
n
), d
n
) +...
J(u
n
+
n
d
n
) J(u
n
)
n
(J(u
n
), d
n
)
El termino (J(u
n
), d
n
) para ||d
n
|| = 1 toma el valor maximo si d
n
=
J(u
n
)
||J(u
n
)||
Analizaremos la convergencia del anterior metodo en el caso de funciones elpticas, es decir,
90 Optimizacion sin restricciones
Denicion 6.5 Funcion elptica
Una funcion J : R
d
R, es elptica si es diferenciable con continuidad y existe > 0 tal que
(J(v) J(u), v u) ||v u||
2
, u, v R
d
Teorema 6.7 Sea J : R
d
R una funcion derivable en R
d
tal que
> 0 (J(v) J(u), v u) ||v u||
2
, u, v R
d
||J(v) J(u)|| ||v u|| u, v R
d
Entonces el problema de optimizacion: Hallar u R
d
tal que
J(u) = nf
vR
d
J(v)
tiene solucion unica y existen dos n umeros a y b tales que para todo n 0 verican
0 < a
n
b <
2

2
de modo que el metodo de gradiente antes descrito es convergente.
Para realizar la demostracion necesitamos conocer algunas propiedades de las funciones elpticas.
Lema 6.2 Una funcion J : R
d
R elptica verica la siguiente desigualdad,
J(v) J(u) (J(u), v u) +

2
||v u||
2
u, v R
d
y por tanto es estrictamente convexa.
Demostracion:
J(v) J(u) =
_
1
0
(J(u +t(v u)), v u)dt
en efecto, la anterior igualdad no es mas que
f(1) f(0) =
_
1
0
f

(t)dt
para la funcion f : R R denida por
f(t) = J(u +t(v u)) u, v R
d
6.2 Metodos de gradiente 91
resulta pues,
J(v) J(u) = (J(u), v u) +
_
1
0
(J(u +t(v u) J(u), (v u))dt
= (J(u), v u) +
_
1
0
1
t
(J(u +t(v u) J(u), t(v u))dt
(J(u), v u) +
_
1
0
t||v u||
2
dt = (J(u), v u) +

2
||v u||
2

Teorema 6.8 Si J(.) es una funcion elptica el problema de encontrar u R


d
tal que
J(u) = nf
vR
d
J(v)
tiene solucion unica y se verica
J(u) = 0
Demostracion:
Si J(.) es elptica verica
lm
||v||
J(v) =
en efecto,
J(v) J(u) (J(u), v u) +

2
||v u||
2
u, v R
d
en particular, tomando u = 0
J(v) J(0) + (J(0), v) +

2
||v||
2
J(0) ||J(0)||||v|| +

2
||v||
2
La variante del teorema de Weierstrass nos da la existencia de solucion. La unicidad se obtiene utilizando
la convexidad estricta de J(.). En efecto, supongamos que u
1
y u
2
son dos soluciones. Por la convexidad
estricta
J(
u
1
+u
2
2
) <
1
2
J(u
1
) +
1
2
J(u
2
)
Si = J(u
1
) = J(u
2
) =nf(J(v), entonces J(
u
1
+u
2
2
) < y u
1
y u
2
no podran ser soluciones.
Finalmente, la solucion unica u, es tambien un mnimo relativo, por tanto verica J(u) = 0.
Estamos en condiciones de demostrar el teorema de convergencia del algoritmo de gradiente.
Demostracion del teorema de convergencia: El algoritmo de gradiente es
92 Optimizacion sin restricciones
1. u
0
R
d
, arbitrario
2. Conocido u
n
se calcula u
n+1
de la siguiente manera
u
n+1
= u
n

n
J(u
n
)
por otra parte, si u es solucion, tenemos J(u) = 0 es decir,
u = u
n
J(u)
de donde
||u u
n+1
||
2
= ||u u
n

n
(J(u) J(u
n
))||
2
= ||u u
n
||
2
2
n
(J(u) J(u
n
), u u
n
) +
2
n
||J(u) J(u
n
||
2
= ||u u
n
||
2
2
n
||u u
n
||
2
+
2

2
n
||u u
n
||
2
= (1 2
n
+
2

2
n
)||u u
n
||
2
siempre podemos elegir
n
de modo que
(
n
) = (1 2
n
+
2

2
n
) < 1
en efecto, la funcion
() : 1 2 +
2

2
alcanza su valor mnimo en
min
=

2
y tenemos 0 < (
min
) < 1, por tanto siempre existen dos n umeros
a y b tales que , si elegimos a <
n
< b, y denotamos mediante = max{(a), (b)} < 1 resulta
||u u
n+1
|| ||u u
n
||
de donde
||u u
n
||
n
||u u
0
||
n
0
La convergencia es al menos lineal, pues
lm
n
||u u
n+1
||
||u u
n
||
< 1

6.2.2. Metodo del gradiente con paso optimo


El metodo de gradiente con paso optimo nos da un criterio para elegir el valor de
n
en cada iteracion.
El algoritmo es el siguiente:
1. u
0
R
d
, arbitrario
6.2 Metodos de gradiente 93
2. Conocido u
n
se calcula u
n+1
de la siguiente manera: Se calcula
n
= (u
n
) resolviendo el problema
de minimizacion de una variable real
J(u
n

n
J(u
n
)) = nf
R
J(u
n
J(u
n
))
obtenido
n
se calcula u
n+1
mediante
u
n+1
= u
n

n
J(u
n
)
Teorema 6.9 Sea J : R
d
R elptica y diferenciable con continuidad, entonces el metodo de gradiente
con paso optimo es convergente.
Demostracion:
Supongamos que J(u
n
) = 0 (en caso contrario el metodo sera convergente en un n umero nito de
pasos. Consideremos la funcion
f : R J(u
n
J(u
n
)) R
se comprueba sin gran dicultad
f(.) es estrictamente convexa.
f(.) verica lm

f() =
f

() = (J(u
n
J(u
n
)), J(u
n
))
por tanto el problema de hallar
n
= (u
n
) tal que
f(
n
) = nf
R
f()
tiene solucion unica y esta caracterizada por
f

(
n
)) = 0
es decir
(J(u
n

n
J(u
n
)), J(u
n
)) = 0
o bien
(J(u
n+1
)), J(u
n
)) = 0
por tanto las direcciones de descenso consecutivas son ortogonales. A partir de aqu la demostracion se
realiza en cinco etapas.
1. lm
n
(J(u
n
) J(u
n+1
)) = 0
94 Optimizacion sin restricciones
2. lm
n
||u
n
u
n+1
|| = 0
3. ||J(u
n
)|| ||J(u
n
) J(u
n+1
)||
4. lm
n
||J(u
n
|| = 0
5. lm
n
||u
n
u|| = 0
Demostracion:
1. La sucesion (J(u
n
))
n
es decreciente por construccion y acotada inferiormente por J(u). Por lo
tanto es convergente, en consecuencia,
lm
n
(J(u
n
) J(u
n1
)) = 0
2. Tenemos, seg un se ha visto en el teorema anterior (J(u
n+1
), J(u
n
) = 0. Como u
n+1
= u
n

(u
n
)J(u
n
), resulta
(J(u
n+1
), u
n
u
n+1
) = 0
Por otra parte, la elipticidad de J(.) implica
J(u
n
) J(u
n+1
) + (J(u
n+1
), u
n
u
n+1
) +

2
||u
n
u
n+1
||
2
de donde
J(u
n
) J(u
n+1
)

2
||u
n
u
n+1
||
2
de la parte 1 deducimos
lm
n
||u
n
u
n+1
|| = 0
3. Por la ortoganilidad de J(u
n
) y de J(u
n+1
) resulta
||J(u
n
)||
2
= (J(u
n
), J(u
n
) J(u
n+1
))
||J(u
n
)||.||J(u
n
) J(u
n+1
)||
de donde se obtiene 3) dividiendo ambos miemros de la desigualdad por ||J(u
n
)||
4. La sucesion (J(u
n
))
n0
es acotada. Como J(.) verica lm
||v||
J(v) = , la sucesion (u
n
)
n
esta acotada y se puede incluir en un conjunto compacto. Por otra parte J(.) es diferenciable con
continuidad, es decir, la aplicacion
DJ(.) : v R
d
DJ(v) L(R
d
; R)
es continua. O dicho de otra forma la aplicacion
J(.) : v R
d
J(v) R
d
6.2 Metodos de gradiente 95
es continua. Por tanto sobre los conjuntos compactos es uniformemente continua. En consecuencia
lm
n
||J(u
n
)|| lm
n
||J(u
n
) J(u
n+1
)||
= lm
||u
n
u
n+1
||0
||J(u
n
) J(u
n+1
)|| = 0
5.
||u
n
u||
2
(J(u
n
) J(u), u
n
u)
= (J(u
n
), u
n
u)
||J(u
n
||||u
n
u||
de donde nalmente
||u
n
u||
1

||J(u
n
)||
y nalmente
lm
n
||u
n
u|| = 0

Ejercicios
1. Sea J : R
d
R dos veces diferenciable en R
d
. Demostrar:
a) J(.) es convexa si y solo si la diferencial segunda en todo punto, D
2
J(u), es semidenida
positiva, es decir,
D
2
J(u)(v, v) 0 v R
d
, u R
d
b) Si la diferencial segunda en todo punto u R
d
es denida positiva, es decir,
D
2
J(u)(v, v) > 0 v R
d
, u R
d
entonces, J(.) es estrictamente convexa.
c) Encontrar un ejemplo sencillo que permita asegurar que el recproco de 2) no es cierto.
2. Considerar la funcion
J : R
2
R
2
(x, y) (x 2)
4
+ (x 2y)
2
y considerar el problema
Hallar u = (x, y) tal que
J(u) = nf
vR
2
J(v)
a) Demostrar que el problema tiene al menos una solucion.
b) Hallar una solucion y deducir que esta solucion es unica.
c) Aplicar el metodo del gradiente con paso optimo para aproximar la solucion anterior partiendo
de (0., 3.)
96 Optimizacion sin restricciones
6.3. Metodo de relajacion
Vamos a describir el algoritmo de relajacion para resolver el problema:
Hallar u R
d
tal que
J(u) = nf
vR
d
J(v)
Descripcion del algoritmo
1. Sea u
0
R
d
arbitrario.
2. Obtenido u
n
= (u
n
1
, ..., u
n
d
) R
d
calculamos u
n+1
= (u
n+1
1
, ..., u
n+1
d
) R
d
en d etapas que son:
Para i = 1, 2, ..., d calculamos sucesivamente
u
n+
i
d
= (u
n+1
1
, u
n+1
2
, ..., u
n+1
i
, u
n
i+1
, ..., u
n
d
) R
d
solucion de
J(u
n+
i
d
) = nf
v=(u
n+1
1
,u
n+1
2
,...,v
i
,u
n
i+1
,...,u
n
d
)
J(v)
Observacion: En cada etapa, se trata de un problema de minimizacion en una sola variable real. En
cada etapa la condicion necesaria de mnimo ( y suciente si J(.) es convexa) es:
J
x
i
(u
n+1
1
, ..., u
n+1
i1
, u
n+1
i
, u
n
i+1
, ..., u
n
d
) = 0
Estudiemos ahora la convergencia del metodo.
Teorema 6.10 Si J : R
d
R es elptica y diferenciable con continuidad, el metodo de relajacion es
convergente.
Demostracion: Primero observemos que el algoritmo de relajacion esta bien denido. En efecto, en
cada etapa, i = 1, ..., d se resuelve un problema de optimizacion, para una funcion J
i
de una sola variable
que es elptica y por tanto tiene solucion unica.
J
i
() = J(u
n+1
1
, ..., u
n+1
i1
, , u
n
i+1
, ..., u
n
d
)
y la solucion de
J
i
(u
n+1
i
) = nf
R
J
i
()
est a caracterizada por
J
x
i
(u
n+
i
d
) = 0
La demostracion ahora se hace en varias etapas:
6.3 Metodo de relajacion 97
1.
lm
n
(J(u
n
) J(u
n+1
)) = 0
En efecto, por la propia construccion del algoritmo tenemos
J(u) J(u
n+1
) J(u
n
) J(u
0
)
es decir (J(u
n
))
n
es una sucesion decreciente de n umeros reales acotada inferiormente, por tanto
convergente. En particular lm
n
(J(u
n
) J(u
n+1
)) = 0
2.
lm
n
||u
n
u
n+1
|| = 0
y en particular
lm
n
||u
n+
i
d
u
n+1
|| = 0
La elipticidad implica
J(u
n+
i1
d
) J(u
n+
i
d
) (J(u
n+
i
d
), u
n+
i1
d
u
n+
i
d
) +

2
||u
n+
i1
d
u
n+
i
d
||
2
como
(J(u
n+
i
d
), u
n+
i1
d
u
n+
i
d
) =
j=1
J
x
j
(u
n+
i
d
)(u
n+
i1
d
j
u
n+
i
d
j
)
=
j=i
J
x
j
(u
n+
i
d
)(u
n+
i1
d
j
u
n+
i
d
j
) +
J
x
i
(u
n+
i
d
)(u
n+
i1
d
i
u
n+
i
d
i
) = 0
pues para j = i se tiene u
n+
i1
d
j
u
n+
i
d
j
= 0 y por otra parte
J
x
i
(u
n+
i
d
) = 0 por la caracterizacion
de la solucion del problema de minimizacion en dimension uno correspondiente. De modo que,
J(u
n+
i1
d
) J(u
n+
i
d
)

2
||u
n+
i1
d
u
n+
i
d
||
2
=

2
|u
n
i
u
n+1
i
|
2
sumando para i = 1, ..., d

n
i=1
J(u
n+
i1
d
) J(u
n+
i
d
)

2

d
i=1
|u
n
i
u
n+1
i
|
2
de donde
J(u
n
) J(u
n+1
)

2
||u
n
u
n+1
||
2
Y nalmente aplicando el resultado de la parte 1 obtenemos el resultado.
3.
lm
n
|
J
x
j
(u
n+
i
d
)
J
x
j
(u
n+1
)| = 0
98 Optimizacion sin restricciones
en efecto, como cada sucesion (J(u
n+
i
d
))
n
es decreciente por construccion, (u
n+
i
d
)
n
es acotada
pues J(.) verica la propiedad lm
||v||
J(v) = 0 y por otra parte cada derivada parcial
J
x
i
(.) es
continua, y por lo tanto es uniformemente continua en los compactos, resulta
lm
n
||u
n+
i
d
u
n+1
|| = 0 lm
n
|
J
x
i
(u
n+
i
d
)
J
x
i
(u
n+1
)| = 0
4.
lm
n
||u
n
u|| = 0
en efecto, tenemos
||u
n+1
u||
2
(J(u
n+1
) J(u), u
n+1
u)
= (J(u
n+1
), u
n+1
u) =
n
j=1
J
x
j
(u
n+1
)(u
n+1
j
u
j
)
(
n
j=1
|
J
x
j
(u
n+1
)|
2
)
1/2
(
n
j=1
|u
n+1
j
u
j
|
2
)
1/2
y nalmente
||u
n
u||
1

n
j=1
|
J
x
j
(u
n+1
)|
2
)
1/2
elevando al cuadrado
||u
n+1
u||
2

n
j=1
|
J
x
j
(u
n+1
)|
2
) =
1

n
j=1
|
J
x
j
(u
n+1
)
J
x
j
(u
n+
i
d
)|
2
puesto que
J
x
j
(u
n+
i
d
) = 0, de donde tomando lmites cuando n
lm
n
||u
n+1
u||
1

n
j=1
lm
n
|
j
J(u
n+1
)
j
J(u
n+
i
d
)|
2
= 0

6.4. Metodos de Newton


Consideraremos en esta seccion metodos para resolver ecuaciones de la forma siguiente: Sea R
d
un conjunto abierto. Dada F : R
d
queremos hallar u tal que F(u) = 0. En particular el
metodo sera aplicable a problemas de optimizacion de una funcion J(.) diferenciable. Seg un hemos visto
anteriormente si J(.) tiene un extremo realtivo en u entonces J(u) = 0. De hecho los metodos
de gradiente estudiados en las secciones anteriores son metodos de punto jo para resolver la ecuacion
J(u) = 0. Vamos ahora a estudiar el metodo de Newton que no es mas que una generalizacion a varias
variables del metodo de Newton estudiado en el captulo 1.
6.4 Metodos de Newton 99
Supongamos que F es diferenciable y sea u
0
un valor en un entorno de la solucion u. Pongamos
u = u
0
+h, tendremos utilizando el desarrollo de Taylor
F(u
0
+h) = 0 = F(u
0
) +F

(u
0
)(h) +(h
2
)
para valores de ||h|| peque nos resulta
F

(u
0
)h F(u
0
)
Si ponemos u
1
= u
0
+ h esperamos que u
1
sea una mejor aproximacion de u que u
0
. De ah el siguiente
algoritmo de Newton:
Algoritmo de Newton
1. u
0
cercano a u
2. Obtenido el valor de u
n
calculamos u
n+1
resolviendo
F

(u
n
)h
n
= F(u
n
)
u
n+1
= u
n
+h
n
Vamos a estudiar ahora la convergencia del metodo de Newton. Sera un teorema de convergencia
local. Para ello necesitaremos algunos resultados previos.
Lema 6.3 Sea ||.|| una norma matricial subordinada y E una matriz cuadrada de orden n. Si ||E|| < 1
entonces existe la matriz inversa de (I +E) y ||(I +E)
1
||
1
1||E||
.
Demostracion: Considreremos el sistema x +Ex = 0, es decir Ex = x, entonces si ||E|| < 1,
||x|| = ||Ex|| ||E||.||x|| < ||x||
La unica solucion de la ecuacion anterior es x = 0. Por tanto I +E es no singular.
Por otra parte I = (I +E) E, multiplicando por la derecha por (I +E)
1
, resulta
(I +E)
1
= I E(I +E)
1
tomando normas
||(I +E)
1
|| 1 +||E||||(I +E)
1
||
y nalmente reordenando y agrupando terminos
||(I +E)
1
||
1
1 ||E||

100 Optimizacion sin restricciones


Lema 6.4 Sean A y B matrices cuadradas de orden n. Si A es no singular y ||A
1
(BA)|| < 1 entonces
B es no singular y
||B
1
||
||A
1
||
1 ||A
1
(B A)||
Demostracion: Pongamos E = A
1
(B A).
I +E = I +A
1
(B A) = I +A
1
B I = A
1
B
Por tanto A
1
B es no singular y A
1
B = B
1
A y nalmente aplicando el lema anterior
||B
1
A||
1
1 ||A
1
(B A)||
de donde teniendo en cuenta ||B
1
|| = ||B
1
AA
1
|| ||B
1
A||||A
1
|| resulta
||B
1
||
||A
1
||
1 ||A
1
(B A)||

Lema 6.5 Sea R


d
un conjunto abierto y convexo y F : R
d
R diferenciable con continuidad
en . Para todo u y h R
d
tal que u +h se verica
F(u +h) F(u) =
_
1
0
F

(u +th).hdt
Demostracion: consideremos la funcion f : R R denida por t [1, 1] f(t) = F(u+th). tenemos
por la regla de Barrow
f(1) f(0) =
_
1
0
f

(t)dt
que es la expresion buscada teniendo en cuenta que
f

(t) = F

(u +th).h

Observacion: El lema es valido para F : R


d
R
p
aplicando lo anterior a las p componentes de
F.
Lema 6.6 Sea F : R
d
R
p
donde R
d
es un conjunto abierto y convexo, una funcion tal que
DF(.) es Lipschitziana, es decir
||F

(v) F

(u)|| ||v u|| u, v


6.4 Metodos de Newton 101
entonces para todo u +h
||F(u +h) F(u) F

(u)h||

2
||h||
2
Demostracion: Tenemos
F(u +h) F(u) F

(u)h =
_
1
0
(F

(u +th) F

(u))hdt
tomando normas y mayorando obtenemos el resultado buscado
Teorema 6.11 Sea R
d
un conjunto abierto y convexo y F : R
d
R
d
diferenciable con
continuidad en . Supongamos que existe un punto u y tres constantes r > 0, > 0 y 0 tales
que
F(u) = 0
U(u, r) = {v R
d
; ||v u|| < r}
F

(u) es no singular y ||F

(u)
1
||
||F

(v) F

(u)|| ||v u|| v, u U


Entonces para = mn{r,
1
2
} y para todo u
0
U(u, ) = {v R
d
; ||v u|| < } la sucesion generada
por el algoritmo de Newton esta bien denida y converge hacia u con convergencia cuadratica, es decir
||u
n+1
u|| ||u
n
u||
2
Demostracion: tomemos = min{r,
1
2
} entonces u
0
U(u, ) F

(u
0
), es no singular, en efecto
||F

(u)
1
[F

(u
0
) F

(u)]|| ||F

(u)
1
||||F

(u
0
) F

(u)||
||u
0
u||
1
2
Entonces por la relacion del lema 6.4, F

(u
0
) es no singular y
||F

(u
0
)
1
||
||F(u)
1
||
1 ||F(u)
1
[F(u
0
) F(u)||
2||F(u)
1
|| 2
u
1
esta bien denido y
u
1
u = u
0
u F

(u
0
)
1
[F(u
0
) F(u)]
= F

(u
0
)
1
[F(u) F(u
0
) F

(u
0
)(u u
0
)]
102 Optimizacion sin restricciones
||u
1
u|| ||F(u
0
)
1
||||F(u) F(u
0
) F

(u
0
)(u u
0
)||
||u
0
u||
2
Por otra parte como ||u
0
u||
1
2
, resulta
||u
1
u||
1
2
||u
0
u||
lo que prueba u
1
U(u, ) y por induccion probamos que ||u
n+1
u||
1
2
||u
n
u||, el metodo es
convergente y la convergencia es cuadratica pues,
||u
n+1
u|| ||u
n
u||
2

Evaluacion del coste del metodo de Newton


En cada iteracion hay que
Evaluar F(u
n
), d evaluaciones funcionales.
Calcular los terminos de F

(u
n
), es decir, d
2
(
d(d+1)
2
si F(u) = J(u)) evaluaciones funcionales.
Resolver un sistema lineal de d ecuaciones con d incognitas, es decir, del orden de
d
3
3
(
d
3
6
si F(u) =
J(u))) operaciones, si lo resolvemos con un metodo directo.
Muchas veces no se conoce la expresion analtica de las funciones, por lo que no se conoce la expresion
de las derivadas parciales. Se recurre entonces al calculo numerico de estas derivadas mediante diferencias
nitas,
[F

(u
n
)]
ij

F
i
(u
n
+
n
e
j
) F
i
(u
n
)

n
Observacion: Si se elige
n
adecuadamente, por ejemplo,
n
C||F(u
n
)||, la convergencia sigue
siendo cuadratica.
Ejercicios:
1. Sea F : R
2
R
2
denida por
F(x, y) =
_
x +y 3
x
2
+y
2
9
_
.
Resolver utilizando el metodo de Newton la ecuacion F(x, y) = 0 tomando como valor inicial
(x, y)
0
= (1, 5).
6.4 Metodos de Newton 103
2. Resolver utilizando el metodo de Newton el problema siguiente: Hallar ( x, y) R
2
tal que
J( x, y) = nf
(x,y)R
2
J(x, y)
donde J(x, y) = (x 2)
4
+ (x 2y)
2
.
3. Considerar la funcion J : R
2
R
2
denida por
J(x, y) = log(x
2
+y
2
+ 1)
Demostrar que el problema: Hallar u = (x, y)
t
R
2
tal que
J(u) = nf
vR
2
J(v)
tiene solucion unica.
Comprobar que la Diferencial Segunda de J(.) es denida positiva en el punto solucion.
Calcular la solucion del problema anterior utilizando el metodo de relajacion y tomando como
valor inicial u
0
= (1, 1).
4. Considerar el siguiente problema en R
d
: hallar u R
d
tal que
Au +F(u) = f
donde f R
d
, A es una matriz de orden n denida positiva, y por tanto verica
> 0 (Av, v) ||v||
2
v R
d
y F : R
d
R
d
es Lipschitziana, es decir
M 0 ||F(u) F(v)|| M||u v|| u, v R
d
Demostrar que si
M

< 1 el siguiente metodo de punto jo converge


u
0
R
d
arbitrario
Obtenido u
n
calculamos u
n+1
resolviendo
Au
n+1
= f F(u
n
)
104 Optimizacion sin restricciones
Captulo 7
Optimizacion de funciones
cuadratricas
7.1. Generalidades sobre las funciones cuadraticas
Una funcion cuadratica es una funcion de la forma
J : v R
d
J(v) R
donde J(v) =
1
2
(Av, v) (b, v) siendo A una matriz de d las por d columnas simetrica y donde b R
d
Una funcion cuadratica J(.), es elptica si y solo si la matriz asociada A es denida positiva. En efecto,
calculemos la diferencial de J(.) en un punto u,
DJ(u)(v) = (J(u), v)
=
1
2
((Au, v) + (Av, u)) (b, v)
= (Au, v) (b, v)
pues A es simetrica y (Av, u) = (v, Au) = (Au, v). Por tanto
J(u) = Au b
Si J(.) es elptica, existe > 0 tal que
(J(u) J(v), u v) ||u v||
2
u, v R
d
como J(u) = Au b y J(v) = Av b resulta
(Au Av, u v) ||u v||
2
u, v R
d
105
106 Optimizacion de funciones cuadratricas
como u y v son cualesquiera
(Av, v) ||v||
2
Recprocamente, si A es denida positiva, existe > 0 tal que
(Av, v) ||v||
2
v = 0
por tanto u, v R
d
u = v, entonces
(A(u v), u v) ||u v||
2
y nalmente
(J(u) J(v), u v) ||u v||
2
Si A es denida positiva el mnimo de J(.) esta caracterizado por J(u) = 0 es decir, Au = b. De
modo que el problema de hallar u R
d
tal que J(u) =nf
vR
d J(v) equivale a resolver Au = b.
Vamos a considerar ahora la minimizacion de funciones cuadraticas con matriz asociada A denida
positiva, por tanto elpticas. Sabemos que el problema tiene solucion unica.
7.2. Metodos de descenso
7.2.1. Metodo general de descenso
Sea u
0
R
d
vector inicial arbitrario. Construiremos una sucesion de vectores (u
n
)
n
a partir de u
0
. El
paso general para construir u
n+1
a partir de u
n
es
Fijamos una direccion de descenso d
n
= 0 en el punto u
n
Resolvemos el problema del mnimo siguiente: Hallar
n
= (u
n
, d
n
) tal que
J(u
n
+
n
d
n
) = nf
R
J(u
n
+d
n
)
que tiene solucion unica pues J(.) es elptica.
u
n+1
= u
n
+
n
d
n
En el caso de funciones cuadraticas el calculo de
n
= (u
n
, d
n
) es sencillo, en efecto derivando la funcion
J(u
n
+d
n
) e igualando a 0
(J(u
n
+
n
d
n
), d
n
) = 0
7.2 Metodos de descenso 107
(Au
n
+
n
d
n
b, d
n
) = 0
despejando
n

n
=
(b Au
n
, d
n
)
(Ad
n
, d
n
)
=
(r
n
, d
n
)
(Ad
n
, d
n
)
donde hemos introducido el residuo correspondiente r
n
= b Au
n
.
Algoritmo general de descenso
1. u
0
R
d
arbitrario.
2. r
n
= b Au
n
3.
n
=
(r
n
,d
n
)
(Ad
n
,d
n
)
4. u
n+1
= u
n
+
n
d
n
o bien observando que r
n+1
= r
n

n
Ad
n
1. u
0
R
d
arbitrario; r
0
= b Au
0
.
2.
n
=
(r
n
,d
n
)
(Ad
n
,d
n
)
3. u
n+1
= u
n
+
n
d
n
4. r
n+1
= r
n

n
Ad
n
Para distintas elecciones d
n
, obtenemos distintos metodos.
Ejercicio: Vericar que si en el metodo general de descenso elegimos como direcciones de descenso
d
n
las direcciones de los ejes, es decir, e
i
= (0, ..., 0, 1, 0, ..., 0) obtenemos el metodo de Gauss-Seidel para
resolver Au = b.
7.2.2. Propiedades de convergencia de los metodos de descenso
Vamos a estudiar ahora las Propiedades de los metodos de descenso.
Propiedad 7.1 Cualquiera que sea la direccion de descenso d
n
elegida, para
n
optimo se tiene para
todo n 0
(d
n
, r
n+1
) = 0
es decir, la direccion de descenso y el nuevo gradiente de la funcion son ortogonales.
108 Optimizacion de funciones cuadratricas
Demostracion: Hemos comprobado ya que r
n+1
= r
n

n
Ad
n
. De donde,
(d
n
, r
n+1
) = (d
n
, r
n

n
Ad
n
) = (d
n
, r
n
)
n
(d
n
, Ad
n
)
= (d
n
, r
n
)
(r
n
, d
n
)
(Ad
n
, d
n
)
(Ad
n
, d
n
) = 0
Propiedad 7.2 El problema de minimizar una funcion J : v
1
2
(Av, v) (b, v) con A simetrica y
denida positiva, es equivalente a minimizar
E(v) = (A(v u), v u) = ||v u||
2
A
donde u es la solucion buscada, es decir, vericando Au = b.
Nota 7.1 Hemos introducido la notacion ||v||
A
= (Av, v)
1/2
para la norma asociada al producto escalar
u, v (Au, v)
Nota 7.2 E(.) es la funcion error asociada al valor v, mas precisamente, es el cuadrado de la norma
asociada a la matriz A del error e = v u.
Demostracion:
E(v) = (A(v u), v u) = (Av, v) 2(Au, v) + (Au, u)
= (Av, v) 2(b, v) + (Au, u)
= 2J(v) + (Au, u)
Como (Au, u) es constante, es decir, independiente de v, E(.) y 2J(.) y por lo tanto J(.) alcanzan el
mnimo en el mismo punto u.
Demos ahora una interpretacion geometrica de los metodos de descenso: Consideremos el caso de
funciones cuadraticas en R
2
. Las ecuacion E(v) = cte es una elipse. Para diferentes valores E(v) = E(u
n
)
obtenemos una familia de elipses concentricas centradas en el mnimo de u de la funcion y que representan
las curvas de nivel. El vector d
n
es tangente a la elipse E(v) = E(u
n+1
). Como r
n+1
es ortogonal a d
n
,
r
n+1
es ortogonal a la tangente de la curva de nivel.
Vamos a estudiar ahora cuales son las posibles elecciones de d
n
que permitan asegurar la convergencia
del metodo de descenso.
Lema 7.1 Para d
n
= 0 y r
n
= 0
E(u
n+1
) = E(u
n
)(1
n
)
donde

n
=
(r
n
, d
n
)
2
(Ad
n
, d
n
)(A
1
r
n
, r
n
)
7.2 Metodos de descenso 109
Demostracion: Sustituimos el valor de
n
en la expresion de E(u
n+1
):
E(u
n+1
) = E(u
n
+
n
d
n
) = (A(u
n
u) +
n
d
n
), u
n
u +
n
d
n
)
= (A(u
n
u), u
n
u) + 2
n
(A(u
n
u), d
n
) +
2
n
(Ad
n
, d
n
)
= E(u
n
) 2
n
(r
n
, d
n
) +
2
n
(Ad
n
, d
n
)
= E(u
n
) 2
(r
n
, d
n
)
2
(Ad
n
, d
n
)
+
(r
n
, d
n
)
2
(Ad
n
, d
n
)
2
(Ad
n
, d
n
)
= E(u
n
)
(r
n
, d
n
)
2
(Ad
n
, d
n
)
= E(u
n
)(1
1
E(u
n
)
(r
n
, d
n
)
2
(Ad
n
, d
n
)
)
Finalmente como
E(u
n
) = (A(u
n
u), u
n
u) = (r
n
, u u
n
) = (r
n
, A
1
r
n
)
obtenemos el resultado.
Observacion: El n umero
n
es siempre positivo pues A y por lo tanto tambien A
1
son matrices
simetricas y denidas positivas.
Lema 7.2 Mayoracion de
n
: Cualquiera que sea d
n
= 0, y siendo
n
el valor optimo local tenemos la
siguiente relacion valida para k = 0

n
=
(r
n
, d
n
)
2
(Ad
n
, d
n
)(A
1
r
n
, r
n
)

1
(A)
(
r
n
||r
n
||
,
d
n
||d
n
||
)
2
donde (A) es el n umero de condicionamiento de la matriz A.
Demostracion: La matriz A siendo simetrica y denida positiva, tiene todos sus valores propios
reales y positivos.
0 <
min
=
1

2
....
d
=
max
Sabemos
(Ad
n
,d
n
)
||d
n
||
2

max
es decir (Ad
n
, d
n
)
max
||d
n
||
2
.
Los valores propios de A
1
son
0 <
1

max
, ...,
1

min
de donde
(A
1
r
n
,r
n
)
||r
n
||
2

1

min
, es decir (A
1
r
n
, r
n
)
1

min
||r
n
||
2
.
Y nalmente
(Ad
n
, d
n
)(A
1
r
n
, r
n
)
||d
n
||
2
||r
n
||
2


max

min
= (A)
110 Optimizacion de funciones cuadratricas
de donde

n

1
(A)
(r
n
, d
n
)
2
||r
n
||
2
||d
n
||
2

El anterior lema nos va a permitir elegir las direcciones de descenso:


Teorema 7.1 Sea
n
el optimo local; Si para toda direccion d
n
se verica para todo n 0
(
r
n
||r
n
||
2
,
d
n
||d
n
||
2
)
2
> 0
donde es independiente de n, entonces la sucesion (u
n
)
n
generada por el algoritmo de descenso es
convergente hacia la solucion que minimiza E(v), y por lo tanto J(v).
Demostracion: El lema anterior permite escribir
E(u
n+1
) = E(u
n
)(1
n
) E(u
n
)(1

(A)
)
de donde, aplicando recursivamente la relacion anterior
E(u
n
) (1

(A)
)
n
E(u
0
)
Por otra parte, de la desigualdad de Cauchy-Schwarz
0 < (
r
n
||r
n
||
2
,
d
n
||d
n
||
2
)
2
1
y como (A) 1, resulta 0 1

(A)
< 1, de donde
lm
n
||u
n
u||
A
= lm
n
E(u
n
) = 0
y tambien
0 <
min

(A(u
n
u), u
n
u)
||u
n
u||
2
||u
n
u||
2

min
(A(u
n
u), u
n
u) =
1

min
E(u
n
)
n
0

Observacion: En el marco de los metodos de descenso con =


n
optimo local, el anterior teorema
permite dar una condici on suciente en la eleccion de d
n
para asegurar la convergencia: Para todo n 0
d
n
debe ser no ortogonal a r
n
.
7.3 Metodo de gradiente con paso optimo 111
7.3. Metodo de gradiente con paso optimo
7.3.1. Descipcion del metodo de gradiente con paso optimo
Entre las direcciones posibles d
n
que aseguran la convergencia del metodo de descenso con eleccion
optima del parametro
n
, una eleccion obvia es d
n
= r
n
, para la que el parametro verica
= (
r
n
||r
n
||
2
,
d
n
||d
n
||
2
) = ||
r
n
||r
n
||
2
= 1
El metodo de gradiente consiste en elegir el gradiente como direccion de descenso, concretamente d
n
=
J(u
n
) = (Au
n
b) = r
n
. El algoritmo de gradiente con paso optimo se escribe
1. u
0
R
d
arbitrario.
2. Una vez obtenido u
n
se calcula u
n+1
de la siguiente manera:
r
n
= b Au
n

n
=
(r
n
,r
n
)
(Ar
n
,r
n
)
u
n+1
= u
n
+
n
r
n
para evitar el producto de una matriz por un vector en el calculo de r
n
observemos
Au
n+1
= Au
n
+
n
Ar
n
de donde
r
n+1
= r
n

n
Ar
n
y el algoritmo queda de la forma
1. u
0
R
d
arbitrario.
r
0
= b Au
0

0
=
(r
0
,r
0
)
(Ar
0
,r
0
)
u
1
= u
0
+
0
r
0
r
1
= r
0

0
Ar
0
2. Una vez obtenido u
n
se calcula u
n+1
de la siguiente manera:

n
=
(r
n
,r
n
)
(Ar
n
,r
n
)
u
n+1
= u
n
+
n
r
n
112 Optimizacion de funciones cuadratricas
r
n+1
= r
n

n
Ar
n
La expresion del error es en este caso
E(u
n+1
) = E(u
n
)(1
||r
n
||
4
(Ar
n
, r
n
)(A
1
r
n
, r
n
)
)
7.3.2. Convergencia del metodo de gradiente con paso optimo
Vamos a estudiar con mas profundidad la convergencia del metodo de gradiente con paso optimo.
Para ello necesitaremos un lema previo.
Lema 7.3 Desigualdad de Kantorovich
Sea A una matriz simetrica y denida positiva. Para todo x = 0, tenemos:
1
(Ax, x)(A
1
x, x)
||x||
4


min
+
max
)
2
4
min

max
donde
min
y
max
son los valores propios mnimo y maximo de A respectivamente.
Demostracion: Si A e simetrica denida positiva (resp. A
1
) es diagonalizable y tiene todos sus
valores propios positivos y se puede elegir una base ortonormal de vectores propios. Sean
0 <
min
=
1
, ...,
d
=
max
los valores propios de A. Respectivamente, los valores propios de A
1
son
0 <
1

max
=
1

1
, ...,
1

d
=
1

min
y sea (v
i
)
d
i=1
la base ortonormal de vectores propios. Para x R
d
, x =
d
i=1
x
i
v
i
; ||x||
2
=
d
i=1
|x
i
|
2
y
tambien (Ax, x) =
d
i=1

i
|x
i
|
2
y (A
1
x, x) =
d
i=1
1

i
|x
i
|
2
. De modo que
(Ax, x)(A
1
x, x)
||x||
4
=

d
i=1

i
|x
i
|
2

d
i=1
1

i
|x
i
|
2

d
j=1
x
2
j

d
j=1
x
2
j
denotando
i
=
x
2
i

d
j=1
x
2
j
para i = 1, ..., d resulta
i
0,
d
i=1

i
= 1 y
(Ax, x)(A
1
x, x)
||x||
4
=
d
i=1

d
i=1

i
1

i
Consideremos en el plano R
2
los puntos M
i
= (
i
,
1

i
) El punto M =
d
i=1

i
M
i
= (
d
i=1

i
,
d
i=1

i
1

i
)
combinacion lineal convexa de los puntos M
i
estara contenido en la zona rayada de la gura. Llamando
7.3 Metodo de gradiente con paso optimo 113
=
d
i=1

i
, resulta que la ordenada del punto M,
d
i=1

i
1

i
es inferior a la ordenada del punto M
situado sobre la recta M
1
M
d
. Por otra parte la ordenada del punto M es superior a
1

. Mediante un
sencillo calculo,
M = (,

1
+
d

d
)
Es decir,
1 =
1


d
i=1

d
i=1

i
1

1
+
d

d
max

d
(

1
+
d

d
) =
(
1
+
d
)
2
4
1

d
La funcion f() =

1
+
d

d
alcanza su maximo para =

1
+
d
2
y ese valor maximo vale
(
1
+
d
)
2
4
1

Teorema 7.2 El metodo del gradiente con paso local optimo es convergente. El factor de reduccion del
error en cada paso es menor o igual que
(A)1
(A)+1
.
Demostracion: Aplicando la desigualdad de Kantorovich para el residuo en la n-esima iteracion r
n
del metodo de gradiente tendremos
||r
n
||
4
(Ar
n
, r
n
)(A
1
r
n
, r
n
)

4
min

max
(
min
+
max
)
2
=
4(A)
(1 +(A))
2
entonces
E(u
n+1
) E(u
n
)(1
4(A)
(1 +(A))
2
) = E(u
n
)(
(A) 1
(A) + 1
)
2
de donde nalmente
E(u
n+1
) E(u
0
)(
(A) 1
(A) + 1
)
2n
o lo que es lo mismo
||u
n
u||
A
||u
0
u||
A
(
(A) 1
(A) + 1
)
n
.
Observacion: Si (A) es proximo a 1, el metodo converge rapidamente. Cuando (A) = 1 todos los
valores propios son iguales. Tomemos A = I y E(v) = (A(v u), v u) = (v u, v u) = ||v u||
2
.
Es decir la ecuacion E(v) = cte es la ecuacion de una supercie esferica de centro u (una circunferencia
si d = 2) y el metodo converge en una sola iteracion.
Por el contrario si (A) es grande, los valores propios
min
y
max
son muy diferentes; Los elipsoides
E(v) = cte son entonces muy aplastados. La convergencia es lenta. Para que
E(u
n
)
E(u
0
)

114 Optimizacion de funciones cuadratricas
es suciente que
(
(A) 1
(A) + 1
)
2n

es decir
2n ln(
(A) + 1
(A) 1
) ln
1

Como para valores de (A) mucho mayores que 1,


ln(
(A) + 1
(A) 1
) = ln(1 +
2
(A) 1
)
2
(A) 1

2
(A)
resulta
n
(A)
4
ln
1

El n umero de iteraciones es proporcional a (A).


Ejercicio: Metodo de gradiente con paso constante
Puesto que el metodo de gradiente con paso optimo , debido al efecto zig-zag y al coste del calculo de

n
puede no resultar optimo desde un punto de vista global, podemos pensar en un metodo de gradiente
con parametro constante, donde u
n+1
se calcula a partir de u
n
mediante
1. r
n
= b Au
n
2. u
n+1
= u
n
+r
n
y donde es independiente de n.
Demostrar que el error en la iteracion n-esima e
n
= u
n
u se expresa e
n
= (I A)
n
e
0
donde I la
matriz identidad y que la condicion necesaria y suciente de convergencia es que el radio espectral
de I A, verique (I A) < 1, es decir, que y los valores propios de A,
i
, i = 1, ..., d
veriquen
|1
i
| < 1, i = 1, ..., d
Supongamos que A sea simetrica y denida positiva y sean 0
1
< ...
d
los valores propios de
A. Demostrar que la condicion de convergencia es
0 < <
2

d
Demostrar que el valor optimo de es

opt
=
2

1
+
d
y el correspondiente radio espectral para este valor optimo es
(I
opt
A) =
(A) 1
(A) + 1
7.4 Metodo de Gradiente Conjugado 115
7.4. Metodo de Gradiente Conjugado
7.4.1. Introduccion
En esta seccion investigaremos nuevas direcciones de descenso d
n
para ser utilizadas con el paso local
optimo,
n
=
(d
n
,r
n
)
(Ad
n
,d
n
)
. Como hemos demostrado anteriormente (d
n1
, r
n
) = 0.
Vamos a buscar ahora la nueva direccion de descenso d
n
en el plano formado por las dos direcciones
ortogonales r
n
y d
n1
. Pongamos
d
n
= r
n
+
n
d
n1
y calculemos el parametro
n
de modo que el factor de reduccion del error sea lo mas grande posible.
Tenemos
E(u
n+1
) = E(u
n
)(1
(r
n
, d
n
)
2
(Ad
n
, d
n
)(A
1
r
n
, r
n
)
)
Elegiremos
n
de manera que
(r
n
, d
n
)
2
(Ad
n
, d
n
)(A
1
r
n
, r
n
)
sea maximo. Como
(r
n
, d
n
) = (r
n
, r
n
+
n
d
n1
) = ||r
n
||
2
+
n
(r
n
, d
n1
) = ||r
n
||
2
elegiremos d
0
= r
0
de modo que esta relacion se verique tambien para n = 0. Tendremos pues (r
n
, d
n
) =
||r
n
||
2
para todo n 0. La determinacion del maximo de
(r
n
, d
n
)
2
(Ad
n
, d
n
)(A
1
r
n
, r
n
)
=
||r
n
||
2
(Ad
n
, d
n
)(A
1
r
n
, r
n
)
se reduce a minimizar (Ad
n
, d
n
). Desarrollando este termino
(Ad
n
, d
n
) = (A(r
n
+d
n1
), r
n
+d
n1
)
=
2
n
(Ad
n1
, d
n1
) + 2
n
(Ad
n1
, r
n
) + (Ar
n
, r
n
)
Para que este trinomio sea mnimo, hay que elegir
n
de modo que

n
(Ad
n1
, d
n1
) + (Ad
n1
, r
n
) = 0
de donde deducimos

n
=
(Ad
n1
, r
n
)
(Ad
n1
, d
n1
)
y tambien
(Ad
n1
, r
n
+
n
d
n1
) = 0
es decir,
(Ad
n1
, d
n
) = 0
116 Optimizacion de funciones cuadratricas
Denicion 7.1 Cuando dos vectores u y v verican la relacion (Au, v) = 0 se dice que son A-conjugados.
Cuando A es simetrica y denida positiva la aplicacion u, v (Au, v) es un producto escalar. La relacion
para dos vectores de A-conjugacion no es mas que la ortogonalidad con respecto al producto escalar
(A., .).
Veamos algunas propiedades que relacionan los residuos sucesivos y el valor de
n
.
Lema 7.4 Se tienen las siguientes relaciones, validas si r
n
= 0 para i = 0, ..., n:
(r
n+1
, r
n
) = 0 n 0
adem as

0
= 0,
n
=
||r
n
||
2
||r
n1
||
2
n 1
Demostracion:
(r
n+1
, r
n
) = (r
n

n
Ad
n
, r
n
) = ||r
n
||
2

n
(Ad
n
, r
n
)
= ||r
n
||
2

n
(Ad
n
, d
n

n
d
n1
)
= ||r
n
||
2

n
(Ad
n
, d
n
) +
n

n
(Ad
n
, d
n1
) = 0
teniendo en cuenta que
(Ad
n
, d
n1
) = 0
y que

n
=
(r
n
, d
n
)
(Ad
n
, d
n
)
=
||r
n
||
2
(Ad
n
, d
n
)
Por otra parte Ad
n1
=
1

n
(r
n1
r
n
) para n 1 de donde
(Ad
n1
, r
n
) =
1

n
((r
n1
r
n
), r
n
) =
1

n
||r
n
||
2
y tambien
(Ad
n1
, d
n1
) =
1

n
((r
n1
r
n
), d
n1
) =
1

n1
(r
n1
, d
n1
) =
1

n1
||r
n1
||
2
de donde nalmente

n
=
(r
n
, Ad
n1
)
(d
n1
, Ad
n1
)
=
||r
n
||
2
||r
n1
||
2

7.4 Metodo de Gradiente Conjugado 117


7.4.2. Algoritmo de Gradiente Conjugado
El algoritmo de Gradiente Conjugado es el siguiente:
1. u
0
arbitrario y d
0
= r
0
= b Au
0
.
Para n = 0, 1, ...
2.

n
=
||r
n
||
2
(Ad
n
, d
n
)
3.
u
n+1
= u
n
+
n
d
n
r
n+1
= r
n

n
Ad
n
4.

n+1
=
||r
n+1
||
2
||r
n
||
2
5.
d
n+1
= r
n+1
+
n+1
d
n
Ejercicio:
Sea c el n umero medio de coecientes no nulos por lnea de la matriz A de orden N. Calcular el
n umero de operaciones de una iteracion del algoritmo de Gradiente Conjugado. (Resp: (c + 5)N + 2
multiplicaciones y (c + 4)N 2 sumas.)
7.4.3. Propiedades del algoritmo de Gradiente Congugado
Teorema 7.3 En el metodo de Gradiente Conjugado, tomando d
0
= r
0
= b Au
0
, se verica, para todo
n 1 siempre que r
k
= 0 y para todo k n 1, las siguientes propiedades
(r
n
, d
k
) = 0 k n 1
(d
n
, Ad
k
) = (Ad
n
, d
k
) = 0 k n 1
(r
n
, r
k
) = 0 k n 1
Demostracion: Utilizaremos el principio de induccion.
118 Optimizacion de funciones cuadratricas
1. Para n=1 se verica (r
1
, d
0
) = (r
1
, r
0
) = 0 por la propia denicion del metodo y al propiedades
se naladas anteriormente.
Por otra parte
(d
1
, Ad
0
) = (Ad
1
, d
0
) = 0
es la relacion de conjugacion para dos direcciones de descenso consecutivas.
2. Supongamos que se verican las relaciones del teorema para el valor n y veamos que en ese caso se
verican tambien para n + 1 y k n.
Para la primera relacion tenemos en el caso k = n, tenemos (r
n+1
, d
n
) = 0 que se cumple en todos
los metodos de descenso con paso optimo.
Por otra parte para k = 1, 2, ..., n 1 tendremos
(r
n+1
, d
k
) = (r
n

n
Ad
n
, d
k
) = (r
n
, d
k
)
n
(Ad
n
, d
k
)
siendo estos dos ultimos terminos nulos por la hipotesis de recurrencia.
Para la segunda relacion en el caso k = n, tenemos (Ad
n+1
, d
n
) = 0 es la relacion de conjugacion.
Para k = 1, 2, ..., n 1 tenemos
(d
n+1
, Ad
k
) = (r
n+1
+
n+1
d
n
, Ad
k
)(r
n+1
, Ad
k
) +
n+1
(d
n
, Ad
k
)
ademas r
k+1
= r
k

k
Ad
k
de donde
Ad
k
=
1

k
(r
k
r
k+1
)
resultando
(d
n
, Ad
k
) =
1

k
(r
n+1
, r
k
r
k+1
)+
k+1
(d
n
, Ad
k
) =
1

k
(r
n+1
, d
k

k
d
k1
d
k+1
+
k+1
d
k
)+
n+1
(d
n
, Ad
k
)
siendo todos los terminos nulos ya sea por la hipotesis de induccion ya sea por la primera relacion.
Para la tercera relacion en el caso k = n ya ha sido demostrado en el lema anterior.
Para k = 1, 2, ..., n 1 tenemos
(r
n+1
, r
k
) = (r
n+1
, d
k

k
d
k1
) = (r
n+1
, d
k
)
k
(r
n+1
, d
k1
) = 0
siendo los dos ultimos terminos nulos por vericarse la primera relacion.

Corolario 7.1 El algoritmo de Gradiente Conjugado para la resolucion de un sistema con matriz simetri-
ca y denida positiva de orden N converge en al menos N iteraciones.
7.4 Metodo de Gradiente Conjugado 119
Demostracion: O bien r
k
= 0 y tenemos la convergencia en k N 1 iteraciones o por el contrario
r
N
es ortogonal a d
0
, d
1
, ..., d
N1
que son N vectores linealmente independientes (por ser A-ortogonales)
del espacio R
N
. Necesariamente r
N
= 0.
Observacion: El metodo de gradiente conjugado, introducido en 1952 por Hestenes y Stiefel es pues
te oricamente un metodo directo pues se obtiene salvo errores de redondeo la solucion exacta con un
n umero nito de iteraciones. Sin embargo en la practica debido a errores de redondeo la relaciones de
conjugacion no se tienen exactamente y el metodo se considera como un metodo iterativo. A continuacion
estudiaremos como depende el factor de convergencia con el condicionamiento de la matriz A. Conside-
raremos luego tecnicas de precondicionamiento que tienen como nalidad mejorar la convergencia. El
objetivo es siempre lograr la convergencia con un n umero de iteraciones considerablemente menor que el
n umero de ecuaciones.
Denicion 7.2 Espacios de Krylov: Llamamos espacio de Krylov de dimension k, K
k
, al espacio generado
por los vectores r
0
, Ar
0
, ..., A
k1
r
0
. Es decir
K
k
= [r
0
, Ar
0
, ..., A
k1
r
0
]
Teorema 7.4 En el metodo de gradiente conjugado, eligiendo d
0
= r
0
= b Au
0
y siempre que r
0
= 0
se tiene
[r
0
, Ar
0
, ..., A
k
r
0
] = [r
0
, r
1
, ..., r
k
]
[r
0
, Ar
0
, ..., A
k
r
0
] = [d
0
, d
1
, ..., d
k
]
Demostracion: Para k = 1 como d
0
= r
0
y d
1
= r
0
+
1
d
0
y por lo tanto r
0
= d
1

1
d
0
podemos
escribir
[r
0
, r
1
] = [d
0
, d
1
]
Por otra parte r
1
= r
0

0
Ad
0
con
0
=
||r
0
||
2
(Ar
0
,r
0
)
= 0 as pues Ar
0
= Ad
0
=
r
0
r
1

0
de donde
[r
0
, Ad
0
] = [r
0
, Ar
0
] = [r
0
, r
1
]
Las relaciones son ciertas para k = 1. Supongamos ahora que las relaciones son ciertas para k y veamos
que en ese caso tambien lo son para k + 1:
Tendremos por la hipotesis de induccion r
k
[r
0
, Ar
0
, ..., A
k
r
0
] y por otra parte Ad
k
A[r
0
, Ar
0
, ..., A
k
r
0
] =
[Ar
0
, A
2
r
0
, ..., A
k+1
r
0
].
Como r
k+1
= r
k

k
Ad
k
tenemos
r
k+1
[r
0
, Ar
0
, ..., A
k+1
r
0
]
Recprocamente demostraremos que A
k+1
r
0
[r
0
, r
1
, ..., r
k+1
]. En efecto, seg un se ha visto r
k+1
es una
combinacion lineal de terminos de la forma A
i
r
0
para 0 i k + 1, es decir,
r
k+1
=
k+1
i=0

i
A
i
r
0
=
k
i=0

i
A
i
r
0
+
k+1
A
k+1
r
0
120 Optimizacion de funciones cuadratricas
Veamos que podemos despejar el termino A
k+1
r
0
. En efecto, r
k+1
[r
0
, Ar
0
, ..., A
k
r
0
] = [d
0
, d
1
, ..., d
k
]
pues r
k+1
es ortogonal a d
0
, d
1
, ..., d
k
por el teorema anterior.
Podemos pues escribir
A
k+1
r
0
=
1

k+1
(r
k+1

k
i=0

i
A
i
r
0
)
Gracias a la hipotesis de induccion

k
i=0

i
A
i
r
0
[r
0
, ..., r
k
]
de donde
A
k+1
r
0
[r
0
, ..., r
k+1
]
resumiendo
[r
0
, ..., r
k+1
] = [r
0
, Ar
0
, ..., A
k+1
r
0
]
An alogamente se demuestra
[d
0
, ..., d
k+1
] = [r
0
, Ar
0
, ..., A
k+1
r
0
]

Teorema 7.5 El valor u


k
obtenido en la kesima iteracion del algoritmo de gradiente conjugado verica
E(u
k
) E(v) v u
0
+K
k
Demostracion: Como u
k
= u
0
+
k1
i=0

i
d
i
u
0
+K
k
para expresar que E(u
k
) es el mnimo de E(v)
sobre u
0
+K
k
, es necesario y suciente que
E(u
k
) E(u
0
+v) v K
k
es decir
(E

(u
k
), v) = 0 v K
k
o sea
2(r
k
, v) = 0 v K
k
pero esto es cierto pues (r
k
, r
i
) = 0 para todo i k 1 y seg un el teorema anterior K
k
= [r
0
, ..., r
k1
]
Teorema 7.6 El valor u
k
obtenido en la kesima iteracion del algoritmo de gradiente conjugado verica
E(u
k
) = mn
P
k1
P
k1
(A(I AP
k1
(A))e
0
, (I AP
k1
(A))e
0
)
donde P
k1
es el espacio de polinomios de grado inferior o igual a k 1 y e
0
= u
0
u.
7.4 Metodo de Gradiente Conjugado 121
Demostracion: Todo v = u
0
+ K
k
de escribe v = u
0
+ P
k1
(A)r
0
donde P
k1
es un polinomio de
grado menor o igual que k 1.
Tenemos
v u = e
0
+P
k1
(A)r
0
= e
0
P
k1
(A)Ae
0
= (I AP
k1
(A))e
0
Por la denicion de la funcion E(.) podemos escribir
E(v) = (A(v u), v u) = (A(I AP
k1
(A))e
0
, (I AP
k1
(A))e
0
)
Como E(u
k
) = mn
vu
0
+K
k
E(v) tendremos
E(u
k
) = mn
P
k1
P
k1
(A(I AP
k1
(A))e
0
, (I AP
k1
(A))e
0
)

Corolario 7.2 Se tiene la relacion siguiente


E(u
k
) ( max
1iN
(1
i
P
k1
(
i
))
2
))E(u
0
)
para todo polinomio P
k1
de grado menor o igual que k 1 y donde
i
para i = 1, .., N son los valores
propios de A.
Demostracion: Siendo A una matriz simetrica denida positiva admite una base ortonormal de
vectores propios (v
1
, ..., v
N
) correspondientes a los valores propios
1
, ...,
N
.
En esta base e
0
= u
0
u se escribe e
0
=
N
i=1
a
i
v
i
y
E(u
0
) = (Ae
0
, e
0
) =
N
i=0
a
2
i

i
ademas
(I AP
k1
(A))e
0
=
N
i=0
a
i
(1
i
P
k1
(
i
))v
i
De donde para todo polinomio de grado menor o igual que k 1, tenemos:
E(u
k
) (A
N
i=1
a
i
(1
i
P
k1
(
i
))v
i
,
N
i=1
a
i
(1
i
P
k1
(
i
))v
i
)
=
N
i=1
(1
i
P
k1
(
i
))
2
a
2
i

i
[max
i
(1
i
P
k1
(
i
))
2
][
N
i=1
a
2
i

i
]
= [max
i
(1
i
P
k1
(
i
))
2
]E(u
0
)

122 Optimizacion de funciones cuadratricas


Corolario 7.3 El valor u
k
obtenido en la k-esima iteracion del metodo de Gradiente Conjugado verica
E(u
k
) 4(
_
(A) 1
_
(A) + 1
)
2k
E(u
0
)
Demostracion: Mayoraremos max
i
(1
i
P
k1
(
i
))
2
por max

N
(1 P
k1
())
2
1 P
k1
() es un polinomio de grado menor o igual que k que toma el valor 1 en = 0.
Podemos entonces elegir
1 P
k1
() =
T
k
(

N
+
1
2

1
)
T
k
(

N
+
1

1
)
donde T
k
es el polinomio de Tchebyche de grado k.
Se obtiene entonces la mayoracion
E(u
k
)
1
T
2
k
(

N
+
1

1
)
E(u
0
)
4(
_
(A) 1
_
(A) + 1
)
2n
E(u
0
)
con (A) =

N

También podría gustarte