Está en la página 1de 135

Analisis Numerico II

Apuntes
Curso Codigo 525441
Primer Semestre 2011

Raimund B
urger & Rommel Bustinza
Centro de Investigacion en Ingeniera Matematica (CI2 MA)
& Departamento de Ingeniera Matematica
Facultad de Ciencias Fsicas y Matematicas
Universidad de Concepcion
Casilla 160-C
Concepcion, Chile

23 de diciembre de 2011

Indice general
Captulo 1. Conceptos basicos

Captulo 2. Metodos directos para la solucion de sistemas lineales (Parte I)


2.1. Sistemas lineales escalonados. Matrices triangulares y su inversion
2.2. El metodo de eliminacion de Gauss
2.3. Descripcion matricial del algoritmo de Gauss y el teorema LR
2.4. La descomposicion de Cholesky
2.5. Aplicaciones de la descomposicion triangular y casos especiales

11
12
13
19
29
35

Captulo 3. Metodos directos para la solucion de sistemas lineales (Parte II)


3.1. Normas de vectores y matrices
3.2. El problema de la sensitividad para un sistema lineal
3.3. El metodo de cuadrados mnimos y la transformacion de una matriz n n a una
matriz triangular superior

37
37
44

Captulo 4. Metodos iterativos para la solucion de sistemas de ecuaciones lineales


4.1. Un ejemplo
4.2. Metodologa general del desarrollo de metodos iterativos
4.3. Teoremas de convergencia para metodos iterativos
4.4. Metodos de iteracion por bloque
4.5. El metodo de gradientes conjugados (cg) de Hestenes y Stiefel

73
73
74
79
95
96

Captulo 5. El problema de valores propios de una matriz


5.1. La localizacion de valores propios y la sensitividad del problema
5.2. Transformacion de similaridad unitaria de una matriz n n a una forma de
Hessenberg o tridiagonal
5.3. Computacion de los valores propios de una matriz tridiagonal hermitiana
5.4. Determinacion de los vectores propios de una matriz tridiagonal hermitiana
5.5. Valores propios de una matriz de tipo Hessenberg
5.6. La iteracion directa seg
un von Mises y el metodo de Wielandt

61

107
107
115
118
124
126
127

Indice general

Captulo 1

Conceptos b
asicos
Designaremos por Cnn el espacio de las matrices cuadradas de orden n en el cuerpo C,
mientras que cuando los coeficientes pertenezcan al cuerpo R, usaremos la notacion Rnn .
Definici
on 1.1. Para A Cnn se definen la matriz transpuesta como la matriz B de
elementos bij := aji , y la matriz conjugada transpuesta de A como la matriz C de elementos
cij := a
ji . Notacion: AT := B y A := C.
Definici
on 1.2. Una matriz A Cnn se dice simetrica si A = AT , hermitiana si A = A ,
ortogonal si
AAT = AT A = I
y unitaria si
AA = A A = I.
Una manera de caracterizar la ortogonalidad, respectivamente la unitariedad, de una
matriz A es a traves de las igualdades A1 = AT y A1 = A , respectivamente.
Definici
on 1.3. Un escalar C se dice un valor propio de una matriz A Cnn si existe
n
x C , x 6= 0 tal que
Ax = x.

(1.1)

En tal caso, el vector x se llama vector propio de A asociado a .


Definici
on 1.4. Sea C un valor propio de A. Se llama espacio propio asociado a al
conjunto
L() := {x Cn | Ax = x}.
Note que L() contiene, ademas del vector nulo, a todos los vectores propios asociados
a . Se puede demostrar que L() es un subespacio vectorial de Cn con dimension %() dada
por
%() = n rango(A I).
El n
umero %() se llama tambien multiplicidad geometrica de .
Lema 1.1. Sea A Cnn . Un escalar C es un valor propio de A si y solo si
det(A I) = 0.
5

(1.2)

1. CONCEPTOS BASICOS

Demostracion. De acuerdo a la Definicion 1.3, un escalar C es un valor propio de A si


y solo si existe x Cn , x 6= 0 tal que Ax = x, equivalentemente, si y solo si (A I)x = 0
con x 6= 0. Esta u
ltima relacion es un sistema lineal de ecuaciones lineales homogeneo de
n ecuaciones y n incognitas. Para no obtener u
nicamente la solucion trivial x = 0, que no
nos interesa, imponemos la condicion necesaria y suficiente det(A I) = 0.
La expresion fA () := det(A I) es un polinomio de grado n que se llama polinomio
caracterstico de A, y tiene la forma
fA () = (1)n (n + n1 n1 + + 1 + 0 ).

(1.3)

Si 1 , 2 , . . . , k son los ceros del polinomio caracterstico, entonces fA () puede factorizarse


como
fA () = (1)n ( 1 )1 ( 2 )2 . . . ( k )k ,

(1.4)

donde 1 , . . . , k son n
umeros naturales tales que
1 + + k = n.
El n
umero i , i = 1, . . . , k de veces que se repite el factor ( i ) se llama multiplicidad
algebraica de i . Al valor propio i pueden corresponder a lo mas i vectores propios linealmente independientes. El n
umero de vectores propios de A asociados al valor propio i , y
que son linealmente independientes, es igual a %(i ). En otras palabras, se tiene que
%(i ) 6 i ,

i = 1, . . . , k.

(1.5)

Ejemplo 1.1. La matriz diagonal de orden n, D := I con C, tiene el polinomio


caracterstico
fD () = ( )n .
Luego = , u
nico valor propio de D, tiene multiplicidad algebraica n y multiplicidad
geometrica n. Esto indica que L() = Cn , es decir, todo vector x Cn , x 6= 0 es vector
propio de D asociado a .
Ejemplo 1.2. Consideremos la matriz A Rnn

1
0

0
1
. .
.

A = .. . . . .
.
...
..
0 ...

dada por

... 0
. . . ..
.

..
. 0
,

1
... 0


1. CONCEPTOS BASICOS

con C, que tiene el mismo polinmomio caracterstico que la matriz del ejemplo anterior,
en efecto,




1
0

0


..

...
0
1
.
.

n
.
.
.

..
..
..
fA () = ..
0 = ( ) .
.

..
..
.
1

0

0

En este caso, el u
nico valor propio de A, = , tiene multiplicidad algebraica n, mientras
que su multiplicidad geometrica es %() = 1. En efecto, de la Definicion 1.4 tenemos


L() = x Cn | (A I)x = 0

0 1 ...
0
x1
0


0
x
0
1
2

. .

n
.
.

.. ..
= x C
.. = .. ,

0 1
xn1 0

0
0
0
x
n

esto es,



L() = {x Cn | x2 = 0, . . . , xn = 0} = x = (x1 , 0, . . . , 0)T | x1 C .

Lo anterior muestra que %() = dim L() = 1.

Definici
on 1.5. Sean A y B Cnn . Las matrices A y B se dicen similares si existe una
matriz P Cnn invertible tal que
B = P1 AP.

(1.6)

Lema 1.2. Sean A y B Cnn . Si A y B son similares, entonces ellas tienen los mismos n
valores propios, contando su multiplicidad algebraica. Ademas, si x es un vector propio de
A, entonces P1 x es vector propio de B, con P que satisface (1.6).
Demostracion. Como A y B son similares, existe P invertible tal que
B = P1 AP.
De lo anterior se deduce que
A = PBP1
y luego


fA () = det(A I) = det(PBP1 PP1 ) = det P(B I)P1 .

Puesto que
entonces

A, B Cnn :

det(AB) = det(A) det(B),

det(P) det(P1 ) = det(PP1 ) = det(I) = 1,


1. CONCEPTOS BASICOS

y en consecuencia,
fA () = det(P) det(B I) det(P1 ) = det(B I) = fB ().

Eso muestra que A y B tienen el mismo polinomio caracterstico y por lo tanto los mismos
n valores propios, contando su multiplicidad algebraica.
Consideremos ahora un valor propio de A y un vector propio x asociado a . Multiplicando a la izquierda por P1 la ecuacion Ax = x obtenemos
P1 Ax = (P1 x).

(1.7)

Por otra parte,


P1 Ax = P1 A(PP1 )x = (P1 AP)(P1 x),
lo cual, en virtud de la igualdad B = P1 AP, conduce a
P1 Ax = B(P1 x).

(1.8)

Se sigue de las igualdades (1.7) y (1.8) que


B(P1 x) = (P1 x).
Notando que P1 x 6= 0, concluimos que P1 x es un vector propio de B asociado al valor
propio .
Definici
on 1.6. Sea B = {u1 , . . . , un } Cn . Se dice que B es una base ortonormal de Cn
si
(
1 para i = j,
ui uj = ij =
0 para i 6= j.
Teorema 1.1 (Forma normal de Schur). Sea A Cnn . Entonces existen matrices U, T
Cnn , U unitaria y T triangular superior, tales que
T = U AU = U1 AU.

(1.9)

Es decir, A es unitariamente similar a una matriz triangular superior.


Demostracion. Procedemos por inducci
  on sobre el orden n de la matriz A. Para n = 1,
es trivial porque basta elegir U = 1 y T = A. Supongamos que el resultado es valido
para todas las matrices de orden k 1. Probemos que es cierto para todas las matrices de
orden k. Sea A Ckk y consideremos un valor propio 1 de A y u(1) un vector propio
asociado elegido de manera que
(1) 2
u = (u(1) ) u(1) = 1.
2
Ahora, de acuerdo al Teorema de Completacion de Base, podemos elegir una base ortonormal
de Ck que contenga a u(1) , digamos B = {u(1) , . . . , u(k) }, y definir la matriz unitaria P1
Ckk como


P1 := u(1) u(2) u(k) .

A continuacion consideremos la matriz B1 = P1 AP1 . Notemos primero que



 

AP1 = Au(1) Au(2) Au(k) = 1 u(1) v(2) v(k) ,

(1.10)


1. CONCEPTOS BASICOS

donde v(j) := Au(j) para j = 2, . . . , k. Al multiplicar por la izquierda (1.10) por P1 se


obtiene

 

B1 = P1 1 u(1) v(2) v(k) = 1 P1 u(1) P1 v(2) P1 v(k) .
Como P1 P1 = I y dado que u(1) es la primera columna de P1 , entonces

1
0

P1 u(1) =
... ,
0

y por lo tanto

1 2 k
0

,
B1 =
...

A2
0

donde A2 C(k1)(k1) y 2 , . . . , k son escalares en C. Aplicamos la hipotesis de induccion


2 C(k1)(k1) , P
2 unitaria, tal que
para concluir que existe P
A2 P
2 = T,

P
2

triangular superior. Entonces, al definir la matriz P2 Ckk por


con T

1 0 0
0

,
P2 :=
.
..

P
2

obtenemos

1 0 0
0

= I.
P2 P2 =
.
..
P
2
P
2
0

As, P2 es unitaria y ademas satisface

1 0 0 1 2 k
0
0

.
P2
P2 B1 P2 =
.
..

P
2 ..
P
A
2
2
0
0

1 2
k
0

P2
=
...

A2
P
2
0

(1.11)


1. CONCEPTOS BASICOS

10

1 0 0
1 2
k

0
0
.
.
=
.
..
..
2
A2
P
P
2
0
0

Al realizar la multiplicacion de matrices indicada y usando (1.11) llegamos a


1 2

k
1 2 k
0
0

=.
=: T,
P2 B1 P2 =
.
..
..

2
A2 P

P
T
2
0
0

donde T es una matriz triangular superior y los j , j = 2, . . . , k, estan dados por


(j) ,
j = (2 , . . . , k )P
2

(j) es la columna j de P
2.
donde P
2
Puesto que
T = P2 B1 P2 = P2 (P1 AP1 )P2 = (P1 P2 ) A(P1 P2 ),
podemos elegir U como la matriz unitaria U = P1 P2 con lo cual
T = U AU.
Del principio de induccion se concluye la validez del teorema.

Captulo 2

M
etodos directos para la soluci
on de sistemas lineales (Parte I)
En este captulo se consideran metodos directos para la solucion de sistemas lineales
Ax = b,

A Knn ,

b Kn ,

K = R o K = C,

(2.1)

donde se supone que det(A) 6= 0. (Un metodo directo entrega la solucion exacta del problema
en un n
umero finito de pasos, al contrario de los metodos iterativos, que se estudiaran mas
adelante.)
Teoricamente, la solucion de (2.1) esta dada por x = (1 , . . . , n )T con


det a1 ai1 b ai+1 an
, i = 1, . . . , n,
i =
det(A)
donde

A = a1


an .

Esta regla es conocida como regla de Cramer. Practicamente, solo en el caso n = 2 o para matrices A especiales, la formula es util por razones de esfuerzo computacional y la acumulacion
de errores de redondeo.
El problema (2.1) nos lleva al problema mas general
AX = B,

A Knn ,

X Knp ,

B Knp ,

(2.2)

el cual incluye el problema de


AX = I
de encontrar la inversa de A. Para resolver (2.2), tomamos en cuenta que este problema
representa la solucion simultanea de p problemas del tipo (2.1), dado que para




X = x1 xp , B = b1 bp ,
tenemos que

AX = B Axi = bi ,

i = 1, . . . , p;

el problema de encontrar A1 es equivalente a n problemas del tipo (2.1), dado que


AX = I Axi = ei ,
11

i = 1, . . . , n,

12

DE SISTEMAS LINEALES (PARTE I)


2. METODOS
DIRECTOS PARA LA SOLUCION


con X = x1


xn y


0
.
..

0

ei := 1 i.
0
.
..

(2.3)

2.1. Sistemas lineales escalonados. Matrices triangulares y su inversi


on
Definici
on 2.1. Sea A = (ij ) Knn . Si ij = 0 para j < i, entonces A se llama matriz
triangular superior; si ij = 0 para i < j, entonces A se llama matriz triangular inferior.
Un sistema lineal con una matriz triangular se llama escalonado.
Los sistemas escalonados juegan un rol importante, dado que sus soluciones pueden ser
determinadas facilmente, por ejemplo en el caso de una matriz A triangular superior:
11 x1 + 12 x2 + + 1n xn = b1 ,
22 x2 + + 2n xn = b2 ,
..
.
n1,n1 xn1 + n1,n xn = bn1 ,
nn xn = bn .

(2.4)

Se usa la u
ltima ecuacion para calcular xn = bn /nn , luego se remplaza xn en la pen
ultima
ecuacion para determinar xn1 , etcetera. Recordamos que para una matriz A triangular,
det(A) =

n
Y
i=1

ii 6= 0 i = 1, . . . , n :

ii 6= 0.

Una matriz triangular puede ser invertida facilmente resolviendo los n sistemas lineales
con las n columnas unitarias. Dado que la inversa nuevamente es una matriz triangular del
mismo tipo, resultan simplificaciones significativas. Considerando el sistema Rx = ei , nos
damos cuenta que x no depende de las columnas i+1, . . . , n de R. Entonces, si particionamos
la matriz R como


R11 r
R=
, R11 K(n1)(n1) , r Kn1 , % K,
0 %
esta observacion se refleja en la formula
 1

R11 %1 R1
1
11 r
.
R =
0
%1
Eso significa que para la implementacion de la inversion de una matriz triangular superior,
podemos sucesivamente remplazar las columnas n, n 1, . . . , 2, 1 de R por las columnas
de R1 .


DE GAUSS
2.2. EL METODO
DE ELIMINACION

13

2.2. El m
etodo de eliminaci
on de Gauss
La idea del metodo de eliminacion de Gauss consiste en transformar un sistema arbitrario
con una matriz n n regular en un sistema con una matriz triangular superior, usando a lo
mas n 1 pasos de transformacion de equivalencia:

..
.
.
..

.
..

0
.

..
.
..
0



.
0 ..
.. ..
. .
0

.. .. ..
..
0 .
. . .
. .
. .
..

.. ..

.
.

=
. . .

. .
. .
..
.
.
.. ..
. . .
0



.. .. ..

0
. . .
. .

..
.. = .. . . . ... 0
.

. .
.
..
.
.

..
.
.
.

0 0

.. .. ..
. . .
. .
..


.
.. = ..
. .
..
. .. ..

.. .. ..
. . .
. .
..
..

.
.
.. = .. .

. .
...
.. ..
0

En esta representacion esquematica del algoritmo, el smbolo representa un elemento que


puede asumir un valor diferente de cero, mientras que por 0 se marca cualquier elemento
que debe asumir el valor cero debido a la definicion del algoritmo.
En el i-esimo paso, i = 1, . . . , n 1, usamos las siguientes transformaciones:
a) Si es necesario, intercambiamos la fila i con una de las filas i + 1, . . . , n del sistema.
b) Si as se desea, intercambiamos la columna i con alguna de las columnas i+1, . . . , n del
sistema. Tal medida sirve para reducir el efecto de acumulacion de errores de redondeo.
c) Sustraccion de m
ultiplos apropiados de la fila i de las filas i + 1, . . . , n.
Para la administracion de los pasos, usaremos el siguiente esquema, que tambien incluye
los n
umeros de filas y columnas. Sean
(1)

ij := ij ,

i, j = 1, . . . , n;

(1)

:= i ,

i = 1, . . . , n.

Al iniciarse la computacion, el esquema esta dado por


1

(1)

(1)

1 11 12
..
..
.
.
(1)
(1)
n n1 n2

n
(1)

1n
..
.

(1)

(1)

1
..
.

(1)

nn n

(2.5)

14

DE SISTEMAS LINEALES (PARTE I)


2. METODOS
DIRECTOS PARA LA SOLUCION

Despues de i 1 pasos, el esquema asume la siguiente forma:


(1)

1
(1)

(1)

1
..
.
..
.
..
.

11

(i1)

i1

(i1)

1,i

..
.

..
.

i1

..

.
...

(i)

(i)

(i)

i1,i
(i)
ii

0
..
.

0
..
.

(i)

(1)
(i1)
(i)

1 , . . . ,
i1 , i , . . . , n(i)

(i1)

i1,i1

0
..
.

n


1,i1

(i)
i

..
.

Aqu

0
..
.
..
.
0

(i1)

..
.
(i)
ni


(i)

1,n

(i)

i1,n

(i)

..
.

(1)
1
..
.
..
.
.. .
.
(i1)

i1

(i)
in

i
..
.

nn

(i)

..
.

(i)

(i)
(1)
(i1)

1 , . . . ,
i1 , i , . . . , n(i)

son permutaciones del vector de ndices (1, . . . , n),


(k)
k ,

(k)

kj ,

(i)

k = 1, . . . , i 1,

j = k, . . . , i 1

son elementos listos del sistema final, y


(i)

kj ,

(i)

k ,

j, k = 1, . . . , n

son elementos del sistema restante antes de los intercambios.


El i-esimo paso de transformacion consiste en primer lugar en un intercambio de filas
(columnas) entre la fila i y una fila j > i y posiblemente entre la columna i y una columna
(i)
k > i, de tal forma que jk se cambia a la posicion (i, i). Los elementos intercambiados los
llamamos
(i)
(i)
(i)
(i)

,
, j = 1, . . . , n, k = i, , . . . , n; , , j = i, . . . , n.
k

jk

(i)

ii

6= 0 (mas adelante demostraremos que esto siempre se puede


Ahora supongamos que
lograr). La i-esima fila ya no se modifica. Los ceros en las posiciones i + 1, . . . , n de la
columna i se generan de la siguiente forma:
(i)

(i+1)
jk

:=

(i)

jk

(i+1)

:=
j ,

(i+1)

:=
k ,

(i)

ji

(i)

(i)

,
(i) ik

ii

(i+1)
j

(i)

i + 1 6 j 6 n,

(i)

i + 1 6 k 6 n.

(i)
:= j

ji

(i)

ii

(i)
i ,

i + 1 6 j, k 6 n,
(2.6)

(i)

El cuociente
ji /
ii se llama multiplicador para la fila j.
Despues de n 1 pasos ponemos por unificacion formal
(n)
(n)

nn
:= nn
,

n(n) := n(n) ,

n(n) := n(n) ,

n(n) := n(n) .


DE GAUSS
2.2. EL METODO
DE ELIMINACION

15

Al final, llegamos al esquema


(1)

1
(1)

1
..
.

(n)

(1)
(n)

1n 1
..
.. ,
..
.
.
.
(n)
(n)

nn n

(1)

11

(n)

(2.7)

el cual puede ser escrito en forma


Ry = c
con una matriz triangular superior R. La solucion de este sistema es y = (1 , . . . , n )T , y
podemos recuperar la solucion x = (1 , . . . , n )T del sistema original a traves de
(i) = i ,

i = 1, . . . , n,

(2.8)

usando la informacion de la primera fila del diagrama (2.7), que indica los ndices de las
componentes de x correspondientes.
La formula esencial para la conversion del sistema restante depues de los cambios es la
siguiente:
(j, k)nuevo = (j, k)antiguo

(j, i)antiguo
(i, k)antiguo ,
(i, i)antiguo

i + 1 6 j 6 n,

i + 1 6 k 6 n.

(2.9)

El divisor de los multiplicadores, el elemento (i, i)antiguo , se llama elemento pivote. Es un


elemento diagonal de la matriz triangular correspondiente.
La parte derecha se transforma a traves del mismo esquema. Resulta u
til guardar los multiplicadores da cada paso de transformacion; se pueden almacenar en las posiciones ocupadas
por cero, y tambien se intercambian.
Ejemplo 2.1. Para ilustrar el algoritmo,

0 1
A = 1 1
1 1

consideramos el sistema Ax = b con


3
3
3 , b = 4 .
3
5

La aplicacion del algoritmo genera la siguiente sucesion de esquemas. Partimos de


(1)

2 = 2

(1)

(1)

1 = 12

(1)

(1)

1 = 22

(1)

(1)

1 = 32

1 = 1

1 = 1 0 = 11
2 = 2 1 = 21
3 = 3 1 = 31

(1)

(1)
(1)
(1)

(1)

3 = 3

3 = 13

(1)

3 = 1

3 = 23

(1)

4 = 2

(1)

3 = 33

(1)
(1)
(1)

5 = 3

16

DE SISTEMAS LINEALES (PARTE I)


2. METODOS
DIRECTOS PARA LA SOLUCION

Intercambiamos filas y columnas para que el elemento (2, 3) asume la posicion diagonal (1, 1).
Es decir, este elemento lo consideramos como pivote:
(1)

2=
2

(1)

1=
12

(1)

(1)

1=
22

(1)

(1)

31

3=
1
(1)

1 = 2

3=
11

21

2 = 1 3 =
=3

3=

1 =

(1)

1=
3

(1)

1=
13

(1)

0=
23

(1)

32

(1)

(1)
(1)

(1)

33

1=

(1)
4 = 1
.
(1)
3 =

5=

2
(1)
3

Ahora calculamos los multiplicadores


(1)

21 :=

21

= 1,

(1)

11

el cual corresponde a la sustraccion de la fila 1, multiplicada por (1), de la fila 2, y


(1)

31 :=

31

= 1,

(1)

11

que corresponde a la sustraccion de la fila 1 de la fila 3. El resultado de estas operaciones es


(1)

2 = 2

3=
11

(1)

1=
12

2 = 1 1 = 21

(2)

2 = 22

(2)

1 = 31 2 = 32

3=
1
(1)

1 = 2
3 = 3

(2)

1 = 3

(2)

(1)

1=
13

(2)

1 = 23

(2)

0 = 33

(1)
(2)

(2)

(1)
4 = 1
(2)

1 = 2

(2)

9 = 3

Intercambiamos las filas 2 y 3 por motivo de ilustracion:


(1)

2=
2

(1)

1=
12

3=
1
(1)

1 = 2
(2)

2 = 3
(2)

3=
11

(2)

1=
3

(2)

1=
13

(2)

0=
23

1 = 21 2 =
22

= 1 1 = 31

2=

(2)

32

(2)

(2)
(2)

1=

(2)

33

(1)
4 = 1
,
(2)
9 =

1 =

2
(2)
3

donde los multiplicadores fueron intercambiados con las filas y luego renombrados. Ahora
calculamos que
(2)

32 :=

32

(2)

22

= 1,


DE GAUSS
2.2. EL METODO
DE ELIMINACION

17

el cual corresponde a la sustraccion de la fila 2, multiplicada por (1), de la fila 3. As finalmente llegamos al esquema
(1)

2=
2

(1)

1=
12

3=
1
(1)

1 = 2
(2)

2 = 3
(3)

3=
11

(2)

1=
3

(2)

1=
13

(2)

0=
23

1 = 21 2 =
22

3 = 1 1 = 31

(3)

(3)
(3)
(3)

1 = 32 1 = 33

(3)

(1)
4 = 1
(2)
9 = 2 .

(3)

(3)

8 = 3

33

(3)
3

Entonces obtenemos la matriz triangular superior R y la parte derecha transformada c dadas


por


3 1 1
4

9 .
R = 0 2 0 , c =
0 0 1
8
La solucion del sistema Ry = c entrega
3 = 8(= 1 ),

9
2 = (= 2 ),
2

1
1 =
3


5
9
4 + 8 = (= 3 ).
2
2

Hasta ahora siempre se ha presumido que cuando la matriz A es no singular, el intercambio de filas (y columnas) siempre nos permite lograr que
(i)

ii 6= 0,

i = 1, . . . , n.

Ahora vemos que este enunciado realmente es valido. Usaremos las siguientes estrategias de
pivote: la b
usqueda del pivote en la columna, donde en el k-esimo paso determinamos el ndice
k tal que
(k)
(k)

(2.10)
kk = max ik
i>k

y solo se intercambain filas, o la b


usqueda del pivote en la matriz restante, donde determinamos el ndice k tal que
(k)
(k)

kk = max ij ,
(2.11)
i,j>k

la cual implica el intercambio de filas y columnas. En ambos casos, los multiplicadores


satisfacen
(i) (i)

/
6 1,
ji

ii

lo que causa un comportamento favorable del error de redondeo.


Ejemplo 2.2 (Tarea 17, Curso 2006).

A = 10
1000

Se considera el sistema lineal Ax = b dado por

1 1
10
1 1 , b = 13 .
0 1
1001

18

DE SISTEMAS LINEALES (PARTE I)


2. METODOS
DIRECTOS PARA LA SOLUCION

La solucion exacta del sistema es x = (1, 2, 1)T . Resolvemos ahora el sistema usando una
aritmetica con cuatro dgitos significativos, usando el algoritmo de Gauss
a) sin pivoteo,
b) con b
usqueda del pivote en la columna.
c) Interpretar los resultados.
Usaremos la representacion cientfica de los n
umeros, por ejemplo
1234,567 1,234567 103 1,235E + 3
3,141759 3,141759 100 3,142E + 0
0,000654321 6,5432 104 6,543E 4.

Transformamos cada resultado intermedio a esta forma y redondeamos hasta el u


ltimo dgito. Ojo: Internamente, las calculadoras usan una exactitud mayor que la desplegada en la
pantalla.
a) Sin pivoteo obtenemos:

7,000 100 1,000 100 1,000 100 1,000 101

e =
A
1,000 101 1,000 100 1,000 100 1,300 101
1,000 103 0,000 100 1,000 100 1,001 103

Fila 2nueva = Fila 2antigua 1,419 100 Fila 1antigua y


Fila 3nueva = Fila 3antigua 1,429 102 Fila 1antigua :

7,000 100
1,000 100
1,000 100
e (1) =
4,290 101 4,290 101
A

1,429 102

1,419 102

1,000 101

1,290 100 .

4,280 102

Ahora calculamos Fila 3nueva = Fila 3antigua 3,331 102 Fila 2antigua :

7,000 100
1,000 100
1,000 100
1,000 101

e (2) =
4,290 101 4,290 101 1,290 100 .
A

La resubstitucion entrega

x3 = 1,700 100 ,

1,000 102

x2 = 1,307 100 ,

1,700 100

x1 = 0,999 100 .

b) Con pivoteo obtenemos

7,000 100 1,000 100 1,000 100 1,000 101

e =
A
1,000 101 1,000 100 1,000 100 1,300 101 .
1,000 103 0,000 100 1,000 100 1,001 103

Intercambiamos la primera y la tercera fila:

1,000 103 0,000 100 1,000 100 1,001 103

1,000 101 1,000 100 1,000 100 1,300 101 .


1,000 100 1,000 100 1,000 100 1,000 101

MATRICIAL DEL ALGORITMO DE GAUSS Y EL TEOREMA LR


2.3. DESCRIPCION

19

Fila 2nueva = Fila 2antigua 1,000 102 Fila 1antigua y


Fila 3nueva = Fila 3antigua 7,000 103 Fila 1antigua :

1,000 103 0,000 100 1,000 100 1,001 103

e (1) =
1,000 100 9,900 101 2,990 100 .
A

1,000 100 9,930 101 2,993 100

Fila 3nueva = Fila 3antigua 1,000 100 Fila 2antigua :

1,000 103 0,000 100 1,000 100


e (1) =
1,000 100 9,900 101
A

La resubstitucion entrega

x1 = 1,000 100 ,

1,001 103

2,990 100 .

3,000 103 3,000 103

x2 = 2,000 100 ,

x3 = 1,000 100 .

c) Con pivoteo, no hay errores de redondeo en este ejemplo, mientras que sin pivoteo, el
error en la segunda componente es de aprox. 35 % y en la tercera de aprox. 70 %.
2.3. Descripci
on matricial del algoritmo de Gauss y el teorema LR
La transformacion descrita en la seccion anterior, Ax = b Ry = c, sera descrita
ahora como operacion matricial. Recordamos que en el algoritmo aparecen las sigiuentes
operaciones: intercambios de filas y combinaciones lineales de filas, que son operaciones
matriciales de la izquierda, y el intercambio de columnas, lo cual es una operacion matricial
de la derecha.
El intercambio de la fila i con una fila k > i es efectuado por multiplicacion de la izquierda
con una matriz de permutacion
T

e1
1
..
.

...
T

ei1

0 0 0 1
ek

..
eT

. 1
0
i+1

..

.
.
.
.
.
.
P= . =
.
.
.
.
T

..
ek1

0
1 .

1 0 0
ei

1
eT

k+1

.
..
..

.
1
eT
n

Analogamente, las columnas i y j > i se intercambian a traves de la multiplicacion de la


derecha por


Q = e1 ei1 ej ei+1 ej1 ei ej+1 en .

20

DE SISTEMAS LINEALES (PARTE I)


2. METODOS
DIRECTOS PARA LA SOLUCION

Nos damos cuenta que P = PT , Q = QT y P2 = Q2 = I. Finalmente, los ceros debajo del


(i)
elemento
ii se generan por multiplicacion de la izquierda por la matriz

1
0

..
..
.

(i)

(i)

i+1,i
= I qi e T
i+1,i .
1

,
q
:=
Ti =
i
i

(i)

(i)

ii

.ii

.
.
..
..
..

(i)
(i)

n,i

n,i
(i)
1
(i)

ii

ii

Aqu qi es el vector compuesto por i ceros y los multiplicadores del i-esimo paso. Para
explicarlo, sea

1
..
.


g = l , l < i
0
.
..
0

alg
un vector (que corresponde a una de las columnas 1 a i 1 de la matriz transformada en
el i-esimo paso). Entonces
T
Ti g = (I qi eT
i )g = g qi (ei g ) = g,
|{z}
=0

o sea, las i 1 primeras columnas quedan sin cambiar. La columna j, j > i, es de la siguiente
forma:
(i)
(i)

1j
0

1j
..
.
..
.
..
.

(i)

(i)

(i)
(i)
(i)
(i)
(i)

i1,j

, h := (i) .
aj =
gj :=
(i) = gj + hj ,
j

i1,j

ij
0
ij
.
.
..
..
..
.
(i)
(i)

n,j
0

n,j
Entonces

(i)

(i)

(i) 

Ti aj = Ti gj + hj

(i)

(i)

(i)

(i)

(i)

= Ti gj + Ti hj = gj + hj qi eT
i h
| {zj }
(i)

=
ij

MATRICIAL DEL ALGORITMO DE GAUSS Y EL TEOREMA LR


2.3. DESCRIPCION

0
.. (i)
(i)

.
0

1j
.1j

. ..
0 ..

.. .

(i)
(i)

(i)

ij

i+1,i
(i)

=
+ (i)
=
ij
,
i1,j

(i)
(i+1)

ii
0 ij

i+1,j
. ..
.

.. ...
.. .

(i)
(i)

(i+1)

0
n,i
n,j

n,j
(i)

ii

(i+1)

21

j = 1, . . . , n,

donde ki = 0 para k > i + 1. Escrita en forma de matrices, la transformacion equivalente


efectuada por el algoritmo de Gauss es la siguiente:

Ax = b
T1 P1 AQ1 Q1 x = T1 P1 b
T2 P2 T1 P1 AQ1 Q2 Q2 Q1 x = T2 P2 T1 P1 b
..
.
T P
. . . T1 P1 AQ1 . . . Qn1 Qn1 . . . Q1 x = Tn1 Pn1 . . . T1 P1 b .
{z
}|
{z
} |
{z
}
| n1 n1
=y

=R

=c

Sea Q := Q1 Q2 . . . Qn1 . La matriz Q describe el efecto combinado de todas las permu(n)


(1)
n , tenemos
taciones de columnas. Eso significa que con la notacion definitiva
1 , . . . ,
h
i
Q = e1(1) e2(2) en(n) .

Entonces QT x = y, o sea

(i) = i ,

i = 1, . . . , n,

identidad que ya usamos mas arriba. Ahora podemos escribir


R =Tn1 Pn1 Tn2 Pn2 . . . T1 P1 AQ

= Tn1 (Pn1 Tn2 Pn1 )(Pn1 Pn2 Tn3 Pn2 Pn1 ) . . .


| {z } |
{z
} |
{z
}
n1
=:T

n2
=:T

n2
=:T

. . . (Pn1 Pn2 . . . P2 T1 P2 . . . Pn2 Pn1 )(Pn1 Pn2 . . . P1 AQ),


|
{z
} |
{z
}
=:P

1
=:T

es decir, definiendo

P := Pn1 Pn2 . . . P1 ,

n1 := Tn1 ,
T
i := Pn1 . . . Pi+1 Ti Pi+1 . . . Pn1 ,
T

obtenemos la formula

i = 1, . . . , n 2,

n1 T
n2 . . . T
1 PAQ.
R=T

22

DE SISTEMAS LINEALES (PARTE I)


2. METODOS
DIRECTOS PARA LA SOLUCION

Podemos aprovechar P2j = I para concluir que


i = Pn1 . . . Pi+1 (I qi eT )Pi+1 . . . Pn1
T
i
T
Pi+1 qi ei

= I Pn1 . . .
|
{z

=:
qi

i eT
=Iq
i ,

i = 1, . . . , n 1,

puesto que las matrices Pi+1 , . . . , Pn describen intercambios de elementos con ndice > i + 1,
es decir, no afectan a eT
un nuestra construccion, el vector qi es el vector de los multii . Seg
plicadores del i-esimo paso de eliminacion, los cuales estan sujetos a los mismos intercambios
de filas que el sistema restante en los pasos de eliminacion i + 1, . . . , n 1.
i es una matriz triangular inferior con diagonal (1, . . . , 1),
En virtud de lo anterior, T
1

1 . . . T
1 . Entonces tenemos que
tanto como las matrices Ti y el producto T
1
n1
1
1

PAQ = T1 . . . Tn1 R = LR,


|
{z
}
=:L

donde R es una matriz triangular superior y L es una matriz triangular inferior con diagonal
(1, . . . , 1). Ademas, sabemos que
1 = I + q
i eT , i = 1, . . . , n 1,
T
i

lo que implica que

1 eT
2 eT
n1 eT
L = (I + q
1 )(I + q
2 ) . . . (I + q
n1 ).

k = 0 para j 6 k, podemos escribir


Dado que eT
j q
L=I+

n1
X

k eT
q
k,

k=1

es decir, los elementos de L debajo de la diagonal son los multiplicadores (intercambiados).


Ahora queda para demostrar que el algoritmo nunca termina para una matriz A regular,
(i)
o sea, que aplicando intercambios apropiados siempre podemos lograr que
ii 6= 0 para
i = 1, . . . , n. Eso incluso es valido si no usamos intercambios de columnas (solamente de
filas). Si no fuera as, existira un ndice k tal que
(k)

ik = 0,
o sea

i = k, . . . , n,

... ...
.. .. ..

. . .

.
.

. . .. ... ...

.
Tk1 Pk1 Tk2 . . . T1 P1 A =
..
|
{z
}

det(... )6=0
0 ..

.. ..

. .
0 ...

..
.
..
.

.. = det(A) = 0,
.

..
.
..
.

MATRICIAL DEL ALGORITMO DE GAUSS Y EL TEOREMA LR


2.3. DESCRIPCION

23

una contradiccion. La consideraciones anteriores pueden ser resumidas en el siguiente teorema.


Teorema 2.1. Sea A Knn una matriz regular. Entonces existen una matriz de permutacion P, una matriz triangular inferior L con diagonal (1, . . . , 1) y una matriz triangular
superior R, todas pertenecientes a Knn , tales que PA = LR.
Si el algoritmo de Gauss es aplicado a un sistema lineal Ax = b, la matriz P es la matriz
de permutacion que describe el efecto de todos los intercambios de filas, Q es la matriz de
permutacion que describe el efecto de todos los intercambios de columnas, R es la matriz
triangular superior que resulta y L es la matriz triangular inferior con diagonal (1, . . . , 1) y
los multiplicadores (adecuadamente intercambiados), entonces tenemos que PAQ = LR.
Ejemplo 2.3.

P= 0
1

Para la matriz del

1 0
0

0 1 , Q= 0
0 0
1

Ejemplo 2.1, obtenemos que

0 1
1
0 0
1 0 , L = 1
1 0 ,
0 0
1 1 1

Ejemplo 2.4.
a) Nos interesa calcular una descomposicion
pivote en la matriz restante, de la matriz

1 3

A= 2 1
2 2

3 1 1
R = 0 2 0 .
0 0 1

triangular PAQ = LR, con b


usqueda de

2
4 .
8

(2.12)

Indicar explcitamente las matrices P, Q, L y R


b) Utilizando la descomposicion de (a), queremos calcular A1 .
Solucion sugerida.
a) Las etapas consecutivas del algoritmo de Gauss son las siguientes:
1
1 1
2 2
3 2
Entonces

2 3
3
3 2
3 8

1 4
2 4
2 8
1 2

L =
4
1

0 0

1 0
,

4
1
7

2
2
1
3

R = 0

3
8

3
1
2
2 1
2
2
1
1
1
4
2
7
2
0

2
2
2
7
2

1
2

3
8

1
3 1
4
3
1
2
2
2

2
2

1
2

7
2
4
7

3 .
2
15
7

0 0 1
0 0 1
3

, P = 1 0 0 , Q = 0 1 0 .
2

0 1 0
1 0 0
15
7

24

DE SISTEMAS LINEALES (PARTE I)


2. METODOS
DIRECTOS PARA LA SOLUCION

b) Usando

L1

obtenemos

A1

1 0
=
, R1

4
5
4

1
14
7

1
1
1

8
14
15

2
1
,
=

0
7
5

7
0
0
15

1
1
7
1
4

12
15 15
30
15

2
1
1
P = 2
= QR1 L1 P = Q
0

5
5
5

5
1

4
1
1
7

6
15 15
30
15

1
6

0
.

12

Ejemplo 2.5 (Certamen 1, Curso 2006). Se consideran la matriz A y el vector b dados por


6 3 1
1

A = 8 5 2 , b = 2 .
9 7 4
3

a) Usando el algoritmo de Gauss con b


usqueda del pivote en la columna, determinar una
matriz P de permutacion, una matriz L = (ij ) triangular inferior con 11 = 22 =
33 = 1 y una matriz R triangular superior tales que PA = LR.
b) Resolver el sistema Ax = b.
c) Usando el algoritmo de Gauss con b
usqueda del pivote en la matriz restante, determinar matrices P, Q de permutacion, una matriz L = (ij ) triangular inferior con
11 = 22 = 33 = 1 y una matriz R triangular superior tales que PAQ = LR.
Solucion sugerida.
a) Salimos del esquema

e =
A

1 6 3 1 1
2 8 5 2 2
3 9 7 4 3

donde 9 es el pivote. Intercambiando Fila 1 con Fila 3, obtenemos


3 9 7 4 3
2 8 5 2 2
1 6 3 1 1

MATRICIAL DEL ALGORITMO DE GAUSS Y EL TEOREMA LR


2.3. DESCRIPCION

25

Ahora,

8
Fila 2nueva = Fila 2antigua Fila 1antigua
9
2
Fila 3nueva = Fila 3antigua Fila 1antigua :
3
3 9

8
9
2
3

2
1

23
11
14
9
9
53

53

35

35

donde 89 y 32 son multiplicadores almacenados y 53 es el nuevo pivote. Luego, intercambiando Fila 2 con Fila 3,
3 9
2
3
8
9

1
2

11
14
23
9
9

Ahora, calculamos Fila 3nueva = Fila 3antigua


plicador

11
15

para obtener

3 9
1
2
El u
ltimo esquema

0
P = 1
0

2
3
8
9

11
Fila 2antigua y almacenamos el multi15

35 53 1

implica que

1
0 1
0 0 , L = 32
8
1 0
9

11
15

13

0
1
11
15

0
0 ,
1

1
15

9 7
4
R = 0 53 35 .
0 0 13

b) Aplicando una resubstitucion a la parte derecha co-transformada, obtenemos


 5
1
1

x3
3 4x3 7x2
1
1
4
15
3
x3 =
= .
= , x2 =
= , x1 =
1
5
5
5
9
5

3
3
c) Una inspeccion del primer paso de (a) muestra que 9 seria escogido como pivote
tambien por la b
usqueda en la matriz restante, asi que este primer paso es igual al
primer paso del metodo con b
usqueda en la matriz restante. Asimismo, 35 tambien
seria el pivote en el segundo paso. Concluimos que la b
usqueda del pivote en la matriz
restante genera el mismo resultado que (a), asi que las matrices P, A y R son las
especificadas arriba, y Q = I.

26

DE SISTEMAS LINEALES (PARTE I)


2. METODOS
DIRECTOS PARA LA SOLUCION

El significado de los elementos pivotes se aclara en el siguiente teorema, formulado para


una descomposicion triangular sin intercambios. Para el caso general, hay que remplazar A
por PAQ.
Teorema 2.2. Si el algoritmo de Gauss se ejecuta hasta el paso k, 1 6 k 6 n 1, sin
intercambios de filas o columnas, entonces tenemos que


11 . . . 1k
k
Y

(j)
.. = k-esimo subdeterminante principal de A.
jj = ...
.


j=1
.
.
.

k1
kk

Entonces, si todos los subdeterminantes principales de A son diferentes de cero, se puede ejecutar el algoritmo de Gauss sin intercambio de filas ni de columnas. En este caso, finalmente
obtenemos que
det(A) =

n
Y

(j)

jj .

j=1

Demostracion. Primero notamos que

11 . . . 1k
.. = e
...
1
.
k1 . . . kk

ek

T


ek .


A e1

Luego tomamos en cuenta que seg


un nuestra construccion,
(1)

11

..
..
..
...
0
.
.
.


.. 
..
..
(k) ..
k
.
.
Rk A
kk .
.
=
Tk . . . T1 A = .
,
..
..
0

..
0
.
.

.
.
.
.
.
.
.
.
.
.
.
0
0
o sea, dado que

1
T1
1 . . . Tk

21 . .
.
..
..
.
1

..
= .
k+1,k 1

..
.
..
.
0 ..
.
.
..
.. . .
..
.
.
.
n1
nk 0

..
0

.
1

MATRICIAL DEL ALGORITMO DE GAUSS Y EL TEOREMA LR


2.3. DESCRIPCION

27

donde ji son los multiplicadores, obtenemos que

T


11 . . . 1k
e1

k 
.. = .. T1 . . . T1 Rk A
...
e

e
1
k
.
.
1
k
0

k1 . . . kk
eT
k
T
 
e1
Rk
.
1
1
= .. T1 . . . Tk
0
eT
k

1
0 0
..
..  
.

.
. Rk
21 . .
= .
= Lk Rk .
.
..
.
.
..
..
..
..
. 0
k1 k,k1 1 0 0
Puesto que det(Lk ) = 1, concluimos que


11 . . . 1k
k
.
.. = det(L R ) = det(R ) = Y (j) .
..
k k
k
.
jj



j=1
.
.
.

k1
kk

Para k = n 1, de Tn1 . . . T1 A = R resulta

det(Tn1 ) det(Tn2 ) . . . det(T1 ) det A = det R =


| {z }
| {z } | {z }
=1

=1

=1

n
Y

(j)

jj .

j=1

Las hipotesis del Teorema 2.2 son satisfechas para matrices estrictamente diagonal dominantes y matrices definidas positivas.
Definici
on 2.2. Una matriz A Knn se llama estrictamente diagonal dominante si
n
X
i = 1, . . . , n : |ii | >
|ij |.
j=1
j6=i

Una matriz A = A se llama definida positiva si


x Cn , x 6= 0 :

x Ax > 0.

Teorema 2.3. Todos los subdeterminantes principales de una matriz A Cnn estrictamente diagonal dominante son diferentes de cero.
Demostracion. Para demostrar el teorema, es suficiente demostrar que una matriz A =
(aij ) Cnn estrictamente diagonal dominante es no singular, dado que cada submatriz
principal de una matriz estrictamente diagonal dominante es estrictamente diagonal dominante. Para tal efecto, supongamos que A es una matriz estrictamente diagonal dominante
del tama
no n n, pero que existe un vector x = (x1 , . . . , xn )T 6= 0 tal que
Ax = 0.

(2.13)

28

DE SISTEMAS LINEALES (PARTE I)


2. METODOS
DIRECTOS PARA LA SOLUCION

Dado que x 6= 0, existe un ndice m {1, . . . , n} tal que




|xm | = max |x1 |, . . . , |xn | > 0.

(2.14)

Evaluando la m-esima componente de (2.13), tenemos


amm xm +

n
X

amj xj = 0,

j6=m
j=1

lo que podemos reescribir como


amm xm =

n
X

amj xj .

j6=m
j=1

Tomando valores absolutos, tenemos


|amm ||xm | 6

n
X

|amj ||xj |,

j6=m
j=1

y usando (2.14), llegamos a


|amm ||xm | 6 |xm |

n
X
j6=m
j=1

|amj |.

Dividiendo por |xm |, obtenemos


|amm | 6

n
X
j6=m
j=1

|amj |,

una contradiccion a la diagonaldominancia estricta de A.


Teorema 2.4. Todas las submatrices principales de una matriz definida positiva y hermitiana son definidas positivas y tienen determinante positivo. Todos los valores propios de una
matriz definida positiva son positivos.
Demostracion. Sea A hermitiana, entonces existe una matriz U unitaria tal que
U AU = diag (1 , . . . , n ),
donde 1 , . . . , n son los valores propios de A. Sean y1 , . . . , yn las columnas de U. Ahora,
sea x := yi para i = 1, . . . , n. Entonces tenemos

y1



0 < x Ax = yi y1 yn diag(1 , . . . , n ) ... yi = eT


i diag (1 , . . . , n )ei = i .

yn

DE CHOLESKY
2.4. LA DESCOMPOSICION

29

Dado que det A = 1 2 . . . n , resulta det A > 0. Ahora sea Ak una submatriz principal
de A, es decir,


ai 1 i 1 ai 1 i k
i1
.
.
.. 6= 0.

..
..
Ak =
, y sea xk =
.
ai k i 1

ai k i k

ik

Ahora sea i = 0 si i {1, . . . , n}\{i1 , . . . , ik } y x = (1 , . . . , n )T . Entonces


x Ax = xk Ak xk > 0.

Ademas, la matriz A es hermitiana, por lo tanto podemos aplicar la misma conclusion que
para la matriz A a la matriz Ak .
2.4. La descomposici
on de Cholesky
Seg
un el Teorema 2.4, en el caso de una matriz hermitiana definida positiva no es necesario
intercambiar columnas y filas durante la ejecucion del algoritmo de Gauss, es decir, al calcular
la factorizacion en matrices triangulares. Puesto que


11 . . . 1i
.
..
..


.

11 . . . 1k


.

.
.
.

i1
ii
.. > 0, k = 1, . . . , n y (i) =
..

,
.
ii

11 . . . 1,i1



kk
k1 . . .
..
...
.


i1,i1
i1,1 . . .
(i)

tenemos que ii > 0 para i = 1, . . . , n. Finalmente, resulta que todas las matrices restantes
(k+1) 
ij
, k + 1 6 i, j 6 n, k = 1, . . . , n 1
son hermitianas, o sea llegamos a A = LR con
(1)

(n)
11 1n

..
(2)

.
22

R=
.. ,
..
.

.
(n)
nn
Entonces, definiendo

llegamos a

(i)
ii

> 0,

(1)

12
(1)
11
L=
...

(1)

1n
(1)

11

1
1
D := diag q
,..., q
,
(1)
(n)
11
nn
L
,
A = LR = LD1 DR = L

1
..

..

(n1)

n1,n
(n1)

n1,n1

30

DE SISTEMAS LINEALES (PARTE I)


2. METODOS
DIRECTOS PARA LA SOLUCION

:= LD1 . Esa forma simetrica de descomposicion en matrices triangulares


donde definimos L
se llama descomposicion de Cholesky. Existe solamente para matrices hermitianas definidas
ij de la matriz triangular inferior L
pueden ser calculados sucesipositivas. Los elementos
con la
vamente por columnas, aprovechando que ij es el producto escalar de la fila j de L
ii > 0 para todo i. En este caso,
. El calculo es u
columna i de L
nico cuando exigimos que
la identidad
i
X
ik
ik
ii =

k=1

nos lleva a la identidad

i1
X
2

|ii | = ii
ik > 0,
2

k=1

ii de forma u
de la cual podemos despejar
nica de la siguiente forma:
v
u
i1
X
u
2
t


ii := ii
ik .

(2.15)

k=1

Ahora, para j > i sabemos que

ji =

i
X

,
jk

ik

k=1

por lo tanto,
ji = 1

ii

ji

i1
X

jk

ik

k=1

Las ecuaciones (2.15) y (2.16) implican que




jk 6 jj , k = 1, . . . , j,

i = 1, . . . , n.

(2.16)

j = 1, . . . , n.

(2.17)

de Cholesky es grande comparado con


Eso significa que ninguna componente del factor L
los elementos de A, lo que significa que el algoritmo no es muy sensible con respecto a errores
de redondeo.
Ejemplo 2.6. Aplicando las formulas (2.15)
matriz

60
A = 30
20

los siguientes elementos de L:

11 = 60 = 2 15,

21 = 30 = 15,

60

y (2.16), calculamos sucesivamente para la

30 20
20 15
15 12

DE CHOLESKY
2.4. LA DESCOMPOSICION

31

31 = 20 = 2 5 ,

3
60
q

22 = 20 ( 15)2 = 5,

r !

1
5
32 =
15 15 2

= 5,
3
5
v
u
r !2
u

1
33 = t12 2 5

( 5)2 = .
3
3

El siguiente teorema es una consecuencia inmediata del Teorema 2.4 y de la Definicion 2.2.
Teorema 2.5. La matriz A es hermitiana y definida positiva si y solo si ella posee una
descomposicion A = LL , donde L es una matriz triangular inferior invertible.
Ejemplo 2.7 (Tarea 4, Curso 2006). Queremos
L tal que A = LLT , donde

1
A Rnn , A =

determinar una matriz triangular inferior

1
... ...

,
.. ..
. 1
.
1 2

(2.18)

donde el resultado debe ser general con respecto a n. Desp


ues de calcular a mano algunos
casos con n peque
no, una solucion razonable es

2
r
r

3
1

2
2

r
r

2
4

L=
(2.19)
.
3
3

..
..

.
.

r
r

n1
n + 1

n
n

Para verificar que (2.19) realmente es la solucion deseada, definimos los vectores
r
r
r
r


i1
i+1
i1 T
i+1 T
li := 0, . . . , 0,
,
, 0, . . . , 0 =
ei1 +
e .
i | {zi }
i
i i
i

Entonces tenemos

hli , li i = 2,

hli1 , li i = hli , li+1 i = 1,

y hli , lj i = 0 si |i j| > 2.

32

DE SISTEMAS LINEALES (PARTE I)


2. METODOS
DIRECTOS PARA LA SOLUCION

Ejemplo 2.8 (Certamen 1, Curso 2006). Se

1
A = 2
0

considera la matriz

2 0
13 12 .
12 41

a) Econtrar una matriz triangular inferior L tal que A = LLT (descomposicion de Cholesky).
b) Determinar la ultima columna de A1 , usando la descomposicion de Cholesky.
c) Las matrices B y L sean dadas por

1 3 2 1 2
1 0 0 0 0
3 10 10 6 11
1 0 0 0

B=
2 10 24 18 26 , L = 2 4 0 0
1 6 18 39 24
1 7 2 5 0
2 11 26 24 32
2 5 1 1

Se pueden encontrar n
umeros , y
Solucion sugerida.
a) Calculando sucesivamente los elementos

1
L = 2
0
b) Sean



A1 = x y z ,

tales que A = LLT ?

de L, resulta

0 0
3 0 .
4 5


I = e1 e2 e3 .

De la identidad AA1 = I sacamos que el vector z deseado satisface el sistema lineal


Az = e3 . Para aprovechar la descomposicion de Cholesky, LLT z = e3 , determinamos
primero un vector w tal que Lw = e3 , luego determinamos z de LT z = w. Este
procedimiento entrega
1
1
4
8
w1 = 0, w2 = 0, w3 = ; z3 = ; z2 = ; z1 = .
5
25
75
75
Entonces, el vector deseado es
1
z = (3, 4, 8)T .
75
c) En clase demostramos que los elementos en la j-esima fila de L son menores o iguales
en valor absolutos que la raiz del j-esimo elemento diagonal de A. En la fila 4, aparece
el elemento 42 = 7. Pero 72 = 49 < 39, lo cual es el elemento diagonal de A,
independiente de , y . Entonces nunca se pueden determinar tales que A = LLT .
Ejemplo 2.9 (Tarea 7, Curso 2006).

A= 2
1

Sean

2 1
0 2 ,
2 1

1 0 0
I = 0 1 0 .
0 0 1

(2.20)

DE CHOLESKY
2.4. LA DESCOMPOSICION

Usando el algoritmo de la descomposicion de Cholesky, calcular hasta un decimal




t0 := mn t R : A + tI es definida positiva .

33

(2.21)

Solucion sugerida. Seg


un el Teorema 2.5, la matriz A es definida positiva si y solo si
el algoritmo de Cholesky puede ser ejecutado. Tratamos de hacerlo para la matriz A + tI e
identificamos las restricciones para t que aparecen. Recordamos que los elementos diagonales
de L deben ser reales. Para la primera columna de L = (ij ) obtenemos

11 = t 1,
(2.22)
2
21 =
,
(2.23)
t1
1
31 =
.
(2.24)
t1
Obviamente, de (2.22) obtenemos el requerimiento
t > 1.

(2.25)

Para los elementos de la segunda columna tenemos


r
r
4
t2 t 4
=
,
22 = t
t1
t1
r
r
2(t 2)
t1
t 1 2t 4
21 ) =
32 =
(2 21
=p
.
2
2
t t4
t t4 t1
(t 1)(t2 t 4)
La solucion de t2 t 4 = 0 es

1
t=
2

(2.26)
(2.27)

17
;
4

usando (2.25) concluimos que

r
1
17
t> +
= 2,56155 . . . .
2
4
Finalmente, para el u
ltimo elemento de L tenemos
s
s
2
1
4(t 2)
(t)
33 = t 1

=
,
2
t 1 (t 1)(t t 4)
(t 1)(t2 t 4)

(2.28)

donde la funcion
(t) = (t2 2t)(t2 t 4) 4(t 2)2 = t4 3t3 6t2 + 24t 16
debe ser positiva. Ahora, tratando t = 3, obtenemos (t) = 2 > 0. Usando que para cualquier
matriz B definida positiva, tambien B + tI es definida positiva para t > 0, tenemos que
buscar
r


1
17
t0
+
,3
2
4

34

DE SISTEMAS LINEALES (PARTE I)


2. METODOS
DIRECTOS PARA LA SOLUCION

Usando (2,75) = 0,5742


. . . , (2,8) = 0,2304 . . . y (2,9) = 0,7011, la respuesta es
t0 = 2,8 . . . . (De hecho, (2 2) = 0.)
Ejemplo 2.10 (Certamen 1, Curso 2010).

1
2
A=
1
1

Se considera la matriz

2 1
1
8 4 2
.
4 18 3
2 3 11

a) Econtrar una matriz triangular inferior L tal que A = LLT (descomposicion de Cholesky).
b) Determinar la tercera columna de A1 , usando la descomposicion de Cholesky.
c) Se puede aplicar la descomposicion de Cholesky a la siguiente matriz?

5 4 2 1 1 2
4 3 1 1 1 1

2 1 2 0 1 4
B=

1 1 0 3 2 1
1 1 1 2 0 1
2 1 4 1 1 2

Solucion sugerida.
a) Sea

l1
l2
L=
l4
l7

0
l3
l5
l8

0 0
0 0
.
l6 0
l9 l10

Entonces, comparando los elementos de LLT , obtenemos sucesivamente


l12 = 1 l1 = 1,
l1 l2 = 2 l2 = 2,
l22 + l32 = 8 l3 = 2,
l1 l4 = 1 l4 = 1,

1
l2 l4 + l3 l5 = 4 l5 = (4 (2)) = 1,
2
l42 + lh2 + l62 = 18 l6 = 18 1 1 = 4,
l1 l7 = 1 l7 = 1,
1
l2 l7 + l3 l8 = 2 l8 = (2 (2) 1) = 0,
2
1
l4 l7 + l5 l8 + l6 l9 = 3 l9 = (3 1 1) = 1,
4
2
2
2
2
l7 + l8 + l9 + l10 = 11 l10 = 11 1 1 = 3,

TRIANGULAR Y CASOS ESPECIALES


2.5. APLICACIONES DE LA DESCOMPOSICION

es decir

1
0
0
2 2
0
L=
1 1 4
1
0 1

35

0
0
.
0
3

b) Sea z la tercera columna de A1 , entonces z es la solucion del sistema lineal Az =


e3 = (0, 0, 1, 0)T . Utilizando la descomposicion de Cholesky, podemos determinar Z
resolviendo primeramente el sistema Ly = e3 y luego LT z = y. As obtenemos


0
4

5
1
1
0
;
.
z=
y=
12 3
144 10
1
4
c) No. La matriz contiene la submatriz principal

 

a11 a12
5 4
=
=
a21 a22
4 3

con det = 1 < 0; seg


un el Teorema 2.4, B no es definida positiva y no se puede
aplicar la descomposicion de Cholesky.
2.5. Aplicaciones de la descomposici
on triangular y casos especiales

Cuando conocemos una descomposicion PAQ = LR de una matriz A donde P y Q son


matrices de permutacion, podemos facilmente resolver el sistema lineal Ax = b para una
parte b derecha arbitraria: en virtud de A = PT LRQT , tenemos que
Ax = b PT LRQT x = b LRQT x = Pb.

Con la notacion d := Pb, y := QT x y z := Ry procedemos de la siguiente forma:


1. Definimos


T
1
1
e1
.
.
i := i , i = 1, . . . , n, donde d = .. , b = .. , P = ... .
n
n
eT
n
2. Resolver Lz = d para determinar z.
3. Resolver Ry = z para determinar y.
4. Obtenemos
i = i ,

i = 1, . . . , n,



1
1

.

.
donde y = . , x = ... , Q = e1
n
n


en .

Eso significa que es posible tratar primero la matriz A por el algoritmo de Gauss para
determinar su descomposicion triangular, y luego resolver el sistema Ax = b siguiendo
los pasos 1 a 4. En comparacion con el algoritmo original, este procedimiento no significa
ning
un aumento del tiempo computacional ni del espacio de almacenaje. La descomposicion

36

DE SISTEMAS LINEALES (PARTE I)


2. METODOS
DIRECTOS PARA LA SOLUCION

triangular tambien puede ser usada para invertir la matriz A, aunque esta tarea se presenta
solo rara vez.
Sea PAQ = LR, donde P y Q son matrices de permutacion, L es triangular inferior y
R es triangular superior. Entonces sabemos que
A = PT LRQT ,

A1 = QR1 L1 P.

(2.29)

Las matrices R y L pueden ser invertidas (sin espacio de almacenaje adicional) si formamos
sucesivamente las columnas n, n 1, . . . , 1 de R1 y 1, 2, . . . , n de L1 (aprovechando que
la diagonal (1, . . . , 1) de L es conocida). Al formar el producto R1 L1 podemos usar la
0
estructura especial de la matriz. Si 0ij , %0ik y ij
son los elementos de L1 , R1 y A1 ,
respectivamente, sabemos que
n
X
0
ij =
%0ik 0kj , i, j = 1, . . . , n,
k=m
ax{i,j}

donde 0jj = 1. Finalmente, hay que aplicar las permutaciones decritas por P y Q. dado
que P = Pn1 . . . P1 y Q = Q1 . . . Qn1 , (2.29) implica que los intercambios de filas
aplicados durante la descomposicion triangular deben ser aplicados en el orden revertido a
las columnas del producto, y analogamente los intercambios de las columnas a las filas del
producto. Se puede demostrar que el esfuerzo computacional es de n3 + O(n2 ) operaciones
del tipo := + o := + /.
Definici
on 2.3. Una matriz A Knn se llama matriz casi triangular o matriz de Hessenberg si ij = 0 para j < i 1.

Definici
on 2.4. Una matriz A Knn se llama (p, q)-matriz de banda si ij = 0 para
j < i p y j > i + q.
En las aplicaciones frecuentamente aparecen matrices tridiagonales con p = q = 1. Si no
se usa el intercambio de columnas para una matriz de Hessenberg, no es necesario eliminar
en cada paso la matriz restante entera, sino que solo una fila de ella. (Por ejemplo, la
desconocida 1 aparece solamente en la primera y la segunda ecuacion.) Eso significa que
abajo de la diagonal, la matriz L tiene a lo mas un elemento diferente de cero en la primera
subdiagonal. En el caso que no se necesita ning
un intercambio, la matriz L es una matriz
bidiagonal (p = 1, q = 0).
Si para una matriz de banda no se necesita ning
un intercambio, la matriz L tiene p + 1
bandas y la matriz R tiene q + 1 bandas, o sea la informacion sobre la descomposicion ocupa
solo n (p + q + 1) elementos de almacenaje.

Captulo 3

M
etodos directos para la soluci
on de sistemas lineales (Parte II)
3.1. Normas de vectores y matrices
Definici
on 3.1. Sea A Cnn . Se define el espectro de A, denotado (A), como el conjunto
de todos los valores propios de A. Ademas, se llama radio espectral de A a
r (A) := max ||.
(A)

Definici
on 3.2. Sea V un espacio vectorial sobre el cuerpo C. Se llama norma de vector a
toda aplicacion k k : V R+
0 tal que para todo x, y V y C se verifica:
1. kxk > 0 si x 6= 0 y kxk = 0 si y solo si x = 0.
2. kxk = ||kxk.
3. kx + yk 6 kxk + kyk.
Damos a continuacion algunos ejemplos de normas para el espacio Cn :
n
X
kxk1 :=
|xi |,

(3.1)

kxk2 := (x x)1/2 =

(3.2)

i=1

kxk := max |xi |,

n
X
i=1

|xi |2

!1/2

16i6n

(3.3)

a las que nos referimos como norma 1, norma 2 y norma , respectivamente; en


general, para p [1, ) definimos
!1/p
n
X
kxkp :=
|xi |p
(3.4)
i=1

como norma p.

on continua.
Teorema 3.1. Una norma k k : Kn R+
0 es una funci

Demostracion. Tomamos en cuenta que para x = (1 , . . . , n )T , y = (1 , . . . , n )T





kxk kyk = kxk k yk
6 kx yk
n
X
6
|i i |kei k
i=1

37

38

DE SISTEMAS LINEALES (PARTE II)


3. METODOS
DIRECTOS PARA LA SOLUCION

6 max kei k max |i i |,


16i6n

16i6n

y aplicamos la definicion de la continuidad.


Teorema 3.2. Si kk y kk son dos normas sobre Kn , entonces existen constantes m, M > 0
tales que
x Kn :

mkxk 6 kxk 6 M kxk.

(3.5)

Demostracion. Sean k k := k k y k k arbitraria (el caso general sigue por transitividad).


Sea
n
o

n
T
S := x K x = (1 , . . . , n ) , max |i | = 1 .
16i6n

El conjunto S es compacto. Puesto que k k es continua, existen xm , xM S tales que


kxm k = mn kxk =: m,
xS

Entonces,
n

x K , x 6= 0 :

kxM k = max kxk =: M.


xS



x

m6
kxk 6 M,

lo que implica (3.5) en virtud de la homogeneidad (item 2. en la Definicion 3.2). (Para x = 0,


(3.5) es trivial.)
Definici
on 3.3. En el espacio Cnn se llama norma de matriz a toda aplicacion k k :
nn
Cnn R+
y todo C se verifica:
0 tal que para todas matrices A, B C
1. kAk > 0 si A 6= 0 y kAk = 0 si y solo si A = 0.
2. kAk = ||kAk.
3. kA + Bk 6 kAk + kBk.
4. kABk 6 kAkkBk.
En correspondencia con cada norma vectorial k k de Cn , se define una norma para
matrices A Cnn por medio de la expresion
kAk := max
x6=0

kAxk
= max kAxk.
kxk=1
kxk

(3.6)

Esta norma matricial se dice inducida por la norma vectorial. En particular, las normas
vectoriales 1, 2 e inducen las siguientes normas matriciales, a las cuales igualmente nos
referimos como norma 1, norma 2 y norma , respectivamente:
kAk1 := max kAxk1 := max
kxk1 =1

16j6n

kAk2 := max kAxk2 ,

n
X

kxk2 =1

kAk := max kAxk = max


kxk =1

16i6n

i=1

|aij |,

n
X
j=1

(3.7)
(3.8)

|aij |.

(3.9)

3.1. NORMAS DE VECTORES Y MATRICES

39

Tambien se define sobre Cnn la siguiente norma, la cual no es inducida por una norma
vectorial,
!1/2
n
X
kAkF :=
|aij |2
,
(3.10)
i,j=1

y que se llama norma de Frobenius.


Definici
on 3.4. Una norma de matriz se dice compatible con una norma de vector si, para
cada A Cnn y para cada x Cn , se tiene que
kAxkvector 6 kAkmatriz kxkvector .
Note que de la definicion (3.6) de desprende que cada norma matricial inducida por
una norma vectorial es compatible con la norma vectorial que la induce. As tenemos, en
particular, que las normas matriciales 1, 2 e son compatibles con las correspondientes
normas vectoriales 1, 2 e . Por otra parte, la norma de Frobenius, que como indicamos no
es inducida por norma vectorial alguna, es compatible con la norma vectorial 2.
Teorema 3.3. Si A Cnn , entonces
kAk2 =

p
r (A A).

Demostracion. Es claro que A A es una matriz hermitiana. Por el Teorema del Eje Principal
sabemos que A A tiene n vectores propios que forman una base ortonormal de Cn .
Veremos a continuacion que los valores propios de A A son ademas no negativos. En
efecto, si es un valor propio de A A y v es un correspondiente vector propio asociado,
entonces
A Av = v
y ademas,
kAvk22 = (Av) (Av) = v (A A)v = v (v) = kvk22 .
Como kvk =
6 0, de esta u
ltima relacion deducimos que
=

kAvk22
> 0.
kvk22

(3.11)

Ahora sean 1 > 2 > . . . > n son los valores propios de A A y {v(1) , v(2) , . . . , v(n) } un
conjunto de vectores propios asociados que forman una base ortonormal de Cn . Entonces,
para x Cn \{0} existen escalares 1 , . . . , n tales que
x=

n
X

j v(j) .

(3.12)

j=1

Por otro lado,


kAxk22 = (Ax) Ax = x (A A)x.

(3.13)

40

DE SISTEMAS LINEALES (PARTE II)


3. METODOS
DIRECTOS PARA LA SOLUCION

Remplazando (3.12) en (3.13) y reordenando,


!
!
n X
n
n
n
X
X
X

(i)
2
(j)
=
i
j i v(j) v(i) ,
(A A)
i v
kAxk2 =

j v
j=1 i=1

i=1

j=1

y como v(j) v(i) = ij , entonces


kAxk22

i=1

En forma analoga calculamos


kxk22

n
X

=x x=

|i | i 6 1

n X
n
X

i j v

n
X
i=1

(j) (i)

j=1 i=1

|i |2 .

n
X
i=1

(3.14)

|i |2 .

(3.15)

De (3.14) y (3.15) concluimos que


x Cn \{0} :
lo cual equivale a
kAk2 := max
x6=0

kAxk2 p
6 1 ,
kxk2
kAxk2 p
6 1 .
kxk2

(3.16)

Para mostrar que la cota 1 se alcanza, basta exhibir un vector no nulo para el cual la
igualdad se cumpla en (3.16). Con esta finalidad sea v1 un vector propio asociado a 1 .
Entonces, de (3.11) obtenemos inmediatamente que
p
kAv1 k2
1 =
,
kv1 k2

esto es, el maximo de (3.16) se alcanza en x = v1 y es igual a 1 . Notando que 1 = r (A A)


se concluye la demostracion.
Corolario 3.1. Si A es hermitiana, entonces kAk2 = r (A).
p
p
Demostracion. Puesto que kAk2 = r (A A) y A = A, entonces kAk2 = r (A2 ). Como
se tiene que
r (A2 ) = (r (A))2 ,

inmediatamente se llega a
kAk2 =
que es lo que se quera demostrar.

p
(r (A))2 = r (A),

Teorema 3.4. Sea k k alguna norma vectorial sobre Cn y k k la norma matricial inducida.
En este caso,
B Cnn :

r (B) 6 kBk.

3.1. NORMAS DE VECTORES Y MATRICES

41

Demostracion. Sea un valor propio de B con || = r (B) y x 6= 0 un vector propio asociado.


Entonces
es decir,

kxk = ||kxk = r (B)kxk = kBxk 6 kBkkxk,


kBk >

kBxk
= r (B).
kxk

Teorema 3.5. Sea B Cnn una matriz arbitraria, con > 0 arbitrario dado. Entonces
existe una norma vectorial k kB sobre Cn tal que para la norma matricial asociada,
kBkB 6 r (B) + .

Demostracion. Seg
un el Teorema 1.1 (sobre la forma normal de Schur), existe una matriz U
unitaria tal que

1
. . . . . . ..

.
0

U BU = . .
=: (%ik ).
.
..
..
..
0 0 n

Para los elementos arriba de la diagonal (%ik con k > i) sabemos que
n X
n
X
%ik =
li ls sk , U =: (sk ).
s=1 l=1

Eso significa

|%ik | 6 n2 ,
Sean
:= mn
En este caso,

:= max |ls |.
16l,s6n

,1 ,
n3 ( + 1)

D := diag(1, , . . . , n1 ).

D1 U BUD = (%ik ki ),
entonces
kD1 U BUDk = max

16i6n

n
X
k=i

|%ik ki |

6 max |%ii | + max


16i6n

16i6n

n
X

k=i+1
2

6 r (B) + (n 1)n
6 r (B) +

|%ik |

n2 (n 1)
< r (B) + .
n3 ( + 1)

42

DE SISTEMAS LINEALES (PARTE II)


3. METODOS
DIRECTOS PARA LA SOLUCION

w
x
v
Ux
kxk2

e1

Figura 3.1. Ilustracion de (3.17), (3.18) (demostracion del Teorema 3.6).


Por otro lado,
kD1 U BUDk = max
x6=0

kD1 U BUDxk
kD1 U Byk
= max
.
y6=0 kD1 U yk
kxk

Entonces la norma deseada es kxkB := kD1 U xk .

Teorema 3.6. Sea x Cn , x 6= 0. Entonces existe una matriz U unitaria y hermitiana tal
que
Ux = exp(i)kxk2 e1
Especficamente para x Rn , podemos elegir
U = I 2uuT ,

( R apropiado).

donde uT u = 1 (Matriz de Householder).

Demostracion. Sea
x 6= exp(i)kxk2 e1 ,
sino ponemos
U := I 2e1 eT
1.
Podemos ilustrar el problema de la siguiente forma: estamos buscando una transformacion
unitaria del vector x al primer eje de coordenadas. Cuando x ya es un m
ultiple de e1 ,
podramos elegir U = I. Pero, para lograr una formula u
nica para todo vector x, ponemos
U := I 2e1 eT
1

3.1. NORMAS DE VECTORES Y MATRICES

43

(cambio de signo). Ahora, si x no es un m


ultiple de e1 , podriamos transformar x a kxk2 e1 a
traves de una rotacion. Pero como exigimos que U = U, U2 = I, la aplicacion deseada debe
ser involutiva, es decir, una reflexion (ver Figura 3.1). Ahora que conocemos el resultado de
la aplicacion a un vector x, podemos elegir U como la reflexion de x en un hiperplano con
vector normal w, es decir, cuando
x = w + v,

w v = 0 (v arbitrario),

(3.17)

debemos tener
Ux = w + v.

(3.18)

Esto se satisface para Uw = w y Uv = v. Si {w, v1 , . . . , vn1 } es un sistema ortonormal


completo de Cn , entonces



U = w v1 vn1 w v1 vn1






= w v1 vn1 w v1 vn1 2 w 0 0 w v1 vn1
= I 2ww ,

con w w = 1. Ahora falta determinar el vector w. Queremos que


Ux = x 2(ww )x = exp(i)kxk2 e1 .

Entonces, cuando w = (w1 , . . . , wn )T y := w x, se debe cumplir

exp(i)kxk2

0.
,
x 2 w =
.

.
0
lo que significa que

2
n
, . . . , wn =
.
2
2
Queda para determinar y w1 . Sabemos que
w2 =

lo que es equivalente a

1 2 w1 = exp(i)kxk2

( apropiado),

1 exp(i)kxk2
.
2
Si 1 = exp(i)|1 |, sea := + , entonces exp(i) = exp(i) y luego
w1 =

w1 =

exp(i)(|1 | + kxk2 )
.
2

En virtud de w w = 1 tenemos que



1
2
2
2
2
|
|
+
2|
|kxk
+
kxk
+
|
|
+

+
|
|
= 1,
1
1
2
2
n
2
4| |2
lo que implica

4| |2 = 2kxk2 |1 | + kxk2 ,

44

DE SISTEMAS LINEALES (PARTE II)


3. METODOS
DIRECTOS PARA LA SOLUCION

es decir, podemos elegir


2 =


2kxk2 |1 | + kxk2 .

En este caso, w es determinado unicamente hasta un factor complejo de valor absoluto 1.


Eso entrega

exp(i)(|1 | + kxk2 )

2
1

w=p
.

..
2kxk (| | + kxk )
2

con 1 = exp(i)|1 | y Ux = exp(i)kxk2 e1 . Especialmente para x Rn tenemos que


exp(i) = 1, entonces U = I 2uuT con u R, uT u = 1.

Para la aplicacion del Teorema 3.6 hay que tomar en cuenta que la matriz U puede ser
escrita como

exp(i)(|1 | + kxk2 )

2
,
w
, w
:=
U = I w
.

..
n

donde

(
1
si 1 = 0,
exp(i) =
1 /|1 | sino,

1
.
kxk2 (1 + kxk2 )

Para aplicar U a alg


un vector y, tomamos en cuenta que
y)w,

Uy = y ( w

es decir, nunca hay que almacenar la n n-matriz U, sino que solo la informacion esencial,

y w.
3.2. El problema de la sensitividad para un sistema lineal
Consideremos el siguiente problema: esta dado el sistema Ax = b, suponiendo que el
del
problema tiene una u
nica solucion. Ahora, cual es la relacion entre x y la solucion x

sistema A
x = b, cuando kA Ak y kb bk son suficientemente peque
nas? Del mismo
1 A1 k. Empezamos con un caso simple, la
tipo es el problema de estimar la norma kA
pertubacion de la matriz unitaria.
Teorema 3.7. Sea k k una norma vectorial sobre Cn . Como norma matricial sobre Cnn se
usa la norma matricial asociada. Si H Cnn cumple kHk < 1, entonces I + H es regular
y tenemos que


1
(I + H)1 6
,
(3.19)
1 kHk


(I + H)1 I 6 kHk .
(3.20)
1 kHk

3.2. EL PROBLEMA DE LA SENSITIVIDAD PARA UN SISTEMA LINEAL

45

Demostracion. Dea x 6= 0 un vector arbitrario. Primero hay que demostrar que (I+H)x 6= 0,
lo que es equivalente a k(I + H)xk =
6 0. Pero


(I + H)x = kx + Hxk
> kxk kHxk

> kxk kHkkxk



= 1 kHk kxk > 0.

Ademas, tenemos que



1 = kIk = (I + H)(I + H)1



> (I + H)1 H(I + H)1




> (I + H)1 kHk (I + H)1


= 1 kHk (I + H)1 ,

lo que implica (3.19). Por otro lado,





(I + H)1 I = (I + H)1 (I + H)1 (I + H)


= (I + H)1 H


6 kHk (I + H)1 ,
lo que demuestra (3.20).

Corolario 3.2. Si r (H) < 1, entonces I+H es regular y tambien en este caso el Teorema 3.7
es valido.
Demostracion. Usar el Teorema 3.5.
Corolario 3.3. Si r (H) < 1, entonces I + H es regular y

X
(I + H)1 =
(1)k Hk (Series de Neumann).
k=0

Demostracion. Usamos el Corolario 3.2 y definimos


n
X
Sn :=
(1)k Hk .
k=0

Entonces, para m > n,

kSn Sm k 6

m
X

k=n+1

kHkk 6 kHkn+1

para n > N (), es decir existe el lmite

S := lm Sn .
n

En virtud de
Sn (I + H) = Sn + Sn H

1
<
1 kHk

(3.21)

46

DE SISTEMAS LINEALES (PARTE II)


3. METODOS
DIRECTOS PARA LA SOLUCION

n
X
k=0

(1) H
n+1

= I (1)
resulta

n
X

(1)k+1 Hk+1

k=0
n+1




S(I + H) I = Sn (I + H) I + (S Sn )(I + H)
1
<
6 kHkn+1 + kS Sn k
1 kHk

para n > N (), mientras que la parte izquierda no depende de , lo que concluye la demostracion de (3.21).
con
Corolario 3.4. Para una matriz A regular y otra matriz A
Ak < 1,
kA1 kkA
es invertible, y
A
1 A1 k
kA
1
Ak
.
6 kA1 kkA
1
Ak
kA k
1 kA1 kkA
Demostracion. Usamos
=A+A
A = A I + A1 (A
A)
A
y definimos

A).
H := A1 (A
es regular. Luego obtenemos
Entonces kHk < 1, por lo tanto I + H es invertible y A
1 A1 k
kA
k(I + H)1 A1 A1 k
=
6 k(I + H)1 Ik
kA1 k
kA1 k
Ak
kHk
kA1 kkA
6
6
.
Ak
1 kHk
1 kA1 kkA

Definici
on 3.5. Sea A regular. La cantidad
condkk (A) := kAkkA1 k
se llama n
umero de condicion de A para la solucion de un sistema lineal.
Kn . Sea k k la norma
Knn , b
Teorema 3.8. Sea A Knn regular y 0 6= b Kn , A
matricial inducida por la norma vectorial k k y
Ak < 1.
kA1 kkA

3.2. EL PROBLEMA DE LA SENSITIVIDAD PARA UN SISTEMA LINEAL

47

satisface
x = b
Ademas, sea x := A1 b. Entonces la solucion u
nica de A
!
bk kA
Ak
k
x xk
kb
1
6 condkk (A)
+
.
Ak
kxk
kbk
kAk
kA
1 condkk (A)
kAk

(3.22)

1 sigue del Corolario 3.4. Luego calculamos que


Demostracion. La existencia de A

= A1 b + A1 (b
b) + (I + A1 (A
b),
A))1 I A1 (b + b
1 b
=A
x

A),
es decir, definiendo H := A1 (A


b) + (I + H)1 I x + A1 (b
b) .
= x + A1 (b
x
Ak < 1, llegamos a
Entonces, aprovechando (3.20) y kHk 6 kA1 kkA

Ak
k
x xk
kA1 kkA
1 kb bk
6 kA k
+
Ak
kxk
kxk
1 kA1 kkA

bk
kb
1 + kA1 k
kxk

Dado que

kbk = kAxk 6 kAkkxk =


y definiendo

resulta la desigualdad

kAk
1
6
,
kxk
kbk

Ak
kA
kAk
,
:= kAkkA1 k
Ak
k
A
1 kAkkA1 k
kAk
bk
k
x xk
kb
6 + kAkkA1 k
(1 + ).
kxk
kbk

(3.23)

Obviamente, siempre se tiene que


condkk (A) > r (A)r (A1 ) > 1.
Cuando condkk (A)  1, eso significa que la influencia de errores menores (por ejemplo, de
errores en A o en errores de redondeo) pueden causar cambios fuertes en la solucion del
sistema lineal. Se dice entonces que el sistema es mal acondicionado. (Recordamos que los
errores de redondeo pueden ser interpretados como una modificacion la matriz A seguida
por la solucion exacta del sistema.) Este problema se ilustra en el siguiente ejemplo.
dados por
x = b
Ejemplo 3.1. Consideramos los sistemas Ax = b y A


1 1
1




2 3
6
0,5 0,337
0,165

A=
, b = , A =
, b=
0,337 0,246
0,165
1 1
1

3 4
6

48

DE SISTEMAS LINEALES (PARTE II)


3. METODOS
DIRECTOS PARA LA SOLUCION

con las respectivas soluciones


x=
En este caso,
Ak
kA
kAk


1
,
2

0,0076
= 0,0092,
0,83

Insertando esto en (3.22), resulta la cota

=
x


1,5920898
.
2,8517654

bk
kb
= 0,01,
kbk

(3.24)

condkk (A) = 50.

16
k
x xk
6
= 1.7,
kxk
9

mientras que usando las verdaderas soluciones (3.24)

k
x xk
= 0,42588,
kxk
es decir, en este caso la cota sobreestima el verdadero error relativo en un factor un poco
mas de 4.
Ejemplo 3.2 (Tarea 8, Curso 2006). Se considera la matriz

10 5 1
A := 8 9 1 .
0 1 3

a) Usando el Teorema 3.7, demostrar que A es invertible. Aviso: Usar A = D+B, donde
D = diag(a11 , a22 , a33 ).
b) Determinar una cota superior para condkk (A) en una norma kk apropiada sin invertir
A o calcular det A.
c) Ademas consideramos

10,1
10,05 5,1 1,05
10
= 9,8 , A
= 8,1 9,1 0,95 .
b = 10 , b
9,7
0,05 1 3,1
10

respectivamente. Determinar
x = b,
sean la solucion de Ax = b y A
Los vectores x y x
k/kxk sin calcular x o x
.
una cota superior (la mejor posible) para kx x
Solucion sugerida.
a) Usamos A = D + B = D(I + D1 B), donde

1 1
0

2 10

8
1
1

.
D B=
0

9
9

1
0
0
3
1
Dado que kD Bk1 = 8/9 < 1, la matriz A es invertible.

3.2. EL PROBLEMA DE LA SENSITIVIDAD PARA UN SISTEMA LINEAL

49

b) Obviamente kAk1 = 18. Usando la parte (a), tenemos

kA1 k1 = k(I + D1 B)1 D1 k1 6 k(I + D1 B)1 k1 kD1 k1


1
1
1
6
kD1 k1 =
= 3,
1
8
1 kD Bk1
3
1
9

entonces condkk1 (A) 6 54.


c) Obtenemos
bk1
kb
= 0,02,
kbk1

Ak1 = 0,2
kA



1
0,2
0,2
k
x xk1
6 54 0,02 +
1 54
= 4,2.
=
kxk1
18
18

Ejemplo 3.3 (Tarea 10, Curso 2006). Se desea resolver el sistema Ax = b con


1000 10 1
b1

A = 1000 0 0 , b = b2 , 1 6 b1 , b2 , b3 6 10.
1000 0 1
b3
Los coeficientes de A y b han sido pertubados por ciertos errores A y b.
a) Determinar cotas para y con
:=

kAk
,
kAk

:=

kbk
kbk

tales que puede ser garantizado que


k/kxk < 0,01,
kx x
donde Ax = b y (A + A)
x = b + b.
b) Supongamos que de la solucion x nos interesa solamente la tercera componente. Indicar
una transformacion simple del sistema original que permite una cota significativamente
mejor (que la de (a)) de |
x3 x3 |/|x3 | en dependencia de las perturbaciones de los
coeficientes del sistema transformado.
Solucion sugerida.
a) En lo siguiente, sea k k = k k . Tenemos con la notacion indicada
( + ) condkk (A)
k
x xk
6
.
kxk
1 condkk (A)
Dado que
A1

0 0,001
0
0
0,1 ,
= 0,1
0
1
1

50

DE SISTEMAS LINEALES (PARTE II)


3. METODOS
DIRECTOS PARA LA SOLUCION

sabemos que kAk = 1011, kA1 k = 2 y por lo tanto condkk (A) = 2022. Sean , 6 s,
entonces
k
x xk
s
6 4044
< 0,01.
kxk
1 2022s
Dado que

2as
b
6 b = s 6
,
1 as
a(2 + b)

resulta s = 2,47 106 .


b) Dividimos la primera columna por 1000 y la segunda por 10, lo que es equivalente a
resolver un sistema para (
x1 , x2 , x3 ) con 1000
x1 = x1 y 10
x2 = x2 . En este caso,

1 1 1
0 1 0
= 1 0 0 A
1 = 1 0 1 condkk (A)
= 6, s = 8,3 104 .
A
1 0 1
0 1 1

Ahora uno podra pensar que debido a la tecnica de estimacion usada en la demostracion
del Teorema 3.8, siempre se sobreestima bruscamente el error, es decir la cantidad k
x
xk/kxk. Demostraremos ahora que esto no es as. Para tal efecto, vamos a construir matrices
para las cuales esta cantidad alcanza la cota establecida por el lado de derecho de (3.22) hasta
un error arbitrariamente peque
no. Para construir tales matrices necesitamos el concepto de
la descomposicion en valores singulares.
Teorema 3.9 (Descomposicion en valores singulares). Sea A Cmn con m > n. Entonces existen matrices unitarias U Cmm y V Cnn y una matriz diagonal =
diag(1 , . . . , n ) con elementos diagonales i > 0, i = 1, . . . , n, tales que
 

V
(3.25)
A=U
0
Demostracion. Las matrices AA y A A son ambas hermitianas y definidas semi-positivas,
dado que
x A Ax = kAxk22 > 0.
Por lo tanto, existe una matriz unitaria V tal que
V A AV = diag(12 , . . . , n2 ),

(3.26)

donde 12 , . . . , n2 son los valores propios (no negativos) de A A. Ahora, si


AA y = y,
tenemos = 0 o A y 6= 0. Si A y 6= 0, entonces

y 6= 0,

A AA y = A y,

o sea A y es un vector propio de A A y es el vector propio correspondiente, es decir,


{12 , . . . , n2 }. Entonces AA posee el valor propio 0 con multiplicidad m n (A y =
0 posee por lo menos m n soluciones linealmente independientes) y los valores propios

3.2. EL PROBLEMA DE LA SENSITIVIDAD PARA UN SISTEMA LINEAL

51

12 , . . . , n2 (pueden ocurrir valores i2 = 0). En virtud de lo anterior, existe una matriz


unitaria U Cmm tal que
 2 
0

U AA U =
.
0 0
La matriz B := A U satisface

b1



B B = ... b1 bm = diag(12 , . . . , n2 , 0, . . . , 0),


bm
o sea


B = b1 bn 0 0 , donde bi bj = i2 ij , i, j = 1, . . . , n.
Eso significa que





0

B = V
0 =V

unitaria. Dado que


con una matriz V

BB = A A = V2 V ,
es la misma matriz V que aparece en (3.26). Finalmente, resulta
esta matriz V
 

A = UB = U
V .
0
Ejemplo 3.4 (Tarea 11, Curso 2006). Sea

5
5
A=
1,4
0,2

2,5
2,5
.
7,7
1,1

Determinar matrices unitarias U C44 y V C22 y una matriz diagonal = diag(1 , 2 )


con 1 , 2 > 0 tales que
 

A=U
V .
0
Aviso: calcular primero V de V A AV = 2 , y luego para la computacion de U, usar
 

AV = U
0
y un metodo de ortonormalizacion para las otras columnas de U.
Solucion sugerida. El polinomio caracterstico de la matriz


52 36

A A=
36 73
tiene los ceros

(52 )(73 ) = 1296 = 1 = 25 = 12 , 2 = 100 = 22 .

52

DE SISTEMAS LINEALES (PARTE II)


3. METODOS
DIRECTOS PARA LA SOLUCION

Los vectores propios correspondientes son




 


0,8
0,6
0,8 0,6
v1 =
, v2 =
= V =
.
0,6
0,8
0,6 0,8
Para determinar las primeras dos columnas de U, u1 y u2 , usamos que

2,5 5
2,5 5 


AV =
3,5 7 = 1 u1 2 u2 ,
0,5 1
donde 1 = 5 y 2 = 10. Entonces

0,5
0,5

u1 =
0,7 ,
0,1


0,5
0,5

u2 =
0,7 .
0,1

Como dos vectores ortonormales adicionales podemos usar

0,5
0,1
0,7
0,5
0,1
0,7

u3 =
0,02 , u4 = 0,14 = U = 0,7
0,1
0,98
0,14

0,5 0,7 0,1


0,5 0,7
0,1
.
0,7 0,02 0,14
0,1 0,14 0,98

La descomposicion en valores singulares sirve para la computacion de la pseudo-inversa


de Moore-Penrose de una matriz.
Definici
on 3.6. Sea A Cm,n . La pseudo-inversa de Moore-Penrose es una matriz A+ con
A+ A = (A+ A) ,

(3.27)

AA = (AA ) ,
+

(3.28)

A AA = A ,

(3.29)

AA+ A = A.

(3.30)

Se puede demostrar que la matriz A+ siempre existe y es u


nica.
Lema 3.1. Sea A Cmn , m > n, y

 

A=U
V
0

la descomposicion en valores singulares de A. Entonces




A+ = V + 0 U ,

Demostracion. Tarea.

+ := diag(1+ , . . . , n+ ),

(
1/i
i+ :=
0

si i > 0,
sino.

3.2. EL PROBLEMA DE LA SENSITIVIDAD PARA UN SISTEMA LINEAL

53

Lema 3.2. Sea A Cnn una matriz regular con la descomposicion en valores singulares
:= b + un ,
A = UV con 1 > 2 > . . . > n > 0, b := u1 (la primera columna de U), b
En este caso,
x = b.
:= A un v , Ax = b y A
> 0, A
1


k
x xk2
1
1
=
1+
,
kxk2
n
1

mientras que la evaluacion del lado derecho de la desigualdad (3.22) entrega la cota


k
x xk2
1
1
1
6
1+
,
kxk2
n
1 1
n
es decir, para , la cota establecida por el Teorema 3.8 se alcanza hasta O(2 ).

Demostracion. Primero demostramos que para cada matriz A Cnn , cada vector b Cn
y cada matriz unitaria B Cnn se cumple
kAk2 = kBAk2 ,

Para demostrar (3.31), notamos que

kbk2 = kBbk2 .

(3.31)

kbk22 = b b = b B Bb = kBbk22 ,


kAk22 = r (A A) = r (A B BA) = r (BA) BA = kBAk22 .

Luego, usando A = UV y tomando en cuenta que r (VV ) = 1, tenemos


kAk22 = kU Ak22 = kV k22 6 kk22 r (VV ) = max i2 .
16i6n

Dado que
kAk2 = max kAxk2 ,
kxk2 =1

obtenemos (usando x = v1 ):
kAxk22 = kUV v1 k22 = ke1 k22 = 12 = kAk2 = 1 .

(3.32)

Luego derivamos una expresion para condkk (A). (En lo que sigue, usamos k k = k k2 .)
Para tal efecto, notamos que
A1 = (UV )1 = (V )1 1 U1 = V1 U .
Eso significa que A1 posee la siguiente descomposicion en valores singulares con las matrices
:= V, V
:= U:
unitarias U
1 V
,
A1 = U
y analogamente a la derivacion de (3.32) tenemos
1
1
=
.
16i6n i
n

kA1 k = k1 k = max
Combinando este resultado con (3.32), tenemos
condkk (A) =

1
.
n

(3.33)

54

DE SISTEMAS LINEALES (PARTE II)


3. METODOS
DIRECTOS PARA LA SOLUCION

Ahora consideramos el sistema lineal Ax = b con b = u1 . Entonces


1
1
1
V x = U u1 = e1 = V x = 1 e1 = e1 = x = Ve1 = v1 .
1
1
1
Por otro lado,
i = Avi un v vi = UV vi un v vi = U(i ei ) un 1i
Av
1
1
(
1 u1 un si i = 1,
=
i ui
sino.
, podemos usar la formula de Sherman-Morrison. Alternativamente, dado
Para determinar x

= v1 + vn . En este caso, el
que b = u1 + un , podemos tratar un planteo de la forma x

sistema A
x = b se transforma a
(1 u1 un ) + n un = u1 + un ,
entonces
1
1 = 1 = = ,
1

n = = =
n

Ambos metodos entregan


1

= v1 +
x
1
n
lo que implica
k
kx x
=
kxk


1
+1 .
1


1
+ 1 vn ,
1


1


+ 1 kvn k
1 1
1
+1 .
=
1
n 1
kv1 k
1

Ahora, evaluando la parte derecha de la desigualdad (3.22) del Teorema 3.8, tenemos


k 1 kun k k un v1 k
kx x
1
6
+
1 k un v1 k
kxk
n ku1 k
1
1
n
1


1
kun v1 k
1
= 1+
.

n
1
1 kun v1 k
n
Queda para demostrar que
Sea x Cn . Entonces podemos escribir

kun v1 k = 1.

x=

n
X
i=1

i vi ,

(3.34)

3.2. EL PROBLEMA DE LA SENSITIVIDAD PARA UN SISTEMA LINEAL

y entonces para x 6= 0

55


!
n


X


i vi = k1 un k = |1 |
kun v1 xk = un v1


i=1

|1 |
kun v1 xk
=
=
6 1.
2
kxk
(|1 | + + |n |2 )1/2
Por otro lado, para x = v1 tenemos
kun v1 xk
= 1,
kxk

asi que (3.34) es valido. Finalmente, definimos


1
1
0
f () :=

2 ,
= f () =

1
n 1
n
n

es decir, para un (0, ) sigue (desarrollando f () por = 0)

f () = 1 +

2 ,

n 1
n
entonces



k 1
1

kx x
6 1+
1+
kxk
n
1
n (1 /n )2




1
1
1
1
2 1
.
= 1+
+ 2 1+
n
1
1 (1 /n )2
n
|
{z
}
=O(2 )

Entonces, si A Cnn y A = UV es la descomposicion en valores singulares, sabemos


que A es regular si y solo si es regular, y
kAk2 = max{1 , . . . , n },

kA1 k2 = max{11 , . . . , n1 },

condkk2 (A) = 1 /n

si 1 > . . . > n > 0.

En muchos casos, los coeficientes A y b de un sistema lineal se conocen solamente aproximadamente, a lo mas se puede estimar el orden de magnitud de los errores. Sean A0 y b0
dados con
|A0 A| 6 E,

E Rnn
+ ,

|b0 b| 6 d,

d Rn+ .

En esta situacion no hay mucho sentido en resolver el sistema lineal A0 x0 = b0 con gran
, cuya exactitud corresponde a la
exactitud, sino que se busca una solucion razonable x
de A0 y b0 . Sorpresivamente, podemos decidir sin conocer el n
umero de condicion de A0 si
es una aproximacion razonable de x0 .
x

56

DE SISTEMAS LINEALES (PARTE II)


3. METODOS
DIRECTOS PARA LA SOLUCION

Teorema 3.10 (Criterio de Prager & Oettli). Sean






A := A | |A A0 | 6 E , B := b | |b b0 | 6 d ,

n
Rn es dado. Entonces existen una matriz A A
donde E Rnn
+ , d R+ son dados, y x
y un vector b B tales que A
x = b si y solo si

| 6 E|
|b0 A0 x
x| + d.

(3.35)

se llama solucion aproximada compatible con A0 x0 = b0 .


En este caso, el vector x
Demostracion. Hay que demostrar dos implicaciones.
: Supongamos que A
x = b. Entonces, dado que b A
x = 0, podemos escribir:


| = b0 b + b A
|b0 A0 x
x + (A A0 )
x


6 |b0 b| + (A A0 )
x
6 d + |A0 A||
x|
6 d + E|
x|.

: Supongamos que

| 6 E|
|b0 A0 x
x| + d,

Entonces definimos

),
%i := eT
i (b0 A0 x

con E = (ij ), d = (1 , . . . , n )T .


i := eT
x| + d ,
i E|

Sabemos que |%i | 6 i , es decir



%i
6 1 para i 6= 0.
i
(0)

(0)

i = 1, . . . , n.

(0)

Ademas, supongamos que A0 = (ij ), b0 = (1 , . . . , n )T . Ahora vamos a construir


explcitamente una matriz A y un vector b tales que A
x = b. Sean A = (ij ),
= (1 , . . . , n ) tales que
b = (1 , . . . , n )T y x

(0) %i ij sgn(j )
(0) %i i si 6= 0,
ij +
si i 6= 0,
i
i
i
ij =
i =
i
(0)
(0)
sino.
ij
sino,
i
Entonces tenemos que |A A0 | 6 E, |b b0 | 6 d, y
n
X
T
ei (A
x b) =
ij i i
j=1

n
X (0)

(0)

ij j i = 0
si i = 0,

j=1
n
n
= X
%i X
(0)
(0)

ij j i +
ij sgn(j )j + i = 0 sino.

j=1
j=1

|
{z
}
{z
}
|
=%i

=i

3.2. EL PROBLEMA DE LA SENSITIVIDAD PARA UN SISTEMA LINEAL

57

El sistema de desigualdades
| 6 E|
6 E|
|b0 A0 x
x| + d E|
x| d 6 b0 A0 x
x| + d
representa un sistema de desigualdades lineales por trozos, dado que hay desigualdades dife . El conjunto
rentes para las 2n distribuciones posibles de los signos de las componentes de x
de sus soluciones, es decir, el conjunto de las soluciones aproximadas compatibles con (E, d)
se reduce para E = 0, d = 0 al punto x0 , la solucion de A0 x0 = b0 . Si para (E, d) peque
no
el conjunto es grande, eso significa que la matriz A es mal acondicionada.
Las consideraciones de esta seccion son de gran interes para el analisis del efecto de errores
de redondeo durante la solucion de sistemas lineales. Los computadores y las calculadoras
representan un n
umero real con un n
umero fijo de dgitos en la forma
=

t
X

i i ,

i=1

{2, 10, 16},

donde es la base de la representacion, k es un n


umero entero (en un cierto rango) y
i {0, 1, . . . , 1}, con 1 6= 0 si 6= 0.
Ahora, las operaciones aritmeticas con tales n
umeros no entregan precisamente n
umeros
del mismo tipo. El redondeo tiene como consecuencia que las operaciones aritmeticas no
pueden ser ejecutadas de forma exacta, sino que solo de forma aproximadamente exacta
como aritmetica de maquina o pseudo-aritmetica. Ahora, si
m(#),

# {+, , , /}

denota esta aritmetica, se puede demostrar que cas siempre tenemos


m(#) = (#)(1 + ),

# {+, , , /},

(3.36)

donde || 6 , y := t+1 es la exactitud de maquina.


Ahora, si usamos el algoritmo de Gauss con esa aritmetica de maquina y x denota el
resultado, se puede demostrar (usando (3.36)) que (A + E)x = b, donde A y b son los
coeficientes de entrada realmente usados y la matriz E satisface la siguiente desigualdad:
kEk 6 1,2(n3 + n2 ) si n 6 0,09,
 (k)

:= max ij | k 6 i, j 6 n, 1 6 k 6 n .

(3.37)

El valor de depende decisivamente de la estrategia del pivoteo. Junto con la tarea de hacer
ejecutable el algoritmo (evitando divisiones por cero), la estrategia de pivoteo sirve para
garantizar que no crece demasiado. Se puede demostrar que
6 2n1 max |ij |
16i,j6n

con b
usqueda del pivote en la columna, y

6 n 2 31/2 n1/(n1) max |ij |
16i,j6n

con b
usqueda del pivote en la matriz restante.

58

DE SISTEMAS LINEALES (PARTE II)


3. METODOS
DIRECTOS PARA LA SOLUCION

Los valores de / max16i,j6n |ij | observados en la practica son de la magnitud entre 1


y 10. Eso significa que x es la solucion exacta de un sistema lineal con datos de entrada
ligeramente modificados, por ejemplo datos compatibles en el senito del criterio de Prager
& Oettli con d = 0 y

1 1
.. .
E = 1,2(n3 + n2 ) ...
.
1 1
En virtud de esta discusion, el algoritmo de Gauss con estratega de pivoteo se llama benigno
o estable.
Si se calcula la descomposicion triangular de una matriz singular con estratega de pivoteo
(i)
en aritmetica de maquina, al lugar de una columna con ki = 0 para k > i aparece una
columna con
(i)

ki 6 c,

k > i,

(3.38)

donde c es una constante similar a la de (3.37). Eso significa que bajo el efecto de errores de
redondeo, ya no podemos seguramente detecter la singularidad de una matriz. Se terminara la
computacion al detectar (3.38) con c = n.
Entonces, usando aritmetica de maquina es posible que no se puede decidir cual es el
rango de una matriz. La descomposicion en valores singulares es una buena herramienta
para la defincion de un rango numerico de una matrix A. Por supuesto, esta definicion
considera la incerteza en los elemntos de A y la exactitud de la aritmetica usada. Por ejemplo,
una aproximacion de A (por ejemplo, por redondeo) con kA Ak
6 , conocida, y
sea A
 
= U V
A
0
con los valores singulares 1 > . . . > n > 0 y U, V unitarias. Entonces se aceptaran solo
aquellos valores singulares como intrinsicamente diferentes de cero para los cuales i > .
Si en tal caso tenemos 1 > . . . > r > > r+1 > . . . > 1 , el n
umero r se llama rango
numerico o pseudo-rango de A.
Ejemplo 3.5 (Certamen 1, Curso 2010).
a) Calcular una descomposicion triangular PAQ
matriz restante, de la matriz

1 1 2
1
1
3
A=
2 1
3
1
2 1

= LR, con b
usqueda de pivote en la

4
4
.
6
8

(3.39)

Indicar explcitamente las matrices P, Q, L y R.


b) Resolver el sistema Ax = b, donde b = (15, 7, 24, 17)T .
c) Sean e := (1, 1, 1, 1)T , E := eeT , y d := e. Decidir si los siguientes vectores son
una solucion aproximada (en el sentido del criterio de Prager & Oettli) del sistema

3.2. EL PROBLEMA DE LA SENSITIVIDAD PARA UN SISTEMA LINEAL

59

Ax = b (i) para = 0,1, (ii) para = 0,5:

1,01
1,98

x1 :=
3,99 ,
2,01

1,05
1,95

x2 :=
3,95 .
2,05

Solucion sugerida.
a) Se obtiene la siguiente sucesion de esquemas, donde los elementos marcados con estrella corresponden a multipolicadors y los elementos con marco son el pivote actual:

1
1

2
1

3
2

4
4

3 2

4
3

3
1

1
1

17

24

2 4
3

17

4
8

2
2

3
1

1
1

4
8

3
1

1
2

5
2

3
2

3
4
1
2

1
2

15
4
5
2
2
2

11
4
1
2

4
8

3
1

3
4

15
1
11

4
2
4

1
2
1
2

2 7
3
3

2
5

3
3

2
1

2
2

15

2
3

4
8

1
1

10
3
7
3

17

31
3
3
2
4
1
45
2
2
4
1
13
1
2
2
17

3
4
1
2
2
1
1
2

45
3
4
8
1

4
8

2 24
15
2
2

1
1

15
1
11

4
2
4
5
3
2
2
2
5
1
2
2
2
3
1

1
1

2
2

17
45
4
31
2
13
2

17

15
11
1 45

4
4
2 4

2
10
7
8
3
3
3
2
7
5

1
3
3
3

60

DE SISTEMAS LINEALES (PARTE II)


3. METODOS
DIRECTOS PARA LA SOLUCION

4
8

3
1

3
4

1
2
2
1
1
2
es decir

1
1

2
2

17

45
15
11
1

4
4
2
4 ,

2
10
7
8
3
3
3
2
7
33
33

3
10
10
5

0
0
P=
0
1
1

0
0
1
0
0

0
1
0
0
0

1
0
;
0
0

0 0
0 0
Q=
0 1
1 0

8 1

15
0

R=
0 0

0 0

1
0
0
0
1

0
1
,
0
0

11
1


4 1 0 0
4
2

L= 1 2
.
,
10
7

1 0

3
3
2 3

1 2 7
33
1
0

2 3 10
10
b) Utilizando el u
ltimo esquema obtenemos
33



3
14
5
x2 =
= 2, x1 =
8
= 1,
33
10
3

10


1
4 45 11
+
+ 1 = 4, x4 = (17 + 4 1 4) = 2.
x3 =
15 4
4
8
c) Aqu se calcula para b0 = b, A0 = A:

0,05
0,2
0,08

, |b0 A0 x2 | = 0,35 ,
|b0 A0 x1 | =
0,01
0
0,06
0,4


9,99
10

9,99
T
10
eeT |x1 | + e =
9,99 , ee |x2 | + e = 10 .
10
9,99
Puesto que



|b0 A0 xi | < 0,1 eeT |xi | + e < 0,5 eeT |xi | + e ,

3.3. CUADRADOS MINIMOS Y TRANSFORMACION A FORMA TRIANGULAR SUPERIOR

61

para i = 1, 2, ambos vectores x1 y x2 son una solucion aproximada (en el sentido del
criterio de Prager & Oettli) para = 0,1 y = 0,5.
3.3. El m
etodo de cuadrados mnimos y la transformaci
on de una matriz n n
a una matriz triangular superior
En muchas aplicaciones se presenta el siguiente problema. Para una matriz A Rmn
(en general, m  n) y un vector b Rm se busca un vector x Rn tal que
x Rn :

kAx bk22 6 kAx bk22 .

(3.40)

Por ejemplo, cuando tenemos puntos de mediciones (ti , yi ), i = 1, . . . , m, m  3, buscamos


una funcion
t 7 0 + 1 t + 2 t2

que aproxima nuestros datos. Para tal efecto, hay que determinar los coeficientes 0 , 1 y
2 optimos, en el sentido de
m
X
i=1

Definiendo

2
yi (0 + 1 ti + 2 t2i ) =

y1
b = ... ,
ym

mn

0 ,1 ,2 R

0
x = 1 ,
2

m
X
i=1

2
yi (0 + 1 ti + 2 t2i ) .

1 t1 t21
..
A = ... ...
.
2
1 tm tm

obtenemos el problema planteado (3.40).


El problema (3.40) significa que entre todas las combinaciones lineales de las columnas
de A, buscamos la combinacion que minimiza la distancia (euclidiana) del vector fijo b.
El vector b puede ser interpretado como una funcion sobre {1, . . . , m}. Eso motiva la
denominacion aproximacion lineal discreta en L2 para el problema (3.40). Este tipo de aproximacion fue por primera vez definido por Gauss (metodo de cuadrados mnimos). Tiene
una motivacion que proviene de la estadstica: si los yi son hasta ciertos errores i iguales a

0 +
1 ti +
2 t2i , entonces resulta que 0 , 1 y 2 , en un sentido, son las mejores aproximaciones a los verdaderos valores
0,
1 y
2 ; de tal forma, el problema (3.40) minimiza la
influencia de los errores i para la determinacion de los s (compensacion de la influencia
de los errores).
El problema (3.40) admite una solucion elemental si usamos el Teorema 3.6 y las matrices
de Householder. Primero, recordamos que


Q(Ax b) 2 = kAx bk22
2
para cada matriz ortonormal Q Rmm . Supongamos ahora que se conoce una matriz
ortonormal Q tal que
 
R
QA =
, R Rnn triangular superior.
0

62

DE SISTEMAS LINEALES (PARTE II)


3. METODOS
DIRECTOS PARA LA SOLUCION

Ahora, definimos

 
c1
Qb =: c =
,
c2

c1 Rn ,

c2 Rmn .

Entonces,
 
  2

2 R
c1
= kRx c1 k22 + kc2 k22 .
Q(Ax b) =
x

0
2
c2
2

Supongamos que rango(A) = n. En este caso, R es regular y


x Rn :

kRx c1 k22 + kc2 k22 > kc2 k22 + k Rx c1 k22 ,


| {z }
=0

es decir, x es la solucion del sistema escalonado Rx = c1 , o sea


x = R1 c1 .

Entonces, cuando se ha encontrado la matriz de transformacion Q, solamente hay que aplicar


Q a b y resolver el sistema escalonado Rx = c1 .
La determinacion de Q (y entonces la de R) se ejecuta en n pasos (o n 1 pasos si
n = m). Sea
(1)
1j
h
i
..
(1)
(1)
(1)
(1)
A = a1 an , b := b, aj := . .
(1)
nj

Definiendo

(
1
si x = 0,
sgn0 (x) :=
sgn(x) sino,

1w
1T definida por
formamos una matriz U1 ortonormal y simetrica U1 := I 1 w

(1) (1) 
(1) 
sgn0 11 11 + a1 2

(1)

.
21
1 =
1 := (1) (1) (1)  , w

..
a1 11 + a1

.
2
2
(1)
m1
Entonces tenemos

Ahora definimos

(1)
(1) 
U1 a1 = sgn0 11 ka1 ke1 .


(2)
(1)
(1)
1T a(1)
1 , i = 2, . . . , n,
ai := U1 ai = ai 1 w
w
i

1T b(1) w
1.
b(2) := U1 b(1) = b(1) 1 w

(3.41)

3.3. CUADRADOS MINIMOS Y TRANSFORMACION A FORMA TRIANGULAR SUPERIOR


(1)
a1

63
(2)
a2 ,

Queremos aplicar la misma tecnica que para


a las u
ltimas m 1 componentes de
mientras que la nueva transformacion debe dejar sin cambio a la fila 1 y la columna 1 de la
matriz transformada. Eso se logra definiendo

1 0

0
0

,
U2 =
...
2w
2T
I 2 w
0
donde

2 =
w

1
2 := (2) (2) (2)  ,
a
2 2 22 + a
2 2

(2) 

sgn0 22

(2) (2) 
22 + a
2 2

(2)

32
,

..

.
(2)
m2

(2)
a
2

(2)
22

:= ... .

As se continua la construccion. En general, obtenemos el siguiente algoritmo.


Algoritmo 3.1.
1. Definicion de n0 :

(
n 1 si m = n,
n0
n
sino.

2. do i = 1, . . . , n0
(i)

ai =

(i)
a
i
(i)
a
i

b(i) =

(i) !
b
,
(i)
b

(i) Rmi+1 ,
(i)
a
i ,b

(i)
if a
i 6= 0 then

1
i (i) (i) (i)  ,
a
i 2 ii + a
i 2

else

endif
do j = i, . . . , n

i 0,

i 0
w

(i+1) a
(i) ,
a
j
j

i
w

(i) 

sgn0 ii

(o sea, Ui = I)


(i+1)
(i)
iT a
j(i) w
i,
a
a
j
j i w
(i+1) b
(i) ,
b

(i) (i) 
+ a
i 2
ii

(i)

i+1,i

..

.
(i)
mi

(2)

m2

64

DE SISTEMAS LINEALES (PARTE II)


3. METODOS
DIRECTOS PARA LA SOLUCION


(i+1) b
(i) i w
(i) w
iT b
i
b

enddo
enddo
3. El resultado de los pasos anteriores es

h
Un0 . . . U1 A = a(2)

1
{z
}
|
=:Q

Un0 . . . U1 b = b(n +1)

(2)
11

0
.
..
i

(n0 +1)
=
an
0

0
.
..

 
c1
=
.
c2

(3)

12

(3)

22
...

(n0 +1)
1n
..
.
..
...
 
.

R
0

(n +1)
0 nn = 0 ,

0
..
.

Como producto secundario de este algoritmo obtenemos una demostracion del siguiente
teorema.
Teorema 3.11. Sea A Rmn con m > n. Entonces existe una matriz ortonormal Q
Rmm tal que
 
R
QA =
,
0
donde R es una matriz triangular superior. Si rango(A) = n, entonces el problema (3.40)
tiene una u
nica solucion x, la cual se calcula de Rx = c1 , donde
 
c1
Qb =
, c1 Rn .
c2

En este caso, R es regular.

El metodo descrito aqu es conocido como transformacion de Householder u ortogonalizacion de Householder. Esta nomenclatura se explica de la siguiente forma:
 
 
 
 T
 R
R
T R
T
QA =
= A = Q
= Q1 Q2
= QT
1 R,
0
0
0

es decir, las n columnas de QT


1 (o sea las primeras n filas de Q) forman una base ortonormal
m
del subespacio de R generado por las columnas de A, y las m n u
ltimas filas de Q son
una base ortonormal del complemento ortogonal, es decir, del espacio nulo de AT . Hay que
tomar en cuenta, sin embargo, que la matriz Q solo aparece en forma factorizada.
Para el calculo de A = UR, UT U = I, U Rmn (donde U corresponde a QT
1)
podramos tambien usar el metodo de ortogonalizacion de Gram-Schmidt. Pero este metodo
es inestable numericamente, as que se prefiere la transformacion de Householder.
Por otro lado, uno podra aplicar el metodo en el caso m = n, es decir, para la solucion de
sistemas. El esfuerzo es el doble del algoritmo de Gauss, asi que efectivamente se prefiere el

3.3. CUADRADOS MINIMOS Y TRANSFORMACION A FORMA TRIANGULAR SUPERIOR

65

algoritmo de Gauss, sobre todo en virtud de la equivalencia de las propiedades de estabilidad


de ambos algoritmos.
Ejemplo 3.6. Para la transformacion de Householder de la matriz

4
3
4 1

A=
4
3
4 1
calculamos sucesivamente las siguientes cantidades:

(1)
a
1

4
4

=
4 ,
4

1 =

1
1
= ,
8(4 + 8)
96

12
4

1 =
w
4 ,
4

luego

(2)

a1

(2)

a2

8
0
1
(1)

1 =
= a1 (48 + 16 + 16 + 16)w
0 ,
96
0

4

4

3
1

(1)
= a2 (12 3 + 4 1 + 4 3 + 4 1) = 2 .

96
3

4
3

Despues, calculamos

(2)
1
a
2 2 = (16 + 16 + 4)2 = 2, 2 =
3

1
4
+2
3

,

10
3

2

2 =
w
3 ,

4
3

20
1
2T a
(2)
w
.
2 = (10 4 + 2 2 + 4 4) =
9
3

66

DE SISTEMAS LINEALES (PARTE II)


3. METODOS
DIRECTOS PARA LA SOLUCION

Finalmente resulta

(3)

a2

4 10
4


3
3
2

=2 2=
,

0

3 3
0

4 4

3 3

8 4
0 2
.
U2 U1 A =
0
| {z }
0
=Q
0
0

o sea

Ejemplo 3.7 (Tarea 13, Curso 2006). Sea A la matriz indicada, y buscamos una descomposicion QR de A con R = QT A. La matriz R dada abajo puede ser correcta?


2 3 2
10 43 4
2 1 0
0
7 0
.

A=
1 2 3 , R = 0
0 1
1 4 2
0
0 0
Solucion sugerida. La matriz R debe ser incorrecta, dado que
432 + 72 6= 32 + 12 + 22 + 42 ,



y porque una aplicacion ortogonal no cambia la norma kk2 de un vector. Sea A = a1 an
y R = r1 rn con vectores de columnas ai y ri . Entonces Qai = ri implica que
kQai k2 = kri k2 , y como Q es ortogonal, kai k2 = kri k2 .
Ejemplo 3.8 (Tarea 15, Curso 2006). Sean

1
1 1
1
1 1


A=
1 1 , b1 = 1 ,
1
1
1

1
1

b2 =
1 .
1

1 y u
2 de
a) Determinar la descomposicion QR de A. Para Q, indicar solo los vectores u
la representacion



2
2
T
T
2u
2
1u
1 .
Q= I T u
I T u
2 u
2
1 u
1
u
u

b) Calcular c1 := Qb1 y c2 := Qb2 .


c) Usando los resultados de (a) y (b), determinar la solucion del problema de compensacion
!

kAx b1 tb2 k2 = mn2


xR

para t R arbitrario.
Solucion sugerida.
a) La matriz dada es de la forma

h
i
(1)
A = a(1)
a2
1

3.3. CUADRADOS MINIMOS Y TRANSFORMACION A FORMA TRIANGULAR SUPERIOR

con
(1)

a1

1
1

=
1 ,
1

T
1 = 12,
u
1u

(1)
1 = a1 2 = 2,

1
1 = ,
6

Entonces obtenemos los vectores



2

0
(2)

a1 =
0 ,
0

(1)
T
u
1 a1 = 6,

(2)

a2

Luego calculamos que

2 = 2,
o sea

0
1 8
,
2 =
u
3 4
4

(2)
T
u
2 a2 =


2
1

1 =
u
1 ,
1

(1)
T
u
1 a2 = 2.

0
1 2
.
=
3 4
4

48
,
9

2 =

9
,
48

(3)

a2


0
2

=
0 ,
0


2 0
R=
.
0 2

b) Calculamos sucesivamente


0
0



1
1
4
4
(2)
(1)
(2)
(1)
(1)
T (1)

u
=
,
b
=
b

u
b
b1 = b1 1 u
u
=
b
1
1
1
2
2
1 1
1 2
3 2
3 4
4
2


0
0



0
(2)
(3)
(2)
(3)
(3)
T (3)
0 .
T
2 =

b1 = b1 2 u
u
,
b
=
b

u
b
u
=
3
3
2
2
2
2 b1
3
0
2
2
0

c) Aqu obtenemos



kAx b1 tb2 k2 = Q(Ax b1 tb2 ) 2




2x1
0
 





R

2x2
0




=
0 x c1 tc2 = 2t > 2t ,




2
2
2
2

es decir, para todo t R, el mnimo se asume para x = 0.

67

68

DE SISTEMAS LINEALES (PARTE II)


3. METODOS
DIRECTOS PARA LA SOLUCION

Ejemplo 3.9 (Tarea 16, Curso 2006). Sean

3 1
1
6
1
6

A=
6 4 1 ,

11
0
0

3
2

b=
2 .

2 11

Usar el metodo de Householder para determinar una descomposicion QR de A. Luego determinar un vector x que minimiza kAx bk2 . Cual es entonces el error en la ecuaci
on
Ax b?
Solucion sugerida.
1. Consideramos la primera columna a1 de A. Usando ka1 k2 = 9, obtenemos u =
(12, 6, 6, 0)T y = 1/108. Con P1 = I uuT determinamos P1 A calculando
para cada columna ai de A el vector P1 ai . El resultado es

9 3
3
1
0 0
4
5

P1 A =
0 3 2 , P1 b = 0 .

0 0
2 11
11
2. Luego, para la primera columna

0
1 = 3
a
0

= (3, 3, 0)T y = 1/9.


de la matriz 32 restante obtenemos k
a1 k2 = 3, y entonces u
Obtenemos

3 2
0
2A
= 0
4 .

P
5 , P2 b =

0
2 11
11

3. Luego, para la primera columna



5
1 =
a
11

1 k2 = 6, y entonces u
= (11, 11)T y = 1/66.
de la matriz 21 restante obtenemos ka
Obtenemos
 


7
6

=
3A
=
3b
P
, P
.
0
11

Despues de los 3 pasos anteriores, obtenemos la siguiente descomposicion QR, donde Q es


el producto de las matrices de Householder ampliadas a la dimension 4:

1
9 3
3
0 3 2

, Qb = 0 .
QA =
7
0 0 6

0 0
0
11

3.3. CUADRADOS MINIMOS Y TRANSFORMACION A FORMA TRIANGULAR SUPERIOR

69

Particionando la matriz del tama


no 4 3 en una matriz del tama
no 3 3 y otra del tama
no
1 3, obtenemos
 
 
R
c

mn4 kAx bk2 = mn4 kQAx Qbk2 = mn4
x 1
.
0
c2 2
xR
xR
xR

Obviamente, el sistema Rx = c1 posee una solucion u


nica, entonces

mn4 kAx bk2 = kc2 k2 = 11.


xR

Ejemplo 3.10 (Certamen 1, Curso 2010). Resolver el problema de aproximacion


m
X
i=1

yi

(0 0 (ti )

para los datos

1 1 (ti )

2
2 2 ti

= mn

0 ,1 ,2

m
X
i=1

yi (0 0 (ti ) + 1 1 (ti ) + 2 2 ti

2

i 1 2 3 4
ti 0 1 2 3
yi 1 -1 1 3
para i (t) = ti , i = 0, 1, 2, transformando la
mediante la transformacion de Householder.
Solucion sugerida. Sea

1
1 t1 t21
1 t2 t22 1

A=
1 t3 t23 = 1
1
1 t4 t24

matriz A R43 a forma triangular superior

0
1
,
4
9

0
1
2
3

1
1

b=
1 .
3

La transformacion de Householder se ejecuta en tres pasos.


1. Desde la matriz A identificamos

1
1
1
1
(1)

1 =
a
1 , 1 = 2(1 + 2) = 6 ,
1
Si


3
1

1 =
w
1 .
1

1
1w
1T R44 ,
U1 = I w
6
obtenemos
(2)

a1


1
2
1 0

= U1
1 = 0 ,
0
1

(2)

a2


0
3
1 0

= U1
2 = 1 ,
3
2

70

DE SISTEMAS LINEALES (PARTE II)


3. METODOS
DIRECTOS PARA LA SOLUCION

(2)

a3


4
0

1
3

=
= U1
,

4 5


9
3

20
3

b(2)

2
2

= U1 b =
0 .
2

2. Considerando los 3 u
ltimos componentes de los vectores anteriores obtenemos


0
5
1
1

1
(2)

=
a
=
,

=
,
w
=
1
2
2
2
5
5(0 + 5)
2
2
Definiendo

1
2 w2 T R33
U2 = I w
5
obtenemos

0
5
(3)

a2 = U2 1 =
0 ,
2
0

4
3 5

6,7082
5 4 4 5
(3)

a3 = U2
3 = 3 + 15 0,7370 ,

1,8592

20
2 8 5
+
3
3 15
4

2
1,7889

4 2 5
0,0944 .
b(3) = U2 0 = +

5
5
2
2,1889

2 45
+
5
5

3. Considerando los 2 u
ltimos componentes de los vectores anteriores obtenemos


4 4 5

+

0,7370
15
3
(3)
3 =
a
1,8592 ,
2 8 5
+
3
15

3.3. CUADRADOS MINIMOS Y TRANSFORMACION A FORMA TRIANGULAR SUPERIOR

3 =

Definiendo

71

1
1
!=
0,1827,
!
20 8 5
4
5

2
1
+2
3
15
3
5


10 4 5


+
2,7370
15
3
3 =
w
1,8592 .
2 8 5
+
3
15
U3 = I

obtenemos

w
3 w3 T R22
20 8 5

3
15


4 4 5
 
+
2
15
3
4
a3 = U3
= 0 ,
2 8 5
+
3
15

4 2 5
2


+

2
5
5

(4)
b = U3
= 2 0,8944 .
2 4 5
5
+
5
5
5
Concluimos que la solucion del problema esta dada por el sistema lineal escaloneado

2 3
7
2

0 5 3 5 1 = 4 5
5
2
0
0
2
2

con la solucion

4
11
= 0,8, 1 = = 2,2, 2 = 1.
5
5
2
La tarea de minimizar kAx bk2 tambien puede ser tratada por metodos del calculo
diferencial de varias variables. Para tal efecto, definimos la funcion
0 =

(x) := (Ax b)T (Ax b)

= xT AT Ax 2xT AT b + bT b.

La condicion necesaria para un mnimo en x es



= 0, i = 1, . . . , n,
(x)
i
x=x
lo cual entrega el sistema lineal (las ecucaciones normales)
AT Ax = AT b,

(3.42)

72

DE SISTEMAS LINEALES (PARTE II)


3. METODOS
DIRECTOS PARA LA SOLUCION

con la solucion u
nica (si rango(A) = n)
x = (AT A)1 AT b.
El hecho de que x realmente es el mnimo se refleja en la satisfaccion de la condicion
adicional suficiente que




2
(x)
i j
x=x ij

es definida positiva.
Uno podria resolver (3.42) por la descomposicion de Cholesky. Pero este camino no es
recomendado, con la excepcion del caso que las columnas de A son casi ortogonales.
En efecto, el metodo de Cholesky es mucho mas sensible para errores de redondeo que la
transformacion de Householder.
Frecuentamente los problemas de compensacion son extremadamente mal acondicionados, sobre todo cuando las funciones de planteo no son las apropiadas. Por ejemplo, para un
planteo polinomial siempre se recomienda transformar la variable independiente al intervalo
[1, 1] y usar los polinomios de Chebyshev
T0 (x) = 1,

T1 (x) = x,

Tn+1 (x) = 2xTn (x) Tn1 (x),

n > 2.

la u
ltima medida para la solucion del problema es la descomposicion en valores singulares.
Si
 

A=U
V
0
y la matriz es invertible, entonces la solucion del problema (3.40) es


x = V 1 0 U b.

Si no es invertible, la solucion del problema de compensacion no es u


nica. En este caso,
se usa la solucion optima


x = A+ b = V + 0 U b,

con la longitud euclidiana mnima. Por supuesto, en la practica se remplaza + por + () =


diag(i+ ()),
(
1/i si i > ,
i+ () =
0
sino,
donde el parametro > 0 representa la inexactitud en A y en la aritmetica.

Captulo 4

M
etodos iterativos para la soluci
on de sistemas de ecuaciones
lineales
4.1. Un ejemplo
Muchas aplicaciones requieren la solucion de sistemas de ecuaciones lineales de extremadamente gran tama
no (n > 104 ), pero donde la matriz de coeficientes tiene una estructura
muy especial: cada fila contiene solo muy pocos, por ejemplo cinco, elementos diferentes de
cero, en una configuracion muy particular. En esta situacion no se recomienda el uso de los
metodos discutidos hasta ahora por razones de espacio de almacenaje y tiempo computacional. Vamos a ilustrar el problema en el siguiente ejemplo.
Ejemplo 4.1. Se busca una funcion u : [0, 1]2 R que es solucion del siguiente problema
de valores de frontera (problema de Dirichlet) para la ecuacion de Poisson:
u u u = f (, ),
u(, ) = 0,

(, ) (0, 1)2 ,

{0, 1} o {0, 1}.

(4.1)

Aqu f es una funcion real y continua dada sobre [0, 1]2 . La tarea de determinar la soluci
on
u numericamente se reduce a un sistema de ecuaciones lineales para los valores aproximados
uij u(i , j ).

(4.2)

Para una funcion z = z() C 4 tenemos seg


un la formula de Taylor
1
1
1
4,
z( + h) = z() + z 0 ()h + z 00 ()h2 + z 000 ()h3 + z (4) ()h
2
6
24
1
1
1
4 ,
z( h) = z() z 0 ()h + z 00 ()h2 z 000 ()h3 + z (4) ()h
2
6
24

donde = + 1 h y = 2 h. Combinando estas dos ecuaciones obtenemos


z( + h) 2z() + z( h)
1
2.
z 00 () =
z (4) ()h
(4.3)
2
h
12
Entonces, para h peque
no, el primer termino en el lado derecho de (4.3) sirve como buena
aproximacion de z 00 (). Ahora [0, 1]2 se cubre con una malla cuadratica de puntos (i , j ),
0 6 i, j 6 N + 1, donde
1
i = ih, j = jh, 0 6 i, j 6 N + 1, h =
, N N.
N +1
Ahora aproximamos las segundas derivadas parciales u y u usando (4.3). Usando la ecuacion de derivadas parciales, obtenemos la siguiente ecuacion para (4.2):
4
uij ui1,j ui+1,j ui,j1 ui,j+1 = h2 f (i , j ),
73

1 6 i, j 6 N.

(4.4)

74

DE SISTEMAS DE ECUACIONES LINEALES


4. METODOS
ITERATIVOS PARA LA SOLUCION

Entonces, la aproximacion genera un sistema de N 2 ecuaciones para N 2 desconocidas. Enumerando los pares (i, j) en el orden
(1, 1), (2, 1), . . . , (N, 1), (1, 2), (2, 2), . . . , (N, 2), . . . , (N, N ),
resulta un sistema lineal Ax = b con

u11
u21

x=
... ,
uN N

donde

f (1 , 1 )
f (2 , 2 )
,
b = h2
..

.
f (N , N )

.
.
I . . . .

.
.
.

RN 2 N 2 ,
.. .. ..
A=

.
.
. . . . I

I B
B

4 1
1 4 1

... ... ...

B=
RN N .

... ...

1
1 4

Si se trata aplicar la descomposicion de Cholesky a A, aprovechando la estructura de bandas,


resultan N 4 /2 operaciones aritmeticas y N 3 elementos de almacenaje; estos n
umeros ya son
grandes para 50 6 N 6 200. Ademas, no es muy razonable tratar de resolver el sistema
exactamente, dado que la solucion uij misma solo representa una aproximacion (con un
error O(h2 ) si |f | 6 1) de los valores uij . Por supuesto, el caso analogo tri-dimensional es
a
un mucho mas complicado.
Comentamos que existe un algoritmo especial precisamente para el sistema discutido en
este ejemplo, el algoritmo de Buneman, que para N = 2m+1 1 necesita solo 3N 2 (m +
1) operaciones aritmeticas y approx. 6N 2 elementos de almacenaje. Sin embargo, este este
algoritmo ya fracasa si los elementos varian con (i, j), con una matriz que sino tiene la
misma estructura que A.
Resumiendo, constatamos que se recomienda buscar metodos simplemente estructurados
que aproximan la solucion x de un sistema lineal por una sucesion {xk }kN infinita, pero
donde cada paso xk xk+1 requiere solo muy poco esfuerzo computacional.
4.2. Metodologa general del desarrollo de m
etodos iterativos
La idea basica es la siguiente. Queremos resolver el problema
Ax = b.

(4.5)

La matriz A se descompone de la siguiente forma:


A = M + N,
entonces (4.5) es equivalente a
Mx = b Nx .

(4.6)


4.2. METODOLOGIA GENERAL DEL DESARROLLO DE METODOS
ITERATIVOS

75

Entonces, introduciendo un factor y una matriz C arbitraria, (4.6) es equivalente a


(M + C)x = (C N)x + b.

(4.7)

(M + C)xk+1 = (C N)xk + b,

(4.8)

Las matrices C y M y el factor se eligen de tal forma que M + C es regular y tiene una
estructura simple, de manera que un sistema lineal con esta matriz puede ser resuelto mas
facilmente que el sistema original (4.5). Ahora, si remplazamos en la u
ltima ecuacion x en
el lado derecho por xk y en el lado izquierdo por xk+1 , obtenemos el metodo de iteracion
el cual podemos escribir como


xk+1 = (M + C)1 (C N)xk + b =: (xk ).

Seg
un nuestra construccion,

x = (x ),
es decir, x es el punto fijo de la aplicacion x 7 (x); por lo tanto,

xk+1 x = (M + C)1 (C N)(xk x ).


|
{z
}

(4.9)
(4.10)

=:B()

En virtud de (4.10), para cualquier vector inicial x0 , se cumple


k
xk x = B() (x0 x ).

Teorema 4.1. El metodo (4.8) converge para todo x0 Rn a x si y solo si



r B() < 1.

(4.11)

Demostracion. Sea r (B()) < 1. Entonces I B() es regular, lo que significa que la
ecuacion
x = B()x + (M + C)1 b
tiene una u
nica solucion x . Seg
un el Teorema 3.5, existe una norma vectorial k k (con una
norma matricial inducida) tal que para un > 0 peque
no dado,

kB()k 6 r B() + < 1.
Entonces
o sea,

kxk x k 6 kB()kk kx0 x k,


lm xk+1 = x .

Por otro lado, en el caso cntrario r (B()) > 1, existe un valor propio de B() con || > 1.
Sea v 6= 0 el vector propio asociado. Entonces
k
B() v = k v.
Sea x0 = x + v. En este caso,

xk x = k v,

76

DE SISTEMAS DE ECUACIONES LINEALES


4. METODOS
ITERATIVOS PARA LA SOLUCION

es decir,
kxk x k = |k kvk > kvk > 0.

k N :

Para cualquier > 0 suficientemente peque


no existe una norma tal que en esta norma,

la distancia kx x k se reduce por un factor r (B()) + en cada paso. Obviamente, hay


que elegir M, N, C y de la forma que r (B()) sea lo mas peque
no posible. Antes de
seguir estudiando la teora de los metodos (especficamente, el comportamento de B() en
un caso especial importante), vamos a mencionar los metodos mas importantes que se usan
en la practica, definiendo las matrices L, D y U por medio de
donde

A = L + D U,

L = .21
..
n1

...
...
..
..
.
.
n,n1

(4.12)

0 12
1n
11 0
0
0
..
..
..
...
.

.
.
.
0 0
0 22 . .
.
, U = . .
, D = .
.
.
.
. . n1,n
.. 0
..
.. . .
..
0
0 0
0
0 0 nn
0
(4.13)

1. El metodo de Jacobi es definido por M = D, N = L U, C = 0 y = 1. La formula


de iteracion vectorial correspondiente es

xk+1 = D1 (L + U)xk + b , k N0 ;
(4.14)
para las componentes obtenemos
!
n
X
1
i,k+1 = i,k +

ij j,k + i ,
ii
j=1

i = 1, . . . , n,

k N0 .

(4.15)

2. El metodo de Gauss-Seidel es definido por M = L + D, N = U, C = 0 y = 1.


Las formulas de iteracion son
(L + D)xk+1 = Uxk + b,
i,k+1 =i,k +

1
ii

i = 1, . . . , n,

i1
X
j=1

ij j,k+1

k N0 .

k N0 ;

n
X
j=i

ij j,k + i

(4.16)
,

(4.17)

3. El metodo SOR (successive overrelaxation) con el parametro de relajacion corresponde a M = L + D, N = U, C = (1 )D y 6= 0. Las formulas de iteracion
son

(L + D)xk+1 = (1 )D + U xk + b, k N0 ;
(4.18)
!
i1
n
X
X

i,k+1 =i,k +

ij j,k+1
ij j,k + i ,
ii
(4.19)
j=1
j=i
i = 1, . . . , n,

k N0 .


4.2. METODOLOGIA GENERAL DEL DESARROLLO DE METODOS
ITERATIVOS

77

La identidad (4.18) ilustra la idea del metodo SOR: tenemos como


ultima (mejor) aproGS
ximacion de x el vector (1,k+1 , . . . , i1,k+1 , i,k , . . . , n,k )T . Despues se calcula primero i,k+1
,
aplicando el metodo de Gauss-Seidel, luego se determina i,k+1 agrandando o achicando la
correccion de Gauss-Seidel por el factor .
Ejemplo 4.2 (Tarea 18, Curso 2006). Se considera el sistema lineal Ax = b con


 
5 4
12
A=
, b=
.
1 3
2
a) Preparar un dibujo que interpreta ambas ecuaciones del sistema lineal como lineas
rectas en el plano x1 -x2 . La solucion exacta del problema es x1 = 4, x2 = 2.
b) Ejecutar desde x0 = (8, 8)T tres pasos de cada uno de los metodos de Jacobi, de
Gauss-Seidel, y del metodo SOR con = 1,5 aus. Agregar al dibujo las sucesiones
       
1,0
1,1
1,1
1,2
,
,
,
...
2,0
2,0
2,1
2,1
en los casos de los metodos de Gauss-Seidel y SOR y la sucesion
       
1,0
1,1
1,2
1,3
,
,
,
...
2,0
2,1
2,2
2,3
en el caso del metodo de Jacobi.
Solucion sugerida.
a) La Figura 4.1 muestra las dos rectas y las iteradas.
b) Sean (1,k , 2,k ) las iteradas del metodo de Jacobi, (1,k , 2,k ) las del metodo de GauSeidel y (1,k , 2,k ) las del metodo SOR, entonces obtenemos las siguientes sucesiones
de iteracion:
(1,0 , 2,0 ) = (8, 8),

(1,1 , 2,1 ) = (4, 2),


4 2
, ,
(1,2 , 2,2 ) =
5 3
(1,3 , 2,3 ) = (1,86, 0,93);
(1,0 , 2,0 ) = (8, 8),

(1,1 , 2,0 ) = (4, 8),



2
(1,1 , 2,1 ) = 4, ,
3

(1,2 , 2,1 ) = (1,86, 0.6),


1,28),

(1,2 , 2,2 ) = (1,86,


1,28),

(1,3 , 2,2 ) = (3,431,


(1,3 , 2,3 ) = (3,431, 1,81037);
(1,0 , 2,0 ) = (8, 8),


DE SISTEMAS DE ECUACIONES LINEALES
4. METODOS
ITERATIVOS PARA LA SOLUCION

78

x2

5
(2)

(1)
(1) 
x1 ; x2

(3)

x1

x1

(2) 

; x2

(2)

x1

3
2

(2)

XXXXX
z
1

(2)
(2) 
x1 ; x2

5
~

(1)

x1
x1

3x2 =

; x2

(2)
(2) 
x1 ; x2
(1)

(2) 

(2) 

; x2

(x1 ; x2 )

; x2

(1) 

(3)

x1

(3) 

; x2

10

(1) 

1

(2)

x1

(1) 

; x2

; x2

3
4
5
6
7

(1)
(0) 
x1 ; x2

(0) 
(0)
x
1 ; x2

(1)

x1

(0) 

; x2

9
5x1

4x2 = 12

11
x1

(1) 

2
x1

x1

; x2

10

Figura 4.1. Interpretacion de las ecuaciones de un sistema lineal 2 2 como


lineas rectas en el plano x1 -x2 y sucesiones de soluciones aproximadas

(1,1 , 2,0 ) = (2, 8),


(1,1 , 2,1 ) = (2, 4),
(1,2 , 2,1 ) = (9,4, 4),
(1,2 , 2,2 ) = (9,4, 3,7),
(1,3 , 2,2 ) = (3,34, 3,7),
(1,3 , 2,3 ) = (3,34, 0,82).


4.3. TEOREMAS DE CONVERGENCIA PARA METODOS
ITERATIVOS

79

4.3. Teoremas de convergencia para m


etodos iterativos
Teorema 4.2. El metodo de Jacobi (4.14) converge si A = D L U satisface uno de los
siguientes criterios: A es estrictamente diagonal dominante por filas:
n
X
i = 1, . . . , n : |ii | >
|ij |,
(4.20)
j=1
j6=i

o A es estrictamente diagonal dominante por columnas:


n
X
i = 1, . . . , n : |ii | >
|ji |.

(4.21)

j=1
j6=i

Demostracion. Tarea.
Los requerimientos (4.20) y (4.21) son bastante restrictivos y no se cumplen para la
mayora de las matrices. En particular, muchas veces la desigualdad estricta en (4.20) o
(4.21) no se cumple en todas las filas o columnas, sino que solo en algunas de ellas, mientras
que en las otras |ii | es igual al lado derecho de (4.20) o (4.21). A continuacion veremos que
tambien en este caso podemos asegurar la convergencia del metodo (4.14), siempre cuando
la matriz A cumpla la propiedad de irreducibilidad.
Definici
on 4.1. Una matriz A Cnn se llama irreducible si no existe ninguna matriz de
permutacion P tal que


11 A
12
A
T
kk

P AP =
22 , A22 C , k < n.
0 A
Para decidir sobre la irreducibilidad de una matriz A, necesitamos el concepto del grafo
dirigido de la matriz.
Definici
on 4.2. Sea A = (ij ) Cnn . A la siguiente construccion se refiere como grafo
dirigido G(A) de A:
1. G(A) incluye n vertices P1 , . . . , Pn .
2. Un arco dirigido Pi 7 Pj junta Pi con Pj , i 6= j, si y solo si ij 6= 0.
3. Los caminos dirigidos en G(A) son compuestos por arcos dirigidos.
4. El grafo dirigido G(A) se llama conexo si para cada par (Pi , Pj ) de vertices, 1 6 i, j 6
n, i 6= j, existe un camino dirigido de Pi a Pj .
Ejemplo 4.3. La Figura 4.2 muestra algunas matrices y sus grafos dirigidos. Nos damos
cuenta que los grafos G(A), G(B) y G(C) son conexos; obviamente, G(D) no es conexo.
Teorema 4.3. Una matriz A Knn es irreducible si y solo si su grafo dirigido G(A) es
conexo.
Demostracion. Hay que demostrar dos implicaciones.
: Supongamos primero que G(A) es conexo, y sean los ndices i y j, i 6= j, 1 6 i, j 6 n
arbitrarios. Entonces existen n
umeros i1 , . . . , im tales que
i,i1 i1 ,i2 i2 ,i3 . . . im ,j 6= 0.

(4.22)

80

DE SISTEMAS DE ECUACIONES LINEALES


4. METODOS
ITERATIVOS PARA LA SOLUCION

P1

1 0 3
A = 1 2 0
0 4 5

2
1
B=
1
0

P3

1 0 0
3 1 1

0 1 0
1 1 2

2 1

1 2
.
C=
0 . .
. .
.. . .
0

4
1

D=
0
1
0

G(A) :

1
2
0
2
0

P2
P2

P1
G(B) :
P4

P3

0
. . ..
. .
1

.. ..
.
. 0

1
2 1
0
1 2
0

0
0
1
0
1

1
1
0
3
0

0
0

0
1

P1

P2

P3

P4

Pn

G(C) :

P1

P2

P3

G(D) :
P4

P5

Figura 4.2. Algunas matrices y sus grafos dirigidos.


Ahora supongamos que A es reducible, es decir
s,k = 0,

s S,

k K,

S K = ,

S K = {1, . . . , n}.

(4.23)

Entonces sean i S y j K. Dado que i,i1 6= 0, tenemos que i1


6 K, o sea, i1 S,
lo que implica i2 S, etc., entonces sera imposible construir la cadena (4.22), una
contradiccion.
: Ahora sea A irreducible e i {1, . . . , n} arbitrario. Definimos


I := k | {i1 , . . . , im } : i,i1 . . . im ,k 6= 0 ,
notando que I =
6 , puesto que sino i1 = . . . = in = 0, una contradiccion. Supongamos que I 6= {1, . . . n}, y sea l {1, . . . n}\I. Demostramos que en este caso
jl = 0 para j I. (Esto sera una contradiccion a la irreducibilidad de A.) Si existiera


4.3. TEOREMAS DE CONVERGENCIA PARA METODOS
ITERATIVOS

81

j0 ,l 6= 0 para un ndice j0 I, existiran tambien ndices {i1 , . . . , im } tales que


i,i1 i1 ,i2 . . . im ,j0 6= 0,

jo ,i 6= 0,

o sea l I, una contradiccion. Esto implica que I = {1, . . . , n}, y dado que i es
arbitrario, concluimos que G(A) es conexo.
Definici
on 4.3. Una matriz A Cnn se llama irreduciblemente diagonal dominante si A
es irreducible y
i {1, . . . , n} : |ii | >

n
X
j=1
j6=i

|ij | i0 {1, . . . , n} : |i0 i0 | >

n
X
j=1
j6=i0

|i0 j |.

(4.24)

Teorema 4.4. Sea A estrictamente o irreduciblemente diagonal dominante. Entonces A es


regular y el metodo de Jacobi converge.
Demostracion. La demostracion procede en tres pasos:
1. Demostramos que el metodo esta bien definido.
2. Demostramos que

r D1 (L + U) < 1.

(4.25)

3. El resultado de 2.) implica que el metodo de Jacobi converge para b arbitrario a una
solucion de Ax = b, lo que implica la regularidad de A.
Enseguida procedemos a la demostracion de 1.) y 2.):
1. Si A es estrictamente diagonal dominante, esta propiedad es obvia. Si A es irreduciblemente diagonal dominante, entonces ii 6= 0 para todo i (si existira un ndice
i0 tal que i0 i0 = 0, tendramos que i0 1 = . . . = i0 n = 0, una contradiccion a la
irreducibilidad).
2. Si A es estrictamente diagonal dominante, (4.25) es una consecuencia del Teorema 4.1.
En el otro caso, podemos aplicar el Teorema 3.4, aplicado a
B := D1 (L + U) =: (ij ),
para concluir que
r (B) 6 kBk 6 1.
Supongamos que r (B) = 1. En este caso existe C, || = 1, tal que (B I)x = 0
con x 6= 0. Por otro lado, B I es una matriz irreduciblemente diagonal dominante,
dado que difiere de D1 A solo en sus elementos diagonales, donde 1 es remplazado
por con | | = 1. Supongamos ahora que x = (1 , . . . , n )T con |1 | = . . . |n | = .
Esto significa que


n
n
X

X


i {1, . . . , n} :
ij j = 6
|ij |,


j=1

j=1

82

DE SISTEMAS DE ECUACIONES LINEALES


4. METODOS
ITERATIVOS PARA LA SOLUCION

o sea,
i {1, . . . , n} :

n
X
j=1

|ij | > 1,

en contradiccion a la supuesta diagonaldominancia irreducible de A. Entonces




I := j | i : |j | > |i |, i0 : |j | > |i0 | 6= .
Sea j I. Observando que ii 6= 0, tenemos que
n
n
X
X
0=
ji i j j =
ji i
i=1

i=1

= |j | 6

n
X
i=1

|ji ||i | =

n
X
i=1

|ji |

|i |
> 1.
|j |

Notamos que |i |/|j | 6 1 y |i |/|j | = 1 para i I. Entonces


16

X
iI

|ji | +

X
i6I

|i | X
|ji |
<
|ji | 6 1.
|j |
i=1

Esto es una contradiccion en el caso que


X
|ji | =
6 0.
i6I

Concluimos que para j I, tenemos que


X
|ji | = 0,
i6I

o sea, usando que ji = ji /jj ,


X
|ji | = 0 para j I,
i6I

lo que implica que A es reducible, una contradiccion.

Uno podra pensar que seg


un nuestra construccion, el metodo de Gauss-Seidel siempre converge mejor que el de Jacobi. Pero eso no es valido en general.
Teorema 4.5 (Stein-Rosenberg). Sea A Rnn , ij 6 0 para i 6= j y ii 6= 0 para
i = 1, . . . , n, J := D1 (L + U) y H := (L + D)1 U. En este caso, exactamente una de las
siguientes alternativas es valida:
1. r (H) = r (J) = 0,
2. r (H) = r (J) = 1,
3. 0 < r (H) < r (J) < 1,
4. r (H) > r (J) > 1.
Demostracion. Ver Varga, Matrix Iterative Analysis.


4.3. TEOREMAS DE CONVERGENCIA PARA METODOS
ITERATIVOS

83

El Teorema 4.5 dice que para matrices del tipo indicado, el metodo de Gauss-Seidel
converge mejor si alguno de los metodos converge. Eso implica en particular que ambos
metodos convergen para el sistema del Ejemplo 4.1.
En la practica, las siguientes matrices son importantes: matrices simetricas definidas
positivas y M-matrices.
Definici
on 4.4. Una matriz A Rnn se llama M-matriz si ij 6 0 para i 6= j y A1
existe y A1 > 0.
Teorema 4.6. Una matriz A Rnn es una M-matriz si y solo si ii > 0 para i = 1, . . . , n,
ij 6 0 para i 6= j y r (D1 (L + U)) < 1, donde A = L + D U es la descomposici
on
(4.12), (4.13) de A.
Demostracion. Hay que demostrar dos implicaciones.
: Sea ii > 0 para i = 1, . . . , n, ij 6 0 para i 6= j y r (D1 (L + U)) < 1. Definimos
J := D1 (L + U). Entonces r (J) < 1, y la matriz
(I J)
1

existe, y (I J)

Jk

k=0

> 0 dado que J > 0. Pero por otro lado, sabemos que
I J = D1 A,

es decir,
(I J)1 = A1 D,

lo que implica que A1 existe y A1 > 0.


: Supongamos que A es una M-matriz. Sea ii 6 0 para alg
un i. En este caso, usando
que ij 6 0 para i 6= j, tenemos Aei 6 0, es decir, multiplicando con la matriz
A1 > 0, A1 Aei 6 0, o sea ei 6 0, una contradiccion. Entonces, ii > 0 para todo i,
lo que implica que J := D1 (L + U) es bien definida, J > 0 y A1 D = (I J)1
existe. Sea un valor propio de J con vector propio x 6= 0. En este caso,

|||x| 6 J|x| = (I J)|x| 6 1 || |x|,
y dado que (I J)1 > 0,


|x| 6 1 || (I J)1 |x|.

Dado que |x| 6= 0, (I J)1 |x| 6= 0 y (I J)1 |x| > 0. Entonces, podemos concluir
que || < 1, o sea r (J) < 1.
Entonces el metodo de Jacobi converge para cada M-matriz, y usando el Teorema 4.5,
podemos concluir que converge tambien el metodo de Gauss-Seidel.
Definici
on 4.5. Sea A Rnn . Llamamos a A = N P una particion regular de A si
N Rnn es regular y N1 > 0, P > 0.

84

DE SISTEMAS DE ECUACIONES LINEALES


4. METODOS
ITERATIVOS PARA LA SOLUCION

Teorema 4.7. Sea A Rnn , con la particion regular A = NP. En este caso, r (N1 P) <
1 si y solo si A1 > 0.
Demostracion.
: Trivialmente tenemos que H := N1 P > 0. Ahora, si r (H) < 1, entonces r (H) <
1, o sea (I H)1 existe y (I H)1 > 0, por lo tanto
A1 = (I H)1 N1 > 0.

: Sea A1 > 0. Sabemos que


A1 = (N P)1 = (I N1 P)1 N1 .
Ahora, con H := N1 P > 0,
0 6 (I + H + H2 + . . . + Hm )N1
= (I Hm+1 )(I H)1 N1
= (I Hm+1 )A1 6 A1 ,

lo que implica que I + H + H2 + . . . + Hm converge cuando m , por lo tanto,


r (H) < 1.
Teorema 4.8. Sea A estrictamente o irreduciblemente diagonal dominante con ii > 0 para
i = 1, . . . , n y ij 6 0 para i 6= j (es decir, A es una L-matriz). En este caso, A es una
M-matriz.
Demostracion. En este caso, N = D y P = L + U es una particion regular. Segun el
Teorema 4.4, r (D1 (L + U)) < 1. Luego aplicamos el Teorema 4.7.
Ejemplo 4.4 (Certamen

10 2 6
3 5
1
A1 =
2 2 12
1 0 2

1, Curso 2010). Se consideran las matrices

2
4 1 1
0
0
0
1 3 1 1
1

, A2 =

0 2 4 2 , A3 = 3
4
0
3
1 1 2 4

0 1 0
2 0
1
.
0 5
0
2 0 4

a) Demostrar que para cada una de ellas que el metodo de Jacobi converge a la soluci
on
4
4
de Ai xi = bi para bi R y vectores iniciales xi,0 R arbitrarios.
b) Utilizando el vector inicial xi,0 = (1, 1, 1, 1)T , calcular para i = 2 e i = 3 una nueva
aproximacion de la solucion de Ai xi = bi para


9
2
8
1


b2 =
8 , b3 = 24 ,
13
6

utilizando los metodos de Jacobi y de Gauss-Seidel.


Solucion sugerida.


4.3. TEOREMAS DE CONVERGENCIA PARA METODOS
ITERATIVOS

85

a) Se demuestra facilmente que A1 y A2 son irreduciblemente diagonal dominantes. Por


otro lado, la matriz A3 corresponde a dos sistemas lineales desacoplados para (x1 , x3 )
y (x2 , x4 ), respectivamente, con las respectivas matrices




2 1
2 1
A3,1 =
y A3,2 =
,
3 5
3 4
ambas de las cuales son estrictamente diagonaldominantes; por lo tanto se puede concluir ambos metodos convergen tambien en el caso de A3 .
b) Utilizando el metodo de Jacobi para Ax2 = b2 se genera la sucesion de vectores

1,7500
1,1667
1,2188
1,0495
2,3333

, x2,2 = 1,6667 , x2,3 = 2,0208 , x2,4 = 1,9306


x2,1 =
2,0000
2,4583
2,7812
2,8750
3,2500
3,2292
3,7708
3,8307
etc., mientras que el metodo de Gauss-Seidel entrega

1,0358
1,1610
1,3646
1,7500

2,0833
, x2,2 = 1,6910 , x2,3 = 1,8951 , x2,4 = 1,9864
x2,1 =
2,9902
2,9617
2,6649
1,4583
3,9896
3,9668
3,8186
3,0208

etc. Para el sistema Ax3 = b3 obtenemos las respectivas sucesiones

1,91
1,25
1,7
0,5


1
, x3,2 = 0 , x3,3 = 0,5 , x3,4 = 0,25
x3,1 =
5,55
5,82
4,5
5,4
1,25
1,5
2
1

etc. para el metodo de Jacobi y

1,9325
1,775
1,25
0,5

1
, x3,2 = 0,5 , x3,3 = 0,125 , x3,4 = 0,2188
x3,1 =
5,9595
5,865
4,5
5,55
1,3906
1,4375
2
1,25
etc. para el metodo de Gauss-Seidel.

Ejemplo 4.5 (Tarea 19, Curso 2006). Analizar si las siguientes matrices poseen algunas de
las siguientes propiedades: irreducible, irreduciblemente diagonal dominante, estrictamente
diagonal dominante, L-matriz, M-matriz:

0 1 0 0
2 1 0
0
2 2 0
0
0 0 1 0
1 2 1 0
1 2 1 0

A=
0 0 0 1 , B = 0 1 2 1 , C = 0 1 2 1 .
1 0 0 0
0
0 1 2
0
0 2 2

Solucion sugerida.
a) La matriz A es irreducible, pero no posee ninguna de las otras propiedades.

86

DE SISTEMAS DE ECUACIONES LINEALES


4. METODOS
ITERATIVOS PARA LA SOLUCION

b) La matriz B igualmente es irreducible. Dado que es diagonal dominante y estrictamente diagonal dominante en por lo menos una fila, la estructura de signos implica
que B es una L-matriz irreduciblemente diagonal dominante. Esto es una condici
on
suficiente para asegurar que es una M-matriz.
c) La matriz C es una L-matriz irreducible, pero no es una L-matriz irreduciblemente
diagonal dominante. Como C es singular, no puede ser M-matriz.
Ya sabemos que el metodo de Jacobi converge si A es una M-matriz. Incluso, tenemos el
siguiente teorema.
Teorema 4.9. Si A es una M-matriz, entonces el metodo SOR converge para 0 < 6 1.
Demostracion. La matriz A puede ser escrita como

1
A = D L (1 )D U

(4.26)

1
1
=N P, N := (D L), P :=
(1 )D + U .

Demostramos ahora que (4.26) es una particion regular. Para tal efecto, demostramos que
(DL)1 > 0; el resto es una consecuencia del Teorema 4.8. Pero, en virtud de D1 L > 0,
podemos escribir:
!
n
X
(D L)1 = (I D1 L)1 D1 = lm
(D1 L)k D1 > 0.
n

k=0

El Teorema 4.9 no es muy interesante para las aplicaciones por que se puede mostrar que
para una M-matriz, la funcion



7 r B() = r (D L)1 (1 )D + U

es estrictamente decreciente para 0 6 <


con
> 1. Lo que es interesante es el problema
de la convergencia del metodo SOR para > 1, y el problema de existencia de un posible
parametro optimo, opt . En lo siguiente, siempre usamos

A = L + D U, B() := (D L)1 (1 )D + U .
Teorema 4.10. La matriz B() satisface

Demostracion. Usando que


podemos escribir


r B() > | 1|.

(D L)1 = (I D1 L)1 D1 ,




det B() I = det (D L)1 (1 )D + U (D L)

= det (1 )I + D1 U + D1 L .

(4.27)


4.3. TEOREMAS DE CONVERGENCIA PARA METODOS
ITERATIVOS

87

Evaluando esta formula para = 0, obtenemos


n
 Y

det B() =
i B() = (1 )n .
i=1

Esto implica que




r B() = max i B() > | 1|.
16i6n

En consecuencia, para R nos interesa solamente el intervalo 0 < < 2. Ya sabemos


que para M-matrices, r (B()) es una funcion decreciente en el intervalo 0 < 6
con

> 1. Para matrices definidas positivas tenemos el siguiente teorema.


Teorema 4.11. Sea A Rnn simetrica y definida positiva. Entonces r (B()) < 1 para
0 < < 2.
Demostracion. Definimos la funcion
1
f (x) := xT Ax bT x,
2
notando que
1
1
1
f (x) = bT A1 b + (x A1 b)T (x A1 b) > bT A1 b.
2
2
2
2
La defincion de f implica f (x) = Ax b y f (x) = A, entonces x := A1 b es el
mnimo unicamente definido de f . Ademas, usando la notacion de la descripicion del metodo
(4.18), (4.19), es decir, escribiendo

1,k+1
..
.

y0 := x0 , ykn+i := i,k+1 , 1 6 i 6 n, k N0 ,
i+1,k
.
..
n,k
podemos definir

rj := Ayj b,

j N0 ;

%j,i := eT
i rj .

Entonces, usando (4.19), podemos escribir

0
..


%kn+i1,i
T

ykn+i ykn+i1 = i,k+1 i,k =


ei rkn+i1 ei =
ei

ii
ii
0

..

.
0

88

DE SISTEMAS DE ECUACIONES LINEALES


4. METODOS
ITERATIVOS PARA LA SOLUCION

y xk = ykn para k N0 . Una computacion directa entrega


f (ykn+i ) f (ykn+i1 ) =

(2 ) 2
%kn+i1,i .
2ii

(4.28)

Entonces, para 0 < < 2 la sucesion {f (yj )}jN es monotonamente no creciente y acotada
hacia abajo. Por lo tanto, existe
lm %kn+i1,i = 0 para i = 1, . . . , n,

(4.29)

y entonces tambien
lm (ykn+i ykn+i1 ) = 0,

y dado que rj+1 rj = A(yj+1 yj ), existe tambien el lmite


lm (rkn+i rkn+i1 ) = 0,

i = 1, . . . , n.

(4.30)

Todava hay que demostrar que


lm rkn = 0.

(4.31)

Ahora, debido a (4.29) y (4.30),


|%j+1,i %j,i | 6 para i = 1, . . . , n y j > j0 = nk0 ,
|%kn+i1,i | 6 para k > k0 () e i = 1, . . . , n.

Entonces |%kn,1 | 6 . Pero


|%kn+1,2 %kn,2 | 6 |%kn+1,2 | 6 = |%kn,2 | 6 2,

|%kn+2,3 %kn+1,3 | 6 |%kn+2,3 | 6 = |%kn+1,2 | 6 2,


|%kn+1,3 %kn,3 | 6 |%kn+1,3 | 6 2 = |%kn,3 | 6 3,

y finalmente |%kn,n | 6 n, es decir, krkn k 6 n, lo que implica (4.31), o sea


k

xk x = A1 b
El resultado sigue con el Teorema 4.1.
El Teorema 4.11 entrega una interpretacion interesante del metodo SOR como metodo
de minimizacion de la funcion f , cuyo gradiente es el residuo Ax = b. Las superficies
f (x) = c en Rn son elipsoides concentricos, y mediante el metodo SOR se alcanza el centro
com
un x (el u
nico mnimo de f en Rn ) a lo largo de las direcciones de coordenadas con
descenso monotono de f .
Para una clase especial de matrices existe un resultado cuantitativo acerca de la dependencia de r (B()) de .
Definici
on 4.6. Sea
U),

A = D(I L

:= D1 L,
L

:= D1 U,
U


4.3. TEOREMAS DE CONVERGENCIA PARA METODOS
ITERATIVOS

89

partiendo de la particion usual de A en una matriz diagonal D y en matrices L y U estrictamente triangulares. La matriz A se llama ordenada consistentemente si para cada , 6= 0,




1
1
L
+ U
.
+ U
L

Teorema 4.12. Supongamos que

D1 A12

A21 D2

0 A32

..
A = ...
.

..
.
.
..
0

la matriz A CN N puede ser particionada como

0
..
A23 0
.
..
...
D3 A34
.

.. ,
..
..
..
..
.
.
.
.
.

..
..
..
..

.
.
.
.
0

...
An1,n2 Dn1 An1,n

0
An,n1
Dn

donde D1 , . . . , Dn son matrices diagonales regulares. Entonces A es ordenada consistentemente.


Demostracion. Tarea.

La matriz del Ejemplo 4.1 no posee la forma requerida en el Teorema 4.12. Pero si
cambiamos la enumeracion a (N, 1), (N, 2), (N 1, 1), (N, 3), (N 1, 2), . . . , la matriz de
coeficientes si asume esta forma. En este caso, se puede demostrar que la matriz es ordenada
consistentemente (Tarea).
Teorema 4.13. Sea A ordenada consistentemente. Entonces sabemos que para J := D1 (L+
U),
a) (J) (J),
b) (B()) (J) : 2 2 = ( + 1)2 .
Demostracion.
a) Sea
1 1
D U.

Entonces J(1) = J(1), mientras que J(1) y J(1) tienen los mismos valores propios
seg
un hipotesis.
b): Para 6= 0, sabemos que


det B() I = det D1 U + D1 L + (1 + )I




1 1

1
= det D U + D L + (1 + )I

= det J( ) + (1 + )I


+1
n

= ( ) det J( )
I .


J() := D1 L +

90

DE SISTEMAS DE ECUACIONES LINEALES


4. METODOS
ITERATIVOS PARA LA SOLUCION

Entonces,


+1
+1

0 6= B()
J( )
J(1) .

Pero si 0 es un valor propio de B(), (0 (B())), entonces



det B() = (1 )n = 0 = = 1;

para este caso, b) es trivial.


: Sea un valor propio de J y 2 2 = ( + 1)2 . En el caso 6= 0, eso significa
+1
;
=


usando la discusion de (a), podemos elegir
+1
,
=

es decir, (J(1)) y tambien (J( )), por lo tanto, (B()). Si


= 0, tenemos = 1, pero det(B()) = 0, o sea, 0 (B(1)).

Podemos concluir que si A es ordenada consistentemente, entonces




r (D L)1 U = r2 D1 (L + U) ,

es decir, esencialmente el metodo de Gauss-Seidel converge dos veces mas rapido que el
metodo de Jacobi: notamos que para = 1 en b), = 2 .
Teorema 4.14. Sea A ordenada consistentemente. Supongamos que los valores propios i
de J := D1 (L + U) satisfacen i (1, 1) para i = 1, . . . , n. Entonces para
2
p
opt :=
, % := r (J),
(4.32)
1 + 1 %2
el radio espectral de B() es dado por

2
p
 % + 1 %2 2 4( 1)
para 0 6 6 opt ,
r B() =
(4.33)
2
2

1
para opt 6 6 2.
La funcion 7 r (B()) es estrictamente decreciente sobre el intervalo [0, opt ].

Demostracion. La solucion de la ecuacion cuadratica 2 2 = ( + 1)2 del Teorema 4.13


entrega para i = 1, 2


q

1
2
2 2
i :=
i 2( 1)
2i 2 2( 1) 4( 1)2
2


q
1
2 2
4 4
2 2
i 2( 1) i 4( 1)i
=
2
r
1 2 2 1 2 2
2i 2
i
= i + i + 1
+ (1 ) 2
4
4
4
2


4.3. TEOREMAS DE CONVERGENCIA PARA METODOS
ITERATIVOS

91


2
q
1
2 2
i i + 4(1 ) .
=
4

Aqui el radicando es no negativo siempre que


066

2
q
=: i . i = 1, 2.
1 + 1 2i

Para > i tenemos |i | = 1, lo cual se deriva usando que para z C, |z|2 =


(Re z)2 + (Im z)2 . Dado que 0 6 2i < 1, tenemos que i > 1 y es monotonamente
creciente con i , lo que entrega la segunda parte de (4.33). Para 0 6 6 i el valor mayor
de valor absoluto de i resulta de

2
q
1
|i | =
|i | + 2i 2 + 4(1 ) > 1,
4

y este valor crece monotonamente con i , lo que demuestra la primera parte de (4.33).
Diferenciando con respecto a obtenemos el u
ltimo enunciado.

El Teorema 4.14 parte de la hipotesis que los valores propios de J son, en particular, reales.
El siguiente lema informa que esto efectivamente es valido para una matriz A simetrica y
definida positiva.
Lema 4.1. Para una matriz A simetrica y definida positiva, los valores propios de J =
I D1 A son reales.
Demostracion. Puesto que la diagonal D de A es positiva, existe una matriz diagonal F con
D = F2 , e
I D1 A = F1 (I F1 AF1 )F
= F1 MF.

Dado que la matriz


M = I F1 AF1
es simetrica y por lo tanto solo posee valores propios reales, tambien la transformada ID1 A
solo posee valores propios reales.
Ejemplo 4.6. Supongamos que


% = r (J) = r D1 (L + U) = 0,9.

En este caso, de (4.32) obtenemos

opt =

2
p
1,39286;
1 + 1 0,92

la Figura 4.3 muestra la funcion 7 r (B()), dada por (4.33), que resulta en este caso.

92

DE SISTEMAS DE ECUACIONES LINEALES


4. METODOS
ITERATIVOS PARA LA SOLUCION

p ppp
pp pp
pppp ppp
p ppp
pp pp
pppp ppp
pp
ppppppp
ppp p
pppppp
pp ppp
ppppp
p
p
pppp
p pp
pppp
pp pp
ppp
pppp ppp
ppp
p
ppp pppppppp
ppp p ppp
ppp ppppp
ppp

1 ppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppp
pppppppppppppppppppppp
pppppppppppppppppp
r (B())
ppppppppppppppp
pppppppppppp
pppppppppp opt 1,39286
ppppppppp
0,8
pp
0,6
0,4
0,2
0
0

0,5

1,5

Figura 4.3. El radio espectral r (B()) dado por (4.33) para % = 0,9 (Ejemplo 4.6).
Ejemplo 4.7 (Tarea 20 b), Curso 2006). Demostrar que la siguiente matriz es ordenada
consistentemente, y determinar (si posible) el parametro optimo para el metodo SOR.

2 1 1
0
1 4
0
1

A=
1
0
4 1
0
1 1 2
Solucion sugerida. Descomponiendo A en bloques de los tama
nos 1, 2 y 1,

2 1 1
0
1 4
0
1
,
A=
1
0
4 1
0
1 1 2

nos fijamos que A es una matriz tridiagonal por bloques con bloques diagonales diagonales
y regulares. La simetra y el Lema 4.1 implican que todos los valores propios de la matriz
J = I D1 A son reales. Dado que A es irreduciblemente diagonal dominante, el metodo
de Jacobi converge, tal que los valores propios pertenecen a [1, 1]. Entonces existe opt .
Finalmente, tenemos que

0
1/2 1/2
0
1/4
0
0
1/4
= p() = det(J I) = 2 (2 1/2),
J=
1/4
0
0
1/4
0
1/2 1/2
0


4.3. TEOREMAS DE CONVERGENCIA PARA METODOS
ITERATIVOS

93

entonces
opt =

2
q
1+ 1

1
2

Ejemplo 4.8 (Tarea 21, Curso 2006). Sea

1
0 c
1 d ,
A= 0
a b 1

1,171573.

a, b, c, d R.

a) Para que valores de z = ac + bd el metodo de Jacobi converge para la solucion del


sistema Ax = r?
b) Para que valores de a, b, c, d la matriz A es irreducible?
c) Indicar la formula de iteracion del metodo SOR para Ax = r en forma explcita (o
sea, sin matrices inversas) en la forma xk+1 = B()xk + v().
d) Sean a = 0,5, b = 0,4, c = 0,7, d = 0,4 y r = (5, 9, 7)T . (La solucion exacta es
= (2, 5, 10)T .) Partiendo de x0 = (1, 1, 1)T , calcular x2 con el metodo de Gaussx
Seidel.
e) Sean H1 := B(1) y H la matriz de iteracion del metodo de Jacobi. Demostrar que A
es ordenada consistentemente y que (r (H))2 = r (H1 ). Determinar r (H1 ) para los
valores numericos de (d).
f) Sea 0 < z < 1. Demostrar que el metodo SOR aplicado a A posee un parametro optimo
= opt , y calcular el valor de opt para los valores numericos de (d). Cual es el
valor del radio espectral correspondiente?
2 usando el metodo SOR y el par
g) Partiendo de x0 especificado en (d), determinar x
ametro optimo.

Solucion sugerida.
a) En este caso,

0 0 c
J = 0 0 d = det(J I) = (2 + z),
a b 0

entonces r (J) < 1 si y solo si |z| < 1.


b) P1 puede ser conectado con P3 si y solo si c 6= 0, y P2 con P3 si y solo si d 6= 0. Lo
mismo es valido para los arcos dirigidos P3 P1 y p3 P2 , o sea A es irreducible si
y solo si a 6= 0, b 6= 0, c 6= 0, d 6= 0.
c)
B() = (D L)1 ((1 )D + U)

1
0
0
1
0
c
1
0 0
1 d
= 0
a b 1
0
0
1

94

DE SISTEMAS DE ECUACIONES LINEALES


4. METODOS
ITERATIVOS PARA LA SOLUCION

1 0 0 1
0
c
1 d
= 0 1 0 0
a b 1
0
0
1

1
0
c
,
0
1
d
=
2
(1 )a (1 )b 1 + z

1 0 0
v() = 0 1 0 r.
a b 1

d)
xk+1

0 0 0,7
5
4,3
= 0 0 0,4 xk + 9 = x1 = 8,6 ,
0 0 0,19
8,1
8,29

e) Puesto que

0,803
x2 = 5,684
9,6751



1
det L + U I = (2 + z)

independentementede , la matriz A es ordenada consistentemente. Usando (a), vemos que r (H) = 0,19; entonces (r (H))2 = r (H1 ), es decir r (H1 ) = 0,19.
f) Seg
un (a), r (H) < 1 y todos los valores propios de H son reales. Seg
un (e), A es
ordenada consistentemente, entonces existe opt . Aqu tenemos
2
20
p
opt =
=
= 1,0526, r (Hopt ) = 0,0526.
19
1 + 1 (r (H))2

g)

4,5789
,
9
x1 =
8,795

1,4583
x2 = 5,2968 .
10,0485

Se reconoce la gran ganancia en velocidad de convergencia usando = opt . Pero en la


practica, se recomienda sobreestimar , dado que en el lado izquierdo de opt la tangente es
vertical (como ilustra la Figura 4.3). Entonces, necesitamos una cota superior de r (D1 (L+
U)). Veremos en el Captulo 5 como nos podemos conseguir una tal cota.
Sin demostracion comunicamos el siguiente teorema.
Teorema 4.15. Sea A una matriz tridiagonal por bloques con bloques diagonales I, simetrica,
y definida positiva. Entonces para

2
1/2
4
:= condkk2 (A)
, := 2 +

tenemos la inclusion

1
> r B(opt ) >
.
(4.34)
+1
+


POR BLOQUE
4.4. METODOS
DE ITERACION

95

Este resultado significa que para una matriz mal condicionada, el metodo SOR con opt
a
un es muy lento, pero mucho mas rapido que los metodos de Gauss-Seidel o Jacobi, dado
que bajo las hipotesis del Teorema 4.15 tenemos que


r2 D1 (L + U) = r2 (L + U) = r (D L)1 U ,
donde


r D1 (L + U) = 1 mn (A) = max (A) 1 = 1

max (A)
condkk2 (A)

con 1 6 max (A) 6 2.

Ejemplo 4.9. Si condkk2 (A) = 10000, tenemos = 100 y r > 0,9998 para el metodo de
Jacobi y r > 0,9996 para el metodo de Gauss-Seidel, pero

2
= 0,980198
r B(opt ) 6 1
101
para el metodo SOR con opt . Notar que depues de 1000 pasos,
0,99981000 = 0,8187,

0,99961000 = 0,67026,

0,9801981000 = 2,059 109 .

Una pregunta obvia es como se puede estimar el radio espectral de la matriz de iteracion
con poco esfuerzo computacional. A parte de considerar vectores iniciales especiales, podemos
considerar la expresion kAxk bk1/k .
Teorema 4.16. Sea A regular y el sistema Ax = b equivalente a x = Gx + g, y la
sucesion {xk }kN0 definida por
xk+1 = Gxk + g,

k N0 .

(4.35)

Entonces, para cualquier norma k k, tenemos que


lm sup kAxk bk1/k 6 r (G),

(4.36)

y existe un vector x0 para el cual (4.36) vale con =.


Demostracion. Tarea.
4.4. M
etodos de iteraci
on por bloque
Se ofrece la siguiente generalizacion de los metodos de iteracion discutidos hasta ahora. Se
particiona la matriz A, el vector de solucion x y la parte derecha b en bloques y subvectores,
respectivamente:



A11 A12 A1n
x1
b1
A21 A22 A2n
.
A=
, x = .. , b = ... ,
..
..
..
...

.
.
.
xn
bn
An1 Ann

96

DE SISTEMAS DE ECUACIONES LINEALES


4. METODOS
ITERATIVOS PARA LA SOLUCION

y en la derivacion de los metodos ponemos

A11

A21 0
..
, L =
D=
.
.
..
..
..
.
.
Ann
An1 An,n1

0
0 A12
A1n
..
..
.. . . . . . .
.
.
.
, U = .
.
..
.
. . An1,n
..
.
0
0
0
(4.37)

Por ejemplo, la iteracion del metodo Bloque-SOR es definida por


!
i1
n
X
X
Aii xi,k+1 = bi
Aij xj,k+1
Aij xj,k + Aii xi,k ,
j=1

i = 1, . . . , n,

j=i

(4.38)

k N0 .

Este procedimiento requiere en cada paso la solucion de n sistemas lineales peque


nos. Sin
embargo, tal procedimiento puede ser ventajoso cuando, por ejemplo, las matrices Aii son
simplemente estructuradas (por ejemplo, tridiagonales). Los Teoremas 4.104.14 pueden ser
generalizados facilmente. A modo de ejemplo, tenemos el siguiente teorema.
Teorema 4.17. Sea A una matriz tridiagonal por bloques y definida positiva. Entonces, el
metodo (4.38) converge para 0 < < 2. El parametro optimo opt es dado por

2
p
, = r D1 (L + U) ,
opt =
1 + 1 2
donde D, L y U estan dadas por (4.37), y la funcion


7 r (D L)1 (1 )D + U

tiene las mismas propiedades que las especificadas en el Teorema 4.14.


4.5. El m
etodo de gradientes conjugados (cg) de Hestenes y Stiefel
Ya mencionamos en la demostracion del Teorema 4.11 que el metodo SOR para la solucion
de Ax = b, donde A es simetrica y definida positiva, puede ser interpretado como un metodo
de minimizacion para la funcion
1
f (x) = xT Ax bT x
(4.39)
2
con el gradiente
f (x) = Ax b,

(4.40)

donde se procede en orden cclico a lo largo de las direcciones de coordenadas. El caso n = 2


ya ilustra que los ejes de las coordenadas no necesariamente deben ser las mas ventajosas.
En el caso n = 2, las curvas f (x) = c son elipses concentricas. Una minimizacion de f
a lo largo de los ejes principales de la elipse entregara el mnimo de f , o sea, la solucion
de Ax = b, en dos pasos. El resultado analogo tambien es valido para n > 3. Los ejes
principales forman un caso especial la las llamadas direcciones A-ortogonales, que en este
caso tambien son ortogonales.


4.5. EL METODO
DE GRADIENTES CONJUGADOS (CG) DE HESTENES Y STIEFEL

97

Definici
on 4.7. Sea A Rnn simetrica y definida positiva. Un sistema {p0 , p1 , . . . , pn1 }
de vectores se llama A-ortogonal si para 0 6 j, k 6 n 1,
(
0 si j 6= k,
j > 0, jk =
pT
j Apk = k jk ,
1 si j = k.
Pero, para la solucion del sistema Ax = b, la determinacion de los ejes principales de A,
es decir, de sus vectores propios, significaria un esfuerzo computacional altamente exagerado.
Demostraremos ahora que la minimizacion a lo largo de direcciones A-ortogonales, tambien
llamadas A-conjugadas, tambien entrega un metodo finito.
Ejemplo 4.10. Consideramos el sistema Ax = b con


 
2 1
3
A=
, b=
,
1 3
1

(4.41)

con la solucion exacta x = (2, 1)T ; la matriz A es simetrica y definida positiva. Un ejemplo
de direcciones A ortogonales son
 
 
1 1
1
p0 =
, p1 =
.
0
5 2
La Figura 4.4 muestra las elipses concentricas f (x) = c, donde f es definida por (4.39) y
c = 3, 2, 1, 0, . . . ; el mnimo es f (x ) = 3,5.
Teorema 4.18. Sea la funcion f definida por (4.39), con A Rnn simetrica y definida
positiva. Sea {p0 , p1 , . . . , pn1 } un sistema de direcciones A-ortogonales. Sea x0 arbitrario, y
xk+1 = xk k pk ,

pT
(Axk b)
k := k T
,
pk Apk

k = 0, . . . , n 1.

Entonces
(i) xk+1 minimiza f (xk pk ) con respecto a ,
(ii) (Axk b)T pj = 0 para j = 0, . . . , k 1, es decir,


xk = argmin f (x) | x = x0 + span{p0 , . . . , pk1 } ,
(iii) xn = x = A1 b.

Demostracion.
(i) Utilizando el calculo diferencial, obtenemos

d
f (xk pk ) = 0
d
T
f (xk pk ) pk = 0

pT
k A(xk pk ) b = 0

pT
k (Axk b)
.
pT
k Apk

(4.42)

(4.43)

98

DE SISTEMAS DE ECUACIONES LINEALES


4. METODOS
ITERATIVOS PARA LA SOLUCION

ppppppppppppp
pppppp p ppppp
3 p p p p p p p p p p p p pp p pp ppppp pp pp pp pp p p p p p p p p p p p pp pp pp ppppp p p p p p p pp p p p p p pp pp pppp ppppppp ppp pp p ppp pp ppppppppppppp
pppppppppp
ppppp pppp pp p p p
p
p
p
p
p
p
p
p
p
p
p
p
pppppp
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
pppppppppppppppppppppp
pp
p pp
pp
pp
ppp
ppp
pp
pp p p p pp
pppppppppppppppppp
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p p p p p p p p p p p p p p p p p p p pp pppppp ppp pp p p p p p p p p p p p p p pp pp pp p pppp pp p pp pp p p p p pp pp pp p ppppp p p ppp
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
pppppppppp
f=
0
p pp p
ppp
ppppp pp p p p p p p p pp p pp p pppp
p p p pp p
pp ppp pp
p p ppp ppppppp
pppppp
p
pp p p pp p
p
pp pppp p pp
pp p pp pppppp p
pp ppp p p p p p p p p pp p
ppppppppppp

ppppppp
p pp p p p p p p p p p p ppp ppppp
p p p p p p p ppp pp pppp
p ppp pppp pp
pp pppppppppp p ppppppppppppppppppppppppppp pppppppppppppppppppppppppppppppppppppppppppppppppppp
p pp p ppppp
pppppp
pp p
p
pp p
ppp p
pp p pp p
p p pp pp p ppp
pppppp pppppppppppppp
p
pppp
p
pp p p pp p p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
ppp ppp pp pppp pppppp p p p p p p p p p pppp ppppp p ppppp pp ppppp
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
f
=
1
p
p
p
p
p
p
ppppppp
p
p
p pppp
p ppppp
p ppppp
p pp pp
p pppp
p pp ppp pppp
p p pp p p p p
pppppp
pppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppp
pp ppp ppp pppp ppp ppp pppp ppp p p p p p p p p p p pppppp p pp p p p
ppppppppppppppppppppppppppp
ppppppppppppp
ppp p pp p
p pp p p p p p p p
p
p
ppppp
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
pppp
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
pppp
p
p
p
p
p
p
p
p
p
p
p
p
p
p
ppppppp
pp
p pp
pp p pp
p pppppp
p
p
p
pppp pppp pppp pppp pppp
p
p
p
p
p
p
ppp
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
f
=
2
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
ppp
p
p
p
p
p
p
p
p
p
p
p
ppppp
p pp
ppp
pppppppppppppppppppppppppppppppppppppppppppppp
p
p pp
p
p
p
p
pp pp pp
p
ppp
pppp
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
ppp
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
ppp
p
ppppppppp
ppp
pp pp
ppppppp pp
p
pppp
ppp
p pp
p
pppp
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
pppp pp
p
p
p
p
ppp
ppppp
p p pp
p ppp
p
p ppppp
p ppp
p pp pp pp pp
pppp
ppp
pp p p p
ppp p
ppp pp p p p
ppp pp ppp ppp pp
p
p
pp p
p
p
p
p
p
p
ppp
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
pp
p
p
pppp pp
pppp pp
pp
ppp
p pp
f
=
3
pp p
p
p
p
ppp
p
p
p
p
p
pppp p
p
p
pppp pp
p
ppp
pp
p pppppppppppppppppppppppppppppppppppppppppppppppppppp
ppp
p
p
p
p
p
p
p
p
p
p
p
p
p
pp p
p
p
pp pp pp
pp p pp
pp p
p
p
p
p
p
p
p
p
p
p
p
p
pp
p
p
p
p
p
p
p
p
pppp
pp
pp
p
pp
pp
pp ppppp
p pp
p
p
p
p
p
p
p
pppp p p
p
p
pp p p p
ppp p p
p
ppp
p
ppp
p p p pp
ppp
ppp
p pp p
p pp
p pp
p pp
pp p p p
pp
ppp
p
pp
ppp p p
p
ppp p p
ppp p p
ppp pp p
pp p p p
p
pp
p
ppp p
ppp p
ppp
pp
ppp p
ppp p
ppp p p
pp pp
pp pp
pp
pp
pp
pp
p
pp
pp
pp
p pp
pp p
p pp
p pp
pp
ppp
pp
ppp
p
p
pp pp
pp pp
p
p
pp pp
pp pp
p
pp
ppp
p
pp
x = A1 b ppppp
pp
p
pp
pp

ppp p
ppp p
pp pp
pp p
ppp p p
ppp p
ppp pp
ppp p p

p
p
p
ppp
p pp
p pp
p pp
pp
ppp
pp
p pp p
pp
pp p

pp p
pp p
ppppp
p
p
p
p
p
p
p
pp p
p
pp pp
p
pp pp
pppp
p
p
p
p
p
p
p
p
p
p
p
p
p
ppp
p

p
pp
pp
pp
pp
pp p p p p
ppp
pppp
p p pp
pp
p pp
p pp
p p pp
pp p p p p

p
p
p
p
ppppp
p
p
p
p
p
p
pp
p
p
p
p
p
p
pppp
pp
pp
ppppppp
pp
pp
p pp
ppp

p p pp
p ppppp p ppp p
ppp
ppp
ppppppppppppp
pp
p pp
p pp p
ppp
p
pp p p p
pp pp pppppppp ppp
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p ppp
p
p
p
p
p
p
p
p
p
pp
p
p

p
p
p
p
p
ppp
p
p
p
p
p
p
p
p
p
p
ppp
p
p
p
ppp
pp
pp
p pp

ppp
pp p p p p
pppp
p p p p p pp
ppp p
pp p p p p
ppppp p p
p
p
p
p
p
p
p
ppp
p
p
p
p
p
p
p
p
p

p
p
p
ppppp
p
ppp
pp

pp p
p pp
p pp p p p
ppp p p
pppppp
p ppp pppp p

ppp ppp p
p pp p p
pp
ppp p p
p p p ppp
ppp pp pp pp p
pppppppp
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
ppppppppppp
pp
pp
ppp
p
pppp

p p pp
p p ppp
pp p
p ppp pp p pppppppp
p ppppppp
pppppppppppppppppppppp
p pp
ppp
ppppp pp ppppppp
p p ppp
pppppppppppppppppppppppppppppppppppppppppppp pppppppp
pp pppp p
p pp p p pp p
ppp p p p p p p p p
pppp
p
p
p
p
p
p
p
p
ppppp
p
p
p
p
p
ppp ppp pppppp ppppp
p
p
p
p
p
p
p
p
p
p
p
p
p
pp
pppppp
p pp
p pp p
pp p p p p
p ppp
p ppppp
pp pp pp p
pp ppppp p p p

ppppppp
pppp ppp ppppppp
p p p p p pp ppp p p p p p p p p p p p p p pp p p p p
pp ppppp
pp pp ppp
p ppppppp p pp
p
p
p
p
p
p
ppppppppp
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
ppppp
 1
ppppppppppppp
pppppp
pp p p
pp pp pp
ppp ppp ppp
pp p pp p p
ppppp
pp pp p
ppp p p
ppppppppppppppppppppppp
ppppppppp ppp ppp pp
pp p p p p pp p
pppppp
p p p pp p pp pp p p p p p p p p p p pp ppp pp pp p p p p p p p p p p p p
p ppppppp
p
p
p
p
ppppppppppppppppppppppppppppppppppppppppp pppppppppppppppppppp pp
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
ppppppp
pp
pp p p
ppppppppp

ppp pp p p
p pppp
p p pppp
p p ppp
pp ppp p pp p
p p p p pp pp ppp
ppppppppppp
ppp pppp p p pp p p p p p p p pp pppp pp pp p p p p p p p p p p p p p pppp pp p p p p p p p
pp ppp pp pp
pp pppp pp p pppp
p
p
p
p
pppppp
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p

p
p
p
p
p
p
p
p
p
p
p
p
p
p
ppppppppppppppppp
pppp
p
ppp
pp
pp
p p pp
ppp
pp
pppppppppp pppppp
pppppppppppppppppppppppppppp-
pppppp pp pp
pp pppppp p p p p p p p p p pp p pp pp ppppp pp p p p p p p p p p p p p p p p p p p p pppp
ppp pp p pp
p
p
p
p
p
p
p
pppppppppspppppppppppppppppppp ppppppppppppppppppppppppp
s ppppppppppppppp
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
pp
x0 ppppppppppppppppppp p0
x1
pp ppp pp
p p p p p p pp
p p p pp
pp pp pp p p p p p p p p p p
ppp p p p pp p
pppppp p ppp pp pp
pp ppp pp pp p p pp pp pp p ppppp ppp p p p p p p p p p p p pp pp p p ppp ppppp pp pp p p p p p p p p p p p p p p p p p
ppp ppp p pp p
ppppppppppppppppp
p pp ppp ppp p ppppp p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
pppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppp ppppppppppppppppppppppppp ppp
ppppppppp
p pppp
p pp p p p p
p p pppppp
p pp ppppp pppp
pppp p p p p pp
p pp pp p p pp p p p p p p p
ppppppppppp
ppp pp p pp p p p ppp pp pppppp pppp pp pp p p p p pp p pp pp pp pp pp pppp p p p pp p p p p p p p p p pp p pp p ppp pp pp ppp pp pp p p p p p p p p p p
p pppppppppp ppp p
pppppppppp
p
p
p
p pp ppppppp ppp pppp
pppp pppppppp
p
p
p
p

Figura 4.4. Ejemplos 4.10 y 4.11: Las curvas f (x) = c, c =


3, 2, 1, 0, . . . , direcciones A-ortogonales p0 y p1 , la solucion exacta x =
A1 b, y x0 y x1 .
(ii) Procedemos por induccion. Para k = 1, (ii) es la consecuencia de (i). Supongamos
ahora que
(Axk b)T pj = 0,

j = 0, . . . , k 1.

Hay que demostrar que


(Axk+1 b)T pj = 0,

j = 0, . . . , k.

(4.44)


4.5. EL METODO
DE GRADIENTES CONJUGADOS (CG) DE HESTENES Y STIEFEL

99

Para j = k, (4.44) es una consecuencia obvia de (i). Pero para j < k, calculamos que
T
(Axk+1 b)T pj = A(xk k pk ) b pj
= (Axk b k Apk )T pj

= (Axk b)T pj k pT
k Apj = 0.
Esta u
ltima expresion es cero debido a la hipotesis de induccion y la definicion de los
vectores pj .
(iii) Para k = n, sabemos que


(Axn b)T p0 pn1 = 0.


Dado que p0 pn1 es una matriz regular, se tiene que Axn = b.
Ejemplo 4.11. Continuamos considerando el sistema del Ejemplo 4.10, partiendo de

 

0
0
x0 =
=
.
1 2 0,7
0,67332005
En este caso, obtenemos de (4.42) con k = 0


  
2 1
0
3
(1, 0)

1 3
1 2 0,7
1

 
0 =
2 1 1
(1, 0)
1 3
0


2 0,7 1 3

(1, 0)
6 0,7 + 3 1
2 0,7 4 p
 
=
=
= 0,7 2 = 1,16333997347,
2
2
(1, 0)
1
entonces
x1 =


  

 
p
0
1
2 0,7
1,16333997347
( 0,7 2)
=
=
.
1 2 0,7
0
1 2 0,7
0,673320053068

Luego calculamos




  
2 1
2 0,7
3
r

(1, 2) 1 3
1 2 0,7
1
7

 
=
1 = 5
,
2
2 1 1
(1, 2)
1 3
2
r !

   

7
1 1
2 0,7
2
x2 =

=
= x .
1 2 0,7
1
2
5 2
La Figura 4.4 muestra x0 y x1 .

100

DE SISTEMAS DE ECUACIONES LINEALES


4. METODOS
ITERATIVOS PARA LA SOLUCION

La construccion del Teorema 4.18 implica que la direccion pk solo se necesita cuando xk
ya ha sido determinado. Podemos aprovechar esa observacion para generar las direcciones
A-ortogonales pj mediante un metodo de ortogonalizacion sucesiva (con respecto al producto
escalar (x, y) = xT Ay) durante la computacion, partiendo de
p0 := Ax0 b = f (x0 ),

seg
un

pk = f (xk ) +

k1
X

kj pj ,

(4.45)

j=0

donde f (xk ) 6= 0 (sino ya se ha encontrado el mnimo deseado), donde kj se determina de


tal forma que
pT
j Apk = 0,

j = 0, . . . , k 1.

(4.46)

La observacion importante para poder ejecutar el metodo es que resultara que


k,0 = . . . = k,k2 = 0,

k,k1 =

(f (xk ))T f (xk )


.
(f (xk1 ))T f (xk1 )

(4.47)

Eso significa que cada paso requiere solo muy poco esfuerzo computacional y espacio de
almacenaje.
Teorema 4.19. Sea la funcion f definida por (4.39), con A Rnn simetrica y definida
positiva. Sea x0 Rn arbitrario y
xk+1 = xk k pk ,

donde
pk =

k =

f (xk )

f (xk ) +

para k = 0,
kf (xk )k22

kf (xk1 )k22

pk1

para k > 0,

(f (xk ))T pk
pT
k Apk

Entonces, f (xj ) 6= 0 para j = 0, . . . , k implica que {p0 , . . . , pk } son direcciones Aortogonales, es decir existe un ndice N 6 n tal que xN = A1 b.
Demostracion. En lo siguiente, sea
rj := f (xj ) = Axj b,

j :=

krj k22
.
krj1 k22

Para k = 0, notamos que si r0 =


6 0, entonces p0 = r0 6= 0. Para k = 1, hay que demostrar
que r1 6= 0 implica que pT
Ap
0 = 0, pero p1 6= 0. Pero sabemos que p1 = r1 + 1 r0 implica
1
que


1
T
T
p1 Ap0 = p1
(r1 r0 )
0


4.5. EL METODO
DE GRADIENTES CONJUGADOS (CG) DE HESTENES Y STIEFEL

101

1 T
(r + 1 rT
0 )(r1 r0 )
0 1


1
rT
1 r1 T
T
T
T
=
r1 r1 r1 r0 + T r0 r1 r1 r1 .
0
r0 r0

Ahora, en virtud de
x1 = x0 0 r0 ,

rT
0 r0
,
T
r0 Ar0
r1 = Ax1 b
= Ax0 0 Ar0 b

0 =

rT
0 r0
Ar0 ,
T
r0 Ar0

= r0
sabemos que
T
rT
0 r1 = r0 r0

rT
0 r0
rT
0 Ar0 = 0.
T
r0 Ar0

T
T
Etonces, resulta pT
1 Ap0 = 0. Puesto que r1 p1 = r1 r1 6= 0, se tiene que p1 6= 0.
Finalmente, consideremos el paso k k + 1. Hay que demostrar ahora que si rk+1 6=
0 y {p0 , . . . , pk } son A-ortogonales, entonces {p0 , . . . , pk+1 } son A-ortogonales, es decir,
T
pT
k+1 Apj = 0 para j = 0, . . . , k, y pk+1 6= 0. Para tal efecto, notamos que rk+1 pk = 0 implica
T
rT
k+1 pk+1 = rk+1 rk+1 6= 0,

es decir, pk+1 6= 0. Luego consideramos que


1
Apj = (rj+1 rj )
j
1
= (pj+1 j+1 pj pj + j pj1 ),
j
entonces, seg
un (ii) del Teorema 4.18,


T
T
pT
k+1 Apj = rk+1 + k+1 pk Apj

= rT
k+1 Apj

1 T
T
T
=
rk+1 pj+1 j+1 rT
k+1 pj rk+1 pj + j rk+1 pj1 = 0.
j

Para j = k, podemos escribir


pT
k+1 Apk

=
=

rT
k+1

k+1 pT
k

1
(rk+1 rk )
k


1 T
T
T
rk+1 rk+1 + k+1 pT
k rk+1 rk+1 rk k+1 rk pk .
k

102

DE SISTEMAS DE ECUACIONES LINEALES


4. METODOS
ITERATIVOS PARA LA SOLUCION

Tomando en cuenta que pT


k rk+1 = 0, obtenemos




1
rT
k pk
T
T
T
pk+1 Apk =
rk+1 rk .
rk+1 rk+1 1 T
k
rk rk

Usando que [. . . ] = 0, podemos seguir escribiendo


1 T
pT
r (pk k pk1 ).
k+1 Apk =
k k+1
Finalmente, sabemos que rT
k+1 pk = 0, por lo tanto

k T
r pk1
k k+1
T
k
=
A(xk k pk ) b pk1
k

k T
rk pk1 k pT
=
k Apk1 = 0,
k

pT
k+1 Apk =

lo que concluye la demostracion.

Ejemplo 4.12 (Tarea 22, Curso 2006). Resolver el sistema Ax = b con


5 1
1
4
A = 1 5 1 , b = 2
1 1 5
4

usando el metodo cg de Hestenes y Stiefel, x0 = 0, y calculando exactamente con fracciones.


Solucion sugerida. Con D(x) = Ax b obtenemos sucesivamente



1
4
4
T

D(x0 ) = 2 , p0 = 2 , (D(x0 )) p0 = 36, Ap0 = 18 1 ,


1
4
4

2
1
2
T
1 ;
p0 Ap0 = 180, 0 = , x1 =
5
5 2



1
1
2
2
18
18
18
2 , (D(x1 ))T p1 = 4 , Ap1 =
8 ,
D(x1 ) = 4 , p1 =
5
25
25
25
1
1
2

 2
1
18
5
T
p1 Ap1 = 20
, 1 = , x2 = 0 .
25
18
1

Entonces, a pesar de su estructura iterativa, el metodo entrega (si se usa aritmetica


exacta) la solucion de un sistema lineal con una matriz A simetrica y definida positiva
despues de a lo mas n pasos. Si A es dispersa, es decir, posee solo pocos elementos diferentes
de cero, cada paso cuesta poco esfuerzo computacional. Sin embargo, el metodo es muy
sensitivo con respecto a errores de redondeo; por lo tanto, despues de n pasos, obtenemos


4.5. EL METODO
DE GRADIENTES CONJUGADOS (CG) DE HESTENES Y STIEFEL

103

solamente una solucion aproximada (falsificada) y no exacta. Se puede empezar el metodo


de nuevo con xn como vector inicial, o simplemente se puede continuar.
Puede parecer sorpresivo que un metodo iterativo, como SOR, a
un puede competir con
el metodo cg. Eso tiene que ver con que en la practica, para sistemas lineales de gran tama
no
no se necesita la solucion exacta, y frecuentamente se desea terminar el metodo despues de
pocos pasos de iteracion. Ahora, mientras que un metodo tal como el metodo SOR garantiza
una reduccion del error mas o menos igual en cada paso, el metodo cg es un poco irregular
en este aspecto, como ilustra el siguiente teorema.
Teorema 4.20. Sea A Rnn simetrica y definida positiva con los valores propios 1 >
2 > . . . > n > 0, b Rn , x = A1 b y
1
E(x) := (x x )T A(x x ).
2
Entonces la sucesion {xk } generada por el metodo cg satisface

2
1
mn (x0 x )T A I + APk (A) (x0 x )
2 Pk k

2
6 mn max 1 + i Pk (i ) E(x0 )
Pk k 16i6n

2
k+1 n
6
E(x0 ), k = 0, . . . , n 1.
k+1 + n

E(xk+1 ) =

(4.48)

Recordamos que k es el espacio de los polinomios con coeficientes reales del grado maximo k.
Demostracion. Primero demostramos que
pj = Pj (A)r0 ,

Pj j ,

r0 = Ax0 b.

(4.49)

Para tal efecto, notamos primero que


p0 = r0 = P0 (A)r0 ,

P0 1 0 .

Luego supongamos que se ha demostrado (4.49) hasta el ndice j 1. Entonces tenemos que
!
j1
X
pj = Axj b + j pj1 = A x0
i pi b + j pj1
i=0

j1

= Ax0 b
= Pj (A)r0 ,

X
i=0

i Api + j pj1 = r0

j1
X

i Api + j pj1

i=0

donde
Pj ( ) = 1 + j Pj1 ( )

j1
X

i Pi ( ).

i=0

Notando que Pi j1 para i = 0, . . . , j 1 (seg


un hipotesis), concluimos que Pj j .

104

DE SISTEMAS DE ECUACIONES LINEALES


4. METODOS
ITERATIVOS PARA LA SOLUCION

En virtud de lo anterior, podemos escribir

x j x = x0 x

j1
X

i pi

i=0

j1

= x0 x
=

j1
X

j1
X

i Pi ( );

i=0

i Pi (A)r0

i=0

i Pi (A)A (x0 x )


= I + AQj1 (A) (x0 x ),

donde definimos

Qj1 ( ) :=
Sea ahora

i=0

A = VT diag(1 , . . . , n )V,

Qj1 j1 .
VT V = VVT = I.

Entonces, usando := diag(1 , . . . , n ), podemos escribir



V(xj x ) = I + Qj1 () V(x0 x ).

Definimos y := (1 , . . . , n )T = V(x0 x ), y notamos que I + Qj1 () es una matriz


diagonal. Entonces, podemos escribir
1
E(xk+1 ) = (xk+1 x )T VT V(xk+1 x )
2
2
1
= yT I + Qk () y
2
n
2
1X 2
=
i i 1 + i Qk (i ) .
2 i=1

En virtud de (4.43), este es el valor mas peque


no que puede ser alcanzado a traves de la
construccion
pj = Fj (A)r0 ,

xj+1 = xj j pj ,

j = 0, . . . , k,

Fj j .

Tomando en cuenta que la dependencia de los coeficientes j y i es presente solo en el


polinomio Qk , podemos escribir
n
2
1X 2
i i 1 + i Fk (i )
E(xk+1 ) = mn
Fk k 2
i=1
n
2 1 X
6 mn max 1 + i Fk (i )
2 i
Fk k 16i6n
2 i=1 i
2
= mn max 1 + i Fk (i ) E(x0 ).
Fk k 16i6n

(4.50)


4.5. EL METODO
DE GRADIENTES CONJUGADOS (CG) DE HESTENES Y STIEFEL

105

1,0 pppp
0,9
0,8
0,7
0,6
0,5
0,4
0,3
0,2
0,1
0,0

ppp
ppp
ppp
ppp 1 + Fk () (k = 4), i = 13 2i, i = 1, . . . , n = 6
ppp
ppp
ppp
ppp
ppp
ppp
ppp
ppp
ppp
ppp
ppp
ppp
ppp
ppp
ppp
ppp
ppp
ppp
ppp
ppp
ppp
ppp
ppp
ppp
ppp
ppp
ppp
ppp
ppp
ppp
ppp
ppp
ppp
ppp
ppp
ppp
ppp
ppp
ppp
ppp
ppp
ppp
ppp
ppp
n + k+1
ppp
=2
ppp
ppp
2
ppp
ppp
ppp
ppp
ppp
ppp
ppp
pp
= k+1
6 = n pppppp?
ppppppppppppppppppppppppppppppppppppppppp
ppppppp1p
ppppppppppppppppppppppppppppppppppppppppppppppppppppppp
pppppp3pppppppppppppppppppppppppppppppppppppppppppppppppppppppppppp
pppp 5
pp ppp2pppppppppppppppppp
ppppp
pppppppppppppppppp
p
p
p
p
p
p
p
ppppp
p
p
pppp
p
p
p
p
p
p
p
p
p
p
p
ppppppp
p
pppp
p
p
p
p
p
p
p
p
p

p
p
ppppppppppppp
p
p
p
4
k
p
ppp
p
p
p
p
p
pppppppppppppp
ppp

10

12

Figura 4.5. La funcion 1 + Fk () para k = 4 y i = 13 2i, i = 1, . . . , n = 6.


Para acotar el lado derecho de (4.50), escogimos la siguiente funcion Fk k :
!

Y
k
k+1
2

(1)
1

k+1
n
Fk () =

( m ) 1 .
1 . . . k (k+1 + n )
2
m=1
Es decir,

1+

Fk ()

= 0 para {1 , . . . , k }


k+1 + n
.
2

(4.51)

106

DE SISTEMAS DE ECUACIONES LINEALES


4. METODOS
ITERATIVOS PARA LA SOLUCION

Dado que 1+Fk () k+1 , este polinomio es similar al polinomio graficado en la Figura 4.5.
Hasta un valor


k+1 + n

, k ,
2

el polinomio 1+Fk () es monotonamente decreciente y convexo, y monotonamente creciente


k ]. El valor
es definido por
(pero decreciente en valor absoluto) en [,


= 0.

+ F ()
k+1 + n , k , (F )0 ()

k
k
2
Concluimos que




k+1 n
2

6
[n , k+1 ] = 1 + Fk () 6 1
.
k+1 + n k+1 + n
Entonces, si por ejemplo,
1  n ,

i = i1 ,

i = 2, . . . , n 1,

 1 n ,

los n 1 primeros pasos generan solamente una reduccion muy peque


na del error.

Teorema 4.21. Sea A Rnn simetrica y definida positiva con k < n valores propios reales
1, . . . ,
k . En este caso, el metodo cg ya converge despues de k iteraciones para
y distintos

Ax = b, o sea, xk = x .
Demostracion. Usamos el Teorema 4.20, que indica que la cantidad
1
E(x) := (x x )T A(x x )
2
satisface la desigualdad

2
E(xk+1 ) 6 mn max 1 + i Pk (i ) E(x0 ),
Pk k 16i6n

donde k es el espacio de todos los polinomios del grado maximo k. Ahora hay que demostrar
que bajo los hipotesis de la tarea, E(xk ) = 0, es decir que existe un polinomio Pk1 k1
tal que
1 + i Pk1 (i ) = 0,

i = 1, . . . , n.

Ahora sabemos que el polinomio


1 ) (
k ),
Pk () = (

Pk k

1
k . Entonces
satisface Pk (i ) = 0, i = 1, . . . , n, con P (0) = (1)k


(1)k
1
P () 1
Pk1 () :=
1
k k

es un polinomio en k1 tal que se satisface (4.52).

(4.52)

Captulo 5

El problema de valores propios de una matriz


Discutiremos ahora el problema de la localizacion y la determinacion numerica de los
valores propios reales y complejos de una matriz A Cnn (o A Rnn ) y los vectores
propios asociados, o sea el problema de determinar los ceros del polinomio
pn (; A) := det(A I)

y la solucion de los sistemas homogeneos (A i I)xi = 0. Formalmente, la solucion del


problema es dada por (a) la determinacion de los coeficientes de pn (; A), (b) la computacion
(exacta o aproximada) de sus ceros y (c) la solucion de los sistemas lineales homogeneos. Sin
embargo, en la practica, este camino es absolutamente in
util, bajo el aspecto del esfuerzo
computacional tanto que bajo el de la estabilidad numerica. Para ilustrar el u
ltimo punto,
consideremos un peque
no ejemplo.
Ejemplo 5.1. La matriz


1000
1
A=
1
1000


tiene los valores propios 1 = 1001 y 2 = 999. Ahora, si modificamos A a




1000,001
1

A=
,
1
1000
obtenemos 1 = 1001,00050 . . . y 2 = 999,00050 . . . . Sabemos que
p2 (, A) = 2 2000 + 999999,
= 2 2000,001 + 1000000.
p2 (, A)

se cambia a 1000002 (correspondiente a la magnitud


Ahora, si el coeficiente 106 en p2 (, A)
de errores de redondeo en una aritmetica con 6 dgitos), el polinomio modificado tiene los
ceros
2 2000,001 + 1000002 = 0 = 1000,0005 0,99999927i,

es decir que la influencia del error en los coeficientes de p2 ( : A) es casi 2000 veces mayor
que la de los errores en la matriz original.
5.1. La localizaci
on de valores propios y la sensitividad del problema
Para la siguiente discusion es u
til recordar el siguiente teorema.
Teorema 5.1. Sea A Cnn y k k una norma matricial inducida por una norma vectorial.
Entonces cada valor propio (A) satisface |(A)| 6 r (A) 6 kAk.
107

108

5. EL PROBLEMA DE VALORES PROPIOS DE UNA MATRIZ

Teorema 5.2 (Los crculos de Gershgorin). Para una matriz A Cnn definimos los crculos


(
)
(
)
n
n


X
X

i := C | ii | 6
Ki := C | ii | 6
|ij | , K
|ji | ,


j=1,j6=i

j=1,j6=i

para i = 1, . . . , n. Sea (A) un valor propio de A, entonces


!
!
n
n
[
[
i .
(A)
Ki
K
i=1

i=1

Demostracion. Sean (A) y x el vector propio asociado, es decir Ax = x, e i


{1, . . . , n} tal que |xi | = kxk . Entonces, la componente i de la ecuacion vectorial Ax = x
es
n
n
X
X
ij xj + ii xi = xi ,
ij xj = xi
j=1

j=1
j6=i

lo cual entrega que


ii =
Dado que xi 6= 0, podemos concluir que
| ii | 6

n
X
j=1
j6=i

n
X
j=1
j6=i

ij

xj
.
xi

|ij |

|xj | X
6
|ij |,
|xi |
j=1
j6=i

y luego se toma en cuenta que A y A tienen los mismos valores propios.


Dado que las matrices A y D1 AD poseen los mismos valores propios, a veces se puede
precisar el resultado del Teorema 5.2 significativamente.
Ejemplo 5.2. La matriz

1
103 104
2
103
A = 103
4
3
10
10
3

es simetrica, entonces sus valores propios son reales, y seg


un el Teorema 5.2, cada valor
propio de A satisface
[1 0,0011, 1 + 0,0011] [2 0,002, 2 + 0,002] [3 0,0011, 3 + 0,0011].

Ahora, usando las matrices

D1 := diag(1, 100, 10),

D2 := diag(100, 1, 100),

D3 := diag(10, 100, 1),

obtenemos las siguientes inclusiones respectivas:


U1 := [1 2 105 , 1 + 2 105 ] [2 0,11, 2 + 0,11] [3 0,0011, 3 + 0,0011],

U2 := [1 0,1001, 1 + 0,1001] [2 2 105 , 2 + 2 105 ] [3 0,1001, 3 + 0,1001],

DE VALORES PROPIOS Y LA SENSITIVIDAD DEL PROBLEMA


5.1. LA LOCALIZACION

109

U3 := [1 0,0011, 1 + 0,0011] [2 0,02, 2 + 0,02] [3 2 105 , 3 + 2 105 ],

lo que implica

U1 U2 U3 =

3
[

[i 2 105 , i + 2 105 ].

i=1

Teorema 5.3. Consideremos las hipotesis del Teorema 5.2. Sea {i1 , . . . , in } una permutaci
on
de {1, . . . , n} y
(Ki1 . . . Kim ) Kis = para s = m + 1, . . . , n.

Entonces Ki1 . . . Kim contiene exactamente m valores propios de A, contados con su


multiplicidad, es decir, cada componente de conectividad por camino de Ki1 . . . Kim
contiene tantos valores propios de A que crculos.
Demostracion. Sean D = diag(11 , . . . , nn ) y B( ) := D + (A D), 0 6 6 1, es decir,
B(0) = D y B(1) = A. Todos los valores propios de B( ) estan contenidos en K1 ( ) . . .
Kn ( ), donde definimos

)
(
n

X

|ij | , i = 1, . . . , n.
Ki ( ) = z C |z ii | 6

j=1,j6=i

Obviamente, el Teorema 5.3 es valido para B(0), ademas, los valores propios dependen
de forma continua de (ver Lema 5.1 abajo). Pero como Ki1 (0) Kim (0) contiene
exactamente m valores propios de B(0), y
!
!
m
m
[
[
[0, 1] :
Kij ( ) Kis (1)
Kij (1) Kis (1) = ,
j=1

j=1

entonces Ki,1 ( ) Ki,m ( ) contiene exactamente m valores propios para 0 6 6 1.

Lema 5.1. Sean A, B Cnn , 1 , . . . , n los valores propios de A, contados con su multiplicidad, y 01 , . . . , 0n los valores propios de B contados con su multiplicidad. Sean
n
n


1 XX
% := max |ij |, |ij | : 1 6 i, j 6 n , :=
|ij ij |.
n% i=1 j=1

Entonces existe una enumeracion de los valores propios i y 0i tal que a cada i corresponde
un valor 0i con

n
|i 0i | 6 2(n + 1)2 % .

Demostracion. Ver A.M. Ostrowski, Solution of Equations in Euclidean and Banach Spaces,
Academic Press, 3rd ed., 1973, pp. 334335, 276279.
Ejemplo 5.3. En virtud del Teorema 5.3, podemos mejorar ahora el resultado del Ejemplo 5.2: los valores propios de la matriz A en este ejemplo pueden ser enumerados de tal
forma que
i [i 2 105 , i + 2 105 ],

i = 1, 2, 3.

110

5. EL PROBLEMA DE VALORES PROPIOS DE UNA MATRIZ

Cuando conocemos un vector propio x aproximado (de hecho, como tal vector podemos
usar cualquier vector x con Ax 6= 0), podemos usar el cuociente de Rayleigh
R(x; A) :=

x Ax
x x

para definir una aproximacion del valor propio correspondiente, para la cual tambien podemos definir una inclusion.
Teorema 5.4. Sea A Cnn similar a una matriz diagonal con los valores propios 1 , . . . , n .
Sean x Cn , x 6= 0 y Ax 6= 0. Sea := R(x; A). Entonces
(i) c C : kAx xk22 6 kAx cxk22 .
(ii) Existe un valor j 6= 0, j (A), tal que


j kAx xk2


condkk2 (U),
j 6
kAxk2


donde U = u1 . . . un es un sistema completo de vectores propios de A.
(iii) Si A es normal (es decir, AA = A A), entonces existe un valor 0 6 j (A) tal
que


j kAx xk2


.
j 6
kAxk2

Demostracion.

(i) Supongamos que kxk2 = 1. Entonces


kAx cxk22 = (x A cx )(Ax cx)

= x A Ax cx Ax cx A x + |c|2
= kAxk22 + |c x Ax|2 |x Ax|2
> kAxk22 |x Ax|2

con igualdad para c = .


(ii) Sean U1 AU = diag(1 , . . . , n ) =: , y := U1 x y

Entonces



glb(U) := sup | kxk 6 kUxk =

kAx xk2
kU( I)U1 xk2
=
kAxk2
kUU1 xk2
glb(U)k( I)yk2
>
kUk2 kyk2

1
.
kU1 k

DE VALORES PROPIOS Y LA SENSITIVIDAD DEL PROBLEMA


5.1. LA LOCALIZACION

n
X

|i | |i |

i=1
1

=
n
kUk2 kU1 k2
X
|i |2 |i |2
i=1

111

1/2

1/2
2
n
X

i
2
2


|i |2 +
||
i |i i |

i=1
i=1

1
i =0
i 6=0

=
n

X
condkk2 (U)

|i i |2

n
X



i

.
>
mn

condkk2 (U) 16i6n

i
6=0

i=1
i 6=0

(iii) Si A es normal, existe un sistema de vectores propios unitario, o sea, condkk2 (U) = 1.
Para las matrices hermitianas el cuociente de Rayleigh tiene muchas propiedades interesantes.


Teorema 5.5. Sea A Cnn hermitiana con un sistema X = x1 x2 . . . xn unitario,
Cn tal que
donde Axj = xj para j = 1, . . . , n. Sea x
x
= 1,
x

= xj +
x

n
X

|k | 6 ,

k x k ;

k=1

Entonces

k = 1, . . . , n.

n

X
R(

|i j ||i |2 6 2kAk(n 1)2 ,
x; A) j 6

(5.1)

i=1
i6=j

o sea el error en R(
x; A) es cuadraticamente peque
no en terminos de los errores de la aproximacion del vector propio.
Demostracion. Utilizando que
A=

n
X

i xi xi ,

i=1

podemos escribir
R(
x; A) =

xj +

n
X

k x k

k=1

n
X
i=1

"

xj +

n
X
k=1

n
X

i xi xi

i=1

k xk

xi

#"

xj +

n
X

k x k

k=1

xi xj +

n
X
k=1

k x k

!#

112

5. EL PROBLEMA DE VALORES PROPIOS DE UNA MATRIZ

n
X
i=1

n
X
i=1

n
X
i=1
i6=j

n
X
i=1
i6=j

Usando que

ij +

n
X

k ki

k=1

!"

xi xj +


2
n


X


i ij +
k ki

n
X

k x k

k=1

!#

k=1

i |i |2 + j |1 + j |2

(i j )|i |2 + j |1 + j |2 +
2

|1 + j | +

n
X
i=1
i6=j

n
X
i=1
i6=j

|i |2 .

x
= 1,
|i |2 = x

llegamos a
R(
x; A) j =

n
X
i=1
i6=j

i |i |2 + j |1 + j |2 ,

lo que implica (5.1) si tomamos valores absolutos, aplicamos la desigualdad del triangulo y
la cota trivial
|i j | 6 2r (A) 6 2kAk.
Teorema 5.6. (El principio minimax de Courant) Sea A Cnn hermitiana. Los valores
propios de A, contados con su multiplicidad, sean 1 > 2 > . . . > n . Sea Vj el sistema de
todos los subespacios j-dimensionales de Cn , donde definimos V0 := {0}. Entonces,


k = mn max R(x; A) | x 6= 0, v V : x v = 0 ,
(5.2)
V Vk1


k = max mn R(x; A) | x 6= 0, v V : x v = 0 .
(5.3)
V Vnk


Demostracion. Sea u = u1 un un sistema unitario completo de vectores propios de
A, o sea, Aui = i ui , U U = I. Si x Cn es arbitrario, podemos escribir
n
X
x=
i ui ; i = ui x, i = 1, . . . , n.
i=1

Definiendo = diag(1 , . . . , n ), podemos escribir


n
|i |2
x UU x X
R(x; A) =
=
2
2 i ,
x U Ux
|
|
+
.
.
.
+
|
|
1
n
i=1

DE VALORES PROPIOS Y LA SENSITIVIDAD DEL PROBLEMA


5.1. LA LOCALIZACION

lo que implica que

(
> k
R(x; A)
6 k

113

si k+1 = . . . = n = 0,
si 1 = . . . = k1 = 0.

Cn tal que
Ahora, demostramos que si V Vk1 , existe x
6= 0,
x

k
X

=
x

i ui ,

i=1

v = 0.
v V : x

(5.4)

Para demostrar (5.4), consideremos una base ortonormalizada v1 , . . . , vk1 de V . Sea g =


(1 , . . . , k )T , g 6= 0 la solucion de

v1


... u1 uk g = 0.

vk1

En este caso,



max R(x; A) | x 6= 0, v V : x v = 0 > k .

(5.5)

Tenemos igualdad en (5.5) para V = span{u1 , . . . , uk1 }, es decir,



0
...

g=
0 , k 6= 0.
k

Cn tal que
Si V Vnk , existe x
6= 0,
x

=
x

n
X
j=k

j uj ,

v = 0.
v V : x

(5.6)

Para demostrar (5.6), consideremos una base ortonormalizada v1 , . . . , vnk de V . Sea g =


(k , . . . , n )T , g 6= 0 la solucion de

v1


... uk un g = 0.

vnk

En este caso,



mn R(x; A) | x 6= 0, v V : x v = 0 6 k .

Tenemos igualdad en (5.7) para V = span{uk+1 , . . . , un }, es decir,



k
0

g=
... , k 6= 0.
0

(5.7)

114

5. EL PROBLEMA DE VALORES PROPIOS DE UNA MATRIZ

El siguiente teorema formula una consecuencia del Teorema 5.6.


Teorema 5.7. Sean A, B Cnn ambas hermitianas. Sean i (A) y i (B) los valores propios
de A y B, enumerados tales que 1 (A) > . . . > n (A), 1 (B) > . . . > n (B). Entonces,


k = 1, . . . , n : k (A) k (B) 6 r (B A).
(5.8)
Demostracion. Definir B := A + (B A), C := B A, aplicar el Teorema 5.6 (Tarea).

Por supuesto, el Teorema 5.7 representa un resultado mucho mas ventajoso que el Lema 5.1. Tambien es valido para valores propios m
ultiples. Por supuesto, la restriccion que
ambas matrices deben ser hermitianas es muy fuerte. Ademas, tenemos tambien que los
valores propios de una matriz diagonalizable dependen de forma Lipschitz continua de los
coeficientes:


Teorema 5.8. Si A Cnn es diagonalizable, es decir, existe un sistema U = u1 un
de vectores propios de A, y B Cnn es arbitraria, entonces para cada valor propio j (B)
existe un valor propio i(j) (A) tal que


i(j) (A) j (B) 6 condkk (U)kB Ak .
(5.9)

Demostracion. Nos restringimos al caso no trivial. Sea (B) (B), (B) 6= i (A) para
i = 1, . . . , n, con el vector propio x 6= 0, es decir, Bx = (B)x. Entonces
1
Bx Ax = (B)x Ax x = (B)I A (B A)x
implica que


1
kxk 6 (B)I A kB Ak kxk .

Ahora, usando I = UU1 y A = UA U1 , donde A es una matriz diagonal de los valores


propios de A, tenemos que
1
kB Ak kxk .
kxk 6
mn |(B) i (A)|
16i6n

No existe un resultado analogo para matrices no diagonalizables. El siguiente ejemplo


ilustra que es muy natural que un tal resultado no existe.
Ejemplo 5.4. La matriz

0 1
A=
0 0

posee los valores propios 1 = 2 = 0, y no es diagonalizable. La matriz




0 1
B=
0

posee los valores propios , mientras que en cualquier norma matricial, kA Bk 6 C


(con una constante C que depende de la norma).

DE UNA MATRIZ A FORMA DE HESSENBERG O TRIDIAGONAL


5.2. TRANSFORMACION

115

Finalmente, nos interesan resultados asintoticos sobre los valores y vectores propios. El
siguiente teorema, que se comunica sin demostracion, representa un resultado tpico.


Teorema 5.9. Sea A Cnn diagonalizable, X = x1 xn un sistema completo de
vectores propios de A, Axi = i xi y kxi k2 = 1 para i = 1, . . . , n. Ademas definimos

y.1
X1 =: Y =: .. ,
yn
o sea, y1 , . . . , yn son los vectores propios de la izquierda de A: yi A = yi i para i = 1, . . . , n.
Sea j un valor propio simple de A. Entonces, para F Cnn con kFk2 suficientemente
peque
na existe un valor propio j de A + F con un vector propio zj , kzj k2 = 1, tal que

yj Fxj
kyj k2 kxj k2

+ O kFk22 ,

kyj k2 kxj k2
yj x j


1
X yj Fxi
kyj k2 kxj k2
z j = xj +
xi
+ O kFk22 .

kyj k2 kxj k2 i j
y j xj
i=1

j = j +

i6=j

Demostracion. Se usa el Teorema de Funciones Implcitas para el problema g(x, , ) = 0


con


(A + F0 )x x
g(xj , j , 0) = 0, g(x, , ) =
, F = F0 ,
xT x 1
con en una vecindad apropiada de cero, y se representa la solucion (x, ) como funcion
de .
Obviamente, el factor de amplificacion del error decisivo es kyj k2 kxj k2 /|yj xj | para un
valor propio (este factor puede ser grande para matrices no normales), mientras que para un
vector propio, tambien juega un rol importante la separacion de los valores propios.
5.2. Transformaci
on de similaridad unitaria de una matriz n n a una forma de
Hessenberg o tridiagonal
La solucion del problema de valores propios para una matriz no esparsa siempre empieza
con la transformacion de la matriz a una forma condensada. Esa transformacion genera
nueavos errores de redondeo. Para que la matriz transformada aun sea usable, los valores
propios no deben ser mas falsificados que como si la matriz fuera modificada dentro de
la exactitud aritmetica. Por lo tanto, solo es practicable la transformacion a la forma de
Hessenberg. La transformacion parte de la matriz A, luego determinamos matrices unitarias
y hermitianas U1 , . . . , Un2 tales que Un2 . . . U1 AU1 . . . Un2 es una matriz del tipo
Hessenberg. Ahora, si la matriz A es hermitiana, entonces
(Un2 . . . U1 AU1 . . . Un2 ) = Un2 . . . U1 AU1 . . . Un2 ,
o sea la matriz del tipo Hessenberg es hermitiana y por lo tanto, tridiagonal.

116

5. EL PROBLEMA DE VALORES PROPIOS DE UNA MATRIZ

La transfomacion procede en n2 pasos. Supongamos que despues de j1 pasos, tenemos


la matriz
(j)

(j)
(j)
(j)
(j)
11 12 1,j1 1j
1n
(j)

(j)
(j)
(j)
(j)

2n
21 22 2,j1 2j

..
..
..

(j)
0 32
.
.
.

...
(j)
(j)
(j)
.

Aj = Uj1 . . . U1 AU1 . . . Uj1 = .


0
j,j1 jj
jn .

..
..
..
..
(j)
.
.
.
0
j+1,j
.

.
.
.
.
..
..
..
..
..

(j)

nj

(j)

nn

Si definimos Aj+1 := Uj Aj Uj , tenemos (ver Teorema 3.6)




I 0

jw
j ,
Uj =
j , Uj = I k w
0 U
j de tal forma que
donde se determina U

(j)
1
j+1,j

0.
.
j

U
.. = exp(i)j
.. .
(j)
nj
0

El Teorema 3.6 entrega las formulas

(j)

exp(ij ) j+1,j + j

!1/2
(j)

n
j+2,j
X

(j) 2

, j =

j =
,
w
kj

..

.
k=j+1

(j)
nj
(j)
1
(j)
j+1,j = exp(ij ) j+1,j , j =
.
(j)
j (j + |j+1,j |)

Puesto que las primeras j columnas de Uj son columnas unitarias, la multiplicacion de


Uj Aj desde la derecha con Uj no cambia los ceros recien generados en la columna j. La
multiplicacion de Aj desde la izquierda por Uj no cambia las primeras j filas. Por lo tanto,
hemos desarrollado completamente la transformacion.
Para la ejecucion practica de la transformacion, aprovechamos la estructura especial de
Uj . Sea
" (j)
#
(j)
A11 A12
Aj =
(j)
(j)
A21 A22

DE UNA MATRIZ A FORMA DE HESSENBERG O TRIDIAGONAL


5.2. TRANSFORMACION

117

En este caso, obtenemos


Aj+1 =

"

(j)

A11

(j)
A12 U
j

j A(j) U
j A(j) U
j
U
21
22

donde
j A(j) = A(j) j wj w A(j)
U
21
21
j 21
(j)

j zj ,
= A21 u

(j)
(j)
(j)

A12 U
j = A12 j A12 wj wj
(j)

j u
j ,
= A12 y


(j)
(j)

j = (I j w
j A(j) U

w
w

A
w
)
A
U
j
j
22
22
22
j



(j)
(j)
(j)
j A(j)
j u
ju
j
j w
j A22 A22 w
j u
j + w
= A22 u
22 w

j  
j 
(j)
j sj u
j tj u
j u
j ,
= A22 u
2
2

donde definimos
j := j w
j,
u

tj := A(j)
j,
22 w

jtj ,
j := w

sj := w
j A(j)
22 ,

j A(j)
zj := w
21 ,

(j)
j := A12
j.
y
w

Pero, seg
un hipotesis,

(j)

A21

0
..
= .

(j)
0 j+1,j
..
.. ,
.
.
(j)
0 nj

j A(j) explcitamente:
de manera que no hay que calcular U
21

j A(j)
U
21

0
..
.
= .
..
0

0 exp(ij )j
..

.
0

.
..
..

.
.
0
0

Ademas, en el caso A hermitiana tomamos en cuenta que



(j)
(j) ,
A12 U
j = Uj A21

tj = sj ,

entonces una computacion explcita no es necesaria, y el esfuerzo computacional total se


reduce a menos que la mitad. Para A general, necesitamos 35 n3 + O(n2 ) operaciones; para
A hermitiana, solo 32 n3 + O(n2 ) operaciones esenciales.

118

5. EL PROBLEMA DE VALORES PROPIOS DE UNA MATRIZ

5.3. Computaci
on de los valores propios de una matriz tridiagonal hermitiana
Consideremos la matriz T Cnn dada por

1 1
..
..

.
.

T= 1 .
, i = i , i = 1, . . . , n 1;
. . . . . n1

n1 n

i R,

i = 1, . . . , n. (5.10)

Se supone que i 6= 0 para i = 1, . . . , n 1, sino la matriz tridiagonal puede ser particionada


en dos matrices tridiagonales de tama
no menor cuyos problemas de valores propios pueden
ser estudiados separadamente.
Teorema 5.10. Si T es una matriz tridiagonal hermitiana de la forma indicada en (5.10)
y i 6= 0 para i = 1, . . . , n 1, entonces T solo tiene valores propios reales simples.
Demostracion. Tarea.
Comentamos si T es una matriz real no simetrica con i i > 0, i = 1, . . . , n 1, entonces
mediante una transformacion de similaridad con
p
D = diag(1 , . . . , n ), 1 := 1, i+1 := i i /i ,

:= DTD1 . Entonces tales


T puede ser transformada a una matriz simetrica y tridiagonal T
matrices T tambien poseen solo valores propios reales y simples.
Para la computacion de valores propios de T, necesitamos el Teorema de la Ley de Inercia
de Sylvester.
Definici
on 5.1. Sea A Cnn hermitiana. Entonces se define como inercia de A al triple (m, z, p), donde m, z y p es el n
umero de valores propios negativos, zero, y positivos,
respectivamente.
Teorema 5.11 (Ley de Inercia de Sylvester). Si A Cnn es hermitiana y X Cnn es
regular, entonces A y X AX tienen la misma inercia.
Demostracion. Supongamos que
1 (A) > 2 (A) > . . . > n (A)
son los valores propios de A, contados con su multiplicidad, y que para alg
un r {1, . . . , n},
n
r (A) es un valor propio de A positivo. Definimos el subespacio S0 R a traves de
S0 := span{X1 q1 , . . . , X1 qr },

q1 6= 0, . . . , qr 6= 0,

donde Aqi = i (A)qi para i = 1, . . . , r. Utilizando la caracterizacion minimax de r (X AX),


donde se supone que
1 (X AX) > . . . > n (X AX)
son los valores propios de X AX, obtenemos


r (X AX) = max mn R(x; X AX) | x 6= 0, v V : x v = 0 .
V Vnr

(5.11)

5.3. VALORES PROPIOS DE UNA MATRIZ TRIDIAGONAL HERMITIANA

Ahora, escogiendo

119



V := S0 := w Rn | v S0 : w v = 0 Vnr ,

deducimos de (5.11) que



r (X AX) > mn R(x; X AX) | x 6= 0, v V : x v = 0


= mn R(x; X AX) | x 6= 0, x S0
> r (A).

Si 1 (X) > . . . > n (X) son los valores singulares de X, podemos demostrar que para cada
y Rn ,
R(y, X X) > n (X)2 .

Entonces, conluimos que

r (X AX) > mn
yS0

y (X AX)y y (X X)y
y (X X)y
y y

> r (A)n (X)2 .

(5.12)

Un argumento analogo, con los roles de A y X AX intercambiados muestra que


r (A) > r (X AX)n (X1 )2 =

r (X AX)
.
1 (X)2

(5.13)

Combinando (5.12) y (5.13), concluimos que r (A) y r (X AX) tienen el mismo signo, por
lo tanto, A y X AX tienen el mismo n
umero de valores propios positivos. Aplicando este
resultado a A, concluimos que A y X AX tienen el mismo n
umero de valores propios
negativos, y obviamente, el mismo n
umero de valores propios zero (debidamente contados
con su multiplicidad).
El Teorema 5.11 implica que las matrices A I y X (A I)X tienen los mismos
n
umeros de valores propios positivos, cero, y negativos, es decir, A tiene los mismos n
umeros
de valores propios > , = , y < ( R). Queremos aplicar este resultado ahora a la
matriz T con

1 1
... ...

X Cnn , donde X1 =
,
.
. . n1

donde se debe cumplir que


o sea

X (T I)X = Q = diag(q1 , . . . , qn ),

T I = (X )1 QX1

1
...

= 1 .
..

..
.

n1

qi R,

1
1
q1
.. ..

q2
.
.

.
.

.
.
. . n1

.
qn
1
1

120

5. EL PROBLEMA DE VALORES PROPIOS DE UNA MATRIZ

Entonces, los qi son cuocientes de subdeterminantes principales sucesivos de T I. Obviamente,


q1 = 1 ,

q1 1 = 1

(= q1 1 = 1 = 1 ),

q2 + q1 |1 |2 = 2 ,
q2 2 = 2 , etc.
En general, tenemos
2
qk + qk1 |k1
| = k , qk k = k , k = 1, . . . , n,
0 := 0, q0 := 1, n := 0.

Dado que k 6= 0 para k = 1, . . . , n 1, el valor k existe para qk 6= 0, k = 1, . . . , n 1, es


decir, k = k /qk para k = 1, . . . , n 1. Si sucede que qk = 0, remplazamos este valor por
 1, es decir remplazamos k por k + . Debido al Teorema 4.7, eso cambia los valores
propios solo en . Entonces, siempre se calcula
(k1 )2
,
qk1
Seg
un el Teorema 5.11, sabemos que
qk = k

k = 1, . . . , n,

q0 := 1,

0 := 0.

(5.14)

#{k | qk < 0, 1 6 k 6 n} = #{ | es valor propio de T, < }.

Este resultado lo podemos aprovechar directamente para crear un metodo de biseccion para
calcular valores propios arbitrarios j de T. Partiendo de la enumeracion 1 6 2 6 . . . 6 n
y, por ejemplo, de la inclusion trivial
[a0 , b0 ] := [kTk , kTk ],

la cual incluye todos los valores propios de T, ponemos para s N0 :


as + b s
,
s :=
2
m := #{qk | qk < 0, calculados de (5.14) con = s },
(
(
as si m > j,
s si m > j,
as+1 :=
bs+1 :=
s sino,
bs sino.

(5.15)

(5.16)
(5.17)
(5.18)

Para este metodo sabemos que


lm s = j .

Este metodo es muy robusto y extremadamente eficiente.


Ejemplo 5.5. Queremos determinar el valor propio 2 de

1 1 0 0
1 3 2 0

T=
0 2 5 3 ,
0 0 3 7

(5.19)

5.3. VALORES PROPIOS DE UNA MATRIZ TRIDIAGONAL HERMITIANA

s
0
1
2
3
4
5
6
7
8

1,5
1,75
1,625
1,6875
1,71875
1,734375
1,7421875
1,74609375
1,744140625

q1
0,500000
0,750000
0,625000
0,687500
0,718750
0,734375
0,742187
0,746094
0,744141

q2
3,500000
2,583333
2,975000
2,767045
2,672554
2,627327
2,605181
2,594220
2,599691

q3
2,357143
1,701613
2,030462
1,866915
1,784555
1,743165
1,722410
1,712017
1,717215

q4
1,681818
0,039100
0,942511
0,491712
0,237975
0,102603
0,032577
0,003050
0,014816

m
1
2
1
1
1
1
1
2
1

2
2
2
2
2
2
2
2
2

121

> 1,5
< 1,75
> 1,625
> 1,6875
> 1,71875
> 1,734375
> 1,7421875
< 1,74609375
> 1,744140625

Cuadro 5.1. Ejemplo 5.5 (metodo de biseccion).

empezando con [a0 , b0 ] := [1, 2]. El metodo de biseccion entrega la informacion del Cuadro 5.1.
Ejemplo 5.6 (Tarea 30, Curso 2006). Se considera la matriz

10 6 8
A = 6 17 2 .
8
2 20

a) Transformar A a forma tridiagonal y aplicar el metodo de biseccion para demostrar


que A es definida positiva.
b) Usando el metodo de biseccion, determinar el valor propio mas peque
no hasta un error
del valor absoluto 6 0,5.
Solucion sugerida.
a) La transformacion de la matriz a forma tridiagonal necesita un paso, es decir T =
A2 = P1 A1 P1 con A1 = A. Sabemos que

1 0 0
1 = I 1 w
, P
1w
1 .
P1 = 0
1
0
P
Aqu

1 =



1
1
16
1 =
36 + 64 = 10, 1 =
=
, w
,
8
10(10 + 6)
160

1
0
0
10 10 0
P1 = 0 0,6 0,8 , T = P1 AP1 = 10 17 2 .
0 0,8 0,6
0 2 20

Aplicando el Teorema de Gershgorin, vemos que T solo tiene valores propios no negativos; dado que T es regular, 0 no es valor propio; entonces los valores propios de
T (y los de A) son positivos.
b) El valor propio mas peque
no es 1 , entonces j = 1. El valor propio esta contenido en
el intervalo [a0 := 0, b0 := 32]. Obtenemos la siguiente tabla.

122

5. EL PROBLEMA DE VALORES PROPIOS DE UNA MATRIZ

k ak bk k q1
q2
q3
m
0 0 32 16 6 16.6
3,76
1
1 0 16 8
2 41 12,097 1

2 0 8 4
6 3.6 17.09
1
3 0 4 2
8
2,5
16,4
0
4 2 4 3
7 2/7
31
1

5 2 3 2,5 7,5 1,16


13,5
0
Entonces sabemos que 1 [2,5, 3].
Ejemplo 5.7 (Certamen 2, Curso 2010). Se considera la matriz

10 3 4
A = 3 2 1 .
4 1 16

a) Demostrar sin calcular el polinomio caracterstico que A tiene tres valores propios
reales distintos.
b) Transformar A unitariamente a forma tridiagonal simetrica.
c) Determinar n
umeros i , i , i = 1, 2, 3, tales que i 6 i 6 i , i = 1, 2, 3, donde
1 , 2 , 3 son los valores propios de A, y |i i | 6 0,25, mediante el metodo de
biseccion.
Solucion sugerida.
a) Puesto que A es simetrica, sus valores propios son reales. Los crculos de Gershgorin
son
K1 = [17, 3],

K2 = [2, 6],

K3 = [11, 21].

Dado que Ki Kj = para i 6= j, cada uno de los crculos contiene exactamente un


valor propio, es decir i Ki para i = 1, 2, 3.
b) Siguiendo el procedimiento canonico, determinamos


1 0
33
U1 =
1 R
0 U
1 = I 1 w
w
T R22 ; con
tal que U
p
1 = s2 + (4)2 = 5

se tiene aqu

  
3 + 1
8
=
w
=
,
4
4

1
1
1 =
= ;
5 (5 + 3)
40



1 3 4

U1 =
5 4 3

y la matriz tridiagonal deseada

1
0
0
10 3 4 1
0
0
10 5 0
T = 0 0,6 0,8 3 2 1 0 0,6 0,8 = 5 10 7 .
4 1 16
0 0,8 0,6
0
7 8
0 0,8 0,6

5.3. VALORES PROPIOS DE UNA MATRIZ TRIDIAGONAL HERMITIANA

123

c) El metodo de biseccion, aplicado a la matriz T, requiere de la computacion sucesiva


de las cantidades
q0 = 1,

0 = 0;

02
= 10 ,
q0
25
2
q2 = 2 1 = 10 ,
q1
q1
2

49
q3 = 3 2 = 8 ,
q2
q2
q1 = 1

donde el valor se ajusta seg


un lo especificado en (5.16)(5.18). Se recomienda empezar la iteracion con un intervalo cuya longitud sea una potencia de 2. As obtenemos
los resultados
s
a
b
q1
q2
q3 m
0 -19.0000 -3.0000 1.0000 -4.0000 31.2500 1
1 -19.0000 -11.0000 5.0000 20.0000 20.5500 0
2 -15.0000 -11.0000 3.0000 14.6667 17.6591 0
3 -13.0000 -11.0000 2.0000 9.5000 14.8421 0
4 -12.0000 -11.0000 1.5000 4.8333
9.3621 0
5 -11.5000 -11.0000 1.2500 1.2500 -19.9500 1
6 -11.5000 -11.2500
para j = 1, por lo tanto, 1 [11,5, 11,25],

s
a
b
q1
q2
q3 m
0 -2.0000 6.0000 -12.0000 10.0833 1.1405 1
1 2.0000 6.0000 -14.0000 7.7857 -2.2936 2
2 2.0000 4.0000 -13.0000 8.9231 -0.4914 2
3 2.0000 3.0000 -12.5000 9.5000 0.3421 1
4 2.5000 3.0000 -12.7500 9.2108 -0.0699 2
5 2.5000 2.7500

para j = 2, por lo tanto, 2 [2,5, 2,75], y


s
0
1
2
3
4
5
6

a
8.0000
16.0000
16.0000
16.0000
16.0000
16.5000
16.5000

b
24.0000
24.0000
20.0000
18.0000
17.0000
17.0000
16.7500

q1
-26.0000
-30.0000
-28.0000
-27.0000
-26.5000
-26.7500

q2
-5.0385
-9.1667
-7.1071
-6.0741
-5.5566
-5.8154

q3 m
1.7252 2
-6.6545 3
-3.1055 3
-0.9329 3
0.3183 2
-0.3241 3

para j = 3, por lo tanto, 3 [16,5, 16,75]. (Los valores exactos son 1 = 11,3301,
2 = 2,7080 y 3 = 16,6221.)

124

5. EL PROBLEMA DE VALORES PROPIOS DE UNA MATRIZ

5.4. Determinaci
on de los vectores propios de una matriz tridiagonal
hermitiana
En lo siguiente, se supone que T es una matriz tridiagonal hermitiana con i 6= 0,
i = 1, . . . , n, y sea una aproximacion de un valor propio de T determinada con exactitud
de maquina (por ejemplo, usando el metodo de biseccion). Sabemos que para arbitrario,
rango(TI) > n1, y que ning
un de los elementos subdiagonales de T desaparece, tal que
la descomposicion triangular de T I puede ser realizada completamente con intercambios
de filas. Para la b
usqueda del pivote en la columna (medida indispensable aqu) tenemos la
descomposicion triangular
P(T I) = LR,

|%jj | > |j |,

j = 1, . . . , n 1.

Si = j , entonces para una computacion sin errores de redondeo tenemos %nn = 0 y


una solucion x de Rx = 0 con n = 1 sera un vector propio de T. En la practica, no es
asegurado que siempre resulta un valor de %nn peque
no, incluso cuando es una muy buena
aproximacion del valor propio. El siguiente teorema informa como a pesar de lo anterior,
podemos determinar una buena aproximacion del vector propio, siempre que la aproximacion
del valor propio es suficientemente buena.
Teorema 5.12. Sea T una matriz tridiagonal y hermitiana, P(TI) = LR una descomposicion triangular (determinada con b
usqueda del pivote en la columna), y una aproximaci
on
del valor propio j de T con
= j + f (n)kTk2 ,

|| 6 1,

suficientemente peque
no.

Sean todos los elementos subdiagonales de T diferentes de cero. Entonces existe (por lo
menos) un ndice i {1, . . . , n} tal que la solucion xi de

i1
.
Rxi = ei %ii , xi = ..
in
(con nn := 1 si i = n y %nn = 0) satisface

xi
n3 f (n)kTk2
= uj + d, kdk2 6
+ O(2 ),
(5.20)
kxi k2
mn{|i j |, i 6= j}


|| = 1, donde U := u1 un es un sistema ortonormalizado de vectores propios de T
y Tui = i ui , i = 1, . . . , n.
Demostracion. Sea yi := %ii PLT ei . Entonces, con T = UU , := diag(1 , . . . , n ), tenemos
(T I)xi = PT LRxi = %ii PT Lei = yi .

En el caso %nn = 0, ya no hay que demostrar nada, entonces podemos asumir que %nn 6= 0,
y definimos
1
1
x0i :=
xi , yi0 :=
yi , i = 1, . . . , n,
%ii
%ii

5.4. VECTORES PROPIOS DE UNA MATRIZ TRIDIAGONAL HERMITIANA

125

y se supone que xi e yi , i = 1, . . . , n, poseen las representaciones


n
n
X
X
0
0

xi :=
ik uk , yi :=
ik uk .
k=1

k=1

Entonces sabemos que

(k )ik = ik ,

i, k = 1, . . . , n.

Dado que los elementos de Lei son 6 1 en valor absoluto, sabemos que

i1

... = U PT Lei = |
ik | 6 n, i, k = 1, . . . , n,
in


T
= kLT PUej k > kPUej k > 1 .
max |
ij | = max eT
U
P
Le
i
j
16i6n
16i6n
n3/2
k(L1 )T k
Pero definiendo

:= mn |i j |} > 0,

(5.21)
(5.22)

i6=j

sabemos que

|ik | =

i = 1, . . . , n, k 6= j :

n
|
ik |
6
|k j f (n)kTk2
f (n)kTk2

(para suficientemente peque


no, kTk2 f (n) > 0), mientras que para un ndice i apropiado,
1
|
ij |
> 3/2
.
(5.23)
|ij | =
|f (n)kTk2 |
n f (n)kTk2
Para este ndice i, tenemos que
kx0i k2 =

n
X
k=1

|ik |2

!1/2

donde, tomando en cuenta que 1 6

= |ij | 1 +

n
X
k=1
k6=j

1/2

|ik |

|ij |2
2

= |ij |(1 + ij ),

1 + 6 1 + para 0 6 6 1,

0 6 ij 6
Entonces,

kTk22 n4 f 2 (n)2
.
( f (n)kTk2 )2

n
X
xi
x0i
ij
ik
ij
= 0 =
uj +
uk =
uj + d,

kxi k2
kxi k2
|ij |(1 + ij )
|ij |
k=1 |ij |(1 + ij )
k6=j

donde el vector d satisface

1
(n 1) nn3/2 f (n)kTk2
n3 f (n)
kdk2 6 1
+
6
kTk2 + O(2 ).
f (n)kTk2

n4 f 2 (n)kTk22 2
1+
( f (n)kTk2 )2

126

5. EL PROBLEMA DE VALORES PROPIOS DE UNA MATRIZ

Seg
un nuestra derivacion, es obvio que el factor n3 en el enunciado del Teorema (5.12) es
muy pesimista. Se puede suponer que en la mayora de los cases, el factor 1 es mas apropiado
que n3 . Se puede demostrar que i = n es apropiado si con


R11 r
R=
,
0 %nn
la norm a kR1
na (por ejemplo, 6 n). En la practica, se procede de la siguiente
11 rk2 es peque
forma: se resuelven los sistemas
Rxi = %ii ei ,

i = n, n 1, . . . ;

(5.24)

la computacion termina cuando por primera vez,


kxi k >

|%ii |
,
100n

(5.25)

donde el factor 1/(100n) remplaza (de forma un poco arbitraria) e


n termino 1/(n3/2 f (n)) (no
se conoce el verdadero en ). Si (5.25) no se cumple para ning
un i, tambien la aproximacion
puede ser considerada de mala calidad. Normalmente, el test ya esta satisfecho para i = n.
Ademas, se puede domostrar que modificaciones de T del orden kTk2 causan errores en los
vectores propios del orden
nkTk2
.
mn |i j |
i6=j

Entonces, el Teorema 5.12 representa un resultado excelente. Ademas, podemos demostrar


que los errores de redondeo cometidos al calcular la descomposicion triangular de P(T I)
y durante la solucion de (5.24) no afectan seriamente el resultado.
5.5. Valores propios de una matriz de tipo Hessenberg
En los captulos anteriores vimos que es relativamente facil determinar un valor propio
individual (y el vector propio asociado) de una matriz hermitiana. Por otro lado, vimos
que cada matriz de Cnn puede ser transformada unitariamente a la forma de Hessenberg
superior. Para la determinacion de un valor propio de una tal matriz, es importante que
el polinomio caracterstico pn (; A), y posiblemente su su derivada p0n (; A), pueden ser
evaluados facilmente.
Sea 6= 0 arbitrario. Para la componente n del sistema lineal
(11 )1 + 12 2 + + 1n n = ,
21 1 + (22 )2 + + 2n n = 0,
..
.

n1 1 + n2 2 + + (nn )n = 0

(5.26)

DIRECTA SEGUN
VON MISES Y EL METODO

5.6. LA ITERACION
DE WIELANDT

127

( 6= 0 arbitrario) tenemos, seg


un la regla de Cramer,


a11

a
.
.
.
a

12
1,n1


a21

a

a
0
22
2,n1
.
..
.. (1)n 2 1 . . . n,n1
1
...
...
.
.
. =
,
n =
.

det(A I) .
det(A I)
.
..
. . n1,n1 0


n1

n,n1
0

es decir, cuando ponemos n := 1 y solvemos el sistema lineal por substitucion, obtenemos


=

(1)n det(A I)
.
21 32 . . . n,n1

(5.27)

Esto significa que hasta un factor com


un, obtenemos det(A I) y (d/d) det(A I) por
la siguiente recursion, conocida como Metodo de Hyman;
xn () := 1 (corresponde a n ),
d
x0n () := 0 (corresponde a
n ,)
d
!
n
X
1
xni () :=
xni+1 ()
ni+1,k xk () ,
ni+1,ni
k=ni+1
x0ni () :=

1
ni+1,ni

xni+1 () + x0ni+1 ()

n
X

i = 1, . . . , n 1,
!

ni+1,k x0k () .

k=ni+1

Ahora, considerando la primera ecuacion de (5.26) obtenemos


det(A I) = (1)n+1 21 32 n,n1 (11 )x1 () +
y analogamente
d
det(A I) = (1)n+1 21 32 n,n1
d

(11

)x01 ()

n
X

1k xk ()

k=2

x1 () +

n
X

1k x0k ()

k=2

Con metodos iterativos para los ceros de un polinomio podemos facilmente calcular los
valores propios. Hay que considerar que este metodo es muy diferente a la computacion de
los coeficientes del polinomio caracterstico.
5.6. La iteraci
on directa seg
un von Mises y el m
etodo de Wielandt
Ahora consideramos metodos que nos entregan un vector propio aproximado. Ya vimos
como mediante el cuociente de Rayleigh podemos obtener un valor propio aproximado usando
el vector propio aproximado. La version basica de la iteracion de von Mises (pero de poca
utilidad practica) es la siguiente.
1. Sea 0 6= x0 Cn apropiado.
2. Para k = 0, 1, 2, . . . , sea xk+1 = Axk .

128

5. EL PROBLEMA DE VALORES PROPIOS DE UNA MATRIZ


Teorema 5.13. Sea A Cnn diagonalizable y U = u1
propios de A, con Aui = i ui , i = 1, . . . , n. Ademas sea
x0 =

n
X

i ui ,

i=1

1 6= 0,


un un sistema de vectores

|1 | > |2 | > . . . > |n |.

Entonces la sucesion de vectores {xk }kN0 satisface

k !!
2
xk = 1 k1 u1 + O
,
1
"
k !#
2
R(xk ; A) = 1 1 + O
.
1

(5.28)
(5.29)

Demostracion. Calculamos que


xk = A k x 0

= u1
=

n
X

un

1 

u1

ki i ui

i=1



un diag(k1 , . . . , kn ) u1

1 k1


 ..1
un .
n

 k !
n
X
i i
u1 +
ui ,
1
i=2 1

lo cual implica (5.28) si tomamos en cuenta que


k k
i

6 2 .
1
1
Por otro lado,

xk xk+1
xk xk
"
"
k !#

k u + O 2
1 k+1
u1 + O
1
1
1
1
1
"
"
=
k !#

k u + O 2
1 k1 u1 + O
1
1
1
1
"
k !#
2
= 1 1 + O
.
1

R(xk ; A) =

k+1 !#
2

1
k !#
2

1

DIRECTA SEGUN
VON MISES Y EL METODO

5.6. LA ITERACION
DE WIELANDT

129

Comentamos primero que para |1 | =


6 1, la version presentada aqu rapidamente entrega
n
umeros extremadamente grandes o peque
nos. Por lo tanto, se prefiere calcular {xk } de la
siguiente forma:
k+1
x
k+1 := Axk , xk+1 :=
.
x
k
xk+1 k
En este caso,

xk = k

"

k !#
2
u1 + O
,
1

|k | = 1,

k+1 = 1
xk x

"

k !#
2
.
1 + O
1

Si xk se normaliza a (xk )j = 1 para una componente j con (u1 )j 6= 0, entonces {xk }kN
converge para k a un m
ultiple de u1 .
El Teorema 5.13 es analogamente valido para 1 = . . . = r , |1 | > |r+1 | > . . . > |n |,
cuando
n
r
X
X
x0 =
i ui ,
|i | =
6 0.
i=1

i=1

La presuposicion 1 6= 0 o |1 | + . . . + |r | =
6 0 siempre esta satisfecha en la practica debido
a errores de redondeo, includo cuando x0 no es apropiado.
La matriz A no necesariamente debe ser diagonalizable. Pero si A no lo es, el termino
de error O(|2 /1 |k ) es remplazado por O(1/k).
Cuando A posee diferentes valores propios dominantes (del mismo valor absoluto), por
ejemplo en el caso de un valor propio dominante en valor absoluto complejo de una matriz
A real, no hay convergencia (pero existen generalizaciones de este metodo para este caso).
Ejemplo 5.8 (Tarea 28, Curso 2006).

1 1 1
A = 1 2 1
1
1 10

a) Demostrar que A satisface las condiciones para la ejecucion de la iteracion directa


(metodo de von Mises), y que x0 := (0, 0, 1)T es un vector apropiado para iniciar la
iteracion.
b) Determinar x3 (usando el algoritmo basico, sin normalizar), y calcular usando x3 y
x2 un valor aproximado del valor propio. Para esta aproximacion estimar el error
rigurosamente.
Solucion sugerida.
a) La matriz A es real y simetrica, entonces posee un sistema completo de vectores propios
Q := [u1 u2 u3 ]. Seg
un el Teorema de Gershgrorin hay dos valores propios, 2 y 3 ,
en el intervalo [1, 4]; el tercer, 1 , de valor absoluto maximo, pertenece al intervalo
[8, 12]. Ahora sea Aui = i ui . Supongamos que 1 = 0 en la representacion x0 =
1 u1 + 2 u2 + 3 u3 . En este caso, tendriamos Ax0 = 2 2 u2 + 3 3 u3 , entonces


kAx0 k 6 max |2 |, |3 | kx0 k 6 4kx0 k = 4,

130

5. EL PROBLEMA DE VALORES PROPIOS DE UNA MATRIZ

mientras que



kAx0 k = (1, 1, 10)T > 10,

una contradiccion. Entonces 1 6= 0, y el vector x0 es apropiado.


b) Sin normalizar obtenemos
x1 = (1, 1, 10)T ,

x1 = (10, 11, 102)T ,

x1 = (101, 114, 1041)T .

El valor propio aproximado correspondiente es


T
1 = x2 x3 = 108446 = 10,206682.

10625
xT
2 x2

Seg
un el Teorema 4.4, sabemos que para una matriz A normal (por ejemplo, A simetrica), entonces existe un valor propio j 6= 0 de A con


j kAx xk


j 6 kAxk2 ,

donde x y son aproximaciones del vector y del valor propio, respectivamente. Aqui
1 = 10,206682, y x3 = Ax para obtener
hay que usar x = x2 , =




2,031146
j 1 kx3 x2 k2
=
= 0,001931.
6

j
kx3 k2
1052,0827

Entonces,

1 | 6 0,001931|j | 6 0,001931 12 = 0,023167.


|j

Ejemplo 5.9 (Certamen 2, Curso 2010). Se considera la matriz

10 1 1
1
A = 1 2
1 1 10

a) Demostrar que A posee tres valores propio 1 < 2 < 3 , en particular 1 , 2 , 3 R,


y que x0 := (0, 0, 1)T es un vector apropiado para iniciar la iteracion directa (metodo
de von Mises).
b) Determinar x3 (usando el algoritmo basico, sin normalizar), y calcular usando x3 y
x2 un valor aproximado del valor propio. Para esta aproximacion estimar el error
rigurosamente.
Solucion sugerida.
a) Dado que A es simetrica, sus valores propios son reales, y los crculos de Gershgorin
son
K1 = [12, 8],

K2 = [0, 4],

K3 = [8, 12].

Dado que Ki Kj = para i 6= j, cada uno de los crculos contiene exactamente un


valor propio, es decir i Ki para i = 1, 2, 3. En el presente caso, aun no podemos

DIRECTA SEGUN
VON MISES Y EL METODO

5.6. LA ITERACION
DE WIELANDT

131

decidir si el valor propio de valor absoluto maximo pertenece a K1 o a K3 . Para obtener


mas informacion, calculamos el polinomio caracteristico:


10 1
1

2
1 = 3 + 22 + 103 200.
p(; A) = det(A I) = 1
1
1
10

Debido al signo del coeficiente de 3


reales, concluimos que

>0

=0

< 0
p() = 0

>0

=0

<0

y sabiendo ya que hay tres valores propios distintos


para
para
para
para
para
para
para

< 1 ,
= 1 ,
1 < < 2 ,
= 2 ,
2 < < 3 ,
= 3 ,
> 3 .

Ahora, evaluando p(2; A) = 6 > 0 concluimos que 2 < 2. Por otro lado, la traza de
A es la suma de sus valores propios. En nuestro caso, 1 + 2 + 3 = 2, es decir
1 + 3 = 2 2 > 0,
es decir 1 > 3 . Dado que 1 < 0 y 3 > 0, esta desigualdad implica que
|1 | = 1 < 3 = |3 |.
Por lo tanto, 3 es el valor propio de mayor valor absoluto. Como A es simetrica, A
posee un sistema de vectores propios ortonormales. Sean u1 , u2 , u3 los vectores propios
correspondiente a los valores propios respectivos 1 , 2 , 3 . Sea x0 = 1 u1 +2 u2 +3 u3 .
De acuerdo al Teorema 5.13 hay que demostrar que 3 6= 0. Ahora, si fuera 3 = 0, se
tendria que
T
(1 uT
1 2 u2 )(1 1 u1 + 2 2 u2 )
12 + 22
1 12 + 2 22
12
22
=
=

+
2 [1 , 2 ] [12, 2].
1
12 + 22
12 + 22
12 + 22

R(x0 ; A) = R(1 u1 + 2 u2 ; A) =

Pero, efectivamente,
R(x0 ; A) = (0, 0, 1)(1, 1, 10)T = 10 6 [12, 2],
es decir 3 6= 0; por lo tanto, x0 es apropiado.
b) Iterando obtenemos


1
1

1 , x2 = Ax1 = 13 ,
x1 = Ax0 =
10
102

105
x3 = Ax2 = 129 ,
1034

132

5. EL PROBLEMA DE VALORES PROPIOS DE UNA MATRIZ

y el valor propio aproximado


3 = R(x2 ; A) =
3

xT
2 x3
= 10,1428.
T
x2 x2

Para estimar el error, utilixamos la parte (iii) del Teorema 5.4. Aqu esto significa que
existe un valor propio j de A tal que


kAx 10,1428x k

kx3 10,1428x2 k
94,9019
j
3
2
2 2
=
=
= 0,0906.
6

j
kAx2 k2
kx3 k2
1047,3

Evidentemente, j = 3, y puesto que 3 [8, 12], llegamos a


3 | 6 12 0,0906 = 1,0874.
|3

Mejores cotas son posibles.

Nos damos cuenta que la velocidad de convergencia de la iteracion directa depende decisivamente del cuociente |2 /1 | < 1. Ahora, sean 1 , . . . , n los valores propios de A. Si es
una aproximacion del valor propio i y 0 < |i | < |j | para todo j {1, . . . , n}\{i},
entonces A I es regular y los valores propios k = 1/(k ) de (A I)1 satisfacen
j {1, . . . , n}\{i} :

|i | > |j |.

Ademas, maxi6=j |j |/|i | es peque


no cuando la aproximacion del valor propio era buena.
Entonces, la iteracion directa aplicada a (AI)1 converge rapidamente. Esta es la idea del
metodo de interacion inversa, conocida tambien como Metodo de Wielandt. La observacion
decisiva para su ejecucion es que no hay que calcular explcitamente la matriz (A I)1 ;
al lugar de eso, en cada paso se resuleve el sistema lineal
1
k+1 ,
(A I)
xk+1 = xk , xk+1 :=
x
k
xk+1 k
lo que cuesta poco esfuerzo computacional si una vez por siempre se ha calculado una descomposicion triangular (por lo menos, con b
usqueda del privot en la columna) de A I.
Entonces, si P(A I)Q = LR, calculamos para k N0 sucesivamente los vectores zk , vk ,
k+1 :
wk y x
zk = Pxk ,

Lvk = zk ,

Rwk = vk ,

k+1 = wk .
QT x

k+1 , podriamos calcular una nueva aproximacion


Ahora, usando la nueva aproximacion x
del valor propio, determinar una nueva descomposicion triangular, etc. Pero, en general, el
esfuerzo computacional para realizar eso es exagerado.
El siguiente teorema provee informacion acerca de un vector inicial apropiado.
nn
Teorema 5.14.
diagonalizable, Aui = ui , i = 1, . . . , n, kui k2 = 1 para todo
 Sea A C
i, donde U = u1 . . . un es el sistema completo de vectores propios de A y P(AI)Q =
LR con matrices de permutacion P y Q, L una matriz triangular inferior con diagonal
(1, . . . , 1) y elementos de valor absoluto 6 1, y R una matriz triangular superior. Adem
as
definimos el ndice s a traves de

|%ss | = mn |%ii |,
16i6n

DIRECTA SEGUN
VON MISES Y EL METODO

5.6. LA ITERACION
DE WIELANDT

133

:= diag(%1 , . . . , %1 )R. En este caso, si no es un valor propio, sabemos que


yR
11
nn

1 k2 condkk (U) n.
mn |j | 6 n|%ss | condkk2 (U) 6 mn |j |kL1 k2 kR
2
16j6n

16j6n

Si definimos x1 por
RQT x1 = %ss e1
(lo que corresponde a x0 := %ss PT Les ), y el ndice k por
|k | = max |i |,
16i6n

donde x1 =

n
X

i ui ,

i=1

entonces sabemos que el valor propio corespondiente k satisface


|k | 6 n3/2 |%ss | condkk2 (U).
Eso significa que si los valores propios de A son suficientemente separados (comparado con
mn16j6n |j |), entonces
|k | = mn |j |
16j6n

y x1 es una aproximacion apropiada para iniciar la iteracion inversa.


Demostracion. Cambiar el valor %ss en la descomposicion triangular a cero es equivalente a
cambiar A I a
T
B := A I %ss PT Les eT
sQ ,

y la matriz B es singular. En este caso, el Teorema 5.7, aplicado al valor propio cero de B y
el valor propio i de A, entrega que

n|%ss | condkk2 (U)


|i | = 0 (i ) 6 condkk2 (U)|%ss |kPT Les eT
s Qk2 6
para un ndice i apropiado. Ahora, sea j0 definido por

|j0 | = mn |i |.
16i6n

Dado que kuj0 k2 = 1, sabemos que


(A I)1 uj0 =

1
uj ,
j0 0

lo que implica que






1
1 k2 1 ,
6 (A I)1 2 = (PT LRQT )1 2 6 kL1 k2 kR
|j0 |
|%ss |
es decir,

1 k2 .
|%ss | 6 mn |j |kL1 k2 kR
16j6n

Seg
un la definicion de x1 y del ndice k, tenemos que
1 6 kx1 k2 6 n|k |.

134

5. EL PROBLEMA DE VALORES PROPIOS DE UNA MATRIZ

Ademas,
x0 =

n
X
i=1

i (i )ui ,

|k ||k | 6 kU1 x0 k2 = kU1 %ss PT Les k2 6 |%ss |kU1 k2 n,


|k | 6 n3/2 |%ss |kU1 k2 6 n3/2 |%ss | condkk2 (U).

Si la descomposicion triangular se ha ejecutado con b


usqueda del pivote en la matriz,
satisfacen %ii = 1 y |
1 k2 puede
entonces los elementos de R
%ij 6 1. En este caso, kL1 k2 kR
ser estimado como una funcion solamente de n. Si = j para un ndice j, entonces %ss = 0
y x1 mismo es el vector propio asociado.
Vemos que %ss converge linealmente a cero con respecto a mn16j6n |j |. Pero no
aparecen problemas numericos al determinar x1 .
Tambien aqu se puede formular un teorema analogo al Teorema 5.12, es decir, cuando
j f (n), tenemos x1 uj hasta un error del tipo O(), pero donde hay terminos
posiblemente grandes como amplificadores del error.
Ejemplo 5.10 (Tarea 29, Curso 2006). Se considera la matriz

1000 10
1
1
0 0
1000
10
1
10 1 = LR.
A = 1000 20 2 = 1 1 0 0
0
0
1
1 1 1
1000
20
3

a) Ejecutar un paso del metodo de Wielandt para determinar el valor propio mas peque
no
T
de A A usando = 0. Elegir el vector inicial para la iteracion de Wielandt como
(a, b, c)T , a, b, c = 1 de tal forma que k(R1 )T x0 k sea lo mas grande posible.
b) Determinar una cota inferior realista para kA1 k2 .
Solucion sugerida.
a) Usamos que

0,001 0,001
0
0,001
0
0
0,1 0,1 , (R1 )T = 0,001 0,1 0 ,
R1 = 0
0
0
1
0
0,1 1
entonces x0 = (1, 1, 1)T . Aprovechando que AT A = RT LT LR, podemos resolver el
sistema AT Ax1 = x0 con

3000000 50000 6000


900
110
AT A = 50000
6000
110
14
para obtener

0,0014
x1 = 0,3604 .
2,3010

DIRECTA SEGUN
VON MISES Y EL METODO

5.6. LA ITERACION
DE WIELANDT

135

Entonces tenemos que


R(x1 , AT A) =

xT
xT
1 x0
1 Ax1
=
= 0,4909,
T
x 1 x1
xT
1 x1

lo que representa un valor aproximado del valor propio menor de AT A.


b) Sabemos que el valor propio mas peque
no de AT A satisface mn (AT A) 6 0,4909,
entonces %(A1 AT ) > 2,0371. Dado que para cada matriz B, BBT y BT B tienen los
mismos valores propios, sabemos ahora que
p
p
p
kA1 k2 = max (AT A1 ) = max (A1 AT ) > 2,0371 = 1,4272.

Ejemplo 5.11 (Certamen 2, Curso 2010). Se

10
A= 1
1

considera la matriz

1 1
2 1 .
1 13

a) Demostrar sin calcular el polinomio caracterstico que A tiene tres valores propios
reales distintos, 1 < 2 < 3 .
b) Partiendo de x0 = (1, 1, 1)T , y eligiendo un valor {7, 1, 8} apropiado (con justificacion), calcular un paso de iteracion inversa (metodo de Wielandt) para determinar
una mejor aproximacion del vector propio que corresponde a 2 .
c) Utilizando el resultado de (b), calcular una mejor aproximacion de 2 .
Solucion sugerida.
a) Los crculos de Gershgorin son






K1 = z C |z + 10| 6 2 , K2 = z C |z 2| 6 2 ,



K3 = z C |z 13| 6 2 .

Dado que Ki Kj = para i 6= j, cada uno de los crculos contiene exactamente


un valor propio, es decir i Ki , i = 1, 2, 3, por lo tanto i 6= j para i 6= j.
Ademas, los valores propios deben tener partes reales diferentes, por lo tanto sabemos
que 1 [12, 8], 2 [0, 4] y 3 [11, 15].
b) De los tres valores propuestos, se debe escoger aquel que esta mas cerca de 2 que de
1 o 3 . De acuerdo al resultado anterior, sabemos que
|1 + 7| 6 5,

|1 1| > 9,

|1 8| > 16,

|2 + 7| > 7,

|2 1| 6 3,

|2 8| > 4,

|3 + 7| > 18;

|3 1| > 10;
|3 8| > 3.

Solamente el valor = 1 esta mas cerca de 2 que de 1 o 3 . La iteracion inversa


consiste en resolver el sistema (A I)x1 = x0 , en este caso



11 1 1
1
0
1 1 1 x1 = 1 , con el resultado obvio x1 = 1 .
1 1 12
1
0

c) Una mejor aproximacion de 2 esta dada por R(x1 ; A) = 2. (Los verdaderos valores
propios de A son 1 = 10,0398, 2 = 1,9925 y 3 = 13,0473.)

También podría gustarte