Está en la página 1de 39

2.

Sistemas de ecuaciones linea-


les

2.1 Normas vectoriales y matriciales


Definición 2.1 [Concepto de norma]

Sea E un espacio vectorial definido sobre un cuerpo K. Se define una norma


como una aplicación, que denotaremos por k k, de E en R que verifica las
siguientes propiedades:

• kxk ≥ 0 ∀x ∈ E siendo kxk = 0 ⇐⇒ x = 0. Definida positiva.

• kλ xk = |λ|kxk ∀λ ∈ K, ∀x ∈ E. Propiedad de homogeneidad.

• kx + yk ≤ kxk + kyk ∀x, y ∈ E. Desigualdad triangular.

Es frecuente que en el espacio E se haya definido también el producto de dos


elementos. En este caso, si se verifica que

kx · yk ≤ kxk · kyk

se dice que la norma es multiplicativa.


Esta propiedad de las normas es fundamental cuando trabajamos en el con-
junto de las matrices cuadradas de orden n.

Un espacio E en el que hemos definido una norma recibe el nombre de espacio


normado.

1
2 Sistemas de ecuaciones lineales

2.1.1 Normas vectoriales

Sea E un espacio vectorial de dimensión n y sea B = {u1 , u2 , . . . , un } una base


suya. Cualquier vector x ∈ E puede ser expresado de forma única en función
de los vectores de la base B.
n
X
x= xi u i
i=1

donde los escalares (x1 , x2 , . . . , xn ) se conocen como coordenadas del vector x


respecto de la base B.
Utilizando esta notación, son ejemplos de normas los siguientes:

n
X
• Norma-1 kxk1 = |xi |
i=1
v
u n
uX
• Norma euclı́dea o Norma-2 kxk2 = t |xi |2
i=1

• Norma infinito kxk∞ = máx |xi |


i

Ejemplo 2.1 Para los vectores

x = (2, 3, 0, −12)T y = (1 + i, i)T



• kxk1 = 2 + 3 + 0 + 12 = 17 kyk1 = |1 + i| + |i| = 2 + 1
√ √ p √
• kxk2 = 22 + 32 + 02 + 122 = 157 kyk2 = |1 + i|2 + |i|2 = 3

• kxk∞ = | − 12| = 12 kyk∞ = |1 + i| = 2


2.1.2 Distancia inducida por una norma

Definición 2.2 [Distancia]

Dado un espacio vectorial E, se define una distancia como una aplicación


d : E × E → R cumpliendo que:
Normas vectoriales y matriciales 3

• d(x, y) ≥ 0 ∀x, y ∈ E siendo d(x, y) = 0 ⇐⇒ x = y.

• d(x, y) = d(y, x) ∀x, y ∈ E.

• d(x, y) ≤ d(x, z) + d(z, y) ∀x, y, z ∈ E.

Teorema 2.1 [Distancia inducida por una norma]


 
Si E, k k es un espacio normado, la norma k k induce una distancia en E
que se conoce como distancia inducida por la norma k k y viene definida por:

d(x, y) = kx − yk

Demostración. Veamos que, en efecto, se trata de una distancia:

• d(x, y) ≥ 0 por tratarse de una norma, y además:

d(x, y) = 0 ⇐⇒ kx − yk = 0 ⇐⇒ x − y = 0 ⇐⇒ x = y.

• d(x, y) = kx − yk = k − 1(y − x)k = | − 1| · ky − xk = ky − xk = d(y, x).

• d(x, y) = kx − yk = kx − z + z − yk ≤ kx − zk + kz − yk =

= d(x, z) + d(z, y).

2.1.3 Convergencia en espacios normados

Una sucesión de vectores v1 , v2 , . . . de un espacio vectorial normado (V, k k) se


dice que es convergente a un vector v si

lim kvk − vk = 0
k→∞

Esta definición coincide con la idea intuitiva de que la distancia de los vectores
de la sucesión al vector lı́mite v tiende a cero a medida que se avanza en la
sucesión.

Teorema 2.2 Para un espacio vectorial normado de dimensión finita, el con-


cepto de convergencia es independiente de la norma utilizada.
4 Sistemas de ecuaciones lineales

2.1.4 Normas matriciales


Dada una matriz A y un vector x, consideremos el vector transformado Ax.
La relación existente entre la norma del vector transformado y la del vector
original va a depender de la matriz A. El mayor de los cocientes entre dichas
normas, para todos los vectores del espacio, es lo que vamos a definir como
norma de la matriz A, de tal forma que de la propia definición se deduce que
kAxk ≤ kAk kxk
cualquiera que sea el vector x del espacio. (Obsérvese que no es lo mismo que
la propiedad multiplicativa de una norma, ya que aquı́ se están utilizando dos
normas diferentes, una de matriz y otra de vector).

Definición 2.3 [Norma de una matriz]

Se define
kAxk
kAk = máx = máx{kAxk : kxk = 1}
x∈V −{0} kxk

de tal forma que a cada norma vectorial se le asociará, de forma natural, una
norma matricial.

• Norma-1 kAk1 = máx{kAxk1 : kxk1 = 1}.


n
X
Dado que Ax = y =⇒ yi = aik xk se tiene que
k=1
n X
X n
kAk1 = máx{ |aik xk | : kxk1 = 1}.
i=1 k=1

Por último, si descargamos todo el peso sobre una coordenada, es decir,


si tomamos un vector de la base canónica, obtenemos que
n
X
kAk1 = máx |aij |.
j
i=1
√ √
• Norma euclı́dea kAk2 = máx{ x∗ A∗ Ax : x∗ x = 1}

Descargando ahora el peso en los autovectores de la matriz A∗ A obtene-


mos que
p √ p
kAk2 = máx{ x∗ λi x : x∗ x = 1} = máx λi = máx σi
i i i

donde σi representa a los valores singulares de la matriz A, es decir, las


raı́ces cuadradas positivas de los autovalores de la matriz A∗ A.
Normas vectoriales y matriciales 5

kAk∞ = máx{ nj=1 |aij xj | : kxk∞ = 1}.


P
• Norma infinito

Como ahora se dará el máximo en un vector que tenga todas sus coor-
denadas iguales a 1, se tiene que
n
X
kAk∞ = máx |aij |.
i
j=1

Tenemos pues, que las normas asociadas (algunas veces llamadas subordinadas)
a las normas de vector estudiadas anteriormente son:

n
X
Norma-1 kAk1 = máx |aij |.
j
i=1

Norma euclı́dea kAk2 = máx σi .


i

n
X
Norma infinito kAk∞ = máx |aij |.
i
j=1

Si consideramos la matriz como un vector de m × n coordenadas, podemos


definir (de manera análoga a la norma euclı́dea de vector) la denominada
sX √
Norma de Frobenius kAkF = |aij |2 = tr A∗ A
i,j

 
1 1 2
Ejemplo 2.2 Para la matriz A =  2 −1 1  se tiene:
 

1 0 1
n
X
• kAk1 = máx |aij | = máx{(1 + 2 + 1), (1 + | − 1| + 0), (2 + 1 + 1)} = 4
j
i=1
 
6 −1 5
T
• El polinomio caracterı́stico de la matriz A A =  −1 2 1  es
 

5 1 6
p(λ) = λ3 − 14λ2 + 33λ = λ(λ − 3)(λ − 11)
Los autovalores de la matriz AT √
A son√0, 3 y 11, por lo que los valores
singulares de la matriz A son 0, 3 y 11 y, por tanto,

kAk2 = máx σi = 11
i
6 Sistemas de ecuaciones lineales

n
X
• kAk∞ = máx |aij | = máx{(1 + 1 + 2), (2 + | − 1| + 1), (1 + 0 + 1)} = 4
i
j=1
√ √ √
• kAkF = tr AT A = 6 + 2 + 6 = 14. 

2.1.5 Transformaciones unitarias


Definición 2.4 [Matriz unitaria]

La matriz U ∈ Cn×n de una transformación se dice unitaria si

U ∗ U = U U ∗ = I ⇐⇒ U ∗ = U −1

Proposición 2.3 La norma de Frobenius y la norma euclı́dea de vector son


invariantes mediante transformaciones unitarias.

Demostración.

• Para la norma matricial de Frobenius:


p p p
kU AkF = tr [(U A)∗ (U A)] = tr (A∗ U ∗ U A) = tr (A∗ A) = kAkF
p p
kAU kF = tr [(A U )∗ (A U )] = tr [(A U )(A U )∗ ] =
p p p
= tr (A U U ∗ A∗ ) = tr (A A∗ ) = tr (A∗ A) = kAkF

• Para la norma euclı́dea de vector.


p √ √
kU xk2 = (U x)∗ (U x) = x∗ U ∗ U x = x∗ x = kxk2

Proposición 2.4 Las matrices A, A∗ , AU y U A, donde U es una matriz


unitaria, poseen los mismos valores singulares y, por tanto, lo misma norma
euclı́dea.

Demostración. Veamos, en primer lugar que las matrices A∗ A y AA∗ poseen


los mismos autovalores. En efecto:
Sea λ un autovalor de A∗ A y x un autovector asociado a λ.

A∗ Ax = λx =⇒ AA∗ Ax = λAx
Normas vectoriales y matriciales 7

y llamando y = Ax tenemos que AA∗ y = λy, por lo que λ es un autovalor de


la matriz AA∗ asociado al autovector y = Ax. Ası́ pues, cualquier autovalor
de A∗ A lo es también de AA∗ .
Razonando de igual forma se obtiene que cualquier autovalor de AA∗ lo es
también de A∗ A, por lo que ambas matrices poseen los mismos autovalores.

• Como los valores singulares de la matriz A son las raı́ces cuadradas posi-
tivas de los autovalores de A∗ A y los de A∗ las raı́ces cuadradas positivas
de los autovalores de AA∗ (los mismos que los de A∗ A), las matrices A
y A∗ poseen los mismos valores singulares.

• Los valores singulares de U A son las raı́ces cuadradas positivas de los


autovalores de (U A)∗ (U A) = A∗ U ∗ U A = A∗ A que eran precisamente los
valores singulares de la matriz A.

• Los valores singulares de AU son (por el primer apartado) los mismos


que los de (AU )∗ = U ∗ A∗ es decir, las raı́ces cuadradas positivas de los
autovalores de (U ∗ A∗ )∗ (U ∗ A∗ ) = AU U ∗ A∗ = AA∗ cuyos autovalores son
los mismos que los de A∗ A, por lo que AU tiene también los mismos
valores singulares que la matriz A.

Proposición 2.5 La norma euclı́dea de una matriz unitaria vale siempre 1.

Demostración.

kU xk2 kxk2
kU k2 = máx = máx =1
x∈V −{0} kxk2 x∈V −{0} kxk2

Proposición 2.6 La norma euclı́dea es invariante mediante transformaciones


de semejanza unitarias.

Demostración. Sea A y B dos matrices unitariamente semejantes, es decir,


tales que
B = U ∗ AU con U
unitaria

B = U ∗ AU =⇒ kBk2 ≤ kU ∗ k2 kAk2 kU k2 = kAk2 
=⇒ kBk2 = kAk2
A = U BU ∗ =⇒ kAk2 ≤ kU k2 kBk2 kU ∗ k2 = kBk2

8 Sistemas de ecuaciones lineales

2.1.6 Radio espectral


Definición 2.5 [Radio espectral]

Se define el radio espectral de una matriz A, y se denota por ρ(A) como el


máximo de los módulos de los autovalores de la referida matriz.

ρ(A) = máx |λi |


i

Geométricamente representa el radio del cı́rculo mı́nimo que contiene a todos


los autovalores de la matriz.

Teorema 2.7 El radio espectral de una matriz es una cota inferior de todas
las normas multiplicativas de dicha matriz.

Demostración. Sean {λ1 , λ2 , . . . , λr } los autovalores de la matriz A y sean


{x1 , x2 , . . . , xr } autovectores asociados a dichos autovalores.

kAxi k = kλi xi k = |λi | kxi k.

Por otra parte sabemos que kAxi k ≤ kAk kxi k. Por tanto:
|λi | kxi k ≤ kAk kxi k siendo kxi k =
6 0 por tratarse de autovectores.
Se obtiene entonces que |λi | ≤ kAk para cualquiera que sea i = 1, 2, . . . , r, de
donde máx |λi | ≤ kAk, es decir: ρ(A) ≤ kAk.
i

Definición 2.6 [Matriz de diagonal dominante]

Una matriz cuadrada de orden n A = (aij )i = 1, 2, . . . , n se dice que es una matriz


j = 1, 2, . . . , n
de diagonal dominante o de Hadamard si
n
X
|aii | > |aik | i = 1, 2, . . . , n
k=1
k 6= i

 
3 1 1
Ejemplo 2.3 La matriz A =  0 2 1  es de diagonal dominante por
 

2 −1 5
verificar que

3>1+1 2>0+1 y 5 > 2 + | − 1| = 3 


Normas vectoriales y matriciales 9

Teorema 2.8 Toda matriz de diagonal dominante es regular.

Demostración. Supongamos que A es de diagonal dominante y que su deter-


minante fuese nulo. En ese caso, el sistema Ax = 0 posee solución no trivial
(α1 , α2 , . . . , αn ) 6= (0, 0, . . . , 0).
Sea |αk | = máx |αi | > 0 y consideremos la k-ésima ecuación:
i

ak1 α1 + ak2 α2 + · · · + akk αk + · · · + akn αn = 0 =⇒


α1 α2 αn
ak1 + ak2 + · · · + akk + · · · + akn = 0 =⇒
αk αk αk
α1 αk − 1 αk + 1 αn
akk = −ak1 − · · · − ak k−1 − ak k+1 − · · · − akn =⇒
αk αk αk αk
n n
X αi X
|akk | ≤ |aki | ≤ |aki |
αk
i=1 i=1
i 6= k i 6= k

en contra de la hipótesis de que A es de diagonal dominante, por lo que toda


matriz de diagonal dominante es regular.

Definición 2.1 Matrices fundamentales de una matriz A

Se denominan matrices fundamentales de una matriz A, y se denotan por Ak , a


las submatrices constituidas por los elementos de A situados en las k primeras
filas y las k primeras columnas, es decir:
 
! a11 a12 a13
a11 a12
A1 = (a11 ) A2 = A3 =  a21 a22 a23  ···
 
a21 a22
a31 a32 a33

Teorema 2.9 Las matrices fundamentales Ak de una matriz A de diagonal


dominante, son también de diagonal dominante.

Demostración. La demostración es trivial, ya que si A es de diagonal domi-


nante se verifica que
n
X k
X
|aii | > |aij | ≥ |aij |
j =1 j =1
j 6= i j 6= i

luego Ak también lo es.


10 Sistemas de ecuaciones lineales

Definición 2.7 [Cı́rculos de Gerschgorin]

Sea A ∈ Kn×n . Se definen los cı́rculos de Gerschgorin como los conjuntos



C1 = {z : |z − a11 | ≤ r1 } 



C2 = {z : |z − a22 | ≤ r2 } 
 n
 X
.. con ri = |aij | para 1 ≤ i ≤ n
. 


 j =1

 j 6= i

Cn = {z : |z − ann | ≤ rn }

Teorema 2.10 [Teorema de Gerschgorin]

Sean C1 , C2 , . . . , Cn los cı́rculos de Gerschgorin de una matriz A. Si λ es un


n
[
autovalor de A, se verifica que λ ∈ Ci .
i=1

n
[
Demostración. Si λ 6∈ Ci es porque λ 6∈ Ci para ningún i = 1, 2, . . . , n,
i=1
por lo que
|λ − a11 | > r1
|λ − a22 | > r2
..
.
|λ − ann | > rn
y, por tanto, la matriz
 
λ − a11 −a12 ··· −a1n
−a21 λ − a22 ··· −a2n
 
 
λI − A =  .. .. .. .. 

 . . . .


−an1 −an2 · · · λ − ann

es una matriz de diagonal dominante, por lo que det(λI − A) 6= 0 y, por tanto,


λ no puede ser un autovalor de la matriz A en contra de la hipótesis.

Obsérvese que como det A = det AT se verifica que

det(λI − A) = det(λI − A)T = det(λI − AT )

es decir, A y AT tienen el mismo polinomio caracterı́stico y, por tanto, los


mismos autovalores.
Normas vectoriales y matriciales 11

Ello nos lleva a que los cı́rculos de Gerschgorin obtenidos por columnas de-
terminan también el dominio de existencia de los autovalores de la matriz A,
es más, la intersección de los cı́rculos obtenidos por filas y los obtenidos por
columnas contienen a todos los autovalores de la matriz A.

Teorema 2.11 Si un conjunto de k cı́rculos de Gerschgorin de una matriz A


constituyen un dominio conexo aislado de los otros cı́rculos, existen exacta-
mente k autovalores de la matriz A en dicho dominio.

 
0 2 3
Ejemplo 2.4 Dada la matriz A =  2 8 2 , sus cı́rculos de Gerschgorin
 

2 0 10
obtenidos por filas son

C1 = {z : |z − 0| ≤ 5}

C2 = {z : |z − 8| ≤ 4}

C3 = {z : |z − 10| ≤ 2}

Mientras que los obtenidos por columnas son

C1 = {z : |z − 0| ≤ 4}

C2 = {z : |z − 8| ≤ 2}

C3 = {z : |z − 10| ≤ 5}

Estos últimos nos dicen que la matriz tiene, al menos, un autovalor real (hay
un cı́rculo que sólo contiene a un autovalor y éste debe ser real ya que de
ser complejo el conjugado también serı́a autovalor de A y al tener el mismo
módulo se encontrarı́a en el mismo cı́rculo contra la hipótesis de que en dicho
cı́rculo sólo se encuentra un autovalor), es decir los cı́rculos obtenidos por filas
no nos dan información sobre el autovalor real, mientras que los obtenidos por
columnas nos dicen que existe un autovalor real en el intervalo (-4,4). 
12 Sistemas de ecuaciones lineales

2.2 Sistemas de ecuaciones lineales


En el capı́tulo anterior se estudiaron métodos iterados para la resolución de
ecuaciones no lineales. Dichos métodos se basaban en el teorema del punto
fijo y consistı́an en expresar la ecuación en la forma x = ϕ(x) exigiendo que
ϕ0 (x) ≤ q < 1 para cualquier x del intervalo en el cual se trata de buscar la
solución.
Para los sistemas de ecuaciones lineales, de la forma Ax = b, trataremos de
buscar métodos iterados de una forma análoga a como se hizo en el caso de las
ecuaciones, es decir, transformando el sistema en otro equivalente de la forma
x = F (x) donde F (x) = M x + N . Evidentemente habrá que exigir algunas
condiciones a la matriz M para que el método sea convergente (al igual que se
exigı́a que ϕ0 (x) ≤ q < 1 en el caso de las ecuaciones) y estas condiciones se
basan en los conceptos de normas vectoriales y matriciales.
Dada una aplicación f : Rm → Rn y un vector b ∈ Rn , resolver el sistema
de ecuaciones f (x) = b no es más que buscar el conjunto de vectores de Rm
cuya imagen mediante f es el vector b, es decir, buscar la imagen inversa de b
mediante f .
Un sistema de ecuaciones se dice lineal en su componente k-ésima si verifica
que
f (x1 , . . . , xk−1 , αx1k + βx2k , xk+1 , . . . , xm ) = αf (x1 , . . . , xk−1 , x1k , xk+1 , . . . , xm )+
+ βf (x1 , . . . , xk−1 , x2k , xk+1 , . . . , xm )
Diremos que un sistema es lineal si lo es en todas sus componentes, pudiéndose,
en este caso, escribir de la forma Ax = b.

Transformación de un sistema complejo en otro real

Si la aplicación f se define de Cm en Cn resulta un sistema complejo que puede


ser transformado en otro sistema real.

Ası́, por ejemplo, si el sistema es lineal



m×n
 M ∈C

f : Cm → Cn ⇐⇒ M z = k con x ∈ Cn×1

k ∈ Cm×1

podemos descomponer la matriz M en suma de otras dos de la forma


M = A + iB con A, B ∈ Rm×n
Sistemas de ecuaciones lineales 13

y análogamente
z = x + iy con x, y ∈ Rn×1

k = k1 + ik2 con k1 , k2 ∈ Rm×1


por lo que (A + iB)(x + iy) = k1 + ik2 es decir
     
 Ax − By = k1 A −B x k1
=⇒    =  
 Bx + Ay = k B A y k2
2

sistema real de 2m ecuaciones con 2n incógnitas.

Es por ello, que centraremos nuestro estudio en los sistemas reales.

Clasificación de los SS.EE.LL

Podemos clasificar los sistemas de ecuaciones lineales atendiendo a

• Su tamaño

– Pequeños: n ≤ 300 donde n representa el número de ecuaciones.


– Grandes: n > 300

(Esta clasificación corresponde al error de redondeo)

• Su estructura

– Si la matriz posee pocos elementos nulos diremos que se trata de


un sistema lleno.
– Si, por el contrario, la matriz contiene muchos elementos nulos,
diremos que la matriz y, por tanto, que el sistema es disperso o
sparce. Matrices de este tipo son las denominadas
 
a11 a12 0 0
 a
 21 a22 a23 0 

∗ Tridiagonales:  
 0 a32 a33 a34 
0 0 a43 a44
 
a11 a12 a13 a14
 0 a22 a23 a24 
∗ Triangulares superiores: 
 

 0 0 a33 a34 
0 0 0 a44
14 Sistemas de ecuaciones lineales

 
a11 0 0 0
 a12 a22 0 0 
∗ Triangulares inferiores: 
 

 a31 a32 a33 0 
a41 a42 a43 a44

En cuanto a los métodos de resolución de sistemas de ecuaciones lineales,


podemos clasificarlos en

• Métodos directos

Aquellos que resuelven un sistema de ecuaciones lineales en un número


finito de pasos.

Se utilizan para resolver sistemas pequeños.

• Métodos iterados Aquellos que crean una sucesión de vectores que


convergen a la solución del sistema.

Se utilizan para la resolución de sistemas grandes, ya que al realizar un


gran número de operaciones los errores de redondeo pueden hacer ines-
table al proceso, es decir, pueden alterar considerablemente la solución
del sistema.

2.2.1 Número de condición


Definición 2.8 [Condicionamiento de un sistema]

Un sistema de ecuaciones lineales Ax = b se dice bien condicionado cuando


los errores cometidos en los elementos de la matriz A y del vector b producen
en la solución un error del mismo orden, mientras que diremos que el sistema
está mal condicionado si el error que producen en la solución del sistema es de
orden superior al de los datos. Es decir:

kA − Ak < ε  kx − xk ' ε sistema bien condicionado

=⇒
kb − bk < ε  kx − xk  ε sistema mal condicionado

Consideremos el sistema cuadrado Ax = b con A regular, es decir, un sistema


compatible determinado. En la práctica, los elementos de A y de b no suelen
Sistemas de ecuaciones lineales 15

ser exactos bien por que procedan de cálculos anteriores, o bien porque sean
irracionales, racionales periódicos, etc. Es decir, debemos resolver un sistema
aproximado cuya solución puede diferir poco o mucho de la verdadera solución
del sistema.
Ası́, por ejemplo, en un sistema de orden dos, la solución representa el punto
de intersección de dos rectas en el plano. Un pequeño error en la pendiente de
una de ellas puede hacer que dicho punto de corte se desplace sólo un poco o
una distancia considerable (véase la Figura 2.1), lo que nos dice que el sistema
está bien o mal condicionado, respectivamente.
Podemos ver que el sistema está mal condicionado cuando las pendientes de las
dos rectas son muy similares y que mientras más ortogonales sean las rectas,
mejor condicionado estará el sistema.
r1 r10 r1 r10

%
  s
%
  
%
@   %
@

  %

@s s
@   %

 %

@
s

%

@
@ r2
 %
 %

 @@ %


 r2 % 

 % 


 % 

Sistema bien condicionado Sistema mal condicionado


Figura 2.1: Condicionamiento de un sistema.

Ejemplo 2.5 Si consideramos el sistema de orden 2



 3x + 4y = 7
! !
x 1
de solución =

3x + 4.00001y = 7.00001 y 1

y cometemos un pequeño error en los datos, podemos obtener el sistema



 3x + 4y = 7
! !
x 7.6̄
de solución =

3x + 3.99999y = 7.00004 y −4
16 Sistemas de ecuaciones lineales

o bien este otro



 3x + 4y = 7
! !
x 9.6̄
de solución =

3x + 3.99999y = 7.000055 y −5.5

lo que nos dice que estamos ante un sistema mal condicionado.


Si sustituimos la segunda ecuación por la que resulta de sumarle la primera
multiplicada por −1.0000016 (la ecuación resultante se multiplica por 106 y se
divide por −1.2) nos queda el sistema

 3x + 4y = 7
! !
x 1
de solución =

4x − 3y = 1 y 1

siendo éste un sistema bien condicionado.


Se puede observar entonces que si, en un sistema mal condicionado, sustituimos
una de las ecuaciones por una combinación lineal de las restantes, podemos
hacer que el sistema resultante esté bien condicionado o viceversa. 

El estudio del condicionamiento de un sistema se realiza a través del denomi-


nado número de condición que estudiamos a continuación.

Definición 2.9 Sea A una matriz cuadrada y regular. Se define el número de


condición de la matriz A y se denota por κ(A) como

κ(A) = kAk · kA−1 k

donde la norma utilizada ha de ser una norma multiplicativa.

Este número nos permite conocer el condicionamiento del sistema Ax = b.


Dado que en la práctica el cálculo de la matriz inversa A−1 presenta grandes
dificultades lo que se hace es buscar una cota del número de condición.

κ(A) = kAk · kA−1 k < kAk · k

siendo k una cota de la norma de la matriz inversa.


kIk
Si kI − Ak < 1 entonces kA−1 k ≤ . En efecto:
1 − kI − Ak
Sistemas de ecuaciones lineales 17

A · A−1 = I =⇒ [I − (I − A)]A−1 = I =⇒
A−1 − (I − A)A−1 = I =⇒ A−1 = I + (I − A)A−1 =⇒
kA−1 k = kI + (I − A)A−1 k ≤ kIk + k(I − A)A−1 k ≤ kIk + kI − Ak kA−1 k ⇒
kA−1 k − kI − Ak kA−1 k ≤ kIk =⇒ (1 − kI − Ak)kA−1 k ≤ kIk =⇒
kIk
kA−1 k ≤
1 − kI − Ak

Es decir:
kIk
κ(A) ≤ kAk · k con k=
1 − kI − Ak
Debemos tener cuidado con esta acotación ya que si tenemos una matriz casi
regular, es decir, con det(A) ' 0, quiere decir que tiene un autovalor próximo
a cero, por lo que la matriz I − A tiene un autovalor próximo a 1 y será el
mayor de todos. En este caso kI − Ak ' 1, por lo que k → ∞ y darı́a lugar a
un falso condicionamiento, ya que A no tiene que estar, necesariamente, mal
condicionada.

Ejemplo 2.6 Para estudiar el condicionamiento del sistema



 3x + 4y = 7

3x + 4.00001y = 7.00001

Se tiene que
!
3 4
A= =⇒ det(A) = 0.00003
3 4.00001
!
1 4.00001 −4
A−1 =
0.00003 −3 3
n
X
Utilizando la norma infinito kAk∞ = máx |aij | se tiene que
i
j=1

kAk∞ = 7.00001 
 56
=⇒ κ∞ (A) ' · 105 > 1.8 · 106
8.00001  3
kA−1 k∞ = 
0.00003
Se trata pues, de un sistema mal condicionado.
18 Sistemas de ecuaciones lineales

n
X
Si utilizamos la norma-1 kAk1 = máx |aij | obtenemos:
j
i=1

kAk1 = 8.00001 
 56
=⇒ κ1 (A) ' · 105 > 1.8 · 106
7.00001  3
kA−1 k1 = 
0.00003
obteniéndose, también, que se trata de un sistema mal condicionado. 

Propiedades del número de condición.

• κ(A) ≥ 1 cualquiera que sea la matriz cuadrada y regular A.


Demostración.

kxk = kIxk ≤ kIkkxk =⇒ kIk ≥ 1

cualquiera que sea la norma utilizada.

Como, por otra parte AA−1 = I se tiene que

1 ≤ kIk = kAA−1 k ≤ kAkkA−1 k = κ(A) =⇒ κ(A) ≥ 1.

• Si B = zA, con z ∈ C no nulo, se verifica que κ(B) = κ(A).


Demostración.
1 kA−1 k
κ(B) = kBk kB −1 k = kzAk k A−1 k = |z| kAk = kAk kA−1 k =
z |z|
= κ(A)

Dado que det(B) = z n det(A), donde n representa el orden de la matriz


A, y κ(B) = κ(A) se ve que el condicionamiento de una matriz no
depende del valor de su determinante.
σn
• Utilizando la norma euclı́dea, κ2 (A) = donde σ1 y σn representan,
σ1
respectivamente, al menor y al mayor de los valores singulares de la
matriz A.
Demostración. Sabemos que los valores singulares σi de la matriz A
son las raı́ces cuadradas positivas de los autovalores de la matriz A∗ A.
p
σi = λi (A∗ A)
Sistemas de ecuaciones lineales 19

Si suponemos σ1 ≤ σ2 ≤ · · · ≤ σn se tiene que


q
kAk2 = máx λi (A∗ A) = σn
i
q  q
kA−1 k2 = máx λi (A−1 )∗ A−1 = máx λi (A∗ )−1 A−1 =

i i
r s
q
∗ −1 1 1
= máx λi (AA ) = máx = =
i i ∗
λi (AA ) mı́n λi (AA∗ )
i
s s
1 1 −1 1
= ∗ = 2 =⇒ kA k2 =
mı́n λi (A A) mı́n σi σ1
i i

Podemos concluir, por tanto, que



kAk2 = σn   σn
=⇒ κ2 (A) =
1  σ1
kA−1 k2 = 
σ1

En cuanto a su relación con los números de condición obtenidos con otras


normas de matriz se tiene que:
√ √
kAk2 ≤ kAkF ≤ nkAk2 =⇒ kA−1 k2 ≤ kA−1 kF ≤ nkA−1 k2

κ2 (A) = kAk2 kA−1 k2 ≤ kAkF kA−1 kF = κ(A)F


√ √
κF (A) = kAkF kA−1 kF ≤ n nkAk2 kA−1 k2 = nκ2 (A) =⇒

κ2 (A) ≤ κF (A) ≤ nκ2 (A)


 p
 kAk2 ≤ kAk1 kAk∞ p
Además: p ⇒ κ2 (A) ≤ κ1 (A)κ∞ (A)
 −1 −1 −1
kA k2 ≤ kA k1 kA k∞

• La condición necesaria y suficiente para que κ2 (A) = 1 es que A = zU


siendo z ∈ C (no nulo) y U una matriz unitaria (U U ∗ = U ∗ U = I).
Demostración.

⇐) A = zU =⇒ κ2 (A) = 1.

A = zU =⇒ A∗ A = zU ∗ zU = |z|2 U ∗ U = |z|2 I =⇒
λi (A∗ A) = |z|2 cualquiera que sea i = 1, 2, . . . , n y, por tanto,

σ1 = σ2 = · · · = σn = |z|
20 Sistemas de ecuaciones lineales

por lo que
σn
κ2 (A) = =1
σ1
⇒) κ2 (A) = 1 =⇒ A = zU .

Sabemos que si A es diagonalizable existe una matriz regular R


tal que R−1 AR = D con D = diag(λi ) (R es la matriz de paso
cuyas columnas son los autovectores asociados los autovalores λi ).
Por otra parte sabemos que toda matriz hermı́tica (A = A∗ ) es
diagonalizable mediante una matriz de paso unitaria.
Como A∗ A es hermı́tica existe una matriz unitaria R tal que
 
σ12
σ22
 
∗ ∗
 
R A AR =  
...


 
σn2
σn
κ2 (A) = = 1 =⇒ σ1 = σ2 = · · · = σn = σ, por lo que
σ1
R∗ A∗ AR = σ 2 I
Entonces
A∗ A = R(σ 2 I)R∗ = σ 2 (RIR∗ ) = σ 2 I
de donde   
1 ∗ 1
A A =I
σ σ
1 1
Llamando U = A se tiene que U ∗ = A∗ , ya que σ ∈ R ⇒ σ = σ.
σ σ
  
1 ∗ 1
U ∗U = A A = I =⇒ U es unitaria
σ σ
y, por tanto,
A = σU con U unitaria

Los sistemas mejor condicionados son aquellos que tienen sus filas o columnas
ortogonales y mientras mayor sea la dependencia lineal existente entres ellas
peor es el condicionamiento del sistema.
Al ser κ(U A) = κ(A) trataremos de utilizar métodos de resolución de sistemas
de ecuaciones lineales que trabajen con transformaciones unitarias que no em-
peoren su condicionamiento como lo hace, por ejemplo, el método de Gauss
basado en la factorización LU y que también estudiaremos a continuación.
Métodos directos de resolución de sistemas lineales 21

2.3 Métodos directos de resolución de siste-


mas lineales

2.3.1 Factorización LU
Al aplicar el método de Gauss al sistema Ax = b realizamos transformaciones
elementales para conseguir triangularizar la matriz del sistema.

Si este proceso puede realizarse sin intercambios de filas, la matriz triangular


superior U obtenida viene determinada por el producto de un número finito
de transformaciones fila Fk Fk−1 · · · F1 aplicadas a la matriz A.

Llamando L−1 = Fk Fk−1 · · · F1 (ya que el determinante de una transformación


fila es ±1 y, por tanto, su producto es inversible) se tiene que L−1 A = U , o lo
que es lo mismo, A = LU .

Además, la matriz L es una triangular inferior con unos en la diagonal.


Esta factorización es única ya que de existir otra
A = L0 U 0 = LU =⇒ L−1 L0 = U U 0−1
Como L−1 también es triangular inferior con unos en la diagonal, el producto
L−1 L0 también es una matriz del mismo tipo.

Análogamente, el producto U U 0−1 resulta ser una triangular superior.

El hecho de que L−1 L0 = U U 0−1 nos dice que necesariamente L−1 L0 = I, ya que
es simultáneamente triangular inferior y superior y su diagonal es de unos.

Ası́ pues L−1 L0 = I, por lo que L = L0 y, por tanto U = U 0 es decir, la


factorización es única.

Debido a la unicidad de la factorización, ésta puede ser calculada por un


método directo, es decir, haciendo
  
1 0 0 ··· 0 u11 u12 u13 · · · u1n
 l21 1 0 · · · 0   0 u22 u23 · · · u2n 
  
  
A= l31 l32 1 · · · 0  0 0 u 33 · · · u 3n 
 .. .. .. . . ..   .. .. .. . . .. 
  
 . . . . .  . . . . . 
ln1 ln2 ln3 · · · 1 0 0 0 · · · unn
y calculando los valores de los n2 elementos que aparecen entre las dos matrices.
22 Sistemas de ecuaciones lineales

 
3 1 2
Ejemplo 2.7 Considérese la matriz A =  6 3 2 
 

−3 0 −8
    
3 1 2 1 0 0 u11 u12 u13
 6 3 2  =  l21 1 0   0 u22 u23  =
    

−3 0 −8 l31 l32 1 0 0 u33


 
u11 u12 u13
=  l21 u11 l21 u12 + u22 l21 u13 + u23 
 

l31 u11 l31 u12 + l32 u22 l31 u13 + l32 u23 + u33
por lo que de la primera fila obtenemos que

u11 = 3 u12 = 1 u13 = 2

de la segunda (teniendo en cuenta los valores ya obtenidos) se tiene que



3l21 = 6   l21 = 2
l21 + u22 = 3 =⇒ u22 = 1

2l21 + u23 = 2 u23 = −2

y de la tercera (teniendo también en cuenta los resultados ya obtenidos)



3l31 = −3   l31 = −1
l31 + l32 = 0 =⇒ l32 = 1

2l31 − 2l32 + u33 = −8 u33 = −4

    
3 1 2 1 0 0 3 1 2
es decir:  6 3 2 = 2 1 0  0 1 −2  
    

−3 0 −8 −1 1 1 0 0 −4

Teorema 2.12 Una matriz regular A admite factorización LU si, y sólo si,
sus matrices fundamentales Ai (i = 1, 2, . . . , n) son todas regulares.

Demostración. Supongamos que A admite factorización LU . En ese caso


! ! !
Ak Lk Uk
A= = =⇒

Ak = Lk Uk =⇒ det(Ak ) = det(Lk ) det(Uk ) = 1 · r11 r22 · · · rkk 6= 0


Métodos directos de resolución de sistemas lineales 23

ya que, por sea A regular, todos los pivotes rii i = 1, 2, . . . , n son no nulos.
Recı́procamente, si todas las matrices fundamentales son regulares, A admite
factorización LU , o lo que es equivalente, se puede aplicar Gauss sin intercam-
bio de filas. En efecto:
Dado que, por hipótesis es a11 6= 0, se puede utilizar dicho elemento como
pivote para anular al resto de los elementos de su columna quedándonos la
matriz  (2) (2) 
(2)
a11 a12 · · · a1n
 0 a(2) (2) 
· · · a2n 

(2) 22
A = .  .. . . .. 
 . . . . . 

(2) (2)
0 an2 · · · ann
(2)
donde a1i = a1i para i = 1, 2, . . . , n.
a21
Si nos fijamos ahora en a222 = a22 − a12 podemos ver que es no nulo, ya que
a11
de ser nulo serı́a
a11 a22 − a12 a21 = det(A2 ) = 0
en contra de la hipótesis de que todas las matrices fundamentales son regulares.
(2)
Por tanto, podemos utilizar a22 6= 0 como nuevo pivote para anular a los
elementos de su columna situados bajo él.
Reiterando el procedimiento se puede ver que todos los elementos que vamos
obteniendo en la diagonal son no nulos y, por tanto, válidos como pivotes. Es
decir, puede realizarse la factorización LU .

Comprobar si una matriz admite factorización LU estudiando si todas sus


matrices fundamentales son regulares es un método demasiado costoso debido
al número de determinantes que hay que calcular.

Corolario 2.13 Toda matriz de diagonal dominante admite factorización LU .

Demostración. Es consecuencia directa de los Teoremas 2.8, 2.9 y 2.12.

Corolario 2.14 Toda matriz hermı́tica y definida positiva


hérmı́tica ⇐⇒ A = A∗
(
x∗ Ax ≥ 0 ∀ x
definida positiva ⇐⇒
x∗ Ax = 0 ⇐⇒ x = 0
admite factorización LU .
24 Sistemas de ecuaciones lineales

Demostración. Las matrices fundamentales de éstas tienen todas determi-


nante positivo, por lo que el Teorema 2.12 garantiza la existencia de las ma-
trices L y U .

Una vez realizada la factorización LU , el sistema Ax = b puede escribirse de la


forma LU x = b y llamando U x = y transformamos el problema de resolver el
sistema cuadrado Ax = b en la resolución de los sistemas triangulares Ly = b
y U x = y. 
 Ly = b
Ax = b ⇐⇒
Ux = y

Ejemplo 2.8 Consideremos el sistema Ax = b con


   
3 1 2 0
A= 6 3 2  b= 1 
   

−3 0 −8 5

En el Ejemplo 2.7 realizamos la factorización LU de la matriz A.


     

1 0 0 y1 0 0
Ly = b ⇐⇒  2 1 0   y2  =  1  =⇒ y =  1 
      

−1 1 1 y3 5 4
      
3 1 2 x1 0 1
U x = y ⇐⇒  0 1 −2   x2  =  1  =⇒ x =  −1 
      

0 0 −4 x3 4 −1 

2.3.2 Factorización de Cholesky


Es conocido que toda matriz hermı́tica y definida positiva tiene sus autovalores
reales y positivos y, además, en la factorización LU todos los pivotes son reales
y positivos.

Teorema 2.15 [Factorización de Cholesky]

Toda matriz A hermı́tica y definida positiva puede ser descompuesta de la


forma A = R∗ R siendo R una matriz triangular superior.
Métodos directos de resolución de sistemas lineales 25

Demostración. Por tratarse de una matriz hermı́tica y definida positiva,


sabemos que admite factorización LU . Sea
  
1 0 ··· 0 u11 u12 · · · u1n
 l21 1 · · · 0   0 u22 · · · u2n 
  
A=  .. .. . . .. 
  ..
 .. .. . =
 . . . .  . . . .. 
ln1 ln2 · · · 1 0 0 ··· unn
   
1 0 ··· 0 u11 0 · · · 0 1 u12/u11 · · · u1n/u11
 l21 1 · · · 0   0 u22 · · · 0  0 1 · · · u2n/u22 
   
=
 .. .. . . ..   . .. . . .. . .. .. ..  =
  ..
. . . . .
 . . . . . . . 

ln1 ln2 · · · 1 0 0 · · · unn 0 0 ··· 1
 
u11 0 ··· 0
 0 u22 ··· 0
 

= L
 .. .. ... .. V =
 . . .


0 0 ··· unn
 √  √ 
u11 0 ··· 0 u11 0 ··· 0
√ √
 0 u22 ··· 0  0 u22 ··· 0
  

= L . .. ..  . .. .. V ⇒
 . ...  . ...
 . . .  . . .

√ √

0 0 ··· unn 0 0 ··· unn

A = BR
 √ 
u11 0 0 ··· 0

 0 u22 0 ··· 0 
 
 √ 
 0
B = L 0 u33 · · · 0   es triangular inferior.
 .. .. .. .. .. 
 . . . . . 

0 0 0 ··· unn
 √ 
u11 0 0 ··· 0

 0 u22 0 ··· 0 
 
 √ 
R=  0 0 u33 · · · 0   V es triangular superior.
 .. .. .. ... .. 
 . . . . 

0 0 0 ··· unn
Como A es hermı́tica, BR = A = A∗ = R∗ B ∗ , por lo que (R∗ )−1 B = B ∗ R−1 , y
dado que (R∗ )−1 B es triangular inferior y B ∗ R−1 es triangular superior, ambas
han de ser diagonales.
26 Sistemas de ecuaciones lineales

Por otra parte,

B ∗ R−1 = (LD)∗ (DV )−1 = D∗ L∗ V −1 D−1 = DL∗ V −1 D−1 = L∗ V −1

ya que las matrices diagonales conmutan.


Dado que la matriz L∗ V −1 tiene unos en la diagonal y es igual a B ∗ R−1 que
es diagonal, debe ser B ∗ R−1 = I, por lo que B ∗ = R o, lo que es lo mismo,
B = R∗ , es decir A = R∗ R con R = DV .

Hemos visto que toda matriz hermı́tica y definida positiva admite factorización
de Cholesky, pero podemos llegar más lejos y enunciar el siguiente teorema.

Teorema 2.16 Una matriz hermı́tica y regular A es definida positiva si, y


sólo si, admite factorización de Cholesky.

Demostración. Si es hermı́tica y definida positiva admite factorización LU


con todos los elementos diagonales de U (pivotes) positivos, por lo que admite
factorización de Cholesky.
Recı́procamente, si A admite factorización de Cholesky es A = R∗ R por lo que

A∗ = (R∗ R)∗ = R∗ R = A =⇒ A es hermı́tica

Para cualquier vector x no nulo es

x∗ Ax = x∗ R∗ Rx = (Rx)∗ (Rx) = kRxk2 ≥ 0

siendo cero sólo si Rx = 0 pero al ser R regular (si no lo fuese tampoco lo


serı́a A en contra de la hipótesis) Rx = 0 =⇒ x = 0 en contra de la hipótesis
de que x no es el vector nulo.
Se tiene pues que x∗ Ax > 0 para cualquier vector x no nulo, es decir, A es
definida positiva.

La unicidad de las matrices L y U implica la unicidad de la matriz R y, por


tanto, ésta puede ser calculada por un método directo.

Ejemplo 2.9 Consideremos el sistema


    
4 2i 4 + 2i x1 0
 −2i 2 2 − 2i   x2  =  0 
    

4 − 2i 2 + 2i 10 x3 −4
Métodos iterados de resolución de sistemas lineales 27

Realicemos la factorización R∗ R directamente, es decir


    
4 2i 4 + 2i r11 0 0 r11 r12 r13
 −2i 2 2 − 2i  =  r12 r22 0   0 r22 r23 
    

4 − 2i 2 + 2i 10 r13 r23 r33 0 0 r33

2
Se obtiene multiplicando, que r11 = 4 =⇒ r11 = 2.

 2r12 = 2i =⇒ r12 = i
Utilizando este resultado tenemos que
2r13 = 4 + 2i =⇒ r13 = 2 + i

2 2 2
r12 + r22 = 2 =⇒ r22 = 1 =⇒ r22 = 1.

r12 r13 + r22 r23 = 2 − 2i =⇒ 1 − 2i + r23 = 2 − 2i =⇒ r23 = 1.


2 2 2 2 2
r13 + r23 + r33 = 10 =⇒ 5 + 1 + r33 = 10 =⇒ r33 = 4 =⇒ r33 = 2.

Ası́ pues, el sistema nos queda de la forma


     
2 0 0 2 i 2+i x1 0
 −i 1 0  0 1 1   x2  =  0 
     

2−i 1 2 0 0 2 x3 −4
      
2 0 0 y1 0 0

R y = b ⇐⇒  −i 1 0   y2  =  0  =⇒ y =  0 
      

2−i 1 2 y3 −4 −2
      
2 i 2+i x1 0 1
Rx = y ⇐⇒  0 1 1   x2  =  0  =⇒ x =  1 
      

0 0 2 x3 −2 −1


2.4 Métodos iterados de resolución de siste-


mas lineales
Un método iterado de resolución del sistema Ax = b es aquel que genera, a
partir de un vector inicial x0 , una sucesión de vectores (xn ) con xn+1 = f (xn ).
28 Sistemas de ecuaciones lineales

Definición 2.10 [Consistencia]

Un método iterado se dirá que es consistente con el sistema Ax = b, si el lı́mite


de dicha sucesión, en caso de existir, es solución del sistema.

Definición 2.11 [Convergencia]

Un método iterado para la resolución del sistema Ax = b se dirá que es con-


vergente si la sucesión generada por cualquier vector inicial x0 es convergente
a la solución del sistema.

Es evidente que si un método es convergente es consistente, sin embargo, el


recı́proco no es cierto como prueba el siguiente ejemplo.

Ejemplo 2.10 El método xn+1 = 2xn − A−1 b es consistente con al sistema


Ax = b pero no es convergente. En efecto:

xn+1 − x = 2xn − A−1 b − x = 2xn − 2x − A−1 b + x = 2(xn − x) − (A−1 b − x)

y como A−1 b = x, se tiene que

xn+1 − x = 2(xn − x)

Si existe lim xn = x∗ tendremos que


n→∞

x∗ − x = 2(x∗ − x) =⇒ x∗ − x = 0 =⇒ x∗ = x

es decir, el lı́mite es solución del sistema Ax = b, por lo que el método es


consistente.
Sin embargo, de xn+1 − x = 2(xn − x) obtenemos que

kxn+1 − xk = 2kxn − xk

es decir, el vector xn+1 dista de x el doble de lo que distaba xn , por lo que el


método no puede ser convergente. 

Los métodos iterados que trataremos son de la forma

xn+1 = Kxn + c

en los que K será la que denominemos matriz del método y que dependerá de
A y de b y en el que c es un vector que vendrá dado en función de A, K y b.
Métodos iterados de resolución de sistemas lineales 29

Teorema 2.17 Un método iterado, de la forma xn+1 = Kxn +c, es consistente


con el sistema Ax = b si, y sólo si, c = (I − K)A−1 b y la matriz I − K es
invertible

Demostración.

• Supongamos que el método es consistente con el sistema Ax = b.


Como x = Kx + (I − K)x = Kx + (I − K)A−1 b, se tiene que

xn+1 − x = K(xn − x) + c − (I − K)A−1 b (2.1)

Por ser consistente el método, de existir x∗ = lim xn ha de ser x∗ = x.


n→∞
Pasando al lı́mite en la Ecuación (2.1) obtenemos que

x∗ − x = K(x∗ − x) + c − (I − K)A−1 b

por lo que
(I − K)(x∗ − x) = c − (I − K)A−1 b (2.2)
y dado que x∗ = x nos queda que 0 = c − (I − K)A−1 b, es decir,

c = (I − K)A−1 b.

Además, dado que x = Kx + c, el sistema (I − K)x = c posee solución


única x y, por tanto, la matriz I − K es invertible.

• Si c = (I − K)A−1 b y la matriz I − K es invertible, cuando exista


lim xn = x∗ se tendrá de (2.2) que
n→∞

(I − K)(x∗ − x) = 0

Como I − K es invertible, x∗ = x, y el método es consistente.

Teorema 2.18 Un método iterado de la forma xn+1 = Kxn + c consistente


con el sistema Ax = b es convergente si, y sólo si, lim K n = 0.
n→∞

Demostración. Por tratarse de un método consistente con el sistema Ax = b,


se verifica que c = (I − K)A−1 b, por lo que

xn+1 = Kxn + (I − K)A−1 b


30 Sistemas de ecuaciones lineales

restando el vector solución x a ambos miembros, podemos escribir

xn+1 −x = Kxn −(K +I −K)x+(I −K)A−1 b = K(xn −x)+(I −K)(A−1 b−x)

y dado que A−1 b − x = 0 obtenemos que xn+1 − x = K(xn − x).


Reiterando el proceso se obtiene:

xn − x = K(xn−1 − x) = K 2 (xn−2 − x) = · · · = K n (x0 − x)

lim (xn − x) = ( lim K n )(x0 − x) (2.3)


n→∞ n→∞

• Si el método es convergente, lim (xn − x) = x − x = 0, por lo que de la


n→∞
ecuación (2.3) obtenemos que

lim K n = 0
n→∞

• Si lim K n = 0, obtenemos de la ecuación (2.3) que


n→∞

lim (xn − x) = 0 ⇐⇒ lim xn = x


n→∞ n→∞

por lo que el método es convergente.

Teorema 2.19 [Teorema del punto fijo]

Si para alguna norma matricial es kKk < 1, la sucesión (xn ) definida por
xn+1 = Kxn +c, donde x0 ∈ Rn es un vector cualquiera, converge a la solución
de la ecuación x = Kx + c que existe y es única.

Demostración.

• Existencia y unicidad

Veamos, en primer lugar, que la ecuación x = Kx + c posee solución


única.
En efecto: x = Kx + c =⇒ (I − K)x = c. Este sistema tiene solución
única si, y sólo si, el sistema homogéneo asociado (I − K)z = 0 admite
sólo la solución trivial z = 0, es decir, si I − K es invertible.
La solución z no puede ser distinta del vector nulo ya que de serlo, como
kKk < 1 se tiene que al ser (I − K)z = 0, o lo que es lo mismo, z = Kz

kzk = kKzk ≤ kKkkzk < kzk


Métodos iterados de resolución de sistemas lineales 31

lo cual es un absurdo, por lo que el sistema homogéneo sólo admite la


solución trivial y, por tanto, el sistema completo x = Kx + c posee
solución única.

• Convergencia

Probaremos ahora que la sucesión (xn ) converge a x.


Dado que xn+1 − x = (Kxn + c) − (Kx + c) = K(xn − x), podemos
reiterar el proceso para obtener que xn − x = K n (x0 − x) por lo que
kxn − xk ≤ kK n kkx0 − xk ≤ kKkn kx0 − xk
y dado que kKk < 1, pasando al lı́mite se obtiene
lim kxn − xk = 0 =⇒ lim xn = x
n→∞ n→∞

Teorema 2.20 [Condición necesaria y suficiente de convergencia]

La sucesión (xn ) definida por xn+1 = Kxn + c, donde x0 ∈ Rn es un vector


cualquiera, es convergente si, y sólo si, la matriz K tiene radio espectral menor
que 1.
xn+1 = Kxn + c con x0 ∈ Rn convergente ⇐⇒ ρ(K) < 1

Demostración.

• Condición suficiente

Si λ1 , . . . , λm son los autovalores de la matriz K, los de la matriz K n son


λn1 , . . . , λnm .
ρ(K) < 1 =⇒ |λi | < 1 (i = 1, . . . , m) =⇒ λi , λ2i , . . . , λni , . . . → 0
por lo que los autovalores de la matriz lı́mite lim K n son todos nulos,
n→∞
es decir, lim K n = 0 por lo que
n→∞

ρ(K) < 1 =⇒ el proceso es convergente.

• Condición necesaria

El teorema del punto fijo establece como condición necesaria para la


convergencia que kKk < 1 y dado que ρ(K) es una cota inferior de
cualquier norma multiplicativa, es ρ(K) ≤ kKk < 1, por lo que
32 Sistemas de ecuaciones lineales

El proceso es convergente =⇒ ρ(K) < 1.

Métodos de descomposición

Los métodos que vamos a estudiar consisten en descomponer la matriz inver-


tible A del sistema Ax = b de la forma A = M − N de manera que la matriz
M sea fácilmente invertible, por lo que reciben el nombre genérico de métodos
de descomposición.
El sistema queda entonces de la forma

(M − N )x = b =⇒ M x = N x + b =⇒ x = M −1 N x + M −1 b

es decir, expresamos el sistema de la forma



 K = M −1 N
Ax = b ⇐⇒ x = Kx + c con
 c = M −1 b

Dado que

(I −K)A−1 b = (I −M −1 N )(M −N )−1 b = M −1 (M −N )(M −N )−1 b = M −1 b = c

y la matriz (I − K) = (I − M −1 N ) = M −1 (M − N ) = M −1 A es invertible,
estamos en las condiciones del Teorema 2.17 por lo que xn+1 = Kxn + c es
consistente con el sistema Ax = b.
Es decir, si el proceso converge, lo hace a la solución del sistema.

Sabemos también, por el Teorema 2.19, que el proceso será convergente si se


verifica que kKk = kM −1 N k < 1 para alguna norma.

Para el estudio de los métodos que trataremos a continuación, vamos a des-


componer la matriz A de la forma A = D − E − F siendo
   
a11 0 0 ··· 0 0 0 0 ··· 0
0 a22 0 ··· 0 a21 0 0 ··· 0
   
   
   
D= 0 0 a33 ··· 0  −E = a31 a32 0 ··· 0 
.. .. .. .. .. .. .. ..
   
.. ..
. .
   
 . . . .   . . . . 
0 0 0 · · · ann an1 an2 an3 ··· 0
Métodos iterados de resolución de sistemas lineales 33

 
0 a12 a13 · · · a1n
0 0 a23 · · · a2n 
 

 
−F =  0 0 0 · · · a3n 
.. .. .. .. 
 
..
. . 

 . . .
0 0 0 ··· 0

2.4.1 Método de Jacobi


Consiste en realizar la descomposición

A = M − N = D − (E + F )

El sistema queda de la forma

Ax = b =⇒ Dx = (E + F )x + b =⇒ x = D−1 (E + F )x + D−1 b
(
J = D−1 (E + F )
Método de Jacobi xn+1 = Jxn + c con
c = D−1 E
La matriz J recibe el nombre de matriz de Jacobi.

Teorema 2.21 Si A es una matriz de diagonal dominante, el método de Ja-


cobi es convergente.

Demostración. La matriz J = D−1 (E + F ) tiene todos los elementos diago-


nales nulos y las sumas de los módulos de los elementos de sus filas son todas
menores que 1 ya que
n n
X X |aik |
|aii | > |aik | i = 1, 2, . . . , n =⇒ <1
|aii |
k=1 k=1
k 6= i k 6= i

por lo que los cı́rculos de Gerschgorin están todos centrados en el origen y


tienen radios menores que 1 es decir, todos los autovalores de J son menores
que 1, por lo que ρ(J) < 1 y el método converge.

2.4.2 Método de Gauss-Seidel


Este método es el resultado de realizar la descomposición

A = M − N = (D − E) − F
34 Sistemas de ecuaciones lineales

El sistema nos queda

Ax = b =⇒ (D − E)x = F x + b =⇒ x = (D − E)−1 F x + (D − E)−1 b


(
L1 = (D − E)−1 F
Método de Gauss-Seidel xn+1 = L1 xn + c con
c = (D − E)−1 b
La matriz L1 recibe el nombre de matriz de Gauss-Seidel.

Teorema 2.22 Si A es una matriz de diagonal dominante, el método de


Gauss-Seidel es convergente.

Teorema 2.23 Si A es una matriz simétrica y definida positiva, el método de


Gauss-Seidel es convergente.

2.4.3 Métodos de relajación (SOR)

Estos métodos realizan la descomposición


 
1 1−ω 1 1−ω
A= D− D − E − F = (D − ωE) − D+F =M −N
ω ω ω ω

El sistema se transforma entonces en


 
1 1−ω
(D − ωE)x = D + F x + b =⇒
ω ω
 
(D − ωE)x = (1 − ω)D + ωF x + ωb =⇒
 
x = (D − ωE)−1 (1 − ω)D + ωF x + ω(D − ωE)−1 b

Métodos de relajación xn+1 = Lω xn + c con


(  
Lω = (D − ωE)−1 (1 − ω)D + ωF
c = ω(D − ωE)−1 b

La matriz Lω recibe el nombre de matriz de relajación.


Métodos del descenso más rápido y del gradiente conjugado 35

• Si ω = 1 la matriz se reduce a L1 = (D − E)−1 F , es decir, se trata del


método de Gauss Seidel.

• Si ω > 1 se dice que se trata de un método de sobre-relajación

• Si ω < 1 se dice que se trata de un método de sub-relajación

Teorema 2.24 Una condición necesaria para que converja el método de rela-
jación es que ω ∈ (0, 2).

Teorema 2.25 Si A es de diagonal dominante, el método de relajación es


convergente cualquiera que sea ω ∈ (0, 1].

Teorema 2.26 Si A es simétrica y definida positiva, el método de relajación


converge si, y sólo si, ω ∈ (0, 2)

2.5 Métodos del descenso más rápido y del


gradiente conjugado
Los métodos que vamos a tratar a continuación son válidos para sistemas
Ax = b cuya matriz A es simétrica y definida positiva, es decir, para matrices
tales que AT = A (simétrica) y xT Ax > 0 cualquiera que sea el vector x 6= 0
(definida positiva).

Lema 2.27 Si A es simétrica y definida positiva, el problema de resolver el


sistema Ax = b es equivalente al de minimizar la forma cuadrática

q(x) = h x, Ax i − 2h x, b i

donde h x, y i = xT y representa el producto escalar de los vectores x e y.

Demostración. Fijemos una dirección v (rayo unidimensional) y vamos a ver


cómo se comporta la forma cuadrática q para vectores de la forma x+tv donde
t es un escalar.
36 Sistemas de ecuaciones lineales

Teniendo en cuenta que A es simétrica

q(x + tv) = h x + tv, A(x + tv) i − 2h x + tv, b i


= h x, Ax i + 2th x, Av i + t2 h v, Av i − 2h x, b i − 2th v, b i
= q(x) + 2th v, Ax i − 2th v, b i + t2 h v, Av i

q(x + tv) = q(x) + 2th v, Ax − b i + t2 h v, Av i (2.4)

La ecuación (2.4) (ecuación de segundo grado en t con el coeficiente de t2


positivo, tiene un mı́nimo que se calcula igualando a cero la derivada
d
q(x + tv) = 2h v, Ax − b i + 2th v, Av i
dt
es decir, en el punto
t̂ = h v, b − Ax i/h v, Av i.
El valor mı́nimo que toma la forma cuadrática sobre dicho rayo unidimensional
viene dado por

q(x + t̂v) = q(x) + t̂ [2h v, Ax − b i + t̂h v, Av i]


= q(x) + t̂ [2h v, Ax − b i + h v, b − Ax i]
= q(x) − t̂h v, b − Ax i
= q(x) − h v, b − Ax i2 /h v, Av i

Esto nos indica que al pasar de x a x + t̂v siempre hay una reducción en el
valor de q excepto si v ⊥ (b − Ax), es decir, si h v, b − Ax i = 0. Ası́ pues, si
x no es una solución del sistema Ax = b existen muchos vectores v tales que
h v, b − Ax i =
6 0 y, por tanto, x no minimiza a la forma cuadrática q. Por el
contrario, si Ax = b, no existe ningún rayo que emane de x sobre el que q tome
un valor menor que q(x), es decir, x minimiza el valor de q.

El lema anterior nos sugiere un método para resolver el sistema Ax = b pro-


cediendo a minimizar la forma cuadrática q a través de una sucesión de rayos.
En el paso k del algoritmo se dispondrá de los vectores

x(0) , x(1) , x(2) , . . . , x(k) .

Estos vectores nos permitirán buscar una dirección apropiada v (k) y el siguiente
punto de la sucesión vendrá dado por

x(k+1) = x(k) + tk v (k) ,


Métodos del descenso más rápido y del gradiente conjugado 37

donde
h v (k) , b − Ax(k) i
tk =
h v (k) , Av (k) i
Gráficamente, si kv (k) k = 1, tk mide la distancia que nos movemos de x(k) para
obtener x(k+1)

tk v (k) v (k)
- -
 3

 

 

x(k)  


 x(k+1)


 
 



2.5.1 Método del descenso más rápido


Si tomamos v (k) como el gradiente negativo de q en x(k) , es decir, como la
dirección del residuo r(k) = b − Ax(k) obtenemos el denominado método del
descenso más rápido.
Teniendo en cuenta que los diferentes vectores x(i) no es necesario conservarlos,
los podemos sobreescribir obteniéndose el siguiente algoritmo que teniendo
como entrada los valores de x, A, b y n tiene como salida la solución x:

Algoritmo del Descenso más rápido

for k = 1:n
v = b-A*x;
t = (v0 *v)/(v0 Av);
x = x+t*v;
end
x

Obsérvese que a medida que crece el valor de k, el residuo v = b − Ax va dis-


minuyendo, por lo que al encontrarnos en las proximidades de la solución, el
cálculo de t se convierte prácticamente en una división de 00 lo que puede alte-
rar considerablemente el valor exacto que deberı́a tomar t y que generalmente
nos lleva a que el método diverge.
38 Sistemas de ecuaciones lineales

Este método resulta, en general, muy lento si las curvas de nivel de la forma
cuadrática están muy próximas, por lo que no suele utilizarse en la forma
descrita. Sin embargo, utilizando condiciones de ortogonalidad en las denomi-
nadas direcciones conjugadas, puede ser modificado de forma que se convierta
en un método de convergencia rápida que es conocido como método del gra-
diente conjugado.

2.5.2 Método del gradiente conjugado


Por no profundizar en el concepto de direcciones conjugadas y en cómo se
determinan, nos limitaremos a dar el algoritmo correspondiente al método que
tiene por entrada los valores de x, A, b, n,ε y δ y como salida la solución x.
Es necesario tener en cuenta las mismas precauciones que en el algoritmo del
descenso más rápido, es decir, debido a los errores de cálculo puede resultar
un algoritmo divergente.

Algoritmo del Gradiente conjugado

r = b-A*x;
v = r;
c = r0 *r;
for k = 1:n
if sqrt(v0 *v)< δ then stop
z = A*v;
t = c/(v0 *z);
x = x+t*v;
r = r-t*z;
d = r0 *r;
if d<ε then stop
v = r+(d/c)*v;
c = d;
end
x
Bibliografı́a

[1] Burden, R.L. y Faires, J.D. Análisis Numérico (Sexta edición). Interna-
cional Thomson Ed. 1998.

[2] Golub, G.H. y Van Loan, C.F. Matrix Computations (Third edition). Johns
Hopkins University Press

[3] Hager, W. Applied Numerical Linear Algebra. Ed. Prentice-Hall Interna-


tional. 1988.

[4] Kincaid, D. y Cheney, W. Análisis Numérico. Ed. Addison-Wesley Ibe-


roamericana. 1994.

[5] Noble, D. y Daniel, J.W. Álgebra Lineal Aplicada. Ed. Prentice-Hall. 1989.

[6] Watkins, D.S. Fundamentals of MATRIX Computations. John Wiley &


Sons. 1991.

39

También podría gustarte