An Capitulo2

2.
Sistemas de ecuaciones linea-

les
2.1 Normas vectoriales y matriciales

Definición 2.1 [Concepto de norma]
Sea E un espacio vectorial definido sobre un cuerpo K. Se define una norma

como una aplicación, que denotaremos por k k, de E en R que verifica las
siguientes propiedades:
• kxk ≥ 0 ∀x ∈ E siendo kxk = 0 ⇐⇒ x = 0. Definida positiva.
• kλ xk = |λ|kxk ∀λ ∈ K, ∀x ∈ E. Propiedad de homogeneidad.
• kx + yk ≤ kxk + kyk ∀x, y ∈ E. Desigualdad triangular.
Es frecuente que en el espacio E se haya definido también el producto de dos

elementos. En este caso, si se verifica que
kx · yk ≤ kxk · kyk
se dice que la norma es multiplicativa.

Esta propiedad de las normas es fundamental cuando trabajamos en el con-
junto de las matrices cuadradas de orden n.
Un espacio E en el que hemos definido una norma recibe el nombre de espacio

normado.
1
2 Sistemas de ecuaciones lineales
2.1.1 Normas vectoriales
Sea E un espacio vectorial de dimensión n y sea B = {u1 , u2 , . . . , un } una base

suya. Cualquier vector x ∈ E puede ser expresado de forma única en función
de los vectores de la base B.
n
X
x= xi u i
i=1
donde los escalares (x1 , x2 , . . . , xn ) se conocen como coordenadas del vector x

respecto de la base B.
Utilizando esta notación, son ejemplos de normas los siguientes:
n
X
• Norma-1 kxk1 = |xi |
i=1
v
u n
uX
• Norma euclı́dea o Norma-2 kxk2 = t |xi |2
i=1
• Norma infinito kxk∞ = máx |xi |

i
Ejemplo 2.1 Para los vectores
x = (2, 3, 0, −12)T y = (1 + i, i)T

√
• kxk1 = 2 + 3 + 0 + 12 = 17 kyk1 = |1 + i| + |i| = 2 + 1
√ √ p √
• kxk2 = 22 + 32 + 02 + 122 = 157 kyk2 = |1 + i|2 + |i|2 = 3
√
• kxk∞ = | − 12| = 12 kyk∞ = |1 + i| = 2

2.1.2 Distancia inducida por una norma
Definición 2.2 [Distancia]
Dado un espacio vectorial E, se define una distancia como una aplicación

d : E × E → R cumpliendo que:
Normas vectoriales y matriciales 3
• d(x, y) ≥ 0 ∀x, y ∈ E siendo d(x, y) = 0 ⇐⇒ x = y.
• d(x, y) = d(y, x) ∀x, y ∈ E.
• d(x, y) ≤ d(x, z) + d(z, y) ∀x, y, z ∈ E.
Teorema 2.1 [Distancia inducida por una norma]

Si E, k k es un espacio normado, la norma k k induce una distancia en E
que se conoce como distancia inducida por la norma k k y viene definida por:
d(x, y) = kx − yk
Demostración. Veamos que, en efecto, se trata de una distancia:
• d(x, y) ≥ 0 por tratarse de una norma, y además:
d(x, y) = 0 ⇐⇒ kx − yk = 0 ⇐⇒ x − y = 0 ⇐⇒ x = y.
• d(x, y) = kx − yk = k − 1(y − x)k = | − 1| · ky − xk = ky − xk = d(y, x).
• d(x, y) = kx − yk = kx − z + z − yk ≤ kx − zk + kz − yk =
= d(x, z) + d(z, y).
2.1.3 Convergencia en espacios normados
Una sucesión de vectores v1 , v2 , . . . de un espacio vectorial normado (V, k k) se

dice que es convergente a un vector v si
lim kvk − vk = 0
k→∞
Esta definición coincide con la idea intuitiva de que la distancia de los vectores
de la sucesión al vector lı́mite v tiende a cero a medida que se avanza en la
sucesión.
Teorema 2.2 Para un espacio vectorial normado de dimensión finita, el con-

cepto de convergencia es independiente de la norma utilizada.
2.1.4 Normas matriciales

Dada una matriz A y un vector x, consideremos el vector transformado Ax.
La relación existente entre la norma del vector transformado y la del vector
original va a depender de la matriz A. El mayor de los cocientes entre dichas
normas, para todos los vectores del espacio, es lo que vamos a definir como
norma de la matriz A, de tal forma que de la propia definición se deduce que
kAxk ≤ kAk kxk
cualquiera que sea el vector x del espacio. (Obsérvese que no es lo mismo que
la propiedad multiplicativa de una norma, ya que aquı́ se están utilizando dos
normas diferentes, una de matriz y otra de vector).
Definición 2.3 [Norma de una matriz]
Se define
kAxk
kAk = máx = máx{kAxk : kxk = 1}
x∈V −{0} kxk
de tal forma que a cada norma vectorial se le asociará, de forma natural, una
norma matricial.
• Norma-1 kAk1 = máx{kAxk1 : kxk1 = 1}.

n
X
Dado que Ax = y =⇒ yi = aik xk se tiene que
k=1
n X
X n
kAk1 = máx{ |aik xk | : kxk1 = 1}.
i=1 k=1
Por último, si descargamos todo el peso sobre una coordenada, es decir,

si tomamos un vector de la base canónica, obtenemos que
n
X
kAk1 = máx |aij |.
j
i=1
√ √
• Norma euclı́dea kAk2 = máx{ x∗ A∗ Ax : x∗ x = 1}
Descargando ahora el peso en los autovectores de la matriz A∗ A obtene-

mos que
p √ p
kAk2 = máx{ x∗ λi x : x∗ x = 1} = máx λi = máx σi
i i i
donde σi representa a los valores singulares de la matriz A, es decir, las

raı́ces cuadradas positivas de los autovalores de la matriz A∗ A.
kAk∞ = máx{ nj=1 |aij xj | : kxk∞ = 1}.

P
• Norma infinito
Como ahora se dará el máximo en un vector que tenga todas sus coor-
denadas iguales a 1, se tiene que
n
X
kAk∞ = máx |aij |.
i
j=1
Tenemos pues, que las normas asociadas (algunas veces llamadas subordinadas)
a las normas de vector estudiadas anteriormente son:
n
X
Norma-1 kAk1 = máx |aij |.
j
i=1
Norma euclı́dea kAk2 = máx σi .

i
n
X
Norma infinito kAk∞ = máx |aij |.
i
j=1
Si consideramos la matriz como un vector de m × n coordenadas, podemos

definir (de manera análoga a la norma euclı́dea de vector) la denominada
sX √
Norma de Frobenius kAkF = |aij |2 = tr A∗ A
i,j
 
1 1 2
Ejemplo 2.2 Para la matriz A =  2 −1 1  se tiene:
 
1 0 1
n
X
• kAk1 = máx |aij | = máx{(1 + 2 + 1), (1 + | − 1| + 0), (2 + 1 + 1)} = 4
j
i=1
 
6 −1 5
T
• El polinomio caracterı́stico de la matriz A A =  −1 2 1  es
 
5 1 6
p(λ) = λ3 − 14λ2 + 33λ = λ(λ − 3)(λ − 11)
Los autovalores de la matriz AT √
A son√0, 3 y 11, por lo que los valores
singulares de la matriz A son 0, 3 y 11 y, por tanto,
√
kAk2 = máx σi = 11
i
n
X
• kAk∞ = máx |aij | = máx{(1 + 1 + 2), (2 + | − 1| + 1), (1 + 0 + 1)} = 4
i
j=1
√ √ √
• kAkF = tr AT A = 6 + 2 + 6 = 14.
2.1.5 Transformaciones unitarias

Definición 2.4 [Matriz unitaria]
La matriz U ∈ Cn×n de una transformación se dice unitaria si
U ∗ U = U U ∗ = I ⇐⇒ U ∗ = U −1
Proposición 2.3 La norma de Frobenius y la norma euclı́dea de vector son

invariantes mediante transformaciones unitarias.
Demostración.
• Para la norma matricial de Frobenius:

p p p
kU AkF = tr [(U A)∗ (U A)] = tr (A∗ U ∗ U A) = tr (A∗ A) = kAkF
p p
kAU kF = tr [(A U )∗ (A U )] = tr [(A U )(A U )∗ ] =
p p p
= tr (A U U ∗ A∗ ) = tr (A A∗ ) = tr (A∗ A) = kAkF
• Para la norma euclı́dea de vector.

p √ √
kU xk2 = (U x)∗ (U x) = x∗ U ∗ U x = x∗ x = kxk2
Proposición 2.4 Las matrices A, A∗ , AU y U A, donde U es una matriz

unitaria, poseen los mismos valores singulares y, por tanto, lo misma norma
euclı́dea.
Demostración. Veamos, en primer lugar que las matrices A∗ A y AA∗ poseen

los mismos autovalores. En efecto:
Sea λ un autovalor de A∗ A y x un autovector asociado a λ.
A∗ Ax = λx =⇒ AA∗ Ax = λAx
y llamando y = Ax tenemos que AA∗ y = λy, por lo que λ es un autovalor de

la matriz AA∗ asociado al autovector y = Ax. Ası́ pues, cualquier autovalor
de A∗ A lo es también de AA∗ .
Razonando de igual forma se obtiene que cualquier autovalor de AA∗ lo es
también de A∗ A, por lo que ambas matrices poseen los mismos autovalores.
• Como los valores singulares de la matriz A son las raı́ces cuadradas posi-
tivas de los autovalores de A∗ A y los de A∗ las raı́ces cuadradas positivas
de los autovalores de AA∗ (los mismos que los de A∗ A), las matrices A
y A∗ poseen los mismos valores singulares.
• Los valores singulares de U A son las raı́ces cuadradas positivas de los

autovalores de (U A)∗ (U A) = A∗ U ∗ U A = A∗ A que eran precisamente los
valores singulares de la matriz A.
• Los valores singulares de AU son (por el primer apartado) los mismos

que los de (AU )∗ = U ∗ A∗ es decir, las raı́ces cuadradas positivas de los
autovalores de (U ∗ A∗ )∗ (U ∗ A∗ ) = AU U ∗ A∗ = AA∗ cuyos autovalores son
los mismos que los de A∗ A, por lo que AU tiene también los mismos
valores singulares que la matriz A.
Proposición 2.5 La norma euclı́dea de una matriz unitaria vale siempre 1.
Demostración.
kU xk2 kxk2
kU k2 = máx = máx =1
x∈V −{0} kxk2 x∈V −{0} kxk2
Proposición 2.6 La norma euclı́dea es invariante mediante transformaciones

de semejanza unitarias.
Demostración. Sea A y B dos matrices unitariamente semejantes, es decir,

tales que
B = U ∗ AU con U
unitaria

B = U ∗ AU =⇒ kBk2 ≤ kU ∗ k2 kAk2 kU k2 = kAk2 
=⇒ kBk2 = kAk2
A = U BU ∗ =⇒ kAk2 ≤ kU k2 kBk2 kU ∗ k2 = kBk2

2.1.6 Radio espectral

Definición 2.5 [Radio espectral]
Se define el radio espectral de una matriz A, y se denota por ρ(A) como el

máximo de los módulos de los autovalores de la referida matriz.
ρ(A) = máx |λi |

i
Geométricamente representa el radio del cı́rculo mı́nimo que contiene a todos

los autovalores de la matriz.
Teorema 2.7 El radio espectral de una matriz es una cota inferior de todas
las normas multiplicativas de dicha matriz.
Demostración. Sean {λ1 , λ2 , . . . , λr } los autovalores de la matriz A y sean

{x1 , x2 , . . . , xr } autovectores asociados a dichos autovalores.
kAxi k = kλi xi k = |λi | kxi k.
Por otra parte sabemos que kAxi k ≤ kAk kxi k. Por tanto:
|λi | kxi k ≤ kAk kxi k siendo kxi k =
6 0 por tratarse de autovectores.
Se obtiene entonces que |λi | ≤ kAk para cualquiera que sea i = 1, 2, . . . , r, de
donde máx |λi | ≤ kAk, es decir: ρ(A) ≤ kAk.
i
Definición 2.6 [Matriz de diagonal dominante]
Una matriz cuadrada de orden n A = (aij )i = 1, 2, . . . , n se dice que es una matriz

j = 1, 2, . . . , n
de diagonal dominante o de Hadamard si
n
X
|aii | > |aik | i = 1, 2, . . . , n
k=1
k 6= i
 
3 1 1
Ejemplo 2.3 La matriz A =  0 2 1  es de diagonal dominante por
 
2 −1 5
verificar que
3>1+1 2>0+1 y 5 > 2 + | − 1| = 3

Teorema 2.8 Toda matriz de diagonal dominante es regular.
Demostración. Supongamos que A es de diagonal dominante y que su deter-

minante fuese nulo. En ese caso, el sistema Ax = 0 posee solución no trivial
(α1 , α2 , . . . , αn ) 6= (0, 0, . . . , 0).
Sea |αk | = máx |αi | > 0 y consideremos la k-ésima ecuación:
i
ak1 α1 + ak2 α2 + · · · + akk αk + · · · + akn αn = 0 =⇒

α1 α2 αn
ak1 + ak2 + · · · + akk + · · · + akn = 0 =⇒
αk αk αk
α1 αk − 1 αk + 1 αn
akk = −ak1 − · · · − ak k−1 − ak k+1 − · · · − akn =⇒
αk αk αk αk
n n
X αi X
|akk | ≤ |aki | ≤ |aki |
αk
i=1 i=1
i 6= k i 6= k
en contra de la hipótesis de que A es de diagonal dominante, por lo que toda

matriz de diagonal dominante es regular.
Definición 2.1 Matrices fundamentales de una matriz A
Se denominan matrices fundamentales de una matriz A, y se denotan por Ak , a

las submatrices constituidas por los elementos de A situados en las k primeras
filas y las k primeras columnas, es decir:
 
! a11 a12 a13
a11 a12
A1 = (a11 ) A2 = A3 =  a21 a22 a23  ···
 
a21 a22
a31 a32 a33
Teorema 2.9 Las matrices fundamentales Ak de una matriz A de diagonal

dominante, son también de diagonal dominante.
Demostración. La demostración es trivial, ya que si A es de diagonal domi-

nante se verifica que
n
X k
X
|aii | > |aij | ≥ |aij |
j =1 j =1
j 6= i j 6= i
luego Ak también lo es.

Definición 2.7 [Cı́rculos de Gerschgorin]
Sea A ∈ Kn×n . Se definen los cı́rculos de Gerschgorin como los conjuntos


C1 = {z : |z − a11 | ≤ r1 } 



C2 = {z : |z − a22 | ≤ r2 } 
 n
 X
.. con ri = |aij | para 1 ≤ i ≤ n
. 


 j =1

 j 6= i
Cn = {z : |z − ann | ≤ rn }

Teorema 2.10 [Teorema de Gerschgorin]
Sean C1 , C2 , . . . , Cn los cı́rculos de Gerschgorin de una matriz A. Si λ es un

n
[
autovalor de A, se verifica que λ ∈ Ci .
i=1
n
[
Demostración. Si λ 6∈ Ci es porque λ 6∈ Ci para ningún i = 1, 2, . . . , n,
i=1
por lo que
|λ − a11 | > r1
|λ − a22 | > r2
..
.
|λ − ann | > rn
y, por tanto, la matriz
 
λ − a11 −a12 ··· −a1n
−a21 λ − a22 ··· −a2n
 
 
λI − A =  .. .. .. .. 

 . . . .


−an1 −an2 · · · λ − ann
es una matriz de diagonal dominante, por lo que det(λI − A) 6= 0 y, por tanto,

λ no puede ser un autovalor de la matriz A en contra de la hipótesis.
Obsérvese que como det A = det AT se verifica que
det(λI − A) = det(λI − A)T = det(λI − AT )
es decir, A y AT tienen el mismo polinomio caracterı́stico y, por tanto, los

mismos autovalores.
Ello nos lleva a que los cı́rculos de Gerschgorin obtenidos por columnas de-
terminan también el dominio de existencia de los autovalores de la matriz A,
es más, la intersección de los cı́rculos obtenidos por filas y los obtenidos por
columnas contienen a todos los autovalores de la matriz A.
Teorema 2.11 Si un conjunto de k cı́rculos de Gerschgorin de una matriz A

constituyen un dominio conexo aislado de los otros cı́rculos, existen exacta-
mente k autovalores de la matriz A en dicho dominio.
 
0 2 3
Ejemplo 2.4 Dada la matriz A =  2 8 2 , sus cı́rculos de Gerschgorin
 
2 0 10
obtenidos por filas son
C1 = {z : |z − 0| ≤ 5}
C2 = {z : |z − 8| ≤ 4}
C3 = {z : |z − 10| ≤ 2}
Mientras que los obtenidos por columnas son
C1 = {z : |z − 0| ≤ 4}
C2 = {z : |z − 8| ≤ 2}
C3 = {z : |z − 10| ≤ 5}
Estos últimos nos dicen que la matriz tiene, al menos, un autovalor real (hay
un cı́rculo que sólo contiene a un autovalor y éste debe ser real ya que de
ser complejo el conjugado también serı́a autovalor de A y al tener el mismo
módulo se encontrarı́a en el mismo cı́rculo contra la hipótesis de que en dicho
cı́rculo sólo se encuentra un autovalor), es decir los cı́rculos obtenidos por filas
no nos dan información sobre el autovalor real, mientras que los obtenidos por
columnas nos dicen que existe un autovalor real en el intervalo (-4,4).
2.2 Sistemas de ecuaciones lineales

En el capı́tulo anterior se estudiaron métodos iterados para la resolución de
ecuaciones no lineales. Dichos métodos se basaban en el teorema del punto
fijo y consistı́an en expresar la ecuación en la forma x = ϕ(x) exigiendo que
ϕ0 (x) ≤ q < 1 para cualquier x del intervalo en el cual se trata de buscar la
solución.
Para los sistemas de ecuaciones lineales, de la forma Ax = b, trataremos de
buscar métodos iterados de una forma análoga a como se hizo en el caso de las
ecuaciones, es decir, transformando el sistema en otro equivalente de la forma
x = F (x) donde F (x) = M x + N . Evidentemente habrá que exigir algunas
condiciones a la matriz M para que el método sea convergente (al igual que se
exigı́a que ϕ0 (x) ≤ q < 1 en el caso de las ecuaciones) y estas condiciones se
basan en los conceptos de normas vectoriales y matriciales.
Dada una aplicación f : Rm → Rn y un vector b ∈ Rn , resolver el sistema
de ecuaciones f (x) = b no es más que buscar el conjunto de vectores de Rm
cuya imagen mediante f es el vector b, es decir, buscar la imagen inversa de b
mediante f .
Un sistema de ecuaciones se dice lineal en su componente k-ésima si verifica
que
f (x1 , . . . , xk−1 , αx1k + βx2k , xk+1 , . . . , xm ) = αf (x1 , . . . , xk−1 , x1k , xk+1 , . . . , xm )+
+ βf (x1 , . . . , xk−1 , x2k , xk+1 , . . . , xm )
Diremos que un sistema es lineal si lo es en todas sus componentes, pudiéndose,
en este caso, escribir de la forma Ax = b.
Transformación de un sistema complejo en otro real
Si la aplicación f se define de Cm en Cn resulta un sistema complejo que puede

ser transformado en otro sistema real.
Ası́, por ejemplo, si el sistema es lineal


m×n
 M ∈C

f : Cm → Cn ⇐⇒ M z = k con x ∈ Cn×1

k ∈ Cm×1

podemos descomponer la matriz M en suma de otras dos de la forma

M = A + iB con A, B ∈ Rm×n
Sistemas de ecuaciones lineales 13
y análogamente
z = x + iy con x, y ∈ Rn×1
k = k1 + ik2 con k1 , k2 ∈ Rm×1

por lo que (A + iB)(x + iy) = k1 + ik2 es decir
     
 Ax − By = k1 A −B x k1
=⇒    =  
 Bx + Ay = k B A y k2
2
sistema real de 2m ecuaciones con 2n incógnitas.
Es por ello, que centraremos nuestro estudio en los sistemas reales.
Clasificación de los SS.EE.LL
Podemos clasificar los sistemas de ecuaciones lineales atendiendo a
• Su tamaño
– Pequeños: n ≤ 300 donde n representa el número de ecuaciones.

– Grandes: n > 300
(Esta clasificación corresponde al error de redondeo)
• Su estructura
– Si la matriz posee pocos elementos nulos diremos que se trata de

un sistema lleno.
– Si, por el contrario, la matriz contiene muchos elementos nulos,
diremos que la matriz y, por tanto, que el sistema es disperso o
sparce. Matrices de este tipo son las denominadas
 
a11 a12 0 0
 a
 21 a22 a23 0 

∗ Tridiagonales:  
 0 a32 a33 a34 
0 0 a43 a44
 
a11 a12 a13 a14
 0 a22 a23 a24 
∗ Triangulares superiores: 
 

 0 0 a33 a34 
0 0 0 a44
 
a11 0 0 0
 a12 a22 0 0 
∗ Triangulares inferiores: 
 

 a31 a32 a33 0 
a41 a42 a43 a44
En cuanto a los métodos de resolución de sistemas de ecuaciones lineales,

podemos clasificarlos en
• Métodos directos
Aquellos que resuelven un sistema de ecuaciones lineales en un número

finito de pasos.
Se utilizan para resolver sistemas pequeños.
• Métodos iterados Aquellos que crean una sucesión de vectores que

convergen a la solución del sistema.
Se utilizan para la resolución de sistemas grandes, ya que al realizar un

gran número de operaciones los errores de redondeo pueden hacer ines-
table al proceso, es decir, pueden alterar considerablemente la solución
del sistema.
2.2.1 Número de condición

Definición 2.8 [Condicionamiento de un sistema]
Un sistema de ecuaciones lineales Ax = b se dice bien condicionado cuando

los errores cometidos en los elementos de la matriz A y del vector b producen
en la solución un error del mismo orden, mientras que diremos que el sistema
está mal condicionado si el error que producen en la solución del sistema es de
orden superior al de los datos. Es decir:

kA − Ak < ε  kx − xk ' ε sistema bien condicionado

=⇒
kb − bk < ε  kx − xk ε sistema mal condicionado

Consideremos el sistema cuadrado Ax = b con A regular, es decir, un sistema

compatible determinado. En la práctica, los elementos de A y de b no suelen
ser exactos bien por que procedan de cálculos anteriores, o bien porque sean
irracionales, racionales periódicos, etc. Es decir, debemos resolver un sistema
aproximado cuya solución puede diferir poco o mucho de la verdadera solución
del sistema.
Ası́, por ejemplo, en un sistema de orden dos, la solución representa el punto
de intersección de dos rectas en el plano. Un pequeño error en la pendiente de
una de ellas puede hacer que dicho punto de corte se desplace sólo un poco o
una distancia considerable (véase la Figura 2.1), lo que nos dice que el sistema
está bien o mal condicionado, respectivamente.
Podemos ver que el sistema está mal condicionado cuando las pendientes de las
dos rectas son muy similares y que mientras más ortogonales sean las rectas,
mejor condicionado estará el sistema.
r1 r10 r1 r10

%
s
%

%
@ %
@
%
@s s
@ %
%
@
s
%
@
@ r2
%
%
@@ %

r2 %
%

%
Sistema bien condicionado Sistema mal condicionado

Figura 2.1: Condicionamiento de un sistema.
Ejemplo 2.5 Si consideramos el sistema de orden 2


 3x + 4y = 7
! !
x 1
de solución =

3x + 4.00001y = 7.00001 y 1
y cometemos un pequeño error en los datos, podemos obtener el sistema


 3x + 4y = 7
! !
x 7.6̄
de solución =

3x + 3.99999y = 7.00004 y −4
o bien este otro


 3x + 4y = 7
! !
x 9.6̄
de solución =

3x + 3.99999y = 7.000055 y −5.5
lo que nos dice que estamos ante un sistema mal condicionado.

Si sustituimos la segunda ecuación por la que resulta de sumarle la primera
multiplicada por −1.0000016 (la ecuación resultante se multiplica por 106 y se
divide por −1.2) nos queda el sistema

 3x + 4y = 7
! !
x 1
de solución =

4x − 3y = 1 y 1
siendo éste un sistema bien condicionado.

Se puede observar entonces que si, en un sistema mal condicionado, sustituimos
una de las ecuaciones por una combinación lineal de las restantes, podemos
hacer que el sistema resultante esté bien condicionado o viceversa.
El estudio del condicionamiento de un sistema se realiza a través del denomi-

nado número de condición que estudiamos a continuación.
Definición 2.9 Sea A una matriz cuadrada y regular. Se define el número de

condición de la matriz A y se denota por κ(A) como
κ(A) = kAk · kA−1 k
donde la norma utilizada ha de ser una norma multiplicativa.
Este número nos permite conocer el condicionamiento del sistema Ax = b.

Dado que en la práctica el cálculo de la matriz inversa A−1 presenta grandes
dificultades lo que se hace es buscar una cota del número de condición.
κ(A) = kAk · kA−1 k < kAk · k
siendo k una cota de la norma de la matriz inversa.

kIk
Si kI − Ak < 1 entonces kA−1 k ≤ . En efecto:
1 − kI − Ak
A · A−1 = I =⇒ [I − (I − A)]A−1 = I =⇒
A−1 − (I − A)A−1 = I =⇒ A−1 = I + (I − A)A−1 =⇒
kA−1 k = kI + (I − A)A−1 k ≤ kIk + k(I − A)A−1 k ≤ kIk + kI − Ak kA−1 k ⇒
kA−1 k − kI − Ak kA−1 k ≤ kIk =⇒ (1 − kI − Ak)kA−1 k ≤ kIk =⇒
kIk
kA−1 k ≤
1 − kI − Ak
Es decir:
kIk
κ(A) ≤ kAk · k con k=
1 − kI − Ak
Debemos tener cuidado con esta acotación ya que si tenemos una matriz casi
regular, es decir, con det(A) ' 0, quiere decir que tiene un autovalor próximo
a cero, por lo que la matriz I − A tiene un autovalor próximo a 1 y será el
mayor de todos. En este caso kI − Ak ' 1, por lo que k → ∞ y darı́a lugar a
un falso condicionamiento, ya que A no tiene que estar, necesariamente, mal
condicionada.
Ejemplo 2.6 Para estudiar el condicionamiento del sistema


 3x + 4y = 7
3x + 4.00001y = 7.00001

Se tiene que
!
3 4
A= =⇒ det(A) = 0.00003
3 4.00001
!
1 4.00001 −4
A−1 =
0.00003 −3 3
n
X
Utilizando la norma infinito kAk∞ = máx |aij | se tiene que
i
j=1

kAk∞ = 7.00001 
 56
=⇒ κ∞ (A) ' · 105 > 1.8 · 106
8.00001  3
kA−1 k∞ = 
0.00003
Se trata pues, de un sistema mal condicionado.
n
X
Si utilizamos la norma-1 kAk1 = máx |aij | obtenemos:
j
i=1

kAk1 = 8.00001 
 56
=⇒ κ1 (A) ' · 105 > 1.8 · 106
7.00001  3
kA−1 k1 = 
0.00003
obteniéndose, también, que se trata de un sistema mal condicionado.
Propiedades del número de condición.
• κ(A) ≥ 1 cualquiera que sea la matriz cuadrada y regular A.

Demostración.
kxk = kIxk ≤ kIkkxk =⇒ kIk ≥ 1
cualquiera que sea la norma utilizada.
Como, por otra parte AA−1 = I se tiene que
1 ≤ kIk = kAA−1 k ≤ kAkkA−1 k = κ(A) =⇒ κ(A) ≥ 1.
• Si B = zA, con z ∈ C no nulo, se verifica que κ(B) = κ(A).

Demostración.
1 kA−1 k
κ(B) = kBk kB −1 k = kzAk k A−1 k = |z| kAk = kAk kA−1 k =
z |z|
= κ(A)
Dado que det(B) = z n det(A), donde n representa el orden de la matriz

A, y κ(B) = κ(A) se ve que el condicionamiento de una matriz no
depende del valor de su determinante.
σn
• Utilizando la norma euclı́dea, κ2 (A) = donde σ1 y σn representan,
σ1
respectivamente, al menor y al mayor de los valores singulares de la
matriz A.
Demostración. Sabemos que los valores singulares σi de la matriz A
son las raı́ces cuadradas positivas de los autovalores de la matriz A∗ A.
p
σi = λi (A∗ A)
Si suponemos σ1 ≤ σ2 ≤ · · · ≤ σn se tiene que

q
kAk2 = máx λi (A∗ A) = σn
i
q q
kA−1 k2 = máx λi (A−1 )∗ A−1 = máx λi (A∗ )−1 A−1 =

i i
r s
q
∗ −1 1 1
= máx λi (AA ) = máx = =
i i ∗
λi (AA ) mı́n λi (AA∗ )
i
s s
1 1 −1 1
= ∗ = 2 =⇒ kA k2 =
mı́n λi (A A) mı́n σi σ1
i i
Podemos concluir, por tanto, que


kAk2 = σn   σn
=⇒ κ2 (A) =
1  σ1
kA−1 k2 = 
σ1
En cuanto a su relación con los números de condición obtenidos con otras

normas de matriz se tiene que:
√ √
kAk2 ≤ kAkF ≤ nkAk2 =⇒ kA−1 k2 ≤ kA−1 kF ≤ nkA−1 k2
κ2 (A) = kAk2 kA−1 k2 ≤ kAkF kA−1 kF = κ(A)F

√ √
κF (A) = kAkF kA−1 kF ≤ n nkAk2 kA−1 k2 = nκ2 (A) =⇒
κ2 (A) ≤ κF (A) ≤ nκ2 (A)

 p
 kAk2 ≤ kAk1 kAk∞ p
Además: p ⇒ κ2 (A) ≤ κ1 (A)κ∞ (A)
 −1 −1 −1
kA k2 ≤ kA k1 kA k∞
• La condición necesaria y suficiente para que κ2 (A) = 1 es que A = zU

siendo z ∈ C (no nulo) y U una matriz unitaria (U U ∗ = U ∗ U = I).
Demostración.
⇐) A = zU =⇒ κ2 (A) = 1.
A = zU =⇒ A∗ A = zU ∗ zU = |z|2 U ∗ U = |z|2 I =⇒
λi (A∗ A) = |z|2 cualquiera que sea i = 1, 2, . . . , n y, por tanto,
σ1 = σ2 = · · · = σn = |z|
por lo que
σn
κ2 (A) = =1
σ1
⇒) κ2 (A) = 1 =⇒ A = zU .
Sabemos que si A es diagonalizable existe una matriz regular R

tal que R−1 AR = D con D = diag(λi ) (R es la matriz de paso
cuyas columnas son los autovectores asociados los autovalores λi ).
Por otra parte sabemos que toda matriz hermı́tica (A = A∗ ) es
diagonalizable mediante una matriz de paso unitaria.
Como A∗ A es hermı́tica existe una matriz unitaria R tal que
 
σ12
σ22
 
∗ ∗
 
R A AR =  
...


 
σn2
σn
κ2 (A) = = 1 =⇒ σ1 = σ2 = · · · = σn = σ, por lo que
σ1
R∗ A∗ AR = σ 2 I
Entonces
A∗ A = R(σ 2 I)R∗ = σ 2 (RIR∗ ) = σ 2 I
de donde
1 ∗ 1
A A =I
σ σ
1 1
Llamando U = A se tiene que U ∗ = A∗ , ya que σ ∈ R ⇒ σ = σ.
σ σ

1 ∗ 1
U ∗U = A A = I =⇒ U es unitaria
σ σ
y, por tanto,
A = σU con U unitaria
Los sistemas mejor condicionados son aquellos que tienen sus filas o columnas
ortogonales y mientras mayor sea la dependencia lineal existente entres ellas
peor es el condicionamiento del sistema.
Al ser κ(U A) = κ(A) trataremos de utilizar métodos de resolución de sistemas
de ecuaciones lineales que trabajen con transformaciones unitarias que no em-
peoren su condicionamiento como lo hace, por ejemplo, el método de Gauss
basado en la factorización LU y que también estudiaremos a continuación.
Métodos directos de resolución de sistemas lineales 21
2.3 Métodos directos de resolución de siste-

mas lineales
2.3.1 Factorización LU
Al aplicar el método de Gauss al sistema Ax = b realizamos transformaciones
elementales para conseguir triangularizar la matriz del sistema.
Si este proceso puede realizarse sin intercambios de filas, la matriz triangular

superior U obtenida viene determinada por el producto de un número finito
de transformaciones fila Fk Fk−1 · · · F1 aplicadas a la matriz A.
Llamando L−1 = Fk Fk−1 · · · F1 (ya que el determinante de una transformación

fila es ±1 y, por tanto, su producto es inversible) se tiene que L−1 A = U , o lo
que es lo mismo, A = LU .
Además, la matriz L es una triangular inferior con unos en la diagonal.

Esta factorización es única ya que de existir otra
A = L0 U 0 = LU =⇒ L−1 L0 = U U 0−1
Como L−1 también es triangular inferior con unos en la diagonal, el producto
L−1 L0 también es una matriz del mismo tipo.
Análogamente, el producto U U 0−1 resulta ser una triangular superior.
El hecho de que L−1 L0 = U U 0−1 nos dice que necesariamente L−1 L0 = I, ya que
es simultáneamente triangular inferior y superior y su diagonal es de unos.
Ası́ pues L−1 L0 = I, por lo que L = L0 y, por tanto U = U 0 es decir, la

factorización es única.
Debido a la unicidad de la factorización, ésta puede ser calculada por un

método directo, es decir, haciendo
  
1 0 0 ··· 0 u11 u12 u13 · · · u1n
 l21 1 0 · · · 0   0 u22 u23 · · · u2n 
  
  
A= l31 l32 1 · · · 0  0 0 u 33 · · · u 3n 
 .. .. .. . . ..   .. .. .. . . .. 
  
 . . . . .  . . . . . 
ln1 ln2 ln3 · · · 1 0 0 0 · · · unn
y calculando los valores de los n2 elementos que aparecen entre las dos matrices.
 
3 1 2
Ejemplo 2.7 Considérese la matriz A =  6 3 2 
 
−3 0 −8
    
3 1 2 1 0 0 u11 u12 u13
 6 3 2  =  l21 1 0   0 u22 u23  =
    
−3 0 −8 l31 l32 1 0 0 u33

 
u11 u12 u13
=  l21 u11 l21 u12 + u22 l21 u13 + u23 
 
l31 u11 l31 u12 + l32 u22 l31 u13 + l32 u23 + u33
por lo que de la primera fila obtenemos que
u11 = 3 u12 = 1 u13 = 2
de la segunda (teniendo en cuenta los valores ya obtenidos) se tiene que


3l21 = 6   l21 = 2
l21 + u22 = 3 =⇒ u22 = 1

2l21 + u23 = 2 u23 = −2

y de la tercera (teniendo también en cuenta los resultados ya obtenidos)


3l31 = −3   l31 = −1
l31 + l32 = 0 =⇒ l32 = 1

2l31 − 2l32 + u33 = −8 u33 = −4

    
3 1 2 1 0 0 3 1 2
es decir:  6 3 2 = 2 1 0  0 1 −2 
    
−3 0 −8 −1 1 1 0 0 −4
Teorema 2.12 Una matriz regular A admite factorización LU si, y sólo si,
sus matrices fundamentales Ai (i = 1, 2, . . . , n) son todas regulares.
Demostración. Supongamos que A admite factorización LU . En ese caso

! ! !
Ak Lk Uk
A= = =⇒
Ak = Lk Uk =⇒ det(Ak ) = det(Lk ) det(Uk ) = 1 · r11 r22 · · · rkk 6= 0

ya que, por sea A regular, todos los pivotes rii i = 1, 2, . . . , n son no nulos.
Recı́procamente, si todas las matrices fundamentales son regulares, A admite
factorización LU , o lo que es equivalente, se puede aplicar Gauss sin intercam-
bio de filas. En efecto:
Dado que, por hipótesis es a11 6= 0, se puede utilizar dicho elemento como
pivote para anular al resto de los elementos de su columna quedándonos la
matriz  (2) (2) 
(2)
a11 a12 · · · a1n
 0 a(2) (2) 
· · · a2n 

(2) 22
A = .  .. . . .. 
 . . . . . 

(2) (2)
0 an2 · · · ann
(2)
donde a1i = a1i para i = 1, 2, . . . , n.
a21
Si nos fijamos ahora en a222 = a22 − a12 podemos ver que es no nulo, ya que
a11
de ser nulo serı́a
a11 a22 − a12 a21 = det(A2 ) = 0
en contra de la hipótesis de que todas las matrices fundamentales son regulares.
(2)
Por tanto, podemos utilizar a22 6= 0 como nuevo pivote para anular a los
elementos de su columna situados bajo él.
Reiterando el procedimiento se puede ver que todos los elementos que vamos
obteniendo en la diagonal son no nulos y, por tanto, válidos como pivotes. Es
decir, puede realizarse la factorización LU .
Comprobar si una matriz admite factorización LU estudiando si todas sus

matrices fundamentales son regulares es un método demasiado costoso debido
al número de determinantes que hay que calcular.
Corolario 2.13 Toda matriz de diagonal dominante admite factorización LU .
Demostración. Es consecuencia directa de los Teoremas 2.8, 2.9 y 2.12.
Corolario 2.14 Toda matriz hermı́tica y definida positiva

hérmı́tica ⇐⇒ A = A∗
(
x∗ Ax ≥ 0 ∀ x
definida positiva ⇐⇒
x∗ Ax = 0 ⇐⇒ x = 0
admite factorización LU .
Demostración. Las matrices fundamentales de éstas tienen todas determi-

nante positivo, por lo que el Teorema 2.12 garantiza la existencia de las ma-
trices L y U .
Una vez realizada la factorización LU , el sistema Ax = b puede escribirse de la

forma LU x = b y llamando U x = y transformamos el problema de resolver el
sistema cuadrado Ax = b en la resolución de los sistemas triangulares Ly = b
y U x = y. 
 Ly = b
Ax = b ⇐⇒
Ux = y

Ejemplo 2.8 Consideremos el sistema Ax = b con

   
3 1 2 0
A= 6 3 2  b= 1 
   
−3 0 −8 5
En el Ejemplo 2.7 realizamos la factorización LU de la matriz A.

     

1 0 0 y1 0 0
Ly = b ⇐⇒  2 1 0   y2  =  1  =⇒ y =  1 
      
−1 1 1 y3 5 4
      
3 1 2 x1 0 1
U x = y ⇐⇒  0 1 −2   x2  =  1  =⇒ x =  −1 
      
0 0 −4 x3 4 −1
2.3.2 Factorización de Cholesky

Es conocido que toda matriz hermı́tica y definida positiva tiene sus autovalores
reales y positivos y, además, en la factorización LU todos los pivotes son reales
y positivos.
Teorema 2.15 [Factorización de Cholesky]
Toda matriz A hermı́tica y definida positiva puede ser descompuesta de la

forma A = R∗ R siendo R una matriz triangular superior.
Demostración. Por tratarse de una matriz hermı́tica y definida positiva,

sabemos que admite factorización LU . Sea
  
1 0 ··· 0 u11 u12 · · · u1n
 l21 1 · · · 0   0 u22 · · · u2n 
  
A=  .. .. . . .. 
  ..
 .. .. . =
 . . . .  . . . .. 
ln1 ln2 · · · 1 0 0 ··· unn
   
1 0 ··· 0 u11 0 · · · 0 1 u12/u11 · · · u1n/u11
 l21 1 · · · 0   0 u22 · · · 0  0 1 · · · u2n/u22 
   
=
 .. .. . . ..   . .. . . .. . .. .. ..  =
  ..
. . . . .
 . . . . . . . 

ln1 ln2 · · · 1 0 0 · · · unn 0 0 ··· 1
 
u11 0 ··· 0
 0 u22 ··· 0
 

= L
 .. .. ... .. V =
 . . .


0 0 ··· unn
 √  √ 
u11 0 ··· 0 u11 0 ··· 0
√ √
 0 u22 ··· 0  0 u22 ··· 0
  

= L . .. ..  . .. .. V ⇒
 . ...  . ...
 . . .  . . .

√ √

0 0 ··· unn 0 0 ··· unn
A = BR
 √ 
u11 0 0 ··· 0
√
 0 u22 0 ··· 0 
 
 √ 
 0
B = L 0 u33 · · · 0   es triangular inferior.
 .. .. .. .. .. 
 . . . . . 
√
0 0 0 ··· unn
 √ 
u11 0 0 ··· 0
√
 0 u22 0 ··· 0 
 
 √ 
R=  0 0 u33 · · · 0   V es triangular superior.
 .. .. .. ... .. 
 . . . . 
√
0 0 0 ··· unn
Como A es hermı́tica, BR = A = A∗ = R∗ B ∗ , por lo que (R∗ )−1 B = B ∗ R−1 , y
dado que (R∗ )−1 B es triangular inferior y B ∗ R−1 es triangular superior, ambas
han de ser diagonales.
Por otra parte,
B ∗ R−1 = (LD)∗ (DV )−1 = D∗ L∗ V −1 D−1 = DL∗ V −1 D−1 = L∗ V −1
ya que las matrices diagonales conmutan.

Dado que la matriz L∗ V −1 tiene unos en la diagonal y es igual a B ∗ R−1 que
es diagonal, debe ser B ∗ R−1 = I, por lo que B ∗ = R o, lo que es lo mismo,
B = R∗ , es decir A = R∗ R con R = DV .
Hemos visto que toda matriz hermı́tica y definida positiva admite factorización
de Cholesky, pero podemos llegar más lejos y enunciar el siguiente teorema.
Teorema 2.16 Una matriz hermı́tica y regular A es definida positiva si, y

sólo si, admite factorización de Cholesky.
Demostración. Si es hermı́tica y definida positiva admite factorización LU

con todos los elementos diagonales de U (pivotes) positivos, por lo que admite
factorización de Cholesky.
Recı́procamente, si A admite factorización de Cholesky es A = R∗ R por lo que
A∗ = (R∗ R)∗ = R∗ R = A =⇒ A es hermı́tica
Para cualquier vector x no nulo es
x∗ Ax = x∗ R∗ Rx = (Rx)∗ (Rx) = kRxk2 ≥ 0
siendo cero sólo si Rx = 0 pero al ser R regular (si no lo fuese tampoco lo

serı́a A en contra de la hipótesis) Rx = 0 =⇒ x = 0 en contra de la hipótesis
de que x no es el vector nulo.
Se tiene pues que x∗ Ax > 0 para cualquier vector x no nulo, es decir, A es
definida positiva.
La unicidad de las matrices L y U implica la unicidad de la matriz R y, por

tanto, ésta puede ser calculada por un método directo.
Ejemplo 2.9 Consideremos el sistema

    
4 2i 4 + 2i x1 0
 −2i 2 2 − 2i   x2  =  0 
    
4 − 2i 2 + 2i 10 x3 −4
Métodos iterados de resolución de sistemas lineales 27
Realicemos la factorización R∗ R directamente, es decir

    
4 2i 4 + 2i r11 0 0 r11 r12 r13
 −2i 2 2 − 2i  =  r12 r22 0   0 r22 r23 
    
4 − 2i 2 + 2i 10 r13 r23 r33 0 0 r33
2
Se obtiene multiplicando, que r11 = 4 =⇒ r11 = 2.

 2r12 = 2i =⇒ r12 = i
Utilizando este resultado tenemos que
2r13 = 4 + 2i =⇒ r13 = 2 + i

2 2 2
r12 + r22 = 2 =⇒ r22 = 1 =⇒ r22 = 1.
r12 r13 + r22 r23 = 2 − 2i =⇒ 1 − 2i + r23 = 2 − 2i =⇒ r23 = 1.

2 2 2 2 2
r13 + r23 + r33 = 10 =⇒ 5 + 1 + r33 = 10 =⇒ r33 = 4 =⇒ r33 = 2.
Ası́ pues, el sistema nos queda de la forma

     
2 0 0 2 i 2+i x1 0
 −i 1 0  0 1 1   x2  =  0 
     
2−i 1 2 0 0 2 x3 −4
      
2 0 0 y1 0 0
∗
R y = b ⇐⇒  −i 1 0   y2  =  0  =⇒ y =  0 
      
2−i 1 2 y3 −4 −2
      
2 i 2+i x1 0 1
Rx = y ⇐⇒  0 1 1   x2  =  0  =⇒ x =  1 
      
0 0 2 x3 −2 −1

2.4 Métodos iterados de resolución de siste-

mas lineales
Un método iterado de resolución del sistema Ax = b es aquel que genera, a
partir de un vector inicial x0 , una sucesión de vectores (xn ) con xn+1 = f (xn ).
Definición 2.10 [Consistencia]
Un método iterado se dirá que es consistente con el sistema Ax = b, si el lı́mite

de dicha sucesión, en caso de existir, es solución del sistema.
Definición 2.11 [Convergencia]
Un método iterado para la resolución del sistema Ax = b se dirá que es con-

vergente si la sucesión generada por cualquier vector inicial x0 es convergente
a la solución del sistema.
Es evidente que si un método es convergente es consistente, sin embargo, el

recı́proco no es cierto como prueba el siguiente ejemplo.
Ejemplo 2.10 El método xn+1 = 2xn − A−1 b es consistente con al sistema

Ax = b pero no es convergente. En efecto:
xn+1 − x = 2xn − A−1 b − x = 2xn − 2x − A−1 b + x = 2(xn − x) − (A−1 b − x)
y como A−1 b = x, se tiene que
xn+1 − x = 2(xn − x)
Si existe lim xn = x∗ tendremos que

n→∞
x∗ − x = 2(x∗ − x) =⇒ x∗ − x = 0 =⇒ x∗ = x
es decir, el lı́mite es solución del sistema Ax = b, por lo que el método es

consistente.
Sin embargo, de xn+1 − x = 2(xn − x) obtenemos que
kxn+1 − xk = 2kxn − xk
es decir, el vector xn+1 dista de x el doble de lo que distaba xn , por lo que el

método no puede ser convergente.
Los métodos iterados que trataremos son de la forma
xn+1 = Kxn + c
en los que K será la que denominemos matriz del método y que dependerá de
A y de b y en el que c es un vector que vendrá dado en función de A, K y b.
Teorema 2.17 Un método iterado, de la forma xn+1 = Kxn +c, es consistente

con el sistema Ax = b si, y sólo si, c = (I − K)A−1 b y la matriz I − K es
invertible
Demostración.
• Supongamos que el método es consistente con el sistema Ax = b.

Como x = Kx + (I − K)x = Kx + (I − K)A−1 b, se tiene que
xn+1 − x = K(xn − x) + c − (I − K)A−1 b (2.1)
Por ser consistente el método, de existir x∗ = lim xn ha de ser x∗ = x.

n→∞
Pasando al lı́mite en la Ecuación (2.1) obtenemos que
x∗ − x = K(x∗ − x) + c − (I − K)A−1 b
por lo que
(I − K)(x∗ − x) = c − (I − K)A−1 b (2.2)
y dado que x∗ = x nos queda que 0 = c − (I − K)A−1 b, es decir,
c = (I − K)A−1 b.
Además, dado que x = Kx + c, el sistema (I − K)x = c posee solución

única x y, por tanto, la matriz I − K es invertible.
• Si c = (I − K)A−1 b y la matriz I − K es invertible, cuando exista

lim xn = x∗ se tendrá de (2.2) que
n→∞
(I − K)(x∗ − x) = 0
Como I − K es invertible, x∗ = x, y el método es consistente.
Teorema 2.18 Un método iterado de la forma xn+1 = Kxn + c consistente

con el sistema Ax = b es convergente si, y sólo si, lim K n = 0.
n→∞
Demostración. Por tratarse de un método consistente con el sistema Ax = b,

se verifica que c = (I − K)A−1 b, por lo que
xn+1 = Kxn + (I − K)A−1 b

restando el vector solución x a ambos miembros, podemos escribir
xn+1 −x = Kxn −(K +I −K)x+(I −K)A−1 b = K(xn −x)+(I −K)(A−1 b−x)
y dado que A−1 b − x = 0 obtenemos que xn+1 − x = K(xn − x).

Reiterando el proceso se obtiene:
xn − x = K(xn−1 − x) = K 2 (xn−2 − x) = · · · = K n (x0 − x)
lim (xn − x) = ( lim K n )(x0 − x) (2.3)

n→∞ n→∞
• Si el método es convergente, lim (xn − x) = x − x = 0, por lo que de la

n→∞
ecuación (2.3) obtenemos que
lim K n = 0
n→∞
• Si lim K n = 0, obtenemos de la ecuación (2.3) que

n→∞
lim (xn − x) = 0 ⇐⇒ lim xn = x

n→∞ n→∞
por lo que el método es convergente.
Teorema 2.19 [Teorema del punto fijo]
Si para alguna norma matricial es kKk < 1, la sucesión (xn ) definida por
xn+1 = Kxn +c, donde x0 ∈ Rn es un vector cualquiera, converge a la solución
de la ecuación x = Kx + c que existe y es única.
Demostración.
• Existencia y unicidad
Veamos, en primer lugar, que la ecuación x = Kx + c posee solución

única.
En efecto: x = Kx + c =⇒ (I − K)x = c. Este sistema tiene solución
única si, y sólo si, el sistema homogéneo asociado (I − K)z = 0 admite
sólo la solución trivial z = 0, es decir, si I − K es invertible.
La solución z no puede ser distinta del vector nulo ya que de serlo, como
kKk < 1 se tiene que al ser (I − K)z = 0, o lo que es lo mismo, z = Kz
kzk = kKzk ≤ kKkkzk < kzk

lo cual es un absurdo, por lo que el sistema homogéneo sólo admite la

solución trivial y, por tanto, el sistema completo x = Kx + c posee
solución única.
• Convergencia
Probaremos ahora que la sucesión (xn ) converge a x.

Dado que xn+1 − x = (Kxn + c) − (Kx + c) = K(xn − x), podemos
reiterar el proceso para obtener que xn − x = K n (x0 − x) por lo que
kxn − xk ≤ kK n kkx0 − xk ≤ kKkn kx0 − xk
y dado que kKk < 1, pasando al lı́mite se obtiene
lim kxn − xk = 0 =⇒ lim xn = x
n→∞ n→∞
Teorema 2.20 [Condición necesaria y suficiente de convergencia]
La sucesión (xn ) definida por xn+1 = Kxn + c, donde x0 ∈ Rn es un vector

cualquiera, es convergente si, y sólo si, la matriz K tiene radio espectral menor
que 1.
xn+1 = Kxn + c con x0 ∈ Rn convergente ⇐⇒ ρ(K) < 1
Demostración.
• Condición suficiente
Si λ1 , . . . , λm son los autovalores de la matriz K, los de la matriz K n son

λn1 , . . . , λnm .
ρ(K) < 1 =⇒ |λi | < 1 (i = 1, . . . , m) =⇒ λi , λ2i , . . . , λni , . . . → 0
por lo que los autovalores de la matriz lı́mite lim K n son todos nulos,
n→∞
es decir, lim K n = 0 por lo que
n→∞
ρ(K) < 1 =⇒ el proceso es convergente.
• Condición necesaria
El teorema del punto fijo establece como condición necesaria para la

convergencia que kKk < 1 y dado que ρ(K) es una cota inferior de
cualquier norma multiplicativa, es ρ(K) ≤ kKk < 1, por lo que
El proceso es convergente =⇒ ρ(K) < 1.
Métodos de descomposición
Los métodos que vamos a estudiar consisten en descomponer la matriz inver-

tible A del sistema Ax = b de la forma A = M − N de manera que la matriz
M sea fácilmente invertible, por lo que reciben el nombre genérico de métodos
de descomposición.
El sistema queda entonces de la forma
(M − N )x = b =⇒ M x = N x + b =⇒ x = M −1 N x + M −1 b
es decir, expresamos el sistema de la forma


 K = M −1 N
Ax = b ⇐⇒ x = Kx + c con
 c = M −1 b
Dado que
(I −K)A−1 b = (I −M −1 N )(M −N )−1 b = M −1 (M −N )(M −N )−1 b = M −1 b = c
y la matriz (I − K) = (I − M −1 N ) = M −1 (M − N ) = M −1 A es invertible,
estamos en las condiciones del Teorema 2.17 por lo que xn+1 = Kxn + c es
consistente con el sistema Ax = b.
Es decir, si el proceso converge, lo hace a la solución del sistema.
Sabemos también, por el Teorema 2.19, que el proceso será convergente si se

verifica que kKk = kM −1 N k < 1 para alguna norma.
Para el estudio de los métodos que trataremos a continuación, vamos a des-

componer la matriz A de la forma A = D − E − F siendo
   
a11 0 0 ··· 0 0 0 0 ··· 0
0 a22 0 ··· 0 a21 0 0 ··· 0
   
   
   
D= 0 0 a33 ··· 0  −E = a31 a32 0 ··· 0 
.. .. .. .. .. .. .. ..
   
.. ..
. .
   
 . . . .   . . . . 
0 0 0 · · · ann an1 an2 an3 ··· 0
 
0 a12 a13 · · · a1n
0 0 a23 · · · a2n 
 

 
−F =  0 0 0 · · · a3n 
.. .. .. .. 
 
..
. . 

 . . .
0 0 0 ··· 0
2.4.1 Método de Jacobi

Consiste en realizar la descomposición
A = M − N = D − (E + F )
El sistema queda de la forma
Ax = b =⇒ Dx = (E + F )x + b =⇒ x = D−1 (E + F )x + D−1 b
(
J = D−1 (E + F )
Método de Jacobi xn+1 = Jxn + c con
c = D−1 E
La matriz J recibe el nombre de matriz de Jacobi.
Teorema 2.21 Si A es una matriz de diagonal dominante, el método de Ja-

cobi es convergente.
Demostración. La matriz J = D−1 (E + F ) tiene todos los elementos diago-

nales nulos y las sumas de los módulos de los elementos de sus filas son todas
menores que 1 ya que
n n
X X |aik |
|aii | > |aik | i = 1, 2, . . . , n =⇒ <1
|aii |
k=1 k=1
k 6= i k 6= i
por lo que los cı́rculos de Gerschgorin están todos centrados en el origen y

tienen radios menores que 1 es decir, todos los autovalores de J son menores
que 1, por lo que ρ(J) < 1 y el método converge.
2.4.2 Método de Gauss-Seidel

Este método es el resultado de realizar la descomposición
A = M − N = (D − E) − F
El sistema nos queda
Ax = b =⇒ (D − E)x = F x + b =⇒ x = (D − E)−1 F x + (D − E)−1 b

(
L1 = (D − E)−1 F
Método de Gauss-Seidel xn+1 = L1 xn + c con
c = (D − E)−1 b
La matriz L1 recibe el nombre de matriz de Gauss-Seidel.
Teorema 2.22 Si A es una matriz de diagonal dominante, el método de

Gauss-Seidel es convergente.
Teorema 2.23 Si A es una matriz simétrica y definida positiva, el método de

Gauss-Seidel es convergente.
2.4.3 Métodos de relajación (SOR)
Estos métodos realizan la descomposición

1 1−ω 1 1−ω
A= D− D − E − F = (D − ωE) − D+F =M −N
ω ω ω ω
El sistema se transforma entonces en

1 1−ω
(D − ωE)x = D + F x + b =⇒
ω ω

(D − ωE)x = (1 − ω)D + ωF x + ωb =⇒

x = (D − ωE)−1 (1 − ω)D + ωF x + ω(D − ωE)−1 b
Métodos de relajación xn+1 = Lω xn + c con

(
Lω = (D − ωE)−1 (1 − ω)D + ωF
c = ω(D − ωE)−1 b
La matriz Lω recibe el nombre de matriz de relajación.

Métodos del descenso más rápido y del gradiente conjugado 35
• Si ω = 1 la matriz se reduce a L1 = (D − E)−1 F , es decir, se trata del

método de Gauss Seidel.
• Si ω > 1 se dice que se trata de un método de sobre-relajación
• Si ω < 1 se dice que se trata de un método de sub-relajación
Teorema 2.24 Una condición necesaria para que converja el método de rela-
jación es que ω ∈ (0, 2).
Teorema 2.25 Si A es de diagonal dominante, el método de relajación es

convergente cualquiera que sea ω ∈ (0, 1].
Teorema 2.26 Si A es simétrica y definida positiva, el método de relajación

converge si, y sólo si, ω ∈ (0, 2)
2.5 Métodos del descenso más rápido y del

gradiente conjugado
Los métodos que vamos a tratar a continuación son válidos para sistemas
Ax = b cuya matriz A es simétrica y definida positiva, es decir, para matrices
tales que AT = A (simétrica) y xT Ax > 0 cualquiera que sea el vector x 6= 0
(definida positiva).
Lema 2.27 Si A es simétrica y definida positiva, el problema de resolver el

sistema Ax = b es equivalente al de minimizar la forma cuadrática
q(x) = h x, Ax i − 2h x, b i
donde h x, y i = xT y representa el producto escalar de los vectores x e y.
Demostración. Fijemos una dirección v (rayo unidimensional) y vamos a ver

cómo se comporta la forma cuadrática q para vectores de la forma x+tv donde
t es un escalar.
Teniendo en cuenta que A es simétrica
q(x + tv) = h x + tv, A(x + tv) i − 2h x + tv, b i

= h x, Ax i + 2th x, Av i + t2 h v, Av i − 2h x, b i − 2th v, b i
= q(x) + 2th v, Ax i − 2th v, b i + t2 h v, Av i
q(x + tv) = q(x) + 2th v, Ax − b i + t2 h v, Av i (2.4)
La ecuación (2.4) (ecuación de segundo grado en t con el coeficiente de t2

positivo, tiene un mı́nimo que se calcula igualando a cero la derivada
d
q(x + tv) = 2h v, Ax − b i + 2th v, Av i
dt
es decir, en el punto
t̂ = h v, b − Ax i/h v, Av i.
El valor mı́nimo que toma la forma cuadrática sobre dicho rayo unidimensional
viene dado por
q(x + t̂v) = q(x) + t̂ [2h v, Ax − b i + t̂h v, Av i]

= q(x) + t̂ [2h v, Ax − b i + h v, b − Ax i]
= q(x) − t̂h v, b − Ax i
= q(x) − h v, b − Ax i2 /h v, Av i
Esto nos indica que al pasar de x a x + t̂v siempre hay una reducción en el
valor de q excepto si v ⊥ (b − Ax), es decir, si h v, b − Ax i = 0. Ası́ pues, si
x no es una solución del sistema Ax = b existen muchos vectores v tales que
h v, b − Ax i =
6 0 y, por tanto, x no minimiza a la forma cuadrática q. Por el
contrario, si Ax = b, no existe ningún rayo que emane de x sobre el que q tome
un valor menor que q(x), es decir, x minimiza el valor de q.
El lema anterior nos sugiere un método para resolver el sistema Ax = b pro-

cediendo a minimizar la forma cuadrática q a través de una sucesión de rayos.
En el paso k del algoritmo se dispondrá de los vectores
x(0) , x(1) , x(2) , . . . , x(k) .
Estos vectores nos permitirán buscar una dirección apropiada v (k) y el siguiente
punto de la sucesión vendrá dado por
x(k+1) = x(k) + tk v (k) ,

Métodos del descenso más rápido y del gradiente conjugado 37
donde
h v (k) , b − Ax(k) i
tk =
h v (k) , Av (k) i
Gráficamente, si kv (k) k = 1, tk mide la distancia que nos movemos de x(k) para
obtener x(k+1)
tk v (k) v (k)
- -
3

x(k)

x(k+1)

2.5.1 Método del descenso más rápido

Si tomamos v (k) como el gradiente negativo de q en x(k) , es decir, como la
dirección del residuo r(k) = b − Ax(k) obtenemos el denominado método del
descenso más rápido.
Teniendo en cuenta que los diferentes vectores x(i) no es necesario conservarlos,
los podemos sobreescribir obteniéndose el siguiente algoritmo que teniendo
como entrada los valores de x, A, b y n tiene como salida la solución x:
Algoritmo del Descenso más rápido
for k = 1:n
v = b-A*x;
t = (v0 *v)/(v0 Av);
x = x+t*v;
end
x
Obsérvese que a medida que crece el valor de k, el residuo v = b − Ax va dis-

minuyendo, por lo que al encontrarnos en las proximidades de la solución, el
cálculo de t se convierte prácticamente en una división de 00 lo que puede alte-
rar considerablemente el valor exacto que deberı́a tomar t y que generalmente
nos lleva a que el método diverge.
Este método resulta, en general, muy lento si las curvas de nivel de la forma
cuadrática están muy próximas, por lo que no suele utilizarse en la forma
descrita. Sin embargo, utilizando condiciones de ortogonalidad en las denomi-
nadas direcciones conjugadas, puede ser modificado de forma que se convierta
en un método de convergencia rápida que es conocido como método del gra-
diente conjugado.
2.5.2 Método del gradiente conjugado

Por no profundizar en el concepto de direcciones conjugadas y en cómo se
determinan, nos limitaremos a dar el algoritmo correspondiente al método que
tiene por entrada los valores de x, A, b, n,ε y δ y como salida la solución x.
Es necesario tener en cuenta las mismas precauciones que en el algoritmo del
descenso más rápido, es decir, debido a los errores de cálculo puede resultar
un algoritmo divergente.
Algoritmo del Gradiente conjugado
r = b-A*x;
v = r;
c = r0 *r;
for k = 1:n
if sqrt(v0 *v)< δ then stop
z = A*v;
t = c/(v0 *z);
x = x+t*v;
r = r-t*z;
d = r0 *r;
if d<ε then stop
v = r+(d/c)*v;
c = d;
end
x
Bibliografı́a
[1] Burden, R.L. y Faires, J.D. Análisis Numérico (Sexta edición). Interna-
cional Thomson Ed. 1998.
[2] Golub, G.H. y Van Loan, C.F. Matrix Computations (Third edition). Johns
Hopkins University Press
[3] Hager, W. Applied Numerical Linear Algebra. Ed. Prentice-Hall Interna-

tional. 1988.
[4] Kincaid, D. y Cheney, W. Análisis Numérico. Ed. Addison-Wesley Ibe-

roamericana. 1994.
[5] Noble, D. y Daniel, J.W. Álgebra Lineal Aplicada. Ed. Prentice-Hall. 1989.
[6] Watkins, D.S. Fundamentals of MATRIX Computations. John Wiley &

Sons. 1991.
39

An Capitulo2

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

An Capitulo2

Cargado por

Copyright:

Formatos disponibles

2.

Sistemas de ecuaciones linea-

2.1 Normas vectoriales y matriciales

Sea E un espacio vectorial definido sobre un cuerpo K. Se define una norma

• kxk ≥ 0 ∀x ∈ E siendo kxk = 0 ⇐⇒ x = 0. Definida positiva.

• kλ xk = |λ|kxk ∀λ ∈ K, ∀x ∈ E. Propiedad de homogeneidad.

• kx + yk ≤ kxk + kyk ∀x, y ∈ E. Desigualdad triangular.

Es frecuente que en el espacio E se haya definido también el producto de dos

se dice que la norma es multiplicativa.

Un espacio E en el que hemos definido una norma recibe el nombre de espacio

2.1.1 Normas vectoriales

Sea E un espacio vectorial de dimensión n y sea B = {u1 , u2 , . . . , un } una base

donde los escalares (x1 , x2 , . . . , xn ) se conocen como coordenadas del vector x

• Norma infinito kxk∞ = máx |xi |

Ejemplo 2.1 Para los vectores

x = (2, 3, 0, −12)T y = (1 + i, i)T

2.1.2 Distancia inducida por una norma

Definición 2.2 [Distancia]

Dado un espacio vectorial E, se define una distancia como una aplicación

• d(x, y) ≥ 0 ∀x, y ∈ E siendo d(x, y) = 0 ⇐⇒ x = y.

• d(x, y) = d(y, x) ∀x, y ∈ E.

• d(x, y) ≤ d(x, z) + d(z, y) ∀x, y, z ∈ E.

Teorema 2.1 [Distancia inducida por una norma]

Demostración. Veamos que, en efecto, se trata de una distancia:

• d(x, y) ≥ 0 por tratarse de una norma, y además:

• d(x, y) = kx − yk = k − 1(y − x)k = | − 1| · ky − xk = ky − xk = d(y, x).

= d(x, z) + d(z, y).

2.1.3 Convergencia en espacios normados

Una sucesión de vectores v1 , v2 , . . . de un espacio vectorial normado (V, k k) se

Teorema 2.2 Para un espacio vectorial normado de dimensión finita, el con-

2.1.4 Normas matriciales

Definición 2.3 [Norma de una matriz]

• Norma-1 kAk1 = máx{kAxk1 : kxk1 = 1}.

Por último, si descargamos todo el peso sobre una coordenada, es decir,

Descargando ahora el peso en los autovectores de la matriz A∗ A obtene-

donde σi representa a los valores singulares de la matriz A, es decir, las

kAk∞ = máx{ nj=1 |aij xj | : kxk∞ = 1}.

Norma euclı́dea kAk2 = máx σi .

Si consideramos la matriz como un vector de m × n coordenadas, podemos

2.1.5 Transformaciones unitarias

La matriz U ∈ Cn×n de una transformación se dice unitaria si

Proposición 2.3 La norma de Frobenius y la norma euclı́dea de vector son

• Para la norma matricial de Frobenius:

• Para la norma euclı́dea de vector.

Proposición 2.4 Las matrices A, A∗ , AU y U A, donde U es una matriz

Demostración. Veamos, en primer lugar que las matrices A∗ A y AA∗ poseen

y llamando y = Ax tenemos que AA∗ y = λy, por lo que λ es un autovalor de

• Los valores singulares de U A son las raı́ces cuadradas positivas de los

• Los valores singulares de AU son (por el primer apartado) los mismos

Proposición 2.5 La norma euclı́dea de una matriz unitaria vale siempre 1.

Proposición 2.6 La norma euclı́dea es invariante mediante transformaciones

Demostración. Sea A y B dos matrices unitariamente semejantes, es decir,

2.1.6 Radio espectral

Se define el radio espectral de una matriz A, y se denota por ρ(A) como el

ρ(A) = máx |λi |

Geométricamente representa el radio del cı́rculo mı́nimo que contiene a todos

Demostración. Sean {λ1 , λ2 , . . . , λr } los autovalores de la matriz A y sean

kAxi k = kλi xi k = |λi | kxi k.

Definición 2.6 [Matriz de diagonal dominante]

Una matriz cuadrada de orden n A = (aij )i = 1, 2, . . . , n se dice que es una matriz

3>1+1 2>0+1 y 5 > 2 + | − 1| = 3

Teorema 2.8 Toda matriz de diagonal dominante es regular.

Demostración. Supongamos que A es de diagonal dominante y que su deter-