Está en la página 1de 237

Tópicos

en Álgebra Lineal

Miguel A. Marmolejo L. Manuel M. Villegas L.

Departamento de Matemáticas
Universidad del Valle
Índice general
Introducción 1

Índice de guras iii

Capítulo 1. Prerrequisitos 1
1.1. Matrices 1
1.2. Espacios vectoriales 7
1.3. Transformaciones lineales 16
1.4. Espacios fundamentales de una Matriz. Rango de una matriz.
Sistemas de ecuaciones lineales 20

Capítulo 2. Matrices particionadas. Traza de una matriz 25


2.1. Submatrices. Operaciones con matrices
particionadas 25
2.2. Determinantes e inversas de algunas matrices especiales 29
2.3. Traza de una matriz 37
2.4. Ejercicios 39

Capítulo 3. Valores propios y vectores propios. Diagonalización 43


3.1. Valores propios y vectores propios 44
3.2. Diagonalización 53
3.3. Diagonalización de matrices simétricas 64
3.4. Diagonalización simultánea de matrices simétricas 82
3.5. Ejercicios 90

Capítulo 4. Formas cuadráticas 97


4.1. Clasicación de las formas cuadráticas. 97
4.2. Cambio de variables. Diagonalización simultánea de formas
cuadráticas 101
4.3. Formas cuadráticas positivas, negativas e indenidas. 110
4.4. Ejercicios 118
Índice general

Capítulo 5. Anexo 1: Matrices no negativas. Matrices idempotentes 123


5.1. Matrices no negativas 123
5.2. Matrices idempotentes 129

Capítulo 6. Inversa generalizada e inversa condicional de matrices. 137


6.1. Inversa generalizada de una matriz 137
6.2. Cálculo de la g-inversa de una matriz 147
6.3. Inversa condicional de una matriz 152
6.4. Sistemas de ecuaciones lineales: g-inversa y c-inversa de una
matriz. mínimos cuadrados. 160
6.5. Ejercicios 174

Capítulo 7. Factorización de matrices 179


7.1. Descomposición LU 179
7.2. Descomposición QR 188
7.3. Descomposición de Cholesky 198
7.4. Descomposición en valores singulares (SVD) 205
7.5. Ejercicios 212

Capítulo 8. Rectas e hiperplanos. Conjuntos convexos. 215


8.1. Rectas. Segmentos de recta. Hiperplanos 215
8.2. Conjuntos convexos 223
8.3. Ejercicios 226

Índice alfabético 229

Bibliografía 233

ii
Índice de guras
1.1. Transformación lineal 22

3.1. Interpretación geométrica de vector propio 44

3.2. Vectores propios de T (x, y) = (2x, x + 3y) 45

6.1. Problema de los mínimos cuadrados 162

6.2. Ajuste por mínimos cuadrados 163

6.3. Ajuste lineal por mínimos cuadrados 165

6.4. Ajuste lineal ejemplo 6.4.13 170

6.5. Ajuste lineal ejemplo 6.4.14 171

6.6. Ajuste cuadrático ejemplo 6.4.15 173

7.1. Esquema de la factorización LU 186

8.1. Puntos y vectores en R3 . 216


2
8.2. Una recta en R . 217

8.3. Gráca de una recta que pasa por los puntos P y Q. 218

8.4. Segmento de recta que une los puntos P y Q 219


3
8.5. Gráca de un plano en R . 220
3
8.6. Grácas de un plano y una recta en R 222

8.7. Ilustración de semiespacios abiertos 223

8.1. Conjuntos convexos y no convexos 224

iii
CAPÍTULO 1

Prerrequisitos

El propósito de este capítulo es hacer una recopilación de algunas deni-


ciones y de algunos resultados básicos del álgebra lineal, los cuales nos
serán de gran utilidad en el desarrollo de los capítulos siguientes. Tratare-
mos aquí los aspectos relacionados con: matrices, espacios vectoriales y
transformaciones lineales, aunque aclaramos, que el orden en que se pre-
sentan los temas, no corresponde necesariamente al orden usual encontra-
do en la mayoría de textos utilizados en el primer curso de álgebra lineal.
Al lector que desee estudiar más sobre el contenido de este capítulo se le
recomienda consultar [ 1, 2, 12].

1.1. Matrices

Las matrices juegan un papel importante en las matemáticas y sus apli-


caciones. Una matriz A de tamaño m×n (o simplemente Am×n ) es un
arreglo rectangular de números dispuestos en m las (líneas horizon-
tales) y n columnas (líneas verticales); el número que está en la i-ésima
la y en la j-ésima columna se denota por aij o hAiij y se llama elemen-
toij de la matriz A. Para indicar dicho arreglo usualmente se escribe
A = [aij ]m×n , o en forma expandida
 
a11 a12 ··· a1n
 a21 a22 ··· a2n 
(1.1) A= . .
 
. .. .
 .. .
. . .
. 
am1 am2 ··· amn
1
1.1. Matrices Prerrequisitos
 
Si Ai = ai1 ai2 ··· ain denota la i-ésima la de la matriz A y
 
a1j
 a2j 
Aj =  . la j -ésima columna de A, el arreglo (1.1) puede represen-
 
 ..


amj
tarse por las o columnas como aparece a continuación


A1
 A2  
A =  .  = A1 A2 An

··· .
 
 .. 
Am
Las matrices se denotan, como lo hemos sugerido, con letras mayúsculas
A, B, C , etc. El conjunto de todas las matrices m × n con elementos
reales se denotará por Mm×n (R) o simplemente
Mm×n . Los elementos de
Mn×n se llaman matrices cuadradas de orden n; a la diagonal formada
por los elementos a11 , a22 , . . . , ann de una tal matriz A, se llama diagonal
principal de A.

Toda matriz cuadrada A de orden n, cuyos elementos fuera de la diagonal


principal son nulos (aij = 0 para i 6= j, i, j = 1, 2, . . . , n), se denomina
matriz diagonal y se denota por A = diag(a11 , a22 , . . . , ann ).

La matriz diagonal de orden n, cuyos elementos en su diagonal princi-


pal son todos iguales a 1, se llama matriz idéntica y se denota por In o
simplemente I, cuando no sea necesario especicar el orden.

Una matriz nula es una matriz cuyos elementos son todos nulos. Una
matriz nula será denotada por 0 (0m×n denotará la matriz nula m × n.)

Dos matrices A y B de igual tamaño m×n son iguales si y sólo si sus


componentes correspondientes son iguales. Esto es,

hAiij = hBiij ; i = 1, 2, . . . , m, j = 1, 2, . . . , n.
La suma A+B de dos matrices A y B de tamaño m × n, es la matriz
m×n tal que:

hA + Biij = hAiij + hBiij ; i = 1, 2, . . . , m, j = 1, 2, . . . , n.


La multiplicación αA del número α por la matriz A de tamaño m × n, es
la matriz de tamaño m × n, tal que:
hαAiij = α hAiij ; i = 1, 2, . . . , m, j = 1, 2, . . . , n.
2
Prerrequisitos 1.1. Matrices

El producto AB de la matriz A ∈ Mm×s por la matriz B ∈ Ms×n , es la


matriz de tamaño m × n, tal que:
s
X
hABiij = hAiik hBikj ≡ Ai · B j ; i = 1, 2, . . . , m, j = 1, 2, . . . , n.
k=1

1.1.1. Inversa de una matriz. Sea A ∈ Mn×n . Si existe una


matriz B ∈ Mn×n tal que AB = I se puede demostrar que BA = I y
que B es única. Cuando existe una matriz B tal que AB = I, a B se le
llama la matriz inversa de A y se le denota por A−1 . Es este caso se dice
que A es no singular o invertible; en caso contrario, se dice que A es no
invertible o singular.

En el siguiente teorema se establecen algunas propiedades de la inversa


de una matriz

1.1.1. Teorema. Si A, B ∈ Mn×n son matrices invertibles y si α es un


número no nulo, entonces:

−1
1. La matriz A−1 es invertible y A−1 = A.
2. La matriz AB es invertible y (AB)−1 = B −1 A−1 .
3. La matriz αA es invertible y (αA)−1 = α−1 A−1 .

1.1.2. Transpuesta de una matriz. Sea A una matriz m × n.


La matriz transpuesta de A es la matriz n × m, denotada por AT , cuya
i-ésima la corresponde a la i-ésima columna de la matriz

T A. Esto es,
la transpuesta de A es la matriz AT tal que A ij = hA iji , para i =
1, 2, . . . m, y j = 1, 2, . . . n.

Sea A una matriz cuadrada. Si AT = A, se dice que A es una matriz


T
simétrica, y si A = −A, se dice que A es una matriz antisimétrica. En
particular, las matrices diagonales son simétricas.

Las propiedades más relevantes de la transpocisión se dan en el siguiente


teorema

1.1.2. Teorema. Sean A y B matrices de tamaño apropiado, tales que las


operaciones siguientes están bien denidas. Entonces:

1. Para cualquier matriz A se verica (AT )T = A.


T T
2. A =B sí y sólo si A = B.
3
1.1. Matrices Prerrequisitos

3. Si A es una matriz diagonal, entonces AT = A.


4. Si α, β son números, entonces (αA + βB)T = αAT + βB T .
T T T
5. Si AB está denido, entonces (AB) = B A .
T T
6. Para cualquier matriz A, las matrices A A y AA son simétri-
cas.
7. Si A es invertible, entonces AT es invertible y (AT )−1 = (A−1 )T .

1.1.3. Determinantes. Recordamos en este apartado las nociones


de menor, cofactor, matriz de cofactores, matriz adjunta y determinante
de matrices cuadradas y resumimos algunos de los resultados más impor-
tantes relacionados con el cálculo propiedades del determinante. El lector
recordará, que el concepto de determinante es de gran importancia no
sólo en el contexto del álgebra lineal, sino en otras áreas como el cálculo
integral. En lo sucesivo, el determinante de una matriz A será denotado
por |A| o por det(A).
 
a b
1.1.3. Denición (Determinane de matrices 2 × 2). Sea A=
c d
una matriz cuadrada de tamaño 2 × 2. El determinante de la matriz A es
el número real dado por

det(A) = ad − bc.

1.1.4. Denición. Sea A una matriz cuadrada de tamaño n × n; el de-


terminante de la matriz que resulta al suprimir la i-ésima la de A y la
j-ésima columna de A es denominado menor del elemento hAiij y se de-
nota por mij . El cofactor del elemento hAiij se denota por Cij y se dene
como
Cij = (−1)i+j mij .
La matriz C, cuyos elementos son los cofactores Cij de A se denomina
matriz de los cofactores de A, cof(A). La matriz transpuesta de la matriz
de cofactores C , se denomina adjunta de A y se denota por adj(A), es
decir, adj(A) = CT .

El siguiente teorema nos muestra, cómo calcular el determinante de una


matriz (cuadrada) en términos de sus cofactores. Además muestra, que el
valor del determinante no depende de la la o columna a lo largo de la
cual se haga la expansión. Dicho teorema presenta también, una forma
alternativa para calcular inversas de matriz en términos del determinante
de dicha matriz y su adjunta.

4
Prerrequisitos 1.1. Matrices

1.1.5. Teorema. Sea A una matriz cuadrada de orden n.

1. Si Cij denota el cofactor del elemento hAiij , entonces:


Xn
a) det(A) = hAiij Cij , para cada i = 1, 2, . . . , n.
j=1
Xn
b) det(A) = hAiij Cij , para cada j = 1, 2, . . . , n.
i=1
2. Para cualquier matriz cuadrada A, se tiene que

A · adj(A) = adj(A) · A = det(A)I .


3. La matriz A es invertible sii |A| =
6 0, en este caso se tiene que
−1 −1
A = (det(A)) · adj(A) .
1.1.6. Teorema. Sean A, B y C matrices cuadradas de orden n, entonces:

1. |A| = |AT | .
2. Si A tiene una la nula, entonces |A| = 0.
3. Si las matrices A y B dieren únicamente en sus k-ésimas las
y si dichas las satisfacen la igualdad Ak = α · B k , entonces
|A| = α|B|.
4. Si α es un escalar, entonces |αA| = αn |A|.
5. Si A, B y C dieren únicamente en la k-ésima la y si Ck =
Ak + Bk , entonces |C| = |A| + |B|.
6. Si A tiene dos las iguales, entonces |A| = 0.
7. Si B se obtiene al intercambiar dos las de A, entonces |B| =
−|A|.
8. El determinante de una matriz no cambia si los elementos de la
i-ésima la son multiplicados por un escalar α y los resultados
son sumados a los correspondientes elementos de la k-ésima la,
parak 6= i.
9. |AB| = |A||B|.
Nota. Por (1), cualquier proposición sobre |A| que sea verdadera en las
las de A es también verdadera para las columnas de A.

1.1.4. Operaciones elementales. Matrices elementales. En


este apartado recopilamos algunas deniciones y resultados relacionados
con las operaciones que se pueden hacer en las las (respectivamente
columnas) de una matriz, las cuales realizadas de manera apropiada nos

5
1.1. Matrices Prerrequisitos

permiten obtener nuevas matrices con estructuras más adecuadas, por


ejemplo cuando se quiere resolver sistemas de ecuaciones. Dichas opera-
ciones son las operaciones elementales y están resumidas en la siguiente
denición.

1.1.7. Denición (Operaciones y matrices elementales) . Dada una ma-


triz A, cada una de las siguientes operaciones es llamada una operación
elemental en las las (columnas) de A.

(i) El intercambio de dos las (columnas) de A.


(ii) La multiplicación de los elementos de una la (columna) de A
por un escalar no nulo.
(iii) Reemplazar una la (columna) de A, por la suma de ella y un
múltiplo escalar no nulo de otra la (columna) de dicha matriz.

Una matriz elemental por las (columnas) es aquella que resulta de efec-
tuar una operación elemental sobre las las (columnas) de una matriz
identidad.

1.1.8. Teorema.
1. Cada matriz elemental es invertible. Además, la inversa de cada
matriz elemental es una matriz elemental.
2. Sea A una matriz m × n. Si B es una matriz que resulta al
efectuar una operación elemental sobre las las de A y si E es
la matriz elemental que resulta de efectuar la misma operación
elemental sobre las las de la matriz idéntica Im , entonces E·
A = B.
3. Sea A una matriz m × n. Si B es una matriz que resulta al
efectuar una operación elemental sobre las columnas de A y si E
es la matriz elemental que resulta de efectuar la misma operación
elemental sobre las columnas de la matriz idéntica In , entonces
A · E = B.
1.1.9. Denición (Forma escalonada reducida). Se dice que una matriz R
tiene la forma escalonada reducida, si satisface las siguientes condiciones:

(i) Si una la de R es no nula, el primer elemento no nulo de dicha


la, de izquierda a derecha, es 1.
(ii) Si las las i i + 1 de R son
e no nulas, el primer elemento no
nulo de la la i + 1 está a la derecha del primer elemento no
nulo de la la i.

6
Prerrequisitos 1.2. Espacios vectoriales

(iii) Si una columna de R contiene el primer elemento no nulo de


una la de R, los demás elementos de dicha columna son nulos.
(iv) Si R tiene las nulas, éstas aparecen en la parte inferior de R.

El siguiente teorema nos relaciona los conceptos de matrices elementales


y forma escalonada reducida para una matriz arbitraria.

1.1.10. Teorema. Para toda matriz A existen: una única matriz R que
tiene la forma escalonada reducida y un número nito de matrices ele-
mentales por las E1 , E2 , . . . , Ek tales que:

Ek · · · E2 · E1 · A = R .

La matriz R mencionada en el teorema anterior se denomina la forma


escalonada reducida de A.
1.1.11. Teorema. Sea A una matriz cuadrada de orden n.

1. A es invertible sii la forma escalonada reducida de A es In .


2. A es invertible sii A se puede expresar como el producto de un
número nito de matrices elementales.

Los dos últimos teoremas dan lugar a un método para decidir cuándo una
matriz cuadrada A es invertible, y simultáneamente proveen un algoritmo
para calcular su inversa.

El método consiste en lo siguiente: Forme la matriz [A | In ]. Seguidamente


efectúe operaciones elementales sobre la las de esta matriz hasta obtener
su forma escalonada reducida; al nal se obtiene una matriz que describire-
mos así [R | P ]; donde R es la forma escalonada reducida de A. Ahora: A
es invertible sii R = In . Si A es invertible entonces A−1 = P .

1.2. Espacios vectoriales

El conjunto de matrices m × n, junto con las dos operaciones suma de ma-


trices y multiplicación de un escalar por una matriz, denidas al principio
de la sección 1.1, tiene una estructura algebraica denominada espacio vec-
torial. Esta estructura es importante porque incluye otros conjuntos que
se presentan frecuentemente en las matemáticas y sus aplicaciones.

7
1.2. Espacios vectoriales Prerrequisitos

1.2.1. Denición. Un espacio vectorial (real) es un conjunto V, cuyos


elementos son llamados vectores, junto con dos operaciones: suma de vec-
tores (+) y multiplicación de un escalar por un vector (·), que satisfacen
las propiedades siguientes:

(i) Si u ∈ V y v ∈ V , entonces u + v ∈ V .
(ii) Si u ∈ V y v ∈ V , entonces u + v = v + u.
(iii) Si u ∈ V , v ∈ V y w ∈ V , entonces
(u + v) + w = u + (v + w) = u + v + w.
(iv) Existe un vector 0∈V tal que para todo u∈V , u+0 = 0+u =
u.
(v) Si u∈V, entonces existe un vector −u ∈ V tal que

u + (−u) = (−u) + u = 0.
(vi) Si u ∈ V y α es un escalar, αu ∈ V .
(vii) Si u ∈ V y α, β son escalares, entonces (αβ)u = α(βu) =
β(αu).
(viii) Si u ∈ V y α, β son escalares, entonces (α + β)u = αu + βu.
(ix) Si u ∈ V y v ∈ V y α es un escalar, entonces α(u+v) = αu+αv.
(x) Si u ∈ V , entonces 1u = u.

1.2.2. Ejemplo. Los siguientes conjuntos son ejemplos de espacios vecto-


riales:

1. V = Rn = {(x1 , x2 , . . . , xn ) : xi ∈ R, i = 1, 2, . . . , n} con las


operaciones denidas así:

(x1 , x2 , . . . , xn ) + (y1 , y2 , . . . , yn ) = (x1 + y1 , x2 + y2 , . . . , xn + yn )


α (x1 , x2 , . . . , xn ) = (αx1 , αx2 , . . . , αxn ) .
2. V = Mm×n , el conjunto de matrices m × n con las operaciones
denidas usualmente (ver sección 1.1).
3. V = F, el conjunto de funciones de R en R con las operaciones
denidas así:

(f + g)(t) = f (t) + g(t) , t ∈ R.

(αf )(t) = αf (t) , t ∈ R.


4. V = Pn , el conjunto de las funciones polinómicas de grado menor
o igual que n, con coecientes reales con las operaciones denidas
en (3).

8
Prerrequisitos 1.2. Espacios vectoriales

Como se establece en la denición, un espacio vectorial (real) es un tripla


que consta de un conjunto V y de dos operaciones con ciertas propiedades.
Cuando no haya lugar a confusión o cuando no sea necesario explicar
las operaciones mencionadas, se hará referencia simplemente al espacio
vectorial V.

Con frecuencia es necesario considerar subconjuntos de un espacio vec-


torial V, tales que; junto con las operaciones denidas en V, son por sí
mismo espacios vectoriales. Estos son denominados subespacios de V. En
forma más precisa tenemos la siguiente

1.2.3. Denición. Sea V un espacio vectorial y W un subconjunto no


vacío de V. Diremos que un W es subespacio de V, si W, junto con las
operaciones de suma de vectores y la multiplicación de un escalar por un
vector denidas en V, es en sí mismo un espacio vectorial.

1.2.4. Denición. Sean V un espacio vectorial, v0 un elemento de V y


W es un subespacio de V . El subconjunto determinado así:
L = {v ∈ V : v = v0 + w, para w ∈ W} ,
es denominado una variedad lineal de V.

El siguiente concepto es básico en el estudio de los espacios vectoriales.


En particular, servirá para caracterizar ciertos espacios de un espacio
vectorial.

1.2.5. Denición. Sean v1 , v2 , . . . , vn vectores de un espacio vectorial


V . Se dice que un vector v ∈ V es combinación lineal de los vectores
v1 , v2 , . . . , vn si existen escalares α1 , α2 , . . . , αn tales que:
n
X
v = α1 v1 + α2 v2 + · · · + αn vn = αi vi .
i=1

1.2.6. Teorema. Sea W un subconjunto no vacío de un espacio vectorial


V. W es un subespacio de V sii W es cerrado bajo la operación suma de
vectores y la multiplicación por un escalar, esto es, sii

1. Si u∈W y v ∈ W , entonces u + v ∈ W .
2. Si u∈W y α ∈ R, entonces αu ∈ W .
9
1.2. Espacios vectoriales Prerrequisitos

1.2.7. Teorema. Si U y W son subespacios de un espacio vectorial V,


entonces:

1. La intersección de U con W; U ∩ W es un subespacio vectorial


de V.
2. La suma de U con W; denida por

U + W = {v ∈ V : v = u + w, con u∈U y w ∈ W} ,
es un subespacio vectorial de V.
1.2.8. Teorema. Sea C un conjunto no vacío de vectores de un espacio
vectorial V . El conjunto de todas las combinaciones lineales de los vectores
de C;
( k
)
X
W = v∈V : v= αi vi ; k ∈ N, vi ∈ C y αi ∈ R, i = 1, 2, . . . , k
i=1
es un subespacio de V.

Sea C un conjunto no vacío de vectores de un espacio vectorial V. El


subespacio de V, de todas las combinaciones lineales de los vectores de
C mencionado en el teorema anterior, es denominado el espacio gen-
erado por los vectores de C o simplemente, espacio generado por C.
Cuando C = {v1 , v2 , . . . , vn } (es nito), este espacio será denotado por
hv1 , v2 , . . . , vn i o por gen {v1 , v2 , . . . , vn }.

Cuando consideramos un conjunto C de vectores de un espacio vectori-


al, es a veces importante determinar cuándo algún vector o algunos de
los vectores de C se pueden expresar como combinaciones lineales de los
restantes vectores en C. Para ello, necesitamos de la denición de de-
pendencia lineal de un conjunto de vectores y algunos resultados sobre
ella.

1.2.9. Denición .
(Independencia lineal) Sea C = {v1 , v2 , . . . , vn } un
conjunto C de vectores (distintos) de un espacio vectorial V . Se dice que
C es linealmente dependiente o que los vectores v1 , v2 , . . . , vn son lin-
ealmente dependientes, si existen escalares α1 , α2 , . . . , αn no todos nulos
tales que:
n
X
0 = α1 v1 + α2 v2 + · · · + αn vn = αi vi ,
i=1
en caso contrario, se dice que C es linealmente independiente o que los
vectores v1 , v2 , . . . , vn son linealmente independientes. Es decir, C es

10
Prerrequisitos 1.2. Espacios vectoriales

linealmente independiente si para los escalares


Pn α1 , α2 , . . . , αn ; si 0 =
i=1 αi vi , entonces

α1 = α2 = . . . , = αn = 0 .
1.2.10. Teorema. En un espacio vectorial V se tiene:

1. Todo conjunto que contenga el vector nulo, 0, es linealmente


dependiente.
2. Todo conjunto que contenga un subconjunto linealmente depen-
diente es linealmente dependiente.
3. Todo subconjunto de un conjunto linealmente independiente, es
linealmente independiente.
4. Un conjunto de vectores C = {v1 , v2 , . . . , vn }, n ≥ 2, es lineal-
mente dependiente sii uno de los vectores de C es combinación
lineal de los restantes vectores de C.

1.2.1. Bases y dimensión. Dado un espacio vectorial V, en oca-


siones es útil determinar un subconjunto B de V de vectores linealmente
independientes que genere al espacio V. Esto es, un conjunto de vectores
linealmente independientes mediante los cuales, cada vector de V se pueda
expresar como combinación lineal de los vectores de B. Como veremos en
esta sección, tal conjunto B se llamará una base de V y de acuerdo con
el número de elementos que contenga, tal base hablaremos de dimensión
nita o innita del espacio vectorial.

Se dice que un espacio vectorial V es de dimensión nita, si existe un


conjunto nito C de vectores de V, tal que el espacio generado por C en
V. Por el contrario, si no es posible generar un espacio vectorial V con
un ningún subconjunto nito de vectores, diremos que dicho espacio tiene
dimensión innita. Ejemplos de éstos últimos espacios son: el conjunto
de funciones continuas denidas sobre R, o el conjunto de todos los poli-
nomios con variable real. Nosotros sin embargo sólo trataremos aquí con
espacios de dimensión nita.

1.2.11. Denición (Base) . Sea B un conjunto de vectores de un espacio


vectorial V. Se dice que B es una base de V si se tienen las dos condi-
ciones:

(i) El espacio generado por B es V.


(ii) El conjunto B es linealmente independiente.

11
1.2. Espacios vectoriales Prerrequisitos

Si un espacio vectorialV tiene una base B = {v1 , v2 , . . . , vn } compuesta


por n vectores, entonces se puede demostrar que el número de vectores de
cualquier otra base de V es también n. Es decir, si un espacio vectorial
V tiene una base B con un número nito, n, de elementos, cualquier otra
base de dicho espacio vectorial, tiene exactamente n elementos. A dicho
número común se le llama dimensión del espacio V y se dice que V es de
dimensión nita n y se escribe dim V = n.

1.2.12. Denición. Sea W un subespacio de un espacio vectorial V, v0


un vector en V y L la variedad

L = {v ∈ V : v = v0 + w, w ∈ W } ,
si dim W = k, se dice que la variedad lineal L tiene dimensión k.

El siguiente teorema resume algunos aspectos importante sobre bases de


espacios vectoriales, independencia lineal y conjuntos generadores.

1.2.13. Teorema. Sea V un espacio vectorial de dimensión n.

1. Si B = {v1 , v2 , . . . , vn } es un conjunto de n vectores de V,


entonces:
a) B es una base de V sii B es linealmente independiente.
b) B es una base de V sii B genera a V .
2. Si C = {u1 , u2 , . . . , ur } es un conjunto linealmente indepen-
diente, entonces r ≤ n.
3. Si C = {u1 , u2 , . . . , ur } es un conjunto linealmente indepen-
diente, con r < n, entonces existen n − r vectores de V ; w1 , w2 ,
. . . , wn−r , tales que B = {u1 , u2 , . . . , ur , w1 , . . . , wn−r } es
una base de V.
4. Si C = {u1 , u2 , . . . , ur } genera a V entonces r ≥ n.
5. Si el conjunto C = {u1 , u2 , . . . , ur } genera a V y r > n, en-
tonces existen n − r vectores de C; w1 , w2 , . . . , wn−r , tales que
B = C \ {w1 , w2 , . . . , wn−r } es una base de V.
6. Si W es un subespacio de V entonces dim W ≤ n. Si dim W = n,
entonces W = V.

1.2.14. Teorema. Si U y W son subespacios de un espacio vectorial V


entonces

dim(U + W ) = dim U + dim V − dim(U ∩ W ) .

12
Prerrequisitos 1.2. Espacios vectoriales

1.2.15. Nota. En el teorema anterior: U ∩ W = {0} sii dim(U + W ) =


dim U +dim V . Cuando U ∩W = {0} al espacio U +W de V se le denomina
suma directa de U con W y se escribe U ⊕ W en lugar de U + W . Además,
en este caso para cada vector v ∈ U ⊕ W , existen vectores únicos u ∈ U
y w ∈ W tales que v = u + w.

1.2.16. Teorema. Si U es un subespacio de un espacio vectorial V, en-


tonces existe un subespacio W de V tal que U ⊕ W = V.

El subespacio W del teorema anterior no es necesariamente único y es


llamado complemento de U. También se dice que U y W son subespacios
complementarios.

1.2.2. Coordenadas. El conjunto de coordenadas de un espacio


respecto de una base es útil en el estudio de las transformaciones lineales.
Para introducir este concepto es necesario denir primero lo que es una
base ordenada de un espacio vectorial V. En la denición 1.2.11 era irre-
levante en qué orden apareciera los elementos de una base. Sin embargo,
a partir de ahora el orden será importante. En tal sentido, nosotros con-
sideramos la siguiente denición.

1.2.17. Denición .
(Base ordenada) Si v1 , v2 , . . . , vn es una sucesión
nita de vectores linealmente independientes de un espacio vectorial V,
que generan a V , entonces diremos que B = {v1 , v2 , . . . , vn } es una
base ordenada de V.
1.2.18. Teorema. Si B = {v1 , v2 , . . . , vn } es una base ordenada de V ,
entonces para cada vector v ∈ V existen escalares α1 , α2 , . . . , αn únicos
tales que
n
X
v = α1 v1 + α2 v2 + · · · + αn vn = α i vi ,
i=1

1.2.19. Denición. B = {v1 , v2 , . . . , vn } una base ordenada de un


Sea
espacio vectorial V. v un P
Sea vector de V y sean α1 , α2 , . . . , αn los es-
n
calares únicos tales que v = i=1 αi vi , el vector (vector columna) de
coordenadas de v respecto de la base ordenada B se denota por [v]B y se
dene así:

α1
 α2 
[v]B =  .  .
 
.
 . 
αn

13
1.2. Espacios vectoriales Prerrequisitos

Si u y v son dos vectores de V y si α es un escalar, entonces [u + v]B =


[u]B + [v]B y [αu]B = α [u]B .
 T
De otro lado, a cada vector n×1 (matriz n×1) c = α1 α2 · · · αn
le corresponde un único vector v de V tal que [v]B = c, a saber v =
Pn
i=1 αi vi .

Así, cada base ordenada B de V determina una correspondencia biunívo-


ca, v → [v]B , entre los espacios V y Mn×1 , que preserva las suma de
vectores y la multiplicación de un escalar por un vector. Más aún, preser-
va la independencia lineal; ésto es, el conjunto C = {u1 , u2 , . . . , uk } es
un conjunto de vectores linealmente independientes de V sii el conjunto
C ∗ = {[u1 ]B , [u2 ]B , . . . , [ uk ]B } es un conjunto de vectores linealmente
independientes de Mn×1 .

En el caso en que V = Rn y B = {e1 , e2 , . . . , en } sea la base canónica,


con e1 = (1, 0, 0, . . . , 0), e2 = (0, 1, 0, . . . , 0),. . . , en = (0, 0, 0, . . . , 1),
la mencionada correspondencia está dada por
 
x1
 x2 
x = (x1 , x2 , . . . , xn ) −→ [x]B =  .  .
 
 .. 
xn

En algunas situaciones resulta conveniente tener presente esta correspon-


dencia, que utilizaremos identicando a x con [x]B .

1.2.3. Producto interno. Bases ortonormales. En este aparta-


do consideraremos los conceptos de producto interno y de bases ortonor-
males que nos será particularmente útiles en el capítulo 3 al tratar la
diagonalización de matrices simétricas.

1.2.20. Denición (Producto interno). Sea V un espacio vectorial. Sean


además u, v y w vectores arbitrarios de V y α un escalar real. Un pro-
ducto interno en V es una función h·; ·i : V × V → R que satisface las
propiedades:

(i) hu; vi = hv; ui.


(ii) hu; ui ≥ 0 y hu; ui = 0 si y sólo si u = 0.
(iii) hαu; vi = α hu; vi.
(iv) hu + v; wi = hu; wi + hv; wi.

14
Prerrequisitos 1.2. Espacios vectoriales

Observación. B es una base ordenada de un espacio vectorial V ,


Si
T
entonces la función h·; ·i : V × V → R denida por hu; vi = [u]B [v]B es
n
un producto interno. En particular, si V = R y B es la base canónica de
n
R , se tiene que

T
hx; yi = [x]B [y]B = x1 y1 + x2 y2 + · · · + xn yn ,

donde x = (x1 , x2 , . . . , xn ) y y = (y1 , y2 , . . . , yn ).

En lo que sigue consideraremos a Rn con este producto interno (producto


escalar) y a veces escribiremos x · y o xT y para indicar a hx; yi.

Si h·; ·i es un producto interno sobre un espacio vectorial V , la norma o


longitud de un vector
p v de V se denota por kvk y se dene así: kvk =
hv; vi. Cuando kvk = 1, se dice que v es un vector unitario.
1.2.21. Teorema (Desigualdad de Schwarz) . Sea V un espacio vectori-
al con producto interno h·; ·i. Para cada par de vectores u y v de V se
satisface la desigualdad

|hu; vi| ≤ kuk kvk .

Sean u y v vectores de un espacio vectorial V con producto interno h·; ·i,


si u yv no son nulos, la medida del ángulo entre ellos se dene como
|hu; vi|
θ = arc cos .
kuk kvk
1.2.22. Denición. Sea V un espacio vectorial con producto interno h·; ·i:

1. Se dice que dos vectores u y v de V son ortogonales si hu; vi = 0.


2. Se dice que un conjunto C = {v1 , v2 , . . . , vn } de vectores de V
es ortogonal si hvi ; vj i = 0 para i 6= j, i, j = 1, 2, . . . , n.
3. Se dice que un conjunto C = {v1 , v2 , . . . , vn } de vectores de V
es ortonormal si C es ortogonal y cada vector de C es unitario,
o sea si:
(
1 si i = j
hvi ; vj i = δij = ; i, j = 1, 2, . . . , n .
0 6 j
si i =
4. Se dice que dos conjuntos no vacíos, C1 y C2 de vectores son
ortogonales, si para cada par de vectores u ∈ C1 y v ∈ C2 ,
hu; vi = 0.
15
1.3. Transformaciones lineales Prerrequisitos

1.2.23.Teorema. Sea V un espacio vectorial con producto interno h·; ·i.


Si C = {v1 , v2 , . . . , vn } es un conjunto ortogonal que no contiene al
vector 0, entonces C es linealmente independiente.

1.2.24. Teorema (Proceso de ortogonalización de Gram-Schmidt) . Sea


W un subespacio no nulo de un espacio vectorial V de dimensión nita
k con producto interno h·; ·i y sea B = {w1 , w2 , . . . , wk } una base de
W. Entonces C = {v1 , v2 , . . . , vk } es una base ortogonal de W y C ∗ =
{v1∗ , v2∗ , . . . , vk∗ } es una base ortonormal de W , donde:
v1 = w1
hw2 ; v1 i
v2 = w2 − v1
hv1 ; v1 i
hw3 ; v1 i hw3 ; v2 i
v3 = w3 − v1 − v2
hv1 ; v1 i hv2 ; v2 i
.
.
.
k−1
X hwk ; vi i
vk = wk − vi ,
i=1
hvi ; vi i

vi
y donde vi∗ = para i = 1, 2, . . . , k.
kvi k
1.2.25. Teorema. Sean v1 , v2 , . . . , vk vectores no nulos de un espacio
vectorial V de dimensión n > k , con producto interno h·; ·i. Si C1 =
{v1 , v2 , . . . , vk } es un conjunto ortogonal (respectivamente ortonormal),
entonces existe un conjunto ortogonal (respectivamente ortonormal) C2 =
{w1 , w2 , . . . , wn−k } de vectores de V tal que B = C1 ∪ C2 es una base
ortogonal (ortonormal) de V. Más aún, si U = hv1 , v2 , . . . , vk i y si
W = hw1 , w2 , . . . , wn−k i entonces V = U ⊕ W y además, U y W son
ortogonales.

1.3. Transformaciones lineales

En esta sección consideraremos los aspectos más importantes sobre las


transformaciones lineales. En lo que sigue; U, V y W denotarán espacios
vectoriales.

1.3.1. Denición. Una función T : U → V es una transformación lineal,


si para cualquier para de vectores u1 , u2 en U y todo escalar α, se tiene
que:

16
Prerrequisitos 1.3. Transformaciones lineales

(i) T (u1 + u2 ) = T (u1 ) + T (u2 )


(ii) T (αu1 ) = αT (u1 ).
1.3.2. Ejemplo. Algunos ejemplos de transformaciones lineales son:

1. Para cada U, la función idéntica I : U → U, u → I(u) = u.


2. Para cada matriz A ∈ Mm×n , la funciónA : Rn → Rm , denida
por x → y = Ax. 
1.3.3. Teorema. U y V espacios vectoriales, B = {u1 , u2 , . . . , un }
Sean
una base de T : U → V es una transformación lineal. Entonces T
U y
queda determinada por los vectores T (u1 ), T (u2 ), . . . , T (un ).

Asociados a toda transformación lineal hay dos subespacios importantes


a saber; su núcleo y su imagen. El primero de ellos corresponde a todos
lo elementos del espacio U que son transformados en el elemento nulo del
espacio V; el segundo, corresponde a todos los elementos del espacio V
que tienen al menos una preimagen en el espacio U. En forma más precisa
tenemos

1.3.4. Denición. Sea T :U →V es una transformación lineal.

1. El núcleo de T se denota por N (T ) y se dene así:

N (T ) = {u ∈ U : T (u) = 0} .
2. La imagen de T se denota por Img(T ) y se dene así:

Img(T ) = {T (u) : u ∈ U } .
1.3.5. Denición. Sea T :U →V una transformación lineal.

1. Diremos que T es inyectiva (biunívoca o uno a uno), si dos ele-


mentos distintos u1 , u2 ∈ U , tienen imagen distinta. Esto es si
y sólo si

u1 6= u2 implica T (u1 ) 6= T (u2 ); para todo u1 , u2 ∈ U.


2. Diremos que T es sobreyectiva (o simplemente sobre), si cada
elemento de del espacio V posee al menos una preimagen en U.
Esto es si y sólo si

Para todo v∈V existe un u∈U tal que T (u) = v.

El siguiente teorema resume algunos aspectos básicos de las transforma-


ciones lineales.

17
1.3. Transformaciones lineales Prerrequisitos

1.3.6. Teorema. Sea B = {u1 , u2 , . . . , un } un subconjunto de vectores


de U y sea T :U →V una transformación lineal y .

1. N (T ) es un subespacio vectorial de U.
2. T es inyectiva sii N (T ) = {0} .
3. Img(T ) es un subespacio vectorial de V.
4. Si B es una base de U , entonces {T (u1 ), T (u2 ), . . . , T (un )} ge-
nera al espacio Img(T ).
5. Si T es inyectiva y B es linealmente independiente, entonces
{T (u1 ), T (u2 ), . . . , T (un )} es un subconjunto linealmente inde-
pendiente de vectores de V .
6. dim N (T ) + dim Img(T ) = dim U .

A la dimensión de N (T ) se le llama nulidad de T y a la dimensión de


Img(T ) se llama rango de T.

1.3.1. Matriz de una transformación lineal referida a un par


de bases ordenadas. A cada transformación lineal se le puede asignar
una matriz A, la cual está determinada por las bases de los espacios vec-
toriales involucrados en dicha transformación. Veremos en esta sección,
que una tal asignación simplicará muchos cálculos. Es decir, será más
conveniente trabajar con la matriz asociada a una transformación lineal
(referida a ciertas bases), que con la transformación lineal misma.

1.3.7. Denición. U y V espacios vectoriales, T : U → V una trans-


Sean
formación lineal y sean B1 = {u1 , u2 , . . . , un } y B2 = {v1 , v2 , . . . , vm }
bases ordenadas de U y de V respectivamente. La matriz de T referida a
las bases B1 y B2 se denotará por [T ]B B y corresponde a la matriz m×n
1 2
dada por:
 
[T ]B1 B2 = [T (u1 )]B2 [T (u2 )]B2 ··· [T (un )]B2 .
1.3.8. Teorema. Sean U y V espacios vectoriales, T : U → V una trans-
formación lineal y sean B1 = {u1 , u2 , . . . , un } y B2 = {v1 , v2 , . . . , vm }
bases ordenadas de U y de V respectivamente. Para cada u ∈ U se tiene
que:
[T (u)]B2 = [T ]B1 B2 [u]B1 .
Nota. Por el teorema anterior y por el teorema 1.3.3, la transforma-
ción lineal T queda completamente determinada por el conocimiento de
las bases B1 y B2 , y de la matriz [T ]B1 B2 .

18
Prerrequisitos 1.3. Transformaciones lineales

1.3.2. Álgebra de transformaciones lineales. Inversa de una


transformación lineal. En esta sección consideraremos las operaciones
de suma, multiplicación por un escalar y composición entre transforma-
ciones lineales. Así mismo veremos la relación existente entre las matrices
asociadas correspondientes. En este apartado U, V y W denotan espacios
vectoriales.

1.3.9. Teorema. Sean T : U → V y S : U → V transformaciones lineales


y α un escalar. Sean además B1 y B2 bases ordenadas de U y V, respec-
tivamente:

1. La suma de T y S ; (T + S) : U → V, denida por (T + S)(u) =


T (u) + S(u) es una transformación lineal. Más aún

[T + S]B1 B2 = [T ]B1 B2 + [S]B1 B2 .

2. La función múltiplo escalar de T ; (αT ) : U → V, denida por


(αT )(u) = αT (u) es una transformación lineal. Más aún

[αT ]B1 B2 = α [T ]B1 B2 .

Nota. El conjunto de todas las transformaciones lineales de U en V,


L(U, V ), junto con las operaciones mencionadas en el teorema anterior
es un espacio vectorial. además, si dim U = n y dim V = m entonces
dim L(U, V ) = m × n.

De otro lado, de la misma forma como una base B1 de U determina la


correspondencia biunívoca entre los espacios vectoriales V y Mm×1 , dada
por , v → [v]B ; las bases B1 y B2 de U y V , determinan la corresponden-
2
cia biunívoca entre los espacios L(U, V ) y Mm×n , la cual está dada por
T → [T ]B B . Esta correspondencia preserva la suma de vectores y la mul-
1 2
tiplicación de un escalar por un vector, tal como se establece en el teorema
anterior. En otras palabras, esta correspondencia es una transformación
lineal.

1.3.10. Teorema. Sean T : U → V y S : V → W transformaciones


lineales. Entonces, la composición S ◦ T : U → W es una transforma-
ción lineal. Si además, B1 , B2 y B3 representan bases ordenadas para los
espacios U, V y W respectivamente, entonces se tiene que:

[S ◦ T ]B1 B3 = [S]B2 B3 [T ]B1 B2 .

19
1.4. Espacios fundamentales de matrices Prerrequisitos

1.3.11. Teorema. Si T : U → V es una transformación lineal biyectiva,


entonces la función inversa de T , T −1 : V → U es una transformación
lineal y la matriz [T ]B1 B2 es invertible. Además,
−1
T −1
 
B2 B1
= [T ]B1 B2 .

1.3.3. Matrices semejantes. Cambio de base. Los conceptos


de matrices semejantes y cambio de base nos serán particularmente útiles
en el capítulo 4 para el estudio de los valores propios y los vectores propios
de una transformación lineal.

1.3.12. Denición (Matrices semejantes). Sean AyB matrices cuadradas


de orden n, se dice que AB y son semejantes, si existe una matriz in-
vertible P tal que B = P −1 AP.
1.3.13. Denición (Matriz cambio de base) . Sean B1 y B2 bases orde-
nadas del espacio vectorial U, y sea I :U →U la transformación lineal
idéntica. La matriz P = [I]B1 B2 se denomina matriz de cambio de base de
la base B1 a la base B2 , (ésto debido a lo enunciado por el teorema 1.3.8,
[u]B2 = [T ]B1 B2 [u]B1 ).
1.3.14. Teorema. Sean T :U →U una transformación lineal y B1 y B2
bases ordenadas de U.

1. La matriz de cambio de base de la base B1 a la base B2 , P =


[I]B1 B2 , es invertible y su inversa es la matriz de cambio de base
de la base B2 a la base B1 .
2. Las matrices A = [T ]B2 B2 y B = [T ]B1 B1 son matrices seme-
jantes, además se tiene
−1
[T ]B1 B1 = [I]B1 B2 [T ]B2 B2 [I]B1 B2 = P −1 [T ]B2 B2 P .

1.4. Espacios fundamentales de una Matriz. Rango de una


matriz. Sistemas de ecuaciones lineales

En esta sección consideraremos los llamados espacios fundamentales de


una matriz A. Dos de estos espacios son precisamente el núcleo y la imagen
de la transformación lineal x → y = Ax, los cuales están relacionados con
el conjunto solución de un sistema de ecuaciones lineales Ax = y. El
lector recordará de los resultados de un primer curso de álgebra lineal,
que el espacio la y es espacio columna de A tienen igual dimensión. A
ese número común se le denomina rango de A y se denota por ρ(A).
20
Prerrequisitos 1.4. Espacios fundamentales de matrices

Sea A una matriz m × n. El subespacio de Rn generado por las las de A


se denomina espacio la de A y lo denotamos por F(A); esto es, F(A) =
hA1 , A2 , . . . , Am i . El subespacio de Rm generado por las columnas de
A se denomina columna de A y lo denotamos por C(A); esto

1 espacio
2 n

es, C(A) = A , A , . . . , A . El espacio formado todas soluciones de un
sistema homogéneo de ecuaciones lineales Ax = 0 se denomina espacio
nulo de una matriz, esto es, el espacio nulo es el conjunto

N (A) = {x ∈ Rn : Ax = 0} .
De otro lado, el subespacio de Rn ;
Img(A) = {Ax : x ∈ Rn }
= {y ∈ Rm : y = Ax para algún x ∈ Rn } .
se denomina imagen de A.
1.4.1. Teorema. Para cualquier matriz A se tiene que

dim F(A) = dim C(A) .


1.4.2. Teorema. Sea A una matriz arbitraria entonces:

1. F(A) y N (A) son ortogonales. Ésto es, sus elementos son or-
togonales entre si.
t
2. C(A) y N (A ) son ortogonales. Ésto es, sus elementos son or-
togonales entre si.

1.4.3. Teorema. Sean A y B matrices de tamaño adecuado, tales que las


operaciones siguientes están denidas.

1. C(AB) ⊆ C(A) y F(AB)⊆ F(B).


2. Si P y Q son matrices invertibles de tamaño apropiado
a ) C(A) = C(AQ).
b ) F(A) = F(P A).
3. C(A + B) ⊆ C(A) + C(B) y F(A + B) ⊆ F(A) + F(B).
T
4. Para cualquier matriz A se tiene que: N (A) = N (A A).

Nota. Según el inciso 2(b) del teorema anterior y según el teorema 1.1.10,
siR es la forma escalonada reducida de la matriz A, entonces F(A) =
F(R).
1.4.4. Teorema. Sea A una matriz m×n. La imagen de la transformación
lineal A : Rn → Rm , x → y = Ax, es el espacio columna de A; esto es,
Img(A) = C(A) = {Ax : x ∈ Rn } .

21
1.4. Espacios fundamentales de matrices Prerrequisitos

Nota. De acuerdo con el inciso (3) del teorema 1.3.6 y de acuerdo con
los teoremas 1.4.1 y 1.4.4: si A es una matriz m × n, entonces

dim N (A) + dim F(A) = n.


Análogamente, puesto que F(At ) = C(A),
dim N (AT ) + dim C(A) = m.
De otra parte, con base en la nota 1.2.15,

Rn = F(A) ⊕ N (A) y Rm = C(A) ⊕ N (AT ),


es decir, los subespacios F(A) y N (A) de Rn son complementarios. Así
mismo, los subespacios C(A) y N (At ) de Rm son complementarios.

Esto implica entonces, que cadax ∈ Rn y cada y ∈ Rm se pueden expresar


en forma única así: x = f + n y y = c + u, donde f , n, c y u pertenecen
T
a F(A), N (A), C(A) y N (A ), respectivamente (ver gura 1.1).

n m
IR IR

F (A) x=f+n C (A)


Ax=Af y=c+u
f
c
n u
N (A) N (AT)

Figura 1.1. Transformación lineal

Nota. Según las deniciones, el núcleo de la transformación lineal x→


y = Ax es el espacio nulo de A.

De otro lado, si denimos el rango de la matriz A, ρ(A), como el rango


de la transformación lineal x → y = Ax, entonces tenemos que rango de
A es la dimensión del espacio columna de A.
1.4.5. Teorema. Sea A una matriz m × n, entonces:

1. ρ(A) es igual al número máximo de las linealmente independi-


entes de A.
2. ρ(A) es el número máximo de columnas linealmente independi-
entes de A.
22
Prerrequisitos 1.4. Espacios fundamentales de matrices

3. ρ(A) es el número de las no nulas de la forma escalonada re-


ducida de A.
4. Para cualquier matriz A, ρ(A) = ρ(AT ) = ρ(AAT ) = ρ(AT A).
5. Si A es una matriz m × n y B es una matriz n × k , entonces
ρ(AB) ≤ ρ(A) y ρ(AB) ≤ ρ(B).
6. Si P es una matriz invertible m×m y Q es una matriz invertible
n × n, entonces ρ(A) = ρ(P A) = ρ(AQ) = ρ(P AQ).
7. Si A y B son matrices m × n, entonces ρ(A + B) ≤ ρ(A) + ρ(B).

1.4.6. Teorema. Sea A una matriz m×n y sea y un vector m × 1.

1. El sistema de ecuaciones Ax = y tiene solución sii y ∈ C(A).


2. El sistema de ecuaciones Ax = y tiene solución sii el rango de
la matriz A es igual al rango de la matriz aumentada del sistema
[A | y], es decir sii ρ(A) = ρ([A| y]).
3. Para el sistema de ecuaciones lineales Ax = y se da una y sólo
una de las opciones siguientes:
a ) El sistema no tiene solución, en cuyo caso y∈
/ C(A).
b ) El sistema tiene innitas soluciones, en cuyo caso su con-
junto solución es una variedad lineal de la forma

S = {xp + xh : xh ∈ N (A)} ,
donde xp es una solución particular del sistema; ésto es,
Axp = y, además, dim N (A) > 0.
c ) El sistema tiene una única solución. En este caso se tiene
que N (A) = {0 }

El teorema siguiente recoge, teóricamente, el método de Gauss-Jordan


para resolver sistemas de ecuaciones lineales.

1.4.7. Teorema. A una matriz m × n y y un vector n × 1. Si P


Sean
es una matriz invertiblem × m tal que P A = R, donde R es la forma
escalonada reducida de A, entonces Ax = y sii Rx = P y; esto es, los
sistemas de ecuaciones lineales Ax = y y Rx = P y tienen el mismo
conjunto solución. En particular, si y = 0; Ax = 0 sii Rx = 0.

1.4.8. Teorema (Resumen). Sea A una matriz cuadrada de orden n. Las


armaciones siguientes son equivalentes:

1. det(A) 6= 0.
2. A es invertible.
3. La forma escalonada de A en In .
23
1.4. Espacios fundamentales de matrices Prerrequisitos

4. Los vectores la de A son linealmente independientes.


5. El espacio la de A es Rn , es decir, F(A) = Rn .
6. Los vectores columna de A son linealmente independientes.
7. El espacio columna de A es Rn , es decir, C(A) = Rn .
8. El rango de la matriz A es n.
9. N (A) = {0}.
10. El sistema de ecuaciones lineales Ax = 0 tiene la única solución
x = 0.
11. Para todo y ∈ Rn , El sistema de ecuaciones lineales Ax = y
tiene solución.

Por último, consideramos un método para calcular una base de cada uno
de los espacios fundamentales de una matriz m×n arbitraria A. El método
consiste en efectuar los pasos siguientes:

 T 
Paso 1 Forme la matriz A | In .

Paso 2 Efectúe operaciones elementales sobre las las de la matriz


anterior hasta obtener la forma escalonada reducida. Al nal
se obtiene la matriz que podemos describir por bloques así:
 
.
.
 Er×m . Pr×n 
.
.
0(n−r)×m . P(n−r)×n
donde r = ρ(A).

Los vectores la de la matriz Er×m conforman una base para


C(A) y los vectores la de la matriz P(n−r)×n conforman una
base para N (A).

Al llevar a cabo el paso 2 con la matriz [A | Im ] se obtienen sendas bases


para C(AT ) = F(A) y N (AT ).

24
CAPÍTULO 2

Matrices particionadas. Traza de una matriz

Este capítulo consta de tres secciones. Las dos primeras versan sobre ma-
trices particionadas. La tercera sección trata sobre la traza de una matriz.
Consignaremos aquí los principales resultados sobre la traza de una ma-
triz. Existen razones para querer particionar una matriz A, algunas de ellas
son: (i) La partición puede simplicar la escritura de A. (ii) La partición
puede exhibir detalles particulares e interesantes de A. (iii) La partición
puede permitir simplicar cálculos que involucran la matriz A.

2.1. Submatrices. Operaciones con matrices


particionadas

A veces es necesario considerar matrices que resultan de eliminar algunas


las y/o columnas de alguna matriz dada, como se hizo por ejemplo,
al denir el menor correspondiente al elemento aij de una matriz A =
[aij ]m×n (véase el apartado 1.1.3 del capítulo 1).

2.1.1. Denición. Sea A una matriz. Una submatriz de A es una matriz


que se puede obtener al suprimir algunas las y/o columnas de la matriz
A.
2.1.2. Ejemplo. Las matrices S1 , S2 y S3 dadas a continuación, sonson
submatrices de la matriz
 
1 2 3 4
A= 5 6 7 8 .
9 0 −1 −2
 
1 2 4
S1 = (suprimiendo en A la la 2 y la columna 3)
9 0 −2

25
2.1. Submatrices Matrices particionadas
 
1 2 3 4
S2 = (suprimiendo en A la la 3)
9 0 7 8
 
2 3
S3 = (suprimiendo en A la la 3 y las columnas 1 y 4). 
6 7

Dada una matriz A = [aij ]m×n ; mediante un sistema de rectas horizon-


tales o verticales podemos particionarla en submatrices de A, como se
ilustra en el siguiente ejemplo:

. .
 
. .
 a11 . a12 a13 . a14 
. .
. .
 
 a21 . a22 a23 . a24 
 
. .
. .
 
A =  a31 . a32 a33 . a34 


 ··· ··· ··· ··· ··· ··· 
 
. .
. .
 
 a41 . a42 a43 . a44 
 
. .
. .
a51 . a52 a53 . a55

Hecho esto, podemos escribir, usando una notación obvia:

 
A11 A12 A13
A=
A21 A22 A23

donde

     
a11 a12 a13 a14
A11 =  a21  , A12 =  a22 a23  , A13 =  a24  ,
a31 a32 a33 a34

     
a41 a42 a43 a44
A21 = , A22 = , A23 = .
a51 a52 a53 a55

Debe ser claro para el lector, que una matriz puede ser particionada de
diferentes maneras, por ejemplo:

26
Matrices particionadas 2.1. Submatrices

. .
   
1 2 3 4 5 . .
1 2 . 3 4 . 5 
   . .
  . .

  2 0 . 3 0 . 1 
A =  2 0 3 0 1 
= .
 ··· ··· ··· ··· ··· ··· ··· 

   
. .
−1 2 3 1 1 −1 2 .
. 3 1 .
. 1
.
 
.
 1 . 2 3 4 5 
.
.
 
 2 . 0 3 0 1 
A =  
 ··· ··· ··· ··· ··· ··· 
 
.
.
−1 . 2 3 1 1
Tal vez, la principal conveniencia de particionar matrices, es que se puede
operar con matrices particionadas como si las submatrices fuesen elemen-
tos ordinarios, tal como se establece en el teorema siguiente.

2.1.3. Teorema.

1. Si las matrices A y B están particionadas así:


   
A11 A12 ··· A1n B11 B12 ··· B1n
 A21 A22 ··· A2n   B21 B22 ··· B2n 
A= .  y B =  ..
   
. .. . . .. .
 .. . . . .

. . .   . . . . 
Am1 Am2 ··· Amn Bm1 Bm2 ··· Bmn
y si las sumas Aij +Bij están denidas para i = 1, 2, . . . , m, j =
1, 2, . . . , n, entonces
 
A11 + B11 A12 + B12 · · · A1n + B1n
 A21 + B21 A22 + B22 · · · A2n + B2n 
A+B = .
 
. . .. .
. . . .
 . . . 
Am1 + Bm1 Am2 + Bm2 · · · Amn + Bmn
2. Si las matrices A y B están particionadas así:
   
A11 A12 ··· A1n B11 B12 ··· B1s
 A21 A22 ··· A2n   B21 B22 ··· B2s 
A= .  y B =  ..
   
. .. . . .. .
 .. . . . .

. . .   . . . . 
Am1 Am2 ··· Amn Bn1 Bn2 ··· Bns
27
2.1. Submatrices Matrices particionadas

y si el número de columnas de cada bloque Aik es igual al número


de las de cada bloque Bkj ; i = 1, 2, . . . , m, k = 1, 2, . . . , n, j =
1, 2, . . . , s, entonces
 
C11 C12 ··· C1s
 C21 C22 ··· C2s 
AB =  . ,
 
. .. .
 .. .
. . .
. 
Cm1 Cm2 ··· Cms
n
X
donde Cij = Aik Bkj .
k=1
3. Si la matriz A está particionada como en (1) y si α es un escalar,
entonces
 
αA11 αA12 ··· αA1n
 αA21 αA22 ··· αA2n 
αA =  .
 
. . .. .
. . . .
 . . . 
αAm1 αAm2 ··· αAmn
4. Si la matriz A está particionada como en (1) , entonces

AT11 AT21 ATn1


 
···
 T
 A12 AT22 ··· ATn2 

AT = 
 .. . .
.
. .. .

 . . . . 
AT1m AT2m ··· ATnm

Los incisos (1), (3) y (4) del teorema anterior son fáciles de vericar. La
demostración del inciso (2) es laboriosa y no la haremos. Sin embargo, el
lector interesado puede consultar una indicación de dicha demostración
en [ 10] página 19.
A continuación ilustraremos el inciso (2) de dicho teorema.

Si

. .
 
. .
 1 . 0 0 . 0 3   
. . A11 A12 A13
. .
 
A= 2
 . 0 0 . 3 −4 = 
 ··· ··· ··· ··· ··· ··· ···  A21 A23 A23
 
. .
. .
1 . 2 1 . 0 0
28
Matrices particionadas 2.2. Determinantes

y
 
1 2
··· ···  
 
  B11
 

 0 0   
B= 1 3  =  B21 
   
 ··· ···  
  B31
 0 1 
1 2
entonces
   
A11 B11 + A12 B21 + A13 B31 4 8
AB =   =  −2 −7 
A21 B11 + A22 B21 + A23 B31 2 5
pues
   
1   1 2
A11 B11 = 1 2 = ,
2 2 4
    
0 0 0 0 0 0
A12 B21 = = ,
0 0 1 3 0 0
    
0 3 0 −1 3 6
A13 B31 = = ,
3 −4 1 2 −4 −1
   
A21 B11 = [1] 1 2 = 1 2
 
  0 0  
A22 B21 = 2 1 = 1 3 ,
1 3
 
  0 −1  
A23 B31 = 0 0 = 0 0 .
1 2

2.2. Determinantes e inversas de algunas matrices especiales

En algunas situaciones es conveniente utilizar matrices particionadas para


describir determinantes e inversas de ciertas matrices en términos de las
submatrices. En particular, los teoremas 2.2.3 y 2.2.8, son usados en la
deducción de las distribuciones condicionales de un vector aleatorio con
distribución normal multivariante (véase el Teorema 3.6.1 de [ ]) 4
29
2.2. Determinantes Matrices particionadas

El lector recordará, que el determinante de una matriz triangular (supe-


rior o inferior) es justamente el producto de los elementos de la diagonal
principal. El siguiente teorema, por ejemplo, lo podríamos ver como una
"generalización" de dicho resultado.

2.2.1. Proposición. Sean A y C matrices cuadradas,

 
A B
1. Si M= , entonces |M | = |A||C|.
0 C
 
A 0
2. Si M= , entonces |M | = |A||C|.
B C

Demostración. Para la demostración del literal (1) usamos induc-


ción sobre el orden n de la matriz M.

Si n=2 tenemos que |M | = ac = |A| |C| donde


   
A B a b
M= = .
0 C 0 c

Supongamos ahora que (1) es válida para n=k y demostremos que es


válida para n = k + 1.

Sea M n = k + 1 particionada como en (1).


una matriz cuadrada de orden
Suponga además que C = [cij ]s×s . Denotemos por B̂ j a la
B = [bij ]r×s y
j
submatriz de B que se obtiene suprimiendo en B la columna j y por Ĉ
a la submatriz de C que se obtiene suprimiendo en C la columna j y la
la s, j = 1, 2, . . . , s.

Ahora, desarrollando el determinante de C por los cofactores de la la


s (véase el Teorema 1.1.5(1)), obtenemos:

det(C) = cs1 (−1)s+1 |Ĉ 1 | + cs2 (−1)s+2 |Ĉ 2 | + . . . + css (−1)s+s |Ĉ s |.

Así mismo, desarrollando el determinante de M por los cofactores de la


la k+1 obtenemos:

30
Matrices particionadas 2.2. Determinantes


2(k+1)−s+1
A B̂ 1
det(M ) = cs1 (−1) 0 Ĉ 1 +


A B̂ 2
+cs2 (−1)2(k+1)−s+2
0 Ĉ 2

2(k+1)−s+s A
B̂ s
+ . . . + css (−1) 0 Ĉ s


Utilizando la hipótesis de inducción se obtiene:


det(M ) = (−1)2(k+1)−2s cs1 (−1)s+1 |A| |Ĉ 1 | + cs2 (−1)s+2 |A| |Ĉ 2 |

+ . . . + css (−1)s+s |A| |Ĉ s |

= |A| cs1 (−1)s+1 |Ĉ 1 | + cs2 (−1)s+2 |Ĉ 2 | + . . . +

+css (−1)s+s |Ĉ s |

= |A| |C| .
Lo que completa la demostración de (1).


La demostración de (2) se sigue del hecho de que |M | = M T (teore-
ma 1.1.6(1)) y del inciso (1). En efecto, se tiene:

det(M ) = det(M T )
 
A B
= det
0 C

= det(AT ) det(C T )

= det(A) det(C)


2.2.2. Ejemplo. Use partición de matrices y los resultados de la proposi-
ción anterior para calcular el determinante de cada una de las matrices
siguientes:

31
2.2. Determinantes Matrices particionadas

 
  1 2 4 5
7 0 0  1 3 6 7 
M = 4 5 6  y N =
 0
,
0 2 3 
3 7 9
0 0 3 5
las cuales se pueden particionar respectivamente como sigue:

.
 
.
 7 . 0 0 
.
.
   
 ··· ··· ··· 
M =
.
= A 0
. B C
.
 
 4 . 5 6 
 
.
.
3 . 7 9
y
.
 
.
 1 2 . 4 5 
.
.
 
 1 3 . 6 7 
 
.
N =  ··· . .
 
 ··· . ··· ··· 

.
.
 
 0 0 . 2 3 
 
.
.
0 0 . 3 5
Entonces

5 6 1 2 2 3
|M | = |7| = 21 y |N | = = 1. 
7 9 1 3 3 5

El siguiente teorema nos brinda una alternativa para calcular determi-


nantes de matrices más generales particionadas por bloques.
 
A B
2.2.3. Teorema. Sean A y B matrices cuadradas y sea M=
C D
.


1. Si D es invertible, entonces |M | = |D| A − BD−1 C .
2. Si A es invertible, entonces |M | = |A| D − CA−1 B .

Demostración. Haremos sólo la demostración del literal (1), el se-


gundo resultado se verica de manera análoga y se deja como ejercicio al
lector.

32
Matrices particionadas 2.2. Determinantes

A − BD−1 C
   
I 0 B
Sea S = . Entonces MS = .
−D−1 C I 0 D
Ahora por el teorema 1.1.6(9) y por la proposición anterior, se tiene :

|M | = |M | |I| |I| = |M | |S| = |M S| = |D| A − BD−1 C .


Los siguientes resultados son consecuencia inmediata de este teorema y


sus vericaciones se dejan como ejercicio.

2.2.4. Corolario. Sean A, B, C y D matrices cuadradas de orden n y sea


M la matriz dada por
 
A B
M= .
C D

1. Si D es invertible y si DB = BD, entonces |M | = |DA − BC|.


2. Si A es invertible y si AC = CA, entonces |M | = |AD − CB|.
3. Si D = 0 y A es invertible, entonces |M | = (−1)n |B| |C|.
4. Si A = 0 y D es invertible, entonces |M | = (−1)n |B| |C|.
2.2.5. Ejemplo. Utilizando los resultados del corolario anterior encon-
tremos los determinantes para las matrices M yN dadas por:
 
  1 2 2 1
1 2 4  1 3 2 3 
M = 1 3 5  y N =
 4 5
.
0 0 
1 1 1
3 3 0 0
Particionemos entonces M y N de adecuadamente.

.
 
.
 1 2 . 4 
.   
. A B

 1 3 . 5 
Para M tomamos = , siendo D = [1].
C D

 ··· ··· ··· ··· 


.
.
1 1 . 1
Puesto que D es una matriz invertible entonces,

−1
−3 −2
|M | = |D| A − BD C = |1|
= −2 .
−4 −2
33
2.2. Determinantes Matrices particionadas

.
 
.
 1 2 . 2 1 
.
.
 
 1 3 . 2 3   
  A B
Similarmente para N, N =  ··· ··· ··· ··· ···  = ,

.
 C 0
.
 

 4 5 . 0 0 
.
.
  3 3 . 0 0
1 2
siendo A= . Dado que A es invertible tenemos que
1 3

|M | = (−1)2 |B| |C| = −12 .

2.2.6. Proposición. Sean A y C matrices cuadradas.

 
A B
1. La matriz M= es invertible sii las matrices A y C
0 C
son invertibles. Además, si M es invertible entonces

A−1 −A−1 BC −1
 
M −1 = .
0 C −1
 
A 0
2. La matriz M= es invertible sii las matrices A y C
B C
son invertibles. Además, si M es invertible entonces

A−1
 
−1 0
M = .
−C BA−1
−1
C −1

La prueba de este resultado se propone como ejercicio. El ejemplo siguien-


te, nos ilustra el inciso (1) de la proposición anterior.

2.2.7. Ejemplo. Verique que la matriz


 
1 2 1 1
 1 3 1 1 
M =
 0

0 2 1 
0 0 5 3

es invertible y calcule su matriz inversa.

34
Matrices particionadas 2.2. Determinantes

Observando la estructura de la matriz M podemos ver que una buena


.
 
.
 1 2 . 1 1 
.
.
 
 1 3 . 1 1   
  A B
partición es: M =  · · · ··· ··· ··· ···  =
 . Puesto que

.
0 C
.
 
 0 0 . 2 1 
 
.
.
0 0 . 5 3
las matrices A y C son invertibles, entonces M también lo es y además,
 
3 −2 2 −1
A−1 −A−1 BC −1
 
 1 3 0 0 
M −1 = = .
0 C −1  0 0 3 −1 
0 0 −5 2

El siguiente teorema presenta una fórmula para calcular inversas de ma-


trices más generales

2.2.8. Teorema. Sea B una matriz invertible particionada así:


 
B11 B12
B= , con B11 y B22 matrices invertibles.
B21 B22
Si B −1 está particionada así:
 
A11 A12
B −1 = ,
A21 A22
donde Aii (i = 1, 2), matrices cuadradas de igual orden que la matriz Bii
respectivamente entonces:

1. Las matrices A11 y A22 son invertibles.


−1 −1
2. Las matrices B11 − B12 B22 B21 y B22 − B21 B11 B12 son inver-
tibles.
3. La matriz B −1 está dada por

−1
−1 −1 −1
−1 
B11 − B12 B22 B21 −B11 B12 B22 − B21 B11 B12
 
 
−1 −1
−1 −1
−1
−B22 B21 B11 − B12 B22 B21 B22 − B21 B11 B12

35
2.2. Determinantes Matrices particionadas

Demostración. De la igualdad
    
B11 B12 A11 A12 I 0
BB −1 = = =I
B21 B22 A21 A22 0 I
se obtienen las igualdades

B11 A11 + B12 A21 = I


B21 A11 + B22 A21 = 0
(2.1)
B11 A12 + B12 A22 = 0
B21 A12 + B22 A22 = I
−1
Ahora, premultiplicando ambos miembros de (2.1(b)) por B22 , se obtiene
:
−1 −1
B22 B21 A11 + A21 = 0, o sea, A21 = −B22 B21 A11 .

Sustituyendo A21 en (2.1(a)), se obtiene

−1

B11 − B12 B22 B21 A11 = I .
−1
Esto quiere decir que las matrices B11 − B12 B22 B21 y A11 son invertibles
y que una es la inversa de la otra.

−1
Premultiplicando ambos miembros de (2.1(c)) por B11 , se obtiene :

−1 −1
A12 + B11 B12 A22 = 0, o sea, A12 = −B11 B12 A22 .

Sustituyendo A12 en (2.1(d)), se obtiene:

−1

B22 − B21 B11 B12 A22 = I .
−1
Esto quiere decir que las matrices B22 − B21 B11 B12 y A22 son invertibles
y que una es la inversa de la otra.

Por lo anterior,

−1
−1 −1 −1
−1
A11 = B11 − B12 B22 B21 A12 = −B11 B12 B22 − B21 B11 B12

−1 −1
−1 −1
−1
A21 = −B22 B21 B11 − B12 B22 B21 A22 = B22 − B21 B11 B12


A continuación enunciamos y demostramos un teorema que involucra ma-


trices particionadas y el rango de una matriz.

36
Matrices particionadas 2.3. Traza de una matriz
 
A11 A12
2.2.9. Teorema. Sea A = , donde A11 es una matriz in-
A21 A22
−1
vertible r × r. Si ρ(A) = ρ(A11 ), entonces A22 = A21 A11 A12 .

Demostración. Puesto que A11 es una matriz invertible, entonces


ρ(A11 ) = r (ver teorema 1.4.8).

   
I 0 I −A−1
11 A12
Ahora, las matrices P =  y PQ =  
− A21 A−1
11 I 0 I
son invertibles, puesto que |P | = |Q| = 1 6= 0. En consecuencia, por el
teorema 1.4.5, la matriz A y la matriz
 
A11 0
P AQ =
0 A22 − A21 A−1
11 A12

tienen rango r. Puesto que el número máximo de las linealmente inde-


pendientes de las matrices P AQ y A11 es r (véase el teorema 1.4.5(2)), en-
tonces necesariamente A22 −A21 A−1 −1
11 A12 = 0, o sea A22 = A21 A11 A12 . 

2.3. Traza de una matriz

En ciertos contextos, la suma de los elementos de la diagonal de una matriz


juega un papel importante. Por ejemplo, la traza de una matriz aparece en
la evaluación de las integrales requeridas en el estudio de la distribución
3
normal multivariante (véase el teorema 1.10.1 de [ ]) y el valor esperado
de formas cuadráticas (véase el teorema 4.6.1 de [ ]). 4
2.3.1. Denición. Sea A una matriz cuadrada. La traza de A se deno-
ta por Tr(A) y se dene como la suma de los elementos de la diagonal
principal de A. Ésto es,
n
X
Tr(A) = hAiss .
s=1

2.3.2. Nota. Puesto que los elementos de la diagonal principal de A son


los mismos que los elementos de la diagonal principal de AT , entonces

Tr(A) = Tr(AT ) .

37
2.3. Traza de una matriz Matrices particionadas

2.3.3. Teorema. Sean A y B son matrices cuadradas del mismo orden.


Si α y β son escalares, entonces

Tr(αA + βB) = α Tr(A) + β Tr(B) .

Demostración. Usando la estructura de espacio vectorial de las ma-


trices, así como la denición de traza se tiene:

n
X
Tr(αA + βB) = hαA + βBiss
s=1
Xn
= (α hAiss + β hBiss )
s=1
Xn n
X
= α hAiss + β hBiss
s=1 s=1
= α Tr(A) + β Tr(B) .


2.3.4. Teorema. Si A es una matriz m×n y B es una matriz n×m ,


entonces

Tr(AB) = Tr(BA) .

Demostración. Usando la denición de traza y la denición de pro-


ducto de matrices obtenemos,

n
X
Tr(AB) = hABiss
s=1
Xn m
X
= hAisk hBiks
s=1 k=1
Xm X n
= hBiks hAisk
k=1 s=1
Xm
= hBAikk = Tr(BA) .
k=1


38
Matrices particionadas 2.4. Ejercicios

2.3.5. Corolario. Sea A una matriz cuadrada de orden n. Si P es una


matriz invertible n × n, entonces
Tr(A) = Tr(P −1 AP ) = Tr(P AP −1 ).

Demostración. Por el teorema anterior,

Tr(A) = Tr(AI) = Tr(AP P −1 ) = Tr(P −1 AP )


= Tr(P P −1 A) = Tr(P −1 P A) = Tr(P AP −1 ).

2.3.6. Corolario. Si A m × n, entonces
es una matriz
n X
X m
2
Tr(AAT ) = Tr(AT A) = hAisk .
s=1 k=1
T
Además, Tr(AA ) = 0 sii A = 0.

Demostración. Por denición de traza y por el teorema 2.3.4,


m
X
Tr(AAT ) AAT


= ss
s=1
m n m X
n
X X

T X
2
= A sk A ks = A sk ;
s=1 k=1 s=1 k=1

Esto es, Tr(AAT ) es la suma de los cuadrados de los elementos de A. De


esto se sigue entonces que, Tr(AAT ) = Tr(AT A) y además que Tr(AAT ) =
0 si y sólo si A = 0. 

2.4. Ejercicios
1. Utilice matrices particionadas para calcular el determinante y la
matriz inversa (si existe) de cada una de las matrices siguientes
:
   
5 3 0 0 3 1 1 −1
 3 2 0 0   2 1 −1 1 
M1 =   M2 =  
 3 −2 2 1   0 0 1 1 
2 1 5 3 0 0 4 5
2. Demuestre el inciso (2) del teorema 2.2.3.
3. Demuestre el corolario 2.2.4.
4. Demuestre la proposición 2.2.6.

39
2.4. Ejercicios Matrices particionadas

5. Sean a, b, c y d escalares no nulos y sea n ∈ N. Calcule el deter-


minante y la matriz inversa, cuando exista, de la matriz

 
aIn bIn
M= .
cIn dIn

6. Sean A una matriz cuadrada de orden n y B una matriz cuadra-



0 A
da de orden k. Demuestre que si M = o si M =
B C
 
C A
, entonces |M | = (−1)nk |A| |B|. (Sug.: Utilice induc-
B 0
ción sobre el orden de la matriz B ).
7. Sean A y B matrices cuadradas.
a ) Dar condiciones necesarias y sucientes para que la matriz
 
0 A
M=
B C

sea invertible. Si M es invertible, exprese M −1 en términos


de las matrices A, B y C .
b ) Dar condiciones necesarias y sucientes para que la matriz
 
C A
M=
B 0

sea invertible. Si M es invertible, exprese M −1 en términos


de las matrices A, B y C .
8. Utilice los resultados que obtuvo en el problema anterior para
calcular la matriz inversa de cada una de las matrices siguientes:

   
0 0 2 1 1 −1 1 1
 0 0 5 3   −1 1 4 5 
M1 =   M2 =  .
 5 3 3 −2   3 1 0 0 
3 2 2 1 2 1 0 0

9. Sean A = [aij ]m×n y B = [bij ]n×k . Utilice matrices particionadas


para demostrar que:
a ) Si A tiene una la nula, entonces AB tiene una la nula.
(Sug.: Particione la matriz A por las).
b ) Si B tiene una columna nula, entonces AB tiene una colum-
na nula. (Sugerencia: Particione la matriz B por columnas).

40
Matrices particionadas 2.4. Ejercicios

A11 , A22 y A33 matrices cuadradas.


10. Sean Demuestre que si
   
A11 A12 A13 A11 0 0
M = 0 A22 A23  ó M =  A21 A22 0 
0 0 A33 A31 A32 A33
entonces |M | = |A11 | |A22 | |A33 |.
11. Demuestre que si A11 , A22 y A33 son matrices invertibles, en-
tonces la matriz M = diag (A11 , A22 , A33 ) es invertible y
 −1 
A11 0 0
M −1 =  0 A−1
22 0 
0 0 A−1
33

12. Sean a∈R y An×n una matriz invertible, entonces


 
a x
det = |A| (a − xA−1 y).
y A
(Sugerencia: Use el teorema 2.2.3)
13. Verique que
 
I A
det = det(C − BA).
B C
(Sugerencia: Use el corolario 2.2.4)
14. Muestre que
   
In B Im A
det = det
A Im B In
y concluya que |Im − AB| = |In − BA|.
15. Suponga que las matrices que abajo aparecen son de tamaño
apropiado, donde I es la matriz identica y que A11 es una matriz
invertible. Encuentre matrices X y Y tales que el producto que
sige tiene la forma indicada. Encuentre además B22 .
    
I 0 0 A11 A12 B11 B12
 X I 0   A21 A22  =  0 B22 
Y 0 I A32 A33 0 B32
16. Demuestre que si A es una matriz invertible 2 × 2, entonces
Tr(A) = det(A) · Tr(A−1 ).
17. Sea V el espacio vectorial de las matrices n × n; (V = Mn×n )
. Demuestre que la función h ; i : V × V → M denida por
hA; Bi = Tr(AB T ) es un producto interno en V . (Vea el apartado
1.2.3 del capítulo 1).

41
2.4. Ejercicios Matrices particionadas

18. Sean A y B matrices cuadradas de orden n. Demuestre que

Tr(AB T ) ≤ (Tr(AAT ) Tr(BB T ))1/2 .


19. Si A, B ∈ Mn×n , muestre que AB−BA 6= I . (Sugerencia: Utilice
la función traza)
20. Si T : Mn×n → R es una transformación lineal, entonces existe
una matriz A tal que T (M ) = Tr(AM). (Escriba T (M ) en tér-
minos de T (Eij ), siendo Eij los elementos de la base estándar
de las matrices)
21. Calcule dim W , donde W = {A : Tr(A) = 0}.
22. Sean A B matrices cuadradas del mismo orden
y
k k
a) Muestre que Tr((AB) ) = Tr((BA) ).
k k k
b) Muestre con un ejemplo que Tr((AB) ) 6= Tr(A B ).

42
CAPÍTULO 3

Valores propios y vectores propios.


Diagonalización

Este capítulo consta de cuatro secciones. Con el n de dar una idea de


lo que haremos en las dos primeras secciones, consideraremos un espacio
vectorial U y una transformación lineal T : U → U. Ahora; si existe una
base ordenada B = {u1 , u2 , . . . , un } de U tal que [T ]BB es una matriz
diagonal, es decir,
 
λ1 0 ··· 0
 0 λ2 ··· 0 
[T ]BB =D= . .  ,
 
. ..
 .. .
. . . 
.
0 0 ··· λn
entonces
T (ui ) = λi ui ; i = 1, 2, . . . , n ,

esto es, T (ui ) es un múltiplo escalar de ui . Este hecho da información


inmediata acerca de la transformación lineal T. Por ejemplo, la imagen
de T es el espacio generado por los vectores ui para los cuales λi 6= 0,
y el núcleo de T es el espacio generado por los restantes vectores ui . En
la sección 3.2 responderemos las preguntas: ¾Para qué transformaciones
lineales T existe una tal base B? y si existe, ¾Cómo encontrarla?. Las
respuestas a estas preguntas están directamente ligadas a los conceptos
de valor propio y vector propio, los cuales serán abordados en la sección
3.1. Veremos en esta sección, que el cálculo de los valores propios y los
vectores propios de una transformación lineal T se reduce al cálculo de
los valores propios y los vectores propios de una cierta matriz A. Por
otro lado, en las secciones 3.3 y 3.4 consideraremos los conceptos de valor
propio, vector propio y diagonalización de matrices simétricas, los cuales
son particularmente importantes en la teoría y en aplicaciones del álgebra
lineal.

43
3.1. Valores propios y vectores propios Diagonalización de matrices

3.1. Valores propios y vectores propios

Un problema que se presenta con frecuencia en el Álgebra lineal y sus apli-


caciones es el siguiente: Dado un espacio vectorial U y dada una transfor-
mación lineal T : U → U , encontrar valores de un escalar λ para los cuales
existan vectores u 6= 0 tales que T (u) = λu. Tal problema se denomina
un problema de valores propios (la gura 3.1 nos ilustra las posibles situa-
ciones). En esta sección veremos cómo resolver dicho problema.

3.1.1. Denición. Sean U un espacio vectorial y T : U → U una trans-


formación lineal. Se dice que el escalar λ es un valor propio de T , si existe
un vector u 6= 0 de U tal que T (u) = λu. A dicho vector no nulo u se le
llama un vector propio de T correspondiente al valor propio λ, o se dice
que es λ-vector de T .
Nota. Los valores propios se denominan también eigenvalores o valores
característicos y los vectores propios se denominan también eigenvectores.

T(u)= λ u u u u

u T(u)= λ u

T(u)= λ u
T(u)= 0

λ>1 0<λ<1 λ<0 λ=0

Figura 3.1. Interpretación geométrica de vector propio

3.1.2. Ejemplo. Calcule los valores propios de la transformación lineal


T : R2 → R2 , dada por T (x, y) = (2x, x + 3y).

De acuerdo con la denición anterior; el escalar λ es un vector propio T sii


existe un vector u = (x, y) 6= 0 de R2 tal que T [(x, y)] = (2x, x + 3y) =
2
λ(x, y), lo que equivale a que exista un vector u = (x, y) 6= 0 de R que
satisfaga el sistema

2x = λx
x + 3y = λy .
44
Diagonalización de matrices 3.1. Valores propios y vectores propios

Ahora, si x 6= 0, entonces se tiene que λ=2 y por lo tanto y = −x. Esto


quiere decir que todos los vectores de la forma

u = (x, y) = (x, −x); x ∈ R, x 6= 0

son 2-vectores propios de T. En efecto:

T [(x, −x)] = (2x, −2x) = 2(x, −x) .

De otro lado, si x = 0 y y 6= 0 entonces λ = 3. Esto quiere decir que todos


los vectores de la forma

u = (x, y) = (0, y); y ∈ R, y 6= 0

son 3-vectores propios de T. En efecto:

T [(0, y)] = (0, 3y) = 3(0, y) . Λ

La gura 3.2 nos ilustra el ejemplo anterior.

,
T(u ) =3 (0, y)

,
u = (0, y)

x
u = (x, −x)

T(u) =2 (x, −x)

Figura 3.2. Vectores propios de T (x, y) = (2x, x + 3y)

45
3.1. Valores propios y vectores propios Diagonalización de matrices

En el ejemplo anterior observamos que a cada vector propio de T le cor-


responde un número innito de vectores propios (todo un subespacio de
U ⊂ R2 , sin el vector nulo). Esto es válido en general, tal como se establece
en la proposición siguiente.

3.1.3. Proposición. Sean U un espacio vectorial, T : U → U una trans-


formación lineal y λ un valor propio de T. El conjunto S(λ) de todos los
λ-vectores propios de T junto con el vector 0, es un subespacio de U.

Demostración. De acuerdo con la denición de transformación lin-


eal, así como de vector y valor propio se tiene:

1. Si u1 ∈ S(λ) y u2 ∈ S(λ) entonces

T (u1 + u2 ) = T (u1 ) + T (u2 ) = λ(u1 + u2 ) .


Esto es, u1 + u2 ∈ S(λ).
2. Si u ∈ S(λ) y α ∈ R entonces
T (αu) = αT (u) = λ(α · u) .
Esto es, αu ∈ S(λ).

De acuerdo con el teorema 1.2.6, S(λ) es un subespacio vectorial de U. 


3.1.4. Denición. Sean U un espacio vectorial, T :U →U una transfor-
mación lineal y λ un valor propio de T.

1. El subespacio de U, S(λ), mencionado en el teorema anterior, se


denomina espacio propio asociado al valor propio λ.
2. La dimensión de S(λ) se denomina multiplicidad geométrica del
valor propio λ.
3.1.5. Nota. Sean U un espacio vectorial, T : U → U una transforma-
ción lineal, B una base ordenada para U y A = [T ]BB , la matriz de la
transformación T referida a la base B. Entonces para cada u ∈ U se tiene
[T (u)]B = A [u]B (ver teorema 1.3.8). En particular, u es un λ-vector pro-
pio de T si y sólo si u 6= 0 y A [u]B = [T (u)]B = [λu]B = λ [u]B . Esto es,
u es un λ-vector propio de T si y sólo si u 6= 0 y A [u]B = λ [u]B . Por esta
razón, y porque resulta en otros contextos, consideramos a continuación
los conceptos particulares de valor propio y vector propio de una matriz
cuadrada A.

46
Diagonalización de matrices 3.1. Valores propios y vectores propios

3.1.6. Denición. Sea A una matriz cuadrada de orden n.

1. Se dice que el escalar λ es un valor propio de A, si existe un


vector n × 1, x 6= 0 tal que Ax = λx.
2. Si λ es un valor propio de A y si el vector n × 1, x 6= 0 es tal
que Ax = λx. Entonces se dice que x es un vector propio de A
correspondiente al valor propio λ, o que x es un λ-vector de A.

En el caso especial de la transformación lineal; A : Rn → Rn ; x → y =


Ax, esta la denición anterior concuerda con la denición 3.1.1 (véase la
sección 1.3). De otro lado, según la denición anterior y la nota 3.1.5,
odemos enunciar el siguiente teorema.

3.1.7. Teorema. Sean U un espacio vectorial, T : U → U una transfor-


mación lineal, B una base ordenada para U y A = [T ]BB .

1. λ es un valor propio de T sii λ es un valor propio de A.


2. u ∈ U es un λ-vector propio de T sii x = [u]BB es un λ-vector
propio de A.

Dicho teorema nos garatiza entonces, que el cálculo de los valores y vec-
tores propios de una transformación lineal se reduce al cálculo de los val-
ores y vectores propios de una cierta matriz A. En lo que sigue, veremos
cómo calcular los valores y vectores propios de una matriz.

Sea A una matriz n × n. Por denición, el escalar λ es un valor propio


de A sii existe un vector n × 1, x 6= 0 tal que Ax = λx, lo cual equivale
a que el sistema homogéneo de ecuaciones lineales (A − λI)x = 0 tenga
una solución no trivial x 6= 0. Ahora por el teorema 1.4.8 del capítulo 1,
el sistema de ecuaciones lineales (A − λI)x = 0 tiene una solución x 6= 0
sii |A − λI| =
6 0. En consecuencia, el escalar λ es un valor propio de A sii

a11 − λ a12 a13 ··· a1n

a21
a 22 − λ a 23 · · · a2n


pA (λ) = |A − λI| =
a31 a 32 a33 − λ · · · a3n =0

. . . . .
. . . .. .


. . . .

an1 an2 an3 ··· ann − λ
47
3.1. Valores propios y vectores propios Diagonalización de matrices

La expresión pA (λ) = |A − λI| es un polinomio en λ de grado n, el cual


puede expresarse así (ver ejercicio 3.5(9)).

pA (λ) = |A − λI| = a0 + a1 λ + a2 λ2 + · · · + an−1 λn−1 + (−1)n λn .


3.1.8. Denición. Sea A una matriz cuadrada

1. El polinomio pA (λ) = |A − λI| se denomina polinomio carac-


terístico de A.
2. La ecuación pA (λ) = |A − λI| = 0 se denomina ecuación carac-
terística de A.

El siguiente teorema resume buena parte de la discusión anterior.

3.1.9. Teorema. Sea A una matriz cuadrada de orden n

1. El escalar λ es un valor propio de A sii λ es una solución (real)


1
de la ecuación característica de A.
2. A tiene a lo más n valores propios (reales) .
2

3.1.10. Denición. Sea A una matriz cuadrada y λ un valor propio de


A. La multiplicidad algebraica de λ es k, si λ es una raíz del polinomio
característico de A de multiplicidad k.

El siguiente algoritmo, recoge entonces el esquema para calcular los valores


propios y los vectores propios de una matriz A.

Paso 1 Se determina el polinomio característico pA (λ) = |A − λI| .


Paso 2 Se resuelve la ecuación característica pA (λ) = |A − λI| = 0.
Las soluciones (reales) de ésta, son los valores propios de A.

Paso 3 Para cada valor propio λ de la matriz A, se resuelve el sistema

de ecuaciones (A − λ I)x = 0. Las soluciones no nulas de este

sistema son los λ −vectores propios de A.

1Un valor propio de A es un escalar, y, como hemos establecido, en estas notas


los escalares serán números reales a menos que se exprese lo contrario. De hecho, uno
puede estudiar espacios vectoriales donde los escalares son números complejos. No sobra
mencionar que en cursos avanzados de espacios vectoriales, la única restricción para los
escalares es que sean elementos de un sistema matemático llamado cuerpo o campo.
2El teorema fundamental del álgebra establece que toda ecuación polinómica de
grado n, con coecientes complejos, tiene exactamente n raíces complejas, contadas
con sus multiplicidades.
48
Diagonalización de matrices 3.1. Valores propios y vectores propios

3.1.11. Ejemplo. Determine los valores propios y vectores propios de la


matriz
 
1 1 −1
A =  −1 3 −1  .
−1 2 0
Determinemos inicialmente, el polinomio característico de A, pA (λ) =
|A − λI| . Desarrollemos |A − λI| por cofactores por la primera la (véase
el teorema 1.1.5)

1−λ 1 −1

pA (λ) = |A − λI| = −1 3−λ −1

−1 2 −λ

3 − λ −1 −1 −1 −1 3 − λ
= (1 − λ)
− 1 − 1
2 −λ −1 −λ −1 2

= (1 − λ)(λ2 − 3λ + 2) − (1 − λ) − (−λ + 1)
= (1 − λ)(λ2 − 3λ + 2) = −(1 − λ)2 (λ − 2).

De aquí se tiene, que λ = 1 ó λ = 2 son las soluciones de la ecuación carac-


terística pA (λ) = |A − λI| = 0. λ = 1 y λ = 2 so pues los valores propios
de A, con multiplicidades algebraicas k = 2 y k = 1 respectivamente.

Determinemos los vectores propios de A. Los 1−vectores propios de A son


las soluciones no nulas del sistema de ecuaciones lineales (A − 1 · I)x = 0.
Resolvamos dicho sistema usando el método de eliminación de Gauss-
Jordan (véase el teorema 1.4.7 ).
   
0 1 −1 1 0 −1
A − 1 · I =  −1 2 −1  ≈  0 1 −1  = R
−1 2 −1 0 0 0

Donde R es la forma escalonada reducida de la matriz A−1·I (véase el


teorema 1.1.10).

Las soluciones del sistema (A − 1 · I)x = 0 son, por lo tanto, los vectores
de la forma:
     
x1 x3 1
x =  x2  =  x3  = x3  1  , x3 ∈ R.
x3 x3 1
49
3.1. Valores propios y vectores propios Diagonalización de matrices

En consecuencia,  
 1 
Uλ1 = U1 =  1 
1
 

es una base para S(λ1 ) = S(1) y la multiplicidad geométrica del valor


propio λ1 = 1 es 1.

De otro lado, los 2−vectores propios de A son las soluciones no nulas


del sistema de ecuaciones lineales (A − 2 · I)x = 0. Procediendo como en
el cálculo anterior, se tiene:
   
−1 1 −1 1 0 0
A−2·I = −1 1 −1  ≈  0 1 −1  = R
−1 2 −2 0 0 0

Donde R es la forma escalonada reducida de la matriz A − 2 · I. Las


soluciones del sistema (A − 2 · I)x = 0 son los vectores de la forma:
     
x1 0 0
x =  x2  =  x3  = x3  1  , x3 ∈ R.
x3 x3 1

En consecuencia,  
 0 
Uλ2 = U2 =  1 
1
 

es una base para S(λ2 ) = S(2) y la multiplicidad geométrica del valor


propio λ2 = 2 es 1.

En el ejemplo anterior, la multiplicidad geométrica del valor propio λ1 = 1


es menor que su correspondiente multiplicidad algebraica y la multiplici-
dad geométrica del valor propio λ2 = 2 es igual que su correspondiente
multiplicidad algebraica (ver el ejercicio 3.5.2(10)).

3.1.12. Ejemplo. Calculemos los valores y vectores propios de la matriz


 
0 1
A= .
−1 0
Para ello calculemos el polinomio característico de A, pA (λ) = |A − λI| .

−λ 1
pA (λ) = |A − λI| = = λ2 + 1 ,
−1 −λ
50
Diagonalización de matrices 3.1. Valores propios y vectores propios

y resolvemos la ecuación característica de A, pA (λ) = |A − λI| = 0


pA (λ) = λ2 + 1 = (λ + i)(λ − i) sii λ=i ó λ = −i.
Puesto que las soluciones de la ecuación característica de A no son reales,
entonces A no tiene valores propios y por lo tanto no tiene vectores pro-
pios, en el sentido considerado en este texto.

3.1.13. Ejemplo. Sea T : P2 → P2 la transformación lineal denida por:

T a + bx + cx2 = (a + b − c) + (−a + 3b − c)x + (−a + 2b)x2


 

Determine los valores y los vectores propios de la transformación.


Sea B = 1, x, x2 la base canónica de P2 , se tiene entonces que:
 
1 1 −1
[T ]BB = A =  −1 3 −1  .
−1 2 0
De acuerdo con el teorema 3.1.7(1); los valores propios de la transforma-
ción lineal T son los valores propios de la matriz A, los cuales son, según
el ejemplo 3.1.11 λ1 = 1 y λ2 = 2.

De otro lado, del ejemplo 3.1.11 se sabe que Uλ1 = {x1 } es una base
de S(λ1 ) y que Uλ2 = {x2 } es una base de S(λ2 ), donde
   
1 0
x1 =  1  y x2 =  1  .
1 1
Como se estableció en el teorema 3.1.7(2), éstos son respectivamente, los
vectores de coordenadas respecto a la base B (véase apartado 1.2.2) de los
vectores de P2 ;
u1 = 1 + x + x2
y u2 = x + x2 .
0

En consecuencia; Uλ
1
= {u1 } = 1 + x + x2 es una base del espa-
cio de vectores propios de T correspondientes al valor propio λ1 = 1 y
Uλ0 2 = {u2 } = x + x2 es una base del espacio de vectores propios de T


correspondientes al valor propio λ2 = 2.

Terminamos esta sección con dos resultados que involucran matrices se-
mejantes. El primero de ellos relaciona los polimomios característicos de
matrices semenjantes y el segundo relaciona los vectores propios de dichas
matrices.

51
3.1. Valores propios y vectores propios Diagonalización de matrices

3.1.14. Teorema. Si A y B son matrices semejantes, entonces los poli-


nomios característicos de A y B son iguales, y por consiguiente, las ma-
trices A y B tienen los mismos valores propios.

Demostración. Si A y B son matrices semejantes, entonces existe


una matriz invertible P B = P −1 AB. De aquí:
tal que

pB (λ) = |B − λI| = P −1 AP − λP −1 P

= P −1 (A − λI)P = |P −1 | |A − λI| |P |

= |P −1 | |P | |A − λI| = |A − λI|
= pA (λ).


3.1.15. Nota. El converso del teorema anterior no es cierto; o sea, si A y
B son matrices con el mismo polinomio característico, no necesariamente
A y B son matrices semejantes. Para mostrar esto, basta considerar el
siguiente ejemplo.

3.1.16. Ejemplo. Las matrices


   
1 0 1 0
A= y B=
0 1 3 1
tienen el mismo polinomio característico; explícitamente pA (λ) = pB (λ) =
(λ − 1)2 . Sin embargo, A y B no son matrices semejantes, pues para
cualquier matriz invertible P de orden 2 se tiene que:

P −1 AP = P −1 IP = P −1 P = I 6= B.
3.1.17. Proposición. Si A B = P −1 AP son matrices semejantes, en-
y
−1
tonces x es un λ−vector propio de A sii P X es un λ−vector propio de
B.

Demostración. Por denición se tiene

Ax = λx ⇐⇒ AIx = λx
⇐⇒ AP P −1 x = λx
⇐⇒ P −1 AP P −1 x = λP −1 x
Tomando B = P −1 AP tenemos entonces que: x 6= 0 es un λ-vector propio
−1
de A si y sólo si P x 6= 0 es un λ-vector propio de B = P −1 AP. 
52
Diagonalización de matrices 3.2. Diagonalización

3.2. Diagonalización

En esta sección responderemos las preguntas siguientes: Dado un espacio


vectorial U y dada una transformación lineal T :U →U ¾Existe una base
B de U tal que [T ]BB es una matriz diagonal? y si existe ¾cómo encontrar
una tal base?

Como se estableció en el teorema 1.3.14(2), si T : U → U es una trans-


formación lineal, B1 y B2 son bases ordenadas de U, A = [T ]B1 B1 y
P = [I]B2 B1 , entonces D = [T ]B2 B2 = P −1 AP, esto es, las matrices A
yD son semejantes.

Esta consideración nos permite formular las preguntas anteriores en tér-


minos de matrices, así: Dada una matriz cuadrada A, ¾Existe una matriz
diagonal D semejante a la matriz?, en otros términos, existirá una matriz
−1
invertible P tal que P AP = D sea una matriz diagonal? y si existe
¾cómo encontrar una tal matriz P ?

3.2.1. Denición. Sea A una matriz cuadrada. Diremos que A es diago-


nalizable si A es semejante a una matriz diagonal.

3.2.2. Teorema. Sea A una matriz cuadrada de orden n. Si existen n


vectores propios de A
linealmente independientes, entonces A es diago-
−1
nalizable; esto es, existe una matriz invertible P tal que P AP = D es
una matriz diagonal. Además, los vectores columna de P son los vectores
propios de A y los elementos de la diagonal de D son los correspondientes
valores propios de A.

Demostración. Sean λ1 , λ2 , . . . ,λn , los n valores propios de A,


los cuales no son necesariamente diferentes y sean x1 , x2 , . . . , xn , vec-
tores propios de A linealmente independientes, correspondientes respecti-
vamente a cada uno de dichos valores propios.

Sea ahora P la matriz cuya j−ésima columna es el vector propio xj ,


j = 1, 2, . . . , n, la cual particionamos como sigue:
 
P = x1 x2 · · · xn .
Puesto que las columnas de P son linealmente independientes, entonces
P es invertible (teorema 1.4.8).

53
3.2. Diagonalización Diagonalización de matrices

Ahora,
 
AP = A x1 x2 ··· xn
   
= Ax1 Ax2 ··· Axn = λ1 x1 λ2 x2 · · · λn xn
 
λ1 0 ··· 0
  0
 λ2 ··· 0 
= x1 x2 ··· xn

 .. .
. .. . 
. 
 . . . .
0 0 ··· λ3
= PD
Donde D es la matriz diagonal indicada arriba. Por lo tanto, P −1 AP = D,
y el teorema queda demostrado. 

El recíproco de este resultado también es válido y está dado por el siguiente


teorema. La demostración se deja como ejercicio.

3.2.3. Teorema. A una matriz cuadrada de orden n. Si A es diagona-


Sea
P tal que P −1 AP = D es
lizable, es decir, si existe una matriz invertible
una matriz diagonal, entonces existen n vectores propios de A linealmente
independientes. Además, los vectores columna de P son vectores propios
de A y los elementos de la diagonal de D son los correspondientes valores
propios de A.
 
4 −1 2
3.2.4. Ejemplo. Veriquemos que la matriz A =  −6 5 −6  es
−6 3 −4
−1
diagonalizable y encontremos una matriz invertible P tal que P AP = D
sea una matriz diagonal. Para tal n, veamos que A tiene 3 vectores
propios linealmente independientes. En efecto:

El polinomio característico de A, está dado por



4−λ −1 2
= −(λ − 2)2 (λ − 1).

pA (λ) = |A − λI| = −6 5−λ −6
−6 3 −4 − λ

La ecuación característica de A, pA (λ) = |A − λI| = 0 tiene entonces


como solución a λ=2 (de multiplicidad 2) y a λ = 1 (de multiplicidad
1). Estos escalares son pues, los valores propios de A.

Determinemos ahora los vectores propios asociados:

54
Diagonalización de matrices 3.2. Diagonalización

Los 2-vectores propios de A son las soluciones no nulas del sistema de


ecuaciones (A − 2I)x = 0, y los 1-vectores propios de A son las soluciones
no nulas del sistema de ecuaciones (A − 1I)x = 0. Es decir, debemos re-
solver sistemas homogéneos de ecuaciones cuyas matrices de coecientes
son respectivamente:
   
2 −1 2 3 −1 2
A − 2I =  −6 3 −6  y A − 1I =  −6 4 −6  .
−6 3 −6 −6 3 −5

Es fácil vericar que las soluciones del sistema homogéneo (A − 2I)x = 0


son los vectores de la forma
   1 
x1 2 x2 − x3
x =  x2  =  x2 
x3 x3
   
1 −1
1   , x2 , x3 ∈ R,
= x2 2  + x3  0
2
0 1

en consecuencia,
   
 1 −1 
Uλ1 = U2 =  2  ,  0 
0 1
 

es una base para S(λ1 ) = S(2).

De otra parte, se encuentra que las soluciones del sistema (A − 1I)x = 0


son los vectores de la forma
   1   
x1 − 3 x3 −1
1
x =  x2  =  x3  = x3  3  , x3 ∈ R.
3
x3 x3 3

En consecuencia,
 
 −1 
Uλ2 = U1 =  3 
3
 

es una base para S(λ2 ) = S(1).

55
3.2. Diagonalización Diagonalización de matrices

Ahora, los vectores


    
1 −1 −1
x1 =  2  , x2 =  0  y x3 =  3 
0 1 3
son vectores propios de A correspondientes a los valores propios 2, 2 y
1, respectivamente, y son linealmente independientes como se comprueba
fácilmente.

De acuerdo con el teorema 3.2.2, la matriz A es diagonalizable. Por otro


lado, según la demostración del teorema, la matriz
 
  1 −1 −1
P = x1 x2 x3 = 2 0 3 
0 1 3
es invertible y es tal que:
 
2 0 0
P −1 AP = D =  0 2 0 .
0 0 1
3.2.5. Ejemplo. La matriz del ejemplo 3.1.11,
 
1 1 −1
A =  −1 3 −1 
−1 2 0
no es diagonalizable, pues vimos en dicho ejemplo, que la matriz A tiene
dos valores propios: λ1 = 1 y λ2 = 2, y que
   
 1   0 
U1 =  1  y U2 =  1 
1 1
   

son bases para los espacios propios asociados, respectivamente. Así que A
sólo tiene dos vectores propios linealmente independientes.

3.2.6. Teorema. Si λ1 , λ2 , . . . , λk son los valores propios diferentes de


una matriz A y si x1 , x2 , . . . , xk son vectores propios de A correspondi-
entes a los valores propios λ1 , λ2 , . . . , λk , respectivamente, entonces C =
{x1 , , x2 , . . . , xk } es un conjunto linealmente independiente.

Demostración. Haremos la demostración utilizando inducción so-


bre el número k de vectores del conjunto C.

56
Diagonalización de matrices 3.2. Diagonalización

Si C = {x1 }, entonces C es linealmente independiente, pues x1 6= 0.

El teorema es cierto para cuando k = 2. En efecto: Si

(3.1) α1 x1 + α2 x2 = 0,
premultiplicando (3.1) por el escalar λ2 se obtiene:

(3.2) λ2 α1 x1 + λ2 α2 x2 = 0.
De otra parte; premultiplicando (3.1) por la matriz A se llega a:

(3.3) λ1 α1 x1 + λ2 α2 x2 = 0.
Restando (3.3) de (3.2) se obtiene:

(λ2 − λ1 )α1 x1 = 0.
Puesto que x1 6= 0, entonces (λ2 − λ1 )α1 = 0. Dado que λ1 6= λ2 se tiene
entonces que α1 = 0. Reemplazando este valor de α1 en (3.1) se llega a
que α2 x2 = 0, pero x2 6= 0, entonces α2 = 0.

Supongamos ahora que el teorema es cierto para cuando k = j y de-


mostremos que el teorema es cierto para cuando k = j +1. Si

(3.4) α1 x1 + α2 x2 + . . . + αj xj + αj+1 xj+1 = 0,


premultiplicando (3.4) por el escalar λj+1 se obtiene:

(3.5) λj+1 α1 x1 + λj+1 α2 x2 + . . . + λj+1 αj xj + λj+1 αj+1 xj+1 = 0,


De otra parte; premultiplicando (3.4) por la matriz A se llega a:

(3.6) λ1 α1 x1 + λ2 α2 x2 + . . . + λj αj xj + λj+1 αj+1 xj+1 = 0.


Restando (3.6) de (3.5) se obtiene:

(λj+1 − λ1 )α1 x1 + (λj+1 − λ2 )α2 x2 + . . . + (λj+1 − λj )αj xj = 0.


Por hipótesis de inducción se tiene

(λj+1 − λ1 )α1 = (λj+1 − λ2 )α2 = . . . = (λj+1 − λj )αj = 0 .


De otro lado, por hipótesis del teorema los escalares λ1 , . . . , λj , λj+1 son
diferentes, entonces se obtiene que α1 = α2 = . . . = αj = 0. Reemplazan-
do estos valores en 3.4 se llega a que αj+1 xj+1 = 0, pero xj+1 6= 0,
entonces αj+1 = 0. El teorema queda entonces demostrado. 

La prueba del siguiente corolario es consecuencia inmediata de los teore-


mas 3.2.6 y 3.2.2.

57
3.2. Diagonalización Diagonalización de matrices

3.2.7. Corolario. Sea A una matriz cuadrada de orden n. Si A posee n


valores propios distintos, entonces A es diagonalizable.

3.2.8. Ejemplo. La matriz


 
1 2 3
A= 0 4 5 
0 0 6 3×3
es diagonalizable. En efecto, la ecuación característica de A es:
3
pA (λ) = |A − λI| = (−1) (λ − 1)(λ − 4)(λ − 6) = 0.
De esto se sigue que A tiene tres valores propios distintos, a saber: λ1 = 1,
λ2 = 4 y λ3 = 6.

De acuerdo con los teoremas 3.2.2 y 3.2.3, dada la matriz cuadrada A


de orden n; existe una matriz invertible P tal que P −1 AP = D es una
matriz diagonal sii A tiene n vectores propios linealmente independientes.
Además, si existe una tal matriz P , los vectores columna de P son vectores
propios de A y los elementos de la diagonal de D son los valores propios
de A. Quedan así contestadas las preguntas propuestas al comienzo de
esta sección sobre la diagonalización de matrices. El siguiente teorema
responde a las preguntas sobre diagonalización pero formuladas en el con-
texto de las transformaciones lineales.

3.2.9. Teorema. Sea U un espacio de dimensión n y sea T : U → U


una transformación lineal. Existe una base ordenada B2 deU tal que
[T ]B2 B2 = D es una matriz diagonal sii T tiene n vectores propios lin-
ealmente independientes. Además, si B2 = { u1 , u2 , . . . , un } es un base
ordenada de U tal que
 
λ1 0 ··· 0
 0 λ2 ··· 0 
[T ]B2 B2 =D= .
 
. .. . 
 .. .
. . . 
.
0 0 ··· λn
es una matriz diagonal, entonces ui es un λi -vector propio de T, o sea
T (ui ) = λi ui , i = 1, 2, . . . , n.

Demostración. Puesto que las matrices asociadas a transforma-


ciones lineales y referidas a bases arbitrarias son semejantes, y puesto
que el polinomio característico de matrices semejantes es el mismo (ver
teorema 3.1.14), podemos considerar una base arbitraria B1 para U.
58
Diagonalización de matrices 3.2. Diagonalización

Sea pues A = [T ]B1 B1 , la matriz de la transformación T referida a dicha


base B1 , Existe una base ordenada B2 de U tal que D = [T ]B2 B2 =
−1
[I]B2 B1 A [I]B2 B1 es una matriz diagonal sii A es semejante a una ma-
triz diagonal. Ahora por los teoremas 3.2.2 y 3.2.3; A es semejante a una
matriz diagonal sii A tiene n vectores propios linealmente independientes,
lo cual equivale a que T tenga n vectores propios linealmente independi-
entes (ver el apartado 1.2.2)

Además, si B2 = {u1 , u2 , . . . , un } es una base ordenada de U tal que


 
λ1 0 · · · 0
 0 λ1 · · · 0 
[T ]B2 B2 = D =  .
 
. .. . 
 .. .
. . .
. 
0 0 · · · λ1
es una matriz diagonal, entonces, de acuerdo con la denición de la ma-
triz [T ]B2 B2 , T (ui ) = λi ui ; o sea, ui es un λi -vector propio de T,
i = 1, 2, . . . , n . 
3.2.10. Ejemplo. Consideremos la transformación lineal T : P3 → P3
denida por:

T a + bx + cx2 = (4a − b + 2c) + (−6a + 5b − 6c)x + (−6a + 3b − 4c)x2 .


 

Encontremos una base ordenada B2 de U = P2 tal que [T ]B2 B2 = D es


una matriz diagonal.


Sea B1 = 1, x, x2 la llamada base canónica de P2 entonces:
 
4 −1 2
A = [T ]B1 B1 =  −6 5 −6  ,
−6 3 −4
que es la matriz del ejemplo 3.2.4. De dicho ejemplo sabemos que
    
1 −1 −1
x1 =  2  , x2 =  0  y x3 =  3  ,
0 1 3
son vectores propios linealmente independientes de A, correspondientes
respectivamente a los valores propios 2, 2 y 1. Los vectores x1 , x2 y x3
son respectivamente, los vectores de coordenadas respecto a la base B1 de
los vectores de P2 :
u1 = 1 + 2x; u2 = −1 + x2 y u3 = −1 + 3x + 3x2 .
59
3.2. Diagonalización Diagonalización de matrices

Ahora, los valores propios de T son los valores propios de A (ver teorema
3.1.7), esto es, los diferentes valores propios de T son λ1 = 2 y λ2 = 1.
De otro lado, por lo establecido en el apartado 1.2.2, u1 , u2 y u3 son
vectores propios de T linealmente independientes, correspondientes a los
valores propios 2, 2 y 1, respectivamente. En consecuencia, de acuerdo con
el teorema anterior, B2 = {u1 , u2 , u3 } es una base para P2 tal que:
 
2 0 0
[T ]B2 B2 = D =  0 2 0  .
0 0 1

Como hemos visto, dada una matriz cuadrada A de orden n, existe una
matriz invertible P tal que P −1 AP = D es una matriz diagonal sii existen
n vectores propios de A linealmente independientes. En el caso en que A
no posea n vectores propios linealmente independientes, es posible, bajo
cierta condición, que A sea semejante a una matriz triangular superior
T ; es decir , que A sea semejante a una matriz T = [tij ]n×n para la cual
tij = 0 si i > j. El siguiente teorema explicita esta armación.
3.2.11. Teorema. Sea A una matriz cuadrada (real) de orden n. Todas
las soluciones de la ecuación característica de A son reales sii existe una
−1
matriz invertible P (real) tal que P AP = T es una matriz triangular
superior. Además, si existe una tal matriz P, entonces los elementos de
la diagonal de T son los valores propios de A.

Demostración. (=⇒) Haremos la demostración en este sentido, uti-


lizando inducción sobre el orden n de la matriz A. Para cuando n = 2, la
implicación es verdadera. En efecto, de la hipótesis se sigue que A tiene
dos valores propios (reales) los cuales no son necesariamente distintos. Sea
λ un valor propio de A. Existe por lo tanto un vector 2 × 1, x1 6= 0 tal que
Ax1 = λ x1 . Por el teorema1.2.13(3), existe un vector 2×1, x2 6= 0 tal que
B = {x1 , x2 } es una base para M2×1 . Ahora, la matriz P = x1 x2
−1
es invertible; escribamos a P particionada por las así:
 
y1
P −1 = , y1 , y2 ∈ M1×2 ,
y2
entonces se tiene que
   
y1 λ y1 Ax2
P −1 AP =
 
A x1 x2 = =T
y2 0 y2 Ax2
es una matriz triangular superior.

60
Diagonalización de matrices 3.2. Diagonalización

Supongamos ahora que la implicación es verdadera para cuando n = j −1


y demostremos que ésta es verdadera cuando n = j, j ≥ 3. Sea A una
matriz cuadrada de orden j para la cual todas las soluciones de su ecuación
característica son reales. De ésto se sigue que A tiene j valores propios
(reales) los cuales no son necesariamente distintos. Sea λ un valor propio
de A. Existe por lo tanto un vector j × 1, x1 6= 0 tal que Ax1 = λx1 .
Por el teorema 1.2.13(3), existen j − 1 vectores x2 , x3 , . . . , xj de Mj×1
tales que B = {x1 , x2 , x3 , . . . , xj } es una base para Mj×1 . Ahora por el
teorema 1.4.8, la matriz
   
P = x1 x2 ··· xj = x1 M
es invertible. Escribamos la inversa P −1 así:
 
−1 y1
P = , y1 ∈ M1×j , y N ∈ M(j−1)×(j−1) .
N
Entonces se tiene
     
−1 y1   λ y1 AM λ B
P AP = A x1 M = = = T1
N 0 N AM 0 C
es una matriz triangular superior por bloques.

Ahora, las matrices A y T1 tienen el mismo polinomio característico (teo-


rema 3.1.14):
pA (λ) = pT1 (λ) = (λ1 − λ) |C − λI| .
De ésto se sigue, que todas las soluciones de la ecuación característica
de la matriz cuadrada de orden j − 1, C , son reales. Por hipótesis de
inducción, existe una matriz invertible Q tal que Q−1 CQ = T1 es una
matriz triangular superior. Sea ahora:
 
1 0
P2 = ,
0 Q
entonces se tiene que la matriz invertible P = P1 P2 es tal que
   
1 0 λ1 B 1 0
P −1 AP = P2−1 P1−1 AP1 P2 =
0 Q−1 0 C 0 Q
   
λ1 BQ λ1 BQ
= = =T
0 Q−1 CQ 0 T2
es una matriz triangular superior.

La demostración de la otra implicación y de la segunda armación del


teorema quedan como ejercicio para el lector. 
61
3.2. Diagonalización Diagonalización de matrices

3.2.12. Ejemplo. Todas las soluciones de la ecuación característica de la


matriz del ejemplo 3.2.5
 
1 1 −1
A=  −1 3 −1 
−1 2 0 3×3
son reales, pues:

pA (λ) = −(λ − 1)2 (λ − 2) = 0 sii λ1 = 1 ó λ2 = 2 .


De otro lado, como lo establecimos en el ejemplo 3.2.5, la matriz A no es
diagonalizable, pues A sólo posee dos vectores propios linealmente inde-
pendientes. En particular:
  
1 0
x1 =  1  y x2 =  1 
1 1
son vectores propios linealmente independientes correspondientes a los
valores propios λ1 = 1 y λ2 = 2, respectivamente.

Por el teorema anterior, existe una matriz invertible P tal que P −1 AP = T


es una matriz triangular superior. Para encontrar una tal matriz P , demos
un vector x3 tal que B = {x1 , x2 , x3 } sea una base para M3×1 , el vector
 
0
x3 =  2 
3
sirve para tal efecto. Ahora bien, la matriz
 
  1 0 0
P = x1 x2 x3 = 1 1 2 
1 1 3
es invertible y es tal que
 
1 0 −1
P −1 AP = T =  0 2 2 
0 0 1
es una matriz triangular superior.

De acuerdo con el teorema anterior, si A es una matriz cuadrada (real)


cuyos valores propios no son todos reales entonces, no puede existir una
matriz invertible P (real) tal que P −1 AP = T sea una matriz triangular

62
Diagonalización de matrices 3.2. Diagonalización

superior. Ahora bien, hemos mencionado que uno puede estudiar espa-
cios vectoriales donde los escalares sean números complejos (ver pié de
página 2); en este caso, se pueden obtener resultados más amplios. En
particular, se tiene que para toda matriz cuadrada A (real o compleja)
existe una matriz invertible P (real o compleja) tal que P −1 AP = T
sea una matriz triangular superior. Este resultado se tiene, gracias a la
propiedad importante del sistema de los números complejos que establece,
que todo polinomio de grado n con coecientes reales o complejos tiene
exactamente n raíces reales o complejas, contadas sus multiplicidades. En
el teorema siguiente se establece este resultado sin demostración. Quien
desee estudiar sobre éste, puede consultar las secciones 5.5 y 5.6 de [ ]. 1
3.2.13. Teorema. Para toda matriz cuadrada A (real o compleja) existe
una matriz invertible P (real o compleja) tal que P −1 AP = T es una
matriz triangular superior. Además, los elementos de la diagonal de T
son las soluciones de la ecuación característica de A.
3.2.14. Ejemplo. Consideremos la matriz (real)
 
1 0 0
A= 0 0 1 .
0 −1 0
La ecuación característica de A es

pA (λ) = |A − λI| = −(λ − 1)(λ2 + 1)


= −(λ − 1)(λ − i)(λ + i) = 0 .
De esto se sigue que A sólo tiene un valor propio real, a saber, λ1 = 1.

En este caso no es posible que exista una matriz invertible P (real) tal
que P −1 AP = T sea una matriz triangular superior. Sin embargo, en el
contexto de los espacios vectoriales donde los escalares son números com-
plejos, podemos decir que A tiene tres valores propios complejos λ1 = 1,
λ2 = i y λ3 = −i . Efectuando, en este contexto, los cálculos pertinentes,
se encuentra que
     
1 0 0
x1 =  0  , x2 =  −i  y x3 =  i 
0 1 1
son tres vectores propios complejos de A linealmente independientes cor-
respondientes a los valores propios complejos λ1 = 1, λ2 = i y λ3 = −i
63
3.3. Matrices simétricas Diagonalización de matrices

respectivamente. Así que la matriz compleja:


 
  1 0 0
P = x1 x2 x3 = 0 −i i 
0 1 1
es invertible y es tal que
   
1 0 0 1 0 0 1 0 0
P −1 AP =  0 i/2 i/2   0 0 1  0 −i i 
0 −i/2 i/2 0 −1 0 0 1 1
 
1 0 0
=  0 i 0 =D
0 0 −i
es una matriz diagonal, y por lo tanto, es una matriz triangular superior.

3.3. Diagonalización de matrices simétricas

En esta sección limitaremos el estudio de los conceptos de valor propio,


vector propio y diagonalización a matrices simétricas. Dos resultados im-
portantes que veremos es esta sección son los siguientes: (i) Todas las
soluciones de la ecuación característica de toda matriz simétrica (real)
son reales, y (ii) Toda matriz simétrica (real) es diagonalizable, y más
aún, diagonalizable en una forma especial.

Como veremos en el capítulo 4, los valores propios de una matriz simétri-


ca se utilizan como criterio para decidir cuándo una forma cuadrática es
positivamente (negativamente) denida (semidenida) o indenida.

Como se estableció al nal de la sección anterior, uno puede estudiar es-


pacios vectoriales donde los escalares son números complejos. Únicamente
en la demostración del teorema 3.3.1, utilizaremos los hechos siguientes
que involucran números complejos.

1. El conjugado del número complejo z = a+bi, a, b ∈ R, se denota


por z z = a − bi.
y se dene así:
2. Un número complejo z es real sii z = z .
3. La matriz conjugada de la matriz compleja n × n, A, se de nota


por A y cuyos componentes son A
ij
= hAiij , i, j = 1, 2, . . . , n.
64
Diagonalización de matrices 3.3. Matrices simétricas

4. Para todo vector complejo n × 1, x, se tiene: x T x = xx T y


xTx = 0 sii x = 0.
5. Para toda matriz cuadrada A con componentes complejas; |A| =
0 sii existe un vector x 6= 0, con componentes complejas, tal que
Ax = 0.
3.3.1. Teorema. Sea A una matriz (real) cuadrada de orden n. Si A es
una matriz simétrica, entonces todas las soluciones de la ecuación car-
acterística de A: pA (λ) = |A − λI| = 0, son reales. Esto es, A tiene n
valores propios (reales) los cuales no son necesariamente diferentes.

Demostración. Si pA (λ) = |A − λI| = 0, entonces por (5), existe


un vector x 6= 0 tal que:

(3.1) Ax = λx
de esto se sigue que, (ver (3) y (2)):

(3.2) Ax = λx .
Ahora, premultiplicando (3.1) por xT y (3.2) por xT se tiene

(3.3) x T Ax = λx T x y xT Ax = λxT x ,
puesto que x T Ax = (x T Ax)T = xT AT x = xT Ax, de (3.3) se sigue que:

(3.4) λx T x = λxT x .
De (4) se tiene que x T x = xT x, por lo tanto, de (3.4) se concluye que :

(λ − λ)x T x = 0.
Ya que x 6= 0, de (4) se tiene que

(λ − λ) = 0 o sea, λ = λ.
en consecuencia, por (2), λ es un número real. 

En lo que resta de estas notas, no haremos más referencia al sistema de


números complejos.

El teorema 3.2.6 establece que, para cada matriz cuadrada A, los vectores
propios correspondientes a valores propios diferentes son linealmente in-
dependientes. Para matrices simétricas se tiene un resultado más fuerte.
Este resultado se establece en el teorema siguiente.

65
3.3. Matrices simétricas Diagonalización de matrices

3.3.2. Teorema. λ1 , λ2 , . . . , λk son los valores propios diferentes de


Si
una matriz simétrica A y si x1 , x2 , . . . , xk son vectores propios de A corre-
spondientes a los valores propios λ1 , λ2 , . . . , λk , respectivamente, entonces
el conjunto de vectores C = {x1 , x2 , . . . , xk } es ortogonal.

Demostración. Debemos demostrar que hxi ; xj i = xTi xj = 0 si


i 6= j, para i, j = 1, 2, . . . k

Por la hipótesis se tiene que:

(3.5) Axi = λi xi , y

(3.6) Axj = λj xj .
Ahora, premultiplicando (3.5) por xtj y a (3.6) por xi , se obtiene

(3.7) xTj Axi = λi xj T xi y xTi Axj = λj xTi xj ,


puesto que xTj Axi = (xTj Axi )T = xTi AT xj = xTi Axj , de (3.7) se sigue
que:

(3.8) λxTj xi = λj xTi xj .


Ya que xTj xi = xTi xj de (3.8) se concluye que :

(λi − λj )xTi xj = 0.
Puesto que por hipótesis, los valores propios son distintos, entonces xTi xj =
0, si i 6= j, i, j = 1, 2, . . . k . 
3.3.3. Denición. Se dice que una matriz cuadrada P es ortogonal, si P
es invertible y P −1 = P T .
3.3.4. Ejemplo. La matriz
 
1 −2 2
1
P =  2 2 1 
3
2 −1 −2
es ortogonal, pues:
     
1 2 −2 1 2 2 1 0 0
1 1
PPT =P =  2 1   −2 2 −1  =  0 1 0  = I.
2
3 3
2 −2 −1 2 1 −2 0 0 1
3.3.5. Proposición. Una matriz P =
 
x1 x2 · · · xn es ortogonal
sii el conjunto B = {x1 , x2 , . . . , xn } constituye una base ortonormal de
Mn×1 .
66
Diagonalización de matrices 3.3. Matrices simétricas
 
La matriz P = x1 x2 ··· xn es ortogonal sii P T P = I. Ahora
bien,

xT1 xT1 x1 xT1 x2 xT1 xn


   
···
 xT2     xT2 x1
 xT2 x2 ··· xT2 xn 
PTP =  ..  x1 x2 ··· xn =
  
. . .. .
. . .

 .   . . . . 
xTn T
xn x1 xTn x2 ··· xTn xn

Es fácil entonces observar, que PTP = I si y sólo si se cumple que:


(
1 si i 6= j
xTi xj = ; i, j = 1, 2, . . . , n ,
0 si i=j

lo cual equivale a que B = {x1 , x2 , . . . , xn } es una base ortonormal de


Mn×1 .

3.3.6. Teorema. Si λ∗ es un valor propio de una matriz simétrica, en-


tonces las multiplicidades algebraica y geométrica de λ∗ son iguales.

Demostración. Sea A λ∗ un
una matriz simétrica de orden n y sea

valor propio de A. Supongamos que la multiplicidad geométrica de λ es
r. Por el teorema 1.2.24, existe una base ortonormal B = {x1 , x2 , . . . , xr }
∗ ∗
del espacio de vectores propios asociados a λ , S(λ ). Si r = n, la matriz
 
P = x1 x2 · · · xn es ortogonal (proposición 3.3.5), y de acuerdo
con el teorema 3.2.2,

P T AP = P −1 AP = D = λ∗ I .

Ahora, las matrices A y D tienen igual polinomio característico:

pA (λ) = pD (λ) = |λ∗ I − λI| = (λ∗ − λ)n .

De esto se sigue que λ∗ es un valor propio de A con multiplicidad alge-


braica r = n.

De otra parte, si r < n, existen n − r vectores y1 , y2 , . . . , yn−r de Mn×1


tales que B = {x1 , . . . , xr , y1 , . . . , yn−r } es una base ortonormal de Mn×1
(teorema 1.2.25). Por la proposición 3.3.5, la matriz
   
P = x1 x2 ··· xr y1 y2 ··· yn−r = X Y
67
3.3. Matrices simétricas Diagonalización de matrices

es ortogonal. Consideremos ahora la matriz T = P T AP = P −1 AP, es


decir, la matriz:

XT
 
 
T = A X Y
YT

λ∗ I X T AY
 
=
0 Y T AY
λ∗ I
 
B
= .
0 C
Puesto que A es simétrica,T T = (P T AP )T = P T AT P = P T AP = T, o
sea  ∗   ∗ 
λ I B λ I 0
= ,
0 C B CT
por lo tanto B=0 y
λ∗ I
 
0
T = .
0 C
Puesto que las matrices A y T son semejantes, entonces tienen el mismo
polinomio característico:

pA (λ) = pT (λ) = |T − λI| = (λ∗ − λ)r |C − λI| .


De ésto se sigue, que λ∗
es un valor propio de A con multiplicidad alge-
braica k ≥ r. Veamos que k = r. Si k > r, entonces se debe tener que
|C − λ∗ I| = 0, y por lo tanto existe un vector (n − r) × 1, w 6= 0 tal que
Cw = λ∗ w.
 
0
Consideremos ahora el vector no nulo u ∈ Mn×1 dado por u = P .
w
Es decir,
 
0

 0 

.
.
 
 . 
   
0  0 
u=P = [x1 x2 · · · xr y1 y2 · · · yn−r ]  
w 
 w1 


 w2 

.
.
 
 . 
wn−r
= w1 y1 + w2 y2 + · · · wn−r yn−r .
Esto es, el vector u ∈ hy1 , y2 , . . . , yn−r i y u∈
/ hx1 , x2 , . . . , xr i
68
Diagonalización de matrices 3.3. Matrices simétricas

De otro do, el vector λ∗ -vector propio de A. En efecto,


u, es un

λ∗ I
    ∗  
0 0 λ I 0 0
Au = P P tP =P
0 C w 0 C w
   
0 0
= P =P
Cw λ∗ w
 
0
= λ∗ P = λ∗ u .
w
Esto indica, que B = {x1 , x2 , . . . , xr , ur+1 } es un conjunto de r+1 vec-
tores propios linealmente independientes correspondientes al valor propio
λ∗ , lo cual contradice el hecho de que la multiplicidad geométrica de λ∗
sea r. 
3.3.7. Teorema. Si A es una matriz simétrica de orden n, entonces A
tiene n vectores propios ortogonales, y por tanto, linealmente independi-
entes.

Demostración. Sean λ1 , λ2 , . . . , λk los diferentes valores propios


de A. Supongamos que la multiplicidad algebraica de λi es mi, mi =
1, 2, . . . , k; esto es, supongamos que
pA (λ) = (−1)n (λ − λ1 )m1 (λ − λ2 )m2 · · · (λ − λk )mk ,
donde m1 + m2 + · · · + mk = n.

Por el teorema anterior, la multiplicidad geométrica de λi es mi , i =


1, . . . , k. Sean ahora:

U1 = x11 , . . . , x1m1 , · · · , Uk = xk1 , . . . , xkmk


 

bases ortogonales de S(λ1 ), · · · , S(λk ) respectivamente. Entonces por el


teorema 3.3.2, el conjunto de n vectores propios de A :
U = U1 ∪ U2 ∪ · · · ∪ Uk
 1
x1 , . . . , x1m1 , x21 , . . . , x2m2 , . . . , xk1 , . . . , xkmk

=
es ortogonal. 

La demostración del siguiente corolario es consecuencia inmediata del teo-


rema 3.3.7 y del teorema 3.2.2.

3.3.8. Corolario. Toda matriz simétrica es diagonalizable.

69
3.3. Matrices simétricas Diagonalización de matrices

3.3.9. Denición. Sea A una matriz cuadrada. Se dice que A es ortogo-


T
nalmente diagonalizable si existe un matriz ortogonal P tal que P AP =
D es una matriz diagonal.

3.3.10. Teorema. Si A es una matriz simétrica, entonces A es ortogo-


nalmente diagonalizable; esto es, existe una matriz ortogonal P tal que
P T AP = D es una matriz diagonal. Más aún, las columnas de la matriz
P son los vectores propios de A y los elementos de la diagonal de D son
los valores propios de A.

Demostración. Sea A es una matriz simétrica de orden n, entonces


A tiene n x1 , x2 , . . . , xn (teorema 3.3.7).
vectores propios ortonormales
Supongamos que éstos corresponden a los valores propios λ1 , λ2 , . . . , λn ,
 
respectivamente. La matriz P = x1 x2 · · · xn es ortogonal (pro-
posición 3.3.5), y de acuerdo con la demostración del teorema 3.2.2, se
tiene que

 
λ1 0 ··· 0
 0 λ2 ··· 0 
P T AP = P −1 AP = D =  . .  .
 
. ..
 .. .
. . . 
.
0 0 ··· λn

El recíproco del teorema 3.3.10 también es válido y está dado por el sigu-
iente

3.3.11. Teorema. Si una matriz A es ortogonalmente diagonalizable, en-


tonces A es simétrica.

Demostración. Por hipótesis existe una matriz ortogonal P tal que


P T AP = D es una matriz diagonal. De aquí que:

A = P DP T = (P DT P T )T = (P DP T )T = AT ,
o sea, A es una matriz simétrica. 
70
Diagonalización de matrices 3.3. Matrices simétricas

3.3.12. Ejemplo. Para la matriz simétrica:


 
5 2 2
A= 2 2 −4 
2 −4 2 3×3
encontremos una matriz ortogonal P tal que P t AP = D sea una matriz
diagonal.

Para ello debemos encontrar tres vectores propios de A ortonormales.


Determinemos el polinomio característico de A, pA (λ) = |A − λI| .

5−λ 2 2
−4 = −(λ + 3)(λ − 6)2

pA (λ) = |A − λI| = 2 2−λ
2 −4 2−λ
Resolvamos la ecuación característica de A, pA (λ) = |A − λI| = 0.
2
pA (λ) = −(λ + 3)(λ − 6) = 0 sii λ = −3 ó λ=6
de aquí que los diferentes valores propios de A son λ1 = −3 y λ2 = 6.

Por denición, los (−3)-vectores A son las soluciones no nulas


propios de
del sistema de ecuaciones lineales (A+3I) x = 0 y los 6-vectores propios de
A son las soluciones no nulas del sistema de ecuaciones lineales (A−6I)x =
0. Se tiene entonces:
   
8 2 2 −1 2 2
A + 3I =  2 5 −4  y A − 6I =  2 −4 −4  .
2 −4 5 2 −4 −4
Es fácil vericar, que las soluciones del sistema homogéneo (A + 3I)x = 0
son los vectores de la forma:
   1   
x1 − 2 x3 −1
1
x =  x2  =  x3  = x3  2  ; x3 ∈ R.
2
x3 x3 2
En consecuencia,  
 −1 
U
bλ = U
1
b−3 =  2  ,
2
 
es una base para S(λ1 ) = S(−3). Aplicando el proceso de ortogonalización
de Gram-Scmidt a esta base (vea el teorema 1.2.24), se llega a que:
  
 1 −1 
U
bλ = U
1
b−3 =  2  ,
3
2

71
3.3. Matrices simétricas Diagonalización de matrices

es una base ortonormal de S(λ1 ) = S(−3).

De otra parte, se encuentra que las soluciones del sistema homogéneo


(A − 6I)x = 0 son los vectores de la forma:
   
x1 2x2 + 2x3
x =  x2  =  x2 
x3 x3
   
2 2
= x2  1  +x3  0  ; x2 , x3 ∈ R.
0 1

En consecuencia,
   
 2 2 
U
bλ b6 =  1  ,  0  ,
=U
2
0 1
 

es una base para S(λ2 ) = S(6). Aplicando el proceso de ortogonalización


de Gram-Schmidt a esta base se llega a que:
    
 1 2 2
1 
b6 = √  1  , √  −4  ,
U

2
=U
 5 3 5
0 5

es una base ortonormal de S(λ2 ) = S(6).

Según la demostración del teorema 3.3.7,


      
 1 −1 1
2
1
2 
bλ ∪ U
U =U 1

2
=  2  , √  1  , √  −4  ,
3 5 0 3 5
2 5

es un conjunto ortonormal de vectores propios de A. Ahora, según la


demostración del teorema 3.3.10, la matriz,

1 2 2
 
√ √
 −3 5 3 5 
 
 2 1 4 
P =
 3 √ − √ 
 5 3 5 

 2 2 
0 √
3 3 5
72
Diagonalización de matrices 3.3. Matrices simétricas

es ortogonal tal que


 
−3 0 0
P T AP = P −1 AP = D =  0 6 0 .
0 0 6
3.3.13. Teorema. Sea A una matriz simétrica de orden n. Supongamos
que A que tiene ρ (0 ≤ ρ ≤ n) valores propios, no necesariamente difer-
entes, estrictamente positivos y η (0 ≤ η ≤ n) valores propios, no nece-
sariamente diferentes, estrictamente negativos. Entonces existe una ma-
triz invertible P tal que:
 
Iρ 0 0
P T AP =  0 −Iη 0 .
0 0 0
Si además existe otra matriz invertible Q tal que
 
Iρ0 0 0
QT AQ =  0 −Iη0 0 ,
0 0 0
entonces ρ = ρ0 y η = η0 .

Demostración. Sean λ1 , λ 2 , . . . , λ ρ los valores propios de A estric-


tamente positivos (no necesariamente distintos) y sean x1 , x2 , . . . , xρ
vectores propios ortonormales de A asociados respectivamente a tales va-
lores propios. Sean además β1 , β2 , . . . , βη los valores propios de A estric-
tamente negativos (no necesariamente distintos) y y1 , y2 , . . . , yη vectores
propios ortonormales de A asociados a dichos valores propios negativos y
sean z1 , z2 , . . . , zγ , γ = n − (ρ + η), vectores propios ortonormales de
A asociados al valor propio nulo (0). Según la demostración del teorema
3.3.10, la matriz M , cuyas columnas son los correspondientes vectores
propios organizados adecuadamente, es ortogonal. Es decir, la matriz
 
M= x1 x2 ··· xρ y1 y2 ··· yη z1 z2 ··· zγ
es ortogonal. De otro lado, se tiene que M t AM = D es una matriz diag-
onal con los valores propios en su diagonal y dispuestos así:
 
Dρ 0 0
M t AM = D =  0 Dη 0 
0 0 0
73
3.3. Matrices simétricas Diagonalización de matrices

donde:
   
λ1 0 ··· 0 β1 0 ··· 0
 0 λ2 ··· 0   0 β2 ··· 0 
Dρ =  . y Dη =  . .  .
   
. .. .  . ..
 .. .
. . . 
.  .. .
. . . 
.
0 0 ··· λρ 0 0 ··· βη
Sea ahora D∗ la matriz diagonal:

Dρ∗
 
0 0

D = 0 Dη∗ 0 
0 0 Iγ
donde
 1 
√ 0 ··· 0
 λ1 
 1 
 0 √ ··· 0 
∗ λ2
 
Dρ = 
 .
 y.
. .. . 
 .. .
. . .
.

 
 1 
0 0 ··· p
λρ
 1 
√ 0 ··· 0
 −β1 
 1 
 0 √ ··· 0 
Dη∗ = 
 −β2 

 . . .. . 
. . . .
. . .
 
 
 1 
0 0 ··· p
−βη
La matriz D∗ es invertible y es tal que:

Dρ∗ Dρ Dρ∗
 
0 0
D∗ DD∗ ∗t t
= D M AM D =∗  0 Dη∗ Dη Dη∗ 0 
0 0 Iγ 0 Iγ
 
Iρ 0 0
=  0 −Iη 0  .
0 0 0
En consecuencia, la matriz invertible P = M D∗ es tal que:
 
Iρ 0 0
P t AP =  0 −Iη 0  .
0 0 0
74
Diagonalización de matrices 3.3. Matrices simétricas

Supongamos ahora que las matrices invertibles P y Q son tales que:


   
Iρ 0 0 Iρ0 0 0
P t AP =  0 −Iη 0  y Qt AQ =  0 −Iη0 0 .
0 0 0 0 0 0
y demostremos que ρ = ρ0 y η = η0 .

Escribamos las matrices P y Q particionadas por columnas así:


 
P = x1 x2 ··· xρ xρ+1 ··· xn y
 
Q = y1 y2 ··· yρ0 yρ0 +1 ··· yn
Por hipótesis se tiene que:
 T

 xi Axi = 1 si i = 1, 2 . . . , ρ
xT Ax = 0

6 j (i, j = 1, 2 . . . , n)
si i =
i j



T
yi Ayi ≤ 0 si i = ρ0 + 1, ρ0 + 2 . . . , n
 T
yi Ayj = 0 si i 6= j (i, j = 1, 2 . . . , n).
Ahora, el conjunto de vectores de Mn×1 :
C = {x1 , x2 , . . . , xρ , yρ0 +1 , yρ0 +2 , . . . , yn }
es linealmente independiente. En efecto, si

λ1 x1 + . . . + λρ xρ + β1 yρ0 +1 + . . . + βn−ρ0 yn = 0
entonces el vector

U = λ1 x1 + λ2 x2 + . . . + λρ xρ
= −β1 yρ0 +1 − β2 yρ0 +2 − . . . − βn−ρ0 yn
es tal que:

U T AU = (λ1 x1 + . . . + λρ xρ )T A(λ1 x1 + . . . + λρ xρ )
= λ21 + λ22 + . . . + λ2ρ ≥ 0
y

U T AU = (β1 yρ0 +1 + . . . + βn−ρ0 yn )T A(β1 yρ0 +1 + . . . + βn−ρ0 yn )


= β12 yρT0 +1 Ayρ0 +1 + β22 yρT0 +2 Ayρ0 +2 + . . . + βn−ρ
2 T
0 yn Ayn ≤ 0

Por lo tanto U T AU = 0. De esto se sigue que λ1 = λ2 = . . . = λρ = 0. En


consecuencia,

β1 yρ0 +1 + β2 yρ0 +2 + . . . + βn−ρ0 yn = 0 .


75
3.3. Matrices simétricas Diagonalización de matrices

Puesto que la matriz Q es invertible, los vectores yρ0 +1 , yρ0 +2 , . . . , yn son


linealmente independientes, y por lo tanto, β1 = β2 = . . . = βn−ρ0 = 0.

Ahora bien, como la dimensión del espacio vectorial Mn×1 es n y C es


un conjunto linealmente independiente de ρ + (n − ρ0 ) vectores en Mn×1 ,
entonces por el teorema 1.3.8(2) :

ρ + (n − ρ0 ) ≤ n ,
o sea, ρ ≤ ρ0 . Argumentando en forma similar se demuestra que ρ0 ≤ ρ,
de donde ρ = ρ0 .

De otro lado, de la hipótesis, se tiene que

ρ(A) = ρ + η = ρ0 + η 0
por lo tanto η = η0 . 
Nota. En la parte (1) del teorema anterior se tiene que P T AP es igual
a:

(i) In , si ρ = n.
(ii) −In , si η = n.
 
Iρ 0
(iii) , si 0 < p < n y η = 0.
0 0
 
−Iη 0
(iv) , si 0 < η < n y ρ = 0.
0 0
 
Iρ 0
(v) , si 0 < p < n y 0 < η < n y ρ + η = n.
0 −Iη
 
Iρ 0 0
(vi)  0 −Iη 0  , si 0 < p < n y 0 < η < n y ρ + η < n.
0 0 0
(vii) 0, sii A = 0.
3.3.14. Ejemplo. Para la matriz simétrica
 
1 −2 0
A =  −2 0 −2 
0 −2 −1
encontremos una matriz invertible P tal que P t AP sea una matriz diag-
onal con las características que se establecen en el teorema anterior.

76
Diagonalización de matrices 3.3. Matrices simétricas

Efectuando los cálculos pertinentes se encuentra que los valores propios


de A son: λ1 = 3, λ2 = −3 λ3 = 0, y que la matriz
y ortogonal:
 
2 1 −2
1
M =  −2 2 −1 
3
1 2 2
es tal que
 
3 0 0
M t AM = D =  0 −3 0 .
0 0 0
Ahora, la matriz diagonal
 1 
√ 0 0
 3 
D∗ =  1
 
0 √ 0 
3
 
0 0 1
es invertible y es tal que:

D∗ DD∗ = D∗t M t AM D∗
 1  
1
3 0 0

√ 0 0  √ 0 0
 3   3 
1 1

= 0 −3 0 
  
 0 √ 0 
  0 √ 0 
3 3
   
0 0 1 0 0 0 0 0 1
 
1 0 0
=  0 −1 0  ,
0 0 0
o sea, la matriz invertible P = M D∗ es tal que
 
I1 0 0
P t AP =  0 −I1 0 .
0 0 0

En relación con la primera parte del teorema 3.3.13 (ver su demostración)


y tal como aparece en el ejemplo anterior, un método para calcular una
de tales matrices P M que
consiste en encontrar una matriz ortogonal
diagonalice a la matriz A, y después postmultiplicar a M por una ma-

triz diagonal conveniente D . A continuación damos otro método para
t
calcular, simultáneamente, una de tales matrices P y la matriz P AP.
El método se basa en el hecho de que la matriz P es invertible y por

77
3.3. Matrices simétricas Diagonalización de matrices

ende se puede expresar como producto de un número nito de matrices


elementales (véase teorema 1.1.11(2)); ésto es, P = E1 E2 · · · Ek, donde
E1 , E2 , · · · , Ek, son matrices elementales. Así que una forma de calcular
la matriz

P t AP = Ekt · · · E2t E1t A E1 E2 · · · Ek,


consiste en efectuar una sucesión de operaciones elementales en las las
de A y la "misma" sucesión de operaciones elementales en las columnas
de A (véase teorema 1.1.8), hasta lograr lo deseado. Esta misma sucesión
t
de operaciones elementales en las las de la matriz identidad I da P .
Ilustraremos este método con el ejemplo siguiente.

3.3.15. Ejemplo. Para la matriz simétrica


 
1 2 −3
A= 2 5 −4 
−3 −4 9
encontremos una matriz invertible P tal que P T AP sea una matriz diag-
onal con las características que se establecen en el teorema 3.3.13.

Formemos la matriz
 
  2 −3 | 1 0 0
1
A | I 5 −4 | 0 1 0  .
= 2
−4 −3 9 | 0 0 1
 
Efectuemos, en las las de la matriz A | I , las operaciones elemen-
T
tales; E1 ; multiplicar los elementos de la primera la por α = −2 y sumar
T
los resultados con los correspondientes elementos de la segunda la, E2 ;
multiplicar los elementos de la primera la por α = 3 y sumar los resulta-
dos con los correspondientes elementos de la tercera la. Así obtenemos
la matriz

E2T E1T A | E2T E1T I


   
= A1 | B1 ,
luego efectuamos las "mismas" operaciones elementales en las columnas
de la matriz A1 , para obtener:
0
E2T E1T A E1 E2 | E2T E1T I
   
= A1 | B1 .
Se tiene:
 
  1 2 −3 | 1 0 0
A1 | B1 = 0 1 2 | −2 1 0 
0 2 0 | 3 0 1
78
Diagonalización de matrices 3.3. Matrices simétricas

y
 
| 1
1 0 0 0 0
0  
A1 | B 1 | −2 1 0 
= 0 1 2
| 0
3 0 1 2 0
 0 
Efectuemos, en las las de la matriz A1 | B1 , la operación elemen-
T
tal; E3 ; multiplicar los elementos de la segunda la por α = −2 y sumar
los resultados con los correspondientes elementos de la tercera la. Así
obtenemos la matriz

E3T E2T E1T AE1 E2 | E3T E2T E1T I


   
= A2 | B2 ,
luego efectuamos la "misma" operación elemental en las columnas de la
matriz A2 , para obtener:
 T T T   0
E3 E2 E1 AE1 E2 E3 | E3T E2T E1T I = A2

| B2 .
Se tiene:
 
  1 0 0 | 1 0 0
A2 | B2 = 0 1 2 | −2 1 0 
0 0 −4 | 7 −2 1
y
 
1 0 0 | 1 0 0
 0 
A2 | B2 = 0 1 0 | −2 1 0  .
0 0 −4 | 3 0 1
 0 
Finalmente, efectuemos en las las de la matriz A2 | B 2 la op-

eración elemental; E4T ; multiplicar los elementos de la tercera la por


α = 1/2. Así obtenemos la matriz
 T T T T
E4 E3 E2 E1 AE1 E2 E3 | E4T E3T E2T E1T I = A3
  
| B3 ,
luego efectuamos la "misma" operación elemental en las columnas de la
matriz A3 , para obtener:

0
E4T E3T E2T E1T AE1 E2 E3 E4 | E4T E3T E2T E1T I
   
= A3 | B3 .
Se tiene:
 
| 1 0 0
   1 0 0
−2 1 0 
A3 | B3 =  0 1 0 |
7 1

0 0 −2 | −1
2 2
79
3.3. Matrices simétricas Diagonalización de matrices

y
 
| 1 0 0
 0   1 0 0
−2 1 0 .
A2 | B2 =  0 1 0 |
7 1

0 0 −1 | −1
2 2
Así que la matriz invertible
 
1 0 0
 −2 1 0 
PT T T T T
= B3 = E4 E3 E2 E1 = 
7 1

−1
2 2
es tal que
 
1 0
0 0
P T AP = D = A3 =  0 1 0 .
0 0 −1
Podemos decir entonces, que la matriz A tiene dos valores estrictamente
positivos y un valor propio estrictamente negativo.

3.3.16. Nota. En relación con el método ilustrado en el ejemplo anterior,


si todos los elementos de la diagonal principal de la matriz simétricaA=
[aij ]n×n son nulos y si aij 6= 0, i 6= j , entonces sumando la la j a la
la i y la columna j a la columna i, obtendremos una matriz simétrica
A0 = M T AM con 2aij en el lugar i−ésimo de la diagonal principal de A0 .
Una vez hecho ésto, se sigue el proceso descrito en el ejemplo anterior.

3.3.17. Ejemplo. Para la matriz simétrica


 
0 1
A= ,
1 0
encontremos una matriz invertible P tal que P T AP sea una matriz diag-
onal con las características que se establecen en el teorema 3.3.13.

Formemos la matriz:
 
  0 1 | 1 0
A | I = .
1 0 | 0 1
 
Efectuemos, en las las de la matriz A | I la operación elemen-
tal MT ; sumar los elementos de la segunda la con los correspondientes
elementos de la primera la. Así obtenemos la matriz

MT A | MT I
 
,
80
Diagonalización de matrices 3.3. Matrices simétricas

luego efectuamos la "misma" operación elemental en las columnas de la


matriz M T A, para obtener la matriz:

M T AM | MT I A0 | MT
   
= ,
Se tiene:
 
 T T
 1 1 | 1 1
M A | M I = y
1 0 | 0 1
 
 0 T
 2 1 | 1 1
A | M =
1 0 | 0 1
A0 | MT
 
Efectuemos, en las las de la matriz , la operación elemen-
tal; E1T ; multiplicar los elementos de la primera la por α = − 21 y sumar
los resultados con los correspondientes elementos de la segunda la. Así
obtenemos la matriz

E1T A0 | E1T M T
   
= A1 | B1 ,
luego efectuamos la "misma" operación elemental en las columnas de la
matriz A1 , para obtener:
0
E1T A0 E1 | E1T M T
   
= A1 | B1 .
Se tiene:
 
2 1 | 1 1
   
A1 | B1 =  |  y
1
| −1 1
 
0 − −
2 2 2

| 1 1 2 0
 0   
A1 | B 1 =  | 
1
| −1− −1
 
0 −
2 2 2
 0 
Efectuemos en las las de la matriz A1 | B 1 las operaciones ele-
T
mentales; E2 ; multiplicar los elementos de la primera la por α = √1 ,
√ 2
T
y, E3 ; multiplicar los elementos de la segunda la por β = 2 . Así
obtenemos la matriz

E3T E2T E1T A0 E1 | E3T E2T E1T M T


   
= A2 | B2 ,
luego efectuamos las "mismas" operaciones elementales en las columnas
de la matriz A2 , para obtener:
0
E3T E2T E1T A0 E1 E2 E3 | E3T E2T E1T M T
   
= A2 | B2 .
81
3.4. Diagonalización simultánea Diagonalización de matrices

Se tiene:
 √ 1 1 
2 0 | √ √
  
| 2 2 
A2 | B2 =  y
 
1 | 1 1 

 0 −√
2 | −√ √
2 2
 1 1 
| √ √
 1 0 2 2 
 0  |
A2 | B2 =  .
 
| 1 1 
 0 −1
| −√ √
2 2
Así que la matriz invertible
 1 1 
√ √
 2 2 
P T = B2 = E3T E2T E1T M T = 
 

 1 1 
−√ √
2 2
es tal que
 
0
1 0
P T AP = D = A3 =  .
0 −1
Podemos decir, que la matriz A tiene un valor estrictamente positivo y
un valor propio estrictamente negativo.

3.4. Diagonalización simultánea de matrices simétricas

En esta sección veremos un par de teoremas sobre diagonalización si-


multánea de matrices simétricas, los cuales son útiles en estadística. En
particular el teorema 3.4.3 es utilizado en la demostración de la indepen-
dencia de dos ciertas formas cuadráticas (ver teorema 4.5.3 de [ ]). 4
3.4.1. Teorema (Diagonalización simultánea) . Sean A y B matrices si-
métricas de orden n. Si todos los valores propios de A son estrictamente
positivos, entonces existe una matriz invertible Q tal que QT AQ = In y
QT BQ = D es una matriz diagonal. Además, los elementos de la diagonal
de D, son las soluciones de la ecuación |B − λA| = 0, las cuales son reales.

82
Diagonalización de matrices 3.4. Diagonalización simultánea

Demostración. Puesto que todos los valores propios de A son es-


trictamente positivos, se sigue del teorema 3.3.10, que existe una matriz
invertible P P T AP = In . Sea ahora C = P T BP. La matriz C
tal que
es simétrica pues, C T = (P T BP )T = P T B T P = P T BP = C . Ahora bi-
en, en virtud del teorema 3.3.1, existe una matriz ortogonal M tal que
M T CM = D es una matriz diagonal con los valores propios de C en su
diagonal principal. En consecuencia:

M T P T AP M = M T In M = M T M = In y M T P T BP M = M T CM = D ;
esto es, la matriz Q = PM es tal que QT AQ = In y QT BQ = D es una
matriz diagonal. De otro lado, como lo hemos expresado, los elementos de
la diagonal de D son los valores propios de C, los cuales según el teorema
3.3.1 son reales. Esto es, los elementos de la diagonal de D son la soluciones
de la ecuación |C − λI| = 0. En vista de que la matriz P es invertible se
tiene:
T
P BP − λP T AP

|C − λI| = 
T sii |B − λA| = 0,
= P |B − λA| |P | = 0 

lo cual termina la demostración del teorema. 

3.4.2. Ejemplo. Consideremos las matrices simétricas


   
1 0 0 5 4 4
A= 0 4 2  y B= 4 8 −4  .
0 2 2 4 −4 −4
Efectuando los cálculos correspondientes se encuentra que los valores pro-
√ √
pios de A son: λ1 = 1, λ2 = 3 + 5 y λ3 = 3 − 5, los cuales son
estrictamente positivos y que la matriz invertible
 
1 0 0
1 1
 
P = 0 −
 

 2 2 
0 0 1

es tal que
 
5 2 2
P T AP = I3 y C = P T BP =  2 2 −4  .
2 −4 2
83
3.4. Diagonalización simultánea Diagonalización de matrices

Por el ejemplo 3.3.12 se sabe que

1 2 2
 
− √ √

 3 5 3 5 

 
 2 1 4 
M =
 √ − √ 
3

 5 3 5 
 
 
 2 2 
0 √
3 3 5
es ortogonal y es tal que
 
−3 0 0
M T CM = D =  0 6 0 .
0 0 6
En consecuencia, la matriz invertible

1 2 2
 
− √ √

 3 5 3 5 

 
 1 3 
Q = PM = 
 0 √ − √ 
 2 5 3 5 
 
 
 2 5 
0 √
3 3 5
es tal que
 
−3 0 0
QT AQ = I3 y QT BQ = D =  0 6 0 .
0 0 6
3.4.3. Teorema (Diagonalización ortogonal simultánea). Sean AyB ma-
trices simétricas de orden n. AB = BA sii existe una matriz ortogonal P
T T
tal que P AP y P BP son matrices diagonales.

Demostración. (=⇒) En virtud del teorema 3.3.10, existe una ma-


triz ortogonal R tal que:
 
λ1 Ik1 0 ··· 0
 0 λ2 Ik2 ··· 0 
RT AR = D =  ,
 
. . .. .
. . . .
 . . . 
0 0 ... λm Ikm
84
Diagonalización de matrices 3.4. Diagonalización simultánea

donde los λi son los diferentes valores propios de A y ki es la multiplicidad


geométrica (algebraica) del valor propio λi , i = 1, 2, . . . , m.

Sea ahora C = RT BR. Puesto que por hipótesis AB = BA, entonces

DC = RT ARRT BR = RT BAR = RT BRRT AR = CD.


Particionando la matriz C convenientemente podemos escribir:

  
λ1 Ik1 0 ··· 0 C11 C12 · · · C1m
 0 λ I
2 k2 · · · 0   C21 C22 · · · C2m
  
DC = 
 
. . . .   .. . .. .
. . .. . . .

 . . .  . . . . 
0 0 · · · λm Ikm Cm1 Cm2 · · · Cmm
 
λ1 C11 λ1 C12 · · · λ1 C1m
 λ2 C21 λ2 C22 · · · λ2 C2m 
=  ,
 
. . .. .
. . . .
 . . . 
λm Cm1 λm Cm2 · · · λm Cmm
  
C11 C12 · · · C1m λ1 Ik1 0 ··· 0
 C21 C22 · · · C2m   0 λ I
2 k2 · · · 0 
CD =  .
  
. . . . . . .
 .. . .. . . . .. .
  
. .  . . . 
Cm1 Cm2 · · · Cmm 0 0 · · · λm Ikm
 
λ1 C11 λ2 C12 · · · λm C1m
 λ1 C21 λ2 C22 · · · λm C2m 
=  .
 
. . .. .
. . . .
 . . . 
λ1 Cm1 λ2 Cm2 · · · λm Cmm
Ya que DC = CD y λi 6= λj , si i 6= j , entonces se tiene que Cij = 0, si
i 6= j y por tanto
 
C11 0 ··· 0
 0 C22 ··· 0 
C= . .
 
. .. .
 .. .
. . .
. 
0 0 ······ Cmm
Como la matriz C es simétrica, cada una de las matrices Cii , i = 1, 2 . . . , m,
es simétrica, por tanto existe una matriz ortogonal Qi tal que QTi Cii Qi =
Di es una matriz diagonal. Sea a hora:

85
3.4. Diagonalización simultánea Diagonalización de matrices

 
Q1 0 ··· 0
 0 Q2 ······ 0 
Q= . .
 
. .. .
 .. .
. . .
. 
0 0 ······ Qm
La matriz Q es ortogonal (véase ejercicio 3.5(14)) y es tal que QT CQ = D∗
es una matriz diagonal. También se tiene que QT DQ = D; es decir,
QT RT ARQ = D y QT RT BRQ = D∗ .
Ya que las matrices R y Q son ortogonales, entonces la matriz P = RQ
es ortogonal (vea el ejercicio 3.5.2(13)) y es tal que P T AP y P T BP son
matrices diagonales.

(⇐=) Supongamos que existe una matriz ortogonal P tal que P T AP = D1


T
y P BP = D2 son matrices diagonales. Puesto que D1 D2 = D2 D1 , en-
tonces :

P T AP P T BP = P T BP P T AP ,
de donde AB = BA. 

3.4.4. Ejemplo. En este ejemplo seguiremos los pasos hechos en la de-


mostración del teorema anterior en el sentido (=⇒). La vericación de los
cálculos numéricos queda a cargo del lector.

Las matrices simétricas:


   
1 −1 0 0 1 0 0 0
 −1 1 0 0   0 1 0 0 
A=  y B= 
 0 0 1 0   0 0 2 −2 
0 0 0 1 0 0 −2 5
son tales que AB = BA. A son λ1 = 0
Los valores propios de la matriz
de multiplicidad algebraica k1 = 1, λ2 = 1 de multiplicidad algebraica
k2 = 2 y λ3 = 2 de multiplicidad algebraica k3 = 1. La matriz ortogonal
 √ √ 
1/ 2 0 0 1/ 2
 √ √ 
 1/ 2 0 0 1/ 2 
 
R=  
0 1 0 0 


 
0 0 1 0

86
Diagonalización de matrices 3.4. Diagonalización simultánea

es tal que:

. .
 
. .
 0 . 0 0 . 0   
 ··· ··· ··· ··· ··· ···  λ1 I 0 0
 
. .
. .
   
T
 0 . 1 0 . 0   
R AR = D =  = 0 λ2 I 0 
. .
. .
   
 0 . 0 1 . 0   
 
 ···
 ··· ··· ··· ··· ··· 
 0 0 λ3 I
. .
. .
0 . 0 0 . 2

. .
 
. .
 1 . 0 0 . 0   
 ··· ··· ··· ··· ··· ···  C11 0 0
 
. .
. .
   
T
 0 . 2 −2 . 0  
= 0

R BR = C =  . .
C22 0 
. .
   
 0
 . −2 5 . 0 
 
 ···
 ··· ··· ··· ··· ··· 
 0 0 C33
. .
. .
0 . 0 0 . 1

La matriz ortogonal

. .
 
. .
 1 . 0 0 . 0 

 ··· ··· ··· ··· ··· ··· 


Q1 0 0

 .
.
√ √ .
.

0 . 2/ 5 −1/ 5 . 0  
   
 
Q= = 0 Q2 0 
 .
.
√ √ .
.
  

 0 . 1/ 5 2/ 5 . 0 
 

 ··· ··· ··· ··· ··· ··· 
 0 0 Q3
. .
 
. .
0 . 0 0 . 1

es tal que

 
1 0 0 0
0 1 0 0 
 = QT RT BRQ = D∗
QT CQ = 

 0 0 6 0 
0 0 0 1
87
3.4. Diagonalización simultánea Diagonalización de matrices

y
 
1 0 0 0
0 1 0 0 
QT DQ =   = QT RT ARQ = D .

 0 0 1 0 
0 0 0 2
En consecuencia, la matriz ortogonal

 √ 
1/ 2 0 0 −1/ 2
 √ √ 
 1/ 2 0 0 1/ 2
 

P = RQ =  √ √ 
 0 2/ 5 −1/ 5 0
 

 √ √ 
0 1/ 5 2/ 5 0

es tal que P T AP = D y P T BP = D∗ son matrices diagonales.

3.4.5. Corolario. Sean A1 , A2 , . . . , Ak matrices simétricas de orden n.


Una condición necesaria y suciente para que exista una matriz ortogonal
P tal que P T Ai P sea una matriz diagonal para cada i = 1, 2, . . . , k es que
Ai Aj = Aj Ai para cada i y j; i, j = 1, 2, . . . , k .

Demostración. (Suciencia:) La demostración de esta parte del teo-


rema la haremos utilizando inducción sobre el número de matrices k. Para
cuando k=2 el corolario es cierto por el teorema anterior. Supongamos
ahora que el corolario es cierto para cuando k = s y demostremos que
el corolario es cierto para cuando k = s + 1. Sean pues A1 , A2 , . . . , As+1
matrices simétricas de orden n tales que Ai Aj = Aj Ai para cada i y j;
i, j = 1, 2, . . . , s + 1. Por el teorema 3.3.10 existe una matriz ortogonal R
tal que
 
λ1 Ik1 0 ··· 0
 0 λ2 I k2 ··· 0 
R T A1 R = D =  ,
 
. . .. .
. . . .
 . . . 
0 0 ··· λm Ikm
donde los λτ , τ = 1, 2, . . . , m, son los diferentes valores propios de A1 y
kτ es la multiplicidad geométrica (algebraica) del valor propio λτ .

Ahora, para cada i, i = 2, 3, . . . , s + 1, tomemos la matriz C i = R T Ai R .


Puesto que por hipótesis A1 Ai = Ai A1 , entonces

Ci D = RT Ai RRT A1 R = RT Ai A1 R = RT A1 Ai R
= RT A1 RRT Ai R = DCi ,
88
Diagonalización de matrices 3.4. Diagonalización simultánea

para i = 2, 3, . . . , s + 1. De ésto se sigue que:


 
Ci1 0 ··· 0
 0 Ci2 ··· 0 
Ci =  .  , i = 2, 3, . . . , s + 1 .
 
. . .
 .. .
.
.. .
. 
0 0 · · · · · · Cim
De otra parte, como Ai Aj = Aj Ai para todo i y todo j; i, j = 2, 3, . . . , s+
1, entonces:

Ci Cj = RT Ai RRT Aj R = RT Ai Aj R
= RT Aj Ai R = RT Aj RRT Ai R = Cj Ci .
De esto se sigue que para cada τ, τ = 1, 2, . . . , m.
Ciτ Cjτ = Cjτ Ciτ .
De otra parte, como la matriz Ci es simétrica, entonces la matriz Ciτ
es simétrica para cada i = 2, 3 . . . , s + 1 y cada τ = 1, 2, . . . , m. Por lo
anterior y por la hipótesis de inducción; para cada τ , existe una matriz
ortogonal Qτ tal que
QTi Ciτ Qi = Dτ
es una matriz diagonal. Sea ahora:
 
Q1 0 ··· 0
 0 Q2 ······ 0 
Q= . .
 
. .. .
 .. .
. . .
. 
0 0 ······ Qm
La matriz Q es ortogonal y es tal que QT Ci Q = Di∗ es una matriz diagonal.
T
También se tiene que Q DQ = D . Así que:

QT RT Ai RQ = Di∗ , i = 2, 3 . . . , s + 1, y QT RT A1 RQ = D∗ .
Puesto que R y Q son matrices ortogonales, entonces la matriz P = RQ
es ortogonal. En consecuencia, la matriz ortogonal P es tal que P T Ai P
es una matriz diagonal para i = 2, 3 . . . , s + 1.

(Necesidad:) Supongamos ahora que existe una matriz ortogonal P tal


que P T Ai P = Di es una matriz diagonal para cada i = 1, 2, . . . , k . Puesto
que Di Dj = Dj Di , para todo i y todo j , i, j = 1, 2, . . . , k , entonces

P T Ai P P T Aj P = P T Aj P P T Ai P,
de donde se tiene que Ai Aj = Aj Ai para todo i y todo j; i, j = 1, 2, . . . , k.

89
3.5. Ejercicios Diagonalización de matrices

3.4.6. Ejemplo. Las matrices simétricas


     
2 1 3 4 5 6
A1 = , A2 = y A3 =
1 2 4 3 6 5
son tales que Ai Aj = Aj Ai , i = 1, 2.

La matriz ortogonal
 
1 1
1 
R= √ 
2 −1 1
es tal que
 
1 0
R T A1 R = D1 =
0 3
 
T −1 0
R A2 R = D2 =
0 7
 
−1
R T A3 R = D3 = ,
11
es decir, la matriz ortogonal R diagonaliza de manera simultánea a las
matrices A1 , A 2 y A3 .

3.5. Ejercicios

3.5.1 Responda verdadero o falso, justicando su respuesta:

1. El Polinomio p(λ) = 3 + 2λ − λ2 + 4λ3 puede ser el polinomio


característico de una matriz A ∈ M3×3 .
3 2
2. Si p(λ) = −λ + 4λ − 5λ + 2 es el polinomio característico de
una matriz A ∈ M3×3 , entonces |A| = 2.
   
1 −3 1 −1
3. x =  1  es un vector propio de M =  −7 5 −1 
0 −6 6 −2
4. λ = 1 es un valor propio de la matriz M anterior.
5. Si una matriz cuadrada A es diagonalizable, entonces existen
−1
innitas matrices invertibles P tales que P AP = D es una
matriz diagonal.

90
Diagonalización de matrices 3.5. Ejercicios

6. Sea A una matriz cuadrada de orden n. Si C es una matriz


cuadrada de orden n invertible, entonces las matrices A, C −1 AC
y CAC −1 , tienen el mismo polinomio característico.
7. Si A y B son matrices simétricas de orden n, entonces la matriz
AB es simétrica.
8. Sean A y B matrices simétricas de orden n. AB es simétrica sii
AB = BA.
−1
9. Si P es una matriz ortogonal, entonces P también es ortogo-
nal.
10. Si P P T también es ortogonal.
es una matriz ortogonal, entonces
11. Si P es una matriz ortogonal, entonces |P | = ±1.
12. Una matriz P de tamaño n × n es ortogonal sii los vectores la
n
de P conforman una base ortonormal de R .

 
1 1
13. La matriz P = es ortogonal.
−1 1
2
14. Si la matriz A satisface la igualdad: A = 3A − 2I, entonces los
posibles valores propios de A son λ1 = 1, λ2 = 2.

3.5.2 Demuestre que:

1. Si λ es un valor propio de A, entonces λn es un valor propio de


n
A , n = 1, 2, 3, . . ..
2. Si x es un vector propio de A, entonces x es un vector propio de
An , n = 1, 2, 3, . . ..
3. λ = 0 es un valor propio de una matriz A sii |A| = 0.
4. Si A es una matriz invertible y λ es un valor propio de A, entonces
λ−1 es un valor propio de A−1 .
5. Si A y C son matrices cuadradas de orden n y si C es invert-
−1
ible entonces las matrices A, A , C
T
AC , CAC −1 , C −1 AT C y
T −1
CA C tienen el mismo polinomio característico.
6. Si T es una matriz triangular superior, entonces los valores pro-
pios de T son los elementos de la diagonal principal de T.
7. Si A y B son matrices cuadradas del mismo orden, entonces AB
y BA tienen los mismos valores propios (sugerencia: Analice los
casos λ = 0 es un valor propio de AB y λ 6= 0 es un valor propio
de AB ).
8. Sean λ1 , λ2 , . . . , λn los diferentes valores propios de una matriz
A y sean β1 , β2 , . . . , βm son los diferentes valores propios de una
matriz B , entonces los diferentes valores propios de una matriz

91
3.5. Ejercicios Diagonalización de matrices

de la forma
 
A C
M=
0 B
son λ 1 , λ 2 , . . . , λ n , β1 , β 2 , . . . , β m .
9. Si A es una matriz cuadrada de orden n, entonces pA (λ) =
|A − λI| es un polinomio de grado n en la variable λ que tiene
la forma:

pA (λ) = a0 + a1 λ + a2 λ2 + · · · + (−1)n λn .

(sugerencia: usar inducción sobre n).


10. Si λ es un valor propio de una matriz A, entonces la multiplicidad
geométrica de λ es menor o igual que la multiplicidad algebraica
de λ. (sugerencia: vea la demostración del teorema 3.3.2).
n
11. Si A ∈ Mn×n es tal que pA (λ) = (−1) (λ−λ1 )(λ−λ2 ) · · · (λ−λn )
entonces: (i) |A| = λ1 λ2 · · · λn y (ii) Tr A = λ1 + λ2 + · · · + λn .
   
A B In In
12. Sean A, B ∈ Mn×n , M = y P =
B A In −In
−1 1
a ) Verique que P = P.
2
−1
b ) Calcule P M P y concluya que det M = det(A + B) ·
det(A − B).
c ) Use (b) para mostrar que

pM (λ) = det(M − λI) = det((A + B) − λI) · det((A − B) − λI) .

13. Si P y Q son matrices ortogonales, entonces PQ es una matriz


ortogonal.
14. Si Q1 , Q2 , . . . , Qm son matrices ortogonales, entonces la matriz
 
Q1 0 ··· 0
 0 Q2 · · · · · · 0 
Q= . .
 
. . .
 .. . . . .
. . 
0 0 · · · · · · Qm
es también ortogonal .
15. Sea x un λ-vector propio de A y sea y un β -vector propio de AT ,
donde λ 6= β, entonces x, y son vectores ortogonales (sugerencia:
vea la demostración del teorema 3.3.2).
16. Si A es una matriz idempotente; esto es, tal que A2 = A, entonces
los posibles valores propios de A son λ1 = 0, λ2 = 1.

92
Diagonalización de matrices 3.5. Ejercicios

17. Si A es una matriz simétrica idempotente n×n entonces:

n X
X n
pA (λ) = Tr A = (aij )2 .
i=1 i=1

(Sugerencia: Utilice el teorema 3.3.13 y el corolario 2.3.5)


18. Sea a ∈ Mn×1 un vector no nulo. Entonces A = (aT a)−1 aaT es
2
una matriz simétrica de rango 1 y es tal que A = A.
19. Si A es una matriz simétrica tal que todos los valores propios
son positivos, entonces existe una matriz invertible M tal que
A = M T M. (Sugerencia: utilice el teorema 3.3.13(1))
20. Si A es una matriz simétrica tal que todos los valores propios
son positivos, entonces existe una matriz triangular superior e
invertible, T, tal que A = T T A. (Sugerencia: utilice inducción
sobre el orden n de la matriz A).
21. Si A es una matriz simétrica de ordenn que tiene p valores pro-
pios positivos (p < n)n − p valores propios nulos, entonces
y
T
existe una matriz no invertible M tal que A = M M. (Sugeren-
cia: utilice el teorema 3.3.13(1)).
22. Si A es una matriz simétrica tal que A2 = A y si B es una matriz
simétrica, del mismo orden de A, que tiene sus valores propios
positivos, entonces:

ρ(ABA) = ρ(A) = Tr A

(sugerencia: Utilice (19) y (17)).


23. Sea A una matriz cuadrada n×n tal que

n
X
|aii | > |aij | ,
j6=i,j=1

para todo i = 1, 2, . . . n, A es invertible. (Sugerencia:


entonces
 T
suponga que existe un vector x = x1 x2 · · · xn 6= 0 tal
que Ax = 0 y que |xi | = máx {|x1 | , |x2 | , . . . |xn |}. Despeje aii xi
en la i-ésima ecuación del sistema Ax = 0, tome valor absoluto
y llegue a una contradicción).
24. Si A = [aij ]n×n es una matriz simétrica tal que

n
X
|aii | > |aij |
j6=i,j=1

93
3.5. Ejercicios Diagonalización de matrices

para todo i = 1, 2, . . . n, entonces todos los valores propios de A


son positivos. (Sugerencia: suponga λ≤0 es un valor propio de
A y utilice (23) para llegar a una contradicción).
25. Si A y B son dos matrices simétricas invertibles de igual or-
den tales que AB = BA, entonces existe una matriz ortogonal
P tal que P T AP, P T BP, P T ABP, P T AB −1 P, P T A−1 BP y
P T A−1 B −1 P son matrices diagonales.
2
26. Si A es una matriz n × n tal que A = mA, entonces

Tr A = mρ(A).
(Sug.: considere (i) ρ(A) = 0, (ii) ρ(A) = n y (ii) 0 < ρ(A) < n.

3.5.3 Cálculos

1. Para cada una de las siguientes matrices: encuentre, si es posible,


una matriz invertible P tal que P −1 M P sea una matriz diagonal

   
1 2 1 0
(i) M = (ii) M =
2 1 2 2
   
1 1 0 2
(iii) M = (iv) M =
0 1 −2 0
   
1 −3 3 −3 1 −1
(v) M =  3 −5 3  (vi) M =  −7 5 −1 
6 −6 4 −6 6 −2
   
3 1 −1 2 1 0
(vii) M =  1 3 −1  (viii) M =  0 1 −1 
3 1 −1 0 2 4
   
2 4 0 0 0 2 0 0
 5 3 0 0   2 1 0 0 
(ix) M = 
 0
 (x) M =  
0 1 2   0 0 1 1 
0 0 2 −2 0 0 −2 4
2. Sea T : P2 → P2 la transformación lineal denida por

T [a + bx + cx ] = (a − b + 4c) + (3a + 2b − c)x + (2a + b − c)x2 .


2

a ) Calcule los valores propios y los vectores propios.

94
Diagonalización de matrices 3.5. Ejercicios

b ) Dé, si existe, una base ordenada C de P2 tal que [T ]CC sea


una matriz diagonal.
3. Para cada una de las siguientes matrices encuentre una matriz
ortogonal P , tal que P T M P sea una matriz diagonal. Dé en cada
caso Tr M y ρ(A).

 
  1 −1 0
1 −2
(i) M = (ii) M =  −1 0 0 
−2 5
0 0 1

  
2 1 1 1 −1 −1
(iii) M =  1 2 1  (iv) M =  −1 1 −1 
1 1 2 −1 −1 1
   
4 2 2 4 4 2
(v) M =  2 3 0  (vi) M =  4 4 2 
2 0 5 2 2 1
4. Para cada una de las siguientes matrices encuentre una matriz
invertible Q, tal que Qt M Q sea de la forma

 
Iρ 0 0
 0 −Iη 0 .
0 0 0

   
1 −1 0 0 1 1
(i) M =  −1 1 0  (ii) M =  1 −2 2 
0 0 1 1 2 −1
   
1 2 0 1 0 −1
(iii) M =  2 0 0  (iv) M =  0 2 1 
0 0 1 −1 1 1
   
2 1 1 1 2 −1
(v) M =  1 1 −1  (vi) M =  2 4 −2 
1 −1 5 −1 −2 8
5. Considere las matrices del ejercicio anterior:
a ) Si QT M Q = I , encuentre una matriz invertible P, tal que
M = P T P.
95
3.5. Ejercicios Diagonalización de matrices
 
T Iρ 0
b ) Si Q M Q = , encuentre una matriz no invertible
0 0
T
P, talque M = P P.   
1 −2 −3 1 −4 −1
6. Sean A =  −2 5 5  y B =  −4 14 4 
−3 5 11 −1 4 6
a ) Verique que todos los valores propios de A son positivos,
T
encontrando una matriz invertible P tal que P AP = I.
T T
b ) En una matriz invertible M tal que M AM = I y M BM =
D sea una matriz diagonal.
   
1 −2 0 2 −3 0
7. Considere la matrices S1 =  −2 5 0  , S2 =  −3 6 0 
0 0 4 0 0 −4
 
3 −2 0
y S3 =  −2 −2 0  .
0 0 8
a ) Verique que todos los valores propios de S1 son positivos,
T
encontrando una matriz invertible P tal que P S1 P = I.
T T
b ) Haga A = P S2 P y B = P S3 P .. Verique que AB = BA
T
y encuentre una matriz ortogonal Q tal que Q AQ = D1 y
T
Q BQ = D2 son matrices diagonales.
c ) Concluya que la matriz invertible M = P Q es tal que
M T S1 M = I y M T AM = D1 y M T BM = D2 son ma-
trices diagonales.

96
CAPÍTULO 4

Formas cuadráticas

Este capítulo consta de tres secciones. En la primera sección introducire-


mos el concepto de Forma cuadrática y sus respectivas clasicaciones
(según el signo de los elementos del rango) en formas cuadráticas pos-
itivamente (negativamente) denidas, formas cuadráticas positivamente
(negativamente) semidenidas y formas cuadráticas indenidas. La se-
gunda sección versa sobre cambio de variables y diagonalización de for-
mas cuadráticas. En esta sección se utilizan los resultados de las secciones
3.3 y 3.4. En la tercera sección damos algunos criterios para clasicar las
formas cuadráticas según el signo de los valores propios.

4.1. Clasicación de las formas cuadráticas.

Las formas cuadráticas juegan un papel importante en las aplicaciones del


álgebra lineal, particularmente, en la teoría de modelos lineales (véase el
4
capítulo 4 de [ ]). Ellas se clasican de acuerdo al signo que tomen sus
respectivas imágenes en: positivas, no negativas, negativas, no positivas e
indenidas como veremos más adelante.

4.1.1. Denición. Una forma cuadrática en Rn es una función q : Rn →


R de la forma
(4.1)
n X
X n
q [(x1 , x2 , . . . , xn )] = aij xi xj , donde aij ∈ R, i, j = 1, 2, . . . , n.
i=1 j=1

97
4.1. Clasicación Formas cuadráticas

En términos matriciales, dicha forma cuadrática se puede expresar medi-


ante
 
x1
 x2 
(4.2) q (x) = xT Ax, siendo x =  .  ∈ Rn .
 
 .. 
xn

1
Ahora bien, puesto que para la matriz simétrica S, S = 2 (A + AT ), se
satisface

1 1
xT Sx = xT (A + AT )x = (xT Ax + xT AT x)
2 2
1 T  1
= x Ax + (x Ax)T = (xT Ax + xT Ax)
T
2 2
= xT Ax ,
en la denición anterior, (4.1) puede darse usando matrices simétricas así:

(4.3) q (x) = xT Sx .
Observamos entonces, que una forma cuadrática se puede expresar matri-
cialmente de varias maneras. Sin embargo, se puede demostrar (ejercicio
4.4.2(1)), que existe una única representación en términos de matrices
simétricas, S = 21 (A + AT ), para cada forma cuadrática q(x) = xT Ax.
Nota. Con respecto a las formas cuadráticas podemos anotar que:

1. En la denición 4.1.1 sólo aparecen términos cuadráticos (de or-


den 2) de la forma aij xi xj . De aquí el calicativo de cuadrática.
2. Podemos considerar sólo matrices simétricas. En este sentido, en
lo que sigue, al referirnos a una forma cuadrática xT Sx, siem-
pre S denotará una matriz simétrica. Dicha matriz simétrica se
denomina, matriz de la forma cuadrática.

4.1.2. Ejemplo. De las siguientes funciones denidas sobre R3 y con recor-


rido en R, solamente la primera, q1 , representa a una forma cuadrática

q1 (x1 , x2 ) = 3x1 x1 + 4x1 x2 + 2x2 x1 + 5x2 x2 ,


q2 (x1 , x2 ) = 3x1 x1 + 4x21 x2 + 2x2 x1 + 5x2 x2 ,

q3 (x1 , x2 ) = 3x1 x1 + 4 x1 x2 + 2x2 x1 + 5x2 x2 .
98
Formas cuadráticas 4.1. Clasicación

Dicha forma cuadrática la podemos representar matricialmente como


  
3 4 x1
q1 (x1 , x2 ) = xT Ax =
 
x1 x2 ,
2 5 x2
o en términos de matrices simétricas
  
3 3 x1
q1 (x1 , x2 ) = xT Sx =
 
x1 x2
3 5 x2

4.1.3. Denición. Sea xT Sx una forma cuadrática en Rn . El conjunto

T n

ImaS = x Sx : x ∈ R
r ∈ R : r = xT Sx x ∈ Rn

= para algún

se denomina recorrido o conjunto imagen de la forma cuadrática xT Sx.

Una forma cuadrática xT Sx se puede clasicar según su recorrido ImaS


de acuerdo con la denición siguiente.

4.1.4. Denición. Se dice que una forma cuadrática xT Sx es:

1. Positivamente denida, si xT Sx > 0 para todo x 6= 0.


T
2. Negativamente denida, si x Sx < 0 para todo x 6= 0.
T
3. Positivamente semidenida, si x Sx ≥ 0 para todo x 6= 0, y
∗ ∗T
existe un x 6= 0 tal que x Sx = 0.
T
4. Negativamente semidenida, si x Sx ≤ 0 para todo x 6= 0, y
∗ ∗T
existe un x 6= 0 tal que x Sx = 0.
T
5. Indenida, si existen vectores no nulos x1 y x2 tales que x1 Sx1 >
T
0 y x2 Sx2 < 0, respectivamente.
6. No negativa, si es positivamente denida o positivamente semideni-
da.
7. No positiva, si es negativamente denida o negativamente semideni-
da.

4.1.5. Observación. La forma cuadrática q1 (x) = xT Sx es negativa-


T
mente denida (semidenida) sii la forma cuadrática q2 (x) = x (−S)x
es positivamente denida (semidenida).

4.1.6. Denición. Se dice que una matriz simétrica S es positivamente


(negativamente) denida (semidenida), indenida o no negativa, si la
T
forma cuadrática q(x) = x Sx lo es.

99
4.1. Clasicación Formas cuadráticas

4.1.7. Ejemplo. Consideremos las siguientes tres formas cuadráticas en


R3
q1 (x1 , x2 , x3 ) = x21 + 2x22 + 3x23
q2 (x1 , x2 , x3 ) = x21 + 2x1 x2 + x22 + x23
q3 (x1 , x2 , x3 ) = x21 − 2x22 + 3x23
Para la forma cuadrática q1 : R3 → R se tiene:

q1 (x1 , x2 , x3 ) = x21 + 2x22 + 3x23


  
  1 0 0 x1
= x1 x2 x3  0 2 0   x2 
0 0 3 x3
= xT S1 x.
Puesto que xT S1 x > 0 para todo x 6= 0, entonces q1 es positivamente
denida.

Para la forma cuadrática q2 : R3 → R se tiene:

q2 (x1 , x2 , x3 ) = x21 + 2x1 x2 + x22 + x23 = (x1 + x2 )2 + x23


  
  1 1 0 x1
= x1 x2 x3  1 1 0   x2 
0 0 1 x3
= xt S2 x.
T
Puesto que xT S2 x ≥ 0 para todo x 6= 0, y dado que para x∗ = [1 − 1 0]
∗T
se tiene que x S2 x = 0, entonces q2 es positivamente semidenida.

Para la forma cuadrática q3 : R3 → R se tiene:

q3 (x1 , x2 , x3 ) = x21 − 2x22 + 3x23


  
  1 0 0 x1
= x1 x2 x3  0 −2 0   x2 
0 0 3 x3
= xt S3 x.
T T
Dado que x1 = [1 0 1] y x2 = [0 2 1] son vectores tales que xT1 S3 x1 =
T
4>0 y x2 S3 x2 = −5 < 0, entonces q3 es una forma cuadrática indenida.

100
Formas cuadráticas 4.2. Cambios de variable y diagonalización

4.2. Cambio de variables. Diagonalización simultánea de


formas cuadráticas

El objetivo de esta sección es continuar la discusión sobre la clasicación


de formas cuadráticas pero mediante la introducción de cambios de vari-
ables adecuados. Se pretende con dichos cambios de variables, que la nueva
representación de las formas cuadráticas tengan una estructura más sen-
cilla, en algún sentido. Los resultados de esta sección, son corolarios de
aquellos obtenidos en las secciones 3.3 y 3.4. En tal sentido, omitiremos
sus demostraciones y nos limitaremos a dar la referencia del resultado
correspondiente en dichas secciones.

4.2.1. Denición (Cambio de variable) . Sea q : Rn → R una forma


cuadrática una denida por

(4.1) q(x) = xT Sx. x ∈ Rn


y sea P una matriz invertible n × n. Entenderemos como un cambio de
variable para la forma cuadrática q, a la transformación x = P y o y =
−1
P x.
Observación. En la denición anterior, P es una matriz invertible, en-
n
tonces la transformación y→x=P y es biunívoca. Esto es, un y∈R
determina un único x ∈ Rn y viceversa. Hecho un tal cambio de variables,
se tiene:

(4.2) xT Sx = yT P T SP y = yT By donde B = P T SP .
Podemos interpretar el cambio de variable x = P y (P invertible) como la
transformación lineal biyectiva:

P : Rn → Rn
y → x = Py .
así que (q ◦ P ) : Rn → R dene una nueva forma cuadrática

q ∗ (y) = (q ◦ P )(y) = q(P y) = yT P T SP y = yT By,


que se relaciona con la forma cuadrática q por medio de las igualdades
(4.2).

4.2.2. Ejemplo. Sea q : R3 → R la forma cuadrática denida por

q [(x1 , x2 , x3 )] = x21 + 4x1 x2 − 6x1 x3 + 5x22 − 8x2 x3 + 8x23 .


101
4.2. Cambios de variable y diagonalización Formas cuadráticas

Para esta forma cuadrática podemos escribir


  
1 2 −3 x1
q [(x1 , x2 , x3 )] = xT Sx =
 
x1 x2 x3  2 5 −4   x2  .
−3 −4 8 x3
Ahora, si hacemos el cambio de variables:
    
y1 1 2 −3 x1
y =  y2  = P −1 x =  0 1 2  x2 
y3 0 0 1 x3
 
x1 + 2x2 − 3x3
=  x2 + 2x3 
x3
encontramos que:

xT Sx = yT P T SP y = yT By donde

   
1 0 0 1 2 −3 1 −2 7
B = P T SP =  −2 1 0  2 5 −4   0 1 −2 
7 −2 1 −3 −4 8 0 0 1
 
1 0 0
=  0 1 0 .
0 0 −5
Por lo tanto,
  
1 0 0 y1
xt Sx = yt By
 
= y1 y2 y3  0 1 0   y2 
0 0 −5 y3
= y12 + y22 − 5y32 ,
es decir,

xT Sx = x21 + x1 x2 − 6x1 x3 + 5x22 − 8x2 x3 + 8x23


= y12 + y22 − 5y32
donde

y1 = x1 + 2x2 − 3x3 , y2 = x2 + 2x3 , y y3 = x3 .


Claramente es más fácil estudiar la expresióny By = y12 +y22 −5y32 , que la
T
T 2 2 2
expresión x Sx = x1 +x1 x2 −6x1 x3 +5x2 −8x2 x3 +8x3 . Por ejemplo, una
T 2 2 2
simple inspección nos permite ver, que la expresión y By = y1 + y2 − 5y3
toma valores tanto positivos como negativos, tomando respectivamente

102
Formas cuadráticas 4.2. Cambios de variable y diagonalización

y1 6= 0, y2 6= 0, y3 = 0, y y1 = 0, y2 = 0, y3 6= 0. Lo que no es claro para


T
la expresión x Sx.

4.2.3. Denición. T
Dada una forma cuadrática x Sx, si el cambio de
variables y = P −1 x T T T T
es tal que x Sx = y P SP y = y Dy, donde D es
−1
una matriz diagonal, entonces se dice que el cambio de variables y = P x
T
diagonaliza la forma cuadrática x Sx.

4.2.4. Observación. El problema de encontrar un cambio de variables


y = P −1 x que diagonalice la forma cuadrática xT Sx se reduce a encontrar
T
una matriz invertible P tal que P SP = D sea una matriz diagonal.

La demostración del siguiente resultado, es una consecuencia del teorema


3.3.10.

4.2.5. Teorema. xT Sx existe una matriz or-


Para toda forma cuadrática
−1 T
togonal Q tal, que el cambio de variables y = Q x = Q x la diagonaliza.
Además Q tiene como columnas un conjunto ortonormal de vectores pro-
pios de la matriz S y

xT Sx = yT QT SQy = yT Dy
  
λ1 0 ··· 0 y1
  0
 λ2 ··· 0 
  y2 
 
= y1 y2 ··· yn  .. . .. .  . 
 . . . .  . 
. . .
0 0 ··· λn yn
= λ1 y12 + λ2 y22 + . . . + λn yn2 ,

donde los λi , i = 1, 2, . . . , n son los valores propios de la matriz S.

4.2.6. Ejemplo. Sea q : R3 → R la forma cuadrática denida por:


  
1 1 1 x1
= X t SX =
 
q [(x1 , x2 , x3 )] x1 x2 x3  1 1 1   x2 
1 1 1 x3
= x21 + 2x1 x2 + 2x1 x3 + x22 + 2x2 x3 + x23 .

Según el teorema 3.3.10, existe una matriz ortogonal Q tal que QT SQ = D


es una matriz diagonal con los valores propios de S en la diagonal. Después
de efectuar los cálculos pertinentes, se encuentra, que los valores propios
de S son 0 (con multiplicidad 2) y 3 (con multiplicidad 1), y que la matriz
103
4.2. Cambios de variable y diagonalización Formas cuadráticas

ortogonal:
√  √ √ 
−1/√2 −1/√5 1/√3
Q =  1/ 2 −1/√5 1/√3 
0 2/ 5 1/ 3
es tal que
 
0 0 0
QT SQ = D =  0 0 0 .
0 0 3
Por lo tanto, el cambio de variables y = Q−1 x diagonaliza la forma
T
cuadrática x Sx, obteniéndose:

xT Sx = yT QT SQy = yT Dy
  
0 0 0 y1
0   y2  = 3y32 .
 
= y1 y2 y3  0 0
0 0 3 y3

El siguiente teorema está estrechamente relacionado con el literal (1) del


teorema 3.3.13 y plantea la existencia de un cambio de variable ligado al
signo de los valores propios de la matriz de la forma cuadrática.

4.2.7. Teorema. xT Sx una forma cuadrática sobre Rn . Si la matriz


Sea
S tiene ρ (0 ≤ ρ ≤ n) valores propios, no necesariamente diferentes,
estrictamente positivos y η (0 ≤ η ≤ n) valores propios, no necesariamente
diferentes, estrictamente negativos, entonces existe un cambio de variables
y = P −1 x que diagonaliza la forma cuadrática xT Sx, obteniéndose:
xT Sx = yT P T SP y = yT Dy

  y1
  Iρ 0 0  y2 
= y1 y2 ··· yn  0 −Iη 0  . 
 
 .. 
0 0 0
yn
= y12 + y22 + . . . + yρ2 − yρ+1
2 2
− yρ+2 2
− . . . − yρ+η .
4.2.8. Ejemplo. Sea q : R3 → R la forma cuadrática denida por:
T
q (x) = x Sx
  
  1 1 1 x1
= x1 x2 x3  1 0 2   x2 
1 2 0 x3

= x21 + 2x1 x2 + 2x1 x3 + 4x2 x3 .


104
Formas cuadráticas 4.2. Cambios de variable y diagonalización

Los valores propios de S λ1 = 3, λ2 = −2 y λ3 = 0.


son Por el teorema
3.3.13(1) , existe una matriz invertible P tal que:
 
1 0 0
P T SP = D =  0 −1 0  .
0 0 0
Efectuando los cálculos del caso se encuentra que la matriz invertible
 
1 −1 −2
P = 0 1 1 
0 0 1
sirve par tal efecto. Por lo tanto, el cambio de variables y = P −1 x diago-
T
naliza la forma cuadrática x Sx, obteniéndose:

xT Sx = yT P T SP y
= yT Dy
  
1 0 0 y1
0   y2  = y12 − y22 .
 
= y1 y2 y3  0 −1
0 0 0 y3

El teorema siguiente, plantea un criterio para la existencia de un cambio


de variables que diagonalice simultáneamente a dos formas cuadráticas.
Su demostración se obtiene de la diagonalización simultánea de matrices
simétricas (teorema 3.4.1).

4.2.9. Teorema. Sean q1 (x) = xT S1 x


q2 (x) = xT S2 x dos formas
y
n
cuadráticas en R . Si todos los valores propios de S1 son estrictamente
−1
positivos, entonces existe un cambio de variables y = Q x que diago-
T
naliza simultáneamente las formas cuadráticas q1 (x) = x S1 x y q2 (x) =
xT S2 x obteniéndose:
xT S1 x = yT QT S1 Qy = yT Iy = y12 + y22 + . . . + yn2
y

xT S2 x = yT QT S2 Qy
= yT Dy
  
λ1 0 ··· 0 y1
  0
 λ2 ··· 0 
  y2 
 
= y1 y2 ··· yn  .. . .. .  . 
 . . . .  . 
. . .
0 0 ··· λn yn
= λ1 y12 + λ2 y22 + . . . + λn yn2 ,
105
4.2. Cambios de variable y diagonalización Formas cuadráticas

donde los λi , i = 1, 2, . . . , n son las soluciones de la ecuación |S2 − λS1 | =


0, las cuales son reales.

Ilustremos dicho resultado con el siguiente ejemplo.

4.2.10. Ejemplo. Sean q 1 : R3 → R y q2 : R3 → R las formas cuadrática


denidas por:
  
1 0 0 x1
= xT S1 x =
 
q1 (x) x1 x2 x3  0 4 2   x2 
0 2 2 x3
= x21 + 4x22 + 4x2 x3 + 2x23 ,
  
5 4 4 x1
= xT S2 x =
 
q2 (x) x1 x2 x3  4 8 −4   x2 
4 −4 −4 x3
= 5x21 + 8x1 x2 + 8x1 x3 + 8x22 − 8x2 x3 − 4x23 .

Por el ejemplo 3.4.2 sabemos que los valores propios de


√ √ S1 son: λ1 = 1,
λ2 = 3 + 5 y λ3 = 3 − 5, los cuales son estrictamente positivos y que
la matriz invertible

1 2 2
 
− √ √

 3 5 3 5 

 
 1 3 
Q=
 0 √ − √ 
 2 5 3 5 
 
 
 2 5 
0 √
3 3 5
es tal que
 
−3 0 0
QT S1 Q = I3 y QT S2 Q = D =  0 6 0 .
0 0 6

Por lo tanto, el cambio de variables y = Q−1 x diagonaliza simultánea-


mente las formas cuadráticas x S1 x y xt S2 x obteniéndose:
t

xT S1 x = yT QT S1 Qy = yT I3 y = y12 + y22 + y32


106
Formas cuadráticas 4.2. Cambios de variable y diagonalización

xT S2 x = yT QT S2 Qy
= yT Dy
  
  −3 0 0 y1
= y1 y2 y3  0 6 0   y2 
0 0 6 y3
= −3y12 + 6y22 + 6y32 .

Los siguientes dos resultados están relacionados de manera muy cercana


con el teorema 3.4.3 y el corolario 3.4.5 respectivamente. Ellos nos brindan
condiciones necesarias y sucientes bajo las cuales podemos hablar de
diagonalización ortogonal simultánea de dos o más formas cuadráticas.
En forma más precisa tenemos:

4.2.11. Teorema (Diagonalización ortogonal simultánea) . Considere en


Rn las dos formas cuadráticas q1 (x) = xT S1 x y q2 (x) = xT S2 x. S1 S2 =
S2 S1 sii existe una matriz ortogonal P tal que el cambio de variables
y = P −1 x = P T x diagonaliza simultáneamente las formas cuadráticas
xT S1 x y xT S2 x obteniéndose:
xT S1 x = yT P T S1 P y = yT D1 y
  
λ1 0 ··· 0 y1
  0
 λ2 ··· 0 
  y2 
 
= y1 y2 ··· yn  .. . .. .  . 
 . . . .  . 
. . .
0 0 ··· λn yn
= λ1 y12 + λ2 y22 + . . . + λn yn2 ,
y

xT S2 x = yT P T S2 P y = yT D2 y
  
β1 0 ··· 0 y1
  0
 β2 ··· 0 
  y2 
 
= y1 y2 ··· yn  .. . .. .  . 
 . . . .  . 
. . .
0 0 ··· βn yn
= β1 y12 + β2 y22 + . . . + βn yn2 ,
107
4.2. Cambios de variable y diagonalización Formas cuadráticas

donde los λi , i = 1, 2, . . . , n son los valores propios de S1 y los βi , i =


1, 2, . . . , n son los valores propios de S2 .
4.2.12. Corolario. Sean xT S1 x, xT S2 x, . . . , xT Sk x formas cuadráticas
n
en R .Una condición necesaria y suciente para que exista una matriz
−1
ortogonal P tal que el cambio de variables y = P x = P T x diagonalice
T T T
simultáneamente las formas cuadráticas x S1 x, x S2 x, . . . , x Sk x es que
Si Sj = Sj Si para todo i y todo j; i, j = 1, 2, . . . , k .
4.2.13. Ejemplo. Sean q 1 : R4 → R y q2 : R4 → R las formas cuadrática
denidas por:

q1 (x) = xT S1 x
  
1 −1 0 0 x1
   −1 1 0 0   x2 
= x1 x2 x3 x4  0
 
0 1 0   x3 
0 0 0 1 x4
= x21 − 2x1 x2 + x22 + x23 + x24 ,

q2 (x) = xT S2 x
  
1 0 0 0 x1
  0 1 0 0   x2 
= x1 x2 x3 x4   
 0 0 2 −2   x3 
0 0 −2 5 x4
= x21 + x22 + 2x23 − 4x3 x4 + 5x24 .
Del ejemplo 3.4.4 sabemos que, S1 S2 = S2 S1 y que la matriz ortogonal
√ √ 
1/ 2 0 0 −1/ 2
 √ √ 
 1/ 2 0 0 1/ 2
 

P = √ √ 
 0 2/ 5 −1/ 5 0
 

 √ √ 
0 1/ 5 2/ 5 0

es tal que
   
0 0 0 0 1 0 0 0
0 1 0 0  0 1 0 0 
P t S1 P = D1 =  P t S2 P = D2 = 
 
, y 
 0 0 1 0   0 0 6 0 
0 0 0 2 0 0 0 1
108
Formas cuadráticas 4.2. Cambios de variable y diagonalización

Por lo tanto, el cambio de variables y = P −1 x diagonaliza simultánea-


mente las formas cuadráticas xT S1 x T
y x S2 x obteniéndose:

xT S1 x = yT P T S1 P y = yT D1 y
= y22 + y32 + y42 ,

xT S2 x = yT P T S2 P y = yT D2 y
= y12 + y22 + 6y32 + y42 .

4.2.14. Ejemplo. Consideremos las formas cuadráticas en R2 :


  
2 1 x1
xT S1 x = = 2x21 + 2x1 x2 + 2x22
 
q1 (x) = x1 x2
1 2 x2
  
T 3 4 x1
= 3x21 + 8x1 x2 + 3x22
 
q2 (x) = x S2 x = x1 x2
4 3 x2
  
T 5 6 x1
= 5x21 + 12x1 x2 + 5x22 .
 
q3 (x) = x S3 x = x1 x2
6 5 x2
Del ejemplo 3.4.6 sabemos, que Si Sj = Sj Si , i = 1, 2, 3 y que la matriz
ortogonal

 
1 1
P = 1/ 2
−1 1
es tal que
   
T 1 0 T −1 0
P S1 P = D1 = P S2 P = D2 = , y
0 3 0 7
 
−1 0
P T S3 P = D3 = .
0 11
Por lo tanto, el cambio de variables y = P −1 x diagonaliza simultánea-
T T
T
mente las formas cuadráticas x S1 x, x S2 x y x S3 x, obteniéndose:
  
T
 1 0 y1
= y12 + 3y22
T T

x S1 x = y P S1 P y = y1 y2
0 3 y2
  
T
 −1 0 y1
= −y12 + 7y22
T T

x S2 x = y P S2 P y = y1 y2
0 7 y2
  
T
 −1 0 y1
= −y12 + 11y22
T T

x S3 x = y P S3 P y = y1 y2
0 11 y2

109
4.3. Formas positivas denidas Formas cuadráticas

4.3. Formas cuadráticas positivas, negativas e indenidas.

En esta sección utilizaremos la discusión previa sobre cambios de variables


con el objeto de introducir algunos criterios de clasicación de formas
cuadráticas. Tales criterios estarán dados en términos de los signos de
valores propios de la matriz de la forma cuadrática.

Como se recordará de la sección anterior, toda matriz invertible P ∈


Mn×n , junto con el cambio de variables x = P y ó y = P −1 x (x, y ∈ Rn ),
t
nos permite reescribir la forma cuadrática q(x) = x Sx en términos de la
∗ T T
variable y, mediante la expresión q (y) = y By, donde B = P SP. Esto
es, para dicho cambio de variable se tiene

q(x) = xT Sx = yT By = q ∗ (y), con x = P y, P invertible.

De esto se sigue entonces, que q(·) y q ∗ (·) tienen la misma imagen, es


decir,

xT Sx : x ∈ Rn = yT By : y ∈ Rn .
 

El siguiente resultado relaciona las clasicaciones de dichas formas cuadráti-


cas. La vericación de éste se deja a cargo del lector.

4.3.1. Teorema. q(x) = xT Sx una forma cuadrática en Rn y sea P


Sea
∗ t T
una matriz invertible n×n. Sea además q (y) = y By, donde B = P SP ,
−1
la forma cuadrática generada por el cambio de variables y = P x. En-
tonces se tiene:

1. q(x) = xt Sx es positivamente (negativamente) denida sii q ∗ (y) =


yt By es positivamente (negativamente) denida.
2. q(x) = xT Sx es positivamente (negativamente) semidenida sii
q ∗ (y) = yT By es positivamente (negativamente) semidenida.
3. q(x) = xT Sx es indenida sii q ∗ (y) = yT By es indenida.

El siguiente teorema relaciona el signo de las formas cuadráticas con el


signo de los valores propios de la matriz simétrica que dene dicha forma
cuadrática.

4.3.2. Teorema. Sea xT Sx una forma cuadrática en Rn , S 6= 0.

1. xT Sx es positivamente denida sii todos los valores propios de


S son estrictamente positivos.

110
Formas cuadráticas 4.3. Formas positivas denidas

2. xT Sx es positivamente semidenida sii S tiene p (0 < p < n)


valores propios estrictamente positivos y el resto de valores pro-
pios de S son nulos.
3. xT Sx es indenida sii S tiene valores propios estrictamente pos-
itivos y valores propios estrictamente negativos.

Demostración. De acuerdo con el teorema 4.2.5, la forma cuadráti-


ca q(x) = xT Sx, con S una matriz simétrica, es ortogonalmente diagonal-
izable. Es decir, existe una matriz ortogonal Q y un cambio de variables
y = Q−1 x = Qt x, tal que

(4.1) xT Sx = yT QT SQy = yT Dy = λ1 y12 + λ2 y22 + . . . + λn yn2 ,


donde los λi , i = 1, 2, . . . , n son los valores propios de la matriz S, y
T

D = Q SQ = diag λ1 , λ2 , ..., λn .
T
Supongamos ahora, que la forma cuadrática q(x) = x Sx es positiva-
mente denida. Entonces por el teorema 4.3.1(1), q ∗ (y) = yT Dy es tam-
∗ T
bién positivamente denida, ésto es, q (y) = y Dy > 0 para todo y 6= 0.
De (4.1) se tiene entonces que λ1 > 0, λ2 > 0, . . . , λ2 > 0. Es decir, todos
los valores propios de S son estrictamente positivos.

De otro lado, si todos los valores propios de S son estrictamente posi-


tivos, entonces existe un cambio de variables y = P −1 x (teorema 4.2.7),
tal que
xT Sx = yT P T SP y = yT y = y12 + y22 + . . . + yn2 .
T T
Puesto que y y > 0 para todo y 6= 0, entonces x Sx > 0, para todo
T
x 6= 0. Esto es, la forma cuadrática x Sx, es positivamente denida, lo
que demuestra el inciso (1) de nuestro teorema.

Supongamos ahora, que la forma cuadrática q(x) = xT Sx es positiva-


mente semidenida. Por el inciso (2) del teorema 4.3.1, la forma cuadráti-
ca q ∗ (y) = yT Dy es también positivamente semidenida. Esto es, se tiene
∗ T ∗
que q (y) = y Dy ≥ 0 para todo y ∈ Mn×1 y existe un y 6= 0 tal que
∗T ∗
y Dy = 0. Usando (4.1) se tiene entonces, que los valores propios de
S son no negativos y que por lo menos uno de ellos es nulo. Es decir, S
tiene ρ (0 < ρ < n) valores propios estrictamente positivos y el resto de
valores propios de S son nulos.

Finalmente, supongamos que la matriz S de la forma cuadrática, xT Sx,


tiene ρ valores propios estrictamente positivos, con 0 < ρ < n, y (n − ρ)
111
4.3. Formas positivas denidas Formas cuadráticas

valores propios nulos. Por el teorema 4.2.7 existe un cambio de variables


y = P −1 x tal que

xT Sx = yT P T SP y = yT Dy = y12 + y22 + . . . + yρ2 .

por hipótesis, yT Dy ≥ 0 para todo y ∈ Mn×1 . No es difícil sin embargo


ver, que para y∗ ∈ Mn×1 dado por
 
0
   .. 
0ρ×1  . 
 1  
 0 

y∗ =  .  = ,
   
 ..   1 

 . 
1 n×1  .. 
1 n×1

se tiene y∗T Dy∗ = 0. q ∗ (y) = yT Dy es positiva-


Ésto quiere decir, que
T
mente semidenida y por consiguiente, q(x) = x Sx también lo es, lo que
demuestra el inciso (2) de nuestro teorema. 

El resultado correspondiente a formas indenidas se plantea como un ejer-


cicio para el lector.

4.3.3. Ejemplo. Ilustremos el teorema 4.3.2 con formas cuadráticas q(x) =


xT Sx, denidas en R3 .

1. La forma cuadrática q(x) = xT Sx denida por:



q(x) = 5x21 + 4x22 + 2 3x2 x3 + 6x23

  
  5 0 √0 x1
= x1 x2 x3  0
√4 3   x2 
0 3 6 x3
= xT Sx

es positivamente denida, pues los valores propios de la matriz


S son: λ1 = 5, λ2 = 3 y λ3 = 7, los cuales son estrictamente
positivos.

112
Formas cuadráticas 4.3. Formas positivas denidas

2. La forma cuadrática q(x) = xT Sx denida por:

q(x) = x21 + 2x1 x2 − 4x1 x3 + 2x22 − 4x2 x3 + 4x23


  
  1 1 −2 x1
= x1 x2 x3  1 2 −2   x2 
−2 −2 4 x3
= xT S x
es positivamente semidenida, pues los valores propios de la ma-
√ √
7+ 23 7− 23
triz S son: λ1 = 2 , λ2 = 2 y λ3 = 0.

3. La forma cuadrática q(x) = xT Sx denida por:

q(x) = x21 − 4x1 x2 + 2x22 − 4x2 x3 + 3x23


  
  1 −2 0 x1
= x1 x2 x3  −2 2 −2   x2 
0 −2 3 x3
= xT Sx
es indenida, pues los valores propios de S son: λ1 = −1, λ2 = 2
y λ3 = 5.
4.3.4. Teorema. Sea xT Sx una forma cuadrática en Rn .

1. xT Sx es positivamente denida sii existe una matriz invertible


Q tal que S = Qt Q.
2. xT Sx es positivamente semidenida sii existe una matriz no in-
T
vertible Q tal que S = Q Q.

Demostración. Demostraremos sólo el inciso (1), el otro se verica


análogamente y se deja como ejercicio.

Supongamos que la forma cuadrática xt Sx es positivamente denida, en-


tonces todos los valores propios de S son estrictamente positivos (teorema
4.3.2(1)), además, existe una matriz invertible P tal que P T SP = I (teo-
rema 3.3.13(1)). De ésto se sigue, que S = (P T )−1 P −1 = QT Q, donde
Q = P −1 .

Supongamos ahora que existe una matriz invertible Q tal que S = QT Q.


113
4.3. Formas positivas denidas Formas cuadráticas

Puesto que Q es invertible, entonces Qx 6= 0 para todo vector no nulo


x. De ésto se sigue, que xT Sx = xT QT Qx = (Qx)T (Qx) > 0, para todo
x 6= 0. Ésto es, la forma cuadrática xT Sx es positivamente denida. 
4.3.5. Ejemplo.
1. La forma cuadrática q : R3 → R denida por:

q(x) = 4x21 + x22


− 4x2 x3 + 5x23
  
  4 0 0 x1
= x1 x2 x3  0 1 −2   x2 
0 −2 5 x3
= xT Sx
es positivamente denida, pues los valores propios de la matriz
√ √
S son λ1 = 4, λ2 = 3 + 5 y λ3 = 3 − 5, los cuales son estric-
tamente positivos.

Efectuando los cálculos pertinentes se encuentra que la matriz


invertible
   
2 0 0 4 0 0
Q= 0 1 −2  , es tal que S =  0 1 −2  = QT Q.
0 0 1 0 −2 5
2. La forma cuadrática q : R3 → R denida por:

q(x) = x21 + 2x1 x2 + 2x1 x3 + x22 + 2x2 x3 + x23


  
  1 1 1 x1
= x1 x2 x3  1 1 1   x2 
1 1 1 x3
= xT Sx
es positivamente semidenida, pues los valores propios de la ma-
triz S son λ1 = 0, λ2 = 0 y λ3 = 3.

Efectuando los cálculos pertinentes se encuentra que la matriz


no invertible

   
1 1 1 1 1 1
Q= 0 0 0 , es tal que S= 1 1 1  = QT Q.
0 0 0 1 1 1

114
Formas cuadráticas 4.3. Formas positivas denidas

El siguiente teorema nos da un criterio para clasicar matrices simétricas


como positivamente denidas o negativamente te denidas, en términos
de los determinantes de la propia matriz y de algunas de sus submatrices.
Aquí hacemos la salvedad, de que en el caso de matrices de tamaño 1×1(es
decir escalares), escribiremos det(·) en lugar de |·| , para evitar la confusión
con el valor absoluto.

4.3.6. Teorema. Considere una matriz simétrica


 
S de orden n.
s11 s12 ··· s1n
 s21 s22 ··· s2n 
S= . .
 
. .. .
 .. .
. . .
. 
sn1 sn2 ··· snn
Dena ahora la secuencia de matrices
 
s11 s12 ··· s1(n−1)
 s21 s22 ··· s2(n−1) 
Sn = S, Sn−1 = . , ...
 
. .. .
 .. .
. . .
. 
sn1 sn2 ··· sn(n−1)
 
s11 s12
S2 = y S1 = [s11 ] .
s21 s22

Entonces:

1. La forma cuadrática q(x) = xT Sx es positivamente denida si


y sólo si det(S1 ) > 0, |S2 | > 0, |S3 | > 0, . . .|Sn | > 0.
T
2. La forma cuadrática q(x) = x Sx es negativamente denida si
n
y sólo si det(S1 ) < 0, |S2 | > 0, |S3 | < 0, . . .(−1) |Sn | > 0.

Demostración. Presentaremos aquí sólo la demostración de la parte


(1), la otra se deja como ejercicio:

(Condición necesaria) En primer lugar, si la forma cuadrática xTj Sj xj


j
denida sobre R , 2 ≤ j ≤ n, es positivamente denida, entonces
para
la forma cuadrática en Rj−1 xTj−1 Sj−1 xj−1 es positivamente denida. En
efecto, para todo xj−1 6= 0 se tiene que:
  
 Sj−1 s xj−1
xTj Sj xj =
 T
xj−1 0
st sjj 0
= xTj−1 Sj−1 xj−1 > 0.
115
4.3. Formas positivas denidas Formas cuadráticas

En segundo lugar, si la forma cuadrática xTj Sj xj , denida sobre Rj ( 2 ≤


j ≤ n), es positivamente denida, entonces existe una matriz invertible
2
Qj tal que Sj = QTj Qj , de donde |Sj | = Qtj |Qj | = |Qj | > 0 (teorema
4.3.4(1))

Estas dos observaciones nos permiten concluir que si la forma cuadrática


xt Sx es positivamente denida entonces det(S1 ) > 0, |S2 | > 0, |S3 | >
0, . . .|Sn | > 0.

(Condición suciente) Haremos una demostración de esta implicación us-


ando inducción sobre n.

Cuando n = 1, S1 = [s11 ]. Ahora, por hipótesis det(S1 ) = s11 > 0. Por


ésto, xt S1 x = s11 x2 > 0 para todo x 6= 0; esto es, la forma cuadrática
xt S1 x es positivamente denida.

Supongamos ahora que la implicación es válida para cuando n = k, y


veriquemos que la implicación es válida para n = k + 1. Sea pues S = Sn
una matriz simétrica de orden n = k + 1 tal que |Sn | = |Sk+1 | > 0,
|Sn−1 | = |Sk | > 0, . . . |S2 | > 0 y |S1 | > 0. Por hipótesis de inducción,
t k
la forma cuadrática xk Sk xk en R es positivamente denida. Existe en-
t
tonces una matriz invertible Qk tal que Sk = Qk Qk (teorema 4.3.4(1)).
Ahora, por el teorema 2.2.3(2) se tiene que:


S s
|Sk+1 | = tk


s s(k+1)(k+1)
= |Sk | det s(k+1)(k+1) − st Sk−1 s


= |Sk | det(α̃k ).

Aquí hemos introducido la sustitución α̃k = s(k+1)(k+1) − st Sk−1 s para


simplicar un poco la escritura, además se tiene que det(α̃k ) > 0, puesto
que |Sk+1 | > 0 y |Sk | > 0.

Sea ahora

(Qtk )−1 s
 
Qk
Qk+1 =  
0 α̃k
116
Formas cuadráticas 4.3. Formas positivas denidas

La matriz Qk+1 es invertible y es tal que:


 
Sk s
Sk+1 =
sT s(k+1)(k+1)

QTk (QTk )−1 s


   
0 Qk
=  × 
sT (Qk )−1 α̃k 0 α̃k

= QTk+1 · Qk+1 .
Por lo tanto, en virtud del teorema 4.3.4(1), la forma cuadrática xTk+1 Sk+1 xk+1 ,
k+1
denida sobre R es positivamente denida. 

4.3.7. Ejemplo.

1. La forma cuadrática xT Sx, donde :


 
4 2 2
S= 2 5 1 
2 1 4
es positivamente denida, pues:

4 2
det(S1 ) = det(4) = 4 > 0, |S2 | = = 16 > 0 y
2 5

4 2 2

|S3 | = 2 5 1 = 20 > 0.
2 1 4
2. La forma cuadrática xt Sx, donde :
 
−3 2 0
S =  2 −4 2 
0 2 −5
es negativamente denida, pues:

−3 2
det(S1 ) = det(−3) = −3 < 0, |S2 | = =8>0 y
2 −4

−3 2 0

|S3 | = 2 −4 2 = −28 < 0.
0 2 −5

117
4.4. Ejercicios Formas cuadráticas

4.3.8. Nota. Sea S = [aij ]n×n una matriz simétrica y sean S1 , S2 , . . . , Sn


las matrices que aparecen en el enunciado del teorema anterior. Las condi-
ciones det(S1 ) ≥ 0, |S2 | ≥ 0, |S3 | ≥ 0, . . .|Sn | ≥ 0 no implican que la forma
cuadrática xt Sx sea positivamente semidenida. Por ejemplo, la matriz
 
1 1 2
S= 1 1 2 
2 2 1
es tal que

1 1
det(S1 ) = det(1) = 1, |S2 | = =0
1 1
y


1 1 2

|S3 | = 1 1 2 = 0.

2 2 1
Sin embargo, la forma cuadrática xT Sx no es positivamente denida, pues
∗T ∗T
Sx∗ = −3 < 0.
 
el vector x = −2 0 1 es tal que x

4.4. Ejercicios

4.4.1 Responda verdadero o falso justicando su respuesta.

1. Sea M una matriz cuadrada de orden n. Si xT M x = 0 para todo


x ∈ Rn entonces M = 0.
2. Si la matriz S es indenida, entonces la matriz −S es indenida.
2
3. Si S es una matriz simétrica tal que S = S, entonces S es no
negativa.
4. Si S es una matriz simétrica tal que S 3 = S, entonces S es no
negativa.
5. Si S1 y S2 son matrices positivamente denidas (semidenidas)
entonces la matriz
 
S1 0
S=
0 S2
es positivamente denidas (semidenidas).
6. Si S1 y S2 son matrices positivamente denidas de igual orden,
entonces la matriz S = S1 + S2 es positivamente denida.

118
Formas cuadráticas 4.4. Ejercicios

7. Si S1 S2 son matrices indenidas de igual orden, entonces la


y
matriz S = S1 + S2 es indenida.
8. Si S1 y S2 son matrices positivamente denidas de igual orden
tales que S1 S2 = S2 S1 , entonces la matriz S = S1 S2 es positi-
vamente denida.

 
a b
9. Sea S= . Si a > 0 y c > 0, entonces S es positivamente
b c
semidenida.  
a b
10. La matriz S = es negativamente denida sii a<0 y
b c
ac − b2 > 0.

4.4.2 Demuestre que:

1. Para cada forma cuadrática q : Rn → R existe una única matriz


simétrica S de orden n tal que:

q [(x1 , x2 , . . . , xn )] = xT Sx, xT =
 
con x1 x2 ··· xn .

2. Para cualquier matriz cuadrada A, las matrices S1 = AT A y


S2 = AAT son no negativas.
3. Para cualquier matriz cuadrada n × n, A, se tiene: ρ(A) = n sii
la matriz S = AT A es positivamente denida.
4. Para cualquier matriz cuadrada n × n, A, se tiene: ρ(A) < n sii
la matriz S = AT A es positivamente semidenida.
−1
5. Si la matriz S es positivamente denida entonces la matriz S
es positivamente denida.
6. Si la matriz S es no negativa, entonces los elementos de la diag-
onal de S son no negativos.
7. Si la matriz S = [sij ]n×n es positivamente semidenida y si
sii = 0, entonces cada elemento de la la i de S y cada elemento
de la columna i de S es nulo.
8. Si S = [sij ]
n×n es una matriz simétrica tal que:
X
n
sii > j=1 |sij | , para i = 1, 2 . . . , n,
j6=i

entonces S es positivamente denida (sugerencia: vea el proble-


ma 3.5.2(23)).

119
4.4. Ejercicios Formas cuadráticas

9. Si S1 y S2 son matrices simétricas de igual orden tales S12 + S22 =


0 entonces S1 = S2 = 0. (sugerencia: considere la expresión
xT (S12 + S22 )x).
10. Si S es positivamente denida de orden n, a un vector n × 1 y
α un número real tal que α > aT Sa, entonces la matriz
 
S a
S∗ =
aT α

es positivamente denida (Sugerencia: utilice el teorema 4.3.6(1)).


11. Si S es una matriz positivamente denida, entonces existe una
matriz invertible T S = T T T (Sug-
triangular superior tal que
erencia: utilice inducción sobre el orden n, de la matriz S ).
12. Si S es una matriz positivamente, entonces Tr S > 0.
13. Si S es una matriz positivamente, entonces Tr S ≥ 0.
14. Si S1 y S2 son matrices positivamente denidas de igual orden,
entonces Tr(S1 S2 ) > 0 (Sugerencia: utilice el teorema 4.3.4(1)).
15. Si S1 y S2 son matrices positivamente semidenidas de igual
orden, entonces Tr(S1 S2 ) > 0 (Sugerencia: utilice el teorema
4.3.4(2)).

4.4.3 Cálculos

1. Para cada una de las formas cuadráticas xT Sx siguientes:


a ) Haga un cambio de variables que las diagonalice.
b ) Clasifíquela como positivamente denida (semidenida), neg-
ativamente denida (semidenida) o indenida.
c ) Para aquellas que sean positivamente denidas, encuentre
T
una matriz invertible Q tal que S = Q Q.
d ) Para aquellas que sean positivamente semidenidas, encuen-
T
tre una matriz no invertible Q tal que S = Q Q.
1) xT Sx = x21 + 4x
√ x
1 2 − 2x 2
2
2) xT Sx = x21 + 2 2x1 x2 + 4x22 + x23
3) xT Sx = x21 + 4x1 x2 − 2x1 x3 + 4x22 − 4x2 x3 + 8x23
4) xT Sx = x21 + 4x1√x2 + 6x1 x3 − 2x2 x3 + x23
2 2 1
5) xT Sx = x21 + 2 x1 x3 + x22 + x23
3 3 3
6) xT Sx = x21 − 2x1 x3 + 2x22 + 2x2 x3 + 2x23

120
Formas cuadráticas 4.4. Ejercicios

2. Considere las formas cuadráticas:

xT S1 x = x21 + 4x1 x2 + 5x22 + 2x2 x3 + 2x23 , y


T
x S2 x = x21 + 2x1 x2 − 2x1 x3 + x22 − 2x2 x3 + 2x23 .
a ) Encuentre, si existe, un cambio de variables y = M −1 x que
diagonalice simultáneamente las dos formas cuadráticas.
b ) Encuentre, si existe, un cambio de variables y = Q−1 x, (Q
una matriz ortogonal), que diagonalice simultáneamente las
dos formas cuadráticas.
3. Resuelva el problema (2) para cuando:

xT S1 x = x21 − 2x1 x2 + 2x22 , y


T
x S2 x = 2x21 + 4x1 x2 .
 
2 1
4. Sea S= .
1 2
a ) Verique que la matriz S es positivamente denida.
b ) Encuentre un vector a2×1 y un número α, tales que la matriz
 
S a
S∗ =
aT α
sea positivamente denida.

121
CAPÍTULO 5

Anexo 1: Matrices no negativas. Matrices


idempotentes

Las matrices no negativas, y, en particular, las matrices idempotentes,


aparecen con frecuencia en la teoría y en las aplicaciones de los mode-
los lineales. El propósito de este anexo es el recopilar los aspectos más
importantes de este tipo de matrices.

No daremos las demostraciones de aquellos resultados que ya han sido


demostrados en los capítulos anteriores o que fueron propuestos como
ejercicios.

5.1. Matrices no negativas

5.1.1. Denición. Sea S una matriz simétrica:

1. S es positivamente denida, sixT Sx > 0 para todo x 6= 0.


T
2. S es positivamente semidenida, si x Sx ≥ 0 para todo x 6= 0,
∗ ∗T ∗
y existe un x 6= 0 tal que x Sx = 0.
3. S es no negativa, si S es positivamente denida o si S positiva-
mente semidenida.

5.1.2. Teorema. Sea S una matriz simétrica n × n. Las siguientes ar-


maciones son equivalentes:

1. S es positivamente denida.
2. Para cada matriz invertible P de orden n, la matriz P T SP es
positivamente denida.
3. Todos los valores propios de S son estrictamente positivos.
4. Existe una matriz invertible P de orden n, tal que P T SP = In .
T
5. Existe una matriz invertible Q de orden n, tal que S = Q Q.

123
5.1. Matrices no negativas Anexo 1

6. Existe una matriz invertible triangular superior n × n, T , tal que


S = T T T.
7. S es invertible y S −1 es positivamente denida.
 
  s11 s12 s13
s11 s12
8. det (s11 ) > 0, det > 0, det  s21 s22 s23  >
s21 s22
s31 s32 s33
0, . . . , det (S) = |S| > 0.
5.1.3. Teorema. Sea S una matriz simétrica n × n. Si se cumple que
n
X
sii > |sij |, para i = 1, 2 . . . , n,
j=1, j6=i

entonces S es positivamente denida.

5.1.4. Teorema. Sea S una matriz simétrica n × n. Si S es positivamente


denida, entonces,

1. ρ(S) = n.
2. sii > 0 para i = 1, 2, . . . , n.
5.1.5. Teorema. Sean S1 y S2 matrices simétricas de igual orden y sean
α1 , α2 números reales positivos. Si S1 y S2 son positivamente denidas,
entonces la matriz S = α1 S1 + α2 S2 es positivamente denida.

5.1.6. Teorema. Sean S1 y S2 matrices simétricas de igual orden. Si S1


es positivamente denida, entonces existe una matriz invertible Q tal que
QT S1 Q = I y QT S2 Q = D, donde D es una matriz diagonal real, cuyos
elementos en la diagonal las soluciones de la ecuación |S2 − λS1 | = 0.

5.1.7.Teorema. Sean S1 y S2 matrices simétricas de igual orden. Si S1


y S2 son positivamente denidas y si S1 S2 = S2 S1 , entonces la matriz
S = S1 S2 es positivamente denida.
5.1.8. Teorema.Sean S1 y S2 matrices simétricas de orden n. Si S1 es
positivamente denida, entonces existe un α > 0 tal que S = S1 + αS2 es
positivamente denida.

Demostración. Si S2 = 0 entonces para cualquier α > 0 se tiene


que la matriz S = S1 + αS2 es positivamente denida. Supongamos en-
tonces que S2 6= 0. Por el teorema 5.1.6, existe una matriz invertible Q
124
Anexo 1 5.1. Matrices no negativas

tal que QT S1 Q = In y QT S2 Q = D, donde D es una matriz diagonal.


Digamos que
 
d11 0 ··· 0
 0 d22 ··· 0 
D= . .
 
. .. .
 .. .
. . .
. 
0 0 ··· dnn
Puesto que S2 6= 0, entonces al menos un elemento de la diagonal de D
es diferente de cero. Sea ahora α un número tal que:

0 < α < mı́n {1/dii } .


dii 6=0

De esto se sigue que: 1 + αdii > 0 para i = 1, 2, . . . , n y que la matriz


I + αD es positiva denida. En consecuencia, por el teorema 5.1.2, la
matriz
(Q−1 )T [I + αD]Q−1 = S1 + αS2 = S
es positivamente denida. 
5.1.9. Teorema. Sea S una matriz simétrica de orden n. Si S es posi-
tivamente denida, entonces para cada par de vectores x, y ∈ Mn×1 se
tiene
(xT y)2 ≤ (xT Sx)(yT S −1 y) .

Puesto que S es positivamente denida, por el teorema 5.1.2, existe una


matriz invertible Q tal que S = QT Q. De aquí que S −1 = Q−1 (QT )−1 .
Ahora, por la desigualdad de Schwarz (ver el teorema 1.2.21) para cada
par de vectores x, y ∈ Mn×1 se tiene
Qx, (QT )−1 y 2 ≤ kQ xk2 (QT )−1 y 2 ,

o sea:

(xT QT (QT )−1 y)2 ≤ (xT QT Qx) (yT Q−1 (Q−1 )T y) ,


esto es,
(xT y)2 ≤ (xT Sx) (yT S −1 y).
5.1.10. Teorema. Sean S1 y S2 matrices simétricas de orden n. Sean
además λ1 ≤ λ2 ≤ · · · ≤ λn , las soluciones de la ecuación |S2 − λS1 | = 0.
Si S1 es positiva denida, entonces para cada x 6= 0 se tiene que
T
x S2 x
λ1 ≤ ≤ λn .
xT S1 x
125
5.1. Matrices no negativas Anexo 1

Demostración. Puesto que S1 es positiva denida, existe una ma-


triz invertible Q, tal que QT S1 Q = In y QT S2 Q = D es una matriz diag-
onal real, cuyos elementos en la diagonal son las soluciones de la ecuación
|S2 − λS1 | = 0 (ver teorema 5.1.6). Más aún, podemos escoger Q tal que
 
λ1 0 ··· 0
 0 λ2 ··· 0 
QT S2 Q = D =  . .  ,
 
. ..
 .. .
. . . 
.
0 0 ··· λn
donde λ1 ≤ λ2 ≤ · · · ≤ λn . Ahora, si hacemos y = Q−1 x, entonces:
T T T T
x S1 x = y Q S1 Qy = y In y = y12 + y22 + · · · + yn2 ,
y
xT S2 x = yT QT S2 Qy = yT Dy = λ1 y12 + λ2 y22 + · · · + λn yn2 .
Por lo tanto, para cada x 6= 0:

xT S2 x λ1 y12 + λ2 y22 + · · · + λn yn2


= .
xT S1 x y12 + y22 + · · · + yn2
De esto se sigue que para cada x 6= 0 :
xT S2 x
λ1 ≤ ≤ λn .
xT S1 x


5.1.11. Teorema. Sea S una matriz simétrica de orden n. Las arma-
ciones siguientes son equivalentes:

1. S es positivamente semidenida.
2. Para cada matriz P , n×n, P T SP es positivamente semidenida.
3. S tiene ρ (0 ≤ ρ < n) valores propios positivos (estrictamente) y
n − ρ valores propios nulos.
4. Existe una matriz invertible P de orden n, tal que
 
In 0
P T SP = ; 0 ≤ ρ < n.
0 0
5. Existe una matriz n×n no invertible Q, tal que S = QT Q.
5.1.12. Teorema. Sea S = [sij ]n×n una matriz simétrica de orden n. Si
S es positivamente semidenida, entonces

1. ρ(S) < n.
126
Anexo 1 5.1. Matrices no negativas

2. sii ≥ 0 para i = 1, 2, . . . , n. Además, si sii = 0, entonces cada


elemento de la la i y cada elemento de la columna j de S es
nulo.

5.1.13. Teorema. Sean S1 y S2 matrices simétricas de igual orden. Si S1


y S2 son positivamente semidenidas, S2 es no negativa y S1 S2 = S2 S1 ,
entonces la matriz S = S1 S2 es positivamente semidenida.

5.1.14. Teorema. Sean S1 y S2 matrices simétricas de igual orden y sean


α1 , α2
números reales positivos. Si S1 y S2 son positivamente semidenidas,
entonces la matriz S = α1 S1 + α2 S2 es positivamente semidenida.

5.1.15. Teorema. Sea A una matriz n×n de rango r, entonces:

1. AT A y AAT son matrices no negativas.


2. AT A es positivamente denida sii r = n.
3. AT A es positivamente semidenida sii r < n.
5.1.16. Teorema. Sean S1 y S2 matrices simétricas de orden n.

1. Si S1 y S2 son matrices no negativas, entonces:


a) Tr S1 ≥ 0
b ) Tr S1 = 0 sii S1 = 0
c ) Tr (S1 S2 ) ≥ 0
d ) Tr (S1 S2 ) = 0 sii S1 S2 = 0
2. Si S1 y S2 son matrices positivamente denidas, entonces:
a ) Tr S1 > 0
b ) Tr (S1 S2 ) > 0.

5.1.17. Teorema. Sean S1 , S2 , . . . , Sk matrices simétricas de orden n.

1. Si S1 , S2 , . . . , Sk son no negativas, entonces:


Pk Pk
a ) Tr i=1 Si = Tr (Si ) ≥ 0
P  Pi=1
k k
b ) Tr i=1 Si = i=1 Tr (Si ) = 0 sii S1 = S2 = . . . = Sk =
0.
X k X k Xk Xk
c) Tr (Si Sj ) ≥ 0, y Tr (Si Sj ) ≥ 0.
j=1 i=1 j=1 i=1, i6=j
k
X k
X
d) Tr (Si Sj ) =0 sii Si Sj = 0 para todo i 6= j .
j=1 i=1, i6=j

2. Si S1 , S2 , . . . , Sk son matrices positivamente denidas, entonces:

127
5.1. Matrices no negativas Anexo 1
P  P
k k
a ) Tr i=1 Si = i=1 Tr (Si ) ≥ 0
k X
X k k
X k
X
b) Tr (Si Sj ) >0 y Tr (Si Sj ) > 0.
j=1 i=1 j=1 i=1, i6=j

5.1.18. Teorema. Sea S una matriz simétrica n×n tal que S2 = S. Sean
además S1 , S2 , . . . , Sk son matrices no negativas de orden n. Si
k
X
In = S + Si ,
i=1
entonces SSi = Si S = 0 para todo i = 1, 2, . . . , k .

Demostración. Por el teorema 5.1.15(1) la matriz S = S 2 = S T S es


no negativa, y por el teorema 5.1.16(1) Tr (SSi ) ≥ 0 para i = 1, 2, . . . , k.
Ahora; premultiplicando los dos miembros de la igualdad:

k
X
In = S + Si ,
i=1
por la matriz S, se obtiene

k
X k
X
S = S2 + SSi = S + SSi .
i=1 i=1
De esto se sigue que:

k k
! k
X X X
SSi = 0 y Tr SSi = Tr (SSi ) = 0.
i=1 i=1 i=1

En consecuencia, Tr (SSi ) =0 y por ende S · Si = 0, para i = 1, 2, . . . , k.


(ver teorema 5.1.16(1)). Además se se tiene que Si · S = SiT · S T =
T
(S · Si ) = 0. 
5.1.19. Teorema. Sean S1 y S2 matrices simétricas de orden n. Si S1 es
no negativa o S2 es no negativa, entonces las soluciones de la ecuación
|S1 S2 − λI| = 0 son reales.

Demostración. Supongamos que S1 es una matriz no negativa de


rango ρ ≤ n. Entonces existe una matriz invertible P tal que:
 
Iρ 0
P t S1 P = .
0 0
128
Anexo 1 5.2. Matrices idempotentes
 
−1 T −1 C11 C12
Sea ahora C=P S2 (P ) = , donde C11 es una matriz
C21 C22
ρ × ρ. Puesto que C es una matriz simétrica, entonces C11 es una matriz
simétrica y por lo tanto las soluciones de la ecuación |C11 − λIρ | = 0 son
reales.

Ahora; |S1 S2 − λI| = 0 sii


P |S1 S2 − λIn | (P T )−1 = P T S1 S2 (P T )−1 − λIn = 0 .
T

Puesto que:

P T S1 S2 (P T )−1 = P T S1 P P −1 S2 (P T )−1
  
Iρ 0 C11 C12
=
0 0 C21 C22
 
C11 C12
= ,
0 0
entonces

C11 − λIρ C12
P S1 S2 (P T )−1 − λIn =
T


0 −λI
= |C11 − λIρ | |−λI | .
De aquí que las soluciones de la ecuación |S1 S2 − λI| = 0, son las solu-
ciones de la ecuación |C11 − λI| |−λI | = 0, las cuales son reales . 

5.2. Matrices idempotentes

5.2.1. Denición. Una matriz A cuadrada de orden n es idempotente, si


satisface que A2 = A.
5.2.2. Teorema. Sea A una matriz idempotente n×n de rango r:

1. Si r = n, entonces A = In .
2. Si A es simétrica y r < n, entonces A es positiva semidenida.

1. Sir = n, entonces A es invertible. Premultiplicando por A−1 los


2
dos miembros de la igualdad A = A, se obtiene A = In .

129
5.2. Matrices idempotentes Anexo 1

a ) Si A es simétrica y r < n, entonces por el teorema 5.1.15(3),


la matriz A = A2 = AT A es positivamente semidenida.
5.2.3. Teorema. Sea A una matriz idempotente n × n. Si λ es un valor
propio de A, entonces λ = 0 ó λ = 1.
5.2.4. Teorema. Si S es una matriz simétrica idempotente, entonces:

1. Para cada matriz ortogonal Q, la matriz S ∗ = QT SQ es una


matriz simétrica idempotente.
∗ n
2. La matriz S = S , n = 1, 2, . . . , es simétrica idempotente.

3. La matriz S = I − 2S, es una matriz simétrica ortogonal.

5.2.5. Teorema. Si S es una matriz simétrica tal que S n+1 = S n para


algún n ∈ N, entonces S es una matriz idempotente.

Demostración. Sea P una matriz ortogonal tal que P T SP = D es


una matriz diagonal con los valores propios de S en la diagonal.

Puesto que S n+1 = S n , entonces:


n+1
D = (P T SP )n+1 = P T S n+1 P
= P T S n P = Dn .
De esto se sigue, que cada elemento de la diagonal de D es 1 ó 0. Por lo
tanto, D2 = D, a sea:

D2 = P T S 2 P = P T SP = D,
puesto que P es invertible, se tiene entones que S 2 = S. 
5.2.6. Teorema. Si S una matriz simétrica idempotente n × n, entonces:
n X
X n
ρ(S) = Tr S = Tr S T S = s2ij .

i=1 j=1

5.2.7. Teorema. Si S es una matriz simétrica idempotente n × n. Si


sii = 0 ósii = 1, entonces cada elemento de la la i y cada elemento de
la columna i de S es nulo.

Demostración. Puesto que S es una matriz simétrica idempotente,


entonces:
n
X n
X
sii = sik ski = s2ik .
k=1 k=1

130
Anexo 1 5.2. Matrices idempotentes

Por lo tanto, si sii = 0 o si sii = 1, se tiene


n
X
s2ik = 0 ,
k=1, k6=i

es decir, si1 = si2 = · · · = si(i−1) = si(i+1) = sin = 0. 


5.2.8. Teorema. Sean S1 , S2 , . . . , Sk matrices simétricas de orden n, y
k
X
sea además S= Si . Entonces dos de las condiciones siguientes impli-
i=1
can la tercera:

a) S2 = S.
b) Si = Si2 , i = 1, 2, . . . , k .
c) Si Sj = 0 si i 6= j; i, j = 1, 2, . . . , k .

Demostración. Supongamos que las condiciones a) y b) se satis-


facen. Por la condición a) se tiene:

Xk k
X k
X k
X
S2 = ( Si )2 = Si2 + Si Sj
i=1 i=1 j=1
i=1
i 6= j
k
X
= Si = S,
i=1

y por la condición b), se tiene:

k
X k
X
Si2 = Si ,
i=1 i=1
y por lo tanto:
k
X k
X
Si Sj = 0.
j=1
i=1
i 6= j
 
k
X k
X
De aquí que Tr  Si Sj  = 0.
j=1 i=1, i6=j

Puesto que cada Si es una matriz simétrica idempotente, entonces Si ,


131
5.2. Matrices idempotentes Anexo 1

para i = 1, 2, . . . , k, es no negativa (teorema 5.2.2), además se tiene que


que Si Sj = 0 si i 6= j; i, j = 1, 2, . . . , k (ver teorema 5.1.17). De manera
que las condiciones a) y b) implican la condición c).

Supongamos ahora que las condiciones a) y c) se satisfacen. Se tiene en-


tonces que:

Xk k
X
S = S2 = ( Si )2 = Si2 ,
i=1 i=1
o sea,
k
X k
X
Si = Si2 .
i=1 i=1

Premultiplicando cada miembro de la última igualdad por Sj , j = 1, 2, . . . , k,


se tiene que:

Sj Sj = Sj Sj2 ,
o sea:

Sj2 = Sj3 ,
pues Si Sj = 0 si i 6= j; i, j = 1, 2, . . . , k . Por el teorema 5.2.5, se con-
cluye que Sj es una matriz simétrica idempotente, j = 1, 2, . . . , k. Así, as
condiciones a) y c) implican la condición b).

Por último, si las condiciones b) y c) se satisfacen, entonces

Xk k
X k
X k
X
S2 = ( Si )2 = Si2 + Si Sj
i=1 i=1 j=1
i=1
i 6= j
k
X
= Si = S;
i=1

esto es, la condición a) se satisface. 

5.2.9. Teorema.Sean S1 , S2 , . . . , Sk matrices simétricas idempotentes


de orden n,
de rangos η1 , η2 , . . . , ηk . Sea Sk+1 una matriz no negativa de
Pk+1
orden n. Si I = S , entonces Sk+1 es una matriz simétrica idempo-
Pk i
i=1
tente de orden n − i=1 ηi , y Si Sj = 0 para i 6= j; i, j = 1, 2, . . . , k .

132
Anexo 1 5.2. Matrices idempotentes

Demostración. Puesto que las matrices Si para i = 1, 2, . . . , k , son


idempotentes, entonces:

k
X
2
Sk+1 = (I − Si )2
i=1
k
X k
X k
X k
X
= I −2 Si + Si2 + Si Sj
i=1 i=1 j=1
i=1
i 6= j
k
X k
X k
X
= I− Si + Si Sj
i=1 j=1
i=1
i 6= j
k
X k
X
= Sk+1 + Si Sj .
j=1
i=1
i 6= j
Pk
De otro lado, como Sk+1 = I − i=1 Si , entonces:

k
X
2
Sk+1 = Sk+1 − Si Sk+1 .
i=1

En consecuencia:

k
X k
X k
X
Sk+1 + Si Sj = Sk+1 − Si Sk+1 .
j=1 i=1
i=1
i 6= j

De esto se sigue:

k
X k
X k
X
Si Sj + Si Sk+1 = 0,
j=1 i=1
i=1
i 6= j
133
5.2. Matrices idempotentes Anexo 1

por lo tanto,
 
Xk k
X k
X
Tr  Si Sj + Si Sk+1  = 0.
j=1 i=1, i6=j i=1

Puesto que las matrices S1 , S2 , . . . , Sk son simétricas idempotentes, en-


tonces por el teorema 5.2.2, las matrices S1 , S2 , . . . , Sk son no negativas.
Por hipótesis se tiene que también la matriz Sk+1 es no negativa. Así que
Si Sj = 0 para i 6= j; i, j = 1, 2, . . . , k, k + 1 (teorema 5.1.17(1)).
Pk+1
Ahora bien, puesto que I 2 = I = i=1 Si , se sigue del teorema anterior
que, Si2 = Si para i = 1, 2, . . . , k + 1 y por lo tanto, Tr (Si ) = ρ (Si ) (ver
teorema 5.2.6). Así:
" k
#
X
ρ (Si ) = Tr (Si ) = Tr I− Si
i=1
k
X
= Tr (I ) − Tr (Si )
i=1
k
X
= n− ρ (Si )
i=1
k
X
= n− ηi .
i=1

que es lo que se quería demostrar. 

5.2.10. Teorema. Sean S1 , S2 , . . . , Sk matrices


hP no negativas
i de orden n,
Pk 2 k 2
y sea S= i=1 Si . Si S = S y Tr S ≤ Tr i=1 Si , entonces:

a) Si2 = Si para i = 1, 2, . . . , k .
b) Si Sj = 0 para i 6= j; i, j = 1, 2, . . . , k .

Demostración. Puesto que S = S2;


k
X k
X k
X
S= Si2 + Si Sj .
i=1 j=1
i=1
i 6= j
134
Anexo 1 5.2. Matrices idempotentes

De aquí que:
  !
Xk k
X k
X
Tr  Si Sj  = Tr S − Tr Si2 ≤ 0.
j=1 i=1, i6=j i=1

Ya que las matrices S1 , S 2 , . . . , S k son no negativas, entonces b) se sat-


isface. Esta condición, junto con la hipótesis de que S2 = S implican
entonces la validez de la condición a), (ver teorema 5.2.8). 

5.2.11. Teorema. Sea S una matriz simétrica de orden n. Si ρ(S) = r,


entonces S puede escribirse en la forma:
r
X
S= λi Si ,
i=1
t 2
donde: Si = Si , Si = Si , Si Sj = 0 si i 6= j, ρ(Si ) = 1 y los λi son los
valores propios no nulos de la matriz S; i, j = 1, 2, . . . , k.

Demostración. Existe una matriz ortogonal Q tal que:


 
D 0
QT SQ = ,
0 0
donde D es una matriz diagonal de orden r con los valores propios no
nulos de la matriz S en su diagonal. De aquí que:
 
D 0
S = Q QT
0 0
 
λ1 0 ··· 0 0 ··· 0  QT 
1
 0
 λr ··· 0 0 ··· 0 
 
 .. . .. . . . 

QT2

. . . . 
 . . . . . ··· .

  
= [Q1 Q2 · · · Qn ] 
 0 0 ··· λr 0 ··· 0 
 
 
 0 0 ··· 0 0 ··· 0   ...
  
 
 . . . . . ..  
 .. .
.
.
.
.
.
.
. .  
0 0 ··· 0 0 ··· 0 QTn
r
X
= λi Qi QTi
i=1
r
X
= λi Si ,
i=1

135
5.2. Matrices idempotentes Anexo 1

donde Si = Qi QTi , i = 1, 2, . . . , r. Así:

SiT = (Qi QTi )T = (QTi )T QTi = Qi QTi = Si


SiT = Qi QTi Qi QTi = Qi · I · QTi = Qi QTi = Si
Si Sj = Qi QTi Qj QTj = Qi · 0 · QTj = 0, si i 6= j.
ρ(Si ) = ρ(Qi QTi ) = ρ(Qi ) = 1.
El teorema queda entonces demostrado. 

136
CAPÍTULO 6

Inversa generalizada e inversa condicional de


matrices.

Este capítulo consta de cuatro secciones. Las dos primeras versan sobre
la denición, propiedades y cálculo de la inversa generalizada de una ma-
triz. La tercera sección trata sobre la denición y el cálculo de inversas
condicionales de una matriz. En la última sección veremos aplicaciones
de la inversa generalizada y de la inversa condicional de una matriz a los
sistemas de ecuaciones lineales y a los mínimos cuadrados.

6.1. Inversa generalizada de una matriz

La inversa generalizada de una matriz es una herramienta de gran utilidad


en los cursos de modelos lineales (véase la sección 1.5 de [ ]). 4
Antes de dar la denición de inversas generalizada de una matriz, veamos
un par de teoremas que nos serán útiles en el desarrollo del resto del
capítulo.

6.1.1. Teorema. Si A es una matriz m × n de rango r > 0, entonces


existen matrices invertibles P y Q tales que P AQ es igual a:
 
Ir 0
1. si r<n y r < m.
0 0
 
Ir
2. si r = n < m.
0
 
3. Ir 0 si r=m<n .

4. Ir si r = n = m.
137
6.1. G-Inversa y C-inversa Inversa generalizada e inversa condicional

Demostración. Demostremos únicamente (1). Si R es la forma escalon-


ada reducida de A, entonces R = P A, P es un producto de matrices ele-
mentales, (véase el apartado 1.1.9). Las últimas m−r las de R son nulas
y R tienen la estructura siguiente:

 
0 ··· 0 1 a1k ··· 0 a1k0 ··· a1k00 0 a1k000 ···

 0 ··· 0 0 0 ··· 1 a2k0 ··· a2k00 0 a2k000 ··· 


 0 ··· 0 0 0 ··· 0 0 ··· 0 1 a3k000 ··· 

. . . . . . . . .
. . . . . . . . .
 
 . . . . . . . . . 
0 ··· 0 0 0 ··· 0 0 0 0 0 ···
ahora bien, efectuando las operaciones elementales sobre las columnas de
la matriz R podemos obtener

 
Ir 0
F =
0 0
Así que F = RQ, donde Q es un producto de marices elementales (por
columnas). Por lo tanto; F = RQ = P AQ, donde P y Q son matrices
invertibles. 

6.1.2. Ejemplo. Consideremos la matriz


 
1 2 1 3
A =  −1 −2 0 −2 
2 4 2 6
claramente las dos primeras las son linealmente independientes, y la ter-
cera es un múltiplo escalar de la primera la de A. por lo tanto, el número
máximo de las linealmente independientes de A es 2; o sea, A tiene rango
2. Por el teorema anterior existen matrices invertibles P y Q tales que
 
  1 0 0 0
I2 0
P AQ = = 0 1 0 0 .
0 0
0 0 0 0
Procedemos ahora a calcular las matrices invertibles P y Q siguiendo las
pautas de la demostración del teorema anterior.

PASO I: Encontremos una matriz invertible P tal que P A = R, donde R


es la forma escalonada reducida de A.
138
Inversa generalizada e inversa condicional 6.1. G-Inversa y C-inversa

 
  1 2 1 3 | 1 0 0
A | I3 =  −1 −2 0 −2 | 0 1 0 
2 4 2 6 | 0 0 1
 
f ilas
1 2 1 3 | 1 0 0
'  0 0 1 1 | 1 1 0 
0 0 0 0 | −2 0 1
 
f ilas
1 2 0 2 | 1 −1 0  
'  0 0 1 1 | 1 1 0 = R | P .
0 0 0 0 | −2 0 1

PASO II: Encontremos una matriz invertible Q tal que RQ = F, donde

 
I2 0
F = .
0 0

 
1 2 0 2 | 1 0 0 0
| 0 1 0 0
   
R | I4 =  0 0 1 1
 
| 0 0 1 0

 
0 0 0 0 | 0 0 0 1
 
1 0 2 2 | 1 0 0 0
| 0 0 1 0
Col
 
'  0 1 0 1
 
| 0 1 0 0

 
0 0 0 0 | 0 0 0 1
 
1 0 0 0 | 1 0 −2 −2
| 0 0 1 0
Col
 
'  0 1 0 1
 
| 0 1 0 0

 
0 0 0 0 | 0 0 0 1
 
1 0 0 0 | 1 0 −2 −2
| 0 0 1 0
Col
 
'  0 1 0 0
 
| 0 1 0 −1

 
0 0 0 0 | 0 0 0 1
 
= F | Q

Luego las matrices invertibles

139
6.1. G-Inversa y C-inversa Inversa generalizada e inversa condicional

 
  1 0 −2 −2
1 −1 0  0 0 1 0 
P = 1 1 0  y Q= 
 0 1 0 −1 
−2 0 1
0 0 0 1
son tales que:
 
  1 0 0 0
I2 0
P AQ = = 0 1 0 0 .
0 0
0 0 0 0
6.1.3. Teorema. Si A es una matriz m × n de rango r > 0, entonces
existen matrices Bm×r y Cr×n , de rango r, tales que A = B · C.

Demostración. Consideremos distintas posibilidades para rango


de la matriz A, ρ(A) = r.

1. Si r = m, entonces A = BC , donde B = Ir y C = A.
2. Si r = n, entonces A = BC , donde B = A y C = Ir .
3. Si r < n y r < m, entonces por el teorema 6.1.1(1) existen
matrices invertibles P y Q tales que:
 
Ir 0
P AQ = .
0 0
De aquí que:
 
0−1 Ir
A = P Q−1
0 0
 
−1 Ir 
Ir 0 Q−1

= P
0
= BC,
donde B ∈ Mm×r y C ∈ Mr×n son las matrices de rango r,
dadas por
 
Ir
B = P −1 Q−1 .
 
y C= Ir 0
0

El teorema queda entonces demostrado. 


140
Inversa generalizada e inversa condicional 6.1. G-Inversa y C-inversa

Una forma de calcular las matrices B y C que aparecen en el teorema


anterior, en el caso en que r < n y r < m, tal como aparece en la de-
mostración, es calculando primero las matrices invertibles P y Q tales
que:
 
Ir 0
P AQ = ,
0 0
después calcular las matrices P −1 y Q−1 , y por último obtener:
 
Ir
B = P −1 Q−1 .
 
y C= Ir 0
0
Para el caso en que la matriz A no sea de rango la completo, existe
una demostración alternativa, la cual presentamos a continuación. Como
veremos, esta demostración nos facilitará un algoritmo más económico
para calcular matrices B y C adecuadas.

Otra prueba del teorema 6.1.3 para r < m. Suponga que A es


una matriz de rango r < m. Sea P una matriz invertible de orden m tal que
P A = R, donde R es la forma escalonada reducida de A (véase apartado
1.1.9). Puesto que r < m, R tiene la estructura siguiente:
 
C
R= ,
0
donde C es una matriz r×n de rango r. Ahora, si escribimos P −1 parti-
cionada adecuadamente

P −1 =
 
B D ,
donde B es una matriz m×r de rango r y además,
−1
A = P R  
  C
= B D  
0
= BC


Presentamos a continuación, un método basado en esta demostración para


calcular matrices B y C, de rango r, tales que A = BC .
6.1.4. Algoritmo. Considere una matriz A de tamaño m×n
141
6.1. G-Inversa y C-inversa Inversa generalizada e inversa condicional
 
PASO I Forme la matriz Am×n | Im .
PASO II Efectúe operaciones elementales en las las de A hasta obtener
su forma escalonada reducida, y en las columnas de Im , siguiendo
las siguientes pautas:
i) Si se intercambian las las iyj de A, entonces intercambie
las columnas i y j de Im .
ii) Si se multiplica la i-ésima la de A por el número α 6=
0, entonces se multiplica la i-ésima columna de Im por el
número α−1 .
iii) Si a la j -ésima la de A se le suma α veces la i-ésima la
de A (α 6= 0), entonces a la i-ésima columna de Im se le
suma (−α) veces la j -ésima columna de Im .
−1
 
Al nal de este paso se obtiene la matriz R | P
B = Primeras r columnas de P −1 ,
 
PASO III
C = [Primeras r las de R].

6.1.5. Ejemplo. La matriz del ejemplo 6.1.2

 
1 2 1 3
A =  −1 −2 0 −2 
2 4 2 6

tiene rango2. Existen por lo tanto matrices B3×2 y C2×4 de rango 2 tales
que A = BC. Calculemos matrices B y C siguiendo los pasos indicados
anteriormente.
 
  1 2 1 3 | 1 0 0
A | I3 =  −1 −2 0 −2 | 0 1 0 
2 4 2 6 | 0 0 1
 
1 2 1 3 | 1 0 0
→  0 0 1 1 | −1 1 0 
0 0 0 0 | 2 0 1
R | P −1 .
 
=

Así, tomando las primeras 2 columnas de R y las 2 primeras las de P −1


obtenemos respectivamente las matrices

 
1 1  
1 2 0 2
B =  −1 0  y C= ,
0 0 1 1
2 2
142
Inversa generalizada e inversa condicional 6.1. G-Inversa y C-inversa

las cuales tienen rango 2 y son tales que:


 
1 1  
1 2 0 2
BC =  −1 0 
0 0 1 1
2 2
 
1 2 1 3
=  −1 −2 0 −2  = A .
2 4 2 6
6.1.6. Denición (Inversa generalizada o pseudoinversa). Sea A una ma-
triz m × n. Si M es una matriz n×m tal que:

1. AM es una matriz simétrica.


2. M A es una matriz simétrica.
3. AM A = A .
4. M AM = M,

entonces se dice que M es una inversa generalizada (pseudoinversa) de


A, o simplemente que M es una g-inversa de A.
 
3 −7
1 
6.1.7. Ejemplo. Veriquemos que la matriz M = 2 −1  es una
11
  3 4
1 1 2
g-inversa de la matriz A= . En efecto,
−1 0 1
 
1 11 0
1. AM = = I2 es una matriz simétrica.
11 0 11
 
10 3 −1
1 
2. MA = 3 2 3  es una matriz simétrica.
11
−1 3 10
3. AM A = I2 A = A .
    
10 3 −1 3 −7 3 −7
1 1 
4. M AM = 2  3 2 3  2 −1  = 2 −1  =
11 11
−1 3 10 3 4 3 4
M,
6.1.8. Observación.

1. Si A es invertible, entonces la matriz A−1 es una g-inversa de A.


143
6.1. G-Inversa y C-inversa Inversa generalizada e inversa condicional

2. Si A = 0m×n , entonces la matriz M = 0n×m es una g-inversa de


A.
6.1.9. Teorema (Existencia de una g-inversa). Toda matriz A de tamaño
m×n tiene una inversa generalizada.

Demostración. De acuerdo con la observación 6.1.8(2), la demostración


es trivial en el caso en que A = 0. Supongamos ahora que que A 6= 0 tiene
rango r > 0. Por el teorema 6.1.3, existen matrices B de tamaño m × r y
C de tamaño r × n, ambas de rango r tales que A = BC.

Puesto que B y C tiene rango r, las matrices B T B y CC T son invertibles


(véase el teorema 1.4.8). Consideremos ahora la matriz
−1 −1
M = C T CC T BT B BT ,
y veriquemos que M es una g-inversa de A. Es decir, veriquemos que
las condiciones de la denición 6.1.6 se satisfacen. En efecto:

Las matrices AM y MA son simétricas puesto que


−1 −1 −1
AM = BCC T CC T BT B BT = B BT B BT
y
−1 T−1 −1
M A = C T CC T BT B B BC = C T CC T C
T
−1 T
De otro lado, AM A = B B B B BC = BC = A, y
−1 −1 T −1 T
M AM = C T CC T CC T CC T

B B B
−1 −1
= C T CC T BT B B T = M.
 

Es decir, AM A = A y M AM = A, por lo tanto, M es una g-inversa de


A. 
6.1.10. Teorema (Unicidad de la g-inversa) . Toda matriz A tiene una
única g-inversa.

Demostración. Supongamos que M1 y M2 son dos g-inversas de


una matriz A. Utilizando la denición de g-inversa de una matriz se ob-
tiene la cadena siguiente de igualdades:

AM2 = (AM1 A)M2 = (AM1 )(AM2 ) = (AM1 )T (AM2 )T


T T T
= ((AM2 )(AM1 )) = ((AM2 A)M1 ) = (AM1 ) = AM1 .
144
Inversa generalizada e inversa condicional 6.1. G-Inversa y C-inversa

De aquí que AM2 = AM1 . En forma análoga se obtiene que M2 A = M1 A.


Por lo tanto

M1 = M1 AM1 = (M1 A)M1 = (M2 A)M1 = M2 (AM1 )


= M2 (AM2 ) = M2 AM2 = M2 .

6.1.11. Nota. En lo sucesivo, la g-inversa de una matriz la denotaremos


con el signo + como exponente. Por ejemplo, por A+ , B + denotarán
respectivamente las inversas generalizadas de las matrices A y B .

6.1.12. Teorema (Propiedades de la g-inversa). Para cualquier matriz A


tiene que:

a) (A+ )+ = A.
b) (αA)+ = α−1 A+ , para todo escalar α 6= 0.
c) (AT )+ = (A+ )T
d) (AAT )+ = (AT )+ A+
e) (AT A)+ = A+ (AT )+

Demostración. Por el teorema anterior, toda matriz tiene una úni-


ca g-inversa. Sólo resta vericar en cada caso, que se satisfacen las condi-
ciones de la denición 6.1.6. Haremos la demostración sólo para el inciso
(e), para ello, supondremos válidas las armaciones (a)-(d) (las verica-
ciones ) quedan a cargo del lector) y aplicaremos las propiedades de la
denición 6.1.6:


1. La matriz M = A+ (AT )+ satisface la igualdad
  A T
A M =
A+ A y por lo tanto, la matriz AT A A+ (AT ) +
es simétrica.
En efecto:

AT A M AT A A+ (AT )+
  
=
(c)
= AT (AA+ )(A+ )T
def.
= AT (AA+ )T (A+ )T
T
= A+ AA+ A+
def. T
= A+ A = A+ A .

145
6.1. G-Inversa y C-inversa Inversa generalizada e inversa condicional

2. La matriz M = A+ (AT )+ satisface la igualdad
  M A T
A =
A+ A y por lo tanto, la matriz A+ (AT )+ AT A es simétrica.
En efecto:

M AT A A+ (AT )+ AT A
  
=
(c)
= A+ (A+ )T AT A
def.
= A+ (AA+ )T A
def. def.
= A+ AA+ A = A+ A.
3. La matriz M = A+ (AT )+ satisface la igualdad (AT A)M (AT A) =
T
A A.
(AT A)M (AT A) AT A A+ (AT )+ AT A
  
=
(1)
A+ A AT A = (A+ A)T AT A
 
=
T def. T
= A(A+ A) A = AA+ A A = AT A.
4. La matriz M = A+ (AT )+ satisface la igualdad M (AT A)M =
M. En efecto

T
A+ (AT )+ AT A A+ (AT )+
  
M (A A)M = M =
(2)
A+ A A+ (AT )+
 
=
T +
= A+ AA+ AT
def.
= A+ (AT )+ .

6.1.13. Observación. No siempre es cierto que (AB)+ = B + A+ . Para


mostrar este hecho consideremos el siguiente ejemplo.
 
1
Ejemplo.
 
6.1.14. Si A= 1 1 y B= , entonces AB = [3]. Por
2  
1 1
lo tanto(AB)+ = 1/3. De acuerdo con el +
corolario 6.2.2, A =
2 y
1
B + = 51 1 2 , de donde se tiene que
 
 
+ + 1 1 1 1
B A = 1 2 = [3] = [3/10] 6= [3] = (AB)+ .
5 2 1 10

146
Inversa generalizada e inversa condicional 6.2. Cálculo de la g-inversa

6.2. Cálculo de la g-inversa de una matriz

En esta sección veremos algunos teoremas que pueden ser utilizados para
calcular la g-inversa de una matriz. Empezamos con el siguiente resultado,
el cual se deduce de los teoremas 6.1.3, 6.1.9 y 6.1.10.

6.2.1. Teorema. Sea A una matriz m×n de rango r > 0.

1. Si r = n = m, A es invertible y A+ = A−1 .
entonces
+ T
−1
2. Si r = m < n,entonces A = A AAT .
+ T
−1 T
3. Si r = n < m, entonces A = A A A .
4. Si r < n y r < m, entonces existen matrices B ∈ Mm×r y
C ∈ Mr×n de rango r tales que A = B · C y
−1 −1
A+ = C T CC T BT B BT .

6.2.2. Corolario. Sea a un vector no nulo de n componentes.

−1 T
1. Si a ∈ M1×n , entonces a+ = aaT a .
+
 T −1 T
2. Si a ∈ Mn×1 , entonces a = a a a .

6.2.3. Ejemplo. Ilustremos el teorema 6.2.1 con alguna matrices sencillas.

 
1 2
1. La matriz A = es invertible, así que A+ = A−1 =
  1 3
3 −2
.
−1 1  
1 2 3
2. La matriz A= tiene rango 2, así que:
−1 −1 1
 
1 −1  
T −1 1 3 0
A+ = AT AA

= 2 −1 
42 0 14
3 1
 
3 −14
1 
= 6 −14 
42
9 14

147
6.2. Cálculo de la g-inversa Inversa generalizada e inversa condicional
 
1 2
3. La matriz A= 3 4  tiene rango 2, así que:
5 6
  
+ T
−1 T 1 56 −44 1 3 5
A = A A A =
24 −44 35 2 4 6
 
1 −32 −8 16
=
24 26 8 −10
4. La matriz A dada por
 
1 2 1 3
A =  −1 −2 0 −2 
2 4 2 6
Del ejemplo 6.1.5 se sabe ρ(A) = 2 y que las matrices
 
1 1  
1 2 0 2
B =  −1 0  y C=
0 0 1 1
2 2
son tales que A = BC. Luego
−1 −1
A+ = C T CC T BT B BT .
 
−2 −20 −4
1  −4 −40 −8 

=
24  9 55 18 
5 15 10
 
5. Para la matriz A = 1 2 3 = 6 0 se tiene que:
 
1
−1 T 1
a+ = aaT

a =  2 
14
3
 
1
6. La matriz A =  1  6= 0 se tiene que,
1
−1 T 1
a+ aT a
 
= a = 1 1 1 .
3
6.2.4. Teorema. Sea A ∈ Mm×n una matriz de rango r > 0. Entonces la
g-inversa de A se puede calcular siguiendo los pasos dados a continuación:

1. Calcule M = AT A.
148
Inversa generalizada e inversa condicional 6.2. Cálculo de la g-inversa

2. Haga C1 = I .
1
3. Calcule Ci+1 = Tr(Ci M )I − Ci M, para i = 1, 2, . . . , r − 1.
i
r
4. Calcule Cr AT , ésta es la matriz A+ .
Tr (Cr M )

Además, se tiene que Cr+1 M = 0 y Tr (Cr M ) 6= 0.

Para la demostración de este teorema, remitimos al lector a [ ] (teore- 3


ma 6.5.8). Obsérvese además, que la condición Cr+1 M = 0 nos permite
proceder sin conocer de antemano el rango de A.
6.2.5. Ejemplo. Consideremos la matriz
 
1 2 1 3
A =  −1 −2 0 −2 
2 4 2 6
del ejemplo 6.2.3(4). Calculemos A+ utilizando el teorema anterior.

Para ello calculemos M = At A. Esto es,


 
6 12 5 17
 12 24 10 34 
M = 5 10

5 15 
17 34 15 49
y consideremos C1 = I4 . Entonces tenemos que:
 
78 −12 −5 −17
 −12 60 −10 −34 
C2 = Tr (C1 M ) I − C1 M = 
 −5 −10
.
79 −15 
−17 −34 −15 35
Como C3 M = 0, entonces ρ(A) = 2, y además
 
−2 −20 −4
+ 2 T 2  −4 −40 −8 
A = C2 A = 
Tr (C2 M ) 140  9 55 18 
5 15 10

El siguiente teorema nos presenta una forma alternativa para calcular la


g-inversa de una matriz. Para su demostración, remitimos a [ ] (véase 7
páginas. 14-15).

149
6.2. Cálculo de la g-inversa Inversa generalizada e inversa condicional

6.2.6. Teorema. Sea A ∈ Mm×n una matriz de rango r > 0. La g-inversa


de A se puede calcular mediante los siguientes pasos:

 
1. Forme la matriz A | Im .
2. Efectúe operaciones elementales en las las de la matriz anterior
hasta conseguir la forma escalonada reducida de A. Al nal de
este paso se obtiene una matriz que podemos describir por bloques
así:
 
Er×n | Pr×m
si r<m
0m−r×n | Pm−r×m

ó
 
Em×n | Pm×m si r = m.

(Si r = m = n, entonces A es invertible, E =I y P = A−1 =


+
A ).
3. Forme la matriz:

Er×n AT
 
| Er×n
si r<m
Pm−r×m | 0m−r×m

Em×n AT
 
| Em×n si r = m.

4. Efectúe operaciones elementales en las las de la matriz anterior


hasta conseguir la forma escalonada reducida. Al nal de este
paso se obtiene la matriz

| (A+ )T .
 
Im

6.2.7. Ejemplo. Consideremos de nuevo la matriz A del ejemplo 6.2.5

 
1 2 1 3
A =  −1 −2 0 −2  .
2 4 2 6

Con el objeto de calcular


  A+ utilizando el teorema anterior, formemos
la matriz A | I3 y apliquemos operaciones elementales en las las

150
Inversa generalizada e inversa condicional 6.2. Cálculo de la g-inversa

hasta encontrar la forma escalonada reducida de A.


 
  1 2 1 0 3 | 1 0
A | I3 =  −1 −2 0 0  −2 | 0 1
2 4 2 1 6 | 0 0
 
1 2 0 2 | 0 −1 0
 0 0 1 1 | 1 1 0 
→   ··· ··· ··· ··· | ··· ··· ··· 

0 0 0 0 | −2 0 1
 
E2×4 | P2×3
= .
01×4 | P1×3
E2×4 At | E2×4
 
Construyamos ahora la matriz de la forma y aplique-
P1×3 | 01×4
mos de nuevo operaciones elementales en las las, hasta obtener la matriz
identidad I3 en el lado izquierdo de este arreglo
 
11 −9 22 | 1 2 0 2
E2×4 At
 
| E2×4  4 −2 8 | 0 0 1 1 
=  
P1×3 | 01×4  ··· ··· ··· | ··· ··· ··· ··· 
−2 0 1 | 0 0 0 0
1 2 9 1
 
− −
 1
 0 0 | 35 35 70 14 
 | 
 2 4 11 3 
→ 
 0 1 0 | − − 
 | 7 7 14 14 

 
 0 0 1 | 2 4 9 1 
− −
35 35 35 7
(A+ )t .
 
= I3 |
Así que
 1 2 2 
− − −
 35 7 35 
 
 
 −2 4 4   
−2 −20 −4

 35 − − 
7 35  1 
 −4 −40 −8 

A+ =  =
 
 9 70  9 55 18 
11 9 
5 15 10

 70 14 35 
 
 
2 3 1
 
35 14 7
151
6.3. C-inversa Inversa generalizada e inversa condicional

6.2.8. Ejemplo. Consideremos la matriz A del ejemplo 6.2.3(2)


 
1 2 3
A= ,
−1 −1 1
y sigamos los pasos del ejemplo anterior (teorema 6.2.6) para calcular A+ .
 
  1 2 3 | 1 0
A | I2 =
−1 −1 1 | 0 1
 
1 0 −5 | −1 −2

0 1 4 | 1 1
 
= E2×4 | P2×3 .
E2×4 AT
 
Construyamos ahora la matriz | E2×3 y reduzcámosla

 
 T
 −14 −6 | 1 0 −5
E2×4 A | E2×3 =
14 3 | 0 1 4
 1 2 3 
 1 0 | 14 14 14 
→ | 
| −1 1 1
 
0 1 −
3 3 3
| (A+ )T
 
= I2 .
Así que
1 1
 
−  
 14
 3 
 3 −14
   
+
 2 1  1  
A = −  =  6 −14 
 14
 3  42 




 
 3 1  9 14
14 3

6.3. Inversa condicional de una matriz

Al igual que el concepto de inversa generalizada de una matriz, el concepto


de inversa condicional es de gran utilidad en los cursos de modelos lineales

152
Inversa generalizada e inversa condicional 6.3. C-inversa

4
(véase la sección 1.5 de [ ]) y en la caracterización del conjunto solución
de sistemas lineales de ecuaciones.

6.3.1. Denición. Sea A una matriz m × n. Si M es una matriz n×m


tal que:
AM A = A,
entonces se dice que M es una inversa condicional de A o simplemente,
que M es una c-inversa de A.
6.3.2. Observación. De acuerdo con el teorema 6.1.10, toda matriz A
tiene una única inversa generalizada A+ . Ésta es a su vez por denición
una c-inversa de A. Así que, toda matriz A tiene al menos una c-inversa.
Veremos aquí, que una matriz A puede tener varias (incluso innitas)
inversas condicionales, salvo cuando la matriz A es invertible, en cuyo
caso A−1 es la única c-inversa.

Nota. El teorema 6.3.5 caracteriza el conjunto de todas las inversas


condicionales de A.
6.3.3. Teorema. Sea A ∈ Mm×n una matriz de rango r. Entonces:

1. W = {N ∈ Mn×m : AN A = 0} es un subespacio de Mn×m .


W mencionado en (1) es m · n − r2 .
2. La dimensión del espacio

Demostración. Para demostrar el inciso (1) basta demostrar, según


el teorema 1.2.6, que el conjunto W es cerrado bajo la suma y la multi-
plicación por un escalar. En efecto,

Sean N1 y N2 dos elementos (matrices) del conjunto W, entonces

A(N1 + N2 )A = AN1 A + AN2 A = 0 + 0 = 0,


esto implica que N1 + N2 ∈ W. Ésto es, W es cerrado bajo la suma.

De otro lado, para cualquier escalar α∈R se tiene que

A(αN1 )A = αAN1 A = α0 = 0,
ésto implica que, αN1 ∈ W. Es decir, W es cerrado bajo la multiplicación
por un escalar. El conjunto W es entonces un subespacio vectorial de
Mn×m , lo que completa la demostración del inciso (1).

Hagamos ahora la demostración del inciso (2) en el caso en la matriz


A ∈ Mm×n tenga rango r con 0 < r < mı́n {m, n}. Las demostraciones
en los demás casos son similares.

153
6.3. C-inversa Inversa generalizada e inversa condicional

Sea entonces A una matriz m×n de rango r, con 0 < r < mı́n {m, n}.
De acuerdo con el inciso (1) del teorema 6.1.1, existen matrices invertibles
P ∈ Mm×m y Q ∈ Mn×n tales que:
   
Ir 0 −1 Ir 0
(6.1) P AQ = o A=P Q−1 .
0 0 0 0
Consideremos ahora matrices arbitrarias X ∈ Mr×r , Y ∈ Mr×(m−r) , Z ∈
M(n−r)×r y W ∈ M(n−r)×(m−r) y la matriz N ∈ Mn×m dada por
 
X Y
N =Q P.
Z W
Ahora N ∈W siiAN A = 0. De (6.1) se sigue que
     
Ir 0 X Y Ir 0
AN A = P −1 Q−1 Q P P −1 Q−1
0 0 Z W 0 0
 
X 0
= P −1 Q−1 .
0 0
De aquí se deduce AN A = 0 X = 0. Esto es, N ∈ W
sii sii N es de la
forma:  
0 Y
N =Q P.
Z W
Demostremos ahora que la dimensión de W es m · n − r2 . Para ello, us-
aremos el hecho de que dim Mk×j = k · j.
En efecto, consideremos los
espacios de matrices Mr×(m−r) , M(n−r)×r y M(n−r)×(m−r) con las bases
 
respectivas B1 = Y1 , Y 2 , . . . , Yr(m−r) , B1 = Z 1 , Z 2 , . . . , Z r(n−r) y

B3 = W1 , W2 , . . . , W(n−r)·(m−r) . Es fácil mostrar entonces que el con-
junto B = {N1 , N2 , . . . , Nm·n−r·r } con
 
0 Yi
Ni = Q P ; i = 1, 2, . . . , m · r − r2
0 0
 
0 0
Nr(m−r)+j = Q P ; j = 1, 2, . . . , n · r − r2
Zj 0
 
0 0
Nr(m+n−2r)+k = Q P ; k = 1, 2, . . . , (n − r) · (m − r),
0 Wk
es una base de W. 
6.3.4. Teorema. Sea A una matriz m× n. El conjunto McA de todas las
c-inversas,
McA = {M ∈ Mn×m : AM A = A} ,
2
es una variedad lineal de dimensión m · n − r .

154
Inversa generalizada e inversa condicional 6.3. C-inversa

c
Demostración. Por el teorema 6.2.2 MA es no vacío, sea entonces
M0 un elemento de McA . Veriquemos entonces, que M ∈ McA si y sólo
si M se puede escribir como la suma de M0 y un elemento N ∈ W, ésto
es, sii M = M0 + N para algún N ∈ W , siendo W el conjunto dado en el
teorema 6.3.3.

Si M = M0 + N, con N ∈ W , entonces AM A = AM0 A + AN A = A + 0 =


c c
A. Ésto es, M ∈ MA . De otra parte, si M ∈ MA , entonces podemos
escribir

M = M + M0 − M0
= M0 + (M − M0 ) = M0 + N ,

donde N = M − M0 . Puesto que

A(M − M0 )A = AM A − AM0 A = A − A = 0 ,

se tiene entonces que N = M − M0 ∈ W y de aquí se sigue que:

McA = {M + N, N ∈ W } .

El teorema siguiente establece cómo determinar los elementos de McA .

6.3.5. Teorema. Sea A una matriz m×n de rango r. Sean P ∈ Mm×m


y Q ∈ Mn×n matrices invertibles como en el teorema 6.1.1.

1. Si A = 0, entonces McA = Mn×m .

McA = {A+ } = A−1



2. Si r = n = m, entonces .

3. Si r = m < n, entonces
   
c Ir
MA = Q P : Y ∈ M(n−r)×m .
Y
4. Si r = n < m, entonces

McA = Q Ir X P : X ∈ Mn×(m−r) .
  

155
6.3. C-inversa Inversa generalizada e inversa condicional

5. Si 0<r<n y 0 < r < m, entonces el conjunto McA de todas


las inversas condicionales de la matriz A está dado por
  
Ir X
Q P : Z ∈ M(n−r)×(m−r) ,
Y Z

Y ∈ M(n−r)×m , X ∈ Mn×(m−r)

Demostración. De acuerdo con los teoremas 6.2.4 y 6.3.4, se tiene


que en cada caso McA es una variedad lineal de dimensión mn − r2 . De
otro lado, se puede vericar que si M∈ McA , entonces AM A = A. 
6.3.6. Ejemplo. Sea
 
1 2 1 3
A =  −1 −2 0 −2  ,
2 4 2 6
la matriz del ejemplo 6.1.2. De dicho ejemplo sabemos que las matrices
invertibles
 
  1 0 −2 −2
0 −1 0  0 0 1 0 
P =  1 1 0  y Q= 
 0 1 0 −1 
−2 0 1
0 0 0 1
 
I2 0
son tales que P AQ = , ρ(A) = r = 2. En este caso,
0 0
   
I2 X
McA = Q P : X ∈ M2×1 , Y ∈ M2×2 , Z ∈ M2×1 ,
Y Z
representará, el conjunto de todas las inversas condicionales de A, En
particular, si tomamos X = 0, Y = 0 Z = 0, se
y tiene que una c-inversa
de A es:  
  0 −1 0
I2 0  0 0 0 
M0 = Q P = .
0 0  1 1 0 
0 0 0
En lo que resta de esta sección veremos un método alternativo para cal-
cular una c-inversa de una matriz. Consideremos inicialmente el caso de
matrices cuadradas. 
6.3.7. Denición.Una matriz cuadrada H = [hij ]n×n tiene la forma
Hermite superior, si satisface las condiciones siguientes:

156
Inversa generalizada e inversa condicional 6.3. C-inversa

1. H es triangular superior.
2. hii = 0 ó hii = 1, i = 1, 2, . . . , n.
3. Si hii = 0, entonces la i-ésima la es nula, ésto es, hij = 0 para
todo j = 1, 2, . . . , n.
4. Si hii = 1, entonces el resto de los elementos de la i-ésima colum-
na son nulos. Ésto es, hji = 0 para todo j = 1, 2, . . . , n; (j 6= i).

6.3.8. Ejemplo. La matriz

 
1 2 0 0
 0 0 0 0 
H=
 0

0 1 0 
0 0 0 1
tiene la forma Hermite superior. 

El siguiente teorema establece que una matriz Hermite superior es idem-


potente. La demostración de dicho resultado es consecuencia directa de la
denición y se deja como un ejercicio para el lector.

6.3.9. Teorema. Si H es una matriz que tiene la forma Hermite superior,


entonces H 2 = H.
6.3.10. Teorema. Para toda matriz cuadrada A existe una matriz invert-
ible B tal que BA = H tiene la forma Hermite superior.

Demostración. Sea P una matriz invertible tal que PA = R es la


forma escalonada reducida de A. Si R tiene la forma Hermite superior,
entonces la matriz B =P satisface la condición de que BA = R = H .
Si R no tiene la forma Hermite superior, intercambiamos las las de R
hasta que el primer elemento no nulo (de izquierda a derecha) de cada la
no nula de R, sea un elemento de la diagonal. Así tenemos una matriz H
que tiene la forma Hermite superior. Así que existen matrices elementales
(por las) E1 , E2 , . . . , Ek tales que

E1 E2 · · · Ek R = H
o sea:
E1 E2 · · · Ek P A = H.
En consecuencia, la matriz invertible B = E1 E2 · · · Ek P es tal que BA =
H tiene la forma Hermite superior. 
157
6.3. C-inversa Inversa generalizada e inversa condicional

6.3.11. Ejemplo. Para la matriz cuadrada:


 
1 2 3
A= 1 2 5 ,
2 4 10
la matriz invertible
 
5/2 −3/2 0
P =  −1/2 1/2 0 
0 −2 1
es tal que
 
1 2 0
PA = R =  0 0 1 ,
0 0 0
donde R es la forma escalonada resucida de A. Intercambiando las las 2
y 3 de R obtemos la matriz:
 
1 2 0
H= 0 0 0 
0 0 1
tiene la forma Hermite superior. Además,
 
5/2 −3/2 0
B= 0 −2 1 
−1/2 1/2 0
es invertible y es tal que BA = H . 
6.3.12. Teorema. Sea A una matriz cuadrada. Si B es una matriz in-
vertible tal que BA = H tiene la forma Hermite superior, entonces B es
una c-inversa de A.

Como H tiene la forma Hermite superior, por el teorema 6.3.9, H 2 = H.


2
Así que BABA = H = H = BA, o sea:

BABA = BA.
Premultiplicando los dos miembros de la última igualdad por la matriz
B −1 se obtiene:

ABA = A,
esto es, B es una c-inversa de A.
158
Inversa generalizada e inversa condicional 6.3. C-inversa

6.3.13. Ejemplo. Consideremos la matriz A del ejemplo 6.3.11,


 
1 2 3
A= 1 2 5 .
2 4 10
Se sabe de dicho ejemplo, que la matriz invertible
 
5/2 −3/2 0
B= 0 −2 1 ,
−1/2 1/2 0
es tal que BA = H tiene la forma Hermite superior. Por lo tanto, por
teorema anterior, B es una c-inversa de A. 

El siguiente corolario presenta una forma de calcular una c-inversa para


el caso de matrices rectangulares.

6.3.14. Corolario. Sea A una matriz m×n

m > n, sea A∗ = A 0 , donde 0 es la matriz nula


 
1. Si
m×(m−n). Sea además B ∗ una matriz invertible tal que B ∗ A∗ =
H tiene la forma Hermite superior. Si escribimos la matriz B ∗
entonces particionada así:
 
B
B∗ =  ,
B1
donde B n × m, entonces B es una c-inversa de
es una matriz
A.  
∗ A
2. Si n > m, sea A = , donde 0 es la matriz nula (n − m) ×
0
m. Sea además B una matriz invertible tal que B ∗ A∗ = H tiene


la forma Hermite superior. Si escribimos la matriz B entonces
particionada así:

B∗ =
 
B B1 ,
donde B es una matriz n × m, entonces B es una c-inversa de
A.

Demostración. Presentamos aquí la sólo la demostración del inciso


(1). Supongamos A es una matriz
 m × n, con m>n y consideremos la
matriz cuadrada A∗ = A 0 n×n
.

159
6.4. Mínimos cuadrados Inversa generalizada e inversa condicional

Según el teorema 6.3.10, existe una matriz invertible B ∗ , tal que B ∗ A∗ =


H tiene la forma Hermite superior. Dicha matriz B ∗ es una c-inversa de
A∗ (teorema 6.3.10), así que, A∗ B ∗ A∗ = A∗ , o sea:
 
B
A∗ B ∗ A∗ =
   
A 0   A 0
B1
ABA 0 = A 0 = A∗ .
   
=
De ésto se sigue que ABA = A. Es decir, B es una c-inversa de A. 

6.3.15. Ejemplo. Encontremos una c-inversa para la matriz:


 
1 −1
A= 2 −1  .
0 1 3×2
 
1 −1 0
Sea A∗ =  2 −1 0  .
0 1 0 3×3

Efectuando los cálculos pertinentes se encuentra que la matriz invertible:


 
−1 1 0  
 −2 B
∗ 1 0  

B =
 = 
··· ··· ··· 
B1
2 −1 1
es tal que B ∗ A∗ = H tiene la forma Hermite superior. Por lo tanto, por
el corolario anterior, la matriz
 
−1 1 0
B=
−2 1 0 2×3

es una c-inversa de A. 

6.4. Sistemas de ecuaciones lineales: g-inversa y c-inversa de


una matriz. mínimos cuadrados.

En esta sección veremos aplicaciones de la g-inversa y la c-inversa de una


matriz a los sistemas de ecuaciones lineales y al problema de los mínimos
cuadrados.

160
Inversa generalizada e inversa condicional 6.4. Mínimos cuadrados

6.4.1. Teorema. Sea A ∈ Mm×n una matriz y sea y ∈ Mm×1 un vector.


c
El sistema de ecuaciones lineales Ax = y es consistente sii AA y = y
c
para cada c-inversa A de A.

Demostración. Supongamos que el sistema de ecuaciones lineales


Ax = y es consistente. Esto quiere decir, que existe al menos un x0 tal
que:
Ax0 = y .
Sea ahora Ac una c-inversa de A, entonces:
AAc y = AAc Ax0
= Ax0
= y.
Supongamos ahora, que para cada c-inversa Ac de A, se tiene que AAc y =
c
y. Entonces para cada c-inversa A , el vector x0 = Ac y es una solución
del sistema de ecuaciones lineales Ax = y. Por lo tanto, el sistema es
consistente. 
6.4.2. Teorema. Sea A una matriz m×n y sea Ac una c-inversa de A.
Si el sistema de ecuaciones lineales Ax = y es consistente, entonces su
solución general es

(6.1) x = Ac y + (I − Ac A)h, h ∈ Mn×1 .

Demostración. Puesto que por hipótesis el sistema de ecuaciones


lineales Ax = y es consistente, entonces por el teorema anterior, AAc y =
y. En consecuencia, para cada x de la forma (6.1):

Ax = AAc y + A(I − Ac A)h


= y + (A − A)h
= y + 0h
= y,
esto es, x es una solución del sistema dado.

De otro lado, si x0 es solución del sistema dado, entonces

Ax0 = y .
Premultiplicando los miembros de la última igualdad por Ac se obtiene
c c
A Ax0 = A y ,
161
6.4. Mínimos cuadrados Inversa generalizada e inversa condicional

de donde:
0 = Ac y − Ac Ax0 .
Sumando x0 a los dos lados de la última igualdad se llega a:

x0 = Ac y + x0 − Ac Ax0
= Ac y + (I − Ac A)x0
= Ac y + (I − Ac A)h,
donde h = x0 . Ésto es, x0 se puede expresar en la forma 6.1. 

Puesto que A+ es una c-inversa de A, se tiene el siguiente corolario.

6.4.3. Corolario. Sea A una matriz m × n. Si el sistema de ecuaciones


lineales Ax = y es consistente, entones su solución general es

(6.2) x = A+ y + (I − A+ A)h, h ∈ Mn×1 .

PROBLEMA DE LOS MÍNIMOS CUADRADOS


Como se estableció en el teorema 1.4.3(3), para un sistema de ecuaciones
Ax = y se presenta una y sólo una de las opciones siguientes:

(i) El sistema tiene innitas soluciones.


(ii) El sistema tiene solución única.
(iii) El sistema no tiene solución.

En el trabajo experimental generalmente se da generalmente la opción


(iii), es decir, que el vector y no es un elemento del espacio columna de
la matriz A, (y ∈
/ C(A)) (véase gura 6.1). En este caso, nos pregunta-
mos si existe una solución aproximada del sistema, para una denición
conveniente de solución aproximada. Un problema que se presenta con
frecuencia en el trabajo experimental es:

m y
IR

Ax
C (A)
0
.Ax
A x0

Figura 6.1. Problema de los mínimos cuadrados

162
Inversa generalizada e inversa condicional 6.4. Mínimos cuadrados

Dado una serie de puntos

(x1 , y1 ); (x2 , y2 ); . . . ; (xn , yn ).


obtener una relación y = f (x) entre las dos variables x y y, adaptando
(en algún sentido) una curva a dicho conjunto de puntos.

Como los datos se obtienen experimentalmente, generalmente existe un


error en ellos (errores de aproximación), lo que hace prácticamente im-
posible encontrar una curva de la forma deseada que pase por todos los
puntos. Por medio de consideraciones teóricas o simplemente por acomo-
do de los puntos, se decide la forma general de la curva y = f (x) que
mejor se adapte. Algunas posibilidades son (ver gura 6.2):

1. Funciones lineales (rectas): y = f (x) = a + bx; a, b ∈ R


2. Polinomios de grado dos: y = f (x) = a + bx + cx2 ; a, b, c ∈ R.
2 3
3. Polinomios de grado tres: y = f (x) = a+bx+cx +dx ; a, b, c, d ∈
R.

y y y

x x x

(1) Aproximacion
´ lineal (2) Aproximacion
´ cuadratica
´ (3) Aproximacion
´ cubica
´

Figura 6.2. Ajuste por mínimos cuadrados

A. Adaptación de puntos por mínimos cuadrados a una línea


recta
Considere los puntos (x1 , y1 ); (x2 , y2 ); . . . ; (xn , yn ), los cuales se pretende
ajustar mediante la gráca de la línea recta y = f (x) = a + bx. Si los
163
6.4. Mínimos cuadrados Inversa generalizada e inversa condicional

puntos correspondientes a los datos fuesen colineales, la recta pasaría por


todos los n puntos y, en consecuencia, los coecientes desconocidos a y
b satisfarían la ecuación de la recta. Ésto es, se tendrían las siguientes
igualdades:

y1 = a + bx1
y2 = a + bx2
. . .
. . .
. . .

yn = a + bxn .
Estas igualdades se pueden escribir, utilizando notación matricial, así:

  
y1 1 x1  
 y2   1 x2  a
(6.3) y= . = .  = Ax .
   
. 
 ..   .. . 
. b
yn 1 xn
Si los puntos que corresponden a los datos no son colineales, es imposible
encontrar coecientes a y b que satisfagan (6.3). En este caso, independi-
entemente de la forma en que se escojan a y b, la diferencia

Ax − y,
entre los dos miembros de (6.3) no será cero. Entonces, el objetivo es
a∗
 
encontrar un vector x= que minimice la longitud del vector Ax −
b∗
y, esto es, que minimice
k Ax − y k ,
2
lo que es equivalente a minimizar su cuadrado, k Ax − y k .

a∗
 
Si x0 = es un vector que minimiza tal longitud, a la línea recta
b∗
∗ ∗
y = a + b x se le denomina recta de ajuste por mínimos cuadrados de los
datos. La gura 6.3 ilustra la adaptación de una línea recta por el método
de los mínimos cuadrados. Se tiene que k Ax − y k , y

2 2 2
k Ax − y k = [(a∗ + b∗ x1 − y1 )] + [(a∗ + b∗ x2 − y2 )] +
2
· · · + [(a∗ + b∗ xn − yn )]
 ∗ 
a
son minimizados por el vector x0 = . En dicha gura se ve que
b∗
∗ ∗
|a + b xi − yi | corresponde a la distancia vertical, di , tomada desde el

164
Inversa generalizada e inversa condicional 6.4. Mínimos cuadrados

punto (xi , yi ) hasta la recta y = a∗ + b∗ x . Si se toma a di como el error


vertical en el punto (xi , yi ), la recta de ajuste minimiza la cantidad:
d21 + d22 + · · · + d2n ,
que es la suma de los cuadrados de los errores verticales. De allí el nombre
de método de los mínimos cuadrados.

y
( x n , yn )

dn
(x2 , y2 )
( x1 , y1 )
d2 *
y=a+b *
x
d1
d3
( x3 , y3 )

Figura 6.3. Ajuste lineal por mínimos cuadrados

Damos a continuación dos deniciones motivadas por la discusión anterior.


En el ejemplo 6.4.13 veremos cómo se adapta, por mínimos cuadrados, una
línea recta y = a + bx a n puntos (x1 , y1 ); (x2 , y2 ); . . . ; (xn , yn ).
6.4.4. Denición (Solución Mínima Cuadrada) . Se dice que el vector
x0 es una solución mínima cuadrada (S.M.C.) del sistema de ecuaciones
lineales Ax = y, si para todo vector x se tiene que:

k Ax0 − y k < k Ax − y k .
6.4.5. Denición (Mejor Solución Aproximada) . Se dice que el vector
x0 es una mejor solución aproximada (M.S.A.) del sistema de ecuaciones
lineales Ax = y, si:

1. Para todo vector x se tiene que:

k Ax0 − y k < k Ax − y k .

165
6.4. Mínimos cuadrados Inversa generalizada e inversa condicional

2. Para todo vector x∗ 6= x0 tal que k Ax0 − y k < k Ax∗ − y k se


tiene que
k x0 k < k x∗ k .
Nota. Observe que una M.S.A de un sistema de ecuaciones lineales Ax =
y es una S.M.C. del mismo.

6.4.6. Teorema. Sea A m


una matriz m × n y sea y un vector R . Si A
c
c
es una c-inversa de A tal que AA es simétrica, entonces para todo vector
x ∈ Rn se tiene que:
2 2 2
k Ax − y k = k Ax − AAc y k + k AAc y − y k .

Por hipótesis AAc = (AAc )t . Así que para todo vector x se tiene que:
2 c c 2
k Ax − y k = k (Ax − AA y) + (AA y − y)k
2
= k Ax − AAc y k + 2(Ax − AAc y)T (AAc y − y)
2
+ k AAc y − y k

2
k Ax − AAc y k + 2 (x − Ac y)T AT ((AAc )T − I)y
 
=
2
+ k AAc y − y k

2
k Ax − AAc y k + 2 (x − Ac y)T (AT (AAc )T − AT )y
 
=
2
+ k AAc y − y k

2
= k Ax − AAc y k + 2 (x − Ac y)T ((AAc A)t − At )y
 

2
+ k AAc y − y k

2 2
= k Ax − AAc y k + 2 (x − Ac y)T (0)y + k AAc y − y k
 

2 2
= k Ax − AAc y k + k AAc y − y k .
6.4.7. Teorema. Sea A m c
una matriz m × n y sea y un vector R . Si A es
c c
una c-inversa de A tal que AA es simétrica, entonces x0 = A y es una
S.M.C. para el sistema Ax = y.

Demostración. Por hipótesis y por el teorema anterior se tiene que


x 0 = Ac y es tal que:
2 2 2 2
k Ax − y k = k Ax − Ax0 k + k Ax0 − y k ≥ k Ax0 − y k .
166
Inversa generalizada e inversa condicional 6.4. Mínimos cuadrados

Para todo vector x. De aquí que para todo vector x:


k Ax0 − y k ≤ k Ax − y k ,
c
esto es, x0 = A y es una S.M.C. para el sistema Ax = y. 
6.4.8. Teorema. Sea
m
A una matriz m×n y sea y un vector R . El sistema
de ecuaciones lineales Ax = y tiene una única M.S.A., a saber
x0 = A+ y.

Demostración. Puesto que A+ es una c-inversa de A tal que AA+


x que:
es simétrica, entonces por el teorema 6.4.6 se tiene para todo
2 2 2 2
k Ax − y k = Ax − AA+ y + AA+ y − y ≥ AA+ y − y .

De aquí que para todo vector x:


AA+ y − y ≤ k Ax − y k

(6.4)

Esto es, x 0 = A+ y es una S.M.C. para el sistema Ax = y.

Mostraremos ahora que para todo vector x∗ 6= x0 = A+ y tal que Ax∗ =


+ ∗
AA y se tiene que k x0 k < k x k .

Puesto que para todo vector x se tiene que:


A y + (I − A+ A)x 2
+ + 2
A y + 2(A+ y)T (I − A+ A)x +

=
(I − A+ A)x 2

+ 2
A y + 2yt (A+ )T − (A+ )T (AA+ )T x +
 
=
(I − A+ A)x 2

+ 2
A y + 2yT (A+ )T − (A+ AA+ )T x +
 
=
(I − A+ A)x 2

+ 2
A y + 2yt (0)x + (I − A+ A)x 2

=
+ 2
A y + (I − A+ A)x 2 ,

=
x∗ tales que Ax∗ = AA+ y o, equivalen-
entonces para todos los vectores
+ ∗ +
temente, tales que A Ax = A y, se tiene que:

A y + (I − A+ A)x∗ 2 = A+ y + x∗ − A+ x∗ 2 = k x∗ k2
+
2 2
= A+ y + (I − A+ A)x∗

2 2
≥ A+ y = k x 0 k ,

167
6.4. Mínimos cuadrados Inversa generalizada e inversa condicional

2
es decir, k x∗ k > k x0 k si x0 6= x∗ . 
6.4.9. Observación. El teorema anterior establece que todo sistema de
ecuaciones lineales Ax = y tiene una única M.S.A. , x0 = A+ y. Por ésto
de aquí en adelante hablaremos de la mejor solución aproximada (M.S.A.)
de un sistema de ecuaciones lineales.

Ahora bien, puesto que la mejor solución aproximada del sistema de ecua-
ciones lineales Ax = y es una solución mínima cuadrada, se tiene el sigu-
iente teorema.

6.4.10. Corolario. Todo sistema de ecuaciones lineales Ax = y tiene al


menos una S.M.C.

6.4.11. Ejemplo. Para el sistema de ecuaciones lineales


   
1 1   1
x
Ax = 1
 1  = 2  = y,
y
1 1 3
 
  1  
1 1 1 1 1
se tiene que x0 = A+ y =  2 =
 es la M.S.A.
6 1 1 1 1
3
Además:

k Ax0 − y k = 2;
así que para todo vector x se tiene que:

2 ≤ k Ax − y k ,

y si existe un vector x∗ tal que k Ax∗ − y k = 2, entonces se debe tener
que:

k x0 k = 2 < k x∗ k . 
6.4.12. Teorema. Sea A una matriz m×n y sea y un vector Rm . Si
ρ(A) = n, entonces el sistema de ecuaciones lineales Ax = y tiene una
única S.M.C. que es justamente la M.S.A. dada por:

x0 = A+ y.

Demostración. Sea x∗
una S.M.C. del sistema de ecuaciones Ax =
y. Por denición se tiene para todo x ∈ Rn , entonces que k Ax∗ − y k ≤
k Ax − y k , en particular, para el vector x0 = A+ y se tiene:
k Ax∗ − y k ≤ AA+ y − y .

(6.5)

168
Inversa generalizada e inversa condicional 6.4. Mínimos cuadrados

De otra parte, como A+ es una c-inversa de A tal que AA+ es simétrica,


entonces se tiene (ver teorema 6.4.6)
2 2 2
k Ax − y k = Ax − AA+ y + AA+ y − y ∀x ∈ Rn .

En particular, para el vector x∗ se tiene:


k Ax∗ − y k Ax∗ − AA+ y 2 + AA+ y − y 2 .

(6.6) =
De (6.5) y (6.6) se sigue que:

AA+ y − y 2
2 2
≤ Ax∗ − AA+ y + AA+ y − y

2 2
= k Ax∗ − y k ≤ AA+ y − y

De aquí que k Ax∗ − AA+ y k = 0 y por lo tanto:



Ax = AA+ y .
−1
Puesto que ρ(A) = n, entonces A+ = AT A AT (teorema 6.2.1), en
consecuencia:
−1
Ax∗ = A AT A AT y.
 −1 T
Premultiplicando esta igualdad por AT A A , se obtiene:
−1
x∗ = AT A AT Ax∗
−1 −1
= AT A AT A AT A AT y
−1
AT A AT y = A+ y = x0 .


6.4.13. Ejemplo. Encontremos una recta de ajuste, por mínimos cuadra-
dos (ver gura 6.4), que se adapte a los puntos:

(0, 1); (1, 3); (2, 4); (3, 4) .

Para ello debemos encontrar una S.M.C. del sistema de ecuaciones lineales
Ax = y, donde
       
1 x1 1 0 y1 1
 1 x2   1 1   y2   3 
A=
 1
= , y=
 y3  =  4
  
x3   1 2  
1 x4 1 3 y4 4
y el vector incógnita x está dada por
 
a
x= .
b
169
6.4. Mínimos cuadrados Inversa generalizada e inversa condicional

Puesto que ρ(A) = 2, entonces por el teorema anterior, el sistema dado


tiene una única S.M.C., a saber:
x0 = A+ y = (AT A)−1 AT y
 
  1
1 7 4 1 −2  3 
=  
10 −3 −1 1 3  4 
4
a∗
   
1,5
= =
1 b∗
En consecuencia, la recta de ajuste, por mínimos cuadrados, de los datos
dados es:

y = a∗ + b∗ x = 1,5 + x. 

y
y=1.5+x
(2,4)
(3,4)
(1,3)

(0,1)

Figura 6.4. Ajuste lineal ejemplo 6.4.13

6.4.14. Ejemplo. Encontremos una recta de ajuste, por mínimos cuadra-


dos, que se adapte a los puntos:

(1, 1); (1, 2) .


Observe que en este caso los puntos dados pertenecen a la recta, de pen-
diente innita, x = 1.(ver gura 6.5(a))

170
Inversa generalizada e inversa condicional 6.4. Mínimos cuadrados

y
x=1 y
y=3/2x

(1,2) y=3/4+3/4x
(1,2)

(1,1) (1,1)

x x

a) Ajuste por una recta de pendiente infinita b) Ajuste por rectas de pendiente no infinita

Figura 6.5. Ajuste lineal ejemplo 6.4.14

Ahora bien, si buscamos una recta y = a + bx, que no tenga pendiente


innita, que se adapte por mínimos cuadrados, a los puntos dados, en-
tonces debemos dar una S.M.C. del sistema de ecuaciones lineales (ver
gura 6.5(b))
     
1 x1 a 1 1 a
Ax = =
1 x2 b 1 1 b
   
1 y1
= = = y.
2 y2
Una S.M.C. del sistema dado es:

a∗
      
+ 1 1 1 1 3/4
x0 = A y= = = .
4 1 1 2 3/4 b∗
Así que una recta de ajuste, por mínimos cuadrados, de los puntos dados
es:
3 3
y = a∗ + b∗ x = + x.
4 4
De otra parte, la matriz
 
0 0
Ac =
1/2 1/2
es una c-inversa de A, AAc es simétrica. En efecto,

171
6.4. Mínimos cuadrados Inversa generalizada e inversa condicional

 
c 1/2 1/2
AA = .
1/2 1/2
Por lo tanto, de acuerdo con el teorema 6.4.7,
   
0 â
x 0 = Ac y = =
3/2 b̂
es también una S.M.C. Así que otra recta de ajuste por mínimos cuadra-
dos, de los puntos dados es (ver gura 6.5(b)):

3
y = a∗ + b∗ x = x. 
2

B. Adaptación a polinomios de grado n.


La técnica descrita antes para adaptar una recta a n puntos dados, se
generaliza fácilmente a la adaptación, por mínimos cuadrados, de un poli-
nomio de cualquier grado a un conjunto de puntos dados.

A continuación se muestra cómo adaptar un polinomio de grado ≤ m,


2 m
y = a0 + a1 x + a2 x + . . . + am x
a un conjunto de n puntos (x1 , y1 ); (x2 , y2 ); . . . ; (xn , yn ), mediante la
técnica de los mínimos cuadrados.

Sustituyendo estos n valores de x y y en la ecuación polinómica se obtienen


las n ecuaciones siguientes:

x21 xm
    
y1 1 x1 ··· 1 a0
 y2   1 x2 x22 ··· xm
2   a1
  
 ..  =  ..
   
. . .. .  .
. . .  .

 .   . . . . . . 
yn 1 xn x2n ··· m
xn am

De lo que se trata nuevamente, es de encontrar una S.M.C. del sistema de


ecuaciones lineales Ax = y.
6.4.15. Ejemplo. Encontrar un polinomio de grado dos que mejor se
ajuste, por mínimos cuadrados, a los puntos:

(−1, 0); (0, −2); (1, −1); (2, 0) .


172
Inversa generalizada e inversa condicional 6.4. Mínimos cuadrados

Debemos encontrar una S.M.C. del sistema de ecuaciones lineales:


   
1 −1 1   0
a1
  a2  =  −2
 1 0 0   
Ax = 
 1  −1
 = y.
1 1  
a3
1 2 4 0
Puesto que ρ(A) = 3, el sistema dado tiene una única S.M.C., la cual está
dada por:

x0 = A+ y = (At A)−1 At y
 
  0
3 11 9 −3
1    −2 
 
= −1 3 7 1  −1 
20
5 −5 −5 5
0
   
−31 −1,55
1 
= −13  =  −0,65 
20
15 0,75
En consecuencia, existe un único polinomio de grado dos que se ajuste
por mínimos cuadrados de los datos dados. Este polinomio está dado por
(ver gura 6.6):

y = −1,55 − 0,65x + 0,75x2 . 

y
2
y=−1.55−0.65x+0.75x

(−1,0)

(2,0) x
(1,−1)

(0,−2)

Figura 6.6. Ajuste cuadrático ejemplo 6.4.15

173
6.5. Ejercicios Inversa generalizada e inversa condicional

6.5. Ejercicios

6.5.1 Responda verdadero o falso justicando su respuesta.

1. Si las matrices B ∈ Mm×r y C ∈ Mm×r tienen el mismo rango,


entonces (BC)+ = C + B + .
+
2. Si S es una matriz simétrica, entonces S es una matriz simétri-
ca.
3. Si S es una matriz simétrica tal queS 2 = S, entonces S + = S .
3 +
4. Si S es una matriz simétrica tal que S = S, entonces S = S .
+ T + T
5. Para toda matriz A se tiene que A = (A A) A .
+ T T +
6. Para toda matriz A se tiene que A = A (AA ) .
+ 2 + + 2
7. Para toda matriz A se tiene que (AA ) = AA y (A A) =
+
A A.
c c 2
8. Para toda c-inversa A de A se tiene que (AA ) = AAc y
c 2 c
(A A) = A A.
c c
9. Si A es una c-inversa de A, entonces A es una c-inversa de A .
c c t
10. Si A es una c-inversa de A, entonces (A ) es una c-inversa de
At .
11. Si A ∈ Mm×n tiene rango m, entonces el sistema de ecuaciones
lineales Ax = y tiene solución para cualquier y ∈ Mm×1 .
12. Si A ∈ Mm×n tiene rango n y si el sistema de ecuaciones lineales
Ax = y tiene solución, entonces el sistema tiene solución única.

6.5.2 Demuestre que

1. Para cualquier matriz A se tiene que: ρ(A) = ρ(A+ ) = ρ(AA+ )=


+
ρ(A A).
2. Si Ac es una c-inversa de A, entonces ρ(Ac ) ≥ ρ(A) = ρ(AAc )=
ρ(Ac A).
c c c
3. Si A es una c-inversa de A, entonces Tr(AA )= Tr(A A) =
ρ(A). (sugerencia véase el ejercicio 3.5(26)).
t +
4. Si BC = 0, entonces BC
  = 0 y CB + = 0.
B  +
C+ .
T +

5. Si A = y BC = 0 entonces A = B
C
174
Inversa generalizada e inversa condicional 6.5. Ejercicios

6. Si B es una matriz simétrica


 m ×m y si C T B = 0, donde C T es
la matriz CT = 1 1 ··· 1 1×m , entonces la g-inversa de
la matriz:
 
B
A=
CT
A+ = B +
 
es 1/m C .
7. Si D = [dij ]n×n es una matriz diagonal, entonces D+ =[aij ]n×n
es una matriz diagonal, donde
(
1/dii , si dii 6= 0
aij = .
0 , si dii = 0
   + 
B 0 + B 0
8. Si A = entonces A = .
0 C 0 C+
+ +
9. Si S es una matriz simétrica, entonces SS = S S.
T T + +
10. Si A es una matriz tal que A A = AA , entonces A A = AA .
11. Si A es una matriz m × n, donde hAiij = 1 para i = 1, 2, . . . , m

+ 1
y j = 1, 2, . . . , n, entonces A = A.
mn
12. Si P ∈ Mn×n y Q ∈ Mm×m son matices ortogonales, entonces
+ T + T
para cualquier matriz m×n, A, se tiene que (P AQ) = Q A P .
+
13. Si S es una matriz simétrica no negativa, entonces S es una
matriz no negativa.
14. Para cada matriz m × n, A; AB = AA+ sii B es tal que ABA =
A y AB es simétrica.
15. Sea A una m × n. ρ(A) = m sii AA+ = I sii AAc = I
matriz
para cada c-inversa Ac de A.
+ c
16. Sea A una matriz m × n. ρ(A) = n sii A A = I sii A A = I
c
para cada c-inversa A de A.
17. Si B es una c-inversa de A, entonces también lo es BAB .
c c
18. Si B y C son c-inversas de las matrices B y C respectivamente,
entonces una c-inversa de la matriz

Bc
   
B 0 c 0
A= es A = .
0 C 0 Cc
19. Si el sistema de ecuaciones lineales Ax = y tiene solución, en-
tonces la solución x = A+ y A+ A = I, y en este caso
es única sii
A+ y = Ac y para toda c-inversa c
A de A.
20. Si x1 , x2 , . . . , xn son soluciones del sistema de ecuaciones lineales
Pn
Ax = y, y si λ1 , λ2 , . . . , λn son escalares tales que i=1 λi = 1,
175
6.5. Ejercicios Inversa generalizada e inversa condicional

entonces

n
X
x= λi xi
i=1

es una solución del sistema Ax = y.


21. Sea y = a+bx una línea recta que se quiere adaptar, por mínimos
cuadrados, a los puntos (x1 , y1 ); (x2 , y2 ); . . . ; (xn , yn ). Utilice el
teorema 6.4.2 y la regla de Cramer para demostrar que si para
algún i y para algún j , xi 6= xj , entonces existe una única recta
de ajuste, por mínimos cuadrados, a los puntos dados:

y = a∗ + b∗ x

∆a ∆b
y que a∗ = y b∗ = , donde:
∆ ∆
 Pn   Pn Pn 
n i=1 xi i=1 yi i=1 xi
∆ = det  P  ∆a = det  P 
n Pn 2 n Pn 2
i=1 xi i=1 xi i=1 xi yi i=1 xi

 Pn 
n i=1 yi
∆ = det  P 
n Pn
i=1 xi i=1 xi yi

6.5.3 Cálculos

1. Calcule la g-inversa de cada una de las matrices siguientes:

 
  1 2
(i) A1 = 0 0 0 (ii) A2 =
3 5
 
  1
(iii) A1 = 1 2 3 (iv) A4 =  1 
2
176
Inversa generalizada e inversa condicional 6.5. Ejercicios

   
7 7 7 1 0 0
(v) A5 =  7 7 7  (vi) A6 =  0 5 0 
7 7 7 0 0 0
   
1 2 1 2 0 0
 3 4   1 2 0 0 
(vii) A7 = 
 0
 (viii) A8 =  
0   0 0 3 3 
0 0 0 0 3 3
 
2 −1 −1
 −3 1 2 
 
(ix) A9 =  1
 1 1 

 1 1 1 
1 1 1 
1 2 3
2. Para la matriz A =  2 5 3  ,dé dos c-inversa Ac1 y Ac2 tales
1 3 0
c c
que ρ(A1 ) > ρ(A) y ρ(A2 ) = ρ(A).
3. Determine el conjunto de todas las c-inversas de las matrices
   
1 1 1 2 3
A1 = , A2 = ,
1 1 1 3 3
 
1 2  
1 2
A3 =  1 3 , A4 = .
1 3
2 5
4. Dé la M.S.A. del sistema de ecuaciones lineales Ax = y, donde:
   
2 2 2 1
 2 2 2   2 
A=  y y=
 3  .

 1 −1 0 
2 −2 0 4
5. Dé la ecuación de la recta que mejor se ajuste por mínimos
cuadrados a los puntos:

(0, 1); (1, 3); (2, 2); (3, 4).


6. Obtenga la ecuación del polinomio de grado dos que mejor se
adapte, por mínimos cuadrados, a los puntos:

(−1, 4); (0, 2); (1, 0); (2, 1).

177
6.5. Ejercicios Inversa generalizada e inversa condicional

7. Dé, si las hay, dos S.M.C. diferentes del sistema de ecuaciones


lineales:
    
2 2 x 1
Ax = = .
2 2 y 0

178
CAPÍTULO 7

Factorización de matrices

En este capítulo estudiaremos algunas de las técnicas más utilizadas para


factorizar matrices, es decir, técnicas que nos permiten escribir una ma-
triz como producto de dos o tres matrices con una estructura especial.
La factorización de matrices es importante por ejemplo cuando se quiere
resolver sistemas de ecuaciones con un número muy grande tanto de vari-
ables como de ecuaciones. En la sección 7.1 trataremos la descomposición
LU , en la sección 7.2 nos ocuparemos de la descomposición QR, en la
sección 7.3 trataremos la descomposición de Cholesky y en la sección 7.4
trataremos la descomposición en valores singulares.

7.1. Descomposición LU

En esta sección estudiaremos, quizás la factorización de matrices más sen-


cilla pero igualmente muy útil. Nos referimos a la factorización o descom-
posición LU , la cual está directamente relacionada con las operaciones
elementales aplicadas a una matriz, para llevarla a una forma triangular
inferior. Como una motivación, supongamos que se conoce cómo factorizar
una matriz A, m × n en la forma

(7.1) A = LU
donde L es una matriz triangular inferior (del inglés lower) m×m y U es
una matriz escalonada m×n (del inglés upper). Entonces el sistema

(7.2) Ax = b
puede resolverse de la siguiente forma: Usando (7.1), el sistema (7.2) se
puede escribir en la forma

(7.3) L(U x) = b.
179
7.1. Descomposición LU Factorización de matrices

En este punto introducimos una nueva variable (por sustitución) y = U x,


obteniendo así el nuevo sistema

(7.4) Ly = b.
Resolvemos entonces dicho sistema para la variable y, mediante sustitu-
ción hacia adelante. Como paso nal, usamos sustitución hacia atrás para
resolver el sistema

(7.5) U x = y.
Es de anotar, que los sistemas (7.4) y (7.5) son relativamente fáciles de
resolver dado que se trata de matrices de coecientes triangulares inferi-
ores y superiores respectivamente. La factorización o descomposición LU
es particularmente útil cuando se requiere resolver de manera simultánea
varios sistemas de ecuaciones que dieren únicamente en la parte no ho-
mogénea.

El siguiente resultado nos da condiciones sucientes para la existencia de


una tal factorización LU para una matriz cuadrada A. Posteriormente lo
extenderemos a matrices rectangulares.

7.1.1. Teorema (Factorización LU ). Sea A una matriz cuadrada n × n.


Supongamos que A se puede reducir por las a una matriz triangular su-
perior, U aplicando únicamente operaciones elementales de eliminación
(operaciones del tipo αFi + Fj con i < j ). Entonces existe una matriz tri-
angular inferior L que es invertible y posee unos en su diagonal principal,
tal que
A = LU.
Si A es invertible, entonces esta descomposición es única.

Demostración. Por hipótesis, existen matrices elementales E1 , E2 ,


. . . , Ek del tipo (αFi + Fj , i > j ) y una matriz U (triangular superior)
tales que

Ek Ek−1 · · · E2 E1 A = U.
De aquí obtenemos A = E1−1 E2−1 · · · Ek−1 U.

Ahora bien, por construcción, cada matriz elemental E1 , E2 , . . . , Ek es


triangular inferior y tiene unos en su diagonal principal, por consiguiente
sus inversas E1−1 , E2−1 , · · · , Ek−1 y la matriz L = E1−1 E2−1 · · · Ek−1 tam-
bién tienen las mismas características (ver ejercicio 1, de la sección 7.5.2).

180
Factorización de matrices 7.1. Descomposición LU

Lo que implica que hemos obtenido la factorización LU buscada para la


matriz A, es decir:

A = LU,
Consideremos ahora una matriz invertible A y demostremos la unicidad
de dicha factorización. Supongamos que tenemos dos factorizaciones LU
para A de la forma

A = L1 U1 = L2 U2 ,
con U1 , U2 matrices triangulares superiores y L1 , L2 matrices triangulares
inferiores con unos en su diagonal principal. Como A es invertible las
matrices U1 , U2 también lo son, más aún sus inversas son igualmente
triangulares superiores (ver ejercicio 2 de la sección 7.5.2). De esta última
igualdad obtenemos entonces

L−1 −1
2 L1 = U2 U1 .

El lado izquierdo de esta lgualdad es producto de matrices triangulares


inferiores con unos en la diagonal, por tanto es riangular inferior y tiene
unos en la diagonal principal. Igualmente, el lado derecho es una triangu-
lares superiores, pues es el producto de matrices triangulares superiores
(ver ejercicio 2 de la sección 7.5.2). Entonces L−1
2 L1 = I, de esto se sigue
que L2 = L1 y por ende,

U1 = U2 .


En el ejemplo 7.1.5 consideramos una matriz no invertible, que posee


innitas descomposiciones LU.

1 7 4
7.1.2. Ejemplo. Considere la matriz 3 × 3, A =  2 5
8  . Aplique-
3 12 6
mos operaciones elementales, sin intercambio, para llevar a A a una forma
escalonada.
   
1 4 7 1 4 7
−2F1 +F2
 2 5 8  −→  0 −3 −6 
−3F1 +F3
3 6 12 0 −6 −9
 
1 4 7
−2F2 +F3
−→  0 −3 −6  = U
0 0 3
181
7.1. Descomposición LU Factorización de matrices

Si denotamos entonces con E1 , E2 y E3 las matrices elementales prove-


nientes de las operaciones elementales −2F1 + F2 , −3F1 + F3 y −2F2 + F3
respectivamente, entonces obtenemos

E3 E2 E1 A = U
A = (E3 E2 E1 )−1 U

= E1−1 E2−1 E3−1 U


   
1 0 0 1 0 0 1 0 0
=  2 1 0  0 1 0  0 1 0 U
0 0 1 3 0 1 0 2 1
  
1 0 0 1 4 7
=  2 1 0  0 −3 −6  = LU .
3 2 1 0 0 3
En este caso esta factorización es única. 
7.1.3. Observación. Como sólo efectuamos operaciones del tipo αFi + Fj
−1
con i < j , (αFi + Fj ) = (−α)Fi + Fj y L es triangular inferior con unos
(1's) en su diagonal principal. La información sobre L se puede almacenar
en aquellas posiciones donde se obtienen los ceros (0's) de U, simplemente
colocando los opuestos de los multiplicadores α en las operaciones elemen-
tales aplicadas del tipo αFi + Fj con i < j.

En nuestro ejemplo anterior


   
1 4 7 1 4 7
−2F1 +F2
 2 5 8  −→  2 −3 −6 
−3F1 +F3
3 6 12 3 −6 −9
 
1 4 7
−2F2 +F3
−→  2 −3 −6 
3 2 3
de donde obtenemos que
   
1 0 0 1 4 7
L= 2 1 0  y U = 0 −3 −6 
3 2 1 0 0 3
son tales que A = LU .
182
Factorización de matrices 7.1. Descomposición LU

7.1.4. Ejemplo. Considere la matriz


 
2 3 2 4
 4 10 −4 0 
A=
 −3
.
−2 −5 −2 
−2 4 4 −7

Apliquemos operaciones elementales, sin intercambio, para llevar la matriz


A a una forma escalonada

 

2 3 2 4

(−2)F1 +F2
2 3 2 4
 4 10 −4 0  (3/2)F1 +F3

 2 4 −8 −8 

 
 −3 −2 −5 −2  −→

 -3/2 5/2 −2 4


−2 4 4 −7 (1)F1 +F4
-1 7 6 −3
 
2 3 2 4
(−5/8)F2 +F3
(−7/4)F2 +F4

 2 4 −8 −8 

 
−→  -3/2 5/8 3 9 
 
-1 7/4 20 11
 
2 3 2 4
(−20/3)F3 +F4

 2 4 −8 −8 

 ,
−→  3/2 5/8 3 9 
 
-1 7/4 20/3 −49

de donde obtenemos que


   
1 0 0 0 2 3 2 4
 2 1 0 0   0 4 −8 −8 
L=
 −3/2 5/8
 y U = ,
3 0   0 0 3 9 
−1 7/4 20/3 1 0 0 0 −49

son matrices tales que A = LU, siendo esta factorización única. 


 
1 2 3
7.1.5. Ejemplo. Considere la matriz A =  −1 −2 −3  . Aplique-
2 4 6
mos operaciones elementales, sin intercambio, para llevar la matriz A a

183
7.1. Descomposición LU Factorización de matrices

una forma escalonada


   
1 2 3 (1)F1 + F2 1 2 3
 −1 −2 −3  −→  -1 0 0 
2 4 6 (−2)F1 + F3 2 0 0
de donde obtenemos que
   
1 2 3 1 0 0
U = 0 0 0  y L =  −1 1 0  con x arbitrario.
0 0 0 2 x 1
En este caso A = LU, donde L no es única. 

Consideremos ahora el caso en que se necesitan intercambio de las para


poder reducir una matriz. Existe en este caso un procedimiento que per-
mite extender la factorización LU , el cual hace uso de matrices per-
mutación.

Como se recordará, el intercambio de dos las de una matriz A se puede


expresar como Pi A, siendo Pi la matriz permutación correspondiente a las
las de A que deseamos intercambiar. Ahora bien. Si durante la reducción
de A P1 , . . . , Pk permutaciones
a una forma escalón necesitamos realizar
de las, éstas puede hacerse al comienzo de todo el procedimiento y pro-
ducir así la matriz P = P1 · · · Pk . El paso siguiente consiste entonces en
aplicar la factorización LU a la matriz P A en lugar de la matriz A. Es
decir, nosotros buscamos ahora matrices L (triangular inferior) y U (tri-
angular superior) tales que

P A = LU .
7.1.6. Ejemplo. Hallemos la descomposición para la matriz
 
0 2 3
A= 2 −4 7 .
1 −2 5
En este caso, para reducir A a una matriz triangular superior U es nece-
sario primero una o varias operaciones elementales del tipo permutación
de las (también es posible usar operaciones del tipo αFi + Fj con i > j ).
Una de tales operaciones de intercambio puede ser F12 . Si llamamos P a
la correspondiente matriz permutación obtenemos entonces
 
2 −4 7
PA =  0 2 3 .
1 −2 5
184
Factorización de matrices 7.1. Descomposición LU

A esta nueva matriz le aplicamos los pasos descritos en los ejemplos an-
teriores y obtenemos
 
2 −4 7
 
2 −4 3 (1/2)F1 + F3
 0 2 3  −→

 0 2 3 
1 −2 5 1/2 0 3/5

de donde obtenemos que


   
1 0 0 2 −4 7
L= 0 1 0  y U = 0 2 3 
1/2 0 1 0 0 3/5
son matrices tales que

P A = LU . Λ

7.1.7. Teorema. Sea A una matriz invertible n × n. Entonces existe una


matriz de permutación P tal que

P A = LU

donde L es una matriz triangular inferior y U es una matriz triangular


superior. Se tiene además, que para cada matriz P, L y U son únicas.

El siguiente teorema recoge ahora la formulación para la descomposición


LU para matrices A rectangulares m × n.

7.1.8. Teorema. Sea A una matriz rectangular m×n que se puede reducir
a una forma escalonada efectuando únicamente operaciones elementales
de eliminación (operaciones del tipo αFi + Fj con i < j ). Entonces existe
una matriz m × m triangular inferior L con unos en la diagonal principal
y una matriz m × n, U con uij = 0, si i > j tales que

A = LU.

7.1.9. Ejemplo. Encontremos la descomposición LU para la matriz


 
1 4 7 2
A= 2 5 8 −1  .
3 6 12 3 3×4
185
7.1. Descomposición LU Factorización de matrices

Apliquemos para ello, operaciones elementales, sin intercambio, para llevar


a la matriz A a una forma escalonada
   
1 4 7 2 (−2)F1 + F2 1 4 7 2
 2 5 8 −1  −→  2 −3 −6 −5 
3 6 12 3 (−3)F1 + F3 3 −6 −9 −3
 
(−2)F1 + F2 1 4 7 2
−→  2 −3 −6 −5 
3 2 3 7
de donde obtenemos que
   
1 0 0 1 4 7 2
L= 2 1 0  y U = 0 −3 −6 −5 
3 2 1 0 0 3 7
son tales que A = LU. 

En general, el esquema para una factorización LU para una matriz que


se puede reducir a una forma escalonada únicamente usando operaciones
elementales de eliminación está dado por la gráca 7.1.

0 U
A
= L 0

0 U
A =
L 0

U
0
A =
L
0

Figura 7.1. Esquema de la factorización LU

186
Factorización de matrices 7.1. Descomposición LU

El siguiente ejemplo, nos ilustra cómo hacer uso de la descomposición LU


en el proceso de resolver resolver sistemas lineales de ecuaciones.

7.1.10. Ejemplo. Considere el sistema de ecuaciones

x1 + 4x2 + 7x3 = 1
2x1 + 5x2 + 8x3 = 2
3x1 + 6x2 + 12x3 = 4

cuya matriz de coecientes corresponde a la matriz


  A del ejemplo 7.1.2 y
cuyo término independiente es bT = 1 2 4 . De acuerdo con dicho
ejemplo se tiene

    
1 4 7 1 0 0 1 4 7
A= 2 5 8 = 2 1 0  0 −3 −6  = LU
3 6 12 3 2 1 0 0 3

Ahora bien planteamos el sistema Lz = b, esto es



z1
 =1
2z1 + z2 =2 ,

3z1 + 2z2 + z3 = 4

cuya solución es
 
1
z =  0 .
1
Con esta solución planeamos el sistema U x = z, esto es el sistema

x1 + 4x2 + 7x3 = 1

−3x2 − 6x3 =0 ,

3x3 =1

y cuya solución es

x1 = 4/3; x2 = −2/3 x3 = 1/3. 

187
7.2. Descomposición QR Factorización de matrices

7.2. Descomposición QR

En esta sección hablaremos de la descomposición QR de una matriz, donde


Q es una matriz con columnas ortogonales (ortonormales) y R es una ma-
triz triangular inferior. Dicha descomposición es de gran importancia para
resolver problemas de mínimos cuadrados y tiene una estrecha relación con
el cálculo de la inversa generalizada de una matriz. En el caso de matrices
cuadradas, dicha descomposición es la base de un algoritmo para determi-
nar numéricamente y de forma iterativa, los valores propios de la matriz
A 8
(ver capítulo 8 de [ ]).

En primer lugar haremos aquí la discusión de la descomposición QR para


una matriz A de rango columna completo. En este caso, la factorización
se basa en el proceso de ortogonalización de Gram-Schmidt descrito en
teorema 1.2.24. El siguiente teorema nos garantiza la existencia de una
tal factorización en dicho caso y su demostración resume el proceso para
encontrarla.

7.2.1. Teorema (Factorización QR (Parte I)). Sea A ∈ Mm×n una matriz


de rango columna completo n. Entonces existen matrices Q ∈ Mm×n con
columnas ortogonales (ortonormales) y R ∈ Mn×n triangular superior e
invertible tales que

A = QR

Demostración. Consideremos la matriz A particionada por sus colum-


nas, ésto es,

A1 A2 An
 
A= ··· ,

la cual por hipótesis es de rango columna completo


 n. De aquí se tiene que
el conjunto B = A1 , A2 , . . . , An es una base de C(A) (el espacio colum-
na de A). Aplicando el proceso de ortogonalización de Gram-Schmidt

188
Factorización de matrices 7.2. Descomposición QR

(teorema 1.2.24) a esta base se obtiene

v1 = A1

2
A ; v1
v2 = A2 − v1
hv1 ; v1 i

3
3
3 A ; v1 A ; v2
v3 = A − v1 − v2
hv1 ; v1 i hv2 ; v2 i
.
.
.
n−1
X hAn ; vi i
vn = An − vi .
i=1
hvi ; vi i

Despejando de aquí cada vector columna Aj obtenemos:

A1 = v1

2
2 A ; v1
A = v2 + v1
hv1 ; v1 i

3
3
A ; v1 A ; v2
A3 = v3 + v1 + v2
hv1 ; v1 i hv2 ; v2 i
.
.
.
n−1
n
X hAn ; vi i
A = vn + vi .
i=1
hvi ; vi i

Así que podemos escribir:

189
7.2. Descomposición QR Factorización de matrices

A1 A2 An
 
A = ···

2

A ; v1 A3 ; v1 hAn ; v1 i
 
1 ···

 hv1 ; v1 i hv1 ; v1 i hv1 ; v1 i 

 

2 
 A ; v2 hAn ; v2 i 
 0 1 ··· 

 hv2 ; v2 i hv2 ; v2 i 

 
 
hAn ; v3 i

A = v1 v2 ··· vn
 
 0 0 1 ··· 

 hv3 ; v3 i 

. . . .
. . . .
 

 . . . ··· .


n
 .. hA ; vn−1 i 
 0 0 0 . 
hvn−1 ; vn−1 i 
 

 
0 0 ··· 1
A = Q0 R0 ,

que corresponde a la descomposición QR no normalizada de la matriz A.

Usamos ahora los módulos de las columnas de la matriz Q0 para denir


la matriz diagonal invertible D = diag(kv1 k , kv2 k , . . . , kvn k). De esta
forma, podemos reescribir la igualdad A = Q0 R0 como sigue:

A = Q0 R0
= Q0 D−1 DR0


A2 ; v 1 hAn ; v1 i
 
 kv1 k kv1 k
hv1 ; v1 i
··· kv1 k
hv1 ; v1 i 
hAn ; v2 i
 
h i 
= v1 v2
··· vn  0 kv2 k ··· kv2 k 
kv1 k kv2 k kvn k 
 hv2 ; v2 i 

 . . .. .
 .. . .

. . . 
0 ··· ··· kvn k
= QR ,

que corresponde a la descomposición QR normalizada de la matriz A. 


190
Factorización de matrices 7.2. Descomposición QR

7.2.2. Ejemplo. Encontremos la descomposición QR para la matriz

 
1 2 −1
 1 −1 2 
 = A1 A2 A3
 
A= .
 1 −1 2 
−1 1 1

Aplicando el proceso de ortogonalización de Gram-Schmidt obtenemos

 
1
 1 
v1 = A1 = 
 1 ;

−1
     

2 2 1 9
A ; v1  −1  1  1  1  −3 
v2 = A2 −  −1  + 4  1  = 4  −3  ;
v1 =      
hv1 ; v1 i
1 −1 3

3
3
A ; v1 A ; v2
v3 = A3 − v1 − v2
hv1 ; v1 i hv2 ; v2 i
       
−1 1 9 0
 2  1  1  2  −3   1 
 2  − 2  1  + 3  −3  =  1  .
=        

1 −1 3 2

De aquí se tiene que

A1 = v1
2 1
A = − v1 + v2
4
1 2
A3 = v1 − v2 + v3 .
2 3

Siguiendo ahora los delineamientos de la demostración del teorema ante-


rior obtenemos:

191
7.2. Descomposición QR Factorización de matrices

 
 1 2 3 1 −1/4 1/2
A = A A A = [v1 v2 v3 ]  0 1 −2/3 
0 0 1
 
1 9/4 0  
 1 −3/4 1  1 −1/4 1/2
=  1 −3/4 1  0
  1 −2/3 
0 0 1
−1 3/4 2

= Q0 R0 (Descomposicón no normalizada).

3
√ √ 
En este caso, la matriz D está dada por D = diag 2, 2 3, 6 . Entonces
podemos escribir

A A A = Q0 D−1 DR0
 1 2 3
A =
 √ 
1/2 3/2 3 0  

 √ √
 2
 −1/2 1
 1/2 −1/2 3 1/ 6
√ √ 
 
 
= 
 √ √
 0
 3 3/2 − 3 
 1/2 −1/2 3 1/ 6

 
 
 0 0 6
√ √

−1/2 1/2 3 2/ 6
= QR (Descomposición normalizada). 

Supongamos ahora que la matriz m × n, A no tiene rango columna no


completo, esto es, ρ(A) = r 0 < r < n. En este caso se tiene, que tam-
con
bién existe una descomposición QR pero la matriz Q en la factorización
no normalizada contiene columnas nulas, como lo establece el siguiente
corolario.

7.2.3. Teorema (Factorización QR (Parte II)). Sea la matriz A ∈ Mm×n


tal que ρ(A) = r con 0 < r < n. Entonces existen una matriz Q0 ∈ Mm×n
conr columnas ortogonales no nulas y el resto nulas, y una matriz R0 ∈
Mn×n triangular superior invertible tales que
A = Q0 R0 (Descomposición no normalizada) .

La matriz A también se puede descomponer de manera normalizada en la


forma
A = QRr
192
Factorización de matrices 7.2. Descomposición QR

donde Q ∈ Mm×r tiene columnas ortogonales (ortonormales) no nulas y


Rr ∈ Mr×n es "triangular" superior de orden r. Las r columnas no nulas
de Q0 , respectivamente las r columnas de Q, conforman una base para
C(A).

Demostración. Si seguimos los pasos de la demostración del teore-


ma 7.2.1 obtenemos la descomposición QR no normalizada para A. Ésto
es,

A = Q0 R0 .
En este caso sin embargo, Q0 tendrá r columnas ortogonales no nulas
y n−r columnas nulas. Ahora, para denir matriz diagonal D usamos
los módulos de la columnas no nulas Q0 respetando sus posiciones y unos
(1's) en el resto de componentes de la diagonal de D. La matriz Q buscada
corresponde entonces a la matriz formada por las columnas no nulas de
Q0 D−1 , igualmente Rr se obtiene eliminado de la matriz DR0 , las las
con índices iguales a las columnas nulas de Q0 . 

El siguiente ejemplo nos ilustra el proceso para calcular la descomposición


QR en el caso de matrices que no son de rango columna completo.

7.2.4. Ejemplo. Encontrar la descomposición QR para la matriz


 
1 2 0 −1
 1 −1 3 2 
 = A1 A2 A3 A4
 
A= .
 1 −1 3 2 
−1 1 −3 1
Procedamos ahora a aplicar los pasos del método de ortogonalización de
Gram-Schmidt con las columnas de A, esto es:
 
1
1 
= A1 = 

v1 ;
 1 
−1
 

9
A2 ; v 1 1 1  −3 
v2 = A2 − v 1 = A2 + v 1 =  ;
hv1 ; v1 i 4 4  −3 
3

193
7.2. Descomposición QR Factorización de matrices
 


0
A3 ; v 1 A3 ; v 2 9  0 
v3 = A3 − v1 − v 2 = A3 − v 1 + v 2 = 
 0 ;

hv1 ; v1 i hv2 ; v2 i 4
0
 
0
4 1 2  1 
v4 = A − v1 + v2 − 0v3 =   1 .

2 3
2

Despejando los vectores Aj 's, en términos de los vectores vj 's, como en el


ejemplo 7.2.2 obtenemos entonces

A1 A2 A3 A4
 
A =
  
1 9/4 0 0 1 −1/4 9/4 1/2
 1 −3/4 0 1   0 1 −1 −2/3 
=   
 1 −3/4 0 1   0 0 1 0 
−1 3/4 0 2 0 0 0 1

= Q0 R0 .

Tomamos ahora la matriz diagonalD, cuyos elementos hDiii corresponden


Q0 . TPara las
a los a los módulos de las i-ésimas columnas no nulas de
columnas nulas de Q0 tomamos hDiii = 1. En nuestro ejemplo, entonces
h
3
√ √ i
tenemos, D = diag 2,
2 3, 1 , 6 . Ahora bien, escribimos

A1 A2 A3 A4 = Q0 R0 = Q0 D−1 DR0
 
A =

 √  
1/2 3/2 3 0 0 2 −1/2 9/2 1
√ √  √ √ 
  


 1/2 −1/2 3 0 1/ 6 
 0
 3 3/2 −1 − 3 
= 
 √ √ 
 .

1/2 −1/2 3 0  0
1/ 6  0 1 0 
 
 
√ √ √
  
−1/2 1/2 3 0 2/ 6 0 0 0 6

Esto es,

194
Factorización de matrices 7.2. Descomposición QR

 √  
1/2 3/2 0 0 2 −1/2 9/2 1
√ √ √ √
  
  

 1/2 − 3/6 0 6/6   0 3 3/2
 −1 − 3 

A = 
 √ √




1/2 − 3/6 0 6/6  0 0 1 0
  
 
√ √ √
  
−1/2 3/6 0 6/3 0 0 0 6
 √ 
1/2 3/2 0  

 √ √
 2
 −1/2 9/2 1

 1/2 − 3/6 6/6 

√ √ 

= 
 √ √
  0 3 3/2
 −1 − 3  

 1/2 − 3/6 6/6  


 0 0 0 6
√ √

−1/2 3/6 6/3

= QR .
La matriz Q se obtiene al eliminar la tercera columna (columna nula) de
Q0 D−1 , mientras que R se obtiene al eliminar la correspondiente tercera
la de DR0 . 

En este punto de la discusión, invitamos al lector a recordar los concep-


c
tos dados en el capítulo 6 sobre inversas condicionales (A ), inversa gen-
+
eralizada (A ), mejor solución aproximada (M.S.A.) y solución mínima
cuadrada (S.M.C.). El siguiente resultado presenta la relación existente
entre la descomposición QR y la inversa generalizada de una matriz A.
7.2.5. Teorema. Sea A ∈ Mm×n una matriz real.

1. Si ρ(A) = n entonces existe una matriz Q, m × n, con columnas


ortogonales (ortonormales) y una matriz R triangular superior
e invertible n×n tales que

A = QR,
además se tiene que

A+ = R−1 QT .
195
7.2. Descomposición QR Factorización de matrices

2. Siρ(A) = r < n entonces existe una matriz Q, m × n, con las


primeras r columnas no nulas ortogonales (ortonormales) y una
matriz R triangular superior n × n, ambas de rango r tales que

A = QR,
además se tiene que

A+ = RT (RRT )−1 QT .

Demostración. Supongamos que A es una matriz m×n de rango


columna completo. Según lo establece el teorema 7.2.1, existen matrices
Q ∈ Mm×n y R ∈ Mn×n con las condiciones citadas tales que A = QR.
De otra parte, sabemos que A+ = (AT A)−1 AT (teorema 6.2.1(1)). De
aquí se sigue que:

A+ = (AT A)−1 AT
= (RT QT QR)−1 RT QT
= R−1 (RT )−1 RT QT
= R−1 QT .

Lo que demuestra el inciso 1.

Supongamos ahora, que A no tiene rango columna completo, es decir,


supongamos, que ρ(A) = r; 0 < r < n. Según el teorema 7.2.3 existen
matrices Q ∈ Mr×n y R ∈ Mr×n con las condiciones requeridas tales que
A = QR. Ahora, aplicando el teorema 6.2.1 (con B = Q y C = R), así
como el literal (iv) del teorema 6.2.1, obtenemos entonces

A+ = RT (RRT )−1 (QT Q)−1 QT


= RT (RRT )−1 Q, (porque (Q
T
Q)−1 = Ir )


7.2.6. Nota. Con respecto a los resultados anteriores podemos anotar


que:

1. Si A ∈ Mm×n es una matriz de rango r<n se tiene, usando la


notación del teorema anterior, que
−1
A+ A = RT RRT R.

196
Factorización de matrices 7.2. Descomposición QR

2. De acuerdo con el teorema 6.4.8, todo sistema de ecuaciones


Ax = y tiene una única M.S.A. dada por

x∗ = A+ y.

Puesto que el conjunto de todas la soluciones mínimas cuadradas


del sistema Ax = y están dadas por (ver capítulo 6)

x = A+ y + (I − A+ A)h; h ∈ Rn .

Del literal anterior se sigue:

x = RT (RRT )−1 QT y + (I − RT (RRT )−1 R)h; h ∈ Rn ,

y de aquí, que el conjunto de todas la soluciones mínimas cuadradas


del sistema Ax = y está dada por las soluciones

Rx = QT y .

7.2.7. Ejemplo. Considere el sistema de ecuaciones lineales Ax = y,


siendo
   
1 2 0 −1 1
 1 −1 3 2   −1 
A=  y
 2 .
y= 
 1 −1 3 2 
−1 1 −3 1 1

De acuerdo con el ejemplo 7.2.4 ρ(A) = 2 y las matrices

 √ 
1/2 3/2 0  

 √ √

 2 −1/2 9/2 1

 1/2 − 3/6 6/6 


 √ √ 

Q=
 √ √

 y
 0
R= 3 3/2 −1 − 3 

 1/2 − 3/6 6/6 





√ √
 0 0 0 6
−1/2 3/6 6/3

son tales que

A = QR .
197
7.3. Descomposición de Cholesky Factorización de matrices

Entonces A+ = Rt (RRt )−1 Q, (ver teorema 7.2.5), es decir,


 2 1 1 
0
 9 18 18 
 
 

 7 1 1 1 

 18 18 18 6 
A+ =  ,
 
 1 1 1 1 
 − 
18 18 18 6
 
 
 
1 1 1
 
0
6 6 3
y el conjunto de todas las S.M.C. (ver nota 7.2.6) está dada por las solu-
ciones del sistema

 
√1/2
Rx = QT y =  √3/2  ,
6/2
es decir por la expresión
   
1/6 −2
 2/3   1 
x  0  + h 1 ,
=     h ∈ R.
1/2 0
En particular, si h = 1/18, obtenemos las M.S.A.

5
1 
 11  .
x ∗ = A+ y =


18  −1 
9

7.3. Descomposición de Cholesky

A diferencia de las factorizaciones vistas hasta ahora, la factorización o


descomposición de Cholesky se aplica sólo a matrices simétricas positivas
denidas y ésta consiste en expresar una tal matriz como producto de una
matriz triangular superior y por su transpuesta. En forma más precisa
tenemos

198
Factorización de matrices 7.3. Descomposición de Cholesky

7.3.1. Teorema .
(Factorización de Cholesky) Si A ∈ Mn×n es una matriz
simétrica positiva denida, entonces existe una única matriz real T =
[tij ]n×n triangular superior con tii > 0 (i = 1, . . . , n), tal que

A = TTT .
Además,
2 2
|A| = |T | = [Πni=1 tii ] .

Demostración. La demostración la haremos haciendo inducción so-


bre el orden de la matriz. Primero lo demostraremos para n = 2:
 
β α
Sea A= una matriz 2 × 2 simétrica positiva denida, entonces
θ β
se tiene que α > 0 y |A| = αθ − β > 0 (teorema 4.3.6). Necesitamos
 
a b
mostrar que existe una única matriz triangular superior T = ,
0 c
T
con elementos de la diagonal positivos, tal que A = T T, esto es:
      2 
α β a 0 a b a ab
= = .
β θ b c 0 c ab b2 + c2
De ésto se tiene que

a2 = α de donde, a= α (a > 0)
β
ab = β de donde, b= √ y
α
p
αθ − β 2
b2 + c2 = θ de donde, c= √ (c > 0).
α
Ésto es,

 √ √ β
 


α 0 α
   α 
α β  
 = T T T,

A= = p 
β θ  β αθ − β 2  p 
√ √  αθ − β 2 
α α 0 √
α
además, se tiene que |A| = (t11 · t22 )2 .

Supongamos ahora que la armación es cierta para n = k, ésto es, sea


B ∈ Mk×k una simétrica positiva denida. Supongamos que existe una
única matriz triangular superior U ∈ Mk×k tal que A = UT U y que
2
 2
|A| = |U | = Πki=1 uii (hipótesis de inducción).

199
7.3. Descomposición de Cholesky Factorización de matrices

Demostremos ahora que la armación es cierta para n = k + 1. Consider-


emos entonces una matriz A ∈ M(k+1)×(k+1) simétrica positiva denida.
Podemos escribir la matriz A por bloques en la forma
 
à a
A= , con à ∈ Mk×k , a ∈ Mk×1 y θ ∈ R
at θ
La matriz à es simétrica positiva denida (teorema 4.3.6), entonces por
hipótesis de inducción, existe
una única matriz triangular superior U ∈
T 2  2
tal que à = U U y à = |U | = Πki=1 uii .

Mk×k

Consideremos ahora la matriz triangular superior T de tamaño (k + 1) ×


(k + 1), con elementos de la diagonal principal positivos y escrita por
bloques en la forma
 
U y
T = ,
0 z
donde y ∈ Mk×1 y z ∈ R+ deben ser escogidos adecuadamente tales que,
t
A = T T ; ésto es, tales que:
   T  
à a U 0 U y
A= =
aT θ yT z 0 z
 T 
U U Uy
= .
yT U yT y + z 2
Igualando término a término debemos tener que

U T y = a, lo que implica y = (U T )−1 a

yT y + z 2 = θ, lo que implica z = (θ − yT y)1/2 .


Además se tiene que

|A| = |T |2 = |U |2 z 2
2 2
Πi=1 uii z 2 = Πk+1
 k 
= i=1 tii .

Veremos a continuación dos procesos para calcular la factorización de


Cholesky. El primero se basa en la denición propia de la factorización
de Cholesky, mientras que el segundo usa resultados del capítulo sobre
diagonalización de matrices positivas denidas.

200
Factorización de matrices 7.3. Descomposición de Cholesky

Proceso A (cálculo de la factorización de Cholesky):


Sea A una matriz simétrica n×n positiva denida. Puesto que A =
TTT con T una matriz triangular superior con elementos positivos en su
diagonal principal, se debe tener que:

 
a11 a12 a13 ··· a1n

 a12 a22 a23 ··· a2n 

A = 
 a13 a23 a33 ··· a3n 

. . . .. .
. . . .
 
 . . . . . 
a1n a2n a3n ··· ann
  
t11 0 0 ··· 0 t11 t12 t13 ··· t1n

 t12 t22 0 ··· 0 
 0 t22 t23 ··· t2n 

= 
 t13 t23 t33 ··· 0  0
 0 t33 ··· t3n .

. . . .. .  . . . .. .
. . . .   .. . . .
  
 . . . . . . . . . 
t1n t2n t3n ··· tnn 0 0 0 ··· tnn
Cálculos directos muestran entonces que se debe cumplir que:


1. t11 = a11 .
a1j a1j
2. t1j = = √ ; j = 1, . . . , n.
t11 a11
 Pi−1 2 1/2
3. tii = aii − k=1 tki ; i = 2, . . . , n.
" i−1
#
1 X
4. tij = aij − tki tkj ; j > i, i = 2, . . . , n − 1.
tii
k=1
5. tij = 0; j < i, i = 2, . . . , n.
Observación. Con respecto a este método y al cálculo de los elementos
elementos no nulos tij de la matriz triangular T podemos decir que:

1. t2ii es igual al elemento aii menos la suma de los cuadrados de los


elementos ya calculados de la i-ésima columna de T . Es decir,
i−1
X
t2ii = aii − t2ki , i = 1, . . . , n.
k=1

201
7.3. Descomposición de Cholesky Factorización de matrices

2. El producto tii · tij es igual a aij menos la suma del producto de


los elementos ya calculados de las i-ésima y j -ésima columnas
de T. Es decir,

i−1
X
tij · tii = aij − tki tkj ; i, j = 1, . . . , n .
k=1

7.3.2. Ejemplo. Siguiendo el esquema anterior, encuentre la descomposi-


ción de Cholesky para la matriz simétrica positiva denida
 
4 −2 0 2
 −2 2 3 −2 
A=
 0
.
3 18 0 
2 −2 0 4

Cálculos directos muestran que:

√ a12 a13 a14


1. t11 = a11 = 2; t12 = = −1; t13 = = 0; t14 = = 1.
2 2 2
p √
2. t22 = a22 − t212 = 2 − 1 = 1;
a23 − t12 t13 3 − (−1) · 0
t23 = = =3
t22 1
a24 − t12 t14 −2 − (−1) · 1
t24 = = = −1.
t22 1
p √
3. t33 = a33 − t213 − t223 = 18 − 32 − 02 = 3;

a33 − t13 t14 − t23 t24 0 − 0 · 1 − 3(−1)


t34 = = =1
t33 3
p p
4. t44 = a44 − t214 − t224 − t234 = 4 − 12 − (−1)2 − 12 = 1

Es decir,
 
2 −1 0 1
 0 1 3 −1 
T =
 0
,
0 3 1 
0 0 0 1

es la matriz triangular superior tal que A = T T T. 


202
Factorización de matrices 7.3. Descomposición de Cholesky

7.3.3. Ejemplo. Siguiendo con el esquema anterior, encuentre la descom-


posición de Cholesky para la matriz simétrica positiva denida
 
4 2 −4
A= 2 10 4 ,
−4 4 9
Cálculos directos muestran que:

√ a12 a13
1. t11 = a11 = 2; t12 = = 1; t13 = = −2.
t11 2
p √ a23 − t12 t13 4 − (1)(−2)
2. t22 = a22 − t212 = 10 − 1 = 3; t23 = = =
t22 3
2.
p p
3. t33 = a33 − t213 − t223 = 9 − (−2)2 − (2)2 = 1.

Es decir,
 
2 1 −2
T = 0 3 2 ,
0 0 1
es la matriz triangular superior tal que A = T T T. 

Proceso B (cálculo de la factorización de Cholesky):


De acuerdo con los resultados presentados en el capítulo 4 se tiene que una
matriz simétrica A, es positiva denida, si existe una matriz triangular
superior P, tal que P T AP = I (ver también el teorema 5.1.2). De aquí
que
A = (P T )−1 P −1 = (P −1 )T P −1 .
Así las cosas, nosotros podemos encontrar la matriz PT usando los pasos
 
ilustrados en el ejemplo 3.3.15, es decir, planteando la matriz A | I
y realizando de manera adecuada y simultáneamente operaciones elemen-
tales en las las y columnas de A y en las las de I (sin hacer intercambios
de las).

Nota. Existe una relación entre la factorización LU para matrices positi-


vas denidas y la descomposición de Cholesky. En efecto, si A es simétri-
ca positiva denida entonces A se puede expresar mediante A = T T T con
T una matriz triangular superior con elementos positivos en la diagonal
principal.

203
7.3. Descomposición de Cholesky Factorización de matrices

Ahora bien, sea D = diag (t11 , t22 , . . . , tnn ) entonces se tiene que:

A = TTT
= T T D−1 DT
= (T T D−1 )(DT )
= LU.
7.3.4. Ejemplo. Consideremos la matriz simétrica positiva denida
 
4 2 −4
A= 2 10 4 .
−4 4 9
Del ejemplo 7.3.3 se tiene que
    
4 2 −4 2 0 0 2 1 −2
A= 2 10 4  =  1 3 2  0 3 2  = TTT .
−4 4 9 −2 2 1 0 0 1
 
2 0 0
Tomando D =  0 3 0  , se tiene que
0 0 1
  
2 0 0 2 1 −2
A =  1 3 2  0 3 2 
−2 2 1 0 0 1
    
2 0 0 1/2 0 0 2 0 0 2 1 −2
=  1 3 2  0 1/3 0   0 3 0   0 3 2 
−2 2 1 0 0 1 0 0 1 0 0 1
  
1 0 0 4 2 −4
=  1/2 1 0  0 9 6  = LU . 
−1 2/3 1 0 0 1

Ahora bien, supongamos que deseamos resolver el sistema de ecuaciones


lineales Ax = y, siendo A una matriz simétrica y positiva denida. Sea T
triangular positiva tal que A = TTT, entonces

Ax = y ⇐⇒ T T T x = y ⇐⇒ T x = (T T )−1 y := z,
es decir, si se conoce la factorización de Cholesky para una matriz A=
T T T , la solución del sistema Ax = y se reduce a encontrar la solución del
sistema triangular superior

T x = z, con z = (T T )−1 y.

204
Factorización de matrices 7.4. Descomposición en valores singulares

7.3.5. Ejemplo. Consideremos el sistema de ecuaciones lineales

4x1 + 2x2 − 4x3 = 12


2x1 + 10x2 + 4x3 = 6
−4x1 + 4x2 + 9x3 = −3 .
Puesto que la matriz de coecientes es justo la matriz del ejemplo 7.3.3, la
matriz aumentada del sistema se puede reducir mediante multiplicación
del sistema por la matriz T −T (ver ejemplo), para obtener:
 
  4 2 −4 | 12
A | y =  2 10 4 | 6 
−4 4 9 | −15
 
2 1 −2 | 6

 
=  0 3 2 | 0 = T | z .
0 0 1 | −3
De esto último se sigue que

x3 = −3,
−2x3 6
x2 = = = 2,
3 3
6 + 2x3 + x2 6−2−6
x1 = = = −1. 
2 2

7.4. Descomposición en valores singulares (SVD)

En esta sección abordaremos el estudio de la descomposición de una matriz


rectangular A la cual involucra los valores y vectores propios de la matrices
simétricas AAT y AT A. Como se recordará dichas matrices son positivas
semidenidas y por ello sus valores propios son no negativos.

7.4.1. Teorema. A ∈ Mm×n se tiene que existen ma-


Para toda matriz
trices ortogonales U ∈ Mm×m y V ∈ Mn×n y una matriz diagonal
Σ ∈ Mm×n , con elementos hΣiij = 0, si i 6= j y hΣiii =: σi ≥ 0, y
σ1 ≥ σ2 ≥ · · · ≥ σs , en donde s = mı́n {m, n} tales que
T
Am×n = Um×m Σm×n Vn×n .
Los números σ12 , σ22 , · · · , σs2 son los valores propios de AT A (quizás agre-
gando algunos ceros) y los vectores propios asociados son las columnas
 
de la matriz V = v1 v2 · · · vn . Además, lo números σ12 , σ22 ,
205
7.4. Descomposición en valores singulares Factorización de matrices

· · · , σs2 son igualmente los valores propios de AAT (quizás agregando al-
gunos ceros) y los vectores propios asociados son las columnas de U =
 
u1 u2 ··· um . Además de tiene las siguientes relaciones entre
estos vectores

Avi = σi ui
i = 1, 2, . . . , s.
uTi A = σi viT

Demostración. Supongamos que A ∈ Mm×n tiene rango r con 0 <


r < s. La matriz simétrica S = AAT ∈ Mm×m es no negativa y por tanto
existe una matriz ortogonal U ∈ Mm×m tal que

 2 
σ1 0 · · · 0
 0 σ22 · · · 0 
U T AAT U = D2 =  .
 
. .. .
 .. . .

. . . 
2
0 0 · · · σm

donde σ12 ≥ σ22 ≥ · · · ≥ σm


2
≥ 0 son los valores propios de S = AAT y las
columnas de U = [u1 u2 · · · um ] son vectores propios de S correpondi-
entes a dichos valores propios:

AAT ui = Sui = σi2 ui ; i = 1, 2, . . . , m.

Como r = ρ(A) = ρ(AAT ), entonces σ12 ≥ σ22 ≥ · · · ≥ σr2 > 0. Par-


ticionemos ahora la matriz U como U = U1 U2 con U1 ∈ Mm×r .
Luego

U1T
 

U T AAT U  AAT
 
=  U1 U2
U2T
U1T AAT U1 U1T AAT U2
 

=  
U2T AAT U1 U2T AAT U2
Dr2 0
 
=
0 0

es decir,

206
Factorización de matrices 7.4. Descomposición en valores singulares

σ12
 
0 ··· 0 | 0 ··· 0
 0
 σ22 ··· 0 | 0 ··· 0 

 .. .
. .. .
.
.
. .. .
.

 .
 . . . | . . . 

t t
 0 0 ··· σ22 | 0 ··· 0 
U AA U = 
 −−
.
 −− −− −− −− −− −− −− 

 0
 0 ··· 0 | 0 ··· 0 

 . . .. . . .. .
 .. . . . .

. . . | . . . 
0 0 ··· 0 | 0 ··· 0
Esto implica que

U2T AAT U2 = (AT U2 )T (AT U2 ) = 0,


de donde U2T A = 0 y AT U2 = 0. También se tiene que U1T AAT U1 = Dr2 ,
o sea:

Dr−1 U1T AAT U1 Dr−1 = I = (AT U1 Dr−1 )T (AT U1 Dr−1 ).


Ésto signica que la matriz

V1 = AT U1 Dr−1 ∈ Mn×r
tiene columnas ortogonales (V1T V1 = I). Sea V2 ∈ Mn×(n−r) tal que la
matriz
 
V = V1 V2 ∈ Mn×n
es ortogonal. Veamos ahora que
 
t Dr 0
U AV = Σ = .
0 0
En efecto, de una parte:

U1T U1T AV1 U1T AV2


   

U T AV = 
 
A V1 V2 = ,
U2T U2T AV1 U2T AV2
y de otra parte, U2T A = 0. Así mismo,
 T   T
V1T V2

V1 V1 V1
V TV
 
= I=  V1 V2 =  
V2T V2T V1 V2T V2
 
I 0
= ,
0 I
207
7.4. Descomposición en valores singulares Factorización de matrices

lo que implica que V1T V2 = 0 = (AT U1 Dr−1 )T V2 de donde

U1T AV2 = 0.
y nalmente,

U1T AV1 = U1T AAT U1 Dr−1


= Dr2 Dr−1 = Dr
 
σ1 0 · · · 0
 0 σ2 · · · 0 
= .
 
 .. .
. .. .
.
 . . . . 
0 0 ··· σm
En consecuencia,
 
T Dr 0
U AV = Σ = .
0 0


Nota. Observe que

AV1 = AAT U1 Dr−1 ⇒ Avi = σi ui i = 1, 2, . . . , r.


igualmente,

AT U1 = V1 Dr ⇒ AT ui = σi vi ⇒ uTi A = viT σi i = 1, 2, . . . , r.

El siguiente proceso nos ilustra cómo calcular la descomposición en valores


singulares de una matriz A ∈ Mm×n . Supondremos en este caso, que
m ≤ n.
7.4.2. Algoritmo.

1. Formule S = AAT ∈ Mm×m .


2. Encuentre los valores propios de S : σ12 ≥ σ22 ≥ · · · ≥ σm
2
≥ 0.
3. Encuentre un conjunto ortonormal u1 , u2 , . . . , um de vectores
 
propios de S y construya la matriz U = u1 u2 · · · um (or-
togonal) y la matriz diagonal D = diag {σ1 , σ2 , · · · , σm }.
4. Si r = ρ(A); Dr = diag {σ1 , σ2 , · · · , σr }
−1
T
 
5. Haga V1 = A U1 Dr , siendo U1 = u1 u2 · · · ur , las
primeras r columnas de U. Encuentre una matriz V2 ∈ Mn×(n−r)
 
tal que la matriz V = V1 V2 ∈ Mn×n sea ortogonal.
T
5*. Otra forma de (5) es trabajar con la matriz A A.

208
Factorización de matrices 7.4. Descomposición en valores singulares
 
2 1 −2
7.4.3. Ejemplo. Considere la matriz A =
4 −4 2
; ρ(A) = 2,
calculemos la descomposición en valores singulares usando el proceso es-
bozado anteriormente.

 
9 0
Calculando directamente obtenemos la matriz S = AAT = ,
0 36
cuyos valores propios son: σ12 = 36 y σ22 = 9 (σ12 ≥ σ22 ).

Calculemos ahora los vectores propios asociados a estos valores propios:

Para σ12 = 36 tenemos el sistema (S − 36 · I)X = 0, es decir el sistema

    
−25 0 x1 0
= ,
0 0 x2 0

cuyo conjunto solución es de la forma

  
0
B= : x2 6= 0 .
x2
 
0
Como σ12 -vector propio podemos tomar entonces u1 = . Análoga-
1
 
1
mente podemos tomar a u2 = como σ22 -vector propio. Ahora con-
0
sideramos las matriz ortogonal

 
  0 1
U= u1 u2 =
1 0

y la matriz diagonal

 
6 0
D = diag {σ1 , σ2 } = .
0 3

 
6 0
Puesto que r = ρ(A) = 2 tenemos que Dr = diag {σ1 , σ2 } = .
0 3
209
7.4. Descomposición en valores singulares Factorización de matrices

Con las matrices denidas hasta ahora se tiene que

V1 = AT U1 Dr−1
 
2 4   
0 1 1/6 0
=  1 −4 
1 0 0 1/3
−2 2
 
2 4  
0 1/3
=  1 −4 
1/6 0
−2 2
 
2 2
1
= −2 1  Columnas ortonormales.
3
1 −2
Consideramos ahora la matriz ortogonal
   
2 2 1 1
1   1
V = −2 1 2  = V1 V2 con V2 = 2 .
3 3
1 −2 2 2
Nosotros tenemos entonces que:
 
T 6 0 0
U AV = = Σ. Λ
0 3 0
 
1 1 0
7.4.4. Ejemplo. Consideremos la matriz A= 0 1 1  ; ρ(A) = 3,
1 0 1
calculemos ahora la descomposición en valores singulares:

De nuevo calculamos la matriz S = AAT


 
2 1 1
S = AAT =  1 2 1 .
1 1 2
cuyos valores propios los calculamos de manera usual, es decir, resolviendo
la ecuación |S − λI| = 0, esto es,

0 = |S − λI|

2−λ 1 1
= −(λ − 4)(λ − 1)2 .

= 1 2−λ 1
1 1 2−λ
210
Factorización de matrices 7.4. Descomposición en valores singulares

Los valores propios de S son entonces σ12 = 4, σ22 = 1 y σ32 = 1. Algunos


cálculos usuales nos permiten elegir a los vectores
     
1 −2 0
1  1  1 
u1 = √ 1 ; u2 = √ 1  y u3 = √ 1 ,
3 1 6 1 2 −1

como vectores propios ortonormales asociados a σ12 , σ22 y σ32 respectiva-


mente. Consideramos ahora la matriz ortogonal

 √ √ 
1/ 3 −2/ 6 0
 √ √ √ 
 
 
U= u1 u2 u3 =
 1/ 3 1/ 6 .
1/ 2 
√ √ √
 
1/ 3 1/ 6 −1/ 2

y las matrices diagonales (ρ(A) = 3)


 
2 0 0
D = diag {σ1 , σ2 , σ3 } =  0 1 0  = Dr .
0 0 1

Denimos ahora la matriz V1 = AT U1 Dr−1 , esto es,


  √ √  
1 0 1 1/√3 −2/√6 0
√ 1/2 0 0
V1 =  1 1 0   1/√3 1/√6 1/√2   0 1 0 
0 1 1 1/ 3 1/ 6 −1/ 2 0 0 1
  √ √ 
1 0 1 1/2√3 −2/√6 √0
=  1 1 0   1/2√3 1/√6 1/√2 
0 1 1 1/2 3 1/ 6 −1/ 2
 √ √ √ 
1/√3 −1/√6 −1/√2
=  1/√3 −1/√6 1/ 2  = V
1/ 3 2/ 6 0

Nosotros tenemos entonces que:


 
4 0 0
U T AV =  0 1 0  = Σ. Λ
0 0 1

211
7.5. Ejercicios Factorización de matrices

7.5. Ejercicios

7.5.1 Responda falso o verdadero justicando su respuesta

1. Las operaciones elementales en las las del tipo αFi + Fj con


i < j, producen matrices elementales triangulares inferiores.
2. Las operaciones elementales en las columnas del tipo αCi + Cj
con i < j , producen matrices elementales triangulares inferiores.
3. El producto de dos matrices elementales del mismo tamaño, es
una matriz elemental.
4. La descomposición LU para cualquier matriz A es única.
5. SiQ es una matriz rectangular cuyas columnas son orgonormales
T
entre, entonces Q Q = I.

7.5.2. Demuestre que:

1. Suponga que Li , (i = 1, 2), son matrices triangulares inferiores:


a ) Muestre que el producto L1 L2 es una matriz triangular in-
ferior.
b ) Mueste que si L1 es invertible, entonces su inversa L−1
1 es
también una matriz triangular inferior (Sug.: use inducción
matemática)
c ) Muestre que si los elementos de la diagonal principal de L1 y
L2 son tosdo iguales a 1 (uno), entonces las matrices L1 L2 ,
L−1
1
−1
y L2 también tienen unos en su diagonal principal.
(Sug.: use inducción matemática)
2. Use el ejercicio anterior para demostrar que las armaciones son
igualmente válidas para matrices triangulares superiores.
3. Demuestre que si A ∈ Mm×n tiene rango n y A = QR, donde Q
tiene columnas ortogonales y Res una matriz triangular superior
con unos en su diagonal principal, entonces Q y R son únicas.

7.5.5. Calcule

212
Factorización de matrices 7.5. Ejercicios

1. Use la factorización LU dada para resolver el sistema de ecua-


ciones lineales       
1 0 4 1 −11 1 0 2 1
a) x= b) x=
 −3 1 0  −1
 32   5 1 0  −7

1 0 0 2 −2 1 2 1 0 0 −1 2
c)  4 1 0  0 3 1 x =  7  d)  4 1 0  0 3
−2 3 1 0 0 −2 −3 −7 3 1 0 0
2. Calcule la descomposición LU de la matriz
 
1 3 −1 2
A= 2 7 1 1 .
−1 2 17 3
T
para resolver el sistema Ax = y, y =
Use dicha descomposición

5 18 14 .
3. Encuentre la matriz triangular R tal que A = QR en cada uno
de los siguientes casos
1 1
 
√ √

3 2 
   
1 2 1 −1 1

  
      
   1    
a) A= 1 1 
, Q=
 √ 0 
 b) A= 0 1 −1 
, Q = 


   3  
  
  
−1 1 −1 1 1
  
 1 1 
−√ √
3 2  
4 2 0
4. Considere la matriz simétrica positiva denida S =  2 9 8 
0 8 5
a ) Calcule su descomposición LU.
b ) Calcule sus descomposición de Cholesky.
5. Calcule la descomposición en valores singulares de la matriz
 
2 1 −2
A= .
−1 4 1
6. Calcule la descomposición QR de la matriz
 
1 0 0
 0 1 1 
A= 
 1 1 −1 
0 0 1

213
CAPÍTULO 8

Rectas e hiperplanos. Conjuntos convexos.

Este capítulo consta de dos secciones. En la primera daremos las deni-


ciones de recta, segmento de recta e hiperplanos en Rn . En la segunda
veremos algunos resultados sobre conjuntos convexos. Quien desee estu-
diar un poco más sobre estos tópicos puede consultar el capítulo 6 de
5
[ ].

8.1. Rectas. Segmentos de recta. Hiperplanos

Los conceptos de recta, segmento de recta e hiperplanos en Rn son útiles


en programación lineal (véase el capítulo 6 de [ 10]). Antes de proseguir
con nuestra discusión, haremos una pequeña aclaración sobre la notación
y haremos una diferencia entre lo que es un punto P en el espacio Rn y el
segmento de recta dirigido (vector coordenado o simplemente vector), que
tiene como extremo inicial el origen de coordenadas O y como extremo
−−→
nal al punto P. Éste lo denotaremos por OP o simplemente p.

Al punto P ∈ Rn le asignaremos las coordenadas (x1 , x2 , . . . , xn ) y


−−→
escribiremos P (x1 , x2 , . . . , xn ), mientras que al vector OP también le
−−→
asignaremos las coordenadas (x1 , x2 , . . . , xn ), pero escribiremos OP =
(x1 , x2 , . . . , x3 ) o simplemente, p = (x1 , x2 , . . . , x3 ) (ver gura 8.1 en el
3
caso de R ).

215
8.1. Rectas y planos Hiperplanos

IR 3
x3 x3

P(x1 , x2 , x 3) P

p = 0P =(x1 , x2, x 3)

O(0, 0, 0)
x2 O(0, 0, 0) x2

x1 x1

Figura 8.1. Puntos y vectores en R3 .

Nota. Dados dos puntos P (x1 , x2 , . . . , xn ) y Q(x01 , x02 , . . . , x0n ) en Rn , el


segmento de recta dirigido o vector, que tiene como punto inicial a P y co-
−−→
mo punto nal Q, lo denotaremos por P Q y le asignamos las coordenadas
(x01 − x1 , x02 − x2 , . . . , x0n − xn ). En tal sentido, y dado que
−−→ −−→
OQ − OP = (x01 , x02 , . . . , x0n ) − (x1 , x2 , . . . , xn )
= (x01 − x1 , x02 − x2 , . . . , x0n − xn ),
−−→
escribiremos P Q = (x01 − x1 , x02 − x2 , . . . , x0n − xn ).
8.1.1. Denición (Rectas) . En Rn , la recta que pasa por el punto P en
la dirección del vector d 6= 0 se dene como el conjunto de puntos:
n −−→ −−→ o
(8.1) ` = X ∈ Rn : OX = OP + λd, λ∈R .

Se dice además, que el vector d es un vector director de la recta `.

Según la denición anterior, un punto X0 ∈ Rn pertenece a la recta `


−−→ −−→
dada por (8.1) sii existe un λ0 ∈ R tal que OX0 = OP + λ0 d.

216
Hiperplanos 8.1. Rectas y planos

y
2
IR

OX=OP+ λ d
P

λd
d

Figura 8.2. Una recta en R2 .

8.1.2. Ejemplo. EnR3 , la recta que pasa por el punto P (1, 2, 3) en la


dirección del vector d = (1, 0, 5), es el conjunto de puntos:

` = X(x1 , x2 , x3 ) ∈ R3 : (x1 , x2 , x3 ) = (1, 2, 3) + λ(1, 0, 5),



λ∈R .

El punto X0 (−1, −2, −7) pertenece a dicha recta, pues:

−−→
OX0 = (−1, −2, −7) = (1, 2, 3) + (−2)(1, 0, 5).

Sin embargo, el punto X ∗ (2, 3, 2) no pertenece a la recta `, pues no existe



λ ∈R tal que :

(2, 3, 2) = (1, 2, 3) + λ∗ (1, 0, 5) = (1 + λ∗ , 2, 3 + 5λ∗ ). Λ

Ahora bien, si el puntoQ de Rn está sobre la recta (8.1) y Q 6= P, entonces


−−→ −−→ 1 −−→
existe un λ0 ∈ R tal que OQ = OP + λ0 d. De aquí que d = P Q, y por
λ0
lo tanto:
n −−→ −−→ o
` = X ∈ Rn : OX = OP + λd, λ ∈ R
 
n − −→ −−→ λ −−→
= X ∈ R : OX = OP + P Q, λ ∈ R .
λ0
217
8.1. Rectas y planos Hiperplanos

En consecuencia, podemos decir que la recta que pasa por los puntos P y
Q (P 6= Q) de Rn es el conjunto de puntos:
n −−→ −−→ −−→ o
(8.2) ` = X ∈ Rn : OX = OP + t P Q, t∈R .

y
2
IR

Q OX=OP+t PQ
P

PQ = 0Q − OP

t PQ

Figura 8.3. Gráca de una recta que pasa por los pun-
tos P y Q.

8.1.3. Ejemplo. La recta que pasa por los puntos P = (1, 2, 3) y Q =


(4, 1, 1) de R3 , es el conjunto de puntos:
` = X(x1 , x2 , x3 ) ∈ R3 : (x1 , x2 , x3 ) = (1, 2, 3) + t(3, −1, −2), t ∈ R .



8.1.4. Denición (Segmento de recta). El segmento de recta que une los
puntos Q de Rn , se denota por P Q y se dene así:
P y
n −−→ −−→ −−→ o
PQ = X ∈ Rn : OX = OP + t P Q, para 0 ≤ t ≤ 1 .
n −−→ −−→ −−→ o
= X ∈ Rn : OX = tOP + (1 − t) OQ, para 0 ≤ t ≤ 1 .

Según la denición anterior, un punto X0 ∈ Rn pertenece a PQ sii existe


−−→ −−→ −−→
0 ≤ t0 ≤ 1 tal que OX0 = OP + t0 P Q.

218
Hiperplanos 8.1. Rectas y planos

IR 2
Q

P OX = OP + t 0 PQ

PQ = OQ − OP

t0 PQ
x

Figura 8.4. Segmento de recta que une los puntos P y Q

8.1.5. Ejemplo. El segmento de recta que un al punto P (1, 2, 3, 4) con


el punto Q(0, 1, 0, 2), es el conjunto de puntos X(x1 , x2 , x3 , x4 ) ∈ R4 :

X ∈ R4 : (x1 , x2 , x3 , x4 ) = (1, 2, 3, 4) + t(−1, −1, −3, −2) ,



PQ =
1 3 3
El punto X0 ( , , 3) pertenece a P Q, pues
,
2 2 2
1 3 3 1
( , , 3) = (1, 2, 3, 4) + (−1, −1, −3, −2).
,
2 2 2 2

Sin embargo, el punto X (−1, 0, −3, 0) no pertenece a P Q, pues no existe
t∗ con 0 ≤ t∗ ≤ 1 tal que
(−1, 0, −3, 0) = (1, 2, 3, 4) + t∗ (−1, −1, −3, −2)
= (1 − t∗ , 2 − t∗ , 3 − 3t∗ , 4 − 2t∗ ) .
8.1.6. Denición (Hiperplano). En Rn , el hiperplano que pasa por el
punto P y que es normal al vector n 6= 0, se dene como el conjunto de
puntos:
n −−→ −−→ o
H = X ∈ Rn : (OX − OP ) · n = 0 ,
o lo que es lo mismo,
n −−→ −−→ o
H = X ∈ Rn : OX · n = OP · n = cte. ,

219
8.1. Rectas y planos Hiperplanos
n
H
3 x3
IR

X
P

x2

x1

Figura 8.5. Gráca de un plano en R3 .

donde  · es el producto interno usual en Rn (véase apartado 1.2.3 1).

8.1.7. Observación. En R2 y en R3 los hiperplanos tienen una estructura


muy particular. En efecto,

1. En R2 , un hiperplano es una recta. Así por ejemplo, el hiper-


plano (recta) que pasa por el punto P (4, −3) y que es normal
al vector n = (−5, 2), es el conjunto de puntos X(x1 , x2 ) de R2
que satisfacen la ecuación:
−−→ −−→
OX · n = −5x1 + 2x2 = −20 − 6 = −26 = OP · n,
o sea,
−5x1 + 2x2 = −26.
3
2. En R , un hiperplano es un plano. Así por ejemplo, el hiperplano
(plano) que pasa por el punto P (2, −1, 1) y que es normal al
vector n = (−1, 1, 3), X(x1 , x2 , x3 )
es el conjunto de puntos de
R3 que satisfacen la ecuación:
−−→ −−→
OX · n = −x1 + x2 + 3x3 = −2 − 1 + 3 = 0 = OP · n,
o sea,
−x1 + x2 + 3x3 = 0 .
220
Hiperplanos 8.1. Rectas y planos

8.1.8. Ejemplo. Dados los puntos Q(1, 1, 1), P (1, −1, 2) y el vector n =
(1, 2, 3), encuentre el punto de intersección, si lo hay, de la recta que pasa
por el punto P en la dirección del vector n y del hiperplano (plano) que
pasa por Q y es normal al vector n.

La recta que pasa por P en la dirección del vector n, es el conjunto de


puntos de X(x1 , x2 , x3 ) de R3 tales que:
−→ −→
(x1 , x2 , x3 ) = 0X = 0P + λn = (1, −1, 2) + λ(1, 2, 3). λ ∈ R.
El hiperplano (plano) que pasa por Q y que es normal al vector n, es el
conjunto de puntos de X(x1 , x2 , x3 ) de R3 para los cuales se satisfacen
la ecuación:
−−→ −−→
OX · n = x1 + 2x2 + 3x3 = 6 = OQ · n .
Ahora bien, si denotamos por I al punto de intersección entre la recta y
el plano, entonces:
−→ −−→
OI = OP + λ∗ n
para algún λ∗ ∈ R, y también

−→ −−→
OI · n = OP · n.
De esto se sigue que:
−−→ −−→
OP + λ∗ n = OQ · n .
Utilizando las propiedades del producto interno encontramos que:

−−→
PQ · n 1
λ∗ = 2 = .
k nk 14
En consecuencia, las coordenadas del punto buscado están dadas por:

−→ −−→ 1
OI = OP + λ∗ n = (1, −1, 2) + (1, 2, 3)
14
15 12 31
= ( ,− , ) .
14 14 14

La gura 8.6 ilustra la situación de la intersección entre una recta y un


plano.

221
8.1. Rectas y planos Hiperplanos

n P

x3
3
IR x

x2

x1

Figura 8.6. Grácas de un plano y una recta en R3

8.1.9. Denición. Sea H el hiperplano de Rn descrito por la ecuación


−−→ −−→
OX · n = OP · n = c
Los conjuntos
n −−→ o
S1 = X ∈ Rn : OX · n ≤ c y
n −−→ o
S2 = X ∈ Rn : OX · n ≥ c ,
se denominan los semiespacios cerrados con frontera H.

Los conjuntos
n −−→ o
S1 = X ∈ Rn : OX · n < c y
n −−→ o
S2 = X ∈ Rn : OX · n > c ,
se denominan semiespacios abiertos con frontera H.

Nota. Los semiespacios abiertos no incluyen la frontera H, mientras que


los semiespacios cerrados si la incluyen.

222
Hiperplanos 8.2. Conjuntos convexos

IR
2 y

x. n. = c
x. n. > c

x.n. < c

Figura 8.7. Ilustración de semiespacios abiertos

8.2. Conjuntos convexos

Los conjuntos convexos juegan un papel importante en la programación


lineal. En particular se tiene que la llamada región factible de un problema
de programación lineal es un conjunto convexo (vea el teorema 6.6(iii) de
10]).
[

8.2.1. Denición. Sea C un subconjunto de Rn . Se dice que C es convexo,


si para dos puntos cualesquiera P y Q de C, el segmento de recta PQ está
contenido en C.

En la gura 8.1 los conjuntos C1 y C2 son convexos, mientras que los


conjuntos C3 y C4 no son convexos.

8.2.2. Teorema. Todo hiperplano de Rn es un conjunto convexo.

Demostración. Sea H el hiperplano de Rn descrito por la ecuación


−−→ −−→
OX · n = OP · n = c
y sean Q1 y Q2 puntos de H. Ahora, si X∗ es un punto de R3 cuyas
coordenadas satisfacen:
−−→ ∗ −−→ −−−→
OX = OQ1 + t(Q2 Q1 ), 0 ≤ t ≤ 1,
223
8.2. Conjuntos convexos Hiperplanos

y y
C1 C3
Q
P
Q
P

C2 C4
Q
P
P Q

x x
(a) (b)

Figura 8.1. Conjuntos convexos y no convexos

entonces X∗ es un punto del segmento de recta Q1 Q2 y se tiene que:


−−→ ∗ h−−→ −−−→ i
OX · n = OQ1 + t(Q2 Q1 ) · n
h−−→ −−→ −−→ i
= OQ1 + t(0Q2 − OQ1 ) · n
−−→ −−→ −−→
= OQ1 + t 0Q2 · n − t OQ1 · n
−−→ −−→
= (1 − t)OQ1 · n + t OQ2 · n
= (1 − t)c + t c
= c,

es decir, X ∈ H. Por lo tanto H es un conjunto convexo. 
8.2.3. Teorema. Sea H el hiperplano de Rn . Todo semiespacio cerrado o
abierto con frontera H es un conjunto convexo.

Demostración. Sea H el hiperplano de Rn descrito por la ecuación


−−→ −−→
OX · n = OP · n = c .
Demostremos únicamente que el semiespacio abierto con frontera H
n −−→ o
S = X ∈ Rn : OX · n < c
es un conjunto convexo. En el caso de semiespacio cerrados con frontera
H se procede de manera análoga.

224
Hiperplanos 8.2. Conjuntos convexos

Sean pues Q1 y Q2 puntos del conjunto S y sea X ∗ un punto del segmento


−−→
de recta Q1 Q2 . Puesto que Q1 ∈ S y Q2 ∈ S , entonces OQ1 · n < c y
−−→
OQ2 · n < c, de aquí que:
−−→ ∗ h−−→ −−−→ i
OX · n = OQ1 + t(Q2 Q1 ) · n
h−−→ −−→ −−→ i
= OQ1 + t(0Q2 − OQ1 ) · n
−−→ −−→ −−→
= OQ1 + t 0Q2 · n − t OQ1 · n
−−→ −−→
= (1 − t)OQ1 · n + t OQ2 · n
< (1 − t)c + t c = c ,

esto es, X ∈ S. Por lo tanto S es un conjunto convexo. 
8.2.4. Teorema.La intersección de dos conjuntos convexos de Rn es un
n
conjunto convexo de R .

Demostración. Sean C1 y C2 dos conjuntos convexos de Rn y sea


C3 = C1 ∩ C2 . Si C3 tiene solamente un punto, entonces C3 es automática-
mente convexo. Sean Q1 y Q2 dos puntos distintos de S3 , ya que C1 y C2
son conjuntos convexos de Rn , entonces:
−−→ −−→ −−→
OQ1 + t(OQ2 − OQ1 ) ∈ C1 Para todo t tal que 0 ≤ t ≤ 1.
y
−−→ −−→ −−→
OQ1 + t(OQ2 − OQ1 ) ∈ C2 Para todo t tal que 0 ≤ t ≤ 1.
−−→ −−→ −−→
En consecuencia. OQ1 + t(OQ2 − OQ1 ) ∈ C3 = C1 ∩ C2 para todo t tal que
0 ≤ t ≤ 1 y por lo tanto C3 es un conjunto convexo de Rn . 

La prueba del siguiente corolario se puede obtener aplicando el principio


de inducción matemática y se propone como un ejercicio.

8.2.5. Corolario. La intersección de un número nito de conjuntos con-


vexos de Rn es un conjunto conexo de
n
R .
8.2.6. Teorema (Envolvente convexa) . Sean X1 , X2 , . . . , Xm puntos de
Rn . El conjunto:
( m m
)
−−→ X −−→
n
X
C= X ∈ R : OX = αi OXi ; αi ≥ 0, i = 1, . . . , m, αi = 1
i=1 i=1
es un conjunto convexo y es llamado la Envolvente convexa de los puntos
X1 , X2 , . . . , Xm .
225
8.3. Ejercicios Hiperplanos

Demostración. Sean P y Q dos puntos de C; entonces existen es-


calares α1 , α2 , . . . , αm y β1 , β2 , . . . , βm no negativos, tales que:
m m
−−→ X −−→ X
OP = αi OXi , αi = 1
i=1 i=1
y
m m
−−→ X −−→ X
OQ = βi OXi , βi = 1 .
i=1 i=1

Sea ahora X∗ un punto en el segmento de recta P Q, esto es, un X∗ para


el cual se satisface

−−→ ∗ −−→ −−→ −−→


OX = OP + t(OQ − OP ), 0 ≤ t ≤ 1.
Puesto que:

m
"m m
#
−−→ ∗ X −−→ X −−→ X −−→
OX = αi OXi + t βi OXi − αi OXi
i=1 i=1 i=1
m
X −−→
= [(1 − t)αi + tβi ] OXi ,
i=1

donde (1 − t)αi + tβi ≥ 0 para i = 1, . . . , m, y

m
X m
X m
X
[(1 − t)αi + tβi ] = (1 − t) αi + t βi
i=1 i=1 i=1

= (1 − t) + t = 1 ,
entonces X ∗ ∈ C. En consecuencia, C es un conjunto convexo. 

8.3. Ejercicios

8.3.1 Responda verdadero o falso, justicando su respuesta.

1. El punto X (4, 5, 0) pertenece a la recta que pasa por el punto


P (1, 2, −3) en la dirección del vector d = (1, 1, 1).
2. El punto X (0, 1, 2) pertenece al segmento de recta que une a
los puntos P (1, 2, −3) y Q (4, 5, 6).

226
Hiperplanos 8.3. Ejercicios

3. Sean Q (1, 2, 3) , P (0, 1, 2) y n = (1, 1, 1). El punto de inter-


sección de la recta que pasa por P en la dirección del vector n
y de hiperplano que pasa por Q y que es normal al vector n, es
M (2, 0, 1).
4. La unión de dos conjuntos convexos de Rn es un conjunto con-
n
vexo de R .
 t
5. El conjunto de todas las soluciones x = x1 x2 · · · xn
de un sistema de ecuaciones lineales Ax = y, tales que xi ≥ 0 ,
i = 1, . . . , n es un conjunto convexo.

8.3.2 Calcule
n −−→ o
1. Sea H = X ∈ Rn : OX · n = c un hiperplano de Rn .
a ) Muestre que si / H, entonces existe un vector n∗ 6= 0
X=0∈
tal que:
n −−→ o
H = X ∈ Rn : OX · n = 1 .
b ) Demuestre que si X = 0 ∈ / H, entonces existen n puntos
b1 , b2 , . . . , bn de H, que como vectores son linealmente in-
dependientes.
c ) Demuestre que si X=0∈
/ H, entonces
( n n
)
X X
H= X ∈ Rn : X = λi bi , λi = 1 ,.
i=1 i=1
donde b1 , b2 , . . . , bn son puntos de H, que como vectores
son linealmente independientes.
2. Encuentre b1 , b2 y b3 tales que
X ∈ R3 : X · (2, 1, 1) = 1

H =
( 3 3
)
X X
3
= X∈R : X= λi bi , λi = 1
i=1 i=1

3. Sean b1 = (1, 0, 0), b2 = (1, 1, 0) y b3 = (1, 1, 1).


a ) Demuestre que b1 , b2 y b3 son linealmente independientes.

b ) Encuentre un vector n 6= 0 tal que:
( 3 3
)
−−→ X
3
X
H = X ∈ R : OX = λ i bi , λi = 1
i=1 i=1
n −−→ o
= X ∈ R3 : OX · n∗ = 1 .

227
8.3. Ejercicios Hiperplanos

4. Sea H = {X ∈ Rn : X · N = C} un hiperplano de Rn .
a ) Muestre que si X = 0 ∈ H sii C = 0.
b ) Demuestre que si X = 0 ∈ H, entonces existen n − 1 puntos
a1 , a2 , . . . , an−1 de H, que como vectores son linealmente
independientes.
c ) Demuestre que si X = 0 ∈ H, entonces
( n−1
)
n −−→ X
H= X ∈ R : OX = λi ai .
i=1
donde a1 , a2 , . . . , an−1 son n−1 puntos de H, que como
vectores son linealmente independientes.
5. Encuentre a1 y a2 tales que
n −−→ o
H = X ∈ R3 : OX · (2, 1, 1) = 0
n −−→ o
= X ∈ R3 : OX = λ1 a1 + λ2 a2
6. Sean a1 = (1, 1, 1) y a2 = (1, 0, 1).
a ) Muestre que a1 y a2 son linealmente independientes.

b ) Encuentre un vector n 6= 0 tal que:
n −−→ o
H = X ∈ R3 : OX = λ1 a1 + λ2 a2
X ∈ R3 : v · N ∗ = 0 .

=
7. Demuestre que todo hiperplano de Rn es una variedad lineal de
dimensión n−1 (véase el apartado 1.2.1).
8. Demuestre que si T : R n → Rm es una transformación lineal,
entonces envía conjuntos convexos en conjuntos convexos.
9. Demuestre que si T : R2 → R2 es una transformación lineal
biyectiva, entonces T envía triángulos en triángulos.

228
Índice alfabético

Base, 11 Espacio generado, 10


cambio de, 20 Espacio nulo, matriz, 21
canónica de Rn , 14 Espacio vectorial, 8
ortogonal, 16, 66 base, 11
ortonormal, 16 base ordenada, 13
de transformaciones lineales, 19
c-inversa de una matriz, 152 dimensión, 11
Cholesky subespacio, 9
descomposición, 198 suma directa, 13
Conjuntos Espacios fundamentales, matriz, 20
convexos, 223
Factorización de matrices; ver
Descomposición descompisición de matrices, 179
de Cholesky, 198 Forma cuadrática, 97
en valores singulares, 205 cambio de variables, 101
LU, 179 clasicación, 99
QR, 188 diagonalización de una, 103
Desigualdad de Schwarz, 15 indenida, 99, 110
Determinante, matriz, 4 negaitivamente denida, 110
Diagonal principal, matriz, 2 negativamente denida, 99
Diagonal, matriz, 2 negativamente semidenida, 110
Diagonalización negitivamente semidenida, 99
de matrices simétricas, 64 no negaitiva, 99
de una forma cuadrática, 103 no posiitiva, 99
ortogonal, 70 positivamente denida, 99, 110
simultánea positivamente semidenida, 99, 110
de formas cuadráticas, 105 Forma escalonada reducuda, 6
de matrices, 82
Diagonalización de matrices, 53 g-inversa de una matriz, 137, 143
Gauss-Jordan, método, 23
Eigenvalores, eigenvectores; vea Gram-Schmidt, proceso, 191
valores (vectores) propios, 44 Gram-Schmidt, proceso de, 16
Espacio columna, matriz, 21
Espacio la, matriz, 21 Hermite
229
Índice alfabético

matriz superior, 156 particionada, 26


determinante, 30, 32, 33
Idéntica, matriz, 2 inversas, 34, 35
Identidad, matriz, 2 operaciones con, 27
Imagen de una transformación lineal, polinomio característico de una, 48
17 rango de una, 20, 22
Inversa semejante, 20
condicional, 152 submatriz, 25
generalizada, 137, 143, 195 transpuesta, 3
cálculo de, 147 propiedades, 3
propiedades, 145 traza de una, 37
valor propio de una, 47
LU vector propio de una, 47
descomposición, 179 Mejor solución aproximada, 165
Mínimos cuadrados, 162 Núcleo de una transformación lineal,
Matrices 17
Diagonalización de, 53
factorización, 179 Operaciones elmentales en una
no negativas, 123 matriz, 5
semejantes
polinomios característicos de, 52 Producto interno, 14
simétricas
diagonalización, 64 QR
Matrices elementales, 6 descomposición, 188
Matriz, 1 Rango de una matriz, 20
adjunta, 4 Rectas, planos e hiperplanos, 215
cambio de base, 20
cofactor ij , 4 Sistemas de ecuaciones, 23
de cofactores, 4 c-inversas,g-inversa, 160
de una forma cuadrática, 98 Gauss-Jordan, 23
de una transformación lineal, 18 mínimos cuadrados, 160
determinante, 4, 5 mejor solución aproximada, 165
propiedades, 5 solución mínima cuadrada, 165
diagonal, 2 Solución mínima cuadrada, 165
ecuación característica de una, 48
espacio columna de una, 21 Transformación lineal
espacio la de una, 21 álgebra de, 19
espacio nulo de una, 21 imagen, 17
espacios fundamentales de una, 20 inversa de una, 20
forma escalonada reducida, 6 matriz de una, 18
hermite superior, 156 núcleo, 17
idéntica, 2 transformación inyectica, 17
idempotente, 129 transformación sobreyectiva, 17
inversa, 3, 23 valores propios, 44
propiedades, 3 vectores propios, 44
menor ij , 4 Transformaciones lineales, 16
operaciones elmentales, 5 Transpuesta, matriz, 3
230
Índice alfabético

Valor propio, 44
espacio asociado a un, 46
multiplicidad algebraica de un, 48
multiplicidad geométrica de un, 46
Valores (vectores) característicos; vea
valores (vectores) propios, 44
Valores singulares
descomposición, 205
Variedad lineal, 23
Vector propio, 44
Vectores, 8, 215
coordenadas resp. a una base, 13
linealmente dependientes, 10
linealmente independiente, 56
linealmente independientes, 10, 22,
24
ortogonales, 15
ortonormales, 15
proceso de Gram-Schmidt, 16
propios ortogonales, 66

231
Bibliografía
[1] ANTON, H. Introducción al álgebra lineal. Limusa, México, 1981,
[2] FLOREY, F.G. Fundamentos de álgebra lineal y aplicaciones. Prentice Hall inter-
nacional, Colombia, 1980.
[3] GRAYBILL, F.A. Introduction to matrices with applications in statistic.
Wadsworth Publishing Company. Inc. Belnont, California, 1969.
[4] GRAYBILL, F.A. Theory and applications of linear model. Duxbury Presss, Mas-
sachusetts, 1976.
[5] HADLEY, G. A. Álgebra lineal, Fondo Educativo Interamericano S.A., Estados
Unidos 1969.
[6] LIPSCHUTZ, S. Álgebra lineal, McGraw Hill, México, 1979.
[7] MARMOLEJO, M.A. Inversa condicional e inversa generalizada de una matriz:
esquema geométrico. Lecturas Matemáticas, Soc. Col. Matemat., Pág. 129-146,
Vol. IX, 1988.
[8] Nakos, G., Joyner, D., Álegebra lineal con aplicaciones, Thonsom editores, México,
1998.
[9] Nering, E.D. Álegebra lineal y teoría de matrices. Limusa, México, 1977.
[10] NOBLE, B. Applied linear algebra. Prentice Hall, Inc. London, 1969.
[11] RORRES , C y ANTON, H, Aplicaciones del álgebra lineal. Limusa, México 1979.
[12] STRANG, G, Álgebra lineal y sus aplicaciones. Fondo educativo interamericano,
1982.

233

También podría gustarte