Está en la página 1de 175

Álgebra Lineal

Miguel A. Marmolejo L. & Manuel M. Villegas L.

Departamento de Matemáticas
Universidad del Valle
Índice general

Introducción 1

Índice de figuras iii

Capítulo 1. Preliminares 1
1.1. Matrices 1
1.2. Espacios vectoriales 5
1.3. Transformaciones lineales 11
1.4. Espacios fundamentales de una matriz. Rango de una matriz. Sistemas de ecuaciones lineales 13

Capítulo 2. Matrices Particionadas. Traza de una Matriz 17


2.1. Submatrices. Operaciones con matrices particionadas 17
2.2. Determinantes e inversas de algunas matrices especiales 21
2.3. Traza de una matriz 28

Capítulo 3. Valores propios y vectores propios. Diagonalización 31


3.1. Valores propios y vectores propios 31
3.2. Diagonalización 39
3.3. Diagonalización de matrices simétricas 48
3.4. Diagonalización simultánea de matrices simétricas 63

Capítulo 4. Formas cuadráticas 71


4.1. Clasificación de las formas cuadráticas. 71
4.2. Cambio de variable. Diagonalización de formas cuadráticas 74
4.3. Formas cuadráticas positivas, negativas e indefinidas. 82
4.4. Anexo: Matrices no negativas. Matrices idempotentes 89

Capítulo 5. Inversa generalizada e inversa condicional de matrices. 99


5.1. Inversa generalizada de una matriz 99
5.2. Cálculo de la g-inversa de una matriz 107
5.3. Inversa condicional de una matriz 112
5.4. Sistemas de ecuaciones lineales: g-inversa y c-inversa de una matriz. mínimos cuadrados. 119

Capítulo 6. Factorización de matrices 131


6.1. Descomposición LU 131
6.2. Descomposición QR 138
6.3. Descomposición de Cholesky 146
6.4. Descomposición en valores singulares (SVD) 151

Capítulo 7. Rectas e hiperplanos. Conjuntos convexos. 157


7.1. Rectas. Segmentos de recta. Hiperplanos 157
7.2. Conjuntos convexos 164
Índice general

Índice alfabético 169

Bibliografía 171

ii
Índice de figuras

1.1. Transformación lineal 15

3.1. Interpretación geométrica de vector propio 32


3.2. Vectores propios de T (x, y) = (2x, x + 3y) 33

5.1. Problema de los mínimos cuadrados 120


5.2. Ajuste por mínimos cuadrados 121
5.3. Ajuste lineal por mínimos cuadrados 122
5.4. Ajuste lineal ejemplo 5.50 126
5.5. Ajuste lineal ejemplo 5.51 127
5.6. Ajuste cuadrático ejemplo 5.52 129

6.1. Esquema de la factorización LU 136

7.1. Puntos y vectores en R3 . 157


7.2. Una recta en R2 . 158
7.3. Gráfica de una recta que pasa por los puntos P y Q. 159
7.4. Segmento de recta que une los puntos P y Q 160
7.5. Gráfica de un plano en R . 3
161
7.6. Gráficas de un plano y una recta en R3 162
7.7. Ilustración de semiespacios abiertos 163
7.1. Conjuntos convexos y no convexos 165

iii
CAPÍTULO 1

Preliminares

En este capítulo se recopilan algunas definiciones y algunos resultados básicos que servirán de referencia
en el desarrollo de los capítulos posteriores. Se consideran aquí varios aspectos relacionados con matrices,
espacios vectoriales y transformaciones lineales. El orden en que se presentan los temas no corresponde al
encontrado en la mayoría de textos utilizados en un primer curso de álgebra lineal (Grossman [5], Nakos y
Yoyner [10], Strang [14] y otros).

1.1. Matrices

Una matriz A de tamaño m × n (o simplemente Am×n ) es un arreglo rectangular de escalares 1 dispuestos


en m filas ("líneas" horizontales) y n columnas ("líneas" verticales); el escalar que está en la i-ésima fila y
en la j-ésima columna se denota por aij o hAiij y se llama elemento ij de la matriz A. Para indicar dicho
arreglo usualmente se escribe A = [aij ]m×n , o en forma expandida
a11 a12 · · · a1n
2 3
6 a21 a22 · · · a2n 7
(1.1) A=6 . .. .. .. 7 .
6 7
4 .. . . . 5
am1 am2 · · · amn
Si Ai denota la i-ésima fila de A y Aj la j-ésima columna de A; esto es,

2 3
a1j
6 a2j 7
Aj = 6
ˆ ˜
Ai = ai1 ai2 ··· ain ; .. 7,
6 7
4 . 5
amj

entonces el arreglo (1.1) se puede representar por filas o por columnas como sigue:
2 3
A1
6 A2 7 ˆ
A = 6 . 7 = A1 A2 · · · An .
6 7 ˜
4 . 5.
Am
Las matrices se denotan, como se ha sugerido, con letras mayúsculas A, B, C, etc. El conjunto de todas
las matrices m × n con elementos reales se denotará por Mm×n (R) o simplemente Mm×n . Los elementos de
Mn×n se llaman matrices cuadradas de orden n; a la "diagonal" formada por los elementos a11 , a22 , . . . , ann
de una tal matriz A, se le llama diagonal principal de A.

1A no ser de que se exprese lo contrario, todos los escalares serán números reales

1
1.1. Matrices Preliminares

Toda matriz cuadrada A cuyos elementos fuera de la diagonal principal son nulos (aij = 0 para i 6= j, i, j =
1, 2, . . . , n), se denomina matriz diagonal y usualmente se escribe A = diag(a11 , a22 , . . . , ann ). Una matriz
cuadrada se llamada triangular superior (inferior) si todos sus elementos abajo (arriba) de su diagonal
principal son nulos.

La matriz diagonal de orden n, cuyos elementos en su diagonal principal son todos iguales a 1, se denomina
matriz idéntica o matriz identidad de orden n; tal matriz se denota por In (o simplemente I, cuando no sea
necesario especificar el orden).

Una matriz nula es una matriz cuyos elementos son todos nulos. Una matriz nula será denotada por 0 (o
por 0m×n cuando sea necesario especificar el tamaño de la matriz).

Dos matrices A y B de igual tamaño m × n son iguales si y sólo si sus componentes correspondientes son
iguales. Esto es,
hAiij = hBiij ; i = 1, 2, . . . , m, j = 1, 2, . . . , n.
La suma A + B de dos matrices A y B de tamaño m × n, es la matriz m × n tal que:
hA + Biij = hAiij + hBiij ; i = 1, 2, . . . , m, j = 1, 2, . . . , n.
La multiplicación αA del número α por la matriz A de tamaño m × n, es la matriz de tamaño m × n, tal
que:
hαAiij = α hAiij ; i = 1, 2, . . . , m, j = 1, 2, . . . , n.
El producto AB de la matriz A ∈ Mm×s por la matriz B ∈ Ms×n , es la matriz de tamaño m × n, tal que:
Xs
hABiij = hAiik hBikj ≡ Ai · B j ; i = 1, 2, . . . , m, j = 1, 2, . . . , n.
k=1

1.1.1. Inversa de una matriz. Sea A ∈ Mn×n . Si existe una matriz B ∈ Mn×n tal que AB = I,
se puede demostrar que BA = I y que B es única. Cuando existe una matriz B tal que AB = I, a B se le
llama la matriz inversa de A y se le denota por A−1 . Es este caso se dice que A es no singular o invertible;
en caso contrario, se dice que A es no invertible o singular.

En el siguiente teorema se establecen algunas propiedades de la inversa de una matriz


1.1. Teorema. Si A, B ∈ Mn×n son matrices´−1invertibles y si α es un número no nulo, entonces:
1. La matriz A−1 es invertible y A−1
`
= A.
2. La matriz AB es invertible y (AB)−1 = B −1 A−1 .
3. La matriz αA es invertible y (αA)−1 = α−1 A−1 .

1.1.2. Transpuesta de una matriz. Sea A una matriz m × n. La matriz transpuesta de A es la


matriz n × m, denotada por AT , cuya i-ésima fila corresponde a la i-ésima columna de la matriz A. Esto
es, la transpuesta de A es la matriz AT tal que hATij i = hAji i, para i = 1, 2, . . . m, y j = 1, 2, . . . n.

Sea A una matriz cuadrada. Si AT = A, se dice que A es una matriz simétrica, y si AT = −A, se dice que
A es una matriz antisimétrica. En particular, las matrices diagonales son simétricas.

Las propiedades más relevantes de la transpocisión se dan en el siguiente teorema.


1.2. Teorema. Si A y B son matrices tales que las operaciones siguientes están bien definidas, entonces:
1. (AT )T = A.
2. AT = B T si y sólo si A = B.
3. Si A es una matriz diagonal, entonces AT = A.
4. Si α, β son números, entonces (αA + βB)T = αAT + βB T .
5. (AB)T = B T AT .

2
Preliminares 1.1. Matrices

6. Las matrices AT A y AAT son simétricas.


7. Si A es invertible, entonces AT es invertible y (AT )−1 = (A−1 )T .

1.1.3. Determinantes. En este apartado se dan las definiciones de menor, cofactor, matriz de cofac-
tores, matriz adjunta y determinante de una matriz cuadrada. Además se presentan algunas propiedades
del determinante. En lo sucesivo, el determinante de una matriz A será denotado por |A| o por det(A).

Se define el determinante de una matriz de manera inductiva. Para una matriz A1×1 , que consta de un sólo
elemento; digamos A = [a], se define det(A) = a. El determinante de una matriz n × n; n ≥ 2, se define en
términos de determinantes de matrices (n − 1) × (n − 1); para ello es necesario introducir los conceptos de
menor y cofactor.

Sea A = [aij ]n×n ; el menor del elemento hAiij se denota por mij y se define como el determinante de la
matriz que resulta al suprimir la i-ésima fila de A y la j-ésima columna de A. El cofactor del elemento hAiij
se denota por Cij y se define como
Cij = (−1)i+j mij .
La matriz C, cuyos elementos son los cofactores Cij de A se denomina matriz de los cofactores de A. La
transpuesta de la matriz de cofactores C, se denomina adjunta de A y se denota por adj(A), es decir,
adj(A) = C T .

El determinante de A se define entonces como el número


Xn
det(A) = hAi1j C1j ,
j=1

En particular, si A = [aij ]2×2 entonces det(A) = a11 a22 − a12 a21 .

En el siguiente teorema se dan expresiones para calcular el determinante de una matriz (cuadrada) en
términos de sus cofactores. Además, muestra que el valor del determinante no depende de la fila o columna
a lo largo de la cual se haga la expansión. Dicho teorema presenta también una forma para calcular la
inversa de una matriz.

1.3. Teorema. Sea A una matriz cuadrada de orden n.


1. Si Cij denota el cofactor del elemento hAiij , entonces:
Xn
a) det(A) = hAiij Cij , para cada i = 1, 2, . . . , n.
j=1
n
X
b) det(A) = hAiij Cij , para cada j = 1, 2, . . . , n.
i=1
2. Para cualquier matriz cuadrada A, se tiene que
A · adj(A) = adj(A) · A = det(A) · I .
3. La matriz A es invertible sii |A| 6= 0, en este caso se tiene que
A−1 = (det(A))−1 · adj(A) .

Las principales propiedades del determinante de una matriz se recogen en el teorema que sigue.

1.4. Teorema. Sean A, B y C matrices cuadradas de orden n, entonces:


1. |A| = |AT | .
2. Si A tiene una fila nula, entonces |A| = 0.

3
1.1. Matrices Preliminares

3. Si A y B son matrices que difieren únicamente en la k-ésima fila y si Ak = α · Bk (con α 6= 0),


entonces |A| = α|B|.
4. Si α es un escalar, entonces |αA| = αn |A|.
5. Si A, B y C difieren únicamente en la k-ésima fila y si Ck = Ak + Bk , entonces |C| = |A| + |B|.
6. Si A tiene dos filas iguales, entonces |A| = 0.
7. Si B se obtiene al intercambiar dos filas de A, entonces |B| = −|A|.
8. El determinante de una matriz no cambia si los elementos de la i-ésima fila son multiplicados por
un escalar α y los resultados son sumados a los correspondientes elementos de la k-ésima fila, para
k 6= i.
9. |AB| = |A||B|.
Nota. Por (1), cualquier proposición sobre |A| que sea verdadera en las filas de A es también verdadera
para las columnas de A.

1.1.4. Operaciones elementales. Matrices elementales. En este apartado se introducen las


operaciones elementales y las correspondientes matrices elementales, que constituyen la herramienta básica
para describir ciertos procesos de cálculo y para demostrar algunos resultados importantes del álgebra lineal
relacionados con los sistemas de ecuaciones lineales, con la inversa generalizada de una matriz y con diversas
descomposiciones de una matriz. Para un desarrollo detallado ver Espinosa y Marmolejo [6].
1.5. Definición (Operaciones y matrices elementales). Dada una matriz A, cada una de las siguientes
operaciones es llamada una operación elemental en las filas (columnas) de A.

(i) El intercambio de dos filas (columnas) de A.


(ii) La multiplicación de los elementos de una fila (columna) de A por un escalar no nulo.
(iii) Reemplazar una fila (columna) de A, por la suma de ella y un múltiplo escalar no nulo de otra fila
(columna) de dicha matriz.

Una matriz elemental por filas (columnas) es aquella que resulta de efectuar una operación elemental sobre
las filas (columnas) de una matriz identidad.
1.6. Teorema (Matrices elementales).
1. Cada matriz elemental es invertible. Además, la inversa de cada matriz elemental es una matriz
elemental.
2. Sea A una matriz m × n. Si B es una matriz que resulta al efectuar una operación elemental sobre
las filas de A y si E es la matriz elemental que resulta de efectuar la misma operación elemental
sobre las filas de la matriz idéntica Im , entonces E · A = B.
3. Sea A una matriz m × n. Si B es una matriz que resulta al efectuar una operación elemental
sobre las columnas de A y si E es la matriz elemental que resulta de efectuar la misma operación
elemental sobre las columnas de la matriz idéntica In , entonces A · E = B.
1.7. Definición (Forma escalonada reducida). Se dice que una matriz R tiene la forma escalonada reducida,
si satisface las siguientes condiciones:
(i) Si una fila de R es no nula, el primer elemento no nulo de dicha fila, de izquierda a derecha, es 1.
(ii) Si las filas i e i + 1 de R son no nulas, el primer elemento no nulo de la fila i + 1 está a la derecha
del primer elemento no nulo de la fila i.
(iii) Si una columna de R contiene el primer elemento no nulo de una fila de R, los demás elementos
de dicha columna son nulos.
(iv) Si R tiene filas nulas, éstas aparecen en la parte inferior de R.

El siguiente teorema relaciona los conceptos de matrices elementales y forma escalonada reducida para una
matriz arbitraria.

4
Preliminares 1.2. Espacios vectoriales

1.8. Teorema. Para toda matriz A existe una única matriz R que tiene la forma escalonada reducida y un
número finito de matrices elementales por filas E1 , E2 , . . . , Ek tales que:
Ek · · · E2 · E1 · A = R .

La matriz R mencionada en el teorema anterior se denomina la forma escalonada reducida de A.


1.9. Teorema. Sea A una matriz cuadrada de orden n.
1. A es invertible sii la forma escalonada reducida de A es In .
2. A es invertible sii A se puede expresar como el producto de un número finito de matrices elementales.

Los dos últimos teoremas dan lugar a un método para decidir cuándo una matriz cuadrada A es invertible
y, simultáneamente, proveen un algoritmo para calcular su inversa.

El método consiste en lo siguiente: Forme la matriz [A | In ]. Seguidamente efectúe operaciones elementales


sobre la filas de esta matriz hasta obtener su forma escalonada reducida; al final se obtiene una matriz
que se representa como: [R | P ]; donde R es la forma escalonada reducida de A. Ahora: A es invertible sii
R = In . Si A es invertible entonces A−1 = P .

1.2. Espacios vectoriales

El conjunto de matrices m×n, junto con las operaciones suma de matrices y multiplicación de un escalar por
una matriz, tiene una estructura algebraica denominada espacio vectorial. Esta estructura es importante
porque incluye otros conjuntos que se presentan frecuentemente en las matemáticas y sus aplicaciones.
1.10. Definición. Un espacio vectorial (real) es un conjunto V , cuyos elementos son llamados vectores,
junto con dos operaciones: suma de vectores (+) y multiplicación de un escalar por un vector (·), que
satisfacen las propiedades siguientes:

(i) Si u ∈ V y v ∈ V , entonces u + v ∈ V .
(ii) Si u ∈ V y v ∈ V , entonces u + v = v + u.
(iii) Si u ∈ V , v ∈ V y w ∈ V , entonces
(u + v) + w = u + (v + w) = u + v + w.
(iv) Existe un vector 0 ∈ V tal que para todo u ∈ V , u + 0 = 0 + u = u.
(v) Si u ∈ V , entonces existe un vector −u ∈ V tal que
u + (−u) = (−u) + u = 0.
(vi) Si u ∈ V y α es un escalar, αu ∈ V .
(vii) Si u ∈ V y α, β son escalares, entonces (αβ)u = α(βu) = β(αu).
(viii) Si u ∈ V y α, β son escalares, entonces (α + β)u = αu + βu.
(ix) Si u ∈ V y v ∈ V y α es un escalar, entonces α(u + v) = αu + αv.
(x) Si u ∈ V , entonces 1u = u.
1.11. Ejemplo. Son espacios vectoriales:

1. V = Rn = {(x1 , x2 , . . . , xn ) : xi ∈ R, i = 1, 2, . . . , n} con las operaciones definidas así:


(x1 , x2 , . . . , xn ) + (y1 , y2 , . . . , yn ) = (x1 + y1 , x2 + y2 , . . . , xn + yn )
α · (x1 , x2 , . . . , xn ) = (αx1 , αx2 , . . . , αxn ) .
2. V = Mm×n , el conjunto de matrices m × n con las operaciones definidas en la sección 1.1.

5
1.2. Espacios vectoriales Preliminares

3. V = F(R, R), el conjunto de funciones de R en R con las operaciones definidas así :


(f + g)(t) = f (t) + g(t) , t ∈ R.

(αf )(t) = αf (t) , t ∈ R.


4. V = Pn , el conjunto de los polinomios de grado menor o igual que n con las operaciones definidas
en el ejemplo anterior.

Como se establece en la definición, un espacio vectorial (real) es un tripla que consta de un conjunto V y
de dos operaciones con ciertas propiedades. Cuando no haya lugar a confusión o cuando no sea necesario
explicar las operaciones mencionadas, se hará referencia simplemente al espacio vectorial V.
1.12. Definición. Sea V un espacio vectorial y W un subconjunto no vacío de V. Se dice que un W es
subespacio de V , si W, junto con las operaciones definidas en V , es un espacio vectorial.
1.13. Definición. Sean V un espacio vectorial, v0 un elemento de V y W es un subespacio de V . El
subconjunto determinado así:
L = {v ∈ V : v = v0 + w, para w ∈ W },
es denominado una variedad lineal de V .

El siguiente concepto es básico en el estudio de los espacios vectoriales. En particular, servirá para carac-
terizar ciertos subespacios de un espacio vectorial.
1.14. Definición. Sean v1 , v2 , . . . , vn vectores de un espacio vectorial V . Se dice que un vector v ∈ V es
combinación lineal de los vectores v1 , v2 , . . . , vn , si existen escalares α1 , α2 , . . . , αn tales que:
n
X
v = α1 v1 + α2 v2 + · · · + αn vn = αi vi .
i=1

1.15. Teorema. Sea W un subconjunto no vacío de un espacio vectorial V . Entonces, W es un subespacio


de V sii W es cerrado bajo la operación suma de vectores y la multiplicación por un escalar, es decir, sii

1. Si u ∈ W y v ∈ W , entonces u + v ∈ W .
2. Si u ∈ W y α ∈ R, entonces αu ∈ W .
1.16. Teorema. Si U y W son subespacios de un espacio vectorial V , entonces:

1. La intersección de U con W ; U ∩ W es un subespacio vectorial de V .


2. La suma de U con W ; definida por
U + W = {v ∈ V : v = u + w, con u ∈ U y w ∈ W },
es un subespacio vectorial de V .
1.17. Teorema. Sea C un conjunto no vacío de vectores de un espacio vectorial V . El conjunto de todas
las combinaciones lineales de los vectores de C;
k
X
W = {v ∈ V : v = αi vi ; k ∈ N, vi ∈ C y αi ∈ R, i = 1, 2, . . . , k}
i=1

es un subespacio de V.

6
Preliminares 1.2. Espacios vectoriales

Sea C un conjunto no vacío de vectores de un espacio vectorial V . El subespacio de V, de todas las


combinaciones lineales de los vectores de C mencionado en el teorema anterior, es denominado el espacio
generado por los vectores de C o simplemente, espacio generado por C. Cuando C = {v1 , v2 , . . . , vn } (es
finito), este espacio será denotado por hv1 , v2 , . . . , vn i o por gen{v1 , v2 , . . . , vn }.

Cuando consideramos un conjunto C de vectores de un espacio vectorial, es a veces importante determinar


cuándo algún vector o algunos de los vectores de C se pueden expresar como combinaciones lineales de los
restantes vectores en C. Para ello, necesitamos de la definición de dependencia lineal de un conjunto de
vectores y algunos resultados sobre ella.
1.18. Definición (Independencia lineal). Sea C = {v1 , v2 , . . . , vn } un conjunto de vectores (distintos)
de un espacio vectorial V . Se dice que C es linealmente dependiente o que los vectores v1 , v2 , . . . , vn son
linealmente dependientes, si existen escalares α1 , α2 , . . . , αn no todos nulos tales que:
Xn
0 = α1 v1 + α2 v2 + · · · + αn vn = αi vi ,
i=1

en caso contrario, se dice que C es linealmente independiente o que los vectores v1 , v2 , . . . , vn son lineal-
Pindependientes. Es decir; C es linealmente independiente, si para todos los escalares α1 , α2 , . . . , αn ;
mente
0= n i=1 αi vi , implica
α1 = α2 = . . . , = αn = 0 .
1.19. Teorema. En un espacio vectorial V se tiene:

1. Todo conjunto que contenga el vector nulo, 0, es linealmente dependiente.


2. Todo conjunto que contenga un subconjunto linealmente dependiente es linealmente dependiente.
3. Todo subconjunto de un conjunto linealmente independiente, es linealmente independiente.
4. Un conjunto de vectores C = {v1 , v2 , . . . , vn }, n ≥ 2, es linealmente dependiente sii uno de los
vectores de C es combinación lineal de los restantes vectores de C.

1.2.1. Bases y dimensión. Dado un espacio vectorial V, es útil determinar un subconjunto B de


V que sea linealmente independiente y que genere al espacio V ; un tal conjunto B se denomina base de V.

Se dice que un espacio vectorial V es de dimensión finita, si existe un conjunto finito C de vectores de V , tal
que el espacio generado por C en V . En caso contrario, se dice que dicho espacio tiene dimensión infinita.
Ejemplos de éstos últimos son: el conjunto de funciones de R en R, o el conjunto de todos los polinomios.
En lo que sigue, se consideran sólo espacios de dimensión finita.
1.20. Definición (Base). Sea B un conjunto de vectores de un espacio vectorial V. Se dice que B es una
base de V si se tienen las dos condiciones:
(i) El espacio generado por B es V .
(ii) El conjunto B es linealmente independiente.

Si un espacio vectorial V tiene una base B1 = {v1 , v2 , . . . , vn } compuesta por un número ninito n de
vectores, entonces se puede demostrar, que cualquier otra base B2 de V tiene exactamente n elementos. A
dicho número común se le llama dimensión del espacio V y se escribe dim V = n. El siguiente teorema resume
algunos resultados importantes sobre espacios vectoriales (bases, conjuntos lienalmente independientes,
conjuntos generadores, etc.).
1.21. Teorema. Sea V un espacio vectorial de dimensión n.
1. Si B = {v1 , v2 , . . . , vn } es un conjunto de n vectores de V, entonces:
a) B es una base de V sii B es linealmente independiente.
b) B es una base de V sii B genera a V .

7
1.2. Espacios vectoriales Preliminares

2. Si C = {u1 , u2 , . . . , ur } es un conjunto linealmente independiente, entonces r ≤ n.


3. Si C = {u1 , u2 , . . . , ur } es un conjunto linealmente independiente, con r < n, entonces existen
n − r vectores de V ; w1 , w2 , . . . , wn−r , tales que B = {u1 , u2 , . . . , ur , w1 , . . . , wn−r } es una
base de V.
4. Si C = {u1 , u2 , . . . , ur } genera a V entonces r ≥ n.
5. Si el conjunto C = {u1 , u2 , . . . , ur } genera a V y r > n, entonces existen n − r vectores de C;
denotados por w1 , w2 , . . . , wn−r , tales que B = C \{w1 , w2 , . . . , wn−r } es una base de V.
6. Si W es un subespacio de V entonces dim W ≤ n. Si dim W = n, entonces W = V.
1.22. Teorema. Si U y W son subespacios de un espacio vectorial V entonces
dim(U + W ) = dim U + dim V − dim(U ∩ W ) .
1.23. Nota. En el teorema anterior si U ∩ W = {0}, al espacio U + W de V se le denomina suma directa
de U con W y se escribe U ⊕ W en lugar de U + W . En este caso, cada vector v ∈ U ⊕ W se puede expresar
de manera única como suma de un vector u ∈ U y un vector w ∈ W ; es decir existen vectores únicos u ∈ U
y w ∈ W tales que v = u + w. Además se tiene que
U ∩ W = {0} sii dim(U + W ) = dim U + dim V .
1.24. Teorema. Si U es un subespacio de un espacio vectorial V , entonces existe un subespacio W de V
tal que U ⊕ W = V.

El subespacio W del teorema anterior no es necesariamente único y es llamado un complemento de U.


También se dice que U y W son subespacios complementarios.
1.25. Definición. Sea W un subespacio de un espacio vectorial V, v0 un vector en V y L la variedad
L = {v ∈ V : v = v0 + w, w ∈ W }.
Si dim W = k, entonces se dice que la variedad lineal L tiene dimensión k.

1.2.2. Coordenadas. El concepto de coordenadas de un vector respecto de una base es útil en el


estudio de las transformaciones lineales. Para introducir este concepto es necesario definir primero lo que es
una base ordenada de un espacio vectorial V. En la definición 1.20 era irrelevante en qué orden apareciera
los elementos de una base. Sin embargo, a partir de ahora el orden será importante.
1.26. Definición (Base ordenada). Si v1 , v2 , . . . , vn es una sucesión finita de vectores linealmente inde-
pendientes de un espacio vectorial V, que generan a V , entonces se dice que B = {v1 , v2 , . . . , vn } es una
base ordenada de V.
1.27. Teorema. Si B = {v1 , v2 , . . . , vn } es una base ordenada de V , entonces para cada vector v ∈ V
existen escalares α1 , α2 , . . . , αn únicos tales que
n
X
v = α1 v1 + α2 v2 + · · · + αn vn = αi vi ,
i=1

1.28. Definición. Sea B = {v1 , v2 , . . . , vn } una base ordenada P


de un espacio vectorial V . Sea v un vector
de V y sean α1 , α2 , . . . , αn los escalares únicos tales que v = n i=1 αi vi , el vector (vector columna) de
coordenadas de v respecto de la base ordenada B se denota por [v]B y se define así:
2 3
α1
6 α2 7
[v]B = 6 . 7 .
6 7
4 .. 5
αn

8
Preliminares 1.2. Espacios vectoriales

Si u y v son dos vectores de V y si α es un escalar, entonces [αu]B = α [u]B y [u + v]B = [u]B + [v]B .
T
De otro lado, a cada vector n × 1 (matriz
P n × 1) c = [ α1 α2 ··· αn ] le corresponde un único vector
v de V tal que [v]B = c, a saber v = n i=1 αi vi .

Así, cada base ordenada B de V determina una correspondencia biunívoca, v → [v]B , entre los espacios V y
Mn×1 , que preserva las suma de vectores y la multiplicación de un escalar por un vector. Más aún, preserva
la independencia lineal; ésto es, el conjunto C = {u1 , u2 , . . . , uk } es un conjunto de vectores linealmente
independientes de V sii el conjunto C ∗ = {[u1 ]B , [u2 ]B , . . . , [ uk ]B } es un conjunto de vectores linealmente
independientes de Mn×1 .

En el caso en que V = Rn y B = {e1 , e2 , . . . , en } sea la base canónica, es decir e1 = (1, 0, 0, . . . , 0),


e2 = (0, 1, 0, . . . , 0),. . . , en = (0, 0, 0, . . . , 1), la mencionada correspondencia está dada por
2 3
x1
6 x2 7
x = (x1 , x2 , . . . , xn ) −→ [x]B = 6 . 7 .
6 7
4 .. 5
xn
En algunas situaciones resulta conveniente tener presente esta correspondencia, la cual se usa en este texto
identificando a x con [x]B .

1.2.3. Producto interno. Bases ortonormales. En este apartado se consideran los conceptos de
producto interno y de bases ortonormales, lo que será particularmente útiles en el capítulo 3 al tratar la
diagonalización de matrices simétricas.
1.29. Definición (Producto interno). Sea V un espacio vectorial. Sean además u, v y w vectores arbitrarios
de V y α un escalar real. Un producto interno en V es una función h·; ·i : V × V → R que satisface las
propiedades:

(i) hu; vi = hv; ui.


(ii) hu; ui ≥ 0 y hu; ui = 0 si y sólo si u = 0.
(iii) hαu; vi = α hu; vi.
(iv) hu + v; wi = hu; wi + hv; wi.
Observación. Si B es una base ordenada de un espacio vectorial V , entonces la función h·; ·i : V × V → R
definida por hu; vi = [u]TB [v]B es un producto interno. En particular, si V = Rn y B es la base canónica
de Rn , se tiene que
hx; yi = [x]TB [y]B = x1 y1 + x2 y2 + · · · + xn yn ,
donde x = (x1 , x2 , . . . , xn ) y y = (y1 , y2 , . . . , yn ).

En lo que sigue se considera a Rn con este producto interno (producto escalar) y a veces se escribe x · y o
xT y para indicar a hx; yi.

Si h·; ·i es un producto interno sobre un


p espacio vectorial V , la norma o longitud de un vector v de V se
denota por kvk y se define así: kvk = hv; vi. Cuando kvk = 1, se dice que v es un vector unitario.
Nota. En lo que resta de este texto, cuando se use la norma kvk de un vector v ∈ Rn se estará haciendo
referencia a la norma euclidiada, es decir, si v es el vector de componentes v = [ v1 v2 . . . vn ]T ,
entonces q
kvk = v12 + v22 + · · · + vn2 .

9
1.2. Espacios vectoriales Preliminares

1.30. Teorema (Desigualdad de Schwarz). Sea V un espacio vectorial con producto interno h·; ·i. Para cada
par de vectores u y v de V se satisface la desigualdad

|hu; vi| ≤ kuk kvk .

Sean u y v vectores de un espacio vectorial V con producto interno h·; ·i, si u y v no son nulos, la medida
del ángulo entre ellos se define como
|hu; vi|
θ = arc cos .
kuk kvk

1.31. Definición. Sea V un espacio vectorial con producto interno h·; ·i:

1. Se dice que dos vectores u y v de V son ortogonales si hu; vi = 0.


2. Se dice que un conjunto C = {v1 , v2 , . . . , vn } de vectores de V es ortogonal si hvi ; vj i = 0 para
i 6= j, i, j = 1, 2, . . . , n.
3. Se dice que un conjunto C = {v1 , v2 , . . . , vn } de vectores de V es ortonormal si C es ortogonal y
cada vector de C es unitario, o sea si:
(
1 si i = j
hvi ; vj i = δij = ; i, j = 1, 2, . . . , n .
0 si i 6= j

4. Se dice que dos conjuntos no vacíos, C1 y C2 , de vectores son ortogonales, si para cada par de
vectores u ∈ C1 y v ∈ C2 , hu; vi = 0.

1.32. Teorema. Sea V un espacio vectorial con producto interno h·; ·i. Si C = {v1 , v2 , . . . , vn } es un
conjunto ortogonal que no contiene al vector 0, entonces C es linealmente independiente.

1.33. Teorema (Proceso de ortogonalización de Gram-Schmidt). Sea W un subespacio no nulo de un


espacio vectorial V de dimensión finita k con producto interno h·; ·i y sea B = {w1 , w2 , . . . , wk } una base
de W. Entonces C = {v1 , v2 , . . . , vk } es una base ortogonal de W y C ∗ = {v1∗ , v2∗ , . . . , vk∗ } es una base
ortonormal de W , donde:

v1 = w1
hw2 ; v1 i
v2 = w2 − v1
hv1 ; v1 i
hw3 ; v1 i hw3 ; v2 i
v3 = w3 − v1 − v2
hv1 ; v1 i hv2 ; v2 i
..
.
k−1
X hwk ; vi i
vk = wk − vi ,
i=1
hvi ; vi i

vi
y donde vi∗ = para i = 1, 2, . . . , k.
kvi k
1.34. Teorema. Sean v1 , v2 , . . . , vk vectores no nulos de un espacio vectorial V de dimensión n > k, con
producto interno h·; ·i. Si C1 = {v1 , v2 , . . . , vk } es un conjunto ortogonal (respectivamente ortonormal),
entonces existe un conjunto ortogonal (respectivamente ortonormal) C2 = {w1 , w2 , . . . , wn−k } de vectores
de V tal que B = C1 ∪ C2 es una base ortogonal (ortonormal) de V. Más aún, si U = hv1 , v2 , . . . , vk i y si
W = hw1 , w2 , . . . , wn−k i entonces V = U ⊕ W y además, U y W son ortogonales.

10
Preliminares 1.3. Transformaciones lineales

1.3. Transformaciones lineales

En esta sección se consideran los aspectos más importantes sobre las transformaciones lineales. En lo que
sigue; U, V y W denotarán espacios vectoriales.
1.35. Definición. Una función T : U → V es una transformación lineal, si para cualquier para de vectores
u1 , u2 en U y todo escalar α, se tiene que:
(i) T (u1 + u2 ) = T (u1 ) + T (u2 )
(ii) T (αu1 ) = αT (u1 ).
1.36. Ejemplo. Algunos ejemplos de transformaciones lineales son:
1. Para cada U, la función idéntica I : U → U, u → I(u) = u.
2. Para cada matriz A ∈ Mm×n , la función A : Rn → Rm , definida por x → y = Ax. 
1.37. Teorema. Sean U y V espacios vectoriales, B = {u1 , u2 , . . . , un } una base de U y T : U → V es
una transformación lineal. Entonces T queda determinada por los vectores T (u1 ), T (u2 ), . . . , T (un ).

Asociados a toda transformación lineal hay dos subespacios importantes a saber; su núcleo y su imagen.
El primero de ellos corresponde a todos lo elementos del espacio U que son transformados en el elemento
nulo del espacio V ; el segundo, corresponde a todos los elementos del espacio V que tienen al menos una
preimagen en el espacio U. En forma más precisa tenemos
1.38. Definición. Sea T : U → V es una transformación lineal.
1. El núcleo de T se denota por N (T ) y se define así:
N (T ) = {u ∈ U : T (u) = 0} .
2. La imagen de T se denota por Img(T ) y se define así:
Img(T ) = {T (u) : u ∈ U } .
1.39. Definición. Sea T : U → V una transformación lineal.
1. Se dice que T es inyectiva (biunívoca o uno a uno), si dos elementos distintos u1 , u2 ∈ U , tienen
imagen distinta. Esto es, si y sólo si
u1 6= u2 implica T (u1 ) 6= T (u2 ); para todo u1 , u2 ∈ U.
2. Se dice que T es sobreyectiva (o simplemente sobre), si cada elemento del espacio V posee al menos
una preimagen en U. Esto es si y sólo si
Para todo v ∈ V existe un u ∈ U tal que T (u) = v.

El siguiente teorema resume algunos aspectos básicos de las transformaciones lineales.


1.40. Teorema. Sea B = {u1 , u2 , . . . , un } un subconjunto de vectores de U y sea T : U → V una
transformación lineal:
1. N (T ) es un subespacio vectorial de U.
2. T es inyectiva sii N (T ) = {0} .
3. Img(T ) es un subespacio vectorial de V.
4. Si B es una base de U , entonces {T (u1 ), T (u2 ), . . . , T (un )} genera al espacio Img(T ).
5. Si T es inyectiva y B es linealmente independiente, entonces el conjunto {T (u1 ), T (u2 ), . . . , T (un )}
es linealmente independiente en V .
6. dim N (T ) + dim Img(T ) = dim U .

A la dimensión de N (T ) se le llama nulidad de T y a la dimensión de Img(T ) se llama rango de T.

11
1.3. Transformaciones lineales Preliminares

1.3.1. Matriz de una transformación lineal referida a un par de bases ordenadas. A cada
transformación lineal se le puede asignar una matriz A, la cual está determinada por las bases de los espacios
vectoriales involucrados en dicha transformación. Se verá en esta sección, que una tal asignación simplificará
muchos cálculos. Es decir, será más conveniente trabajar con la matriz asociada a una transformación lineal
(referida a ciertas bases), que con la transformación lineal misma.

1.41. Definición. Sean U y V espacios vectoriales, T : U → V una transformación lineal y sean B1 =


{u1 , u2 , . . . , un } y B2 = {v1 , v2 , . . . , vm } bases ordenadas de U y de V respectivamente. La matriz de T
referida a las bases B1 y B2 se denotará por [T ]B1 B2 y corresponde a la matriz m × n dada por:

ˆ ˜
[T ]B1 B2 = [T (u1 )]B2 [T (u2 )]B2 ··· [T (un )]B2 .

1.42. Teorema. Sean U y V espacios vectoriales, T : U → V una transformación lineal y sean B1 =


{u1 , u2 , . . . , un } y B2 = {v1 , v2 , . . . , vm } bases ordenadas de U y de V respectivamente. Para cada
u ∈ U se tiene que:

[T (u)]B2 = [T ]B1 B2 [u]B1 .

Nota. Por el teorema anterior y por el teorema 1.37, la transformación lineal T queda completamente
determinada por el conocimiento de las bases B1 y B2 , y de la matriz [T ]B1 B2 .

1.3.2. álgebra de transformaciones lineales. Inversa de una transformación lineal. En esta


sección se consideran las operaciones de suma, multiplicación por un escalar y composición entre transfor-
maciones lineales. Así mismo se abordará la relación existente entre las matrices asociadas correspondientes.
En este apartado U, V y W denotan espacios vectoriales.

1.43. Teorema. Sean T : U → V y S : U → V transformaciones lineales y α un escalar. Sean además B1


y B2 bases ordenadas de U y V, respectivamente:

1. La función suma de T y S; (T + S) : U → V, definida por (T + S)(u) = T (u) + S(u) es una


transformación lineal. Más aún

[T + S]B1 B2 = [T ]B1 B2 + [S]B1 B2 .

2. La función múltiplo escalar de T ; (αT ) : U → V, definida por (αT )(u) = αT (u) es una transfor-
mación lineal. Más aún

[αT ]B1 B2 = α [T ]B1 B2 .

12
Preliminares 1.4. Espacios fundamentales de matrices

Nota. Sean U , V dos espacios vectoriales, se denota con L(U, V ) al conjunto de todas las transformaciones
lineales entonces:
1. El conjunto L(U, V ) junto con las operaciones mencionadas en el teorema anterior es un espacio
vectorial. además, si dim U = n y dim V = m entonces dim L(U, V ) = m × n.
2. De la misma forma como una base B1 de U determina la correspondencia biunívoca entre los es-
pacios vectoriales V y Mm×1 , dada por, v → [v]B2 ; las bases B1 y B2 de U y V , determinan la
correspondencia biunívoca entre los espacios L(U, V ) y Mm×n , la cual está dada por T → [T ]B1 B2 .
Esta correspondencia preserva la suma de vectores y la multiplicación de un escalar por un vec-
tor, tal como se establece en el teorema anterior. En otras palabras, esta correspondencia es una
transformación lineal.
1.44. Teorema. Sean T : U → V y S : V → W transformaciones lineales. Entonces, la composición
S ◦ T : U → W es una transformación lineal. Si además, B1 , B2 y B3 representan bases ordenadas para los
espacios U, V y W respectivamente, entonces se tiene que:
[S ◦ T ]B1 B3 = [S]B2 B3 [T ]B1 B2 .
1.45. Teorema. Si T : U → V es una transformación lineal biyectiva, entonces la función inversa de T ,
T −1 : V → U es una transformación lineal y la matriz [T ]B1 B2 es invertible. Además,
ˆ −1 ˜ ˆ ˜−1
T B B
= T B B .
2 1 1 2

1.3.3. Matrices semejantes. Cambio de baseo por gen{v1 , v2 , . . . , vn }. Los conceptos de ma-
trices semejantes y cambio de base serán particularmente útiles en el capítulo 4 para el estudio de los valores
propios y los vectores propios de una transformación lineal.
1.46. Definición. [Matrices semejantes]Sean A y B matrices cuadradas de orden n, se dice que A y B son
semejantes, si existe una matriz invertible P tal que B = P −1 AP.
1.47. Definición. [Matriz cambio de base]Sean B1 y B2 bases ordenadas del espacio vectorial U, y sea
I : U → U la transformación lineal idéntica. La matriz P = [I]B1 B2 se denomina matriz de cambio de base
de la base B1 a la base B2 , (ésto debido a lo enunciado por el teorema 1.42, [u]B2 = [I]B1 B2 [u]B1 ).
1.48. Teorema. Sean T : U → U una transformación lineal y B1 y B2 bases ordenadas de U .

1. La matriz de cambio de base de la base B1 a la base B2 , P = [I]B1 B2 , es invertible y su inversa es


la matriz de cambio de base de la base B2 a la base B1 .
2. Las matrices A = [T ]B2 B2 y B = [T ]B1 B1 son matrices semejantes, además se tiene
[T ]B1 B1 = [I]−1
B1 B2 [T ]B2 B2 [I]B1 B2 = P
−1
[T ]B2 B2 P .

1.4. Espacios fundamentales de una matriz. Rango de una matriz. Sistemas de ecuaciones
lineales

En esta sección se consideran los llamados espacios fundamentales de una matriz A. Dos de estos espacios
son precisamente el núcleo y la imagen de la transformación lineal x → y = Ax, los cuales están relacionados
con el conjunto solución de un sistema de ecuaciones lineales Ax = y. El lector recordará de los resultados
de un primer curso de álgebra lineal, que el espacio fila y es espacio columna de A tienen igual dimensión.
A ese número común se le denomina rango de A y se denota por ρ(A).

Sea A una matriz m × n. El subespacio de Rn generado por las filas de A se denomina espacio fila de A y lo
denotamos por F(A); esto es, F(A) = hA1 , A2 , . . . , Am i. El subespacio de Rm generado por las columnas
de A se denomina espacio columna de A y lo denotamos por C(A); esto es, C(A) = hA1 , A2 , . . . , An i. El

13
1.4. Espacios fundamentales de matrices Preliminares

espacio formado todas soluciones de un sistema homogéneo de ecuaciones lineales Ax = 0 se denomina


espacio nulo de una matriz, esto es, el espacio nulo es el conjunto
N (A) = {x ∈ Rn : Ax = 0 }.
De otro lado, el subespacio de Rn ;
Img(A) = {Ax : x ∈ Rn }
= {y ∈ Rm : y = Ax para algún x ∈ Rn } .
se denomina imagen de A.
1.49. Teorema. Para cualquier matriz A se tiene que
dim F(A) = dim C(A) .
1.50. Teorema. Sea A una matriz arbitraria entonces:

1. F(A) y N (A) son ortogonales. ésto es, sus elementos son ortogonales entre si.
2. C(A) y N (At ) son ortogonales. ésto es, sus elementos son ortogonales entre si.
1.51. Teorema. Sean A y B matrices de tamaño adecuado, tales que las operaciones siguientes están
definidas.

1. C(AB) ⊆ C(A) y F(AB)⊆ F (B).


2. Si P y Q son matrices invertibles de tamaño apropiado
a) C(A) = C(AQ).
b) F(A) = F(P A).
3. C(A + B) ⊆ C(A) + C(B) y F(A + B) ⊆ F(A) + F(B).
4. Para cualquier matriz A se tiene que: N (A) = N (AT A).
Nota. Según el inciso 2(b) del teorema anterior y según el teorema 1.8, si R es la forma escalonada reducida
de la matriz A, entonces F(A) = F(R).
1.52. Teorema. Sea A una matriz m×n. La imagen de la transformación lineal A : Rn → Rm , x → y = Ax,
es el espacio columna de A; esto es,
Img(A) = C(A) = {Ax : x ∈ Rn } .
Nota. De acuerdo con el inciso (3) del teorema 1.40 y de acuerdo con los teoremas 1.49 y 1.52: si A es
una matriz m × n, entonces
dim N (A) + dim F(A) = n.
Análogamente, puesto que F(At ) = C(A),
dim N (AT ) + dim C(A) = m.
De otra parte, con base en la nota 1.23,
Rn = F(A) ⊕ N (A) y Rm = C(A) ⊕ N (AT ),
es decir, los subespacios F(A) y N (A) de Rn son complementarios. Así mismo, los subespacios C(A) y
N (At ) de Rm son complementarios.

Esto implica entonces, que cada x ∈ Rn y cada y ∈ Rm se pueden expresar en forma única así: x = f + n
y y = c + u, donde f , n, c y u pertenecen a F(A), N (A), C(A) y N (AT ), respectivamente (ver figura 1.1).

Nota. Según las definiciones, el núcleo de la transformación lineal x → y = Ax es el espacio nulo de A.

14
Preliminares 1.4. Espacios fundamentales de matrices

n m
IR IR

F(A) x=f+n C (A)


Ax=Af y=c+u
f
c
n u
N (A) N (AT)

Figura 1.1. Transformación lineal

De otro lado, si definimos el rango de la matriz A, ρ(A), como el rango de la transformación lineal x →
y = Ax, entonces se tiene que rango de A es la dimensión del espacio columna de A.
1.53. Teorema. Sea A una matriz m × n, entonces:

1. ρ(A) es igual al número máximo de filas linealmente independientes de la matriz A.


2. ρ(A) es el número máximo de columnas linealmente independientes de la matriz A.
3. ρ(A) es el número de filas no nulas de la forma escalonada reducida de la matriz A.
4. Para cualquier matriz A, ρ(A) = ρ(AT ) = ρ(AAT ) = ρ(AT A).
5. Si A es una matriz m × n y B es una matriz n × k, entonces ρ(AB) ≤ ρ(A) y ρ(AB) ≤ ρ(B).
6. Si P es una matriz invertible m × m y Q es una matriz invertible n × n, entonces ρ(A) = ρ(P A) =
ρ(AQ) = ρ(P AQ).
7. Si A y B son matrices m × n, entonces ρ(A + B) ≤ ρ(A) + ρ(B).
1.54. Teorema. Sea A una matriz m × n y sea y un vector m × 1.

1. El sistema de ecuaciones Ax = y tiene solución sii y ∈ C(A).


2. El sistema de ecuaciones Ax = y tiene solución sii el rango de la matriz A es igual al rango de la
matriz aumentada del sistema [A | y], es decir sii ρ(A) = ρ([A| y]).
3. Para el sistema de ecuaciones lineales Ax = y se da una y sólo una de las opciones siguientes:
a) El sistema no tiene solución, en cuyo caso y ∈ / C(A).
b) El sistema tiene infinitas soluciones, en cuyo caso su conjunto solución es una variedad lineal
de la forma
S = {xp + xh : xh ∈ N (A)} ,
donde xp es una solución particular del sistema; ésto es, Axp = y, además, dim N (A) > 0.
c) El sistema tiene una única solución. En este caso se tiene que N (A) = {0}.

El teorema siguiente recoge, teóricamente, el método de Gauss-Jordan para resolver sistemas de ecuaciones
lineales.
1.55. Teorema. Sean A una matriz m × n y y un vector n × 1. Si P es una matriz invertible m × m tal
que P A = R, donde R es la forma escalonada reducida de A, entonces Ax = y sii Rx = P y; esto es, los
sistemas de ecuaciones lineales Ax = y y Rx = P y tienen el mismo conjunto solución. En particular, si
y = 0; Ax = 0 sii Rx = 0.
1.56. Teorema (Resumen). Sea A una matriz cuadrada de orden n. Las afirmaciones siguientes son equiv-
alentes:

1. det(A) 6= 0.
2. A es invertible.
3. La forma escalonada de A en In .

15
1.4. Espacios fundamentales de matrices Preliminares

4. Los vectores fila de A son linealmente independientes.


5. El espacio fila de A es Rn , es decir, F(A) = Rn .
6. Los vectores columna de A son linealmente independientes.
7. El espacio columna de A es Rn , es decir, C(A) = Rn .
8. El rango de la matriz A es n.
9. N (A) = {0}.
10. El sistema de ecuaciones lineales Ax = 0 tiene la única solución x = 0.
11. Para todo y ∈ Rn , El sistema de ecuaciones lineales Ax = y tiene solución.

Por último, consideramos un método para calcular una base de cada uno de los espacios fundamentales de
una matriz m × n arbitraria A. El método consiste en efectuar los pasos siguientes:

Paso 1 Forme la matriz [AT | In ].

Paso 2 Efectúe operaciones elementales sobre las filas de la matriz anterior hasta obtener la forma
escalonada reducida. Al final se obtiene la matriz puede describir por bloques así:
2 3
Er×m Pr×n
4 5
0(n−r)×m P(n−r)×n
donde r = ρ(A).

Los vectores fila de la matriz Er×m conforman una base para C(A) y los vectores fila de la
matriz P(n−r)×n conforman una base para N (A).

Al llevar a cabo el paso 2 con la matriz [A | Im ] se obtienen sendas bases para C(AT ) = F(A) y N (AT ).

16
CAPÍTULO 2

Matrices Particionadas. Traza de una Matriz

Este capítulo consta de tres secciones. Las dos primeras versan sobre matrices particionadas. La tercera
sección trata sobre la traza de una matriz. En este capítulo se consignarán los principales resultados sobre
la traza de una matriz. Existen razones para querer particionar una matriz A, algunas de ellas son: (i)
La partición puede simplificar la escritura de A. (ii) La partición puede exhibir detalles particulares e
interesantes de A. (iii) La partición puede permitir simplificar cálculos que involucran la matriz A.

2.1. Submatrices. Operaciones con matrices particionadas

A veces es necesario considerar matrices que resultan de eliminar algunas filas y/o columnas de alguna
matriz dada, como se hizo por ejemplo, al definir el menor correspondiente al elemento aij de una matriz
A = [aij ]m×n (véase el apartado 1.1.3 del capítulo 1).
2.1. Definición. Sea A una matriz. Una submatriz de A es una matriz que se puede obtener al suprimir
algunas filas y/o columnas de la matriz A.
2.2. Ejemplo. Las matrices S1 , S2 y S3 dadas a continuación, son submatrices de la matriz
2 3
1 2 3 4
A=4 5 6 7 8 5.
9 0 −1 −2
» –
1 2 4
S1 = (suprimiendo en A la fila 2 y la columna 3)
9 0 −2

» –
1 2 3 4
S2 = (suprimiendo en A la fila 3)
9 0 7 8

» –
2 3
S3 = (suprimiendo en A la fila 3 y las columnas 1 y 4). 
6 7

Dada una matriz A = [aij ]m×n ; mediante un sistema de rectas horizontales o verticales se puede "parti-
cionarla" en submatrices de A (Matriz particionada), como se ilustra en el siguiente ejemplo:
2 3
a11 a12 a13 a14
6
6 a21 a22 a23 a24 7
7
6
6 a31 a32 a33 a34 7
7
4 a41 a42 a43 a44 5
a51 a52 a53 a54
17
2.1. Submatrices Matrices particionadas

Hecho esto, se puede escribir, usando una notación obvia:


» –
A11 A12 A13
A=
A21 A22 A23
donde
2 3 2 3 2 3
a11 a12 a13 a14
A11 = 4 a21 5 , A12 = 4 a22 a23 5 , A13 = 4 a24 5 ,
a31 a32 a33 a34

» – » – » –
a41 a42 a43 a44
A21 = , A22 = , A23 = .
a51 a52 a53 a55
Debe ser claro para el lector, que una matriz puede ser particionada de diferentes maneras, por ejemplo:

2 3 2 3
1 2 3 4 5 1 2 3 4 5
A = 4 2 0 3 0 1 5=4 2 0 3 0 1 5
−1 2 3 1 1 −1 2 3 1 1
2 3
1 2 3 4 5
= 4 2 0 3 0 1 5
−1 2 3 1 1

Tal vez, la principal conveniencia de particionar matrices, es que se puede operar con matrices particionadas
como si las submatrices fuesen elementos ordinarios, tal como se establece en el teorema siguiente.

2.3. Teorema.

1. Si las matrices A y B están particionadas así:


A11 A12 · · · A1n ···
2 3 2 3
B11 B12 B1n
6 A21 A22 · · · A2n 7 6 B21 B22 ··· B2n 7
A=6 . .. 7 , B = 6 ..
6 7 6 7
.. .. .. .. ..
4 ..
7
. . . 5 4 . . . . 5
Am1 Am2 · · · Amn Bm1 Bm2 ··· Bmn
y si las sumas Aij + Bij están definidas para i = 1, 2, . . . , m, j = 1, 2, . . . , n, entonces

· · · A1n + B1n
2 3
A11 + B11 A12 + B12
6 A21 + B21 A22 + B22 · · · A2n + B2n 7
A+B =6 7.
6 7
.. .. .. ..
4 . . . . 5
Am1 + Bm1 Am2 + Bm2 · · · Amn + Bmn
2. Si las matrices A y B están particionadas así:
A11 A12 · · · A1n ···
2 3 2 3
B11 B12 B1s
6 A21 A22 · · · A2n 7 6 B21 B22 ··· B2s 7
A=6 . .. 7 y B = 6 ..
6 7 6 7
.. .. .. .. ..
4 ..
7
. . . 5 4 . . . . 5
Am1 Am2 · · · Amn Bn1 Bn2 ··· Bns
18
Matrices particionadas 2.1. Submatrices

y si el número de columnas de cada bloque Aik es igual al número de filas de cada bloque Bkj ;
i = 1, 2, . . . , m, k = 1, 2, . . . , n, j = 1, 2, . . . , s, entonces

C11 C12 · · · C1s


2 3
6 C21 C22 · · · C2s 7
AB = 6 . 7,
6 7
.. .. ..
4 .. . . . 5
Cm1 Cm2 · · · Cms
n
X
donde Cij = Aik Bkj .
k=1
3. Si la matriz A está particionada como en (1) y si α es un escalar, entonces

···
2 3
αA11 αA12 αA1n
6 αA21 αA22 ··· αA2n 7
αA = 7.
6 7
6 .. .. .. ..
4 . . . . 5
αAm1 αAm2 ··· αAmn

4. Si la matriz A está particionada como en (1) , entonces

AT11 AT21 ··· ATm1


2 3
6 AT AT22 ··· ATm2 7
6 12
AT
7
= 6
6 . .. ..
7.
4 .. .. 7
. . . 5
AT1n AT2n ··· ATmn

Los incisos (1), (3) y (4) del teorema anterior son fáciles de verificar. La demostración del inciso (2)
es laboriosa y no se haran. Sin embargo, el lector interesado puede consultar una indicación de dicha
demostración en [12] página 19.

A continuación se ilustrará el inciso (2) de dicho teorema.

Si
2 3 2 3
1 0 0 0 3 A11 A12 A13
A=4 2 0 0 3 −4 5 = 4 5
1 2 1 0 0 A21 A22 A23
y
2 3 2 3
1 2 B11
6
6 0 0 7 6
7 6
7
7
B=6
6 1 3 7 = 6 B21
7 6
7
7
4 0 1 5 4 5
1 2 B31
entonces
2 3 2 3
A11 B11 + A12 B21 + A13 B31 4 8
AB = 4 5 = 4 −2 −7 5
A21 B11 + A22 B21 + A23 B31 2 5
19
2.1. Submatrices Matrices particionadas

pues
» – » –
1 ˆ ˜ 1 2
A11 B11 = 1 2 = ,
2 2 4
» –» – –»
0 0 0 0 0 0
A12 B21 = = ,
0 0 1 3 0 0
» –» – » –
0 3 0 −1 3 6
A13 B31 = = ,
3 −4 1 2 −4 −1
ˆ ˜ ˆ ˜
A21 B11 = [1] 1 2 = 1 2

» –
ˆ ˜ 0 0 ˆ ˜
A22 B21 = 2 1 = 1 3 ,
1 3
» –
ˆ ˜ 0 −1 ˆ ˜
A23 B31 = 0 0 = 0 0 .
1 2

2.1 Ejercicios

1. Dadas A ∈ Mm×n y B ∈ Mn×k , muestre que:


a) La fila i de AB es igual a la fila i de A por la matriz B; en símbolos (AB)i = Ai B (Sug.:
Particione la matriz A por filas).
b) La columna j de AB es igual a la matriz A por la columna j de B; en símbolos (AB)j = AB j
(Sugerencia: Particione la matriz B por columnas).
c) Si A tiene una fila nula, entonces AB tiene una fila nula.
d ) Si B tiene una columna nula, entonces AB tiene una columna nula.
2. Si A, B ∈ Mn×n son matrices triangulares superiores (inferiores), muestre que:
a) AB es una matriz triangular superior (inferior).
b) hABiii = hAiii hBiii .
3. Considere las matrices triangulares superiores por bloques
» – » –
X Y U V
M= y N= .
0 Z 0 W
Muestre que si el producto M N está definido, entonces M N es una matriz triangular superior por
bloques.
4. Sean A, B ∈ Mn×n (R), X, Y ∈ Mn×1 (R) y α, β ∈ R. Suponga que
(A + B)X = αX y (A − B)Y = βY.
» –
A B
Si M = , demuestre
B A
» – » –
X X
a) M =α
X X
» – » –
Y Y
b) M =β
−Y −Y
– »
A B
5. Si A, B ∈ Mn×n (R) y A es simétrica, muestre que la matriz M = T es simétrica.
B A
6. Suponga que las matrices que abajo aparecen son de tamaño apropiado, donde I es la matriz
identica y que A11 es una matriz invertible. Encuentre matrices X y Y tales que el producto que

20
Matrices particionadas 2.2. Determinantes

sigue tiene la forma indicada. Encuentre además B22 .


2 32 3 2 3
I 0 0 A11 A12 B11 B12
4 X I 0 5 4 A21 A22 5 = 4 0 B22 5
Y 0 I A32 A33 0 B32

2.2. Determinantes e inversas de algunas matrices especiales

En algunas situaciones es conveniente utilizar matrices particionadas para describir determinantes e inversas
de ciertas matrices en términos de las submatrices. En particular, los teoremas 2.6 y 2.11, son usados en la
deducción de las distribuciones condicionales de un vector aleatorio con distribución normal multivariante
(véase el Teorema 3.6.1 de [4])

Es bien conocido, que el determinante de una matriz triangular (superior o inferior) es justamente el
producto de los elementos de la diagonal principal. La siguiente proposición enuncia un resultado análogo
para matrices particionadas.
2.4. Proposición. Sean A y C matrices cuadradas,
» –
A B
1. Si M = , entonces |M | = |A||C|.
0 C
» –
A 0
2. Si M = , entonces |M | = |A||C|.
B C

Demostración. Para la demostración del literal (1) usamos inducción sobre el orden n de la matriz
M.

Si n = 2 se tiene que |M | = ac = |A| |C| donde


» – » –
A B a b
M= = .
0 C 0 c

Suponga ahora que (1) es válida para n = k y se demostrará que es válida para n = k + 1.

Sea M una matriz cuadrada de orden n = k +1 particionada como en (1). Suponga además que B = [bij ]r×s
y C = [cij ]s×s . Si se denota por B̂ j a la submatriz de B que se obtiene suprimiendo en B la columna j y
por Ĉ j a la submatriz de C que se obtiene suprimiendo en C la columna j y la fila s, j = 1, 2, . . . , s.

Ahora, desarrollando el determinante de C por los cofactores de la fila s (véase el Teorema 1.3(1)), se
obtiene:
|C | = cs1 (−1)s+1 |Ĉ 1 | + cs2 (−1)s+2 |Ĉ 2 | + . . . + css (−1)s+s |Ĉ s |.

Así mismo, desarrollando el determinante de M por los cofactores de la fila k + 1 se obtiene:

˛ A B̂ 1 ˛
˛ ˛
2(k+1)−s+1
|M | = cs1 (−1) ˛ 0 Ĉ 1 ˛ +
˛ ˛

˛ A B̂ 2 ˛
˛ ˛
+cs2 (−1)2(k+1)−s+2 ˛˛ ˛
0 Ĉ 2 ˛
˛ A B̂ s
˛ ˛
+ . . . + css (−1)2(k+1)−s+s ˛˛
˛
˛
0 Ĉ s ˛

21
2.2. Determinantes Matrices particionadas

Utilizando la hipótesis de inducción se obtiene:



|M | = (−1)2(k+1)−2s cs1 (−1)s+1 |A| |Ĉ 1 | + cs2 (−1)s+2 |A| |Ĉ 2 |

+ . . . + css (−1)s+s |A| |Ĉ s |

= |A| cs1 (−1)s+1 |Ĉ 1 | + cs2 (−1)s+2 |Ĉ 2 | + . . . +

+css (−1)s+s |Ĉ s |

= |A| |C| .
Lo que completa la demostración de (1).

La demostración de (2) se sigue del hecho de que |M | = |M T | (teorema 1.4(1)) y del inciso (1). En
efecto, se tiene:
det(M ) = det(M T )

AT BT
» –
= det
0 CT

= det(AT ) det(C T )
= det(A) det(C)

2.5. Ejemplo. Use partición de matrices y los resultados de la proposición anterior para calcular el deter-
minante de cada una de las matrices siguientes:

2 3
2 3 1 2 4 5
7 0 0 6 1 3 6 7 7
M =4 4 5 6 5 y N =4
6 7,
0 0 2 3 5
3 7 9
0 0 3 5
las cuales se pueden particionar respectivamente como sigue:

2 3 2 3
7 0 0 A 0
M =4 4 5 6 5=4 5
3 7 9 B C
y
2 3
1 2 4 5 2 3
6 1 A B
3 6 7 7
N =4
6 7=4 5
0 0 2 3 5
0 C
0 0 3 5
Entonces ˛ ˛ ˛ ˛˛ ˛
˛ 5 6 ˛˛ ˛ 1 2 ˛˛ ˛˛ 2 3 ˛˛
|M | = |7| ˛˛ = 21 y |N | = ˛˛ = 1. 
7 9 ˛ 1 3 ˛˛ 3 5 ˛

22
Matrices particionadas 2.2. Determinantes

El siguiente teorema brinda una alternativa para calcular determinantes de matrices más generales parti-
cionadas por bloques.
» –
A B
2.6. Teorema. Sean A y D matrices cuadradas y sea M = .
C D

1. Si D es invertible, entonces |M | = |D| ˛˛A − BD−1 C˛˛ .


˛ ˛

2. Si A es invertible, entonces |M | = |A| ˛D − CA−1 B ˛ .

Demostración. Se hará sólo la demostración del literal (1), el segundo resultado se verifica de manera
análoga y se deja como ejercicio al lector.

A − BD−1 C
» – » –
I 0 B
Sea S = −1 . Entonces M S = . Ahora por el teorema 1.4(9) y por la
−D C I 0 D
proposición anterior, se tiene:
|M | = |M | |I| |I| = |M | |S| = |M S| = |D| ˛A − BD−1 C ˛ .
˛ ˛

Los siguientes resultados son consecuencia inmediata de este teorema y sus verificaciones se dejan como
ejercicio.
2.7. Corolario. Sean A, B, C y D matrices cuadradas de orden n y sea M la matriz dada por
» –
A B
M= .
C D

1. Si D es invertible y si DB = BD, entonces |M | = |DA − BC|.


2. Si A es invertible y si AC = CA, entonces |M | = |AD − CB|.
3. Si D = 0 y A es invertible, entonces |M | = (−1)n |B| |C|.
4. Si A = 0 y D es invertible, entonces |M | = (−1)n |B| |C|.
2.8. Ejemplo. Utilizando los resultados del corolario anterior se encuentran los determinantes para las
matrices M y N dadas por:
2 3
2 3 1 2 2 1
1 2 4 6 1 3 2 3 7
M =4 1 3 5 5 y N =6 4 4
7.
5 0 0 5
1 1 1
3 3 0 0
Se particiona ahora las matrices M y N de froma adecuada.
2 3 2 3
1 2 4 A B
Para M tomamos 4 1 3 5 5 = 4 5 , siendo D = [1]. Puesto que D es una matriz invertible
1 1 1 C D
entonces, ˛ ˛
−1
˛ −3 −2 ˛
|M | = |D| |A − BD C| = |1| ˛ ˛ ˛ = −2 .
−4 −2 ˛
2 3
1 2 2 1 2 3
6 1 3 2 3 7 A B » –
1 2
Similarmente para N = 4 6 7 = 4 5 , siendo A = . Dado que A es invertible
4 5 0 0 5 1 3
C 0
3 3 0 0
se tiene que
|M | = (−1)2 |B| |C| = −12 .

23
2.2. Determinantes Matrices particionadas

2.9. Proposición. Sean A y C matrices cuadradas.


» –
A B
1. La matriz M = es invertible sii las matrices A y C son invertibles. Además, si M es
0 C
invertible entonces

A−1 −A−1 BC −1
» –
−1
M = .
0 C −1
» –
A 0
2. La matriz M = es invertible sii las matrices A y C son invertibles. Además, si M es
B C
invertible entonces

A−1
» –
0
M −1 = .
−C BA−1
−1
C −1

La prueba de este resultado se propone como ejercicio. El ejemplo siguiente, ilustra el inciso (1) de la
proposición anterior.
2.10. Ejemplo. Verifique que la matriz
2 3
1 2 1 1
6 1 3 1 1 7
M =4
6 7
0 0 2 1 5
0 0 5 3
es invertible y calcule su matriz inversa.
2 3
1 2 1 1
6 1 3 1 1 7
Observando la estructura de la matriz M se puede ver que una buena partición es: M = 6
4 0 0 2
7=
1 5
0 0 5 3
2 3
A B
4 5 . Puesto que las matrices A y C son invertibles, entonces M también lo es y además,
0 C
2 3
» −1 3 −2 2 −1
−1 −1

A −A BC 6 1 3 0 0 7
M −1 = =6 7 .
0 C −1 4 0 0 3 −1 5
0 0 −5 2

El siguiente teorema presenta una fórmula para calcular inversas de matrices más generales
2.11. Teorema. Sea B una matriz invertible particionada así:
» –
B11 B12
B= , con B11 y B22 matrices invertibles.
B21 B22
Si B −1 está particionada así: » –
−1 A11 A12
B = ,
A21 A22
donde Aii (i = 1, 2), son matrices cuadradas de igual orden que la matriz Bii respectivamente entonces:

1. Las matrices A11 y A22 son invertibles y sus inversas son las matrices B11,2 = B11 − B12 B22
−1
B21
−1
y B22,1 = B22 − B21 B11 B12 , respectivamente.

24
Matrices particionadas 2.2. Determinantes

2. La matriz B −1 se puede expresar en términos de B11,2


−1 −1
y B22,1 como sigue
2 −1 −1 −1 3
B11,2 −B11 B12 B22,1
B −1 = 4 5, ó
−1 −1 −1
−B22 B21 B11,,2 B22,1
2 −1 −1 −1 3
B11,2 −B11,2 B12 B22
−1
B =4 5.
−1 −1 −1
−B22,1 B21 B11 B22,1
3. La matriz B −1 también se puede expresar así:
2 3 2 3
0 0 −Ik
B −1 = 4 −1 ˆ −1
˜
5+4 5 B11,2 −Ik B12 B22 ,
−1 −1
0 B22 B22 B21
donde k es el tamaño de B11 .

Demostración. Partiendo de la definición de matrices inversas


» –» – » –
B11 B12 A11 A12 I 0
BB −1 = = =I
B21 B22 A21 A22 0 I
se obtienen las igualdades
(a) B11 A11 + B12 A21 = I
(b) B21 A11 + B22 A21 = 0
(2.1)
(c) B11 A12 + B12 A22 = 0
(d) B21 A12 + B22 A22 = I
Premultiplicando ambos miembros de (2.1(b)) por B22
−1
, se sigue:
−1 −1
B22 B21 A11 + A21 = 0, o sea, A21 = −B22 B21 A11 .

Sustituyendo A21 en (2.1(a)) y factorizando A11 , por la derecha, se obtiene


` −1 ´
B11 − B12 B22 B21 A11 = I .
Es decir, las matrices B11,2 = B11 − B12 B22
−1
B21 y A11 son inversas entre si.

Por otro lado, si se premultiplica ambos miembros de (2.1(c)) por B11


−1
, se sigue:
−1 −1
A12 + B11 B12 A22 = 0, o sea, A12 = −B11 B12 A22 .

Sustituyendo A12 en (2.1(d)) y factorizando A22 , por la derecha, se obtiene:


` −1 ´
B22 − B21 B11 B12 A22 = I .
Es decir, las matrices B22,1 = B22 − B21 B11
−1
B12 y A22 son inversas una de la otra.

Por lo anterior,
−1 −1 −1
A11 = B11,2 A12 = −B11 B12 B22,1

−1 −1 −1
A21 = −B22 B21 B11,2 A22 = B22,1 .
La segunda expresión para B −1
del literal 2 se obtiene procediendo de forma análoga, pero partiendo de la
igualdad » –» – » –
A11 A12 B11 B12 I 0
B −1 B = = =I.
A21 A22 B21 B22 0 I
La demostración del literal 3 se deja como ejercicio. 

25
2.2. Determinantes Matrices particionadas

A continuación enunciamos y demostramos un teorema que involucra matrices particionadas y el rango de


una matriz.
» –
A11 A12
2.12. Teorema. Sea A = , donde A11 es una matriz invertible r × r. Si ρ(A) = ρ(A11 ),
A21 A22
entonces A22 = A21 A−1
11 A12 .

Demostración. Puesto que A11 es una matriz invertible, entonces ρ(A11 ) = r (ver teorema 1.56).
2 3 2 3
I 0 I −A−1 11 A12
Ahora, las matrices P = 4 5yQ=4 5 son invertibles, puesto que |P | =
− A21 A−1
11 I 0 I
|Q| = 1 6= 0. En consecuencia, por el teorema 1.53, la matriz A y la matriz
» –
A11 0
P AQ = −1
0 A22 − A21 A11 A12

tienen rango r. Puesto que el número máximo de filas linealmente independientes de las matrices P AQ y A11
es r (véase el teorema 1.53(2)), entonces necesariamente A22 − A21 A−1
11 A12 = 0, o sea A22 = A21 A11 A12 .
−1

2.2 Ejercicios

1. Utilice matrices particionadas para calcular el determinante y la matriz inversa (si existe) de cada
una de las matrices siguientes:
2 3 2 3
5 3 0 0 3 1 1 −1
6 3 2 0 0 7 6 2 1 −1 1 7
M1 = 46 7 M2 = 4
6 7
3 −2 2 1 5 0 0 1 1 5
2 1 5 3 0 0 4 5
2. Demuestre el inciso (2) del teorema 2.6.
3. Demuestre el corolario 2.7.
4. Demuestre la proposición 2.9.
5. Sean a, b, c y d escalares no nulos y sea n ∈ N. Calcule el determinante y la matriz inversa, cuando
exista, de la matriz » –
aIn bIn
M= .
cIn dIn
6. Sean A» una matriz
– cuadrada » de orden – n y B una matriz cuadrada de orden k. Demuestre que si
0 A C A
M = o si M = , entonces |M | = (−1)nk |A| |B|. (Sug.: Efectúe operaciones
B C B 0
elementales por columnas y use la proposición 2.4).
7. Sean A y B matrices cuadradas.
a) Dar condiciones necesarias y suficientes para que la matriz
» –
0 A
M=
B C
sea invertible. Si M es invertible, exprese M −1 en términos de las matrices A, B y C.
b) Dar condiciones necesarias y suficientes para que la matriz
» –
C A
M=
B 0
sea invertible. Si M es invertible, exprese M −1 en términos de las matrices A, B y C.

26
Matrices particionadas 2.2. Determinantes
» – » –
A In In 0
c) Si A ∈ Mn×n y M = ,P = , dar una expresión para M −1 .
In 0 In In
8. Utilice los resultados que obtuvo en el problema anterior para calcular la matriz inversa de cada
una de las matrices siguientes:
2 3 2 3
0 0 2 1 1 −1 1 1
6 0 0 5 3 7 6 −1 1 4 5 7
M1 = 64 5 3 3 −2 5
7 M2 = 6
4 3
7.
1 0 0 5
3 2 2 1 2 1 0 0
9. Sean A11 , A22 y A33 matrices cuadradas. Demuestre que si
2 3 2 3
A11 A12 A13 A11 0 0
M =4 0 A22 A23 5 ó M = 4 A21 A22 0 5
0 0 A33 A31 A32 A33
entonces |M | = |A11 ||A22 ||A33 |.
10. Demuestre que si A11 , A22 y A33 son matrices invertibles, entonces la matriz M = diag(A11 , A22 , A33 )
es invertible y 2 −1 3
A11 0 0
M −1 = 4 0 A−1
22 0 5
0 0 A−1
33
11. Sean a ∈ R y An×n una matriz invertible, entonces
» –
a x
det = |A| (a − xA−1 y).
y A
(Sugerencia: Use el teorema 2.6)
12. Verifique que » –
I A
det = det(C − BA).
B C
(Sugerencia: Use el corolario 2.7)
13. Muestre que » – » –
In B Im A
det = det
A Im B In
y concluya que |Im − AB|»= |In − BA|.
– » – » –
A B In 0 In 0
14. Sean A, B ∈ Mn×n ; M = ;P = ;Q= .
A B In In −In In
a) Calcule P M Q y muestre que det M = det(A − B) det(A + B).
b) Use (a) para calcular det M, donde
2 3
1−x 2 1 1
6 1 6−x 1 1 7 7 ; x ∈ R.
M =6 4 1 1 1−x 2 5
1 1 1 6−x
c) En (b), ¿para qué valores de x se» cumple que
– det M = 0?
A B
15. Sean A ∈ Mn×n ; D ∈ Mm×m y M = matrices invertibles, con B ∈ Mn×m y C ∈ Mm×n .
C D
a) Muestre que (A−BD C) y (D−CA B) son matrices invertibles (Sugerencia: Use el teorema
−1 −1

2.6).
b) Muestre que:
(A − BD−1 C)−1 = A−1 + A−1 B(D − CA−1 B)−1 CA−1 .
(Sugerencia: Multiplique A − BD−1 C por la matriz que aparece a la derecha).

27
2.3. Traza de una matriz Matrices particionadas

c) Muestre que cuando m = n, B = In y C = −In en (b) se obtiene:

(A − D−1 )−1 = A−1 + A−1 (D − A−1 )−1 A−1 .

d ) Muestre que cuando D = Im en (b) se obtiene:

(A − BC)−1 = A−1 + A−1 B(I − CA−1 B)−1 CA−1 .

2.3. Traza de una matriz

En ciertos contextos, la suma de los elementos de la diagonal de una matriz juega un papel importante.
Por ejemplo, la traza de una matriz aparece en la evaluación de las integrales requeridas en el estudio de la
distribución normal multivariante (véase el teorema 1.10.1 de [3]) y el valor esperado de formas cuadráticas
(véase el teorema 4.6.1 de [4]).

2.13. Definición. Sea A una matriz cuadrada. La traza de A se denota por Tr(A) y se define como la suma
de los elementos de la diagonal principal de A. ésto es,
n
X
Tr(A) = hAiss .
s=1

2.14. Nota. Puesto que los elementos de la diagonal principal de A son los mismos que los elementos de la
diagonal principal de AT , entonces
Tr(A) = Tr(AT ) .

2.15. Teorema. Sean A y B son matrices cuadradas del mismo orden. Si α y β son escalares, entonces

Tr(αA + βB) = α Tr(A) + β Tr(B) .

Demostración. Usando la estructura de espacio vectorial de las matrices, así como la definición de
traza se tiene:
n
X
Tr(αA + βB) = hαA + βBiss
s=1
Xn
` ´
= α hAiss + β hBiss
s=1
Xn n
X
= α hAiss + β hBiss
s=1 s=1
= α Tr(A) + β Tr(B) .

2.16. Teorema. Si A es una matriz m × n y B es una matriz n × m , entonces

Tr(AB) = Tr(BA) .

28
Matrices particionadas 2.3. Traza de una matriz

Demostración. Usando la definición de traza y la definición de producto de matrices obtenemos,


n
X
Tr(AB) = hABiss
s=1
Xn m
X
= hAisk hBiks
s=1 k=1
Xm X n
= hBiks hAisk
k=1 s=1
Xm
= hBAikk = Tr(BA) .
k=1

2.17. Corolario. Sea A una matriz cuadrada de orden n. Si P es una matriz invertible n × n, entonces
Tr(A) = Tr(P −1 AP ) = Tr(P AP −1 ).

Demostración. Por el teorema anterior,


Tr(A) = Tr(AI) = Tr(AP P −1 ) = Tr(P −1 AP )
= Tr(P P −1 A) = Tr(P −1 P A) = Tr(P AP −1 ).

2.18. Corolario. Si A es una matriz m × n, entonces


m X
X n
Tr(AAT ) = Tr(AT A) = hAi2sk .
s=1 k=1

Además, Tr(AAT ) = 0 sii A = 0.

Demostración. Por definición de traza y por el teorema 2.16,


m
X
Tr(AAT ) AAT
˙ ¸
= ss
s=1
m n m X
n
X X ˙ ¸ ˙ T¸ X ˙ ¸2
= A sk A ks = A sk ;
s=1 k=1 s=1 k=1

Esto es, Tr(AAT ) es la suma de los cuadrados de los elementos de A. De esto se sigue entonces que,
Tr(AAT ) = Tr(AT A) y además que Tr(AAT ) = 0 si y sólo si A = 0. 

2.3 Ejercicios

1. Demuestre que si A es una matriz invertible 2 × 2, entonces Tr(A) = det(A) · Tr(A


»
−1
). –
3 2
2. Si Sean A, B, C ∈ M2×2 son tales que Tr(A) = 2; B es invertible y C = ,; P =
1 −5
» –
In 0
; calcule Tr(2BAT B −1 + B −1 CB − 3CC T ).
In In
29
2.3. Traza de una matriz Matrices particionadas

3. Sea V = Mn×n el espacio vectorial de las matrices n×n. Demuestre que la función h ; i : V ×V → R
definida por hA; Bi = Tr(AB T ) es un producto interno en V . (Vea el apartado 1.2.3 del capítulo
1).
4. Sean A y B matrices cuadradas de orden n. Demuestre que
Tr(AB T ) ≤ (Tr(AAT ) Tr(BB T ))1/2 .
(Sugerencia: use el teorema 1.30)
5. Si A, B ∈ Mn×n , muestre que AB − BA 6= I. (Sugerencia: Utilice la función traza)
6. Si T : Mn×n → R es una transformación lineal, entonces existe una matriz A tal que T (M ) =
Tr(AM). (Escriba T (M ) en términos de T (Eij ), siendo Eij los elementos de la base estándar de
las matrices)
7. Calcule dim W , donde W = {A : Tr(A) = 0}.
8. Sean A y B matrices cuadradas del mismo orden
a) Muestre que Tr((AB)k ) = Tr((BA)k ).
b) Muestre con un ejemplo que Tr((AB)k ) 6= Tr(Ak B k ).

30
CAPÍTULO 3

Valores propios y vectores propios. Diagonalización

Este capítulo consta de cuatro secciones. Con el fin de dar una idea de lo que se hará en las dos primeras
secciones, se considerará un espacio vectorial U y una transformación lineal T : U → U. Ahora; si existe
una base ordenada B = {u1 , u2 , . . . , un } de U tal que [T ]BB es una matriz diagonal, es decir,
λ1 0 · · · 0
2 3
6 0 λ2 · · · 0 7
[T ]BB = D = 6 . .. .. .. 7 ,
6 7
4 .. . . . 5
0 0 · · · λn
entonces
T (ui ) = λi ui ; i = 1, 2, . . . , n ,

esto es, T (ui ) es un múltiplo escalar de ui . Este hecho da información inmediata acerca de la transformación
lineal T . Por ejemplo, la imagen de T es el espacio generado por los vectores ui para los cuales λi 6= 0,
y el núcleo de T es el espacio generado por los restantes vectores ui . En la sección 3.2 se responderán las
preguntas: ¿Para qué transformaciones lineales T existe una tal base B? y si existe, ¿Cómo encontrarla?.
Las respuestas a estas preguntas están directamente ligadas a los conceptos de valor propio y vector propio,
los cuales serán abordados en la sección 3.1. Se verá en esta sección, de que el cálculo de los valores propios y
los vectores propios de una transformación lineal T se reduce al cálculo de los valores propios y los vectores
propios de una cierta matriz A. Por otro lado, en las secciones 3.3 y 3.4 se consideraran los conceptos de valor
propio, vector propio y diagonalización de matrices simétricas, los cuales son particularmente importantes
en la teoría y en aplicaciones del álgebra lineal.

3.1. Valores propios y vectores propios

Un problema que se presenta con frecuencia en el álgebra lineal y sus aplicaciones es el siguiente: Dado un
espacio vectorial U y dada una transformación lineal T : U → U , encontrar valores de un escalar λ para
los cuales existan vectores u 6= 0 tales que T (u) = λu. Tal problema se denomina un problema de valores
propios (la figura 3.1 ilustra las posibles situaciones). En esta sección se verá cómo resolver dicho problema.
3.1. Definición. Sean U un espacio vectorial y T : U → U una transformación lineal. Se dice que el escalar
λ es un valor propio de T , si existe un vector u 6= 0 de U tal que T (u) = λu. A dicho vector no nulo u se
le llama un vector propio de T correspondiente al valor propio λ, o se dice que es λ-vector de T .
Nota. Los valores propios se denominan también eigenvalores o valores característicos y los vectores propios
se denominan también eigenvectores.

31
3.1. Valores propios y vectores propios Diagonalización de matrices

T(u)= λ u u u u

u T(u)= λ u

T(u)= λ u
T(u)= 0

λ>1 0<λ<1 λ<0 λ=0

Figura 3.1. Interpretación geométrica de vector propio

3.2. Ejemplo. Calcule los valores propios de la transformación lineal T : R2 → R2 , dada por T (x, y) =
(2x, x + 3y).

De acuerdo con la definición anterior; el escalar λ es un vector propio T sii existe un vector u = (x, y) 6= 0
de R2 tal que T [(x, y)] = (2x, x + 3y) = λ(x, y), lo que equivale a que exista un vector u = (x, y) 6= 0 de
R2 que satisfaga el sistema
2x = λx
x + 3y = λy .
Ahora, si x 6= 0, entonces se tiene que λ = 2 y por lo tanto y = −x. Esto quiere decir que todos los vectores
de la forma
u = (x, y) = (x, −x); x ∈ R, x 6= 0

son 2-vectores propios de T. En efecto:


T [(x, −x)] = (2x, −2x) = 2(x, −x) .

De otro lado, si x = 0 y y 6= 0 entonces λ = 3. Esto quiere decir que todos los vectores de la forma
u = (x, y) = (0, y); y ∈ R, y 6= 0

son 3-vectores propios de T. En efecto:


T [(0, y)] = (0, 3y) = 3(0, y) . 

La figura 3.2 ilustra el ejemplo anterior.

En el ejemplo anterior observamos que a cada vector propio de T le corresponde un número infinito de
vectores propios (todo un subespacio de U ⊂ R2 , sin el vector nulo). Esto es válido en general, tal como se
establece en la proposición siguiente.
3.3. Proposición. Sean U un espacio vectorial, T : U → U una transformación lineal y λ un valor propio
de T . El conjunto S(λ) de todos los λ-vectores propios de T junto con el vector 0, es un subespacio de U.

Demostración. De acuerdo con la definición de transformación lineal, así como de vector y valor
propio se tiene:

1. Si u1 ∈ S(λ) y u2 ∈ S(λ) entonces


T (u1 + u2 ) = T (u1 ) + T (u2 ) = λ(u1 + u2 ) .
Esto es, u1 + u2 ∈ S(λ).

32
Diagonalización de matrices 3.1. Valores propios y vectores propios

,
T(u ) =3 (0, y)

,
u = (0, y)

x
u = (x, −x)

T(u) =2 (x, −x)

Figura 3.2. Vectores propios de T (x, y) = (2x, x + 3y)

2. Si u ∈ S(λ) y α ∈ R entonces
T (αu) = αT (u) = λ(α · u) .
Esto es, αu ∈ S(λ).

De acuerdo con el teorema 1.15, S(λ) es un subespacio vectorial de U. 


3.4. Definición. Sean U un espacio vectorial, T : U → U una transformación lineal y λ un valor propio de
T.
1. El subespacio de U, S(λ), mencionado en el teorema anterior, se denomina espacio propio asociado
al valor propio λ.
2. La dimensión de S(λ) se denomina multiplicidad geométrica del valor propio λ.
3.5. Nota. Sean U un espacio vectorial, T : U → U una transformación lineal, B una base ordenada
para U y A = [T ]BB , la matriz de la transformación T referida a la base B. Entonces para cada u ∈ U
se tiene [T (u)]B = A [u]B (ver teorema 1.42). En particular, u es un λ-vector propio de T si y sólo si
u 6= 0 y A [u]B = [T (u)]B = [λu]B = λ [u]B . Esto es, u es un λ-vector propio de T si y sólo si u 6= 0
y A [u]B = λ [u]B . Por esta razón, y porque resulta en otros contextos, consideramos a continuación los
conceptos particulares de valor propio y vector propio de una matriz cuadrada A.
3.6. Definición. Sea A una matriz cuadrada de orden n.
1. Se dice que el escalar λ es un valor propio de A, si existe un vector n × 1, x 6= 0 tal que Ax = λx.
2. Si λ es un valor propio de A y si el vector n × 1, x 6= 0 es tal que Ax = λx. Entonces se dice que
x es un vector propio de A correspondiente al valor propio λ, o que x es un λ-vector de A.

En el caso especial de la transformación lineal; A : Rn → Rn ; x → y = Ax, esta la definición anterior


concuerda con la definición 3.1 (véase la sección 1.3). De otro lado, según la definición anterior y la nota
3.5, se puede entonces enunciar el siguiente teorema.
3.7. Teorema. Sean U un espacio vectorial, T : U → U una transformación lineal, B una base ordenada
para U y A = [T ]BB .
1. λ es un valor propio de T sii λ es un valor propio de A.

33
3.1. Valores propios y vectores propios Diagonalización de matrices

2. u ∈ U es un λ-vector propio de T sii x = [u]BB es un λ-vector propio de A.

Dicho teorema garatiza entonces, que el cálculo de los valores y vectores propios de una transformación
lineal se reduce al cálculo de los valores y vectores propios de una cierta matriz A. En lo que sigue, se verá
cómo calcular los valores y vectores propios de una matriz.

Sea A una matriz n × n. Por definición, el escalar λ es un valor propio de A sii existe un vector n × 1, x 6= 0
tal que Ax = λx, lo cual equivale a que el sistema homogéneo de ecuaciones lineales (A − λI)x = 0 tenga
una solución no trivial x 6= 0. Ahora por el teorema 1.56 del capítulo 1, el sistema de ecuaciones lineales
(A − λI)x = 0 tiene una solución x 6= 0 sii |A − λI| = 0. En consecuencia, el escalar λ es un valor propio
de A sii
˛ a11 − λ ···
˛ ˛
a12 a13 a1n ˛
˛ ˛
˛ a21
˛ a22 − λ a 23 · · · a2n ˛
˛
pA (λ) = |A − λI| = ˛
˛ a31 a 32 a33 − λ · · · a3n
˛=0
˛
.. .. .. . . .
.
.
˛ ˛
˛
˛ . . . . ˛
˛
˛ a
n1 a n2 a ···
n3 a −λ ˛ nn

La expresión pA (λ) = |A − λI| es un polinomio en λ de grado n (ejercicio 15), el cual se puede escribir en
la forma:
pA (λ) = |A − λI| = a0 + a1 λ + a2 λ2 + · · · + an−1 λn−1 + (−1)n λn .
En el caso particular de matrices 3 × 3 se tiene además (ejercicio 16), de que el polinomio característico
está dado por
pA (λ) = |A − λI| = −λ3 + Tr(A)λ2 − (m11 + m22 + m33 )λ + det(A),
siendo mii , (i = 1, 2, 3) los menores principales de la matriz A (definición ??).
3.8. Definición. Sea A una matriz cuadrada
1. El polinomio característico de A está dado por pA (λ) = |A − λI|.
2. La ecuación característica de A está dada por pA (λ) = |A − λI| = 0.

El siguiente teorema resume buena parte de la discusión anterior.


3.9. Teorema. Sea A una matriz cuadrada de orden n
1. El escalar λ es un valor propio de A sii λ es una solución (real)1 de la ecuación característica de
A.
2. A tiene a lo más n valores propios (reales)2.[?]
3.10. Definición. Sea A una matriz cuadrada y λ un valor propio de A. La multiplicidad algebraica de λ
es k, si λ es una raíz del polinomio característico de A de multiplicidad k.

El siguiente algoritmo, recoge entonces un esquema para calcular los valores propios y los vectores propios
de una matriz A.

Paso 1 Se determina el polinomio característico pA (λ) = |A − λI| .


Paso 2 Se resuelve la ecuación característica pA (λ) = |A − λI| = 0. Las soluciones (reales) de ésta, son
los valores propios de A.
1Aunque uno puede estudiar espacios vectoriales donde los escalares son números complejos, en estas notas sólo consid-
eramos los valores propios de A como escalares reales, salvo que se exprese lo contrario. No sobra mencionar, que en cursos
avanzados de espacios vectoriales, la única restricción para los escalares es que sean elementos de un sistema matemático
llamado cuerpo o campo.
2El teorema fundamental del álgebra establece que toda ecuación polinómica de grado n, con coeficientes complejos,
tiene exactamente n raí ces complejas, contadas con sus multiplicidades.

34
Diagonalización de matrices 3.1. Valores propios y vectores propios

Paso 3 Para cada valor propio λ∗ de la matriz A, se resuelve el sistema de ecuaciones (A − λ∗ I)x = 0.
Las soluciones no nulas de este sistema son los λ∗ −vectores propios de A.
3.11. Ejemplo. Determine los valores propios y vectores propios de la matriz
2 3
1 1 −1
A = 4 −1 3 −1 5 .
−1 2 0
Se determina inicialmente, el polinomio característico de A, pA (λ) = |A − λI| . Para ello se desarrolla el
determinante |A − λI| por cofactores por la primera fila (véase el teorema 1.3)
˛ ˛
˛ 1−λ 1 −1 ˛˛
˛
pA (λ) = |A − λI| = ˛˛ −1 3 − λ −1 ˛˛
˛ −1 2 −λ ˛
˛ ˛ ˛ ˛ ˛ ˛
˛ 3 − λ −1 ˛ ˛ −1 −1 ˛ ˛ −1 3 − λ ˛˛
= (1 − λ) ˛ ˛ ˛ − 1˛
˛ ˛ − 1˛
˛
2 −λ ˛ −1 −λ ˛ −1 2 ˛

= (1 − λ)(λ2 − 3λ + 2) − (1 − λ) − (−λ + 1)
= (1 − λ)(λ2 − 3λ + 2) = −(1 − λ)2 (λ − 2).
De aquí se tiene, que λ = 1 ó λ = 2 son las soluciones de la ecuación característica pA (λ) = |A − λI| = 0. λ =
1 y λ = 2 so pues los valores propios de A, con multiplicidades algebraicas k = 2 y k = 1 respectivamente.

Ahora se calculan los vectores propios de A. Los 1−vectores propios de A son las soluciones no nulas del
sistema de ecuaciones lineales (A − 1 · I)x = 0. Dicho sistema se resuelve usando el método de eliminación
de Gauss-Jordan (véase el teorema 1.55 ).
2 3 2 3
0 1 −1 1 0 −1
A − 1 · I = 4 −1 2 −1 5 ≈ 4 0 1 −1 5 = R
−1 2 −1 0 0 0
Donde R es la forma escalonada reducida de la matriz A − 1 · I (Teorema 1.8).

Las soluciones del sistema (A − 1 · I)x = 0 son, por lo tanto, los vectores de la forma:
2 3 2 3 2 3
x1 x3 1
x = 4 x2 5 = 4 x3 5 = x3 4 1 5 , x3 ∈ R.
x3 x3 1
En consecuencia,
82 39
< 1 =
Uλ1 = U1 = 4 1 5
1
: ;

es una base para S(λ1 ) = S(1) y la multiplicidad geométrica del valor propio λ1 = 1 es 1.

De otro lado, los 2−vectores propios de A son las soluciones no nulas del sistema de ecuaciones lineales
(A − 2 · I)x = 0. Procediendo como en el cálculo anterior, se tiene:
2 3 2 3
−1 1 −1 1 0 0
A − 2 · I = 4 −1 1 −1 5 ≈ 4 0 1 −1 5 = R
−1 2 −2 0 0 0

Donde R es la forma escalonada reducida de la matriz A − 2 · I. Las soluciones del sistema (A − 2 · I)x = 0

35
3.1. Valores propios y vectores propios Diagonalización de matrices

son los vectores de la forma:


2 3 2 3 2 3
x1 0 0
x = 4 x2 5 = 4 x3 5 = x3 4 1 5 , x3 ∈ R.
x3 x3 1

En consecuencia, 82 39
< 0 =
Uλ2 = U2 = 4 1 5
1
: ;

es una base para S(λ2 ) = S(2) y la multiplicidad geométrica del valor propio λ2 = 2 es 1.

En el ejemplo anterior, la multiplicidad geométrica del valor propio λ1 = 1 es menor que su correspondiente
multiplicidad algebraica y la multiplicidad geométrica del valor propio λ2 = 2 es igual que su correspondiente
multiplicidad algebraica (ver el ejercicio 3.3 de la sección de ejercicios 3.3).
3.12. Ejemplo. Calcule los valores y vectores propios de la matriz
» –
0 1
A= .
−1 0
Para ello se encuentra el polinomio característico de A, pA (λ) = |A − λI| .
˛ ˛
˛ −λ 1 ˛˛
pA (λ) = |A − λI| = ˛ ˛ = λ2 + 1 ,
−1 −λ ˛
y se resuelve la ecuación característica de A, pA (λ) = |A − λI| = 0
pA (λ) = λ2 + 1 = (λ + i)(λ − i) sii λ = i ó λ = −i.
Puesto que las soluciones de la ecuación característica de A no son reales, entonces A no tiene valores
propios y por lo tanto no tiene vectores propios, en el sentido considerado en este texto.
3.13. Ejemplo. Sea T : P2 → P2 la transformación lineal definida por:
T a + bx + cx2 = (a + b − c) + (−a + 3b − c)x + (−a + 2b)x2
ˆ ˜

Determine los valores y los vectores propios de la transformación.

Sea B = 1, x, x2 la base canónica de P2 , se tiene entonces que:


˘ ¯
2 3
1 1 −1
[T ]BB = A = 4 −1 3 −1 5 .
−1 2 0
De acuerdo con el teorema 3.7(1); los valores propios de la transformación lineal T son los valores propios
de la matriz A, los cuales son, según el ejemplo 3.11 λ1 = 1 y λ2 = 2.

De otro lado, del ejemplo 3.11 se sabe que Uλ1 = {x1 } es una base de S(λ1 ) y que Uλ2 = {x2 } es
una base de S(λ2 ), donde
2 3 2 3
1 0
x1 = 4 1 5 y x2 = 4 1 5 .
1 1
Como se estableció en el teorema 3.7(2), estos son respectivamente, los vectores de coordenadas respecto a
la base B (véase apartado 1.2.2) de los vectores de P2 ;
u1 = 1 + x + x2 y u2 = x + x2 .

36
Diagonalización de matrices 3.1. Valores propios y vectores propios

En consecuencia; Uλ1 = {u1 } = 1 + x + x2 es una base del espacio de vectores propios de T correspon-
0
˘ ¯

dientes al valor propio λ1 = 1 y Uλ2 = {u2 } = x + x2 es una base del espacio de vectores propios de T
0
˘ ¯

correspondientes al valor propio λ2 = 2.

Terminamos esta sección con dos resultados que involucran matrices semejantes. El primero de ellos relaciona
los polimomios característicos de matrices semenjantes y el segundo relaciona los vectores propios de dichas
matrices.
3.14. Teorema. Si A y B son matrices semejantes, entonces los polinomios caracterí sticos de A y B son
iguales, y por consiguiente, las matrices A y B tienen los mismos valores propios.

Demostración. Si A y B son matrices semejantes, entonces existe una matriz invertible P tal que
B = P −1 AP. De aquí:
pB (λ) = |B − λI|
˛ −1
˛P AP − λP −1 P ˛
˛
=
˛ −1 ˛
= ˛P (A − λI)P ˛
= |P −1 | |A − λI| |P |
= |P −1 | |P | |A − λI|
= |A − λI|
= pA (λ).


3.15. Nota. El converso del teorema anterior no es cierto; o sea, si A y B son matrices con el mismo poli-
nomio característico, no necesariamente A y B son matrices semejantes. Para mostrar esto, basta considerar
el siguiente ejemplo.
3.16. Ejemplo. Las matrices » – » –
1 0 1 0
A= y B=
0 1 3 1
tienen el mismo polinomio característico; explí citamente se tiene que pA (λ) = pB (λ) = (λ − 1)2 . Sin
embargo, A y B no son matrices semejantes, pues para cualquier matriz invertible P de orden 2 se tiene
que:
P −1 AP = P −1 IP = P −1 P = I 6= B.
3.17. Proposición. Si A y B = P −1 AP son matrices semejantes, entonces x es un λ−vector propio de A
sii P −1 x es un λ−vector propio de B.

Demostración. Por definición se tiene


Ax = λx ⇐⇒ AIx = λx
⇐⇒ AP P −1 x = λx
⇐⇒ P −1 AP P −1 x = λP −1 x
Tomando B = P AP se tiene entonces que: x 6= 0 es un λ-vector propio de A si y sólo si P −1 x 6= 0 es un
−1

λ-vector propio de B = P −1 AP. 

37
3.1. Valores propios y vectores propios Diagonalización de matrices

3.1 Ejercicios

En los ejercicios 1 al 1, responda verdadero o falso, justificando su respuesta:

1. El Polinomio p(λ) = 3+2λ−λ2 +4λ3 puede ser el polinomio característico de una matriz A ∈ M3×3 .
2. Si p(λ) = −λ3 + 4λ2 − 5λ + 2 es el polinomio característico de una matriz A ∈ M3×3 , entonces
|A| =2 2. 3 2 3
1 −3 1 −1
3. x = 4 1 5 es un vector propio de M = 4 −7 5 −1 5
0 −6 6 −2
4. λ = 1 es un valor propio de la matriz M anterior.
5. Sea A una matriz cuadrada de orden n. Si C es una matriz cuadrada de orden n invertible, entonces
las matrices A, C −1 AC y CAC −1 , tienen el mismo polinomio característico.
6. Si la matriz A satisface la igualdad: A2 = 3A − 2I, entonces los posibles valores propios de A son
λ1 = 1, λ2 = 2.

En los ejercicios 7 al 15 demuestre la afirmación correspondiente.

7. Si λ es un valor propio de A, entonces λn es un valor propio de An , n = 1, 2, 3, . . ..


8. Si x es un vector propio de A, entonces x es un vector propio de An , n = 1, 2, 3, . . ..
9. λ = 0 es un valor propio de una matriz A sii |A| = 0.
10. Si A es una matriz invertible y λ es un valor propio de A, entonces λ−1 es un valor propio de A−1 .
11. Si A y C son matrices cuadradas de orden n y si C es invertible entonces las matrices A, AT , C −1 AC,
CAC −1 , C −1 AT C y CAT C −1 tienen el mismo polinomio característico.
12. Si T es una matriz triangular superior, entonces los valores propios de T son los elementos de la
diagonal principal de T.
13. Si A y B son matrices cuadradas del mismo orden, entonces AB y BA tienen los mismos valores
propios (sugerencia: Analice los casos λ = 0 es un valor propio de AB y λ 6= 0 es un valor propio
de AB).
14. Sean λ1 , λ2 , . . . , λn los diferentes valores propios de una matriz A y sean β1 , β2 , . . . , βm son los
diferentes valores propios de una matriz B, entonces los diferentes valores propios de una matriz
de la forma » –
A C
M=
0 B
son λ1 , λ2 , . . . , λn , β1 , β2 , . . . , βm .
15. Si A es una matriz cuadrada de orden n, entonces pA (λ) = |A − λI| es un polinomio de grado n
en la variable λ que tiene la forma:
pA (λ) = a0 + a1 λ + a2 λ2 + · · · + (−1)n λn .
(Sugerencia: usar inducción sobre n).
16. Si A es una matriz cuadrada de orden 3, entonces el polinomio característico de A, pA (λ) = |A − λI|,
tiene la forma
pA (λ) = |A − λI|
= −λ3 + Tr(A)λ2 − (m11 + m22 + m33 )λ + det(A),
siendo mii (i = 1, 2, 3) los menores principales de la matriz A. (Sugerencia: plantee una matriz
general A = (aij )3×3 y use las definiciones correspondientes).
17. Para cada una de las siguientes matrices: encuentre el polinomio característico, los varolres propios
y los correspondientes espacios propios asociados.

38
Diagonalización de matrices 3.2. Diagonalización
» – » –
1 2 1 0
(i) M= (ii) M=
2 1 2 2
» – » –
1 1 0 2
(iii) M= (iv) M=
0 1 −2 0
2 3 2 3
1 −3 3 −3 1 −1
(v) M =4 3 −5 3 5 (vi) M = 4 −7 5 −1 5
6 −6 4 −6 6 −2
2 3 2 3
3 1 −1 2 1 0
(vii) M =4 1 3 −1 5 (viii) M =4 0 1 −1 5
3 1 −1 0 2 4
2 3 2 3
2 4 0 0 0 2 0 0
6 5 3 0 0 7 6 2 1 0 0 7
(ix) M =6
4 0
7 (x) M =6 7
0 1 2 5 4 0 0 1 1 5
0 0 2 −2 0 0 −2 4

3.2. Diagonalización

En esta sección se responderan las preguntas siguientes: Dado un espacio vectorial U y dada una transfor-
mación lineal T : U → U ¿Existe una base B de U tal que [T ]BB es una matriz diagonal? y si existe ¿cómo
encontrar una tal base?

Como se estableció en el teorema 1.48(2), si T : U → U es una transformación lineal, B1 y B2 son bases


ordenadas de U, A = [T ]B1 B1 y P = [I]B2 B1 , entonces D = [T ]B2 B2 = P −1 AP, esto es, las matrices A y D
son semejantes.

Esta consideración permite formular las preguntas anteriores en términos de matrices, así: Dada una matriz
cuadrada A, ¿Existe una matriz diagonal D semejante a la matriz?, en otros términos, ¿existirá una matriz
invertible P tal que P −1 AP = D sea una matriz diagonal? y si existe ¿cómo encontrar una tal matriz P ?
3.18. Definición. Sea A una matriz cuadrada. Se dice que A es diagonalizable si A es semejante a una
matriz diagonal.
3.19. Teorema. Sea A una matriz cuadrada de orden n. Si existen n vectores propios de A linealmente
independientes, entonces A es diagonalizable; esto es, existe una matriz invertible P tal que P −1 AP = D
es una matriz diagonal. Además, los vectores columna de P son los vectores propios de A y los elementos
de la diagonal de D son los correspondientes valores propios de A.

Demostración. Sean λ1 , λ2 , . . . ,λn , los n valores propios de A, los cuales no son necesariamente
diferentes y sean x1 , x2 , . . . , xn , vectores propios de A linealmente independientes, correspondientes respec-
tivamente a cada uno de dichos valores propios.

Sea ahora P la matriz cuya j−ésima columna es el vector propio xj , j = 1, 2, . . . , n, la cual particionamos
como sigue:
ˆ ˜
P = x1 x2 · · · xn .
Puesto que las columnas de P son linealmente independientes, entonces P es invertible (teorema 1.56).

39
3.2. Diagonalización Diagonalización de matrices

Ahora,
ˆ ˜
AP = A x1 x2 ··· xn
ˆ ˜ ˆ ˜
= Ax1 Ax2 ··· Axn = λ 1 x1 λ2 x2 · · · λn xn
··· 0
2 3
λ1 0
ˆ ˜6 0 λ2 ··· 0 7
= x1 x2 ··· xn .. .. .. .. 7
6 7
.
6
4 . . . 5
0 0 · · · λ3
= PD
Donde D es la matriz diagonal indicada arriba. Por lo tanto, P −1 AP = D, y el teorema queda demostrado.


El recí proco de este resultado también es válido y está dado por el siguiente teorema. La demostración se
deja como ejercicio.
3.20. Teorema. Sea A una matriz cuadrada de orden n. Si A es diagonalizable, es decir, si existe una
matriz invertible P tal que P −1 AP = D es una matriz diagonal, entonces existen n vectores propios de A
linealmente independientes. Además, los vectores columna de P son vectores propios de A y los elementos
de la diagonal de D son los correspondientes valores propios de A.
2 3
4 −1 2
3.21. Ejemplo. Verifique que la matriz A = 4 −6 5 −6 5 es diagonalizable y encuentre una matriz
−6 3 −4
invertible P tal que P −1 AP = D sea una matriz diagonal. Para tal fin, veamos que A tiene 3 vectores
propios linealmente independientes. En efecto:

El polinomio característico de A, está dado por


˛ ˛
˛ 4−λ −1 2 ˛
˛ = −(λ − 2)2 (λ − 1).
˛ ˛
pA (λ) = |A − λI| = ˛˛ −6 5−λ −6 ˛
˛ −6 3 −4 − λ ˛

La ecuación característica de A, pA (λ) = |A − λI| = 0 tiene entonces como solución a λ = 2 (de multiplici-
dad 2) y a λ = 1 (de multiplicidad 1). Estos escalares son pues, los valores propios de A.

El paso siguiente es determinar los vectores propios asociados:

Los 2-vectores propios de A son las soluciones no nulas del sistema de ecuaciones (A − 2I)x = 0, y los
1-vectores propios de A son las soluciones no nulas del sistema de ecuaciones (A − 1I)x = 0. Es decir, se
debe resolver sistemas homogéneos de ecuaciones cuyas matrices de coeficientes son respectivamente:
2 3 2 3
2 −1 2 3 −1 2
A − 2I = 4 −6 3 −6 5 y A − 1I = 4 −6 4 −6 5 .
−6 3 −6 −6 3 −5
Es fácil verificar que las soluciones del sistema homogéneo (A − 2I)x = 0 son los vectores de la forma
2 3 2 1 3
x1 x − x3
2 2
x = 4 x2 5 = 4 x2 5
x3 x3
2 3 2 3
1 −1
1 4
= x2 2 5 + x3 4 0 5 , x2 , x3 ∈ R,
2
0 1
40
Diagonalización de matrices 3.2. Diagonalización

en consecuencia, 82 3 2 39
< 1 −1 =
Uλ1 = U2 = 4 2 5 , 4 0 5
0 1
: ;

es una base para S(λ1 ) = S(2).

De otra parte, se encuentra que las soluciones del sistema (A − 1I)x = 0 son los vectores de la forma
2 3 2 1 3 2 3
x1 − 3 x3 −1
1
x = 4 x2 5 = 4 x3 5 = x3 4 3 5 , x3 ∈ R.
3
x3 x3 3
En consecuencia, 82 39
< −1 =
Uλ2 = U1 = 4 3 5
3
: ;

es una base para S(λ2 ) = S(1).

Ahora, los vectores


2 3 2 3 2 3
1 −1 −1
x1 = 4 2 5 , x2 = 4 0 5 y x3 = 4 3 5
0 1 3
son vectores propios de A correspondientes a los valores propios 2, 2 y 1, respectivamente, y son linealmente
independientes como se comprueba fácilmente.

De acuerdo con el teorema 3.19, la matriz A es diagonalizable. Por otro lado, según la demostración del
teorema, la matriz
2 3
ˆ ˜ 1 −1 −1
P = x1 x2 x3 = 4 2 0 3 5
0 1 3
es invertible y es tal que:
2 3
2 0 0
P −1 AP = D = 4 0 2 0 5.
0 0 1
3.22. Ejemplo. La matriz del ejemplo 3.11,
2 3
1 1 −1
A = 4 −1 3 −1 5
−1 2 0
no es diagonalizable, pues vimos en dicho ejemplo, que la matriz A tiene dos valores propios: λ1 = 1 y
λ2 = 2, y que 82 39 82 39
< 1 = < 0 =
U1 = 4 1 5 y U2 = 4 1 5
1 1
: ; : ;

son bases para los espacios propios asociados, respectivamente. Así que A sólo tiene dos vectores propios
linealmente independientes.
3.23. Teorema. Si λ1 , λ2 , . . . , λk son los valores propios diferentes de una matriz A y si x1 , x2 , . . . , xk
son vectores propios de A correspondientes a los valores propios λ1 , λ2 , . . . , λk , respectivamente, entonces
C = {x1 , , x2 , . . . , xk } es un conjunto linealmente independiente.

41
3.2. Diagonalización Diagonalización de matrices

Demostración. La demostración se hará utilizando inducción sobre el número k de vectores del con-
junto C.

Si C = {x1 }, entonces C es linealmente independiente, pues x1 6= 0.

El teorema es cierto para cuando k = 2. En efecto: Si


(3.1) α1 x1 + α2 x2 = 0,
premultiplicando (3.1) por el escalar λ2 se obtiene:
(3.2) λ2 α1 x1 + λ2 α2 x2 = 0.
De otra parte; premultiplicando (3.1) por la matriz A se llega a:
(3.3) λ1 α1 x1 + λ2 α2 x2 = 0.
Restando (3.3) de (3.2) se obtiene:
(λ2 − λ1 )α1 x1 = 0.
Puesto que x1 6= 0, entonces (λ2 − λ1 )α1 = 0. Dado que λ1 6= λ2 se tiene entonces que α1 = 0. Reemplazan-
do este valor de α1 en (3.1) se llega a que α2 x2 = 0, pero x2 6= 0, entonces α2 = 0.

Suponga ahora que el teorema es cierto para cuando k = j y verifique que el teorema es cierto para
cuando k = j+1. Si
(3.4) α1 x1 + α2 x2 + . . . + αj xj + αj+1 xj+1 = 0,
premultiplicando (3.4) por el escalar λj+1 se obtiene:
(3.5) λj+1 α1 x1 + λj+1 α2 x2 + . . . + λj+1 αj xj + λj+1 αj+1 xj+1 = 0,
De otra parte; premultiplicando (3.4) por la matriz A se llega a:
(3.6) λ1 α1 x1 + λ2 α2 x2 + . . . + λj αj xj + λj+1 αj+1 xj+1 = 0.
Restando (3.6) de (3.5) se obtiene:
(λj+1 − λ1 )α1 x1 + (λj+1 − λ2 )α2 x2 + . . . + (λj+1 − λj )αj xj = 0.
Por hipótesis de inducción se tiene
(λj+1 − λ1 )α1 = (λj+1 − λ2 )α2 = . . . = (λj+1 − λj )αj = 0 .
De otro lado, por hipótesis del teorema los escalares λ1 , . . . , λj , λj+1 son diferentes, entonces se obtiene que
α1 = α2 = . . . = αj = 0. Reemplazando estos valores en 3.4 se llega a que αj+1 xj+1 = 0, pero xj+1 6= 0,
entonces αj+1 = 0. El teorema queda entonces demostrado. 

La prueba del siguiente corolario es consecuencia inmediata de los teoremas 3.23 y 3.19.
3.24. Corolario. Sea A una matriz cuadrada de orden n. Si A posee n valores propios distintos, entonces
A es diagonalizable.
3.25. Ejemplo. La matriz 2 3
1 2 3
A=4 0 4 5 5
0 0 6 3×3
es diagonalizable. En efecto, la ecuación característica de A es:
pA (λ) = |A − λI| = (−1)3 (λ − 1)(λ − 4)(λ − 6) = 0.
De esto se sigue que A tiene tres valores propios distintos, a saber: λ1 = 1, λ2 = 4 y λ3 = 6.

42
Diagonalización de matrices 3.2. Diagonalización

De acuerdo con los teoremas 3.19 y 3.20, dada la matriz cuadrada A de orden n; existe una matriz invertible
P tal que P −1 AP = D es una matriz diagonal sii A tiene n vectores propios linealmente independientes.
Además, si existe una tal matriz P , los vectores columna de P son vectores propios de A y los elementos de
la diagonal de D son los valores propios de A. Quedan así contestadas las preguntas propuestas al comienzo
de esta sección sobre la diagonalización de matrices. El siguiente teorema responde a las preguntas sobre
diagonalización pero formuladas en el contexto de las transformaciones lineales.
3.26. Teorema. Sea U un espacio de dimensión n y sea T : U → U una transformación lineal. Existe
una base ordenada B2 de U tal que [T ]B2 B2 = D es una matriz diagonal sii T tiene n vectores propios
linealmente independientes. Además, si B2 = {u1 , u2 , . . . , un } es una base ordenada de U tal que
λ1 0 · · · 0
2 3
6 0 λ2 · · · 0 7
[T ]B2 B2 = D = 6 .
6 7
.. .. .. 7
4 .. . . . 5
0 0 · · · λn
es una matriz diagonal, entonces ui es un λi -vector propio de T, o sea T (ui ) = λi ui , i = 1, 2, . . . , n.
Demostración. Puesto que las matrices asociadas a transformaciones lineales y referidas a bases
arbitrarias son semejantes, y puesto que el polinomio característico de matrices semejantes es el mismo (ver
teorema 3.14), se puede considerar una base arbitraria B1 para U .

Sea pues A = [T ]B1 B1 , la matriz de la transformación T referida a dicha base B1 , Existe una base ordenada
B2 de U tal que D = [T ]B2 B2 = [I]−1 B2 B1 A [I]B2 B1 es una matriz diagonal sii A es semejante a una matriz
diagonal. Ahora por los teoremas 3.19 y 3.20; A es semejante a una matriz diagonal si y sólo si A tiene n
vectores propios linealmente independientes, lo cual equivale a que T tenga n vectores propios linealmente
independientes (ver el apartado 1.2.2)

Además, si B2 = {u1 , u2 , . . . , un } es una base ordenada de U tal que


···
2 3
λ1 0 0
6 0 λ1 ··· 0 7
[T ]B2 B2 = D = 6 . .. .. ..
6 7
4 .. .
7
. . 5
0 0 ··· λ1
es una matriz diagonal, entonces, de acuerdo con la definición de la matriz [T ]B2 B2 , T (ui ) = λi ui ; o sea,
ui es un λi -vector propio de T , i = 1, 2, . . . , n. 

3.27. Ejemplo. Considere la transformación lineal T : P3 → P3 definida por:


T a + bx + cx2 = (4a − b + 2c) + (−6a + 5b − 6c)x + (−6a + 3b − 4c)x2 .
ˆ ˜

Encuentre una base ordenada B2 de U = P2 tal que [T ]B2 B2 = D es una matriz diagonal.

Sea B1 = {1, x, x²} la llamada base canónica de P2 entonces:


2 3
4 −1 2
A = [T ]B1 B1 = 4 −6 5 −6 5 ,
−6 3 −4
que es la matriz del ejemplo 3.21. De dicho ejemplo se sabe que
2 3 2 3 2 3
1 −1 −1
x1 = 4 2 5 , x2 = 4 0 5 y x3 = 4 3 5 ,
0 1 3
43
3.2. Diagonalización Diagonalización de matrices

son vectores propios linealmente independientes de A, correspondientes respectivamente a los valores propios
2, 2 y 1. Tales vectores x1 , x2 y x3 son los correspondientes vectores de coordenadas, respecto a la base B1 ,
de los vectores u1 , u2 y u3 de P2 para
u1 = 1 + 2x; u2 = −1 + x2 y u3 = −1 + 3x + 3x2 .
Ahora, los valores propios de T son los valores propios de A (ver teorema 3.7), esto es, los diferentes
valores propios de T son λ1 = 2 y λ2 = 1. De otro lado, por lo establecido en el apartado 1.2.2, u1 , u2 y
u3 son vectores propios de T linealmente independientes, correspondientes a los valores propios 2, 2 y 1,
respectivamente. En consecuencia, de acuerdo con el teorema anterior, B2 = {u1 , u2 , u3 } es una base para
P2 tal que: 2 3
2 0 0
[T ]B2 B2 = D = 4 0 2 0 5 .
0 0 1

Como se ha visto, dada una matriz cuadrada A de orden n, existe una matriz invertible P tal que P −1 AP =
D es una matriz diagonal sii existen n vectores propios de A linealmente independientes. En el caso en
que A no posea n vectores propios linealmente independientes, es posible, bajo cierta condición, que A sea
semejante a una matriz triangular superior T ; es decir, que A sea semejante a una matriz T = [tij ]n×n para
la cual tij = 0 si i > j. El siguiente teorema explicita esta afirmación.
3.28. Teorema. Sea A una matriz cuadrada (real) de orden n. Todas las soluciones de la ecuación car-
acterística de A son reales sii existe una matriz invertible P (real) tal que P −1 AP = T es una matriz
triangular superior. Además, si existe una tal matriz P , entonces los elementos de la diagonal de T son los
valores propios de A.

Demostración. (=⇒) La demostración en este sentido se hará, utilizando inducción sobre el orden
n de la matriz A. Para cuando n = 2, la implicación es verdadera. En efecto, de la hipótesis se sigue que
A tiene dos valores propios (reales) los cuales no son necesariamente distintos. Sea λ1 un valor propio de
A. Existe por lo tanto un vector 2 × 1, x1 6= 0 tal que Ax1 = λ1 x1 . Por el teorema1.21(3), existe un vector
2 × 1, x2 6= 0 tal que B = {x1 , x2 } es una base para M2×1 . Ahora, la matriz P = [ x1 x2 ] es invertible;
escribamos a P −1 particionada por filas así:
» –
y1
P −1 = , y1 , y2 ∈ M1×2 ,
y2
entonces se tiene que
» – » –
y1 λ y1 Ax2
P −1 AP =
ˆ ˜
A x1 x2 = =T
y2 0 y2 Ax2
es una matriz triangular superior.

Supongamos ahora que la implicación es verdadera para cuando n = j − 1 y demostremos que ésta es
verdadera cuando n = j, j ≥ 3. Sea A una matriz cuadrada de orden j para la cual todas las soluciones
de su ecuación característica son reales. De ésto se sigue que A tiene j valores propios (reales) los cuales
no son necesariamente distintos. Sea λ1 un valor propio de A. Existe por lo tanto un vector j × 1, x1 6= 0
tal que Ax1 = λ1 x1 . Por el teorema 1.21(3), existen j − 1 vectores x2 , x3 , . . . , xj de Mj×1 tales que
B = {x1 , x2 , x3 , . . . , xj } es una base para Mj×1 . Ahora por el teorema 1.56, la matriz
ˆ ˜ ˆ ˜
P1 = x1 x2 · · · xj = x1 M
es invertible. Escribamos la inversa P −1 así:
» –
y1
P1−1 = , y1 ∈ M1×j , y N ∈ M(j−1)×j .
N
44
Diagonalización de matrices 3.2. Diagonalización

Entonces se tiene
» – » – » –
y1 λ1 y1 AM λ1 B
P1−1 AP1 =
ˆ ˜
A x1 M = = = T1
N 0 N AM 0 C
es una matriz triangular superior por bloques.

Ahora, las matrices A y T1 tienen el mismo polinomio característico (teorema 3.14):


pA (λ) = pT1 (λ) = (λ1 − λ) |C − λI| .
De ésto se sigue, que todas las soluciones de la ecuación característica de la matriz cuadrada de orden j − 1,
C, son reales. Por hipótesis de inducción, existe una matriz invertible Q tal que Q−1 CQ = T2 es una matriz
triangular superior. Sea ahora: » –
1 0
P2 = ,
0 Q
entonces se tiene que la matriz invertible P = P1 P2 es tal que
» –» –» –
1 0 λ1 B 1 0
P −1 AP = P2−1 P1−1 AP1 P2 =
0 Q−1 0 C 0 Q
» – » –
λ1 BQ λ1 BQ
= −1 = =T
0 Q CQ 0 T2
es una matriz triangular superior.

La demostración de la otra implicación y de la segunda afirmación del teorema quedan como ejercicio
para el lector. 
3.29. Ejemplo. Todas las soluciones de la ecuación característica de la matriz del ejemplo 3.22
2 3
1 1 −1
A = 4 −1 3 −1 5
−1 2 0 3×3
son reales, pues:
pA (λ) = −(λ − 1)2 (λ − 2) = 0 sii λ1 = 1 ó λ2 = 2 .
De otro lado, como lo establecimos en el ejemplo 3.22, la matriz A no es diagonalizable, pues A sólo posee
dos vectores propios linealmente independientes. En particular:
2 3 2 3
1 0
x1 = 4 1 5 y x2 = 4 1 5
1 1
son vectores propios linealmente independientes correspondientes a los valores propios λ1 = 1 y λ2 = 2,
respectivamente.

Por el teorema anterior, existe una matriz invertible P tal que P −1 AP = T es una matriz triangular
superior. Para encontrar una tal matriz P , basta proporcionar un vector x3 tal que B = {x1 , x2 , x3 } sea
una base para M3×1 ; el vector 2 3
0
x3 = 4 2 5
3
sirve para tal efecto. Ahora bien, la matriz
2 3
ˆ ˜ 1 0 0
P = x1 x2 x3 = 4 1 1 2 5
1 1 3
45
3.2. Diagonalización Diagonalización de matrices

es invertible y es tal que


2 3
1 0 −1
−1
P AP = T = 4 0 2 2 5
0 0 1

es una matriz triangular superior.

De acuerdo con el teorema anterior, si A es una matriz cuadrada (real) cuyos valores propios no son todos
reales entonces, no puede existir una matriz invertible P (real) tal que P −1 AP = T sea una matriz triangular
superior. Ahora bien, como se ha mencionado se pueden estudiar espacios vectoriales donde los escalares
sean números complejos (ver piés de página de la página 34) y se pueden obtener resultados más generales.
En particular, se tiene que para toda matriz cuadrada A (real o compleja) existe una matriz invertible P
(real o compleja) tal que P −1 AP = T sea una matriz triangular superior. Este resultado se tiene, gracias
a la propiedad importante del sistema de los números complejos que establece, que todo polinomio de
grado n con coeficientes reales o complejos tiene exactamente n raíces reales o complejas, contadas sus
multiplicidades. En el teorema siguiente se establece este resultado sin demostración. Quien desee estudiar
sobre éste, puede consultar las secciones 5.5 y 5.6 de [1].

3.30. Teorema. Para toda matriz cuadrada A (real o compleja) existe una matriz invertible P (real o
compleja) tal que P −1 AP = T es una matriz triangular superior. Además, los elementos de la diagonal de
T son las soluciones de la ecuación característica de A.

3.31. Ejemplo. Considere la matriz (real)


2 3
1 0 0
A=4 0 0 1 5.
0 −1 0

La ecuación característica de A es

pA (λ) = |A − λI| = −(λ − 1)(λ2 + 1)


= −(λ − 1)(λ − i)(λ + i) = 0 .

De esto se sigue que A sólo tiene un valor propio real, a saber, λ1 = 1.

En este caso no es posible que exista una matriz invertible P (real) tal que P −1 AP = T sea una ma-
triz triangular superior. Sin embargo, en el contexto de los espacios vectoriales donde los escalares son
números complejos, se puede decir, que A tiene tres valores propios complejos λ1 = 1, λ2 = i y λ3 = −i .
Efectuando, en este contexto, los cálculos pertinentes, se encuentra que
2 3 2 3 2 3
1 0 0
x1 = 4 0 5 , x2 = 4 −i 5 y x3 = 4 i 5
0 1 1

son tres vectores propios complejos de A linealmente independientes correspondientes a los valores propios
complejos λ1 = 1, λ2 = i y λ3 = −i respectivamente. Así que la matriz compleja:
2 3
ˆ ˜ 1 0 0
P = x1 x2 x3 = 4 0 −i i 5
0 1 1
46
Diagonalización de matrices 3.2. Diagonalización

es invertible y es tal que


2 32 32 3
1 0 0 1 0 0 1 0 0
P −1 AP = 4 0 i/2 i/2 5 4 0 0 1 54 0 −i i 5
0 −i/2 i/2 0 −1 0 0 1 1
2 3
1 0 0
= 4 0 i 0 5=D
0 0 −i
es una matriz diagonal, y por lo tanto, es una matriz triangular superior.

3.2 Ejercicios

En los ejercicios 1 al 1 responda verdadero o falso, justificando su respuesta:

1. Si una matriz cuadrada A es diagonalizable, entonces existen infinitas matrices invertibles P tales
que P −1 AP = D es una matriz diagonal.
2. Si A es una matriz 3 × 3con valores propios λ1 = −1, λ2 = 2 y λ3 = 3 entonces A es diagonalizable,
det A = −6 y Tr(A) = 4.
3. Si A es una matriz invertible y λ es un valor propio de A entonces λ 6= 0 y (1/λ)es un valor propio
de A−1 .

En los ejercicios 4 al 7 demuestre la afirmación correspondiente

4. Sea A ∈ Mn×n tal que pA (λ) = (−1)n (λ − λ1 )(λ − λ2 ) · · · (λ − λn ), Demuestre que: (i) |A| =
λ1 λ2 · · · λn y (ii) Tr A = λ1 + λ2 + · · · + λn .
5. Sea A una matriz cuadrada n × n tal que
n
X
|aii | > |aij |,
j6=i,j=1

para todo i = 1, 2, . . . n, entonces A es invertible. (Sugerencia: suponga que existe un vector x =


[ x1 x2 · · · xn ]T 6= 0 tal que Ax = 0 y que |xi | = máx{|x1 |, |x2 |, . . . |xn |}. Despeje aii xi en
la i-ésima ecuación del sistema Ax = 0, tome valor » absoluto– y llegue a una contradicción).
A C
6. Sean A ∈ Mn×n ; B ∈ Mm×m ; C ∈ Mn×m y M = .
0 B
a) Describa el conjunto de valores propios de M en términos de los valores propios de A y de B.
(Sugerencia: calcule pA (λ) = det(M − λI)). » –
x1
b) Demuestre que si x1 es un λ-vector propio de A entonces x = es un λ-vector propio
0
de M.
7. Si A es una matriz n × n tal que A2 = mA, entonces
Tr A = mρ(A).
(Sug.: considere (i) ρ(A) = 0, (ii) ρ(A) = n y (ii) 0 < ρ(A) < n, use el teorema 3.28)
8. Considere cada una de las matrices M del problema 17 de la sección de ejercicios 3.1. Encuentre,
si es posible, una matriz invertible P tal que P −1 M P sea una matriz diagonal

9. Sea T : P2 → P2 la transformación lineal definida por


T [a + bx + cx2 ] = (a − b + 4c) + (3a + 2b − c)x + (2a + b − c)x2 .
a) Calcule los valores propios y los vectores propios.
b) Dé, si existe, una base ordenada C de P2 tal que [T ]CC sea una matriz diagonal.

47
3.3. Matrices simétricas Diagonalización de matrices

3.3. Diagonalización de matrices simétricas

En esta sección se limitará el estudio de los conceptos de valor propio, vector propio y diagonalización a
matrices simétricas. Dos resultados importantes que se verán en esta sección son los siguientes: (i) Todas
las soluciones de la ecuación característica de toda matriz simétrica (real) son reales, y (ii) Toda matriz
simétrica (real) es diagonalizable, y más aún, diagonalizable en una forma especial.

Como se verá en el capítulo 4, los valores propios de una matriz simétrica se utilizan como criterio para
decidir cuándo una forma cuadrática es positivamente (negativamente) definida (semidefinida) o indefinida.

Como se estableció al final de la sección anterior, uno puede estudiar espacios vectoriales donde los es-
calares son números complejos. únicamente en la demostración del teorema 3.32, se utilizarán los hechos
siguientes que involucran números complejos.

1. El conjugado del número complejo z = a + bi, a, b ∈ R, se denota por z y se define así: z = a − bi.
2. Un número complejo z es real sii z = z.
3. La matriz conjugada de la matriz compleja n × n, A, se de nota por A y cuyos componentes son
hAij i = hAiij , i, j = 1, 2, . . . , n.
4. Para todo vector complejo n × 1, x, se tiene: x T x = xT x y x T x = 0 sii x = 0.
5. Para toda matriz cuadrada A con componentes complejas; |A| = 0 sii existe un vector x 6= 0, con
componentes complejas, tal que Ax = 0.
3.32. Teorema. Sea A una matriz (real) cuadrada de orden n. Si A es una matriz simétrica, entonces
todas las soluciones de la ecuación característica de A: pA (λ) = |A − λI| = 0, son reales. Esto es, A tiene
n valores propios (reales) los cuales no son necesariamente diferentes.

Demostración. Si pA (λ) = |A − λI| = 0, entonces por (5), existe un vector x 6= 0 tal que:
(3.1) Ax = λx
de esto se sigue que, (ver (3) y (2)):
(3.2) Ax = λx .
Ahora, premultiplicando (3.1) por x T
y (3.2) por xT se tiene
(3.3) x T Ax = λx T x y xT Ax = λxT x ,
puesto que x T Ax = (x T Ax)T = xT AT x = xT Ax, de (3.3) se sigue que:
(3.4) λx T x = λxT x .
De (4) se tiene que x T x = xT x, por lo tanto, de (3.4) se concluye que :
(λ − λ)x T x = 0.
Ya que x 6= 0, de (4) se tiene que
(λ − λ) = 0 o sea, λ = λ.
en consecuencia, por (2), λ es un número real. 

En lo que resta de estas notas, no se hará más referencia al sistema de números complejos.

El teorema 3.23 establece que, para cada matriz cuadrada A, los vectores propios correspondientes a valores
propios diferentes son linealmente independientes. Para matrices simétricas se tiene un resultado más fuerte.
Este resultado se establece en el teorema siguiente.

48
Diagonalización de matrices 3.3. Matrices simétricas

3.33. Teorema. Si λ1 , λ2 , . . . , λk son los valores propios diferentes de una matriz simétrica A y si x1 , x2 , . . . , xk
son vectores propios de A correspondientes a los valores propios λ1 , λ2 , . . . , λk , respectivamente, entonces
el conjunto de vectores C = {x1 , x2 , . . . , xk } es ortogonal.

Demostración. Se debe demostrar que hxi ; xj i = xTi xj = 0 si i 6= j, para i, j = 1, 2, . . . k

Por la hipótesis se tiene que:


(3.5) Axi = λ i xi , y
(3.6) Axj = λ j xj .
Ahora, premultiplicando (3.5) por xTj y a (3.6) por xTi , se obtiene
(3.7) xTj Axi = λi xTj xi y xTi Axj = λj xTi xj ,
puesto que xTj Axi = (xTj Axi )T = xTi AT xj = xTi Axj , de (3.7) se sigue que:
(3.8) λxTj xi = λj xTi xj .
Ya que xTj xi = xTi xj de (3.8) se concluye que:
(λi − λj )xTi xj = 0.
Ahora bien, los valores propios son distintos, entonces xTi xj = 0, si i 6= j, i, j = 1, 2, . . . k. 
3.34. Definición. Se dice que una matriz cuadrada P es ortogonal, si P es invertible y P −1 T
=P .
3.35. Ejemplo. La matriz 2 3
1 −2 2
14
P = 2 2 1 5
3
2 −1 −2
es ortogonal, pues:
2 3 2 3 2 3
−2
1 2 1 2 2 1 0 0
T 14 1
PP =P = 2 2 1 5 4 −2 2 −1 5 = 4 0 1 0 5 = I.
3 3
−1 −2
2 2 1 −2 0 0 1
3.36. Proposición. Una matriz P = x1 x2 · · · xn es ortogonal sii el conjunto B = {x1 , x2 , . . . , xn }
ˆ ˜

constituye una base ortonormal de Mn×1 .

Demostración. La matriz P = es ortogonal sii P T P = I. Ahora bien,


ˆ ˜
x1 x2 ··· xn

xT1 xT1 x1 xT1 x2 ··· xT1 xn


2 3 2 3
6 7 6 7
6 T 6 T
xT2 x2 xT2 xn
7 7
6 x2 7 6 x2 x1 ··· 7
PTP = 6 . 7 [x1 x2 · · · xn ] = 6 .. .. .. ..
6 7 6 7
6 .. .
7
6
7
7
6
6 . . . 7
7
4 5 4 5
xTn xTn x1 xTn x2 ··· xTn xn
Es fácil entonces observar, que P T P = I si y sólo si se cumple que:
(
T 1 si 6 j
i=
xi xj = ; i, j = 1, 2, . . . , n ,
0 si i=j
lo cual equivale a que B = {x1 , x2 , . . . , xn } es una base ortonormal de Mn×1 (ver sección 1.2.3). 

49
3.3. Matrices simétricas Diagonalización de matrices

3.37. Teorema. Si λ∗ es un valor propio de una matriz simétrica, entonces las multiplicidades algebraica
y geométrica de λ∗ son iguales.

Demostración. Sea A una matriz simétrica de orden n y sea λ∗ un valor propio de A. Supongamos que
la multiplicidad geométrica de λ∗ es r. Por el teorema 1.33, existe una base ortonormal B = {x1 , x2 , . . . , xr }
del espacio de vectores propios asociados a λ∗ , S(λ∗ ). Si r = n, la matriz P = [ x1 x2 · · · xn ] es
ortogonal (proposición 3.36), y de acuerdo con el teorema 3.19,

P T AP = P −1 AP = D = λ∗ I .

Ahora, las matrices A y D tienen igual polinomio característico:

pA (λ) = pD (λ) = |λ∗ I − λI| = (λ∗ − λ)n .

De esto se sigue que λ∗ es un valor propio de A con multiplicidad algebraica r = n.

De otra parte, si r < n, existen n−r vectores y1 , y2 , . . . , yn−r de Mn×1 tales que B = {x1 , . . . , xr , y1 , . . . , yn−r }
es una base ortonormal de Mn×1 (teorema 1.34). Por la proposición 3.36, la matriz
ˆ ˜ ˆ ˜
P = x1 x2 ··· xr y1 y2 ··· yn−r = X Y

es ortogonal. Considere ahora la matriz T = P T AP = P −1 AP, es decir, la matriz:

XT
» –
ˆ ˜
T = A X Y
YT

λ∗ I X T AY
» –
=
0 Y T AY
λ∗ I
» –
B
= .
0 C

Puesto que A es simétrica, T T = (P T AP )T = P T AT P = P T AP = T, o sea

λ∗ I λ∗ I
» – » –
B 0
= ,
0 C B CT

por lo tanto B = 0 y
λ∗ I
» –
0
T = .
0 C

Puesto que las matrices A y T son semejantes, entonces tienen el mismo polinomio característico:

pA (λ) = pT (λ) = |T − λI| = (λ∗ − λ)r |C − λI| .

De esto se sigue, que λ∗ es un valor propio de A con multiplicidad algebraica k ≥ r. Veamos que k = r. Si
k > r, entonces se debe tener que |C − λ∗ I| = 0, y por lo tanto existe un vector (n − r) × 1, w 6= 0 tal que
Cw = λ∗ w.

50
Diagonalización de matrices 3.3. Matrices simétricas
» –
0
Considere ahora el vector no nulo u ∈ Mn×1 dado por u = P . Es decir,
w
2 3
0
6 0 7
..
6 7
6 7
.
6 7
» – 6 7
0 0
6 7
u=P = [x1 x2 · · · xr y1 y2 · · · yn−r ] 6
6 7
w w1
7
6 7
w2
6 7
6 7
..
6 7
.
6 7
4 5
wn−r
= w1 y1 + w2 y2 + · · · wn−r yn−r .
Esto es, el vector u ∈ hy1 , y2 , . . . , yn−r i y u ∈
/ hx1 , x2 , . . . , xr i

De otro lado, el vector u, es un λ∗ -vector propio de A. En efecto,


» ∗ – » – » ∗ –» –
λ I 0 0 λ I 0 0
Au = P PTP =P
0 C w 0 C w
» – » –
0 0
= P =P
Cw λ∗ w
» –
0
= λ∗ P = λ∗ u .
w
Esto indica, que B = {x1 , x2 , . . . , xr , ur+1 } es un conjunto de r + 1 vectores propios linealmente indepen-
dientes correspondientes al valor propio λ∗ , lo cual contradice el hecho de que la multiplicidad geométrica
de λ∗ sea r. 
3.38. Teorema. Si A es una matriz simétrica de orden n, entonces A tiene n vectores propios ortogonales,
y por tanto, linealmente independientes.

Demostración. Sean λ1 , λ2 , . . . , λk los diferentes valores propios de A. Supongamos que la multipli-


cidad algebraica de λi es mi, mi = 1, 2, . . . , k; esto es, supongamos que
pA (λ) = (−1)n (λ − λ1 )m1 (λ − λ2 )m2 · · · (λ − λk )mk ,
donde m1 + m2 + · · · + mk = n.

Por el teorema anterior, la multiplicidad geométrica de λi es mi , i = 1, . . . , k. Sean ahora:


U1 = {x11 , . . . , x1m1 }, · · · , Uk = {xk1 , . . . , xkmk }
bases ortogonales de S(λ1 ), · · · , S(λk ) respectivamente. Entonces por el teorema 3.33, el conjunto de n
vectores propios de A:
U = U1 ∪ U2 ∪ · · · ∪ Uk
= {x11 , . . . , x1m1 , x21 , . . . , x2m2 , . . . , xk1 , . . . , xkmk }
es ortogonal. 

La demostración del siguiente corolario es consecuencia inmediata del teorema 3.38 y del teorema 3.19.
3.39. Corolario. Toda matriz simétrica es diagonalizable.
3.40. Definición. Sea A una matriz cuadrada. Se dice que A es ortogonalmente diagonalizable si existe un
matriz ortogonal P tal que P T AP = D es una matriz diagonal.

51
3.3. Matrices simétricas Diagonalización de matrices

3.41. Teorema. Si A es una matriz simétrica, entonces A es ortogonalmente diagonalizable; esto es, existe
una matriz ortogonal P tal que P T AP = D es una matriz diagonal. Más aún, las columnas de la matriz P
son los vectores propios de A y los elementos de la diagonal de D son los valores propios de A.

Demostración. Sea A es una matriz simétrica de orden n, entonces A tiene n vectores propios
ortonormales x1 , x2 , . . . , xn (teorema 3.38). Supongamos que éstos corresponden a los valores propios
λ1 , λ2 , . . . , λn , respectivamente. La matriz P = [ x1 x2 · · · xn ] es ortogonal (proposición 3.36), y de
acuerdo con la demostración del teorema 3.19, se tiene que

···
2 3
λ1 0 0
6 0 λ2 ··· 0 7
P T AP = P −1 AP = D = 6 .. .. .. .. 7.
6 7
4 . . . . 5
0 0 ··· λn

El recíproco del teorema 3.41 también es válido y está dado por el siguiente
3.42. Teorema. Si una matriz A es ortogonalmente diagonalizable, entonces A es simétrica.

Demostración. Por hipótesis, existe una matriz ortogonal P que diagonaliza a la matriz A, esto es,
se tiene que P T AP = D, siendo D una matriz diagonal. De aquí que:
A = P DP T = (P DT P T )T = (P DP T )T = AT ,
o sea, A es una matriz simétrica. 
3.43. Ejemplo. Para la matriz simétrica:
2 3
5 2 2
A=4 2 2 −4 5
2 −4 2 3×3
encontre una matriz ortogonal P tal que P T AP = D sea una matriz diagonal.

Para ello se debe encontrar tres vectores propios de A ortonormales. El polinomio característico de A,
pA (λ) = |A − λI| está dado por:
˛ ˛
˛ 5−λ 2 2 ˛˛
−4 ˛˛ = −(λ + 3)(λ − 6)2 .
˛
pA (λ) = |A − λI| = ˛˛ 2 2−λ
˛ 2 −4 2−λ ˛
Se requiere ahora resolver la ecuación característica de A, pA (λ) = |A − λI| = 0. Pero dado que
pA (λ) = −(λ + 3)(λ − 6)2 = 0 sii λ = −3 ó λ=6
se tiene entonces, que los diferentes valores propios de A son λ1 = −3 y λ2 = 6.

Por definición, los (−3)-vectores propios de A son las soluciones no nulas del sistema de ecuaciones lineales
(A + 3I) x = 0 y los 6-vectores propios de A son las soluciones no nulas del sistema de ecuaciones lineales
(A − 6I)x = 0. Se tiene entonces:
2 3 2 3
8 2 2 −1 2 2
A + 3I = 4 2 5 −4 5 y A − 6I = 4 2 −4 −4 5 .
2 −4 5 2 −4 −4
52
Diagonalización de matrices 3.3. Matrices simétricas

Es fácil verificar, que las soluciones del sistema homogéneo (A + 3I)x = 0 son los vectores de la forma:
2 3 2 1 3 2 3
x1 − 2 x3 −1
1
x = 4 x2 5 = 4 x3 5 = x3 4 2 5 ; x3 ∈ R.
2
x3 x3 2
En consecuencia, 82 39
< −1 =
bλ1 = U
U b−3 = 4 2 5 ,
2
: ;

es una base para S(λ1 ) = S(−3). Aplicando el proceso de ortogonalización de Gram-Scmidt a esta base
(vea el teorema 1.33), se llega a que:
8 2 39
−1 =
1
<
U
bλ1 = U
b−3 = 4 2 5 ,
:3
2
;

es una base ortonormal de S(λ1 ) = S(−3).

De otra parte, se encuentra que las soluciones del sistema homogéneo (A − 6I)x = 0 son los vectores de la
forma:
2 3 2 3
x1 2x2 + 2x3
x = 4 x2 5 = 4 x2 5
x3 x3
2 3 2 3
2 2
= x2 4 1 5 +x3 4 0 5 ; x2 , x3 ∈ R.
0 1
En consecuencia, 82 3 2 39
< 2 2 =
U
bλ2 b6 = 4 1 5 , 4 0 5 ,
=U
0 1
: ;

es una base para S(λ2 ) = S(6). Aplicando el proceso de ortogonalización de Gram-Schmidt a esta base se
llega a que: 8 2 3 2 39
2 2 =
1 1
<
U
bλ2 = Ub6 = √ 4 1 5 , √ 4 −4 5 ,
: 5 3 5
0 5
;

es una base ortonormal de S(λ2 ) = S(6).

Según la demostración del teorema 3.38,


8 2 3 2 3 2 39
−1 2 2 =
14 1 1
<
bλ1 ∪ U
U =U bλ2 = 2 5 , √ 4 1 5 , √ 4 −4 5 ,
:3 5 3 5
2 0 5
;

es un conjunto ortonormal de vectores propios de A. Ahora, según la demostración del teorema 3.41, la
matriz,
1 2 2
2 3
− √ √
6 3 5 3 5 7
6 7
6 2 1 4 7
P =6 6 3 √ − √ 7
6 5 3 5 7 7
4 2 2 5
0 √
3 3 5
53
3.3. Matrices simétricas Diagonalización de matrices

es ortogonal tal que 2 3


−3 0 0
T −1
P AP = P AP = D = 4 0 6 0 5.
0 0 6
3.44. Teorema. Sea A una matriz simétrica de orden n. Supongamos que A que tiene p (0 ≤ p ≤ n)
valores propios, no necesariamente diferentes, estrictamente positivos y η (0 ≤ η ≤ n) valores propios, no
necesariamente diferentes, estrictamente negativos. Entonces existe una matriz invertible P tal que:
2 3
Ip 0 0
P T AP = 4 0 −Iη 0 5 .
0 0 0
Si además existe otra matriz invertible Q tal que
2 3
Ip0 0 0
QT AQ = 4 0 −Iη0 0 5,
0 0 0
entonces p = p0 y η = η 0 .

Demostración. Sean λ1 , λ2 , . . . , λρ los valores propios de A estrictamente positivos (no necesaria-


mente distintos) y sean x1 , x2 , . . . , xp vectores propios ortonormales de A asociados respectivamente a
tales valores propios. Sean además β1 , β2 , . . . , βη los valores propios de A estrictamente negativos (no nece-
sariamente distintos) y y1 , y2 , . . . , yη vectores propios ortonormales de A asociados a dichos valores propios
negativos y sean z1 , z2 , . . . , zγ , γ = n−(p+η), vectores propios ortonormales de A asociados al valor propio
nulo (0). Según la demostración del teorema 3.41, la matriz M , cuyas columnas son los correspondientes
vectores propios organizados adecuadamente, es ortogonal. Es decir, la matriz
M = [ x1 x2 ··· xp y1 y2 ··· yη z1 z2 ··· zγ ]
es ortogonal. De otro lado, se tiene que M AM = D es una matriz diagonal con los valores propios en su
T

diagonal y dispuestos así: 2 3


Dp 0 0
M T AM = D = 4 0 Dη 0 5
0 0 0
donde:
λ1 0 · · · 0 β1 0 · · · 0
2 3 2 3
6 0 λ2 · · · 0 7 6 0 β2 · · · 0 7
Dρ = 6 . . . . 7 y Dη = 6 . .. .. .. 7 .
6 7 6 7
4 .. .. .. .. 5 4 .. . . . 5
0 0 · · · λp 0 0 · · · βη
Sea ahora D∗ la matriz diagonal: 2 ∗ 3
Dp 0 0
∗ ∗
D = 4 0 Dη 0 5
0 0 Iγ
donde 2 1 3
√ 0 ··· 0
6 λ1 7
6 1 7
6 0 √ ··· 0 7

Dρ = 6
6 λ 2
7
7 y.
6 .
.. .
.. .. .
..
7
6
6 . 7
7
4 1 5
0 0 ··· p
λp
54
Diagonalización de matrices 3.3. Matrices simétricas

2 1 3
√ 0 ··· 0
6 −β1 7
6 1 7
6 0 √ ··· 0 7

6
Dη = 6 −β2 7
.. .. .. ..
7
6 7
6
6 . . . . 7
7
4 1 5
0 0 ··· p
−βη
La matriz D∗ es invertible y es tal que:
Dp∗ Dp Dp∗
2 3
0 0
D∗ DD∗ = ∗T T ∗
D M AM D = 4 0 Dη∗ Dη Dη∗ 0 5
0 0 Iγ 0 Iγ
2 3
Ip 0 0
= 4 0 −Iη 0 5 .
0 0 0
En consecuencia, la matriz invertible P = M D∗ es tal que:
2 3
Ip 0 0
T
P AP = 4 0 −Iη 0 5.
0 0 0

Para la unicidad suponga ahora que las matrices invertibles P y Q son tales que:
2 3 2 3
Ip 0 0 Ip0 0 0
T T
P AP = 4 0 −Iη 0 5 y Q AQ = 4 0 −Iη0 0 5 .
0 0 0 0 0 0
Lo que se quiere probar ahora es que ρ = ρ0 y η = η 0 .

Para ello se escribe las matrices P y Q particionadas por columnas así:


P = [ x1 x2 ··· xp xp+1 ··· xn ] y
Q = [ y1 y2 ··· yp0 yp0 +1 ··· yn ]
Por hipótesis se tiene que: 8
>
>xTi Axi = 1 si i = 1, 2 . . . , p
>
>
>
>
>
>
>xT Axj = 0
>
si i 6= j, (i, j = 1, 2 . . . , n)
< i
>

i = p0 + 1, p0 + 2 . . . , n
> T
>yi Ayi ≤ 0 si
>
>
>
>
>
>
>
>
:yT Ay = 0
>
si i 6= j, (i, j = 1, 2 . . . , n).
i j

Ahora, el conjunto de vectores de Mn×1 :


C = {x1 , x2 , . . . , xp , yp0 +1 , yp0 +2 , . . . , yn }
es linealmente independiente. En efecto, si
λ1 x1 + . . . + λp xp + β1 yp0 +1 + . . . + βn−p0 yn = 0
entonces el vector
U = λ1 x1 + λ2 x2 + . . . + λp xp
= −β1 yp0 +1 − β2 yp0 +2 − . . . − βn−p0 yn

55
3.3. Matrices simétricas Diagonalización de matrices

es tal que:
U T AU = (λ1 x1 + . . . + λp xp )T A(λ1 x1 + . . . + λp xp )
= λ21 + λ22 + . . . + λ2p ≥ 0
y
U T AU = (β1 yp0 +1 + . . . + βn−p0 yn )T A(β1 yp0 +1 + . . . + βn−p0 yn )
= 2
β12 ypT0 +1 Ayp0 +1 + β22 ypT0 +2 Ayp0 +2 + . . . + βn−p T
0 yn Ayn ≤ 0

Por lo tanto U T AU = 0. De esto se sigue que λ1 = λ2 = . . . = λp = 0. En consecuencia,


β1 yp0 +1 + β2 yp0 +2 + . . . + βn−p0 yn = 0 .
Puesto que la matriz Q es invertible, los vectores yp0 +1 , yp0 +2 , . . . , yn son linealmente independientes, y
por lo tanto, β1 = β2 = . . . = βn−p0 = 0.

Ahora bien, como la dimensión del espacio vectorial Mn×1 es n y C es un conjunto linealmente inde-
pendiente de p + (n − p0 ) vectores en Mn×1 , entonces por el teorema 1.42(2):
p + (n − p0 ) ≤ n ,
o sea, p ≤ p0 . Argumentando en forma similar se demuestra que p0 ≤ p, de donde p = p0 .

De otro lado, de la hipótesis, se tiene que


ρ(A) = p + η = p0 + η 0
por lo tanto η = η 0 . 

Nota. En la parte (1) del teorema anterior se tiene que P T AP es igual a:

(i) In , si p = n.
(ii) −In , si η = n.
» –
Ip 0
(iii) , si 0 < p < n y η = 0.
0 0
» –
−Iη 0
(iv) , si 0 < η < n y p = 0.
0 0
» –
Ip 0
(v) , si 0 < p < n y 0 < η < n y p + η = n.
0 −Iη
2 3
Ip 0 0
(vi) 4 0 −Iη 0 5 , si 0 < p < n y 0 < η < n y p + η < n.
0 0 0
(vii) 0, sii A = 0.
3.45. Ejemplo. Para la matriz simétrica
2 3
1 −2 0
A = 4 −2 0 −2 5
0 −2 −1
encuentre una matriz invertible P tal que P T AP sea una matriz diagonal con las características que se
establecen en el teorema anterior.

56
Diagonalización de matrices 3.3. Matrices simétricas

Efectuando los cálculos pertinentes se encuentra que los valores propios de A son: λ1 = 3, λ2 = −3 y
λ3 = 0, y que la matriz ortogonal:
2 3
2 1 −2
14
M= −2 2 −1 5
3
1 2 2
es tal que
2 3
3 0 0
M T AM = D = 4 0 −3 0 5.
0 0 0
Ahora, la matriz diagonal
2 1 3
√ 0 0
6 3 7
D∗ = 6 1
6 7
0 √ 0 7
3
4 5
0 0 1
es invertible y es tal que:
D∗ DD∗ = D∗T M T AM D∗
2 1 32 3 0 0
32
1 3
√ 0 0 7 6 √3 0 0
6 3 76 7
1 76 1
76
= 0 −3 0 7
6 7
6 0 √ 0 76
56 76 0 √ 0 7
3 3
4 4 54 5
0 0 1 0 0 0 0 0 1
2 3
1 0 0
= 4 0 −1 0 5 ,
0 0 0
o sea, la matriz invertible P = M D∗ es tal que
2 3
I1 0 0
P T AP = 4 0 −I1 0 5.
0 0 0

En relación con la primera parte del teorema 3.44 (ver su demostración) y tal como aparece en el ejemplo
anterior, un método para calcular una de tales matrices P consiste en encontrar una matriz ortogonal M
que diagonalice a la matriz A, y después postmultiplicar a M por una matriz diagonal conveniente D∗ .
A continuación damos otro método para calcular, simultáneamente, una de tales matrices P y la matriz
P T AP. El método se basa en el hecho de que la matriz P es invertible y por ende se puede expresar como
producto de un número finito de matrices elementales (véase teorema 1.9(2)); esto es, P = E1 E2 · · · Ek,
donde E1 , E2 , · · · , Ek, son matrices elementales. Así que una forma de calcular la matriz
P T AP = EkT · · · E2T E1T A E1 E2 · · · Ek,
consiste en efectuar una sucesión de operaciones elementales en las filas de A y la "misma" sucesión de
operaciones elementales en las columnas de A (véase teorema 1.6), hasta lograr lo deseado. Esta misma
sucesión de operaciones elementales en las filas de la matriz identidad I da P T . El siguiente ejemplo ilustra
el método para encontrar una tal matriz P .
3.46. Ejemplo. Para la matriz simétrica
2 3
1 2 −3
A=4 2 5 −4 5
−3 −4 9
57
3.3. Matrices simétricas Diagonalización de matrices

encontre una matriz invertible P tal que P T AP sea una matriz diagonal con las características que se
establecen en el teorema 3.44.

Se forma entonces la matriz


2 3
1 2 −3 1 0 0
[A|I ]=4 2 5 −4 0 1 0 5 .
−3 −4 9 0 0 1
Se efectua entonces, en las filas de la matriz A | I , las operaciones elementales; E1T ; multiplicar
ˆ ˜

los elementos de la primera fila por α = −2 y sumar los resultados con los correspondientes elementos de
la segunda fila, E2T ; multiplicar los elementos de la primera fila por α = 3 y sumar los resultados con los
correspondientes elementos de la tercera fila. Así se obtiene la matriz
[ E2T E1T A | E2T E1T I ] = [ A1 | B1 ] ,
luego se efectuan las "mismas" operaciones elementales en las columnas de la matriz A1 , para obtener:
0
[ E2T E1T A E1 E2 | E2T E1T I ] = [ A1 | B1 ] .
Se tiene: 2 3
1 2 −3 1 0 0
[ A1 | B1 ] = 4 0 1 2 −2 1 0 5
0 2 0 3 0 1
y 2 3
1 0 0 1 0 0
[ A01 | B1 ] = 4 0 1 2 −2 1 0 5.
0 2 0 3 0 1
0
Se efectua ahora, en las filas de la matriz [ A1 | B1 ] , la operación elemental; E3T ; multiplicar los
elementos de la segunda fila por α = −2 y sumar los resultados con los correspondientes elementos de la
tercera fila. Así se obtiene la matriz
[ E3T E2T E1T AE1 E2 | E3T E2T E1T I ] = [ A2 | B2 ] ,
luego se realiza la "misma" operación elemental en las columnas de la matriz A2 , para obtener:
0
[ E3T E2T E1T AE1 E2 E3 | E3T E2T E1T I ] = [ A2 | B2 ] .
Se tiene entonces: 2 3
1 0 0 1 0 0
[ A2 | B2 ] = 4 0 1 2 −2 1 0 5
0 0 −4 7 −2 1
y 2 3
1 0 0 1 0 0
[ A02 | B2 ] = 4 0 1 0 −2 1 0 5.
0 0 −4 7 −2 1
0
Finalmente, se efectua en las filas de la matriz [ A2 | B2 ] la operación elemental; E4T ; multiplicar los
elementos de la tercera fila por α = 1/2. Así se obtiene la matriz
[ E4T E3T E2T E1T AE1 E2 E3 | E4T E3T E2T E1T I ] = [ A3 | B3 ] ,
luego se realiza la "misma" operación elemental en las columnas de la matriz A3 , para obtener:
h 0 i
[ E4T E3T E2T E1T AE1 E2 E3 E4 | E4T E3T E2T E1T I ] = A3 | B3 .
Se tiene: 2 3
1 0 0 1 0 0
[ A3 | B3 ] = 4 0
6 1 0 −2 1 0 7
7 1
5
0 0 −2 −1
2 2
58
Diagonalización de matrices 3.3. Matrices simétricas

y
2 3
1 0 0 1 0 0
[ A03 | B3 ] = 4 0
6 1 0 −2 1 0 7
7 1
5
0 0 −1 −1
2 2
.

Así que la matriz invertible


2 3
1 0 0
PT = B3 = E4T E3T E2T E1T = 4 −2 1 0 7
6
7 1
5
−1
2 2
es tal que
2 3
0
1 0 0
P T AP = D = A3 = 4 0 1 0 5.
0 0 −1
Se puede decir entonces, que la matriz A tiene dos valores estrictamente positivos y un valor propio estric-
tamente negativo.
3.47. Nota. En relación con el método ilustrado en el ejemplo anterior, si todos los elementos de la diagonal
principal de la matriz simétrica A = [aij ]n×n son nulos y si aij 6= 0, i 6= j, entonces sumando la fila j a la fila
i y la columna j a la columna i, se obtiene una matriz simétrica A0 = M T AM con 2aij en el lugar i−ésimo
de la diagonal principal de A0 . Una vez hecho esto, se sigue el proceso descrito en el ejemplo anterior.
3.48. Ejemplo. Para la matriz simétrica
» –
0 1
A= ,
1 0

encuentre una matriz invertible P tal que P T AP sea una matriz diagonal con las características que se
establecen en el teorema 3.44.

Se forma ahora la matriz: » –


0 1 1 0
[A|I ]= .
1 0 0 1
Se efectua, en las filas de la matriz, [ A | I ] la operación elemental M T ; sumar los elementos de la
segunda fila con los correspondientes elementos de la primera fila. Así se obtiene la matriz
[ MT A | MT I ] ,

luego se efectua la "misma" operación elemental en las columnas de la matriz M T A, para obtener la matriz:
M T AM | M T I = A0 | M T ,
ˆ ˜ ˆ ˜

Se tiene:

» –
1 1 1 1
[ MT A | MT I ] = y
1 0 0 1

» –
2 1 1 1
[ A0 | M T ] =
1 0 0 1
59
3.3. Matrices simétricas Diagonalización de matrices

Ahora se realiza, en las filas de la matriz [ A0 | M T ], la operación elemental; E1T ; multiplicar los
elementos de la primera fila por α = − 21 y sumar los resultados con los correspondientes elementos de la
segunda fila. Así se obtiene la matriz
[ E1T A0 | E1T M T ] = [ A1 | B1 ] ,
luego se realiza la "misma" operación elemental en las columnas de la matriz A1 , para obtener:
0
[ E1T A0 E1 | E1T M T ] = [ A1 | B1 ] .
Se tiene: " #
2 1 1 1
[ A1 | B1 ] = 1 1 1 y
0 − −
2 2 2
" #
2 0 1 1
[ A01 | B1 ] = 1 1 1
0 − −
2 2 2
h 0
i
Se efectua ahora en las filas de la matriz A1 las operaciones elementales; E2T ; multiplicar los
| B1

elementos de la primera fila por α = √12 , y, E3T ; multiplicar los elementos de la segunda fila por β = 2 .
Así se obtiene la matriz
ˆ T T T 0
E3 E2 E1 A E1 | E3T E2T E1T M T = A2 | B2 ,
˜ ˆ ˜

luego se realizan las "mismas" operaciones elementales en las columnas de la matriz A2 , para obtener:
0
[ E3T E2T E1T A0 E1 E2 E3 | E3T E2T E1T M T ] = [ A2 | B2 ] .
Se tiene: 2 √ 1 1 3
2 0 √ √
6 2 2 7
[ A2 | B2 ] = 6 y
6 7
7
4 1 1 1 5
0 −√ −√ √
2 2 2
2 1 1 3
1 0 √ √
6 2 2 7
[ A02 | B2 ] = 6
6 7
7
4 1 1 5
0 −1 −√ √
2 2
Así que la matriz invertible
2 1 1 3
√ √
6 2 2 7
P T = B2 = E3T E2T E1T M T = 6
6 7
7
4 1 1 5
−√ √
2 2
es tal que 2 3
0
1 0
P T AP = D = A3 = 4 5.
0 −1
Se puede decir, que la matriz A tiene un valor estrictamente positivo y un valor propio estrictamente
negativo.

60
Diagonalización de matrices 3.3. Matrices simétricas

3.3 Ejercicios

Para los ejercicios 1 al 7 responda verdadero o falso, justificando su respuesta:

1. Si A y B son matrices simétricas de orden n, entonces la matriz AB es simétrica.


2. Sean A y B matrices simétricas de orden n. AB es simétrica sii AB = BA.
3. Si P es una matriz ortogonal, entonces P −1 también es ortogonal.
4. Si P es una matriz ortogonal, entonces P T también es ortogonal.
5. Si P es una matriz ortogonal, entonces |P | = ±1.
6. Una matriz P de tamaño n×n es ortogonal sii los vectores fila de P conforman una base ortonormal
de Rn . » –
1 1
7. La matriz P = es ortogonal.
−1 1

En los ejercicios 8 al 1 demuestre la afirmación da correspondiente

8. Si λ es un valor propio de una matriz A, entonces la multiplicidad geométrica de λ es menor o


igual que la multiplicidad »algebraica–de λ. (sugerencia:
» vea
– la demostración del teorema 3.37).
A B In In
9. Sean A, B ∈ Mn×n , M = yP =
B A In −In
1
a) Verifique que P −1
= P.
2
b) Calcule P M P y concluya que det M = det(A + B) · det(A − B).
−1

c) Use (b) para mostrar que


pM (λ) = det(M − λI) = det((A + B) − λI) · det((A − B) − λI) .
10. Si P y Q son matrices ortogonales, entonces P Q es una matriz ortogonal.
11. Si Q1 , Q2 , . . . , Qm son matrices ortogonales, entonces la matriz
···
2 3
Q1 0 0
6 0 Q2 ··· 0 7
Q=6 . . . .. 7 .
6 7
4 .. .. .. . 5
0 0 · · · · · · Qm
es también ortogonal .
12. Sea x un λ-vector propio de A y sea y un β-vector propio de AT , donde λ 6= β, entonces x, y son
vectores ortogonales (sugerencia: vea la demostración del teorema 3.33).
13. Si A es una matriz simétrica idempotente n × n entonces:
Xn X n
ρ(A) = Tr A = (aij )2 .
i=1 j=1

(Sugerencia: Utilice el teorema 3.44 y el corolario 2.17)


14. Sea a ∈ Mn×1 un vector no nulo. Entonces A = (aT a)−1 aaT es una matriz simétrica de rango 1 y
es tal que A2 = A.
15. Si A es una matriz simétrica tal que todos los valores propios son positivos, entonces existe una
matriz invertible M tal que A = M T M. (Sugerencia: utilice el teorema 3.44(1))
16. Si A es una matriz simétrica tal que todos los valores propios son positivos, entonces existe una
matriz triangular superior e invertible, T , tal que A = T T T. (Sugerencia: utilice inducción sobre el
orden n de la matriz A).
17. Si A es una matriz simétrica de orden n que tiene p valores propios positivos (p < n) y n − p valores
propios nulos, entonces existe una matriz no invertible M tal que A = M T M. (Sugerencia: utilice
el teorema 3.44(1)).

61
3.3. Matrices simétricas Diagonalización de matrices

18. Sean A, B matrices simétricas de igual orden. Suponga además que A2 = A y que los valores
propios de B son positivos, entonces:
ρ(ABA) = ρ(A) = Tr A
(sugerencia: Utilice los ejercicios (15) y (13) y el Teorema 1.53(4)).
19. Si A = [aij ]n×n es una matriz simétrica tal que
n
X
aii > |aij |
,j=1, j6=i

para todo i = 1, 2, . . . n, entonces todos los valores propios de A son positivos. (Sugerencia: supon-
ga λ ≤ 0 es un valor propio de A y utilice el ejercicio (5) de la sección 3.2 para llegar a una
contradicción).
20. Para cada una de las siguientes matrices encuentre una matriz ortogonal P , tal que P T M P sea
una matriz diagonal. Dé en cada caso Tr M y ρ(A).

2 3
» – 1 −1 0
1 −2
(i) M= (ii) M = 4 −1 0 0 5
−2 5
0 0 1
2 3 2 3
2 1 1 1 −1 −1
(iii) M = 4 1 2 1 5 (iv) M = 4 −1 1 −1 5
1 1 2 −1 −1 1
2 3 2 3
4 2 2 4 4 2
(v) M = 4 2 3 0 5 (vi) M = 4 4 4 2 5
2 0 5 2 2 1
21. Para cada una de las siguientes matrices encuentre una matriz invertible Q, tal que QT M Q sea de
la forma 2 3
Ip 0 0
4 0 −Iη 0 5 .
0 0 0

2 3 2 3
1 −1 0 0 1 1
(i) M = 4 −1 1 0 5 (ii) M =4 1 −2 2 5
0 0 1 1 2 −1
2 3 2 3
1 2 0 1 0 −1
(iii) M =4 2 0 0 5 (iv) M =4 0 2 1 5
0 0 1 −1 1 1
2 3 2 3
2 1 1 1 2 −1
(v) M =4 1 1 −1 5 (vi) M =4 2 4 −2 5
1 −1 5 −1 −2 8

22. Considere las matrices del ejercicio anterior:

a) Si QT M Q = I,
» encuentre
– una matriz invertible P, tal que M = P P.
T

Ip 0
b) Si QT M Q = , encuentre una matriz no invertible P, tal que M = P T P.
0 0

62
Diagonalización de matrices 3.4. Diagonalización simultánea

3.4. Diagonalización simultánea de matrices simétricas

En esta sección se verá un par de teoremas sobre diagonalización simultánea de matrices simétricas, los cuales
son útiles en estadística. En particular el teorema 3.51 se utiliza en la demostración de la independencia de
dos ciertas formas cuadráticas (ver teorema 4.5.3 de [4]).

3.49. Teorema (Diagonalización simultánea). Sean A y B matrices simétricas de orden n. Si todos los
valores propios de A son estrictamente positivos, entonces existe una matriz invertible Q tal que QT AQ = In
y QT BQ = D es una matriz diagonal. Además, los elementos de la diagonal de D, son las soluciones de la
ecuación |B − λA| = 0, las cuales son reales.

Demostración. Puesto que todos los valores propios de A son estrictamente positivos, se sigue del
teorema 3.41, que existe una matriz invertible P tal que P T AP = In . Sea ahora C = P T BP. La matriz
C es simétrica pues, C T = (P T BP )T = P T B T P = P T BP = C. Ahora bien, en virtud del teorema 3.32,
existe una matriz ortogonal M tal que M T CM = D es una matriz diagonal con los valores propios de C
en su diagonal principal. En consecuencia:

M T P T AP M = M T In M = M T M = In

y
M T P T BP M = M T CM = D ;
esto es, la matriz Q = P M es tal que QT AQ = In y QT BQ = D es una matriz diagonal. De otro lado, como
se ha expresado, los elementos de la diagonal de D son los valores propios de C, los cuales según el teorema
3.32 son reales. Esto es, los elementos de la diagonal de D son la soluciones de la ecuación |C − λI| = 0.
En vista de que la matriz P es invertible se tiene:

|C − λI| = |P T BP − λP T AP |
9
=
sii |B − λA| = 0,
= |P T | |B − λA| |P | = 0
;

lo cual termina la demostración del teorema. 

3.50. Ejemplo. Considere las matrices simétricas


2 3 2 3
1 0 0 5 4 4
A=4 0 4 2 5 y B=4 4 8 −4 5 .
0 2 2 4 −4 −4

Efectuando√
los cálculos correspondientes se encuentra que los valores propios de A son: λ1 = 1, λ2 = 3 + 5
y λ3 = 3 − 5, los cuales son estrictamente positivos y que la matriz invertible
2 3
1 0 0
1 1 7
6 7
P =6 0 − 7
6
4 2 2 5
0 0 1

es tal que
2 3
5 2 2
T
P AP = I3 y T
C = P BP = 4 2 2 −4 5 .
2 −4 2
63
3.4. Diagonalización simultánea Diagonalización de matrices

Por el ejemplo 3.43 se sabe que


1 2 2
2 3
− √ √
6
6 3 5 3 5 7
7
6 7
6 2 1 4 7
M =6
6 √ − √ 7
3
7
6 5 3 5 7
6 7
6 7
4 2 2 5
0 √
3 3 5
es ortogonal y es tal que
2 3
−3 0 0
M T CM = D = 4 0 6 0 5.
0 0 6
En consecuencia, la matriz invertible
1 2 2
2 3
− √ √
6
6 3 5 3 5 7
7
6 7
6 1 3 7
Q = PM = 6
6 0 √ − √ 77
6 2 5 3 5 7
6 7
6 7
4 2 5 5
0 √
3 3 5
es tal que
2 3 2 3
1 0 0 −3 0 0
T
Q AQ = 4 0 1 0 5 y T
Q BQ = D = 4 0 6 0 5.
0 0 1 0 0 6

El siguiente teorema indica, que cuando dos matrices simétricas del mismo orden conmutan entre si, se
puede incluso encontrar una diagonalización simultánea ortogonal, en forma más precisa tenemos.
3.51. Teorema (Diagonalización ortogonal simultánea). Sean A y B matrices simétricas de orden n. AB =
BA sii existe una matriz ortogonal P tal que P T AP y P T BP son matrices diagonales, cuyos elementos de
la diagonal son respectivamente los valores propios de A y B.

Demostración. (=⇒) En virtud del teorema 3.41, existe una matriz ortogonal R tal que:
···
2 3
λ1 Ik1 0 0
6 0 λ2 Ik2 · · · 0 7
RT AR = D = 6 .. .. . . 7,
6 7
4 . . . . .
. 5
0 0 . . . λm Ikm
donde los λi son los diferentes valores propios de A y ki es la multiplicidad geométrica (algebraica) del valor
propio λi , i = 1, 2, . . . , m.

Sea ahora C = RT BR. Puesto que por hipótesis AB = BA, entonces


DC = RT ARRT BR = RT BAR = RT BRRT AR = CD.
Particionando la matriz C convenientemente se puede escribir:

64
Diagonalización de matrices 3.4. Diagonalización simultánea

··· ···
2 32 3
λ1 Ik1 0 0 C11 C12 C1m
6 0 λ2 Ik2 ··· 0 7 6 C21 C22 ··· C2m 7
DC = .. .. .. .. .. .. .. ..
6 7 6 7
. .
6 7 6 7
4 . . . 5 4 . . . 5
0 0 ··· λm Ikm Cm1 Cm2 ··· Cmm
···
2 3
λ1 C11 λ1 C12 λ1 C1m
6 λ2 C21 λ 2 C22 ··· λ2 C2m 7
= .. .. .. .. 7,
6 7
.
6
4 . . . 5
λm Cm1 λm Cm2 ··· λm Cmm
C12 · · · ···
2 32 3
C11 C1m λ1 Ik1 0 0
6 C21 C22 · · · C2m 7 6 0 λ2 Ik2 ··· 0 7
6 .
... .. .. .. ... .. ..
CD =
6 76 7
4 .. . .
76 7
. 54 . . 5
Cm1 Cm2 · · · Cmm 0 0 ··· λm Ikm
· · · λm C1m
2 3
λ1 C11 λ2 C12
6 λ1 C21 λ2 C22 · · · λm C2m 7
= .. .. .. .. 7.
6 7
.
6
4 . . . 5
λ1 Cm1 λ2 Cm2 · · · λm Cmm
Ya que DC = CD y λi 6= λj , si i 6= j, entonces se tiene que Cij = 0, si i 6= j y por tanto
···
2 3
C11 0 0
6 0 C22 ··· 0 7
C=6 . . . .. 7.
6 7
4 .. .. .. . 5
0 0 · · · · · · Cmm
Como la matriz C es simétrica, cada una de las matrices Cii , i = 1, 2 . . . , m, es simétrica, por tanto existe
una matriz ortogonal Qi tal que QTi Cii Qi = Di es una matriz diagonal. Sea a hora:

···
2 3
Q1 0 0
6 0 Q2 ······ 0 7
Q=6 .. .. .. .. 7.
6 7
4 . . . . 5
0 0 ······ Qm
La matriz Q es ortogonal (véase ejercicio 11) y es tal que QT CQ = D∗ es una matriz diagonal. También se
tiene que QT DQ = D; es decir,
QT RT ARQ = D y QT RT BRQ = D∗ .
Ya que las matrices R y Q son ortogonales, entonces la matriz P = RQ es ortogonal (vea el ejercicio 10) y
es tal que P T AP y P T BP son matrices diagonales semejantes a A y a B respectivamente.

(⇐=) Supongamos que existe una matriz ortogonal P tal que P T AP = D1 y P T BP = D2 son matri-
ces diagonales. Puesto que D1 D2 = D2 D1 , entonces:
P T AP P T BP = P T BP P T AP ,
de donde AB = BA. 

3.52. Ejemplo. En este ejemplo se siguen los pasos hechos en la demostración del teorema anterior en el
sentido (=⇒). La verificación de los cálculos numéricos queda a cargo del lector.

65
3.4. Diagonalización simultánea Diagonalización de matrices

Las matrices simétricas:


2 3 2 3
1 −1 0 0 1 0 0 0
6 −1 1 0 0 7 6 0 1 0 0 7
A=4
6 7 y B=4
6 7
0 0 1 0 5 0 0 2 −2 5
0 0 0 1 0 0 −2 5
son tales que AB = BA. Los valores propios de la matriz A son λ1 = 0 de multiplicidad algebraica k1 = 1,
λ2 = 1 de multiplicidad algebraica k2 = 2 y λ3 = 2 de multiplicidad algebraica k3 = 1. La matriz ortogonal
2 √ √ 3
1/ 2 0 0 −1/ 2
6 √ √ 7
6 1/ 2 0 0 1/ 2 7
6 7
R=6 6 7
0 1 0 0 7
7
6
4 5
0 0 1 0
es tal que: 2 3 2 3
0 0 0 0 λ1 I 0 0
T
6 0 1 0 0 7 6 7
R AR = D = 4
6 7=6 0 λ2 I 0 7
0 0 1 0 5 4 5
0 0 0 2 0 0 λ3 I
y 2 3 2 3
1 0 0 0 C11 0 0
T
6 0 2 −2 0 7 6
7=6 0
7
R BR = C = 4
6 C22 0 7.
0 −2 5 0 5 4 5
0 0 0 1 0 0 C33

La matriz ortogonal 2 3
1 0 0 0 2 3
6 √ √ 7
Q 0 0
6 0 2/ 5 −1/ 5 0 7 6 1
6 7
7
Q=6 7=6 0 Q2 0 7
√ √ 5,
6 0 1/ 5 2/ 5 0 7
6 7 4
4 5 0 0 Q3
0 0 0 1
es tal que 2 3
1 0 0 0
6 0 1 0 0 7
T
Q CQ = 4
6 7 = QT RT BRQ = D∗
0 0 6 0 5
0 0 0 1
y 2 3
1 0 0 0
T
6 0 1 0 0 7
Q DQ = 6 7 = QT RT ARQ = D .
4 0 0 1 0 5
0 0 0 2
En consecuencia, la matriz ortogonal
2 √ √ 3
1/ 2 0 0 −1/ 2
6 √ √ 7
6 1/ 2 0 0 1/ 2
6 7
7
P = RQ = 6 √ √ 7
6 0 2/ 5 −1/ 5 0
6 7
7
4 √ √ 5
0 1/ 5 2/ 5 0

66
Diagonalización de matrices 3.4. Diagonalización simultánea

es tal que P T AP = D y P T BP = D∗ son matrices diagonales.


3.53. Corolario. Sean A1 , A2 , . . . , Ak matrices simétricas de orden n. Una condición necesaria y suficiente
para que exista una matriz ortogonal P tal que P T Ai P sea una matriz diagonal para cada i = 1, 2, . . . , k es
que Ai Aj = Aj Ai para cada i y j; i, j = 1, 2, . . . , k.

Demostración. (=⇒) La demostración de esta parte del teorema se hará utilizando inducción sobre
el número de matrices k. Para cuando k = 2 el corolario es cierto por el teorema anterior. Suponga ahora
que el corolario es cierto para cuando k = s; se quiere demostrar que el corolario es cierto para cuando
k = s + 1. Sean pues A1 , A2 , . . . , As+1 matrices simétricas de orden n tales que Ai Aj = Aj Ai para cada i
y j; i, j = 1, 2, . . . , s + 1. Por el teorema 3.41 existe una matriz ortogonal R tal que
···
2 3
λ1 Ik1 0 0
6 0 λ2 Ik2 · · · 0 7
RT A1 R = D = 6 .. .. . . 7,
6 7
4 . . .. .. 5
0 0 · · · λm Ikm
donde los λτ , τ = 1, 2, . . . , m, son los diferentes valores propios de A1 y kτ es la multiplicidad geométrica
(algebraica) del valor propio λτ .

Ahora, para cada i (i = 2, 3, . . . , s + 1), se toma la matriz Ci = RT Ai R. Puesto que por hipótesis
A1 Ai = Ai A1 , entonces
Ci D = RT Ai RRT A1 R = RT Ai A1 R = RT A1 Ai R
= RT A1 RRT Ai R = DCi ,
para i = 2, 3, . . . , s + 1. De esto se sigue que:
···
2 3
Ci1 0 0
6 0 C i2 ··· 0 7
Ci = 6 . .. .. .. 7 , i = 2, 3, . . . , s + 1 .
6 7
4 .. . . . 5
0 0 ······ Cim
Ahora, como Ai Aj = Aj Ai para todo i y todo j; i, j = 2, 3, . . . , s + 1, entonces:
Ci Cj = RT Ai RRT Aj R = RT Ai Aj R
= RT Aj Ai R = RT Aj RRT Ai R = Cj Ci .
De esto se sigue que para cada τ, τ = 1, 2, . . . , m.
Ciτ Cjτ = Cjτ Ciτ .
De otra parte, como la matriz Ci es simétrica, entonces la matriz Ciτ es simétrica para cada i = 2, 3 . . . , s+1
y cada τ = 1, 2, . . . , m. Por lo anterior y por la hipótesis de inducción; para cada τ , existe una matriz
ortogonal Qτ tal que
QTi Ciτ Qi = Dτ
es una matriz diagonal. Sea ahora:
0 ···
2 3
Q1 0
6 0 Q2 · · · 0 7
Q=6 . .. . .. 7 .
6 7
4 . . . . . . 5
0 0 · · · Qm
La matriz Q es ortogonal y es tal que QT Ci Q = Di∗ es una matriz diagonal. También se tiene que QT DQ =
D. Así que:
QT RT Ai RQ = Di∗ , i = 2, 3 . . . , s + 1, y QT RT A1 RQ = D∗ .

67
3.4. Diagonalización simultánea Diagonalización de matrices

Puesto que R y Q son matrices ortogonales, entonces la matriz P = RQ es ortogonal. En consecuencia, la


matriz ortogonal P es tal que P T Ai P es una matriz diagonal para i = 2, 3 . . . , s + 1.

(Necesidad:) Supongamos ahora que existe una matriz ortogonal P tal que P T Ai P = Di es una ma-
triz diagonal para cada i = 1, 2, . . . , k. Puesto que Di Dj = Dj Di , para todo i y todo j, i, j = 1, 2, . . . , k,
entonces
P T Ai P P T Aj P = P T Aj P P T Ai P,
de donde se tiene que Ai Aj = Aj Ai para todo i y todo j; i, j = 1, 2, . . . , k. 

3.54. Ejemplo. Las matrices simétricas


» – » – » –
2 1 3 4 5 6
A1 = , A2 = y A3 =
1 2 4 3 6 5
son tales que Ai Aj = Aj Ai , i = 1, 2.

La matriz ortogonal
2 3
1 1
1 4
R= √ 5
2 −1 1
es tal que
» –
1 0
RT A1 R = D1 =
0 3
» –
T −1 0
R A2 R = D2 =
0 7
» –
−1
RT A3 R = D3 = ,
11
es decir, la matriz ortogonal R diagonaliza de manera simultánea a las matrices A1 , A2 y A3 .

3.4 Ejercicios

1. Si A y B son dos matrices simétricas invertibles de igual orden tales que AB = BA, demuestre
entonces existe una matriz ortogonal P tal que P T AP, P T BP, P T ABP, P T AB −1 P, P T A−1 BP y
2P son matrices diagonales.
P T A−1 B −1 3 2 3
1 −2 −3 1 −4 −1
2. Sean A = 4 −2 5 5 5 y B = 4 −4 14 4 5
−3 5 11 −1 4 6
a) Verifique que todos los valores propios de A son positivos, encontrando una matriz invertible
P tal que P T AP = I.
b) En una matriz invertible M tal que M T AM = I y M T BM = D sea una matriz diagonal.

3. Considere la matrices
2 3 2 3
1 −2 0 2 −3 0
S1 = 4 −2 5 0 5, S2 = 4 −3 6 0 5
0 0 4 0 0 −4
68
Diagonalización de matrices 3.4. Diagonalización simultánea

2 3
3 −2 0
S3 = 4 −2 −2 0 5
0 0 8
a) Verifique que todos los valores propios de S1 son positivos, encontrando una matriz invertible
P tal que P T S1 P = I.
b) Haga A = P T S2 P y B = P T S3 P .. Verifique que AB = BA y encuentre una matriz ortogonal
Q tal que QT AQ = D1 y QT BQ = D2 son matrices diagonales.
c) Concluya que la matriz invertible M = P Q, siendo P y Q como antes, es tal que M T S1 M = I
y M T AM = D1 y M T BM = D2 son matrices diagonales.

69
CAPÍTULO 4

Formas cuadráticas

Este capítulo consta de tres secciones. En la primera sección se introduce el concepto de Forma cuadrática
y sus respectivas clasificaciones (según el signo de los elementos del rango) en formas cuadráticas positiva-
mente (negativamente) definidas, formas cuadráticas positivamente (negativamente) semidefinidas y formas
cuadráticas indefinidas. La segunda sección versa sobre cambio de variables y diagonalización de formas
cuadráticas. En esta sección se utilizan los resultados de las secciones 3.3 y 3.4. En la tercera sección damos
algunos criterios para clasificar las formas cuadráticas según el signo de los valores propios.

4.1. Clasificación de las formas cuadráticas.

Las formas cuadráticas juegan un papel importante en las aplicaciones del álgebra lineal, particularmente,
en la teoría de modelos lineales (véase el capítulo 4 de [4]). Ellas se clasifican de acuerdo al signo que tomen
sus respectivas imágenes en: positivas, no negativas, negativas, no positivas e indefinidas como se verá más
adelante.
4.1. Definición. Sean aij para i, j = 1, 2, . . . , n, números reales dados. Una forma cuadrática en Rn es
una función q : Rn → R de la forma
n X
X n
(4.1) q[(x1 , x2 , . . . , xn )] = aij xi xj .
i=1 j=1

En términos matriciales, dicha forma cuadrática se puede expresar mediante


2 3
x1
6 x2 7
(4.2) q (x) = xT Ax, siendo x = 6 . 7 ∈ Rn .
6 7
4 .. 5
xn

Ahora bien, puesto que para la matriz simétrica S, S = 12 (A + AT ), se satisface


1 1
xT Sx = xT (A + AT )x = (xT Ax + xT AT x)
2 2
1h T i 1
= x Ax + (xT Ax)T = (xT Ax + xT Ax)
2 2
= xT Ax ,
en la definición anterior, (4.1) puede darse usando matrices simétricas así:
(4.3) q (x) = xT Sx .
Observamos entonces, que una forma cuadrática se puede expresar matricialmente de varias maneras. Sin
embargo, se puede demostrar (ejercicio 4.1), que existe una única representación en términos de matrices
simétricas, S = 21 (A + AT ), para cada forma cuadrática q(x) = xT Ax.

71
4.1. Clasificación Formas cuadráticas

Nota. Con respecto a las formas cuadráticas se puede anotar que:


1. En la definición 4.1 sólo aparecen términos cuadráticos (de orden 2) de la forma aij xi xj . De aquí
el calificativo de cuadrática.
2. Se pueden considerar sólo matrices simétricas. En este sentido, en lo que sigue, al hacer referencia
a una forma cuadrática xT Sx, siempre S denotará una matriz simétrica. Dicha matriz simétrica
se denomina, matriz de la forma cuadrática.

4.2. Ejemplo. De las siguientes funciones definidas sobre R3 y con recorrido en R, solamente la primera,
q1 , representa a una forma cuadrática
q1 (x1 , x2 ) = 3x1 x1 + 4x1 x2 + 2x2 x1 + 5x2 x2 ,
q2 (x1 , x2 ) = 3x1 x1 + 4x21 x2 + 2x2 x1 + 5x2 x2 ,

q3 (x1 , x2 ) = 3x1 x1 + 4 x1 x2 + 2x2 x1 + 5x2 x2 .
Dicha forma cuadrática se puede representar matricialmente como
» –» –
˜ 3 4 x1
q1 (x1 , x2 ) = xT Ax = x1 x2
ˆ
,
2 5 x2
o en términos de matrices simétricas
» –» –
3 3 x1
q1 (x1 , x2 ) = xT Sx =
ˆ ˜
x1 x2
3 5 x2

4.3. Definición. Sea xT Sx una forma cuadrática en Rn . El conjunto


n o
Img(S) = xT Sx : x ∈ Rn
n o
= r ∈ R : r = xT Sx para algún x ∈ Rn

se denomina recorrido o conjunto imagen de la forma cuadrática xT Sx.

Una forma cuadrática xT Sx se puede clasificar según su recorrido, Img(S), de acuerdo con la definición
siguiente.
4.4. Definición. Se dice que una forma cuadrática xT Sx es:
1. Positivamente definida, si xT Sx > 0 para todo x 6= 0.
2. Negativamente definida, si xT Sx < 0 para todo x 6= 0.
3. Positivamente semidefinida, si xT Sx ≥ 0 para todo x 6= 0, y existe un x∗ 6= 0 tal que x∗T Sx = 0.
4. Negativamente semidefinida, si xT Sx ≤ 0 para todo x 6= 0, y existe un x∗ 6= 0 tal que x∗T Sx = 0.
5. Indefinida, si existen vectores no nulos x1 y x2 tales que xT1 Sx1 > 0 y xT2 Sx2 < 0, respectivamente.
6. No negativa, si es positivamente definida o positivamente semidefinida.
7. No positiva, si es negativamente definida o negativamente semidefinida.
4.5. Observación. La forma cuadrática q1 (x) = xT Sx es negativamente definida (semidefinida) sii la
forma cuadrática q2 (x) = xT (−S)x es positivamente definida (semidefinida).
4.6. Definición. Se dice que una matriz simétrica S es positivamente (negativamente) definida (semidefini-
da), indefinida o no negativa, si la forma cuadrática q(x) = xT Sx lo es.
4.7. Ejemplo. Considere las siguientes tres formas cuadráticas en R3
q1 (x1 , x2 , x3 ) = x21 + 2x22 + 3x23
q2 (x1 , x2 , x3 ) = x21 + 2x1 x2 + x22 + x23
q3 (x1 , x2 , x3 ) = x21 − 2x22 + 3x23

72
Formas cuadráticas 4.1. Clasificación

Para la forma cuadrática q1 : R3 → R se tiene:


q1 (x1 , x2 , x3 ) = x21 + 2x22 + 3x23
2 32 3
ˆ ˜ 1 0 0 x1
= x1 x2 x3 4 0 2 0 5 4 x2 5
0 0 3 x3
= xT S1 x.
Puesto que xT S1 x > 0 para todo x 6= 0, entonces q1 es positivamente definida.

Para la forma cuadrática q2 : R3 → R se tiene:

q2 (x1 , x2 , x3 ) = x21 + 2x1 x2 + x22 + x23 = (x1 + x2 )2 + x23


2 32 3
ˆ ˜ 1 1 0 x1
= x1 x2 x3 4 1 1 0 5 4 x2 5
0 0 1 x3
= xT S2 x.
˜T
Puesto que xT S2 x ≥ 0 para todo x 6= 0, y dado que para x∗ = se tiene que x∗T S2 x = 0,
ˆ
1 −1 0
entonces q2 es positivamente semidefinida.

Para la forma cuadrática q3 : R3 → R se tiene:


q3 (x1 , x2 , x3 ) = x21 − 2x22 + 3x23
2 32 3
ˆ ˜ 1 0 0 x1
= x1 x2 x3 4 0 −2 0 5 4 x2 5
0 0 3 x3
= xT S3 x.
˜T ˜T
Dado que x1 = 1 0 1 y x2 = 0 2 1 son vectores tales que xT1 S3 x1 = 4 > 0 y xT2 S3 x2 =
ˆ ˆ

−5 < 0, entonces q3 es una forma cuadrática indefinida.

4.1 Ejercicios

En los ejercicios 1 al 8 responda verdadero o falso justificando su respuesta.

1. Sea M una matriz cuadrada de orden n. Si xT M x = 0 para todo x ∈ Rn entonces M = 0.


2. Si la matriz S es indefinida, entonces la matriz −S es indefinida.
3. Si S es una matriz simétrica tal que S 2 = S, entonces S es no negativa.
4. Si S1 y S2 son matrices positivamente definidas (semidefinidas) entonces la matriz
» –
S1 0
S=
0 S2
es positivamente definidas (semidefinidas).
5. Si S1 y S2 son matrices positivamente definidas de igual orden tales que S1 S2 = S2 S1 , entonces la
matriz S = S1 S2 es positivamente definida.
» –
a b
6. Sea S = . Si a > 0 y c > 0, entonces S es positivamente semidefinida.
b c
7. Si S1 y S2 son matrices positivamente definidas de igual orden, entonces la matriz S = S1 + S2 es
positivamente definida.

73
4.2. Cambios de variable y diagonalización Formas cuadráticas

8. Si S1 y S2 son matrices indefinidas de igual orden, entonces la matriz S = S1 + S2 es indefinida.

En los ejercicios 9 al 16 demuestre la afirmación correspondiente

9. Para cada forma cuadrática q : Rn → R existe una única matriz simétrica S de orden n tal que:
q [x] = xT Sx, con xT = [ x1 x2 ··· xn ].

10. Para cualquier matriz cuadrada A, las matrices S1 = AT A y S2 = AAT son no negativas.
11. Para cualquier matriz cuadrada n×n, A, se tiene: ρ(A) = n sii la matriz S = AT A es positivamente
definida.
12. Para cualquier matriz cuadrada n×n, A, se tiene: ρ(A) < n sii la matriz S = AT A es positivamente
semidefinida.
13. Si la matriz S es positivamente definida entonces la matriz S −1 es positivamente definida.
14. Si la matriz S es no negativa, entonces los elementos de la diagonal de S son no negativos.
15. Si S1 y S2 son matrices simétricas de igual orden tales S12 + S22 = 0 entonces S1 = S2 = 0.
(sugerencia: considere xT (S12 + S22 )x).
16. Si S es una matriz positivamente definida, entonces existe una matriz invertible T triangular
superior tal que S = T T T (Sugerencia: utilice inducción sobre el orden n, de la matriz S).

4.2. Cambio de variable. Diagonalización de formas cuadráticas

El objetivo de esta sección es continuar la discusión sobre la clasificación de formas cuadráticas pero
mediante la introducción de cambios de variables adecuados. Se pretende con dichos cambios de variables,
que la nueva representación de las formas cuadráticas tengan una estructura más sencilla, en algún sentido.
Los resultados de esta sección, son corolarios de aquellos obtenidos en las secciones 3.3 y 3.4. En tal sentido,
se omitirán sus demostraciones y se limitará a dar la referencia del resultado correspondiente en dichas
secciones.
4.8. Definición (Cambio de variable). Sea q : Rn → R una forma cuadrática una definida por
(4.1) q(x) = xT Sx. x ∈ Rn
y sea P una matriz invertible n × n. Se entiende como un cambio de variable para la forma cuadrática q, a
la transformación x = P y o y = P −1 x.
Observación. En la definición anterior, P es una matriz invertible, entonces la transformación y → x =
P y es biunívoca. Esto es, un y ∈ Rn determina un único x ∈ Rn y viceversa. Hecho un tal cambio de
variables, se tiene:
(4.2) xT Sx = yT P T SP y = yT By donde B = P T SP .
Se puede interpretar el cambio de variable x = P y (P invertible) como la transformación lineal biyectiva:
P : Rn → Rn
y → x = Py .
n
así que (q ◦ P ) : R → R define una nueva forma cuadrática
q ∗ (y) = (q ◦ P )(y) = q(P y) = yT P T SP y = yT By,
que se relaciona con la forma cuadrática q por medio de las igualdades (4.2).

74
Formas cuadráticas 4.2. Cambios de variable y diagonalización

4.9. Ejemplo. Sea q : R3 → R la forma cuadrática definida por


q[(x1 , x2 , x3 )] = x21 + 4x1 x2 − 6x1 x3 + 5x22 − 8x2 x3 + 8x23 .
Para esta forma cuadrática se puede escribir
2 32 3
1 2 −3 x1
q[(x1 , x2 , x3 )] = xT Sx =
ˆ ˜
x1 x2 x3 4 2 5 −4 5 4 x2 5 .
−3 −4 8 x3
Ahora, si se hace el cambio de variables:
2 3 2 32 3
y1 1 2 −3 x1
y = 4 y2 5 = P −1 x = 4 0 1 2 5 4 x2 5
y3 0 0 1 x3
2 3
x1 + 2x2 − 3x3
= 4 x2 + 2x3 5
x3
se encuentra que:
xT Sx = yT P T SP y = yT By donde

2 32 32 3
1 0 0 1 2 −3 1 −2 7
B = P T SP = 4 −2 1 0 54 2 5 −4 5 4 0 1 −2 5
7 −2 1 −3 −4 8 0 0 1
2 3
1 0 0
= 4 0 1 0 5.
0 0 −5
Por lo tanto,
2 32 3
1 0 0 y1
xT Sx = yT By
ˆ ˜
= y1 y2 y3 4 0 1 0 5 4 y2 5
0 0 −5 y3
= y12 + y22 − 5y32 ,
es decir,
xT Sx = x21 + x1 x2 − 6x1 x3 + 5x22 − 8x2 x3 + 8x23
= y12 + y22 − 5y32
donde
y1 = x1 + 2x2 − 3x3 , y2 = x2 + 2x3 , y y3 = x3 .
Claramente es más fácil estudiar la expresión yT By = y12 + y22 − 5y32 , que la expresión xT Sx = x21 + x1 x2 −
6x1 x3 + 5x22 − 8x2 x3 + 8x23 . Por ejemplo, una simple inspección permite ver, que la expresión yT By =
y12 + y22 − 5y32 toma valores tanto positivos como negativos, tomando respectivamente y1 6= 0, y2 6= 0, y3 = 0,
y y1 = 0, y2 = 0, y3 6= 0. Lo que no es claro para la expresión xT Sx.
4.10. Definición. Dada una forma cuadrática xT Sx, si el cambio de variables y = P −1 x es tal que
xT Sx = yT P T SP y = yT Dy, donde D es una matriz diagonal, entonces se dice que el cambio de variables
y = P −1 x diagonaliza la forma cuadrática xT Sx.
4.11. Observación. El problema de encontrar un cambio de variables y = P −1 x que diagonalice la forma
cuadrática xT Sx se reduce a encontrar una matriz invertible P tal que P T SP = D sea una matriz diagonal.

La demostración del siguiente resultado, es una consecuencia del teorema 3.41.

75
4.2. Cambios de variable y diagonalización Formas cuadráticas

4.12. Teorema. Para toda forma cuadrática xT Sx existe una matriz ortogonal Q tal, que el cambio de
variables y = Q−1 x = QT x la diagonaliza. Además Q tiene como columnas un conjunto ortonormal de
vectores propios de la matriz S y
xT Sx = yT QT SQy = yT Dy
···
2 32 3
λ1 0 0 y1
ˆ ˜6 0 λ2 ··· 0 76 y2 7
= y1 y2 ··· yn
6 76 7
6 .. .. .. .. 76 .. 7
4 . . . . 54 . 5
0 0 ··· λn yn
= λ1 y12 + λ2 y22 + . . . + λn yn2 ,
donde los λi , i = 1, 2, . . . , n son los valores propios de la matriz S.
4.13. Ejemplo. Sea q : R3 → R la forma cuadrática definida por:
2 32 3
1 1 1 x1
q [(x1 , x2 , x3 )] = xT Sx = x1 x2 x3 4 1
ˆ ˜
1 1 5 4 x2 5
1 1 1 x3
= x21 + 2x1 x2 + 2x1 x3 + x22 + 2x2 x3 + x23 .
Según el teorema 3.41, existe una matriz ortogonal Q tal que QT SQ = D es una matriz diagonal con los
valores propios de S en la diagonal. Después de efectuar los cálculos pertinentes, se encuentra, que los
valores propios de S son 0 (con multiplicidad 2) y 3 (con multiplicidad 1), y que la matriz ortogonal:
2 √ √ √ 3
−1/√2 −1/√5 1/√3
Q = 4 1/ 2 −1/√5 1/√3 5
0 2/ 5 1/ 3
es tal que 2 3
0 0 0
T
Q SQ = D = 4 0 0 0 5.
0 0 3
Por lo tanto, el cambio de variables y = Q−1 x diagonaliza la forma cuadrática xT Sx, obteniéndose:
xT Sx = yT QT SQy = yT Dy
2 32 3
0 0 0 y1
0 5 4 y2 5 = 3y32 .
ˆ ˜
= y1 y2 y3 4 0 0
0 0 3 y3

El siguiente teorema está estrechamente relacionado con el literal (1) del teorema 3.44 y plantea la existencia
de un cambio de variable ligado al signo de los valores propios de la matriz de la forma cuadrática.
4.14. Teorema. Sea xT Sx una forma cuadrática sobre Rn . Si la matriz S tiene ρ (0 ≤ p ≤ n) val-
ores propios, no necesariamente diferentes, estrictamente positivos y η (0 ≤ η ≤ n) valores propios, no
necesariamente diferentes, estrictamente negativos, entonces existe un cambio de variables y = P −1 x que
diagonaliza la forma cuadrática xT Sx, obteniéndose:
xT Sx = yT P T SP y = yT Dy
2 3
2 3 y1
ˆ ˜ Ip 0 0 6 y2 7
= y1 y2 ··· yn 4 0 −Iη 0 56
6 7
.. 7
0 0 0
4 . 5
yn
= y12 + y22 + . . . + yp2 − yp+1
2 2
− yp+2 2
− . . . − yp+η .

76
Formas cuadráticas 4.2. Cambios de variable y diagonalización

4.15. Ejemplo. Sea q : R3 → R la forma cuadrática definida por:


q (x) = xT Sx
2 32 3
ˆ ˜ 1 1 1 x1
= x1 x2 x3 4 1 0 2 5 4 x2 5
1 2 0 x3

= x21 + 2x1 x2 + 2x1 x3 + 4x2 x3 .


Los valores propios de S son λ1 = 3, λ2 = −2 y λ3 = 0. Por el teorema 3.44(1) , existe una matriz invertible
P tal que:
2 3
1 0 0
T
P SP = D = 4 0 −1 0 5 .
0 0 0
Efectuando los cálculos del caso se encuentra que la matriz invertible
2 3
1 −1 −2
P =4 0 1 1 5
0 0 1
sirve para tal efecto. Por lo tanto, el cambio de variables y = P −1 x diagonaliza la forma cuadrática xT Sx,
obteniéndose:
xT Sx = yT P T SP y
= yT Dy
2 32 3
1 0 0 y1
0 5 4 y2 5 = y12 − y22 .
ˆ ˜
= y1 y2 y3 4 0 −1
0 0 0 y3

El teorema siguiente, plantea un criterio para la existencia de un cambio de variables que diagonalice
simultáneamente a dos formas cuadráticas. Su demostración se obtiene de la diagonalización simultánea de
matrices simétricas (teorema 3.49).
4.16. Teorema. Sean q1 (x) = xT S1 x y q2 (x) = xT S2 x dos formas cuadráticas en Rn . Si todos los valores
propios de S1 son estrictamente positivos, entonces existe un cambio de variables y = Q−1 x que diagonaliza
simultáneamente las formas cuadráticas q1 (x) = xT S1 x y q2 (x) = xT S2 x obteniéndose:
xT S1 x = yT QT S1 Qy = yT Iy = y12 + y22 + . . . + yn2
y
xT S2 x = yT QT S2 Qy
= yT Dy
···
2 32 3
λ1 0 0 y1
ˆ ˜6 0 λ2 ··· 0 76 y2 7
= y1 y2 ··· yn
6 76 7
6 .. .. .. .. 76 .. 7
4 . . . . 54 . 5
0 0 ··· λn yn
= λ1 y12 + λ2 y22 + . . . + λn yn2 ,
donde los λi , i = 1, 2, . . . , n son las soluciones de la ecuación |S2 − λS1 | = 0, las cuales son reales.

El siguiente ejemplo ilustra dicho resultado.


77
4.2. Cambios de variable y diagonalización Formas cuadráticas

4.17. Ejemplo. Sean q1 : R3 → R y q2 : R3 → R las formas cuadráticas definidas por:


2 32 3
1 0 0 x1
T ˆ ˜
q1 (x) = x S1 x = x1 x2 x3 4 0 4 2 5 4 x2 5
0 2 2 x3
= x21 + 4x22 + 4x2 x3 + 2x23 ,
2 32 3
5 4 4 x1
T ˆ ˜
q2 (x) = x S2 x = x1 x2 x3 4 4 8 −4 5 4 x2 5
4 −4 −4 x3
= 5x21 + 8x1 x2 + 8x1 x3 + 8x22 − 8x2 x3 − 4x23 .
√ √
Por el ejemplo 3.50 se sabe que los valores propios de S1 son: λ1 = 1, λ2 = 3 + 5 y λ3 = 3 − 5, los cuales
son estrictamente positivos y que la matriz invertible

1 2 2
2 3
− √ √
6
6 3 5 3 5 7
7
6 7
6 1 3 7
Q=6
6 0 √ − √ 77
6 2 5 3 5 7
6 7
6 7
4 2 5 5
0 √
3 3 5

es tal que
2 3
−3 0 0
T
Q S1 Q = I3 y T
Q S2 Q = D = 4 0 6 0 5.
0 0 6

Por lo tanto, el cambio de variables y = Q−1 x diagonaliza simultáneamente las formas cuadráticas xT S1 x
y xT S2 x obteniéndose:

xT S1 x = yT QT S1 Qy = yT I3 y = y12 + y22 + y32

xT S2 x = yT QT S2 Qy
= yT Dy
2 32 3
ˆ ˜ −3 0 0 y1
= y1 y2 y3 4 0 6 0 5 4 y2 5
0 0 6 y3
= −3y12 + 6y22 + 6y32 .

Los siguientes dos resultados están relacionados de manera muy cercana con el teorema 3.51 y el corolario
3.53 respectivamente, ellos brindan condiciones necesarias y suficientes bajo las cuales se puede hablar de
diagonalización ortogonal simultánea de dos o más formas cuadráticas. En forma más precisa se tiene:

4.18. Teorema (Diagonalización ortogonal simultánea). Considere en Rn las dos formas cuadráticas q1 (x) =
xT S1 x y q2 (x) = xT S2 x. S1 S2 = S2 S1 sii existe una matriz ortogonal P tal que el cambio de variables

78
Formas cuadráticas 4.2. Cambios de variable y diagonalización

y = P −1 x = P T x diagonaliza simultáneamente las formas cuadráticas xT S1 x y xT S2 x obteniéndose:

xT S1 x = yT P T S1 P y = yT D1 y

···
2 32 3
λ1 0 0 y1
ˆ ˜6 0 λ2 ··· 0 76 y2 7
= y1 y2 ··· yn
6 76 7
6 .. .. .. .. 76 .. 7
4 . . . . 54 . 5
0 0 ··· λn yn
= λ1 y12 + λ2 y22 + . . . + λn yn2 ,

xT S2 x = yT P T S2 P y = yT D2 y

···
2 32 3
β1 0 0 y1
ˆ ˜6 0 β2 ··· 0 76 y2 7
= y1 y2 ··· yn
6 76 7
6 .. .. .. .. 76 .. 7
4 . . . . 54 . 5
0 0 ··· βn yn
= β1 y12 + β2 y22 + . . . + βn yn2 ,

donde los λi , i = 1, 2, . . . , n son los valores propios de S1 y los βi , i = 1, 2, . . . , n son los valores propios de
S2 .

4.19. Corolario. Sean xT S1 x, xT S2 x, . . . , xT Sk x formas cuadráticas en Rn . Una condición necesaria


y suficiente para que exista una matriz ortogonal P tal que el cambio de variables y = P −1 x = P T x
diagonalice simultáneamente las formas cuadráticas xT S1 x, xT S2 x, . . . , xT Sk x es que Si Sj = Sj Si para
todo i y todo j; i, j = 1, 2, . . . , k.

4.20. Ejemplo. Sean q1 : R4 → R y q2 : R4 → R las formas cuadráticas definidas por:

q1 (x) = xT S 1 x
2 32 3
1 −1 0 0 x1
ˆ ˜ 6 −1 1 0 0 7 6 x2 7
= x1 x2 x3 x4 6
4 0
76 7
0 1 0 5 4 x3 5
0 0 0 1 x4
= x21 − 2x1 x2 + x22 + x23 + x24 ,

q2 (x) = xT S 2 x
2 32 3
1 0 0 0 x1
˜6 0 1 0 0 7
7 6 x2
ˆ 6 7
= x1 x2 x3 x4 6 7
4 0 0 2 −2 5 4 x3 5
0 0 −2 5 x4
= x21 + x22 + 2x23 − 4x3 x4 + 5x24 .

79
4.2. Cambios de variable y diagonalización Formas cuadráticas

Dado que las matrices S1 y S2 corresponden respectivamente a las matrices A y B del ejemplo 3.52 se sabe
que, S1 S2 = S2 S1 y que la matriz ortogonal
2 √ √ 3
1/ 2 0 0 −1/ 2
6 √ √ 7
6 1/ 2 0 0 1/ 2 7
6 7
P =6 6 √ √ 7
6 0 2/ 5 −1/ 5 0
7
7
4 √ √ 5
0 1/ 5 2/ 5 0
es tal que 2 3 2 3
0 0 0 0 1 0 0 0
6 0 1 0 0 7
T 7 y P T S2 P = D2 = 6 0 1 0 0 7
6
P S1 P = D1 = 4
6 7.
0 0 1 0 5 4 0 0 6 0 5
0 0 0 2 0 0 0 1
Por lo tanto, el cambio de variable y = P −1 x diagonaliza simultáneamente las formas cuadráticas
xT S1 x y xT S2 x obteniéndose:
xT S1 x = yT P T S1 P y = yT D1 y
= y22 + y32 + y42 ,

xT S2 x = yT P T S2 P y = yT D2 y
= y12 + y22 + 6y32 + y42 .
4.21. Ejemplo. Considere las formas cuadráticas en R2 :
» –» –
˜ 2 1 x1
q1 (x) = xT S1 x = x1 x2 = 2x21 + 2x1 x2 + 2x22
ˆ
1 2 x2
» –» –
3 4 x1
q2 (x) = xT S2 x = x1 x2 = 3x21 + 8x1 x2 + 3x22
ˆ ˜
4 3 x2
» –» –
5 6 x1
q3 (x) = xT S3 x = x1 x2 = 5x21 + 12x1 x2 + 5x22
ˆ ˜
6 5 x2
Del ejemplo 3.54 se tiene, que Si Sj = Sj Si , i = 1, 2, 3 y que la matriz ortogonal
» –
1 1
P = √12
−1 1
es tal que » – » –
1 0 −1 0
P T S1 P = D1 = , P T S2 P = D2 = y
0 3 0 7
» –
−1 0
P T S3 P = D3 = .
0 11
Por lo tanto, el cambio de variable y = P −1 x diagonaliza simultáneamente las formas cuadráticas xT S1 x, xT S2 x
y xT S3 x, obteniéndose:
» –» –
˜ 1 0 y1
xT S1 x = yT P T S1 P y = y1 y2 = y12 + 3y22
ˆ
0 3 y2
» –» –
T ˜ −1 0 y1
T T
= −y12 + 7y22
ˆ
x S2 x = y P S2 P y = y1 y2
0 7 y2
» –» –
˜ −1 0 y1
xT S3 x = yT P T S3 P y = y1 y2 = −y12 + 11y22
ˆ
0 11 y2

80
Formas cuadráticas 4.2. Cambios de variable y diagonalización

4.2 Ejercicios

En los ejercicios 1 al 2 responda verdadero o falso justificando su respuesta.

1. Si S es una matriz simétrica tal que S 3 = S, entonces S es no negativa.


2. Si S1 y S2 son matrices positivamente definidas de igual orden tales que S1 S2 = S2 S1 , entonces la
matriz S = S1 S2 es positivamente definida .

En los ejercicios 3 al 4 demuestre cada afirmación.

3. Si la matriz S = [sij ]n×n es positivamente semidefinida y si sii = 0, entonces los elementos de la


i-ésima fila y de la i-ésima columna de S son nulos.
4. Si S = [sij ]n×n es una matriz simétrica tal que:
n
X
sii > |sij |, para i = 1, 2 . . . , n,
j=1, j6=i

entonces S es positivamente definida (sugerencia: vea el problema 19 de la sección de ejercicios


3.3).
5. Para cada una de las formas cuadráticas xT Sx siguientes encuentre un cambio de variable que la
diagonalice:
a) xT Sx = x21 + 4x 2
√1 x2 − 2x2 2
T 2
b) x Sx = x1 + 2 2x1 x2 + 4x2 + x23
c) xT Sx = x21 + 4x1 x2 − 2x1 x3 + 4x22 − 4x2 x3 + 8x23
d ) xT Sx = x21 + 4x1√x2 + 6x1 x3 − 2x2 x3 + x23
2 2 1
e) xT Sx = x21 + 2 x1 x3 + x22 + x23
3 3 3
f ) xT Sx = x21 − 2x1 x3 + 2x22 + 2x2 x3 + 2x23
6. Considere las dos formas cuadráticas:
xT S 1 x = x21 + 4x1 x2 + 5x22 + 2x2 x3 + 2x23 , y
xT S 2 x = x21 + 2x1 x2 − 2x1 x3 + x22 − 2x2 x3 + 2x23 .
a) Encuentre, si existe, un cambio de variable y = M −1 x que diagonalice simultáneamente.
b) Encuentre, si existe, un cambio de variable y = Q−1 x, (Q una matriz ortogonal), que diago-
nalice de manera ortogonal y simultánea.
7. Resuelva el problema anterior para las formas cuadráticas:
xT S 1 x = x21 − 2x1 x2 + 2x22 , y
T
x S2 x = 2x21 + 4x1 x2 .
» –
2 1
8. Sea S = .
1 2
a) Verifique que la matriz S es positivamente definida.
b) Encuentre un vector a2×1 y un número α, tales que la matriz
» –
∗ S a
S =
aT α
sea positivamente definida.

81
4.3. Formas positivas definidas Formas cuadráticas

4.3. Formas cuadráticas positivas, negativas e indefinidas.

En esta sección se hará uso la discusión previa sobre cambios de variables con el objeto de introducir algunos
criterios de clasificación de formas cuadráticas. Tales criterios estarán dados en términos de los signos de
valores propios de la matriz de la forma cuadrática.

Como se recordará de la sección anterior, toda matriz invertible P ∈ Mn×n , junto con el cambio de variable
x = P y ó y = P −1 x (x, y ∈ Rn ), permite reescribir la forma cuadrática q(x) = xT Sx en términos de la
variable y, mediante la expresión q ∗ (y) = yT By, donde B = P T SP. Esto es, para dicho cambio de variable
se tiene
q(x) = xT Sx = yT By = q ∗ (y), con x = P y, P invertible.
De esto se sigue entonces, que q(·) y q (·) tienen la misma imagen, es decir,

{xT Sx : x ∈ Rn } = {yT By : y ∈ Rn } .
El siguiente resultado relaciona las clasificaciones de dichas formas cuadráticas. La verificación de éste se
deja a cargo del lector.
4.22. Teorema. Sea q(x) = xT Sx una forma cuadrática en Rn y sea P una matriz invertible n × n.
Sea además q ∗ (y) = yT By, donde B = P T SP , la forma cuadrática generada por el cambio de variable
y = P −1 x. Entonces se tiene:

1. q(x) = xT Sx es positivamente (respectivamente, negativamente) definida sii q ∗ (y) = yT By es


positivamente (respectivamente, negativamente) definida.
2. q(x) = xT Sx es positivamente (respectivamente, negativamente) semidefinida sii q ∗ (y) = yT By
es positivamente (respectivamente, negativamente) semidefinida.
3. q(x) = xT Sx es indefinida sii q ∗ (y) = yT By es indefinida.

El siguiente teorema relaciona el signo de las formas cuadráticas con el signo de los valores propios de la
matriz simétrica que define dicha forma cuadrática.
4.23. Teorema. Sea xT Sx una forma cuadrática en Rn , S 6= 0.

1. xT Sx es positivamente definida sii todos los valores propios de S son estrictamente positivos.
2. xT Sx es positivamente semidefinida sii S tiene p (0 < p < n) valores propios estrictamente positivos
y el resto de valores propios de S son nulos.
3. xT Sx es indefinida sii S tiene valores propios estrictamente positivos y valores propios estricta-
mente negativos.

Demostración. De acuerdo con el teorema 4.12, una forma cuadrática q(x) = xT Sx, con S una
matriz simétrica, es ortogonalmente diagonalizable. Es decir, existe una matriz ortogonal Q y un cambio
de variable y = Q−1 x = QT x, tal que
(4.1) xT Sx = yT QT SQy = yT Dy = λ1 y12 + λ2 y22 + . . . + λn yn2 ,
donde los λi , i = 1, 2, . . . , n son los valores propios de la matriz S, y
D = QT SQ = diag( λ1 , λ2 , ..., λn ) .
Supongamos ahora, que la forma cuadrática q(x) = xT Sx es positivamente definida. Entonces por el teo-
rema 4.22(1), q ∗ (y) = yT Dy es también positivamente definida, esto es, q ∗ (y) = yT Dy > 0 para todo
y 6= 0. De (4.1) se tiene entonces que λ1 > 0, λ2 > 0, . . . , λ2 > 0. Es decir, todos los valores propios de S
son estrictamente positivos.

82
Formas cuadráticas 4.3. Formas positivas definidas

De otro lado, si todos los valores propios de S son estrictamente positivos, entonces existe un cambio
de variable y = P −1 x (teorema 4.14), tal que

xT Sx = yT P T SP y = yT y = y12 + y22 + . . . + yn2 .

Puesto que yT y > 0 para todo y 6= 0, entonces xT Sx > 0, para todo x 6= 0. Esto es, la forma cuadrática
xT Sx, es positivamente definida, lo que demuestra el inciso (1) de nuestro teorema.

Supongamos ahora, que la forma cuadrática q(x) = xT Sx es positivamente semidefinida. Por el inciso (2)
del teorema 4.22, la forma cuadrática q ∗ (y) = yT Dy es también positivamente semidefinida. Esto es, se
tiene que q ∗ (y) = yT Dy ≥ 0 para todo y ∈ Mn×1 y existe un y∗ 6= 0 tal que y∗T Dy∗ = 0. Usando (4.1) se
tiene entonces, que los valores propios de S son no negativos y que por lo menos uno de ellos es nulo. Es de-
cir, S tiene p (0 < p < n) valores propios estrictamente positivos y el resto de valores propios de S son nulos.

Finalmente, supongamos que la matriz S de la forma cuadrática, xT Sx, tiene p valores propios estric-
tamente positivos, con 0 < p < n, y (n − p) valores propios nulos. Por el teorema 4.14 existe un cambio de
variable y = P −1 x tal que

xT Sx = yT P T SP y = yT Dy = y12 + y22 + . . . + yp2 .

por hipótesis, yT Dy ≥ 0 para todo y ∈ Mn×1 . No es difícil sin embargo ver, que para y∗ ∈ Mn×1 dado por
0
2 3
2
0p×1
3 6 .. 7
6 . 7
6 1 7 6
6 0 7
7
y∗ = 6 . 7 =6 ,
6 7
4 .. 5
7
6 1 7
6 . 7
6 7
1 n×1
4 .. 5
1 n×1

se tiene y∗T Dy∗ = 0. Esto quiere decir, que q ∗ (y) = yT Dy es positivamente semidefinida y por consiguiente,
q(x) = xT Sx también lo es, lo que demuestra el inciso (2) de nuestro teorema. 

El resultado correspondiente a formas indefinidas se plantea como un ejercicio para el lector.

4.24. Ejemplo. El presente ejemplo pretende ilustrar el teorema 4.23 a través de tres formas cuadráticas,
q(x) = xT Sx, definidas en R3 .

1. La forma cuadrática q(x) = xT Sx definida por:



q(x) = 5x21 + 4x22 + 2 3x2 x3 + 6x23

2 32 3
ˆ ˜ 5 0 √0 x1
= x1 x2 x3 4 0
√4 3 5 4 x2 5
0 3 6 x3
= xT Sx

es positivamente definida, pues los valores propios de la matriz S son: λ1 = 5, λ2 = 3 y λ3 = 7, los


cuales son estrictamente positivos.

83
4.3. Formas positivas definidas Formas cuadráticas

2. La forma cuadrática q(x) = xT Sx definida por:


q(x) = x21 + 2x1 x2 − 4x1 x3 + 2x22 − 4x2 x3 + 4x23

2 32 3
ˆ ˜ 1 1 −2 x1
= x1 x2 x3 4 1 2 −2 5 4 x2 5
−2 −2 4 x3
= xT S x
√ √
es positivamente semidefinida, pues los valores propios de la matriz S son: λ1 = 7+ 23
2
, λ2 = 7− 23
2
y λ3 = 0.

3. La forma cuadrática q(x) = xT Sx definida por:


q(x) = x21 − 4x1 x2 + 2x22 − 4x2 x3 + 3x23

2 32 3
ˆ ˜ 1 −2 0 x1
= x1 x2 x3 4 −2 2 −2 5 4 x2 5
0 −2 3 x3
= xT Sx
es indefinida, pues los valores propios de S son: λ1 = −1, λ2 = 2 y λ3 = 5.
4.25. Teorema. Sea xT Sx una forma cuadrática en Rn .

1. xT Sx es positivamente definida sii existe una matriz invertible Q tal que S = QT Q.


2. xT Sx es positivamente semidefinida sii existe una matriz no invertible Q tal que S = QT Q.

Demostración. La siguiente argumentación corresponde sólo a la demostración del inciso (1). El otro
se verifica análogamente y se deja como ejercicio.

Suponga que la forma cuadrática xT Sx es positivamente definida, entonces todos los valores propios de S
son estrictamente positivos (teorema 4.23(1)), además, existe una matriz invertible P tal que P T SP = I
(teorema 3.44(1)). De ésto se sigue, que S = (P T )−1 P −1 = QT Q, donde Q = P −1 .

Suponga ahora que existe una matriz invertible Q tal que S = QT Q. Puesto que Q es invertible, en-
tonces Qx 6= 0 para todo vector no nulo x. De esto se sigue, que xT Sx = xT QT Qx = (Qx)T (Qx) > 0, para
todo x 6= 0. ésto es, la forma cuadrática xT Sx es positivamente definida. 

4.26. Ejemplo.

1. La forma cuadrática q : R3 → R definida por:


q(x) = 4x21 + x22 − 4x2 x3 + 5x23
2 32 3
ˆ ˜ 4 0 0 x1
= x1 x2 x3 4 0 1 −2 5 4 x2 5
0 −2 5 x3
= xT Sx

es positivamente
√ definida, pues los valores propios de la matriz S son λ1 = 4, λ2 = 3 + 5 y
λ3 = 3 − 5, los cuales son estrictamente positivos.

84
Formas cuadráticas 4.3. Formas positivas definidas

Efectuando los cálculos pertinentes se encuentra que la matriz invertible


2 3 2 3
2 0 0 4 0 0
Q = 4 0 1 −2 5 , es tal que S = 4 0 1 −2 5 = QT Q.
0 0 1 0 −2 5
2. La forma cuadrática q : R3 → R definida por:

q(x) = x21 + 2x1 x2 + 2x1 x3 + x22 + 2x2 x3 + x23


2 32 3
ˆ ˜ 1 1 1 x1
= x1 x2 x3 4 1 1 1 5 4 x2 5
1 1 1 x3
= xT Sx
es positivamente semidefinida, pues los valores propios de la matriz S son λ1 = 0, λ2 = 0 y λ3 = 3.

Efectuando los cálculos pertinentes se encuentra que la matriz no invertible


2 3 2 3
1 1 1 1 1 1
Q=4 0 0 0 5 , es tal que S=4 1 1 1 5 = QT Q.
0 0 0 1 1 1

El siguiente teorema da un criterio para clasificar matrices simétricas como positivamente definidas o nega-
tivamente definidas, en términos de los determinantes de la propia matriz y de algunas de sus submatrices.
Cuando haya peligro de confusión con la función valor absoluto en el caso de matrices de tamaño 1 × 1, es
decir escalares, se escribirá det(·) en lugar de |·|.
4.27. Teorema. Considere una matriz simétrica S de orden n.
···
2 3
s11 s12 s1n
6 s21 s22 ··· s2n 7
S=6 . 7.
6 7
.. .. ..
4 .. . . . 5
sn1 sn2 ··· snn
Defina ahora la secuencia de matrices
···
2 3
s11 s12 s1(n−1)
6 s21 s22 ··· s2(n−1) 7
Sn = S, Sn−1 = 6 7, ...
6 7
.. .. .. ..
4 . . . . 5
sn1 sn2 ··· sn(n−1)

» –
s11 s12
S2 = y S1 = [s11 ] .
s21 s22

Entonces:

1. La forma cuadrática q(x) = xT Sx es positivamente definida si y sólo si |S1 | > 0, |S2 | > 0, |S3 | >
0, . . .|Sn | > 0.
2. La forma cuadrática q(x) = xT Sx es negativamente definida si y sólo si |S1 | < 0, |S2 | > 0, |S3 | <
0, . . .(−1)n |Sn | > 0.

85
4.3. Formas positivas definidas Formas cuadráticas

Demostración. Se presenta aquí sólo la demostración de la parte (1), la otra se deja como ejercicio.
Para efectos de dicha demostración se toma la convención de que xk representará un vector abitrario en Rk
para todo índice k.

(⇐=). En primer lugar se demuestra; que si la forma cuadrática xTj Sj xj definida sobre Rj , para 2 ≤ j ≤ n, es
positivamente definida, entonces la forma cuadrática xTj−1 Sj−1 xj−1 , es positivamente definida sobre Rj−1 .
En efecto, para todo xj−1 6= 0 se tiene que:
» –» –
˜ Sj−1 s xj−1
xTj Sj xj =
ˆ T
xj−1 0
sT sjj 0
= xTj−1 Sj−1 xj−1 > 0.
En segundo lugar, si la forma cuadrática xTj Sj xj , definida sobre Rj (2 ≤ j ≤ n), es positivamente definida,
entonces existe una matriz invertible Qj tal que Sj = QTj Qj , de donde |Sj | = |QTj | |Qj | = |Qj |2 > 0 (teore-
ma 4.25(1))

Estas dos observaciones permiten concluir que si la forma cuadrática xT Sx es positivamente definida en-
tonces |S1 | > 0, |S2 | > 0, |S3 | > 0, . . .|Sn | > 0.

(=⇒) La demostración de esta implicación se hará usando inducción sobre n.

Cuando n = 1, S1 = [s11 ]. Ahora, por hipótesis det(S1 ) = s11 > 0 y xT1 S1 x1 = s11 x21 > 0 para todo
x1 6= 0. Esto es, la forma cuadrática xT1 S1 x1 es positivamente definida.

Suponga ahora que la implicación es válida para cuando n = k; se necesita entonces verificar, que la
implicación es válida para n = k + 1. Sea pues S = Sn una matriz simétrica de orden n = k + 1 tal que
|Sn | = |Sk+1 | > 0, |Sn−1 | = |Sk | > 0, . . . |S2 | > 0 y |S1 | > 0. Por hipótesis de inducción, la forma cuadráti-
ca xTk Sk xk en Rk es positivamente definida. Existe entonces una matriz invertible Qk tal que Sk = QTk Qk
(teorema 4.25(1)). Ahora, por el teorema 2.6(2) se tiene que:
˛ ˛
˛ Sk s ˛
|Sk+1 | = ˛˛ T ˛
s s(k+1)(k+1) ˛
= |Sk | · det s(k+1)(k+1) − sT Sk−1 s
` ´

= |Sk | · det(α̃k ).
Aquí se ha introducido la sustitución α̃k = s(k+1)(k+1) − sT Sk−1 s para simplificar un poco la escritura,
además se tiene que det(α̃k ) = α̃k > 0 puesto que |Sk+1 | > 0 y |Sk | > 0. Sea ahora
(QTk )−1 s
2 3
Qk
Qk+1 = 4 √
5
0 α̃k
La matriz Qk+1 es invertible y es tal que:
» –
Sk s
Sk+1 = T
s s(k+1)(k+1)

QTk (QTk )−1 s


2 3 2 3
0 Qk
= 4 5×4
√ √
5
sT (Qk )−1 α̃k 0 α̃k

= QTk+1 · Qk+1 .
Por lo tanto, en virtud del literal (1) del teorema 4.25 la forma cuadrática xTk+1 Sk+1 xk+1 , definida sobre
Rk+1 es positivamente definida. 

86
Formas cuadráticas 4.3. Formas positivas definidas

4.28. Ejemplo.

1. La forma cuadrática xT Sx, donde:


2 3
4 2 2
S=4 2 5 1 5
2 1 4
es positivamente definida, pues:
˛ ˛
˛ 4 2 ˛
det(S1 ) = 4 > 0, |S2 | = ˛
˛ ˛ = 16 > 0 y
2 5 ˛
˛ ˛
˛ 4 2 2 ˛
˛ ˛
|S3 | = ˛˛ 2 5 1 ˛˛ = 20 > 0.
˛ 2 1 4 ˛
2. La forma cuadrática xT Sx, donde:
2 3
−3 2 0
S=4 2 −4 2 5
0 2 −5
es negativamente definida, pues:
˛ ˛
˛ −3 2 ˛˛
det(S1 ) = −3 < 0, |S2 | = ˛˛ =8>0 y
2 −4 ˛
˛ ˛
˛ −3 2 0 ˛
˛ ˛
|S3 | = ˛˛ 2 −4 2 ˛ = −28 < 0.
˛
˛ 0 2 −5 ˛

4.29. Nota. Sea S = [aij ]n×n una matriz simétrica y sean S1 , S2 , . . . , Sn las matrices que aparecen en el
enunciado del teorema anterior. Las condiciones |S1 | ≥ 0, |S2 | ≥ 0, |S3 | ≥ 0, . . .|Sn | ≥ 0 no implican que la
forma cuadrática xT Sx sea positivamente semidefinida. Por ejemplo, la matriz
2 3
1 1 2
S=4 1 1 2 5
2 2 1
es tal que ˛ ˛
˛ 1 1 ˛˛
det(S1 ) = 1, |S2 | = ˛˛ =0
1 1 ˛
y

˛ ˛
˛ 1 1 2 ˛
˛ ˛
|S3 | = ˛˛ 1 1 2 ˛ = 0.
˛
˛ 2 2 1 ˛
Sin embargo, la forma cuadrática xT Sx no es positivamente definida, pues el vector x∗T =
ˆ ˜
−2 0 1
es tal que x∗T Sx∗ = −3 < 0.

4.3 Ejercicios

Para cada uno de los siguientes problemas haga una demostración de la afirmación correspondiente
» –
a b
1. La matriz S = es negativamente definida sii a < 0 y ac − b2 > 0.
b c
87
4.3. Formas positivas definidas Formas cuadráticas

2. Si S es positivamente definida de orden n, a un vector n × 1 y α un número real tal que α > aT Sa,
entonces la matriz

» –
S a
S∗ =
aT α

es positivamente definida (Sugerencia: utilice el teorema 4.27(1)).


3. Si S es una matriz positivamente definida, entonces existe una matriz invertible T triangular
superior tal que S = T T T (Sugerencia: utilice inducción sobre el orden n, de la matriz S).
4. Si S es una matriz positivamente, entonces Tr S > 0. (Sugerencia: utilice el teorema 4.25(1)).
5. Si S es una matriz positivamente semidefinida, entonces Tr S ≥ 0. (Sugerencia: utilice el teorema
4.25(2)).
6. Si S1 y S2 son matrices positivamente definidas de igual orden, entonces Tr(S1 S2 ) > 0 (Sugerencia:
utilice el teorema 4.25(1)).
7. Si S1 y S2 son matrices positivamente semidefinidas de igual orden, entonces Tr(S1 S2 ) > 0 (Sug-
erencia: utilice el teorema 4.25(2)).
8. La matriz

» –
1
Hn =
i+j+1 i = 0, . . . , n − 1
j = 0, . . . , n − 1
1 1 1
2 3
1 ···
6
6 2 3 n 7
7
6 7
6 1 1 1 1 7
6 ··· 7
6
6 2 3 4 n+1 7 7
6 7
6 1 1 1 1 7
= ···
6 7
3 4 5 n+2 7
6 7
6
6 7
.. .. .. ..
6 7
6 .. 7
6
6 . . . . .
7
7
6 7
6 7
4 1 1 1 1 5
···
n n+1 n+2 2n − 1

llamada usualmente matriz de Hilbert (de orden n), es positiva definida. Sugerencia: Muestre que
para cada vector x ∈ Rn , xT = [x0 x1 · · · xn−1 ] se tiene que

ˆ1
T
x Hn x = (x0 + x1 t + · · · + xn−1 tn−1 )2 dt
0

ˆ1 n−1
X
= ( xi xj ti+j ) dt .
0 i,j=0

88
Formas cuadráticas 4.4. Anexo 1

9. Sean t1 , t2 , . . . , tn números reales tales que 0 < t1 < t2 < · · · < tn < 1. Entonces la matriz
W = [mı́n {ti , tj }]
i = 1, . . . , n
j = 1, . . . , n

t1 t1 t1 t1 ··· t1
2 3
6
6 t1 t2 t2 t2 ··· t2 7
7
6 t1 t2 t3 t3 ··· t3 7
=
6 7
6 t1 t2 t3 t4 ··· t4 7
.. .. .. .. .. ..
6 7
.
6 7
4 . . . . . 5
t1 t2 t3 t4 ··· tn
es positiva definida. Sugerencia: Muestre que para cada vector x ∈ Rn , xT = [x1 x2 · · · xn ] se
´1 n
tiene que xT Wx = f 2 (s) ds, donde f (s) = xi 1[0,ti ] (s). Aquí 1[0,ti ] (·) representa la función
P
0 i=1
característica sobre el intervalo cerrado [0, ti ], esto es,
8
<1 si s ∈ [0, ti ]
>
1[0,ti ] (s) =
>
0 si s ∈ / [0, ti ]
:

10. Para cada una de las formas cuadráticas xT Sx del ejercicio 5 de la sección 4.2 haga:
a) Clasifíquela como positivamente definida (semidefinida), negativamente definida (semidefinida)
o indefinida.
b) Para aquellas que sean positivamente definidas, encuentre una matriz invertible Q tal que
S = QT Q.
c) Para aquellas que sean positivamente semidefinidas, encuentre una matriz no invertible Q tal
que S = QT Q.

4.4. Anexo: Matrices no negativas. Matrices idempotentes

Las matrices no negativas, y, en particular, las matrices idempotentes, aparecen con frecuencia en la teoría
y en las aplicaciones de los modelos lineales. El propósito de este anexo es el recopilar los aspectos más
importantes de este tipo de matrices.

No se presentarán las demostraciones de aquellos resultados que ya han sido demostrados en las secciones
anteriores o que fueron propuestos como ejercicios.

4.4.1. Matrices no negativas.


4.30. Definición. Sea S una matriz simétrica:

1. S es positivamente definida, si xT Sx > 0 para todo x 6= 0.


2. S es positivamente semidefinida, si xT Sx ≥ 0 para todo x 6= 0, y existe un x∗ 6= 0 tal que
x∗T Sx∗ = 0.
3. S es no negativa, si S es positivamente definida o si S positivamente semidefinida.
4.31. Teorema. Sea S una matriz simétrica n × n. Las siguientes afirmaciones son equivalentes:

1. S es positivamente definida.
2. Para cada matriz invertible P de orden n, la matriz P T SP es positivamente definida.
3. Todos los valores propios de S son estrictamente positivos.

89
4.4. Anexo 1 Formas cuadráticas

4. Existe una matriz invertible P de orden n, tal que P T SP = In .


5. Existe una matriz invertible Q de orden n, tal que S = QT Q.
6. Existe una matriz invertible triangular superior n × n, T , tal que S = T T T.
7. S es invertible y S −1 es positivamente
˛ definida.
˛
˛ ˛ ˛ s11 s12 s13 ˛
˛ s11 s12 ˛
8. |s11 | > 0, ˛˛
˛ ˛
˛ > 0, ˛ s21 s22 s23 ˛ > 0, . . . , |S| > 0.
s21 s22 ˛ ˛
˛ s31 s32 s33 ˛
˛

4.32. Teorema. Sea S una matriz simétrica n × n. Si se cumple que


Xn
sii > |sij |, para i = 1, 2 . . . , n,
j=1, j6=i

entonces S es positivamente definida.


4.33. Teorema. Sea S una matriz simétrica n × n. Si S es positivamente definida, entonces,

1. ρ(S) = n.
2. sii > 0 para i = 1, 2, . . . , n.
4.34. Teorema. Sean S1 y S2 matrices simétricas de igual orden y sean α1 , α2 números reales positivos.
Si S1 y S2 son positivamente definidas, entonces la matriz S = α1 S1 + α2 S2 es positivamente definida.
4.35. Teorema. Sean S1 y S2 matrices simétricas de igual orden. Si S1 es positivamente definida, entonces
existe una matriz invertible Q tal que QT S1 Q = I y QT S2 Q = D, donde D es una matriz diagonal real,
cuyos elementos en la diagonal las soluciones de la ecuación |S2 − λS1 | = 0.
4.36. Teorema. Sean S1 y S2 matrices simétricas de igual orden. Si S1 y S2 son positivamente definidas
y si S1 S2 = S2 S1 , entonces la matriz S = S1 S2 es positivamente definida.
4.37. Teorema. Sean S1 y S2 matrices simétricas de orden n. Si S1 es positivamente definida, entonces
existe un α > 0 tal que S = S1 + αS2 es positivamente definida.

Demostración. Si S2 = 0 entonces para cualquier α > 0 se tiene que la matriz S = S1 + αS2 es


positivamente definida. Supongamos entonces que S2 6= 0. Por el teorema 4.35, existe una matriz invertible
Q tal que QT S1 Q = In y QT S2 Q = D, donde D es una matriz diagonal. Digamos que
···
2 3
d11 0 0
6 0 d22 · · · 0 7
D=6 . . . .. 7 .
6 7
4 .. .. .. . 5
0 0 · · · dnn
Puesto que S2 6= 0, entonces al menos un elemento de la diagonal de D es diferente de cero. Sea ahora α
un número tal que:
0 < α < mı́n {1/dii } .
dii 6=0
De esto se sigue que: 1 + αdii > 0 para i = 1, 2, . . . , n y que la matriz I + αD es positiva definida. En
consecuencia, por el teorema 4.31, la matriz
(Q−1 )T [I + αD]Q−1 = S1 + αS2 = S
es positivamente definida. 
4.38. Teorema. Sea S una matriz simétrica de orden n. Si S es positivamente definida, entonces para cada
par de vectores x, y ∈ Mn×1 se tiene
(xT y)2 ≤ (xT Sx)(yT S −1 y) .

90
Formas cuadráticas 4.4. Anexo 1

Demostración. Puesto que S es positivamente definida, por el teorema 4.31, existe una matriz inver-
tible Q tal que S = QT Q. De aquí que S −1 = Q−1 (QT )−1 . Ahora, por la desigualdad de Schwarz (ver el
teorema 1.30) para cada par de vectores x, y ∈ Mn×1 se tiene
˛ Qx, (QT )−1 y ˛2 ≤ ‚Q x‚2 ‚(QT )−1 y‚2 ,
˛˙ ¸˛ ‚ ‚ ‚ ‚

o sea:

(xT QT (QT )−1 y)2 ≤ (xT QT Qx) (yT Q−1 (Q−1 )T y) ,


esto es,
(xT y)2 ≤ (xT Sx) (yT S −1 y).


4.39. Teorema. Sean S1 y S2 matrices simétricas de orden n. Sean además λ1 ≤ λ2 ≤ · · · ≤ λn , las
soluciones de la ecuación |S2 − λS1 | = 0. Si S1 es positiva definida, entonces para cada x 6= 0 se tiene que
xT S 2 x
λ1 ≤ ≤ λn .
xT S 1 x

Demostración. Puesto que S1 es positiva definida, existe una matriz invertible Q, tal que QT S1 Q =
In y QT S2 Q = D es una matriz diagonal real, cuyos elementos en la diagonal son las soluciones de la
ecuación |S2 − λS1 | = 0 (ver teorema 4.35). Más aún, se puede escoger Q tal que
λ1 0 · · · 0
2 3
6 0 λ2 · · · 0 7
QT S2 Q = D = 6 . .. .. .. 7 ,
6 7
4 .. . . . 5
0 0 · · · λn
donde λ1 ≤ λ2 ≤ · · · ≤ λn . Ahora, si se toma y = Q−1 x, entonces:
xT S1 x = yT QT S1 Qy = yT In y = y12 + y22 + · · · + yn2 ,
y
xT S2 x = yT QT S2 Qy = yT Dy = λ1 y12 + λ2 y22 + · · · + λn yn2 .
Por lo tanto, para cada x 6= 0:
xT S2 x λ1 y12 + λ2 y22 + · · · + λn yn2
= .
xT S1 x y12 + y22 + · · · + yn2
De esto se sigue que para cada x 6= 0 :
xT S 2 x
λ1 ≤ T ≤ λn .
x S1 x

4.40. Teorema. Sea S una matriz simétrica de orden n. Las afirmaciones siguientes son equivalentes:

1. S es positivamente semidefinida.
2. Para cada matriz P , n × n, P T SP es positivamente semidefinida.
3. S tiene p (0 ≤ p < n) valores propios positivos (estrictamente) y n − p valores propios nulos.
4. Existe una matriz invertible P de orden n, tal que
» –
Ip 0
P T SP = ; 0 ≤ p < n.
0 0
5. Existe una matriz n × n no invertible Q, tal que S = QT Q.

91
4.4. Anexo 1 Formas cuadráticas

4.41. Teorema. Sea S = [sij ]n×n una matriz simétrica de orden n. Si S es positivamente semidefinida,
entonces

1. ρ(S) < n.
2. sii ≥ 0 para i = 1, 2, . . . , n. Además, si sii = 0, entonces los elementos de la i-ésima fila y de la
i-ésima la columna de S son nulos.
4.42. Teorema. Sean S1 y S2 matrices simétricas de igual orden. Si S1 y S2 son positivamente semidefinidas,
S2 es no negativa y S1 S2 = S2 S1 , entonces la matriz S = S1 S2 es positivamente semidefinida.
4.43. Teorema. Sean S1 y S2 matrices simétricas de igual orden y sean α1 , α2 números reales positivos. Si
S1 y S2 son positivamente semidefinidas, entonces la matriz S = α1 S1 +α2 S2 es positivamente semidefinida.
4.44. Teorema. Sea A una matriz n × n de rango ρ(A) = r, entonces:

1. AT A y AAT son matrices no negativas.


2. AT A es positivamente definida sii r = n.
3. AT A es positivamente semidefinida sii r < n.
4.45. Teorema. Sean S1 y S2 matrices simétricas de orden n.

1. Si S1 y S2 son matrices no negativas, entonces:


a) Tr S1 ≥ 0
b) Tr S1 = 0 sii S1 = 0
c) Tr(S1 S2 ) ≥ 0
d ) Tr(S1 S2 ) = 0 sii S1 S2 = 0
2. Si S1 y S2 son matrices positivamente definidas, entonces:
a) Tr S1 > 0
b) Tr(S1 S2 ) > 0.
4.46. Teorema. Sean S1 , S2 , . . . , Sk matrices simétricas de orden n.

1. Si S1 , S , . . . , Sk” son no negativas, entonces:


“2P
k Pk
a) Tr i=1 Si = i=1 Tr (Si ) ≥ 0
“P ”
k
b) Tr i=1 Si = 0 sii S1 = S2 = . . . = Sk = 0.
k X
X k k
X k
X
c) Tr (Si Sj ) ≥ 0, y Tr (Si Sj ) ≥ 0.
j=1 i=1 j=1 i=1, i6=j
Xk X k
d) Tr (Si Sj ) = 0 sii Si Sj = 0 para todo i 6= j.
j=1 i=1, i6=j

2. Si S1 , S , . . . , Sk” son matrices positivamente definidas, entonces:


“2P
k Pk
a) Tr i=1 Si = i=1 Tr (Si ) ≥ 0
k X
X k k
X k
X
b) Tr (Si Sj ) > 0 y Tr (Si Sj ) > 0.
j=1 i=1 j=1 i=1, i6=j

4.47. Teorema. Sea S una matriz simétrica n×n tal que S 2 = S. Sean además S1 , S2 , . . . , Sk son matrices
no negativas de orden n. Si
Xk
In = S + Si ,
i=1
entonces SSi = Si S = 0 para todo i = 1, 2, . . . , k.

92
Formas cuadráticas 4.4. Anexo 1

Demostración. Por el teorema 4.44(1) la matriz S = S 2 = S T S es no negativa, y por el teorema


4.45(1) Tr (SSi ) ≥ 0 para i = 1, 2, . . . , k. Ahora; premultiplicando los dos miembros de la igualdad:
k
X
In = S + Si ,
i=1

por la matriz S, se obtiene


k
X k
X
S = S2 + S Si = S + S Si .
i=1 i=1

De esto se sigue que:


k k
! k
X X X
SSi = 0 y Tr S Si = Tr (S Si ) = 0 .
i=1 i=1 i=1

En consecuencia, Tr (SSi ) = 0 y por ende S · Si = 0, para i = 1, 2, . . . , k. (ver teorema 4.45(1)). Además


se se tiene que Si · S = SiT · S T = (S · Si )T = 0. 

4.48. Teorema. Sean S1 y S2 matrices simétricas de orden n. Si S1 es no negativa o S2 es no negativa,


entonces las soluciones de la ecuación |S1 S2 − λI| = 0 son reales.

Demostración. Supongamos que S1 es una matriz no negativa de rango r ≤ n. Entonces existe una
matriz invertible P tal que:
» –
Ir 0
P T S1 P = .
0 0
» –
C11 C12
Sea ahora C = P −1 S2 (P T )−1 = , donde C11 es una matriz r × r. Puesto que C es una matriz
C21 C22
simétrica, entonces C11 es una matriz simétrica y por lo tanto las soluciones de la ecuación |C11 − λIr | = 0
son reales.

Ahora; |S1 S2 − λIn | = 0 sii


˛P ˛˛S1 S2 − λIn ˛˛(P T )−1 ˛ = ˛P T S1 S2 (P T )−1 − λIn ˛ = 0 .
˛ T ˛˛ ˛˛ ˛ ˛ ˛

Puesto que:
P T S1 S2 (P T )−1 = P T S1 P P −1 S2 (P T )−1
» –» –
Ir 0 C11 C12
=
0 0 C21 C22
» –
C11 C12
= ,
0 0
entonces
˛ ˛
˛ C11 − λIr C12 ˛
˛P S1 S2 (P T )−1 − λIn ˛
˛ T ˛ ˛ ˛
= ˛
˛
˛
˛
˛ 0 −λIn−r ˛
˛ ˛˛ ˛
= ˛C11 − λIr ˛˛−λIn−r ˛ .

De aquí que las soluciones de la ecuación |S1 S2 − λIn | = 0, son las soluciones de la ecuación |C11 − λIr | ·
| − λIn−r | = 0, las cuales son reales . 

93
4.4. Anexo 1 Formas cuadráticas

4.4.2. Matrices idempotentes.


4.49. Definición. Una matriz A cuadrada de orden n es idempotente, si satisface que A2 = A.
4.50. Teorema. Sea A una matriz idempotente n × n de rango r:

1. Si r = n, entonces A = In .
2. Si A es simétrica y r < n, entonces A es positiva semidefinida.

1. Si r = n, entonces A es invertible. Premultiplicando por A−1 los dos miembros de la igualdad


A2 = A, se obtiene A = In .
a) Si A es simétrica y r < n, entonces por el teorema 4.44(3), la matriz A = A2 = AT A es
positivamente semidefinida.
4.51. Teorema. Sea A una matriz idempotente n × n. Si λ es un valor propio de A, entonces λ = 0 ó
λ = 1.
4.52. Teorema. Si S es una matriz simétrica idempotente, entonces:

1. Para cada matriz ortogonal Q, la matriz S ∗ = QT SQ es una matriz simétrica idempotente.


2. La matriz S ∗ = S n , n = 1, 2, . . . , es simétrica idempotente.
3. La matriz S ∗ = I − 2S, es una matriz simétrica ortogonal.
4.53. Teorema. Si S es una matriz simétrica tal que S n+1 = S n para algún n ∈ N, entonces S es una
matriz idempotente.

Demostración. Sea P una matriz ortogonal tal que P T SP = D es una matriz diagonal con los val-
ores propios de S en la diagonal.

Puesto que S n+1 = S n , entonces:


Dn+1 = (P T SP )n+1 = P T S n+1 P
= P T S n P = Dn .
De esto se sigue, que cada elemento de la diagonal de D es 1 ó 0. Por lo tanto, D2 = D, a sea:
D2 = P T S 2 P = P T SP = D,
puesto que P es invertible, se tiene entones que S 2 = S. 
4.54. Teorema. Si S una matriz simétrica idempotente n × n, entonces:
“ ” X n X n
ρ(S) = Tr S = Tr S T S = s2ij .
i=1 j=1

4.55. Teorema. Si S es una matriz simétrica idempotente n × n. Si sii = 0 ó sii = 1, entonces cada
elemento de la fila i y cada elemento de la columna i de S es nulo.

Demostración. Puesto que S es una matriz simétrica idempotente, entonces:


n
X Xn
sii = sik ski = s2ik .
k=1 k=1

Por lo tanto, si sii = 0 o si sii = 1, se tiene


n
X
s2ik = 0 ,
k=1, k6=i

es decir, si1 = si2 = · · · = si(i−1) = si(i+1) = sin = 0. 

94
Formas cuadráticas 4.4. Anexo 1

k
X
4.56. Teorema. Sean S1 , S2 , . . . , Sk matrices simétricas de orden n, y sea además S = Si . Entonces
i=1
dos de las condiciones siguientes implican la tercera:

a) S 2 = S.
b) Si = Si2 , i = 1, 2, . . . , k .
c) Si Sj = 0 si i 6= j; i, j = 1, 2, . . . , k.

Demostración. Supongamos que las condiciones a) y b) se satisfacen. Por la condición a) se tiene:


k
X k
X k
X k
X
S2 = ( Si )2 = Si2 + Si Sj
i=1 i=1 j=1 i=1, i6=j
k
X
= Si = S,
i=1

y por la condición b), se tiene:


k
X k
X
Si2 = Si ,
i=1 i=1

y por lo tanto:
k
X k
X
Si Sj = 0.
j=1 i=1, i6=j

k k
`X X
De aquí que Tr
´
Si Sj = 0.
j=1 i=1, i6=j

Puesto que cada Si es una matriz simétrica idempotente, entonces Si , para i = 1, 2, . . . , k, es no nega-
tiva (teorema 4.50), además se tiene que que Si Sj = 0 si i 6= j; i, j = 1, 2, . . . , k (ver teorema 4.46). De
manera que las condiciones a) y b) implican la condición c).

Supongamos ahora que las condiciones a) y c) se satisfacen. Se tiene entonces que:


k
X k
X
S = S2 = ( S i )2 = Si2 ,
i=1 i=1

o sea,
k
X k
X
Si = Si2 .
i=1 i=1

Premultiplicando cada miembro de la última igualdad por Sj , j = 1, 2, . . . , k, se tiene que:

Sj Sj = Sj Sj2 ,
o sea:
Sj2 = Sj3 ,
pues Si Sj = 0 si i 6= j; i, j = 1, 2, . . . , k. Por el teorema 4.53, se concluye que Sj es una matriz simétrica
idempotente, j = 1, 2, . . . , k. Así, las condiciones a) y c) implican la condición b).

95
4.4. Anexo 1 Formas cuadráticas

Por último, si las condiciones b) y c) se satisfacen, entonces


k
X k
X k
X k
X
S2 = ( Si )2 = Si2 + Si Sj
i=1 i=1 j=1 i=1, i6=j
k
X
= Si = S;
i=1

esto es, la condición a) se satisface. 

4.57. Teorema. Sean S1 , S2 , . . . , Sk matrices simétricas P


idempotentes de orden n, de rangos η1 , η2 , . . . , ηk .
k+1
Sea Sk+1 una matriz no negativa de orden n. Si I = i=1 Si , entonces Sk+1 es una matriz simétrica
Pk
idempotente de orden n − i=1 ηi , y Si Sj = 0 para i 6= j; i, j = 1, 2, . . . , k.

Demostración. Puesto que las matrices Si para i = 1, 2, . . . , k, son idempotentes, entonces:


k
X
2
Sk+1 = (I − S i )2
i=1
k
X k
X k
X k
X
= I −2 Si + Si2 + Si Sj
i=1 i=1 j=1 i=1, i6=j
k
X k
X k
X
= I− Si + Si Sj
i=1 j=1 i=1, i6=j
k
X k
X
= Sk+1 + Si Sj .
j=1 i=1, i6=j

De otro lado, como Sk+1 = I − Si , entonces:


Pk
i=1
k
X
2
Sk+1 = Sk+1 − Si Sk+1 .
i=1

En consecuencia:
k
X k
X k
X
Sk+1 + Si Sj = Sk+1 − Si Sk+1 .
j=1 i=1, i6=j i=1

De esto se sigue:

k
X k
X k
X
Si Sj + Si Sk+1 = 0,
j=1 i=1, i6=j i=1

por lo tanto,
k k k
`X X X ´
Tr Si Sj + Si Sk+1 = 0.
j=1 i=1, i6=j i=1

Puesto que las matrices S1 , S2 , . . . , Sk son simétricas idempotentes, entonces por el teorema 4.50, las ma-
trices S1 , S2 , . . . , Sk son no negativas. Por hipótesis se tiene que también la matriz Sk+1 es no negativa. Así
que Si Sj = 0 para i 6= j; i, j = 1, 2, . . . , k, k + 1 (teorema 4.46(1)).

96
Formas cuadráticas 4.4. Anexo 1

Ahora bien, puesto que I 2 = I = k+1 i=1 Si , se sigue del teorema anterior que, Si = Si para i = 1, 2, . . . , k+1
2
P
y por lo tanto, Tr (Si ) = ρ (Si ) (ver teorema 4.54). Así:
k
X
` ´
ρ (Si ) = Tr (Si ) = Tr I − Si
i=1
k
X
= Tr (I ) − Tr (Si )
i=1
k
X
= n− ρ (Si )
i=1
k
X
= n− ηi .
i=1

que es lo que se quería demostrar. 

4.58. Teorema. Sean S1 , S2 , . . . , Sk matrices no negativas de orden n, y sea S =


Pk
i=1 Si . Si S 2 = S y
`Pk 2
´
Tr S ≤ Tr i=1 Si , entonces:

a) Si2 = Si para i = 1, 2, . . . , k.
b) Si Sj = 0 para i 6= j; i, j = 1, 2, . . . , k.

Demostración. Puesto que S = S 2 ;


k
X k
X k
X
S= Si2 + Si Sj .
i=1 j=1 i=1, i6=j

De aquí que:
k k k
`X X `X
Si2 ≤ 0.
´ ´
Tr Si Sj = Tr S − Tr
j=1 i=1, i6=j i=1

Ya que las matrices S1 , S2 , . . . , Sk son no negativas, entonces b) se satisface. Esta condición, junto con la
hipótesis de que S 2 = S implican entonces la validez de la condición a), (ver teorema 4.56). 

4.59. Teorema. Sea S una matriz simétrica de orden n. Si ρ(S) = r, entonces S puede escribirse en la
forma:
X r
S= λi Si ,
i=1

donde: SiT = Si , Si2 = Si , Si Sj = 0 si i 6= j, ρ(Si ) = 1 y los λi son los valores propios no nulos de la matriz
S; i, j = 1, 2, . . . , k.

Demostración. Existe una matriz ortogonal Q tal que:


» – » –
D 0 D 0
QT SQ = , ó S=Q QT
0 0 0 0
Donde D es una matriz diagonal de orden r con los valores propios no nulos de la matriz S en su diagonal.
De aquí que:

97
4.4. Anexo 1 Formas cuadráticas

2 3
λ1 0 ··· 0 0 ··· 0 2 T
Q1
3
6 0 λ2 ··· 0 0 ··· 0 7
.. .. .. .. ..
6 76 7
6 .. 76 T
7 6 Q2
7
6
6 . . . . . ··· .76
7
7
S = [Q1 Q2 · · · Qn ] 6 0 0 ··· λr 0 ··· 0
6 76 7
76 .
76 7
0 0 ··· 0 0 ··· 0 7 6 ..
6 7
6 7
.. .. .. .. .. ..
6 76 7
. . . . . .
6 74 5
4 5
0 0 ··· 0 0 ··· 0 QTn
r
X
= λi Qi QTi
i=1
r
X
= λi S i ,
i=1

donde Si = Qi QTi , i = 1, 2, . . . , r. Así:


SiT = (Qi QTi )T = (QTi )T QTi = Qi QTi = Si
SiT = Qi QTi Qi QTi = Qi · I · QTi = Qi QTi = Si
Si Sj = Qi QTi Qj QTj = Qi · 0 · QTj = 0, si i 6= j.
ρ(Si ) = ρ(Qi QTi ) = ρ(Qi ) = 1.
El teorema queda entonces demostrado. 

98
CAPÍTULO 5

Inversa generalizada e inversa condicional de matrices.

Este capítulo consta de cuatro secciones. Las dos primeras versan sobre la definición, propiedades y cálculo
de la inversa generalizada de una matriz. La tercera sección trata sobre la definición y el cálculo de inversas
condicionales de una matriz. En la última sección se verán algunas aplicaciones de la inversa generalizada y
de la inversa condicional de una matriz a los sistemas de ecuaciones lineales y a los problemas de mínimos
cuadrados.

5.1. Inversa generalizada de una matriz

La inversa generalizada de una matriz es una herramienta de gran utilidad en los cursos de modelos lineales
(véase la sección 1.5 de [4]).

Antes de dar la definición de inversas generalizada de una matriz, veamos un par de teoremas que serán
útiles en el desarrollo del resto del capítulo.
5.1. Teorema. Si A es una matriz m × n de rango r > 0, entonces existen matrices invertibles Pm×m y
Qn×n tales que P AQ es igual a:
» –
Ir 0
1. si r < n y r < m.
0 0
» –
Ir
2. si r = n < m.
0
3.
ˆ ˜
Ir 0 si r = m < n .

4. Ir si r = n = m.

Demostración. Se hará aquí sólo la demostración del inciso (1). Si R es la forma escalonada reducida
de A, entonces R = P A, P es un producto de matrices elementales, (véase el apartado 1.7). Las últimas
m − r filas de R son nulas y R tienen la estructura siguiente:

··· ··· ··· ···


2 3
0 0 1 a1k 0 a1k0 a1k00 0 a1k000
6
6 0 ··· 0 0 0 ··· 1 a2k0 ··· a2k00 0 a2k000 ··· 7
7
6 0 ··· 0 0 0 ··· 0 0 ··· 0 1 a3k000 ··· 7
.. .. .. .. .. .. .. .. ..
6 7
6 7
4 . . . . . . . . . 5
0 ··· 0 0 0 ··· 0 0 0 0 0 ···
ahora bien, efectuando las operaciones elementales sobre las columnas de la matriz R se obtiene

99
5.1. G-Inversa y C-inversa Inversa generalizada e inversa condicional

» –
Ir 0
F =
0 0

Así que F = RQ, donde Q es un producto de marices elementales (por columnas). Por lo tanto; F = RQ =
P AQ, donde P y Q son matrices invertibles. 

5.2. Ejemplo. Considere la matriz

2 3
1 2 1 3
A = 4 −1 −2 0 −2 5
2 4 2 6

claramente las dos primeras filas son linealmente independientes, y la tercera es un múltiplo escalar de la
primera fila de A. por lo tanto, el número máximo de filas linealmente independientes de A es 2; o sea, A
tiene rango 2. Por el teorema anterior existen matrices invertibles P y Q tales que

2 3
» – 1 0 0 0
I2 0
P AQ = =4 0 1 0 0 5.
0 0
0 0 0 0

Ahora se procede a calcular las matrices invertibles P y Q siguiendo las pautas de la demostración del
teorema anterior.

Paso 1: Se encuentra una matriz invertible P tal que P A = R, donde R es la forma escalonada reducida
de A.
2 3
1 2 1 3 1 0 0
[ A | I3 ] = 4 −1 −2 0 −2 0 1 0 5
2 4 2 6 0 0 1
2 3
1 2 1 3 1 0 0
f ilas
' 4 0 0 1 1 1 1 0 5
0 0 0 0 −2 0 1
2 3
1 2 0 2 0 −1 0
f ilas
' 4 0 0 1 1 1 1 0 5 = [ R | P ].
0 0 0 0 −2 0 1

Paso 2: Se encuentra una matriz invertible Q tal que RQ = F, donde

» –
I2 0
F = .
0 0
100
Inversa generalizada e inversa condicional 5.1. G-Inversa y C-inversa
2 3
1 2 0 2 1 0 0 0
0 1 0 0
6 7
[ R | I4 ] = 0 0 1 1
6 7
0 0 1 0
6 7
4 5
0 0 0 0 0 0 0 1
2 3
1 0 2 2 1 0 0 0
0 0 1 0
col.
6 7
' 0 1 0 1
6 7
0 1 0 0
6 7
4 5
0 0 0 0 0 0 0 1
2 3
1 0 0 0 1 0 −2 −2
0 0 1 0
col.
6 7
' 0 1 0 1
6 7
0 1 0 0
6 7
4 5
0 0 0 0 0 0 0 1
2 3
1 0 0 0 1 0 −2 −2
0 0 1 0
col.
6 7
' 0 1 0 0
6 7
0 1 0 −1
6 7
4 5
0 0 0 0 0 0 0 1

= [ F | Q ].

Las matrices invertibles

2 3
2 3 1 0 −2 −2
0 −1 0 6 0 0 1 0 7
P =4 1 1 0 5 y Q=4
6 7
0 1 0 −1 5
−2 0 1
0 0 0 1
son tales que: 2 3
» – 1 0 0 0
I2 0
P AQ = =4 0 1 0 0 5.
0 0
0 0 0 0
5.3. Teorema. Si A es una matriz m × n de rango r > 0, entonces existen matrices Bm×r y Cr×n , de
rango r, tales que A = B · C.

Demostración. Considere distintas posibilidades para rango de la matriz A, ρ(A) = r.

1. Si r = m, entonces A = BC, donde B = Ir y C = A.


2. Si r = n, entonces A = BC, donde B = A y C = Ir .
3. Si r < n y r < m, entonces por el teorema 5.1(1) existen matrices invertibles P y Q tales que:
» –
Ir 0
P AQ = .
0 0
De aquí que:
» –
−1 Ir 0
A = P Q−1
0 0
» –
Ir
P −1 Q−1
ˆ ˜
= Ir 0
0
= BC,

101
5.1. G-Inversa y C-inversa Inversa generalizada e inversa condicional

donde B ∈ Mm×r y C ∈ Mr×n son las matrices de rango r, dadas por


» –
−1 Ir
y C = Ir 0 Q−1 .
ˆ ˜
B=P
0

El teorema queda entonces demostrado. 

Una forma de calcular las matrices B y C que aparecen en el teorema anterior, en el caso en que r < n y
r < m, tal como aparece en la demostración, es calculando primero las matrices invertibles P y Q tales que:
» –
Ir 0
P AQ = ,
0 0
después calcular las matrices P −1 y Q−1 , y por último obtener:
» –
Ir
B = P −1 y Q−1 .
ˆ ˜
C = Ir 0
0
Para el caso en que la matriz A no sea de rango fila completo, existe una demostración alternativa, la cual
presentamos a continuación. Como veremos, esta demostración facilitará un algoritmo más económico para
calcular matrices B y C adecuadas.

Demostración. [Otra prueba del teorema 5.3 para r < m]

Suponga que A es una matriz de rango r < m. Sea P una matriz invertible de orden m tal que P A = R,
donde R es la forma escalonada reducida de A (véase apartado 1.7). Puesto que r < m, R tiene la estructura
siguiente: 2 3
C
R=4 5,
0
donde C es una matriz r × n de rango r. Ahora, si escribimos P −1 particionada adecuadamente
P −1 = B
ˆ ˜
D ,
donde B es una matriz m × r de rango r. Dado que P A = R se tiene
A = P −1 R 2 3
ˆ ˜ C
= B D 4 5
0
= BC

Ahora se presenta a continuación un método basado en esta demostración para calcular matrices B y C,
de rango r, tales que A = BC.
5.4. Algoritmo. Considere una matriz A de tamaño m × n

Paso 1 Forme la matriz [ Am×n | Im ] .


Paso 2 Efectúe operaciones elementales en las filas de A hasta obtener su forma escalonada reducida, y en
las columnas de Im , siguiendo las siguientes pautas:
i) Si se intercambian las filas i y j de A, entonces intercambie las columnas i y j de Im .
ii) Si se multiplica la i-ésima fila de A por el número α 6= 0, entonces se multiplica la i-ésima
columna de Im por el número α−1 .

102
Inversa generalizada e inversa condicional 5.1. G-Inversa y C-inversa

iii) Si a la j-ésima fila de A se le suma α veces la i-ésima fila de A (α 6= 0), entonces a la i-ésima
columna de Im se le suma (−α) veces la j-ésima columna de Im .
Al final de este paso se obtiene la matriz [ R | P −1 ]
Paso 3 B = Primeras r columnas de P −1 ,
ˆ ˜

C = [Primeras r filas de R].


5.5. Ejemplo. La matriz del ejemplo 5.2
2 3
1 2 1 3
A = 4 −1 −2 0 −2 5
2 4 2 6
tiene rango 2. Existen por lo tanto matrices B3×2 y C2×4 de rango 2 tales que A = BC. Las matrices B y
C se pueden ahora calcular siguiendo los pasos indicados anteriormente.
2 3
1 2 1 3 1 0 0
[ A | I3 ] = 4 −1 −2 0 −2 0 1 0 5
2 4 2 6 0 0 1
2 3
1 2 0 2 1 1 0
→ 4 0 0 1 1 −1 0 0 5
0 0 0 0 2 2 1

= [ R | P −1 ] .

Así, tomando las primeras 2 columnas de R y las 2 primeras filas de P −1 se obtiene respectivamente las
matrices 2 3
1 1 » –
1 2 0 2
B= 4 −1 0 5 y C= ,
0 0 1 1
2 2
las cuales tienen rango 2 y son tales que:
2 3
1 1 » –
1 2 0 2
BC = 4 −1 0 5
0 0 1 1
2 2
2 3
1 2 1 3
= 4 −1 −2 0 −2 5 = A .
2 4 2 6
5.6. Definición (Inversa generalizada o pseudoinversa). Sea A una matriz m × n. Si M es una matriz
n × m tal que:

1. AM es una matriz simétrica.


2. M A es una matriz simétrica.
3. AM A = A .
4. M AM = M,

entonces se dice que M es una inversa generalizada (pseudoinversa) de A, o simplemente que M es una
g-inversa de A.
2 3
3 −7 » –
1 4 1 1 2
5.7. Ejemplo. Verifique que la matriz M = 2 −1 5 es una g-inversa de la matriz A = .
11 −1 0 1
3 4
En efecto,

103
5.1. G-Inversa y C-inversa Inversa generalizada e inversa condicional
» –
1 11 0
1. AM = = I2 es una matriz simétrica.
11 0 11
2 3
10 3 −1
1 4
2. M A = 3 2 3 5 es una matriz simétrica.
11
−1 3 10
3. AM A = I2 A = A .
2 3
3 −7
1 4
4. M AM = M I2 = 2 −1 5 .
11
3 4
5.8. Observación.

1. Si A es invertible, entonces la matriz A−1 es una g-inversa de A.


2. Si A = 0m×n , entonces la matriz M = 0n×m es una g-inversa de A.
5.9. Teorema (Existencia de una g-inversa). Toda matriz A de tamaño m × n tiene una inversa genera-
lizada.

Demostración. De acuerdo con la observación 5.8(2), la demostración es trivial en el caso en que


A = 0. Suponga ahora que que A 6= 0 tiene rango r > 0. Por el teorema 5.3, existen matrices B de tamaño
m × r y C de tamaño r × n, ambas de rango r tales que A = BC.

Puesto que B y C tiene rango r, las matrices B T B y CC T son invertibles (véase el teorema 1.56). Finalmente,
se considera la matriz ´−1 ` T ´−1 T
M = C T CC T
`
B B B .
El resultado quedará comprobado, se se verifica que M es una g-inversa de A. Es decir, si se verifica que se
satisfacen las condiciones de la definición 5.6. En efecto:

Las matrices AM y M A son simétricas puesto que


´−1 ` T ´−1 T ´−1 T
AM = BCC T CC T B = B BT B
` `
B B B
y
´−1 ` T ´−1 T ´−1
M A = C T CC T B BC = C T CC T
` `
B B C
´−1 T
De otro lado, AM A = B B T B B BC = BC = A, y
`
´−1 ´−1 ` T ´−1 T
M AM = C T CC T CC T CC T
` `
B B B
T` T ´−1 ` T ´−1 T
= C CC B B B = M.

Es decir, AM A = A y M AM = A, por lo tanto, M es una g-inversa de A. 


5.10. Teorema. [Unicidad de la g-inversa]Toda matriz A tiene una única g-inversa.

Demostración. Supongamos que M1 y M2 son dos g-inversas de una matriz A. Utilizando la definición
de g-inversa de una matriz se obtiene la cadena siguiente de igualdades:
AM2 = (AM1 A)M2 = (AM1 )(AM2 ) = (AM1 )T (AM2 )T
= ((AM2 )(AM1 ))T = ((AM2 A)M1 )T = (AM1 )T = AM1 .
De aquí que AM2 = AM1 . En forma análoga se obtiene que M2 A = M1 A. Por lo tanto
M1 = M1 AM1 = (M1 A)M1 = (M2 A)M1 = M2 (AM1 )
= M2 (AM2 ) = M2 AM2 = M2 .

104
Inversa generalizada e inversa condicional 5.1. G-Inversa y C-inversa

5.11. Nota. En lo sucesivo, la g-inversa de una matriz la se denotará con el nombre de la matriz y con el
signo + como exponente. Por ejemplo, por A+ , B + denotarán respectivamente las inversas generalizadas
de las matrices A y B.

5.12. Teorema (Propiedades de la g-inversa). Para cualquier matriz A tiene que:

a) (A+ )+ = A.
b) (αA)+ = α−1 A+ , para todo escalar α 6= 0.
c) (AT )+ = (A+ )T
d) (AAT )+ = (AT )+ A+
e) (AT A)+ = A+ (AT )+

Demostración. Por el teorema anterior, toda matriz tiene una única g-inversa. Sólo resta verificar
en cada caso, que se satisfacen las condiciones de la definición 5.6. Para ello se hará la demostración sólo
para el inciso (e) suponiendo, que las afirmaciones (a)-(d) son válidas (las verificaciones quedan a cargo del
lector) y se aplicarán las propiedades de la definición 5.6:

1. Inicialmente se verifica que la matriz AT A A+ (AT )+ es simétrica, para ello se muestra que
` ´` ´

para la matriz M = A+ (AT )+ se satisface la igualdad AT A M = A+ A. En efecto:


` ´

“ ” “ ”“ ”
AT A M = AT A A+ (AT )+
(c)
= AT (AA+ )(A+ )T
def.
= AT (AA+ )T (A+ )T
` + ´T
= A AA+ A+
def. ` + ´T
= A A = A+ A .

2. Ahora se verifica que la matriz A+ (AT )+ AT A es simétrica, para ello muestra como antes, de
` ´` ´

que la matriz M = A+ (AT )+ satisface la igualdad M AT A = A+ A. En efecto:


` ´

“ ” “ ”“ ”
M AT A = A+ (AT )+ AT A
(c)
= A+ (A+ )T AT A
def.
= A+ (AA+ )T A
def. def.
= A+ AA+ A = A+ A.

3. La matriz M = A+ (AT )+ satisface la igualdad (AT A)M (AT A) = AT A.


“ ”“ ”“ ”
(AT A)M (AT A) = AT A A+ (AT )+ AT A
(1) ` + ´“ T ”
= A A A A = (A+ A)T AT A
´T def. ` ´T
A(A+ A) A = AA+ A A = AT A.
`
=

105
5.1. G-Inversa y C-inversa Inversa generalizada e inversa condicional

4. La matriz M = A+ (AT )+ satisface la igualdad M (AT A)M = M. En efecto


“ ”“ ”“ ”
M (AT A)M = M = A+ (AT )+ AT A A+ (AT )+
(2) ` + ´ “ + T +”
= A A A (A )
` + ´ “ ”+
= A AA+ AT
def.
= A+ (AT )+ .

5.13. Observación. No siempre es cierto que (AB) = B A . Para mostrar este hecho basta considerar
+ + +

un ejemplo (ver ejemplo siguiente).


» –
1
5.14. Ejemplo. Si A = 1 1 y B = , entonces AB = [3]. Por lo tanto (AB)+ = 1/3. De acuerdo
ˆ ˜
2
» –
1
con el corolario 5.16, A+ = 21 y B + = 15 1 2 , de donde se tiene que
ˆ ˜
1
» –
+ + 1ˆ ˜1 1 1
B A = 1 2 = [3] = [3/10] 6= [3] = (AB)+ .
5 2 1 10

5.1 Ejercicios

En los ejercicios 1 al 9, responda verdadero o falso justificando su respuesta.

1. Si las matrices B ∈ Mm×r y C ∈ Mr×m tienen el mismo rango, entonces (BC)+ = C + B + .


2. Si S es una matriz simétrica, entonces S + es una matriz simétrica.
3. Si S es una matriz simétrica tal que S 2 = S, entonces S + = S.
4. Si S es una matriz simétrica tal que S 3 = S, entonces S + = S.
5. Para toda matriz A se tiene que A+ = (AT A)+ AT .
6. Para toda matriz A se tiene que A+ = AT (AAT )+ .
7. Para toda matriz A se tiene que (AA+ )2 = AA+ y (A+ A)2 = A+ A.
8. Si A ∈ Mm×n tiene rango m, entonces el sistema de ecuaciones lineales Ax = y tiene solución para
cualquier y ∈ Mm×1 .
9. Si A ∈ Mm×n tiene rango n y si el sistema de ecuaciones lineales Ax = y tiene solución, entonces
el sistema tiene solución única.

En los ejercicios 10 al 21 demuestre la afirmación correspondiente

10. Si BC T»= 0, –entonces BC + = 0 y CB + = 0.


B
11. Si A = y BC T = 0 entonces A+ = B + C+ .
ˆ ˜
C
12. Si B es una matriz simétrica m×m y si C T B = 0, donde C T es la matriz C T = 1
ˆ ˜
1 ··· 1 1×m
,
entonces la g-inversa de la matriz:
» –
B
A= T
C
es A+ = B +
ˆ ˜
1/m C .

106
Inversa generalizada e inversa condicional 5.2. Cálculo de la g-inversa

13. Si D = [dij ]n×n es una matriz diagonal, entonces D+ =[aij ]n×n es una matriz diagonal, donde
(
1/dii , si dii 6= 0
aij = .
0 , si dii = 0
» – » + –
B 0 B 0
14. Si A = entonces A+ = .
0 C 0 C+
15. Si S es una matriz simétrica, entonces SS + = S + S.
16. Si A es una matriz tal que AT A = AAT , entonces A+ A = AA+ .
17. Si A es una matriz m × n, donde hAiij = 1 para i = 1, 2, . . . , m y j = 1, 2, . . . , n, entonces
1
A+ = A.
mn
18. Si P ∈ Mn×n y Q ∈ Mm×m son matices ortogonales, entonces para cualquier matriz m × n, A, se
tiene que (P AQ)+ = QT A+ P T .
19. Si S es una matriz simétrica no negativa, entonces S + es una matriz no negativa.
20. Para cada matriz m × n, A; AB = AA+ sii B es tal que ABA = A y AB es simétrica.
21. Si B es una c-inversa de A, entonces la matriz BAB también lo es.

5.2. Cálculo de la g-inversa de una matriz

En esta sección se verán algunos teoremas que pueden usarse para calcular la g-inversa de una matriz.
Empezamos con el siguiente resultado, el cual se deduce de los teoremas 5.3, 5.9 y 5.10.
5.15. Teorema. Sea A una matriz m × n de rango r > 0.

1. Si r = n = m, entonces A es invertible y A+ = A−1 .


´−1
2. r = m < n, entonces A+ = AT AAT
`
Si .
−1 T
3. r = n < m, entonces A+ = AT A
` ´
Si A .
4. Si r < n y r < m, entonces existen matrices B ∈ Mm×r y C ∈ Mr×n de rango r tales que A = B ·C
y
´−1 ` T ´−1 T
A+ = C T CC T
`
B B B .
5.16. Corolario. Sea a un vector no nulo de n componentes.
´−1 T
1. Si a ∈ M1×n , entonces a+ = aaT
`
a .
` T ´−1 T
2. Si a ∈ Mn×1 , entonces a = a a
+
a .
5.17. Ejemplo. Ilustre el teorema 5.15 con alguna matrices sencillas.
» – » –
1 2 3 −2
1. La matriz A = es invertible, así que A+ = A−1 = .
1 3 −1 1
» –
1 2 3
2. La matriz A = tiene rango 2, así que:
−1 −1 1
2 3
1 −1 » –
−1 1 3 0
A+ = AT AAT
` ´
= 4 2 −1 5
42 0 14
3 1
2 3
3 −14
1 4
= 6 −14 5
42
9 14

107
5.2. Cálculo de la g-inversa Inversa generalizada e inversa condicional
2 3
1 2
3. La matriz A = 4 3 4 5 tiene rango 2, así que:
5 6
» –» –
` T ´−1 T 1 56 −44 1 3 5
A+ = A A A =
24 −44 35 2 4 6
» –
1 −32 −8 16
=
24 26 8 −10
4. La matriz A dada por
2 3
1 2 1 3
A = 4 −1 −2 0 −2 5
2 4 2 6
Del ejemplo 5.5 se sabe ρ(A) = 2 y que las matrices
2 3
1 1 » –
1 2 0 2
B = 4 −1 0 5 y C=
0 0 1 1
2 2
son tales que A = BC. Luego
´−1 ` T ´−1 T
A+ C T CC T
`
= B B B .

2 3
−2 −20 −4
= 6 −4
1 6 −40 −8 7
7
24 4 9 55 18 5
5 15 10
5. Para la matriz A = 6= 0 se tiene que:
ˆ ˜
1 2 3
2 3
”−1 1
“ 1
a+ = aaT aT = 4 2 5
14
3
2 3
1
6. La matriz A = 4 1 5 = 6 0 se tiene que,
1
“ ”−1 1ˆ
a+ = aT a aT =
˜
1 1 1 .
3
5.18. Teorema. Sea A ∈ Mm×n una matriz de rango r > 0. Entonces la g-inversa de A se puede calcular
siguiendo los pasos dados a continuación:

1. Calcule M = AT A.
2. Haga C1 = I.
1
3. Calcule Ci+1 = Tr(Ci M )I − Ci M, para i = 1, 2, . . . , r − 1.
i
r
4. Calcule Cr AT , ésta es la matriz A+ .
Tr (Cr M )

Además, se tiene que Cr+1 M = 0 y Tr (Cr M ) 6= 0.

Para la demostración de este teorema, remitimos al lector a [3] (teorema 6.5.8). Obsérvese además, que la
condición Cr+1 M = 0 permite proceder sin conocer de antemano el rango de A.

108
Inversa generalizada e inversa condicional 5.2. Cálculo de la g-inversa

5.19. Ejemplo. Considere la matriz


2 3
1 2 1 3
A = 4 −1 −2 0 −2 5
2 4 2 6
del ejemplo 5.17(4). Calcule A+ utilizando el teorema anterior.

Para ello se puede calcualar M = At A. Esto es,


2 3
6 12 5 17
6 12 24 10 34 7
M =6
4 5
7
10 5 15 5
17 34 15 49
y considere C1 = I4 . Entonces se tiene que:
2 3
78 −12 −5 −17
6 −12 60 −10 −34 7
C2 = Tr (C1 M ) I − C1 M = 6
4 −5
7.
−10 79 −15 5
−17 −34 −15 35
Como C3 M = 0, entonces ρ(A) = 2, y además
2 3
−2 −20 −4
+ 2 T 2 6 −4 −40 −8 7
A = C2 A = 6 7
Tr (C2 M ) 140 4 9 55 18 5
5 15 10

El siguiente teorema presenta una forma alternativa para calcular la g-inversa de una matriz. Para su
demostración, remitimos a [9] (véase páginas. 14-15).
5.20. Teorema. Sea A ∈ Mm×n una matriz de rango r > 0. La g-inversa de A se puede calcular mediante
los siguientes pasos:

1. Forme la matriz [ A | Im ].
2. Efectúe operaciones elementales en las filas de la matriz anterior hasta conseguir la forma escalon-
ada reducida de A. Al final de este paso se obtiene una matriz que descrita por bloques queda así:
» –
Er×n Pr×m
si r<m
0(m−r)×n P(m−r)×m
ó
ˆ ˜
Em×n | Pm×m si r = m.
−1 +
(Si r = m = n, A es invertible, E = I y P = A = A ).
3. Forme la matriz:
Er×n AT
» –
Er×n
si r < m
P(m−r)×m 0(m−r)×n
ó
Em×n AT | Em×n
ˆ ˜
si r = m .
4. Efectúe operaciones elementales en las filas de la matriz anterior hasta conseguir la forma escalon-
ada reducida. Al final de este paso se obtiene la matriz
h ` + ´T i
Im | A .

109
5.2. Cálculo de la g-inversa Inversa generalizada e inversa condicional

5.21. Ejemplo. Considere de nuevo la matriz A del ejemplo 5.19


2 3
1 2 1 3
A = 4 −1 −2 0 −2 5 .
2 4 2 6
Con el objeto de calcular A+ utilizando el teorema anterior, se forma la matriz A | y se aplican
ˆ ˜
I3
operaciones elementales en las filas hasta encontrar la forma escalonada reducida de A.

2 3
1 2 1 3 1 0 0
[ A | I3 ] = 4 −1 −2 0 −2 0 1 0 5
2 4 2 6 0 0 1
2 3
1 2 0 2 0 −1 0
→ 4 0 0 1 1 1 1 0 5
0 0 0 0 −2 0 1
» –
E2×4 P2×3
= .
01×4 P1×3

Se construye ahora la matriz de la forma


E2×4 AT
» –
E2×4
P1×3 01×4
y se aplican de nuevo operaciones elementales en las filas, hasta obtener la matriz identidad I3 en el lado
izquierdo de este arreglo
E2×4 AT E2×4
2 3 2 3
11 −9 22 1 2 0 2
4 5 = 4 4 −2 8 0 0 1 1 5
P1×3 01×4 −2 0 1 0 0 0 0
2 1 2 9 1 3
1 0 0 − −
6 35 35 70 14 7
6 7
2 4 11 3 7
6 7
→ 6 0 1 0 − −
6
7
6 7 7 14 14 7
6 7
4 5
2 4 9 1
0 0 1 − −
35 35 35 7
h i
= I3 | (A+ )T .

Así que
1 2 2
2 3
− − −
6 35 7 35 7
6 7
6 7
6 −2 4 4 7 2 3
−2 −20 −4
6
6 35 − − 7
7 35 7
A+ = 6
6
7=
7 6 −4
1 6 −40 −8 7
7
6 9 11 9 7 70 4 9 55 18 5
5 15 10
6 7
6 70 14 35 7
6 7
6 7
2 3 1
4 5
35 14 7

110
Inversa generalizada e inversa condicional 5.2. Cálculo de la g-inversa

5.22. Ejemplo. Considere la matriz A del ejemplo 5.17(2)


» –
1 2 3
A= ,
−1 −1 1
y siga los pasos del ejemplo anterior (teorema 5.20) para calcular A+ .

» –
1 2 3 1 0
[ A | I2 ] =
−1 −1 1 0 1
» –
1 0 −5 −1 −2

0 1 4 1 1
ˆ ˜
= E2×4 P2×3 .

Se construye ahora la matriz E2×3 AT y se reduce para obtener


ˆ ˜
| E2×3

2 3
−14 −6 1 0 −5
E2×3 AT
ˆ ˜
E2×3 = 4 5
14 3 0 1 4
2 1 2 3 3
1 0
6 14 14 14 7
→ 6 7
1 1 1
4 5
0 1 − −
3 3 3
h i
= I2 | (A+ )T .

Así que
2 1 1 3
− 2 3
6 14 3 7 3 −14
6 7 6 7
6 2 1 7 1 6
6 7
+
7
A =6 − 7= 6 6 −14 7
6 14 3 7 42 6
4
7
5
6 7
9 14
4 5
3 1
14 3

5.2 Ejercicios

1. Para cualquier matriz A se tiene que: ρ(A) = ρ(A+ ) = ρ(AA+ )= ρ(A+ A).
2. Calcule la g-inversa de cada una de las matrices siguientes:
» –
ˆ ˜ 1 2
(i) A1 = 0 0 0 (ii) A2 =
3 5
3 2
ˆ ˜ 1
(iii) A1 = 1 2 3 (iv) A4 = 4 1 5
2
111
5.3. C-inversa Inversa generalizada e inversa condicional

2 3 2 3
7 7 7 1 0 0
(v) A5 = 4 7 7 7 5 (vi) A6 = 4 0 5 0 5
7 7 7 0 0 0
2 3 2 3
1 2 1 2 0 0
6 3 4 7 6 1 2 0 0 7
(vii) A7 = 4
6 7 (viii) A8 = 4
6 7
0 0 5 0 0 3 3 5
0 0 0 0 3 3
2 3
2 −1 −1
6
6 −3 1 2 7
7
(ix) A9 = 6
6 1 1 1 7
7
4 1 1 1 5
1 1 1

5.3. Inversa condicional de una matriz

Al igual que el concepto de inversa generalizada de una matriz, el concepto de inversa condicional es de gran
utilidad en los cursos de modelos lineales (véase la sección 1.5 de [4]) y en la caracterización del conjunto
solución de sistemas lineales de ecuaciones.
5.23. Definición. Sea A una matriz m × n. Si M es una matriz n × m tal que:
AM A = A,
entonces se dice que M es una inversa condicional de A o simplemente, que M es una c-inversa de A.
5.24. Observación. De acuerdo con el teorema 5.10, toda matriz A tiene una única inversa generalizada
A+ . ésta es a su vez por definición una c-inversa de A. Así que, toda matriz A tiene al menos una c-inversa.
Se verá aquí, que una matriz A puede tener varias (incluso infinitas) inversas condicionales, salvo cuando
la matriz A es invertible, en cuyo caso A−1 es la única c-inversa.
Nota. El teorema 5.27 dará una caracterización del conjunto de todas las inversas condicionales de A
(c-inversas de A).
5.25. Teorema. Sea A ∈ Mm×n una matriz de rango r. Entonces:

1. W = {N ∈ Mn×m : AN A = 0} es un subespacio de Mn×m .


2. La dimensión del espacio W mencionado en (1) es m · n − r2 .

Demostración. Para demostrar el inciso (1) basta demostrar, según el teorema 1.15, que el conjunto
W es cerrado bajo la suma y la multiplicación por un escalar. En efecto,

Sean N1 y N2 dos elementos (matrices) del conjunto W, entonces


A(N1 + N2 )A = AN1 A + AN2 A = 0 + 0 = 0,
esto implica que N1 + N2 ∈ W. ésto es, W es cerrado bajo la suma.

De otro lado, para cualquier escalar α ∈ R se tiene que


A(αN1 )A = αAN1 A = α0 = 0,
ésto implica que, αN1 ∈ W. Es decir, W es cerrado bajo la multiplicación por un escalar. El conjunto W es
entonces un subespacio vectorial de Mn×m , lo que completa la demostración del inciso (1).

112
Inversa generalizada e inversa condicional 5.3. C-inversa

Hagamos ahora la demostración del inciso (2) en el caso en la matriz A ∈ Mm×n tenga rango r con
0 < r < mı́n {m, n}. Las demostraciones en los demás casos son similares.

Sea entonces A una matriz m × n de rango r, con 0 < r < mı́n {m, n}. De acuerdo con el inciso (1) del
teorema 5.1, existen matrices invertibles P ∈ Mm×m y Q ∈ Mn×n tales que:
» – » –
Ir 0 −1 Ir 0
(5.1) P AQ = o A=P Q−1 .
0 0 0 0
Considere ahora matrices arbitrarias X ∈ Mr×r , Y ∈ Mr×(m−r) , Z ∈ M(n−r)×r y W ∈ M(n−r)×(m−r) y la
matriz N ∈ Mn×m dada por
» –
X Y
N =Q P.
Z W
Ahora N ∈ W sii AN A = 0. De (5.1) se sigue que
» – » – » –
Ir 0 X Y Ir 0
AN A = P −1 Q−1 Q P P −1 Q−1
0 0 Z W 0 0
» –
−1 X 0
= P Q−1 .
0 0
De aquí se deduce AN A = 0 sii X = 0. Esto es, N ∈ W sii N es de la forma:
» –
0 Y
N =Q P.
Z W
Ahora se demuestra que la dimensión de W es m · n − r2 . Para ello, se hace uso del hecho que el espacio de
matrices Mk×j tiene dimensión k · j. En efecto, considere los espacios Mr×(m−r) , M(n−r)×r y M(n−r)×(m−r)
con las bases respectivas B1 ,B2 ,B3 , siendo B1 = {Y1 , Y2 , . . . , Yr·(m−r) }, B1 = {Z1 , Z2 , . . . , Zr·(n−r) } y
B3 = {W1 , W2 , . . . , W(n−r)·(m−r) }. Es fácil mostrar entonces que el conjunto B = {N, N2 , . . . , Nm·n−r·r }
con
» –
0 Yi
Ni = Q P ; i = 1, 2, . . . , m · r − r2
0 0
» –
0 0
Nr(m−r)+j = Q P ; j = 1, 2, . . . , n · r − r2
Zj 0
» –
0 0
Nr(m+n−2r)+k = Q P ; k = 1, 2, . . . , (n − r) · (m − r),
0 Wk
es una base de W. 

5.26. Teorema. Sea A una matriz m × n. El conjunto McA de todas las c-inversas,
McA = {M ∈ Mn×m : AM A = A} ,
es una variedad lineal de dimensión m · n − r2 .

Demostración. Por el teorema 5.16 McA es no vacío, sea entonces M0 un elemento de McA . Se verifica
entonces, que M ∈ McA si y sólo si M se puede escribir como la suma de M0 y un elemento N ∈ W. Esto
es, si y sólo si M = M0 + N para algún N ∈ W, siendo W el conjunto dado en el teorema 5.25.

Si M = M0 + N, con N ∈ W, entonces AM A = AM0 A + AN A = A + 0 = A. Esto es, M ∈ McA . De otra


parte, si M ∈ McA , entonces se puede escribir
M = M + M0 − M0
= M0 + (M − M0 ) = M0 + N ,

113
5.3. C-inversa Inversa generalizada e inversa condicional

donde N = M − M0 . Puesto que


A(M − M0 )A = AM A − AM0 A = A − A = 0 ,
se tiene entonces que N = M − M0 ∈ W y de aquí se sigue que:
McA = {M + N, N ∈ W} .

El teorema siguiente establece cómo determinar los elementos de McA .


5.27. Teorema. Sea A una matriz m × n de rango r. Sean P ∈ Mm×m y Q ∈ Mn×n matrices invertibles
como en el teorema 5.1.

1. Si A = 0, entonces McA = Mn×m .

2. Si r = n = m, entonces McA = A+ = A−1 .


˘ ¯ ˘ ¯

3. Si r = m < n, entonces
 » – ff
Ir
McA = Q P : Y ∈ M(n−r)×m .
Y
4. Si r = n < m, entonces
McA = Q Ir
˘ ˆ ˜ ¯
X P : X ∈ Mn×(m−r) .
5. Si 0 < r < n y 0 < r < m, entonces el conjunto McA está dado por
 » –
c Ir X
MA = Q P : Z ∈ M(n−r)×(m−r) ,
Y Z
ff
Y ∈ M(n−r)×m , X ∈ Mn×(m−r)

Demostración. De acuerdo con los teoremas 5.25 y 5.26, se tiene que en cada caso McA es una variedad
lineal de dimensión mn − r2 . De otro lado, se puede verificar que si M ∈ McA , entonces AM A = A. 

5.28. Ejemplo. Sea


2 3
1 2 1 3
A = 4 −1 −2 0 −2 5 ,
2 4 2 6
la matriz del ejemplo 5.2. De dicho ejemplo se sabe que las matrices invertibles
2 3
2 3 1 0 −2 −2
0 −1 0 6 0 0 1 0 7
P =4 1 1 0 5 y Q=6 7
4 0 1 0 −1 5
−2 0 1
0 0 0 1
» –
I2 0
son tales que P AQ = , ρ(A) = r = 2. En este caso,
0 0
 » – ff
I2 X
McA = Q P : X ∈ M2×1 , Y ∈ M2×2 , Z ∈ M2×1 ,
Y Z
114
Inversa generalizada e inversa condicional 5.3. C-inversa

representará, el conjunto de todas las inversas condicionales de A, En particular, si tomamos X = 0, Y = 0


y Z = 0, se tiene que una c-inversa de A es:
2 3
» – 0 −1 0
I2 0 6 0 0 0 7
M0 = Q P =6 7.
0 0 4 1 1 0 5
0 0 0
En lo que resta de esta sección se abordará un método alternativo para calcular una c-inversa de una matriz.
Considere inicialmente el caso de matrices cuadradas. 
5.29. Definición. Una matriz cuadrada H = [hij ]n×n tiene la forma Hermite superior, si satisface las
condiciones siguientes:

1. H es triangular superior.
2. h2ii = hii ; esto es, hii = 0 ó hii = 1, i = 1, 2, . . . , n.
3. Si hii = 0, entonces la i-ésima fila es nula, esto es, Hi = 0.
4. Si hii = 1, entonces el resto de los elementos de la i-ésima columna son nulos; es decir, H i = I i
es la i-ésima columna de la matriz idéntica.
5.30. Ejemplo. La matriz

2 3
1 2 0 0
6 0 0 0 0 7
H=4
6 7
0 0 1 0 5
0 0 0 1
tiene la forma Hermite superior. 

El siguiente teorema establece que una matriz Hermite superior es idempotente. La demostración de dicho
resultado es consecuencia directa de la definición y se deja como un ejercicio para el lector.
5.31. Teorema. Si H es una matriz que tiene la forma Hermite superior, entonces H 2 = H.

Demostración. Si A, B ∈ Mn×m son matrices triangulares superiores, entonces AB es triangular


superior y hABiii = hAiii hBiii (ver ejercicio 2 de la sección 2.1). De esto se sigue que:

1. H 2 es triangular superior.
2. hH 2 iii = hHiii hHiii = h2ii = hii .

De otra parte,

3 Si hii = 0, entonces Hi = 0 y Hi2 = Hi H = 0.


4 Si hii = 1, entonces Hi = I i y (H 2 )i = HH i = HI i = H i = I i .

5.32. Teorema. Para toda matriz cuadrada A existe una matriz invertible B tal que BA = H tiene la
forma Hermite superior.

115
5.3. C-inversa Inversa generalizada e inversa condicional

Demostración. Sea P una matriz invertible tal que P A = R es la forma escalonada reducida de A.
Si R tiene la forma Hermite superior, entonces la matriz B = P satisface la condición de que BA = R = H.
Si R no tiene la forma Hermite superior, intercambiamos las filas de R hasta que el primer elemento no nulo
(de izquierda a derecha) de cada fila no nula de R, sea un elemento de la diagonal. Así se tiene una matriz
H que tiene la forma Hermite superior. Así que existen matrices elementales (por filas) E1 , E2 , . . . , Ek tales
que
E1 E2 · · · Ek R = H
o sea:
E1 E2 · · · Ek P A = H.
En consecuencia, la matriz invertible B = E1 E2 · · · Ek P es tal que BA = H tiene la forma Hermite superior.


5.33. Ejemplo. Para la matriz cuadrada:


2 3
1 2 3
A=4 1 2 5 5,
2 4 10
la matriz invertible 2 3
5/2 −3/2 0
P = 4 −1/2 1/2 0 5
0 −2 1
es tal que
2 3
1 2 0
PA = R = 4 0 0 1 5,
0 0 0
donde R es la forma escalonada resucida de A. Intercambiando las filas 2 y 3 de R se obtiene la matriz:
2 3
1 2 0
H=4 0 0 0 5,
0 0 1
la cual tiene la forma Hermite superior. Además,
2 3
5/2 −3/2 0
B=4 0 −2 1 5
−1/2 1/2 0
es invertible y es tal que BA = H . 
5.34. Teorema. Sea A una matriz cuadrada. Si B es una matriz invertible tal que BA = H tiene la forma
Hermite superior, entonces B es una c-inversa de A.

Demostración. Como H tiene la forma Hermite superior, por el teorema 5.31, H 2 = H. Así que
BABA = H 2 = H = BA, o sea:
BABA = BA.
Premultiplicando los dos miembros de la última igualdad por la matriz B −1 se obtiene:
ABA = A,
esto es, B es una c-inversa de A. 

116
Inversa generalizada e inversa condicional 5.3. C-inversa

5.35. Ejemplo. Considere la matriz A del ejemplo 5.33,


2 3
1 2 3
A=4 1 2 5 5.
2 4 10
Se sabe de dicho ejemplo, que la matriz invertible
2 3
5/2 −3/2 0
B=4 0 −2 1 5,
−1/2 1/2 0
es tal que BA = H tiene la forma Hermite superior. Por lo tanto, por teorema anterior, B es una c-inversa
de A. 

El siguiente corolario presenta una forma de calcular una c-inversa para el caso de matrices rectangulares.
5.36. Corolario. Sea A una matriz m × n

1. Si m > n, sea A∗ = A 0 , donde 0 es la matriz nula m × (m − n). Sea además B ∗ una matriz
ˆ ˜

invertible tal que B ∗ A∗ = H tiene la forma Hermite superior. Si escribimos la matriz B ∗ entonces
particionada así: 2 3
B
B∗ = 4 5,
B1
donde B es una matriz » n ×
– m, entonces B es una c-inversa de A.
A
2. Si n > m, sea A = ∗
, donde 0 es la matriz nula (n − m) × m. Sea además B ∗ una matriz
0
invertible tal que B ∗ A∗ = H tiene la forma Hermite superior. Si escribimos la matriz B ∗ entonces
particionada así:
B ∗ = B B1 ,
ˆ ˜

donde B es una matriz n × m, entonces B es una c-inversa de A.

Demostración. Se presenta aquí sólo la demostración del ˆinciso (1).˜ Para ello suponga que A es una
matriz m × n, con m > n y considere la matriz cuadrada A∗ = A 0 n×n .

Según el teorema 5.32, existe una matriz invertible B ∗ , tal que B ∗ A∗ = H tiene la forma Hermite superior.
Dicha matriz B ∗ es una c-inversa de A∗ (teorema 5.32), así que, A∗ B ∗ A∗ = A∗ , o sea:
2 3
B
A∗ B ∗ A∗ =
ˆ ˜ ˆ ˜
A 0 4 5 A 0
B1
ABA 0 = A 0 = A∗ .
ˆ ˜ ˆ ˜
=
De esto se sigue que ABA = A. Es decir, B es una c-inversa de A. 
5.37. Ejemplo. Encontre una c-inversa para la matriz:
2 3
1 −1
A = 4 2 −1 5 .
0 1 3×2
2 3
1 −1 0
Sea A∗ = 4 2 −1 0 5 .
0 1 0 3×3

117
5.3. C-inversa Inversa generalizada e inversa condicional

Efectuando los cálculos pertinentes se encuentra que la matriz invertible:


2 3 2 3
−1 1 0 B
B ∗ = 4 −2 1 0 5=4 5
2 −1 1 B1

es tal que B ∗ A∗ = H tiene la forma Hermite superior. Por lo tanto, por el corolario anterior, la matriz
» –
−1 1 0
B=
−2 1 0 2×3

es una c-inversa de A. 

5.3 Ejercicios

En los ejercicios 1 al 3, responda verdadero o falso justificando su respuesta.

1. Para toda c-inversa Ac de A se tiene que (AAc )2 = AAc y (Ac A)2 = Ac A.


2. Si Ac es una c-inversa de A, entonces A es una c-inversa de Ac .
3. Si Ac es una c-inversa de A, entonces (Ac )T es una c-inversa de AT .

En los ejercicios 4 al 9 haga la demostración correspondiente

4. Si Ac es una c-inversa de A, entonces ρ(Ac ) ≥ ρ(A) = ρ(AAc ) = ρ(Ac A).


5. Si Ac es una c-inversa de A, entonces Tr(AAc ) = Tr(Ac A) = ρ(A). (sugerencia véase el ejercicio 7
de la sección de ejercicios 3.2).
6. Sea A una matriz m × n. Entonces ρ(A) = m sii AA+ = I sii AAc = I para cada c-inversa Ac de
A.
7. Sea A una matriz m × n. Entonces ρ(A) = n sii A+ A = I sii Ac A = I para cada c-inversa Ac de
A.
8. Si B es una c-inversa de A, entonces también lo es BAB.
9. Si B c y C c son c-inversas de las matrices B y C respectivamente, entonces una c-inversa de la
matriz
» – » c –
B 0 B 0
A= es c
A = .
0 C 0 Cc
2 3
1 2 3
10. Para la matriz A = 4 2 5 3 5 , dé dos c-inversa Ac1 y Ac2 tales que ρ(Ac1 ) > ρ(A) y ρ(Ac2 ) =
1 3 0
ρ(A).
11. Determine el conjunto de todas las c-inversas de las matrices
» – » –
1 1 1 2 3
A1 = , A2 = ,
1 1 1 3 3
2 3
1 2 » –
1 2
A3 = 4 1 3 5 , A4 = .
1 3
2 5

118
Inversa generalizada e inversa condicional 5.4. Mínimos cuadrados

5.4. Sistemas de ecuaciones lineales: g-inversa y c-inversa de una matriz. mínimos


cuadrados.

En esta sección se verán algunas aplicaciones de la g-inversa y la c-inversa de una matriz a los sistemas de
ecuaciones lineales y al problema de los mínimos cuadrados.
5.38. Teorema. Sea A ∈ Mm×n una matriz y sea y ∈ Mm×1 un vector. El sistema de ecuaciones lineales
Ax = y es consistente sii AAc y = y para cada c-inversa Ac de A.

Demostración. Suponga que el sistema de ecuaciones lineales Ax = y es consistente. ésto quiere


decir, que existe al menos un x0 tal que:
Ax0 = y .
Sea ahora Ac una c-inversa de A, entonces:
AAc y = AAc Ax0
= Ax0
= y.
Suponga ahora, que para cada c-inversa A de A, se tiene que AAc y = y. Entonces para cada c-inversa Ac ,
c

el vector x0 = Ac y es una solución del sistema de ecuaciones lineales Ax = y. Por lo tanto, el sistema es
consistente. 
5.39. Teorema. Sea A una matriz m × n y sea Ac una c-inversa de A. Si el sistema de ecuaciones lineales
Ax = y es consistente, entonces su solución general es
(5.1) x = Ac y + (I − Ac A)h, h ∈ Mn×1 .

Demostración. Puesto que por hipótesis el sistema de ecuaciones lineales Ax = y es consistente,


entonces por el teorema anterior, AAc y = y. En consecuencia, para cada x de la forma (5.1):
Ax = AAc y + A(I − Ac A)h
= y + (A − A)h
= y + 0h
= y,
esto es, x es una solución del sistema dado.

De otro lado, si x0 es solución del sistema dado, entonces


Ax0 = y .
Premultiplicando los miembros de la última igualdad por Ac se obtiene
Ac Ax0 = Ac y ,
de donde:
0 = Ac y − Ac Ax0 .
Sumando x0 a los dos lados de la última igualdad se llega a:
x0 = Ac y + x0 − Ac Ax0
= Ac y + (I − Ac A)x0
= Ac y + (I − Ac A)h,
donde h = x0 . Esto es, x0 se puede expresar en la forma 5.1. 

Puesto que A+ es una c-inversa de A, se tiene el siguiente corolario.


119
5.4. Mínimos cuadrados Inversa generalizada e inversa condicional

5.40. Corolario. Sea A una matriz m × n. Si el sistema de ecuaciones lineales Ax = y es consistente,


entones su solución general es
(5.2) x = A+ y + (I − A+ A)h, h ∈ Mn×1 .

Problema de los Mínimos Cuadrados

Como se estableció en el teorema 1.51(3), para un sistema de ecuaciones Ax = y se presenta una y sólo
una de las opciones siguientes:

(i) El sistema tiene infinitas soluciones.


(ii) El sistema tiene solución única.
(iii) El sistema no tiene solución.

En el trabajo experimental generalmente se da generalmente la opción (iii), es decir, que el vector y no es un


elemento del espacio columna de la matriz A, (y ∈
/ C(A)) (véase figura 5.1). En este caso se puede preguntar,
si existe una solución aproximada del sistema, para una definición conveniente de solución aproximada. Un
problema que se presenta con frecuencia en el trabajo experimental es:

m y
IR

Ax
C (A)
0
.Ax
A x0

Figura 5.1. Problema de los mínimos cuadrados

Dado una serie de puntos


(x1 , y1 ); (x2 , y2 ); . . . ; (xn , yn ).
obtener una relación y = f (x) entre las dos variables x y y, “adaptando” (en algún sentido) una curva a
dicho conjunto de puntos.

Como los datos se obtienen experimentalmente, generalmente existe un "error" en ellos (errores de aproxi-
mación), lo que hace prácticamente imposible encontrar una curva de la forma deseada que pase por todos
los puntos. Por medio de consideraciones teóricas o simplemente por "acomodo" de los puntos, se decide la
forma general de la curva y = f (x) que mejor se adapte. Algunas posibilidades son (ver figura 5.2):

1. Funciones lineales (rectas): y = f (x) = a + bx; a, b ∈ R


2. Polinomios de grado dos: y = f (x) = a + bx + cx2 ; a, b, c ∈ R.
3. Polinomios de grado tres: y = f (x) = a + bx + cx2 + dx3 ; a, b, c, d ∈ R.

A. Adaptación de puntos a una línea recta

Considere los puntos (x1 , y1 ); (x2 , y2 ); . . . ; (xn , yn ), los cuales se pretende ajustar mediante la gráfica de la
línea recta y = f (x) = a + bx. Si los puntos correspondientes a los datos fuesen colineales, la recta pasaría

120
Inversa generalizada e inversa condicional 5.4. Mínimos cuadrados

y y y

x x x

(1) Aproximacion
´ lineal (2) Aproximacion
´ cuadratica
´ (3) Aproximacion
´ cubica
´

Figura 5.2. Ajuste por mínimos cuadrados

por todos los n puntos y, en consecuencia, los coeficientes desconocidos a y b satisfarían la ecuación de la
recta. Esto es, se tendrían las siguientes igualdades:
y1 = a + bx1
y2 = a + bx2
.. .. ..
. . .
yn = a + bxn .
Estas igualdades se pueden escribir, utilizando notación matricial, así:
2 3 2 3
y1 1 x1 2 3
6 y2 7 6 1 x2 7 a
(5.3) y=6 . 7=6 . .. 7 5 = Ax .
6 7 6 74
4 .. 5 4 .. . 5 b
yn 1 xn
Si los puntos que corresponden a los datos no son colineales, es imposible encontrar coeficientes a y b que
satisfagan (5.3). En este caso, independientemente de la forma en que se escojan a y b, la diferencia
Ax − y,
a∗
» –
entre los dos miembros de (5.3) no será cero. Entonces, el objetivo es encontrar un vector x = que
b∗
minimice la longitud del vector Ax − y, esto es, que minimice
k Ax − y k,
lo que es equivalente a minimizar su cuadrado, k Ax − y k2 .

a∗
» –
Si x0 = ∗ es un vector que minimiza tal longitud, a la línea recta y = a∗ + b∗ x se le denomina recta
b
de ajuste por mínimos cuadrados de los datos. La figura 5.3 ilustra la adaptación de una línea recta por el
método de los mínimos cuadrados. Se tiene que k Ax − y k, y
k Ax − y k2 = (a∗ + b∗ x1 − y1 )2 + (a∗ + b∗ x2 − y2 )2 +
· · · + (a∗ + b∗ xn − yn )2

121
5.4. Mínimos cuadrados Inversa generalizada e inversa condicional

a∗
» –
son minimizados por el vector x0 = . En dicha figura se ve que |a∗ + b∗ xi − yi | corresponde a la
b∗
“distancia vertical”, di , tomada desde el punto (xi , yi ) hasta la recta y = a∗ + b∗ x . Si se toma a di como
el “error vertical” en el punto (xi , yi ), la recta de ajuste minimiza la cantidad:
d21 + d22 + · · · + d2n ,
que es la suma de los cuadrados de los “errores verticales”. De allí el nombre de método de los mínimos
cuadrados.

y
( x n , yn )

dn
(x2 , y2 )
( x1 , y1 )
d2 *
y=a+b *
x
d1
d3
( x3 , y3 )

Figura 5.3. Ajuste lineal por mínimos cuadrados

A continuación se darán dos definiciones motivadas por la discusión anterior. En el ejemplo 5.50 se ex-
plicará cómo se adaptar, por mínimos cuadrados, una línea recta y = a + bx a una serien de n puntos
(x1 , y1 ); (x2 , y2 ); . . . ; (xn , yn ) dados.
5.41. Definición (Solución M nima Cuadrada). Se dice que el vector x0 es una solución mínima cuadrada
(S.M.C.) del sistema de ecuaciones lineales Ax = y, si para todo vector x se tiene que:
k Ax0 − y k ≤ k Ax − y k .
5.42. Definición (Mejor Solución Aproximada). Se dice que el vector x0 es una mejor solución aproximada
(M.S.A.) del sistema de ecuaciones lineales Ax = y, si:

1. Para todo vector x se tiene que:


k Ax0 − y k ≤ k Ax − y k.
2. Para todo vector x 6= x0 tal que k Ax0 − y k < k Ax∗ − y k se tiene que

k x0 k < k x∗ k.
Nota. Observe que una M.S.A de un sistema de ecuaciones lineales Ax = y es una S.M.C. del mismo.
5.43. Teorema. Sea A una matriz m × n y sea y un vector Rm . Si Ac es una c-inversa de A tal que AAc
es simétrica, entonces para todo vector x ∈ Rn se tiene que:
k Ax − y k2 = k Ax − AAc y k2 + k AAc y − y k2 .

122
Inversa generalizada e inversa condicional 5.4. Mínimos cuadrados

Demostración. Por hipótesis AAc = (AAc )T . Así que para todo vector x se tiene que:
k Ax − y k2 = k (Ax − AAc y) + (AAc y − y)k2
= k Ax − AAc y k2 + 2(Ax − AAc y)T (AAc y − y)
+k AAc y − y k2
El teorema quedará demostrado si verificamos que el segundo término de esta igualdad es cero, esto es, si
comprobamos la igualdad
(Ax − AAc y)T (AAc y − y) = 0.
En efecto tenemos:
(Ax − AAc y)T (AAc y − y) = (x − Ac y)T AT ((AAc )T − I)y

= (x − Ac y)T (AT (AAc )T − AT )y

= (x − Ac y)T ((AAc A)T − AT )y

= (x − Ac y)T (AT − AT )y = 0 .

5.44. Teorema. Sea A una matriz m × n y sea y un vector Rm . Si Ac es una c-inversa de A tal que AAc
es simétrica, entonces x0 = Ac y es una S.M.C. para el sistema Ax = y.

Demostración. Por hipótesis y por el teorema anterior se tiene que x0 = Ac y es tal que:
k Ax − y k2 = k Ax − Ax0 k2 + k Ax0 − y k2 ≥ k Ax0 − y k2 .
Para todo vector x. De aquí que para todo vector x:
k Ax0 − y k ≤ k Ax − y k,
esto es, x0 = A y es una S.M.C. para el sistema Ax = y.
c


5.45. Teorema. Sea A una matriz m × n y sea y un vector R . El sistema de ecuaciones lineales Ax = y
m

tiene una única M.S.A., a saber


x0 = A+ y.

Demostración. Por definición de g-inversa se tiene que A+ es en particular una c-inversa de A que
satisface la propiedad de que AA+ es una matriz simétrica, entonces por el teorema 5.43 se tiene para todo
x que:
k Ax − y k2 = k Ax − AA+ y k2 + k AA+ y − y k2 ≥ k AA+ y − y k2 .
De aquí que para todo vector x :
(5.4) k AA+ y − y k ≤ k Ax − y k
Esto es, x0 = A+ y es una S.M.C. para el sistema Ax = y. Se quiere demostrar ahora x0 = A+ y que la
M.S.A. para ello se muestra, que si x∗ 6= x0 es otra S.M.C. del sistema Ax = y (esto es si x∗ satisface
Ax∗ = AA+ y) entonces se tiene que k x0 k < k x∗ k. Para ello se verifica primero que para todo x se satisface
la igualdad
(5.5) k A+ y + (I − A+ A)x2 k = k A+ y k2 + k (I − A+ A)x k2 .

123
5.4. Mínimos cuadrados Inversa generalizada e inversa condicional

En efecto se tiene que:


k A+ y + (I − A+ A)xk2 = k A+ y k2 + 2(A+ y)T (I − A+ A)x +
k (I − A+ A)x k2 .
La igualdad (5.5) se obtendrá entonces si verifica que el segundo término de la igualdad anterior es cero.
Esto último se sigue fácilmente de
h i
(A+ y)T (I − A+ A)x = yT (A+ )T − (A+ )T (AA+ )T x
h i
= yT (A+ )T − (A+ AA+ )T x

= yT (0)x = 0
Tómese ahora un vector x∗ 6= x0 , tal que Ax∗ = AA+ y. Multiplicando por A+ obtenemos A+ Ax∗ = A+ y.
De aquí y de (5.5) aplicada a x∗ se tiene que:
k x ∗ k2 = k A+ y + x∗ − A+ yk2
= k A+ y + x∗ − A+ Ax∗ k2
= k A+ y + (I − A+ A)x∗ k2
= k A+ y k2 + k (I − A+ A)x∗ k2
> k A+ y k2 = k x0 k2 .

5.46. Observación. El teorema anterior establece que todo sistema de ecuaciones lineales Ax = y tiene
una única M.S.A., x0 = A+ y. Por esto, se hablará de aquí en adelante de la mejor solución aproximada
(M.S.A.) de un sistema de ecuaciones lineales.

Ahora bien, puesto que la mejor solución aproximada del sistema de ecuaciones lineales Ax = y es una
solución mínima cuadrada, se tiene el siguiente teorema.
5.47. Corolario. Todo sistema de ecuaciones lineales Ax = y tiene al menos una S.M.C.
5.48. Ejemplo. Para el sistema de ecuaciones lineales
2 3 2 3
1 1 » – 1
x
Ax = 4 1 1 5 =4 2 5 = y,
y
1 1 3
2 3
» – 1 » –
1 1 1 1 1
se tiene que x0 = A y =
+ 4 2 5 = es la M.S.A. Además:
6 1 1 1 1
3

k Ax0 − y k = 2;
así que para todo vector x se tiene que: √
2 ≤ k Ax − y k,

y si existe un vector x∗ tal que k Ax∗ − y k = 2, entonces se debe tener que:

k x0 k = 2 < k x∗ k. 
5.49. Teorema. Sea A una matriz m × n y sea y un vector Rm . Si ρ(A) = n, entonces el sistema de
ecuaciones lineales Ax = y tiene una única S.M.C. que es justamente la M.S.A. dada por:
x0 = A+ y.

124
Inversa generalizada e inversa condicional 5.4. Mínimos cuadrados

Demostración. Sea x∗ una S.M.C. del sistema de ecuaciones Ax = y. Por definición se tiene para
todo x ∈ Rn , entonces que k Ax∗ − y k ≤ k Ax − y k, en particular, para el vector x0 = A+ y se tiene:

(5.6) k Ax∗ − y k ≤ k AA+ y − y k.

De otra parte, como A+ es una c-inversa de A tal que AA+ es simétrica, entonces se tiene (ver teorema
5.43)
k Ax − y k2 = k Ax − AA+ y k2 + k AA+ y − y k2 ∀x ∈ Rn .
En particular, para el vector x∗ se tiene:

(5.7) k Ax∗ − y k2 = k Ax∗ − AA+ y k2 + k AA+ y − y k2 .

De (5.6) y (5.7) se sigue que:

k AA+ y − y k2 ≤ k Ax∗ − AA+ y k2 + k AA+ y − y k2


= k Ax∗ − y k2 ≤ k AA+ y − y k2

De aquí que ‚ Ax∗ − AA+ y ‚ = 0 y por lo tanto:


‚ ‚

Ax∗ = AA+ y .
´−1 T
Puesto que ρ(A) = n, entonces A+ = AT A A (teorema 5.15), en consecuencia:
`

“ ”−1
Ax∗ = A AT A AT y.
´−1 T
Premultiplicando esta igualdad por AT A A , se obtiene:
`

“ ”−1
x∗ = AT A AT Ax∗
“ ”−1 “ ”−1
= AT A AT A AT A AT y
“ ”−1
AT A AT y = A+ y = x0 .

5.50. Ejemplo. Encuentre una recta de ajuste, por mínimos cuadrados (ver figura 5.4), que se adapte a
los puntos:
(0, 1); (1, 3); (2, 4); (3, 4) .

Para ello se debe encontrar una S.M.C. del sistema de ecuaciones lineales Ax = y, donde
2 3 2 3 2 3 2 3
1 x1 1 0 y1 1
6 1 x2 7 6 1 1 7 6 y2 7 6 3 7
A=4 6 7 = 6 7, y=6 4 y3 5 = 4 4 5
7 6 7
1 x3 5 4 1 2 5
1 x4 1 3 y4 4

y el vector incógnita x está dada por


» –
a
x= .
b
125
5.4. Mínimos cuadrados Inversa generalizada e inversa condicional

Puesto que ρ(A) = 2, entonces por el teorema anterior, el sistema dado tiene una única S.M.C., a saber:

x0 = A+ y = (AT A)−1 AT y
2 3
» – 1
1 7 4 1 −2 6 3 7
= 6 7
10 −3 −1 1 3 4 4 5
4
a∗
» – » –
1.5
= =
1 b∗

En consecuencia, la recta de ajuste, por mínimos cuadrados, de los datos dados es:

y = a∗ + b∗ x = 1.5 + x. 

y
y=1.5+x
(2,4)
(3,4)
(1,3)

(0,1)

Figura 5.4. Ajuste lineal ejemplo 5.50

5.51. Ejemplo. Encuentre una recta de ajuste, por mínimos cuadrados, que se adapte a los puntos:

(1, 1); (1, 2) .

Observe que en este caso los puntos dados pertenecen a la recta, de pendiente infinita, x = 1.(ver figura
5.5(a))

126
Inversa generalizada e inversa condicional 5.4. Mínimos cuadrados

y
x=1 y
y=3/2x

(1,2) y=3/4+3/4x
(1,2)

(1,1) (1,1)

x x

a) Ajuste por una recta de pendiente infinita b) Ajuste por rectas de pendiente no infinita

Figura 5.5. Ajuste lineal ejemplo 5.51

Ahora bien, si se busca una recta y = a + bx, que no tenga pendiente infinita, que se adapte por mínimos
cuadrados, a los puntos dados, entonces se debe encontrar una S.M.C. del sistema de ecuaciones lineales
(ver figura 5.5(b))
» –» – » –» –
1 x1 a 1 1 a
Ax = =
1 x2 b 1 1 b
» – » –
1 y1
= = = y.
2 y2
Una S.M.C. del sistema dado es:
a∗
» –» – » – » –
1 1 1 1 3/4
x0 = A+ y = = = .
4 1 1 2 3/4 b∗
Así que una recta de ajuste, por mínimos cuadrados, de los puntos dados es:
3 3
y = a∗ + b∗ x = + x .
4 4
De otra parte, la matriz » –
c 0 0
A =
1/2 1/2
es una c-inversa de A, AA es simétrica. En efecto,
c

» –
1/2 1/2
AAc = .
1/2 1/2
Por lo tanto, de acuerdo con el teorema 5.44,
» – » –
0 â
x0 = Ac y = =
3/2 b̂
es también una S.M.C. Así que otra recta de ajuste por mínimos cuadrados, de los puntos dados es (ver
figura 5.5(b)):
3
y = a∗ + b∗ x = x . 
2

127
5.4. Mínimos cuadrados Inversa generalizada e inversa condicional

B. Adaptación a polinomios de grado n.

La técnica descrita antes para adaptar una recta a n puntos dados, se generaliza fácilmente a la adaptación,
por mínimos cuadrados, de un polinomio de cualquier grado a un conjunto de puntos dados.

A continuación se muestra cómo adaptar un polinomio de grado ≤ m,

y = a0 + a1 x + a2 x2 + . . . + am xm

a un conjunto de n puntos (x1 , y1 ); (x2 , y2 ); . . . ; (xn , yn ), mediante la técnica de los mínimos cuadrados.

Sustituyendo estos n valores de x y y en la ecuación polinómica se obtienen las n ecuaciones siguientes:

x21 ··· xm
2 3 2 32 3
y1 1 x1 1 a0
6 y2 7 6 1 x2 x22 ··· xm
2 76 a1 7
.. 7=6 .. .. .. .. .. ..
6 7 6 76 7
.
6 76 7
4 . 5 4 . . . . 54 . 5
yn 1 xn x2n ··· xm
n am

De lo que se trata nuevamente, es de encontrar una S.M.C. del sistema de ecuaciones lineales Ax = y.

5.52. Ejemplo. Encontrar un polinomio de grado dos que mejor se ajuste, por mínimos cuadrados, a los
puntos:
(−1, 0); (0, −2); (1, −1); (2, 0) .

Se debe encontrar una S.M.C. del sistema de ecuaciones lineales:


2 3 2 3
1 −1 1 2 3 0
6 1 a1 6 −2 7
0 0 7
Ax = 6 4 1
74 a2 5 = 6
4 −1 5 = y.
7
1 1 5
a3
1 2 4 0

Puesto que ρ(A) = 3, el sistema dado tiene una única S.M.C., la cual está dada por:

x0 = A+ y = (AT A)−1 AT y
2 3
2 3 0
3 11 9 −3 6
1 4 −2 7
= −1 3 7 1 56 7
4 −1 5
20
5 −5 −5 5
0
2 3 2 3
−31 −1.55
1 4
= −13 5 = 4 −0.65 5
20
15 0.75

En consecuencia, existe un único polinomio de grado dos que se ajuste por mínimos cuadrados de los datos
dados. Este polinomio está dado por (ver figura 5.6):

y = −1.55 − 0.65x + 0.75x2 . 

128
Inversa generalizada e inversa condicional 5.4. Mínimos cuadrados

y
2
y=−1.55−0.65x+0.75x

(−1,0)

(2,0) x
(1,−1)

(0,−2)

Figura 5.6. Ajuste cuadrático ejemplo 5.52

5.4 Ejercicios

1. Si el sistema de ecuaciones lineales Ax = y tiene solución, demuestre entonces que la solución


x = A+ y es única sii A+ A = I, y en este caso A+ y = Ac y para toda c-inversa Ac de A.
2. Si x1 , x2 , . . . , xn son
P soluciones del sistema de ecuaciones lineales Ax = y, y si λ1 , λ2 , . . . , λn son
escalares tales que n i=1 λi = 1, demuestre entonces
n
X
x= λi xi
i=1

es una solución del sistema Ax = y.


3. Sea y = a + bx una línea recta que se quiere adaptar, por mínimos cuadrados, a los puntos
(x1 , y1 ); (x2 , y2 ); . . . ; (xn , yn ). Utilice el teorema 5.39 y la regla de Cramer para demostrar que
si para algún i y para algún j, xi 6= xj , entonces existe una única recta de ajuste, por mínimos
cuadrados, a los puntos dados:
y = a∗ + b∗ x
∆a ∆b
y que a∗ = y b∗ = , donde:
∆ ∆
2 Pn 3
n i=1 xi
∆ = det 4 P 5
n Pn 2
i=1 xi i=1 xi
2 Pn Pn 3
i=1 yi i=1 xi
∆a = det 4 P 5
n Pn 2
i=1 xi yi i=1 xi
2 Pn 3
n i=1 yi
∆b = det 4 P 5
n Pn
i=1 xi i=1 xi yi

129
5.4. Mínimos cuadrados Inversa generalizada e inversa condicional

4. Encuentre la M.S.A. del sistema de ecuaciones lineales Ax = y, donde:


2 3 2 3
2 2 2 1
6 2 2 2 7 6 2 7
A=6 4 1 −1
7 y y=6 4 3 5 .
7
0 5
2 −2 0 4
5. Encuentre la M.S.A del sistema de ecuaciones lineales
8
>
> x + 2y =1
>
<−x + y =1
>2x − 3y
> =2
>
:
3x + y = 3.
6. Encuentre la ecuación de la recta que mejor se ajuste por mínimos cuadrados a los puntos:
(0, 1); (1, 3); (2, 2); (3, 4).
7. Obtenga la ecuación del polinomio de grado dos que mejor se adapte, por mínimos cuadrados, a
los puntos:
(−1, 4); (0, 2); (1, 0); (2, 1).
8. Dé, si las hay, dos S.M.C. diferentes del sistema de ecuaciones lineales:
» –» – » –
2 2 x 1
Ax = = .
2 2 y 0
9. Suponga que las variables x y y se relacionan por medio de la ecuación y = a · bx ; a > 0, b > 0.
a) Verique que dicha ecuación se puede transformar en la ecuación
y ∗ = a∗ + b∗ x ,
donde y ∗ = ln y, a∗ = ln a y b∗ = ln b. Y viceversa.
b) Determine, los valores de las constantes a > 0, b > 0 en el modelo y = a · bx que mejor se
adapte a los datos
x -1 1 2
y 1 6 10
Estime el valor de y para x = 5. Para ello encuentre la recta y ∗ = a∗ + b∗ x que mejor se adapte,
por mínimos cuadrados a los puntos de la forma (x, ln y).
10. Determine la ecuación del plano z = a + bx + cy que mejor se adapte, por mínimos cuadrados, a
los puntos (0, 1, 5), (1, 0, 2), (1, 1, 7), (1,-1,-1).

130
CAPÍTULO 6

Factorización de matrices

En este capítulo se estudian algunas de las técnicas más utilizadas para factorizar matrices, es decir, técnicas
que permiten escribir una matriz como producto de dos o tres matrices con una estructura especial. La
factorización de matrices es importante por ejemplo cuando se quiere resolver sistemas de ecuaciones con
un número muy grande tanto de variables como de ecuaciones, pero también cuando se quieren resolver
sistemas simultáneos de ecuaciones. En la sección 6.1 se tratará la descomposición LU , en la sección 6.2 se
abordará la descomposición QR, en la sección 6.3 se tratará la descomposición de Cholesky y en la sección
6.4 se abordará aspectos relativos a la descomposición en valores singulares.

6.1. Descomposición LU

En esta sección se estudia, quizás la factorización de matrices más sencilla pero igualmente muy útil. Se
trata de la factorización o descomposición LU , la cual está directamente relacionada con las operaciones
elementales aplicadas a una matriz, para llevarla a una forma triangular inferior. Como una motivación,
suponga que se conoce cómo factorizar una matriz A, m × n en la forma
(6.1) A = LU
donde L es una matriz triangular inferior (del inglés lower) m × m y U es una matriz escalonada m × n
(del inglés upper). Entonces el sistema
(6.2) Ax = b
puede resolverse de la siguiente forma: Usando (6.1), el sistema (6.2) se puede escribir en la forma
(6.3) L(U x) = b.
En este punto se introduce una nueva variable (por sustitución) y = U x, obteniendo así el nuevo sistema
(6.4) Ly = b.
Una vez en este punto, se resolve dicho sistema para la variable y, mediante sustitución hacia adelante.
Como paso final, usamos sustitución hacia atrás para resolver el sistema
(6.5) U x = y.
Es de anotar, que los sistemas (6.4) y (6.5) son relativamente fáciles de resolver dado que se trata de matrices
de coeficientes triangulares inferiores y superiores respectivamente. La factorización o descomposición LU
es particularmente útil cuando se requiere resolver de manera simultánea varios sistemas de ecuaciones que
difieren únicamente en la parte no homogénea.

El siguiente resultado da condiciones suficientes para la existencia de una tal factorización LU para una
matriz cuadrada A. Posteriormente se extenderá a matrices rectangulares.

131
6.1. Descomposición LU Factorización de matrices

6.1. Teorema (Factorización ). Sea A una matriz cuadrada n × n. Supongamos que A se puede reducir
por filas a una matriz triangular superior, U aplicando únicamente operaciones elementales de eliminación
(operaciones del tipo αFi + Fj con i < j). Entonces existe una matriz triangular inferior L que es invertible
y posee unos en su diagonal principal, tal que
A = LU.
Si A es invertible, entonces esta descomposición es única.

Demostración. Por hipótesis, existen matrices elementales E1 , E2 , . . . , Ek del tipo (αFi +Fj , i > j)
y una matriz U (triangular superior) tales que
Ek Ek−1 · · · E2 E1 A = U.
De aquí se obtiene A = E1−1 E2−1 · · · Ek−1 U.

Ahora bien, por construcción, cada matriz elemental E1 , E2 , . . . , Ek es triangular inferior y tiene unos en
su diagonal principal, por consiguiente sus inversas E1−1 , E2−1 , · · · , Ek−1 y la matriz L = E1−1 E2−1 · · · Ek−1
también tienen las mismas características (ver ejercicio 5 de la sección 6.1). Lo que implica que se ha
obtenido la factorización LU buscada para la matriz A, es decir:
A = LU,
Para demostrar la unicidad de dicha factorización se procede como es usual. Supóngase que se tienen dos
factorizaciones LU para A de la forma
A = L1 U1 = L2 U2 ,
con U1 , U2 matrices triangulares superiores y L1 , L2 matrices triangulares inferiores con unos en su diagonal
principal. Como A es invertible las matrices U1 , U2 también lo son, más aún sus inversas son igualmente
triangulares superiores (ver ejercicio 6 de la sección 6.1). De esta última igualdad se obtiene entonces
L−1 −1
2 L1 = U2 U1 .

El lado izquierdo de esta igualdad es producto de matrices triangulares inferiores con unos en la diagonal,
por tanto es triangular inferior y tiene unos en la diagonal principal. Igualmente, el lado derecho es una
triangulares superiores, pues es el producto de matrices triangulares superiores (ver ejercicio 6 de la sección
6.1). Entonces L−1
2 L1 = I, de esto se sigue que L2 = L1 y por ende,

U1 = U2 .

En el ejemplo 6.5 se considerará una matriz no invertible, que posee infinitas descomposiciones LU.
2 3
1 4 7
6.2. Ejemplo. Considere la matriz 3 × 3, A = 4 2 5 8 5 . Aplique operaciones elementales, sin inter-
3 6 12
cambio, para llevar a la matriz A a una forma escalonada.
2 3 2 3
1 4 7 1 4 7
4 2 5 8 5 −2F −→1 +F2 4 0 −3 −6 5
−3F1 +F3
3 6 12 0 −6 −9
2 3
1 4 7
−2F2 +F3
−→ 4 0 −3 −6 5 = U
0 0 3
132
Factorización de matrices 6.1. Descomposición LU

Si se denota entonces con E1 , E2 y E3 a las matrices elementales provenientes de las operaciones elementales
−2F1 + F2 , −3F1 + F3 y −2F2 + F3 respectivamente, entonces se obtiene

E3 E2 E1 A = U
A = (E3 E2 E1 )−1 U

= E1−1 E2−1 E3−1 U

2 32 32 3
1 0 0 1 0 0 1 0 0
= 4 2 1 0 54 0 1 0 54 0 1 0 5U
0 0 1 3 0 1 0 2 1
2 32 3
1 0 0 1 4 7
= 4 2 1 0 54 0 −3 −6 5 = LU .
3 2 1 0 0 3

En este caso esta factorización es única. 

6.3. Observación. Como sólo se han efectuado operaciones del tipo αFi + Fj con i < j, (αFi + Fj )−1 =
(−α)Fi + Fj y L es triangular inferior con unos (1’s) en su diagonal principal. La información sobre L se
puede almacenar en aquellas posiciones donde se obtienen los ceros (0’s) de U, simplemente colocando los
opuestos de los multiplicadores α en las operaciones elementales aplicadas del tipo αFi + Fj con i < j.

En el ejemplo anterior
2 3 2 3
1 4 7 1 4 7
−2F1 +F2
4 2 5 8 5 −→ 4 2 −3 −6 5
−3F1 +F3
3 6 12 3 −6 −9
2 3
1 4 7
−2F2 +F3
−→ 4 2 −3 −6 5
3 2 3

de donde se obtiene que


2 3 2 3
1 0 0 1 4 7
L=4 2 1 0 5 y U =4 0 −3 −6 5
3 2 1 0 0 3

son tales que A = LU .

6.4. Ejemplo. Considere la matriz


2 3
2 3 2 4
6 4 10 −4 0 7
A=6
4 −3
7.
−2 −5 −2 5
−2 4 4 −7

Aplíquense las operaciones elementales, sin intercambio, para llevar la matriz A a una forma escalonada

133
6.1. Descomposición LU Factorización de matrices

2 3 2 3
2 3 2 4 (−2)F1 +F2 2 3 2 4
6 4
6 10 −4 0 7
7 (3/2)F1 +F3 6 2
6 4 −8 −8 77
4 −3 −2 −5 −2 5 −→ 4 −3/2 5/2 −2 4 5
−2 4 4 −7 (1)F1 +F4 −1 7 6 −3
2 3
2 3 2 4
(−5/8)F2 +F3
6 2 4 −8 −8 7
(−7/4)F2 +F4 6 7
4 −3/2 5/8 3 9 5
−→
−1 7/4 20 11
2 3
2 3 2 4
6 2 4 −8 −8 77,
(−20/3)F3 +F4 6
4 3/2 5/8 3 9 5
−→
-1 7/4 20/3 −49
de donde se obtiene que
2 3 2 3
1 0 0 0 2 3 2 4
6 2 1 0 0 7 6 0 4 −8 −8 7
L=6
4 −3/2
7 y U =6 7,
5/8 3 0 5 4 0 0 3 9 5
−1 7/4 20/3 1 0 0 0 −49
son matrices tales que A = LU, siendo esta factorización única. 
2 3
1 2 3
6.5. Ejemplo. Considere la matriz A = 4 −1 −2 −3 5 . Se procede entonces a aplicar operaciones
2 4 6
elementales, sin intercambio, para llevar la matriz A a una forma escalonada
2 3 2 3
1 2 3 (1)F1 + F2 1 2 3
4 −1 −2 −3 5 −→ 4 −1 0 0 5
2 4 6 (−2)F1 + F3 2 0 0
de donde se obtiene que
2 3 2 3
1 2 3 1 0 0
U =4 0 0 0 5 y L = 4 −1 1 0 5 con x arbitrario.
0 0 0 2 x 1
En este caso A = LU, donde L no es única. 

Considere ahora el caso en que se necesitan intercambio de filas para poder reducir una matriz. Existe en este
caso un procedimiento que permite extender la factorización LU , el cual hace uso de matrices permutación.

Como se recordará, el intercambio de dos filas de una matriz A se puede expresar como Pi A, siendo Pi
la matriz permutación correspondiente a las filas de A que deseamos intercambiar. Ahora bien. Si durante
la reducción de A a una forma escalón necesitamos realizar P1 , . . . , Pk permutaciones de filas, éstas puede
hacerse al comienzo de todo el procedimiento y producir así la matriz P = P1 · · · Pk . El paso siguiente
consiste entonces en aplicar la factorización LU a la matriz P A en lugar de la matriz A. Es decir, nosotros
buscamos ahora matrices L (triangular inferior) y U (triangular superior) tales que
P A = LU .
6.6. Ejemplo. Halle la descomposición para la matriz
2 3
0 2 3
A = 4 2 −4 7 5.
1 −2 5
134
Factorización de matrices 6.1. Descomposición LU

En este caso, para reducir A a una matriz triangular superior U es necesario primero una o varias operaciones
elementales del tipo permutación de filas (también es posible usar operaciones del tipo αFi + Fj con i > j).
Una de tales operaciones de intercambio puede ser F12 . Si se denota con P a la correspondiente matriz
permutación se obtiene entonces
2 3
2 −4 7
PA = 4 0 2 3 5.
1 −2 5
A esta nueva matriz se le aplican los pasos descritos en los ejemplos anteriores pa obtener
2 3 2 3
2 −4 3 2 −4 7
4 0 (1/2)F 1 + F 3
2 3 5 4 0 2 3 5
−→
1 −2 5 1/2 0 3/5

de aquí se sigue que


2 3 2 3
1 0 0 2 −4 7
L=4 0 1 0 5 y U =4 0 2 3 5
1/2 0 1 0 0 3/5
son matrices tales que
P A = LU . 
6.7. Teorema. Sea A una matriz invertible n × n. Entonces existe una matriz de permutación P tal que
P A = LU
donde L es una matriz triangular inferior y U es una matriz triangular superior. Se tiene además, que para
cada matriz P , L y U son únicas.

El siguiente teorema recoge ahora la formulación para la descomposición LU para matrices A rectangulares
m × n. El esquema para una factorización LU para una matriz Am×n está dado por la gráfica 6.1, la cual
corresponde respectivamente a los casos m = n, m < n y m > n.
6.8. Teorema. Sea A una matriz rectangular m×n que se puede reducir a una forma escalonada efectuando
únicamente operaciones elementales de eliminación (operaciones del tipo αFi + Fj con i < j). Entonces
existe una matriz m × m triangular inferior L con unos en la diagonal principal y una matriz m × n, U
con uij = 0, si i > j tales que
A = LU.

6.9. Ejemplo. Encontre la descomposición LU para la matriz


2 3
1 4 7 2
A=4 2 5 8 −1 5 .
3 6 12 3 3×4
Aplique para ello, operaciones elementales, sin intercambio, para llevar a la matriz A a una forma escalonada
2 3 2 3
1 4 7 2 (−2)F1 + F2 1 4 7 2
4 2 5 8 −1 5 −→ 4 2 −3 −6 −5 5
3 6 12 3 (−3)F1 + F3 3 −6 −9 −3
2 3
1 4 7 2
(−2)F1 + F2 4 2 −3 −6 −5 5
−→
3 2 3 7
135
6.1. Descomposición LU Factorización de matrices

0 U
A
= L 0

0 U
A =
L 0

U
0
A =
L
0

Figura 6.1. Esquema de la factorización LU

de donde se obtiene que


2 3 2 3
1 0 0 1 4 7 2
L=4 2 1 0 5 y U =4 0 −3 −6 −5 5
3 2 1 0 0 3 7
son tales que A = LU. 

El siguiente ejemplo, ilustra cómo hacer uso de la descomposición LU en el proceso de resolver resolver
sistemas lineales de ecuaciones.
6.10. Ejemplo. Considere el sistema de ecuaciones
x1 + 4x2 + 7x3 = 1
2x1 + 5x2 + 8x3 = 2
3x1 + 6x2 + 12x3 = 4
cuya matriz de coeficientes corresponde a la matriz A del ejemplo 6.2 y cuyo término independiente es
bT = 1 2 4 . De acuerdo con dicho ejemplo se tiene
ˆ ˜

2 3 2 32 3
1 4 7 1 0 0 1 4 7
A=4 2 5 8 5=4 2 1 0 54 0 −3 −6 5 = LU
3 6 12 3 2 1 0 0 3

Ahora bien planteamos el sistema Lz = b, esto es


8
< z1
> =1
2z1 + z2 =2,
>
3z1 + 2z2 + z3 =4
:

cuya solución es 23
1
z = 4 0 5.
1
136
Factorización de matrices 6.1. Descomposición LU

Con esta solución planeamos el sistema U x = z, esto es el sistema


8
<x1 + 4x2 + 7x3 = 1
>
−3x2 − 6x3 =0,
>
3x3 =1
:

y cuya solución es
x1 = 4/3; x2 = −2/3 x3 = 1/3. 

6.1 Ejercicios

En los ejercicios 1 al 4 responda falso o verdadero justificando su respuesta

1. Las operaciones elementales en las filas del tipo αFi + Fj con i < j, producen matrices elementales
triangulares inferiores.
2. Las operaciones elementales en las columnas del tipo αCi + Cj con i < j, producen matrices
elementales triangulares inferiores.
3. El producto de dos matrices elementales del mismo tamaño, es una matriz elemental.
4. La descomposición LU para cualquier matriz A es única.

En los ejercicios 5 al 6 demuestre la afirmación correspondiente

5. Suponga que Li , (i = 1, 2), son matrices triangulares inferiores:


a) Muestre que el producto L1 L2 es una matriz triangular inferior.
b) Mueste que si L1 es invertible, entonces su inversa L−11 es también una matriz triangular inferior
(Sug.: use inducción matemática)
c) Muestre que si los elementos de la diagonal principal de L1 y L2 son tosdo iguales a 1 (uno),
entonces las matrices L1 L2 , L−11 y L−1
2 también tienen unos en su diagonal principal. (Sug.:
use inducción matemática)
6. Use el ejercicio anterior para demostrar que las afirmaciones son igualmente válidas para matrices
triangulares superiores.
7. Use la factorización LU dada para resolver el sistema de ecuaciones lineales
» –» – » –
1 0 4 1 −11
a) x=
−3 1 0 −1 32
» –» – » –
1 0 2 1 12
b) x=
5 1 0 −7 46
2 32 3 2 3
1 0 0 2 −2 1 2
c) 4 4 1 0 5 4 0 3 1 5x = 4 7 5
−2 3 1 0 0 −2 −3
2 32 3 2 3
1 0 0 −1 2 1 0
d ) 4 4 1 0 5 4 0 3 −1 5 x = 4 3 5
−7 3 1 0 0 −5 9
8. Calcule la descomposición LU de la matriz
2 3
1 3 −1 2
A=4 2 7 1 1 5.
−1 2 17 3
Use dicha descomposición para resolver el sistema Ax = y, yT = 14 .
ˆ ˜
5 18

137
6.2. Descomposición QR Factorización de matrices
2 3
4 2 0
9. Considere la matriz simétrica positiva definida S = 4 2 9 4 5 y calcule su descomposición LU.
0 4 5

6.2. Descomposición QR

En esta sección se hablará de la descomposición QR de una matriz, donde Q es una matriz con columnas
ortogonales (ortonormales) y R es una matriz triangular inferior. Dicha descomposición es de gran impor-
tancia para resolver problemas de mínimos cuadrados y tiene una estrecha relación con el cálculo de la
inversa generalizada de una matriz. En el caso de matrices cuadradas, dicha descomposición es la base de
un algoritmo para determinar numéricamente y de forma iterativa, los valores propios de la matriz A (ver
capítulo 8 de [10]).

En primer lugar se hace aquí la discusión de la descomposición QR para una matriz A de rango columna
completo. En este caso, la factorización se basa en el proceso de ortogonalización de Gram-Schmidt descrito
en teorema 1.33. El siguiente teorema garantiza la existencia de una tal factorización en dicho caso y su
demostración resume el proceso para encontrarla.

6.11. Teorema (Factorización QR (Parte I)). Sea A ∈ Mm×n una matriz de rango columna completo n.
Entonces existen matrices Q ∈ Mm×n con columnas ortogonales (ortonormales) y R ∈ Mn×n triangular
superior e invertible tales que
A = QR

Demostración. Considere la matriz A particionada por sus columnas, ésto es,

A = A1 A2 · · · An ,
ˆ ˜

la cual por hipótesis es de rango columna completo n. De aquí se tiene que el conjunto B = A1 , A2 , . . . , An
˘ ¯

es una base de C(A) (el espacio columna de A). Aplicando el proceso de ortogonalización de Gram-Schmidt
(teorema 1.33) a esta base se obtiene

v1 = A1
hA2 ; v1 i
v2 = A2 − v1
hv1 ; v1 i
hA3 ; v1 i hA3 ; v2 i
v3 = A3 − v1 − v2
hv1 ; v1 i hv2 ; v2 i
..
.
n−1
X hAn ; vi i
vn = An − vi .
i=1
hvi ; vi i

138
Factorización de matrices 6.2. Descomposición QR

Despejando de aquí cada vector columna Aj obtenemos:

A1 = v1
hA2 ; v1 i
A2 = v2 + v1
hv1 ; v1 i
hA3 ; v1 i hA3 ; v2 i
A3 = v3 + v1 + v2
hv1 ; v1 i hv2 ; v2 i
..
.
n−1
X hAn ; vi i
An = vn + vi .
i=1
hvi ; vi i

Así que se puede escribir:

A1 A2 An
ˆ ˜
A = ···
hA2 ; v1 i hA3 ; v1 i hAn ; v1 i
2 3
1 ···
6
6 hv1 ; v1 i hv1 ; v1 i hv1 ; v1 i 7
7
6 7
hA2 ; v2 i hAn ; v2 i
6 7
···
6 7
6 0 1 7
6
6 hv2 ; v2 i hv2 ; v2 i 7
7
6 7
n
˜6 hA ; v3 i
ˆ 7
A = v1 v2 ··· vn ···
6 7
6 0 0 1 7
6 hv3 ; v3 i 7
.. .. .. ..
6 7
. . . .
6 7
6 ··· 7
..
6 7
n
6 hA ; vn−1 i 7
6 0 0 0 . 7
hvn−1 ; vn−1 i 7
6 7
6
4 5
0 0 0 ··· 1
A = Q0 R0 ,

que corresponde a la descomposición QR no normalizada de la matriz A.

Usando ahora los módulos de las columnas de la matriz Q0 para definir la matriz diagonal invertible
D = diag(kv1 k, kv2 k, . . . , kvn k). De esta forma, se puede reescribir la igualdad A = Q0 R0 como sigue:

A = Q0 R0
= Q0 D−1 DR0
hA2 ; v1 i hAn ; v1 i
2 3
6 kv1 k kv1 k
hv1 ; v1 i
··· kv1 k
hv1 ; v1 i 7
hAn ; v2 i
6 7
i6 7
kv2 k ··· kv2 k
h
v1 v2
··· vn 6 0
=
7
kv1 k kv2 k kvn k 6 hv2 ; v2 i 7
6 .. .. .. ..
6 7
.
7
4 . . . 5
0 0 ··· kvn k
= QR ,

que corresponde a la descomposición QR normalizada de la matriz A. 

139
6.2. Descomposición QR Factorización de matrices

6.12. Ejemplo. Encuentre la descomposición QR para la matriz


2 3
1 2 −1
6 1 −1 2 7
7 = A1 A2 A3
ˆ ˜
A=4
6 .
1 −1 2 5
−1 1 1

Aplicando el proceso de ortogonalización de Gram-Schmidt se obtiene


23
1
6 1 7
v1 = A1 = 6
4 1 5;
7

−1
2 3 2 3 2 3
2 1 9
hA2 ; v1 i 6 −1 7 1 6 1 7 1 6 −3 7
v2 = A2 − 4 −1 5 + 4
v1 = 6 7
4 1 5= 4
6 7
4 −3 5 ;
6 7
hv1 ; v1 i
1 −1 3

hA3 ; v1 i hA3 ; v2 i
v3 = A3 − v1 − v2
hv1 ; v1 i hv2 ; v2 i
2 3 2 3 2 3 3 2
−1 1 9 0
2 77 − 1 6 1 7 + 2 6 −3
6 6 7 6 7 6 1 7
= 6 7=6
5 4 1 5.
7
4 2 5 2 4 1 5 3 4 −3
1 −1 3 2

De aquí se tiene que

A1 = v1
2 1
A = − v1 + v2
4
1 2
A3 = v1 − v2 + v3 .
2 3

Siguiendo ahora los delineamientos de la demostración del teorema anterior obtenemos:

2 3
1 −1/4 1/2
A1 A2 A3 = [v1 v2 v3 ] 4 0
ˆ ˜
A = 1 −2/3 5
0 0 1
2 3
1 9/4 0 2 3
6 1 −3/4 1 7 1 −1/4 1/2
= 4 1 −3/4 1 5 0
6 74 1 −2/3 5
0 0 1
−1 3/4 2

= Q0 R0 (Descomposicón no normalizada).

140
Factorización de matrices 6.2. Descomposición QR

√ √ ´
En este caso, la matriz D está dada por D = diag 2, 32 3, 6 . Entonces se puede escribir
`

A A A = Q0 D−1 DR0
ˆ 1 2 3˜
A =
2 √ 3
1/2 3/2 3 0
−1/2
2 3
√ √ 7 2 1
6 7
6
6 1/2 −1/2 3 1/ 6 7 6
√ √ 7
7
6 76
= 6 √ √ 7 6 0 3 3/2 − 3 7
6 7 6 7
6 1/2 −1/2 3 1/ 6 7 4

5
6 7
4 5 0 0 6
√ √
−1/2 1/2 3 2/ 6
= QR (Descomposición normalizada). 

Suponga ahora que la matriz m×n, A no tiene rango columna no completo, esto es, ρ(A) = r con 0 < r < n.
En este caso se tiene, que también existe una descomposición QR, pero la matriz Q en la factorización no
normalizada contiene columnas nulas, como lo establece el siguiente teorema.

6.13. Teorema (Factorización QR (Parte II)). Sea la matriz A ∈ Mm×n tal que ρ(A) = r con 0 < r < n.
Entonces existen una matriz Q0 ∈ Mm×n con r columnas ortogonales no nulas y el resto nulas, y una matriz
R0 ∈ Mn×n triangular superior invertible tales que

A = Q0 R0 (Descomposición no normalizada) .

La matriz A también se puede descomponer de manera normalizada en la forma

A = QRr

donde Q ∈ Mm×r tiene columnas ortogonales (ortonormales) no nulas y Rr ∈ Mr×n es "triangular" superior
de orden r. Las r columnas no nulas de Q0 , respectivamente las r columnas de Q, conforman una base para
C(A).

Demostración. Si se siguen los pasos de la demostración del teorema 6.11 se obtiene la descomposición
QR no normalizada para A. Esto es,
A = Q0 R0 .
En este caso sin embargo, Q0 tendrá r columnas ortogonales no nulas y n − r columnas nulas. Ahora, para
definir matriz diagonal D se usan los módulos de la columnas no nulas Q0 respetando sus posiciones y unos
(1’s) en el resto de componentes de la diagonal de D. La matriz Q buscada corresponde entonces a la matriz
formada por las columnas no nulas de Q0 D−1 , igualmente Rr se obtiene eliminado de la matriz DR0 , las
filas con índices iguales a las columnas nulas de Q0 . 

El siguiente ejemplo ilustra el proceso para calcular la descomposición QR en el caso de matrices que no
son de rango columna completo.

6.14. Ejemplo. Encontrar la descomposición QR para la matriz


2 3
1 2 0 −1
6 1 −1 3 2 7
7 = A1 A2 A3 A4
ˆ ˜
A=6 4 1 −1 .
3 2 5
−1 1 −3 1
141
6.2. Descomposición QR Factorización de matrices

Para ello se aplican los pasos del método de ortogonalización de Gram-Schmidt con las columnas de A, esto
es:
2 3
1
6 1 7
v1 = A1 = 6 4 1 5;
7

−1
2 3
9
hA2 ; v1 i 1 1 6 −3 7
v2 = A2 − v1 = A2 + v1 = 6 7;
hv1 ; v1 i 4 4 4 −3 5
3

3 2
0
3 3
hA ; v1 i hA ; v2 i 9 6 0 7
v3 = A3 − v1 − v2 = A3 − v1 + v2 = 6
4 0 5;
7
hv1 ; v1 i hv2 ; v2 i 4
0
2 3
0
4 1 2 6 1 7
v4 = A − v1 + v2 − 0v3 = 4 6 7.
2 3 1 5
2

Despejando los vectores Aj ’s, en términos de los vectores vj ’s, como en el ejemplo 6.12 se obtiene entonces

A1 A2 A3 A4
ˆ ˜
A =

2 32 3
1 9/4 0 0 1 −1/4 9/4 1/2
6 1 −3/4 0 1 7 6 0 1 −1 −2/3 7
= 6 76 7
4 1 −3/4 0 1 54 0 0 1 0 5
−1 3/4 0 2 0 0 0 1

= Q0 R0 .

Si se toma ahora la matriz diagonal D, cuyos elementos hDiii corresponden a los a los módulos de las
i-ésimas columnas no nulas
h de √Q0 . Para lasi columnas nulas de Q0 se considera hDiii = 1. En el ejemplo se

tiene entonces, D = diag 2, 2 3, 1 , 6 y de aquí se sigue que
3

A1 A2 A3 A4 = Q0 R0 = Q0 D−1 DR0
ˆ ˜
A =


−1/2
2 32 3
1/2 3/2 3 0 0 2 9/2 1
√ √ 76 √ √ √ 7
6 76 7
6
6
6 1/2 −1/2 3 0 1/ 6 7
76 0
6 3 3/2 −3 3/2 − 3 7
7
= 6
6 √ √ 76
76 7.
7
6
6 1/2 −1/2 3 0 76 0
1/ 6 7 6 0 1 0 7
7

4 54 5
√ √
−1/2 1/2 3 0 2/ 6 0 0 0 6

Esto es,

142
Factorización de matrices 6.2. Descomposición QR


−1/2
2 32 3
1/2 3/2 0 0 2 9/2 1
√ √ √ √ √
6 76 7
6 76 7
6
6 1/2 − 3/6 0 6/6 77 6 0 3 3/2 −3 3/2 − 3
6 7
7
A = 6
6 √ √
76
76
7
7
6
6 1/2 − 3/6 0 6/6 776 0
6 0 1 0 7
7

4 54 5
√ √
−1/2 3/6 0 6/3 0 0 0 6
2 √ 3
1/2 3/2 0
−1/2
2 3
7 2 9/2 1
√ √
6
6 7
6
6 1/2 − 3/6 6/6 776
6
√ √ √ 7
7
= 7 6 0 3 3/2 −3 3/2 − 3 7
√ √
6
6 76 7
6
6 1/2 − 3/6 6/6 77
4

5
4 5 0 0 0 6
√ √
−1/2 3/6 6/3

= QR .
La matriz Q se obtiene al eliminar la tercera columna (columna nula) de Q0 D−1 , mientras que R se obtiene
al eliminar la correspondiente tercera fila de DR0 . 

El siguiente resultado presenta la relación existente entre la descomposición QR y la inversa generalizada


de una matriz A. En este punto de la discusión, se suguiere al lector a recordar los conceptos dados en el
capítulo 5 sobre inversas condicionales (Ac ), inversa generalizada (A+ ), mejor solución aproximada (M.S.A.)
y solución mínima cuadrada (S.M.C.).
6.15. Teorema. Sea A ∈ Mm×n una matriz real.

1. Si ρ(A) = n entonces existe una matriz Q, m × n, con columnas ortonormales y una matriz R
triangular superior e invertible n × n tales que
A = QR,
además se tiene que
A+ = R−1 QT .
2. Si ρ(A) = r < n entonces existe una matriz Q, m × n, con las primeras r columnas no nulas
ortonormales y una matriz R triangular superior n × n, ambas de rango r tales que
A = QR,
además se tiene que
A+ = RT (RRT )−1 QT .

Demostración. Suponga que A es una matriz m × n de rango columna completo. Según lo establece
el teorema 6.11, existen matrices Q ∈ Mm×n y R ∈ Mn×n con las condiciones citadas tales que A = QR.
De otra parte, se sabe que A+ = (AT A)−1 AT (teorema 5.15(1)). De aquí se sigue que:
A+ = (AT A)−1 AT
= (RT QT QR)−1 RT QT
= R−1 (RT )−1 RT QT
= R−1 QT .

143
6.2. Descomposición QR Factorización de matrices

Lo que demuestra el inciso 1.

Suponga ahora, que A no tiene rango columna completo, es decir, suponga, que ρ(A) = r; 0 < r < n.
Según el teorema 6.13 existen matrices Q ∈ Mr×n y R ∈ Mr×n con las condiciones requeridas tales que
A = QR. Ahora, aplicando el teorema 5.15 (con B = Q y C = R), así como el literal (iv) del teorema 5.15,
se obtiene entonces
A+ = RT (RRT )−1 (QT Q)−1 QT
= RT (RRT )−1 QT , (puesto que (QT Q)−1 = Ir )

6.16. Nota. Con respecto a los resultados anteriores se puede anotar que:

1. Si A ∈ Mm×n es una matriz de rango r < n se tiene, usando la notación del teorema anterior, que
“ ”−1
A+ A = RT RRT R.

2. De acuerdo con el teorema 5.45, todo sistema de ecuaciones Ax = y tiene una única M.S.A. dada
por
x∗ = A+ y.
Puesto que el conjunto de todas la soluciones mínimas cuadradas del sistema Ax = y están dadas
por (ver capítulo 5)
x = A+ y + (I − A+ A)h; h ∈ Rn .
Del literal anterior se sigue:
x = RT (RRT )−1 QT y + (I − RT (RRT )−1 R)h; h ∈ Rn ,
y de aquí, que el conjunto de todas la soluciones mínimas cuadradas del sistema Ax = y está dada
por las soluciones
Rx = QT y .
6.17. Ejemplo. Considere el sistema de ecuaciones lineales Ax = y, siendo
2 3 2 3
1 2 0 −1 1
6 1 −1 3 7 y y = 6 −1 7 .
2 7 6 7
A=6 4 1 −1 3 2 5 4 2 5
−1 1 −3 1 1
De acuerdo con el ejemplo 6.14 ρ(A) = 3 y las matrices
2 √ 3
1/2 3/2 0
−1/2
2 3
6
6 √ √
7
7 2 9/2 1
6 1/2 − 3/6 6/6 √ √ √ 7
7 6 7
7 y R=6 0
6 7 6
Q=6 6 √ √ 7 6 3 3/2 −3 3/2 − 3 77
6 1/2 − 3/6 6/6 7 √
4 5
6 7
4
√ √
5 0 0 0 6
−1/2 3/6 6/3
son tales que
A = QR .

144
Factorización de matrices 6.2. Descomposición QR

Entonces A+ = RT (RRT )−1 QT , (ver teorema 6.15), es decir,


2 1 1
2 3
0
6 9 18 18 7
6 7
6 7
6 7 1 1 1 7
6 7
6 18 18 18 6 7
+
A = 6 7,
6 7
6 1 1 1 1 7
6
6 18 − 7
6 18 18 6 7
7
6 7
1 1 1
4 5
0
6 6 3
y el conjunto de todas las S.M.C. (ver nota 6.16) está dada por las soluciones del sistema

2 3
T
√1/2
Rx = Q y = 4 √3/2 5 ,
6/2
es decir por la expresión
2 3 2 3
1/6 −2
6 2/3 7 6 1 7
x = 4 0 5 + h4 1 5,
6 7 6 7 h ∈ R.
1/2 0

En particular, si h = 1/18, se obtiene la M.S.A.


23
5
1 6
6 11 7 .
x∗ = A+ y =
7

18 4 −1 5
9

6.2 Ejercicios

En los ejercicios 1 al 1, responda falso o verdadero justificando su respuesta

1. Si Q es una matriz rectangular cuyas columnas son orgonormales entre sí, entonces QT Q = I.
2. Demuestre que si A ∈ Mm×n tiene rango n y A = QR, donde Q tiene columnas ortogonales y R
es una matriz triangular superior con unos en su diagonal principal, entonces Q y R son únicas.
3. Encuentre la matriz triangular
2 R tal que A = 3 QR en cada uno de los siguientes casos
1 4
√ √
2
1 2
3 6
6 3 42 77
6 7 6 7
6 √1 1 7
6 7 6
a) A = 6 1 1 7 , Q = 6
6 7 √ 7
7
4 5 6 3 42 7
6 7
−1 1
6 7
4 1 5 5
−√ √
3 42

145
6.3. Descomposición de Cholesky Factorización de matrices

2 1 1 3
2 3 √ 0 √
1 −1 1 6 2 2 7
6 7 6 7
6 7 6 7
b) A = 6 0 1 −1 7 , Q = 6 0 1 0 7
7 6 7
6 6 7
4 5 6 7
−1 1 1
4 1 1 5
−√ 0 √
2 2
4. Calcule la descomposición QR de las matrices
2 3 2 3
1 0 0 1 1 3
6 0 1 1 7 6 −1 1 1 7
(a) A = 4 6 7 (b) B = 46 7
1 1 −1 5 1 2 −2 5
0 0 1 1 2 0
2 3 2 3
1 1 2 1 2 4
6 1 0 0 7 6 1 1 3 7
(c) C=4
6 7 (d) D=4
6 7
1 1 1 5 1 −1 1 5
1 0 −1 1 1 3

6.3. Descomposición de Cholesky

A diferencia de las factorizaciones vistas hasta ahora, la factorización o descomposición de Cholesky se aplica
sólo a matrices simétricas positivas definidas y ésta consiste en expresar una tal matriz como producto de
una matriz triangular superior y por su transpuesta. En forma más precisa tenemos
6.18. Teorema (Factorización de Cholesky). Si A ∈ Mn×n es una matriz simétrica positiva definida,
entonces existe una única matriz real T = [tij ]n×n triangular superior con tii > 0 (i = 1, . . . , n), tal que
A = TTT .
Además,
2
|A| = |T |2 = [Πn
i=1 tii ] .

Demostración. La demostración la hará usando inducción sobre el orden de la matriz. Primero se


demuestra que la afirmación es válida para n = 2, en efecto:
» –
α β
Sea A = una matriz 2×2 simétrica positiva definida, entonces se tiene que α > 0 y |A| = αθ−β 2 >
β θ
» –
a b
0 (teorema 4.27). Se necesita mostrar que existe una única matriz triangular superior T = , con
0 c
elementos de la diagonal positivos, tal que A = T T, esto es:
T
» – » –» – » 2 –
α β a 0 a b a ab
= = .
β θ b c 0 c ab b2 + c2
De ésto se tiene que

a2 = α de donde, a= α (a > 0)
β
ab = β de donde, b= √ y
α
p
αθ − β 2
b2 + c 2 = θ de donde, c= √ (c > 0).
α
146
Factorización de matrices 6.3. Descomposición de Cholesky

ésto es,
2 √ √ β
2 3

3
α 0 α
» – 6 α 7
α β 6 76
7 = T T T,
7
A= =6 p 76
β θ 4 β αθ − β 2 56 p 7
√ √ 4 αθ − β 2 5
α α 0 √
α
además, se tiene que |A| = (t11 · t22 )2 .

Suponga ahora que la afirmación es cierta para n = k, ésto es, sea B ∈ Mk×k una simétrica positiva
definida. Supongamos que existe una única matriz triangular superior U ∈ Mk×k tal que A = U T U y que
|A| = |U |2 = [Πki=1 u2ii ] (hipótesis de inducción).

Se demuestra entonces ahora, que la afirmación es cierta para n = k + 1. Considere para ello una ma-
triz A ∈ M(k+1)×(k+1) simétrica positiva definida. Se puede escribir la matriz A por bloques en la forma
» –
à a
A= , con à ∈ Mk×k , a ∈ Mk×1 y θ ∈ R
at θ
La matriz à es simétrica positiva definida (teorema 4.27), entonces por hipótesis de inducción, existe una
˛ ˛ ˛ ˛2
única matriz triangular superior U ∈ Mk×k tal que à = U T U y ˛Ã˛ = ˛U ˛ = [Πki=1 uii ]2 .

Considere ahora la matriz triangular superior T de tamaño (k + 1) × (k + 1), con elementos de la diagonal
principal positivos y escrita por bloques en la forma
» –
U y
T = ,
0 z
donde y ∈ Mk×1 y z ∈ R+ deben ser escogidos adecuadamente tales que, A = T T T ; esto es, tales que:
» – » T –» –
à a U 0 U y
A= =
aT θ yT z 0 z
» T
UT y

U U
= .
yT U yT y + z 2
Igualando término a término se debe tener que
U T y = a, lo que implica que y = (U T )−1 a

yT y + z 2 = θ, lo que implica que z = (θ − yT y)1/2 .


Además se tiene que
|A| = |T |2 = |U |2 z 2
h i2 h i2
= Πki=1 uii z 2 = Πk+1
i=1 tii .

A continuación se verán dos procesos para calcular la factorización de Cholesky. El primero se basa en la
definición propia de la factorización de Cholesky, mientras que el segundo usa resultados sobre diagonal-
ización de matrices positivas definidas.

Proceso A (cálculo de la factorización de Cholesky):

147
6.3. Descomposición de Cholesky Factorización de matrices

Sea A una matriz simétrica n × n positiva definida. Puesto que A = T T T con T una matriz triangular
superior con elementos positivos en su diagonal principal, se debe tener que:

···
2 3
a11 a12 a13 a1n
6
6 a12 a22 a23 ··· a2n 77
A =
6 a13 a23 a33 ··· a3n 7
.. .. .. .. .. 7
6 7
.
6
4 . . . . 5
a1n a2n a3n ··· ann
··· ···
2 32 3
t11 0 0 0 t11 t12 t13 t1n
6
6 t12 t22 0 ··· 0 7 6 0
76 t22 t23 ··· t2n 7
7
=
6 t13 t23 t33 ··· 0 7 76 0
6 0 t33 ··· t3n 7.
7
.. .. .. .. .. 7 6 .. .. .. .. ..
6
. .
6 7
4 . . . . 54 . . . . 5
t1n t2n t3n ··· tnn 0 0 0 ··· tnn
Cálculos directos muestran entonces que se debe cumplir que:


1. t11 = a11 .
a1j a1j
2. t1j = = √ ; j = 1, . . . , n.
t11 a11
3. tii = (aii − i−1 2 1/2
P
k=1 tki ) ; i = 2, . . . , n.
i−1
1 X
4. tij = [aij − tki tkj ]; j > i, i = 2, . . . , n − 1.
tii
k=1

5. tij = 0; j < i, i = 2, . . . , n.
Observación. Con respecto a este método y al cálculo de los elementos no nulos tij de la matriz triangular
T se puede decir que:

1. t2ii es igual al elemento aii menos la suma de los cuadrados de los elementos ya calculados de la
i-ésima columna de T . Es decir,
i−1
X
t2ii = aii − t2ki , i = 1, . . . , n.
k=1

2. El producto tii · tij es igual a aij menos la suma del producto de los elementos ya calculados de las
i-ésima y j-ésima columnas de T . Es decir,
i−1
X
tij · tii = aij − tki tkj ; j > i, i = 2, . . . , n − 1 .
k=1

6.19. Ejemplo. Siguiendo el esquema anterior, encuentre la descomposición de Cholesky para la matriz
simétrica positiva definida
2 3
4 −2 0 2
6 −2 2 3 −2 7
A=6 4 0
7.
3 18 0 5
2 −2 0 4
Cálculos directos muestran que:

148
Factorización de matrices 6.3. Descomposición de Cholesky

√ a12 a13 a14


1. t11 = a11 = 2; t12 = = −1; t13 = = 0; t14 = = 1.
2 2 2

2. t22 =
p
a22 − t212 = 2 − 1 = 1;
a23 − t12 t13 3 − (−1) · 0
t23 = = =3
t22 1
a24 − t12 t14 −2 − (−1) · 1
t24 = = = −1.
t22 1

3. t33
p
= a33 − t213 − t223 = 18 − 02 − 32 = 3;

a33 − t13 t14 − t23 t24 0 − 0 · 1 − 3(−1)


t34 = = =1
t33 3
4. t44
p p
= a44 − t214 − t224 − t234 = 4 − 12 − (−1)2 − 12 = 1

Es decir, 2 3
2 −1 0 1
6 0 1 3 −1 7
T =6
4 0
7,
0 3 1 5
0 0 0 1
es la matriz triangular superior tal que A = T T T. 
6.20. Ejemplo. Siguiendo con el esquema anterior, encuentre la descomposición de Cholesky para la matriz
simétrica positiva definida 2 3
4 2 −4
A = 4 2 10 4 5,
−4 4 9
Cálculos directos muestran que:
√ a12 a13
1. t11 = a11 = 2; t12 = = 1; t13 = = −2.
t11 2

2. t22 =
p
a22 − t212 = 10 − 1 = 3;
a23 − t12 t13 4 − (1)(−2)
t23 = = = 2.
t22 3
3. t33
p p
= a33 − t213 − t223 = 9 − (−2)2 − (2)2 = 1.

Es decir, 2 3
2 1 −2
T =4 0 3 2 5,
0 0 1
es la matriz triangular superior tal que A = T T T. 

Proceso B (cálculo de la factorización de Cholesky):

De acuerdo con los resultados presentados en el capítulo 4 se tiene que una matriz simétrica A, es positiva
definida, si existe una matriz triangular superior P, tal que P T AP = I (ver también el teorema 4.31). De
aquí que
A = (P T )−1 P −1 = (P −1 )T P −1 .
Así las cosas, se puede encontrar una ˜tal matriz P T usando los pasos ilustrados en el ejemplo 3.46, es
decir, planteando la matriz A | I y realizando de manera adecuada y simultáneamente operaciones
ˆ

elementales en las filas y columnas de A y en las filas de I (sin hacer intercambios de filas).

149
6.3. Descomposición de Cholesky Factorización de matrices

Nota. Existe una relación entre la factorización LU para matrices positivas definidas y la descomposición
de Cholesky. En efecto, si A es simétrica positiva definida entonces A se puede expresar mediante A = T T T
con T una matriz triangular superior con elementos positivos en la diagonal principal.

Ahora bien, sea D = diag (t11 , t22 , . . . , tnn ) entonces se tiene que:

A = TTT
= T T D−1 DT
= (T T D−1 )(DT )
= LU.

6.21. Ejemplo. Considere la matriz simétrica positiva definida


2 3
4 2 −4
A = 4 2 10 4 5.
−4 4 9
Del ejemplo 6.20 se tiene que
2 3 2 32 3
4 2 −4 2 0 0 2 1 −2
A = 4 2 10 4 5=4 1 3 0 54 0 3 2 5 = TTT .
−4 4 9 −2 2 1 0 0 1
2 3
2 0 0
Tomando D = 4 0 3 0 5 , se tiene que
0 0 1
2 32 3
2 0 0 2 1 −2
A = 4 1 3 0 54 0 3 2 5
−2 2 1 0 0 1
2 32 32 32 3
2 0 0 1/2 0 0 2 0 0 2 1 −2
= 4 1 3 0 54 0 1/3 0 54 0 3 0 54 0 3 2 5
−2 2 1 0 0 1 0 0 1 0 0 1
2 32 3
1 0 0 4 2 −4
= 4 1/2 1 0 54 0 9 6 5 = LU . 
−1 2/3 1 0 0 1

Ahora bien, suponga que se desea hallar las soluciones del sistema de ecuaciones lineales Ax = y, siendo A
una matriz simétrica y positiva definida. Sea T triangular positiva tal que A = T T T , entonces
Ax = y ⇐⇒ T T T x = y ⇐⇒ T x = (T T )−1 y,
es decir, si se conoce la factorización de Cholesky para una matriz A = T T T , la solución del sistema Ax = y
se reduce a encontrar la solución del sistema triangular superior
T x = z, con z = (T T )−1 y.

6.22. Ejemplo. Considere el sistema de ecuaciones lineales


4x1 + 2x2 − 4x3 = 12
2x1 + 10x2 + 4x3 = 6
−4x1 + 4x2 + 9x3 = −3 .

150
Factorización de matrices 6.4. Descomposición en valores singulares

Puesto que la matriz de coeficientes es justo la matriz del ejemplo 6.20, la matriz aumentada del sistema
se puede reducir mediante multiplicación del sistema por la matriz T −T (ver ejemplo 6.20), para obtener:
2 3
ˆ ˜ 4 2 −4 | 12
A | y = 4 2 10 4 | 6 5
−4 4 9 | −15
2 3
2 1 −2 | 6

ˆ ˜
= 4 0 3 2 | 0 5= T | z .
0 0 1 | −3

De esto último se sigue que

x3 = −3,
−2x3 6
x2 = = = 2,
3 3
6 + 2x3 + x2 6−2−6
x1 = = = −1. 
2 2

6.3 Ejercicios

2 3
4 2 0
1. Considere la matriz simétrica positiva definida S = 4 2 9 4 5 y calcule sus descomposición de
0 4 5
Cholesky (compare con el problema 9 de la seccion de ejercicios 6.1)

6.4. Descomposición en valores singulares (SVD)

En esta sección se abordará el estudio de la descomposición de una matriz rectangular A la cual involucra
los valores y vectores propios de la matrices simétricas AAT y AT A. Como se recordará dichas matrices son
positivas semidefinidas y por ello sus valores propios son no negativos.

6.23. Teorema. Para toda matriz A ∈ Mm×n se tiene que existen matrices ortogonales U ∈ Mm×m y
V ∈ Mn×n y una matriz “diagonal” Σ ∈ Mm×n , con elementos hΣiij = 0, si i 6= j y hΣiii =: σi ≥ 0, y
σ1 ≥ σ2 ≥ · · · ≥ σs , en donde s = mı́n {m, n} tales que
T
Am×n = Um×m Σm×n Vn×n .

Los números σ12 , σ22 , · · · , σs2 son los valores propios de AT A (quizás agregando algunos ceros) y los vectores
propios asociados son las columnas de la matriz V = [ v1 v2 · · · vn ]. Además, lo números σ12 , σ22 ,
· · · , σs2 son igualmente los valores propios de AAT (quizás agregando algunos ceros) y los vectores propios
asociados son las columnas de U = [ u1 u2 · · · um ]. Además de tiene las siguientes relaciones entre
estos vectores

Avi = σi ui
i = 1, 2, . . . , s.
uTi A = σi viT

151
6.4. Descomposición en valores singulares Factorización de matrices

Demostración. Suponga que A ∈ Mm×n tiene rango r con 0 < r < s. La matriz simétrica S =
AAT ∈ Mm×m es no negativa y por tanto existe una matriz ortogonal U ∈ Mm×m tal que
2 2
σ1 0 · · ·
3
0
2
6 0 σ2 · · · 0 7
U T AAT U = D2 = 6 . . . .. 7
6 7
4 .. .. .. . 5
2
0 0 · · · σm

donde σ12 ≥ σ22 ≥ · · · ≥ σm


2
≥ 0 son los valores propios de S = AAT y las columnas de U = [u1 u2 · · · um ]
son vectores propios de S correpondientes a dichos valores propios:
AAT ui = Sui = σi2 ui ; i = 1, 2, . . . , m.
Como r = ρ(A) = ρ(AA ), entonces
T
σ12 ≥ σ22 ≥ · · · ≥ σr2 > 0. Particione ahora la matriz U como
U = [ U1 U2 ] con U1 ∈ Mm×r . Luego

U1T
2 3
T T 5 AAT
ˆ ˜
U AA U = 4 U1 U2
U2T
U1T AAT U1 U1T AAT U2
2 3

= 4 5
U2T AAT U1 U2T AAT U2
» 2 –
Dr 0
=
0 0
es decir,

σ12
2 3
0 ··· 0 0 ··· 0
6 0 σ22 ··· 0 0 ··· 0 7
.. .. .. .. ..
6 7
6 .. .. 7
6
6 . . . . . . . 7
7
T T 2
U AA U = 6 0 0 ··· σm 0 ··· 0
6 7
7
0 0 ··· 0 0 ··· 0
6 7
6 7
.. .. .. .. .. .. ..
6 7
. . . . . . .
6 7
4 5
0 0 ··· 0 0 ··· 0

Esto implica que


U2T AAT U2 = (AT U2 )T (AT U2 ) = 0,
de donde U2T A = 0 y AT U2 = 0. También se tiene que U1T AAT U1 = Dr2 , o sea:
Dr−1 U1T AAT U1 Dr−1 = I = (AT U1 Dr−1 )T (AT U1 Dr−1 ).
Esto significa que la matriz
V1 = AT U1 Dr−1 ∈ Mn×r
tiene columnas ortonormales (V1T V1 = I). Sea V2 ∈ Mn×(n−r) tal que la matriz
ˆ ˜
V = V1 V2 ∈ Mn×n
es ortogonal. Se requiere ahora verificar que
» –
Dr 0
U T AV = Σ = .
0 0
152
Factorización de matrices 6.4. Descomposición en valores singulares

En efecto, de una parte:


U1T U1T AV1 U1T AV2
2 3 2 3
T ˆ ˜
U AV = 4 5A V1 V2 =4 5,
U2T U2T AV1 U2T AV2
y de otra parte, U2T A = 0. Así mismo,
V1T V1T V1 V1T V2
2 3 2 3
T ˆ ˜
V V = I=4 5 V1 V2 =4 5
V2T V2T V1 V2T V2
» –
I 0
= ,
0 I
lo que implica que V1T V2 = 0 = (AT U1 Dr−1 )T V2 de donde
U1T AV2 = 0.
y finalmente,
U1T AV1 = U1T AAT U1 Dr−1
= Dr2 Dr−1 = Dr
σ1 0 · · ·
2 3
0
6 0 σ2 · · · 0 7
= 6 . .. .. .. 7.
6 7
4 .. . . . 5
0 0 ··· σm
En consecuencia,
» –
Dr 0
U T AV = Σ = .
0 0

Nota. Observe que


AV1 = AAT U1 Dr−1 ⇒ Avi = σi ui i = 1, 2, . . . , r.
igualmente,
AT U1 = V1 Dr ⇒ AT ui = σi vi ⇒ uTi A = σi viT i = 1, 2, . . . , r.

El siguiente proceso ilustra cómo calcular la descomposición en valores singulares de una matriz A ∈ Mm×n .
Se supondrá en este caso, que m ≤ n.

6.24. Algoritmo.

1. Formule S = AAT ∈ Mm×m .


2. Encuentre los valores propios de S : σ12 ≥ σ22 ≥ · · · ≥ σm
2
≥ 0.
3. Encuentre un conjunto ortonormal u1 , u2 , . . . , um de vectores propios de S y construya la matriz
U = [ u1 u2 · · · um ](ortogonal) y la matriz diagonal D = diag(σ1 , σ2 , · · · , σm ).
4. Si r = ρ(A); Dr = diag(σ1 , σ2 , · · · , σr )
5. Haga V1 = AT U1 Dr−1 , siendo U1 = [ u1 u2 · · · ur ], las primeras r columnas de U. Encuentre
una matriz V2 ∈ Mn×(n−r) tal que la matriz V = [ V1 V2 ] ∈ Mn×n sea ortogonal.
5*. Otra forma de (5) es trabajar con la matriz AT A.

153
6.4. Descomposición en valores singulares Factorización de matrices
» –
2 1 −2
6.25. Ejemplo. Considere la matriz A = ; ρ(A) = 2, calcule la descomposición en valores
4 −4 2
singulares usando el proceso esbozado anteriormente.
» –
9 0
Calculando directamente se obtiene la matriz S = AAT = , cuyos valores propios son: σ12 =
0 36
36 y σ22 = 9 (σ12 ≥ σ22 ).

Calcule ahora los vectores propios asociados a estos valores propios:

Para σ12 = 36 se tiene el sistema (S − 36 · I)X = 0, es decir el sistema


» –» – » –
−25 0 x1 0
= ,
0 0 x2 0
cuyo conjunto solución es de la forma
» – ff
0
B= : x2 6= 0 .
x2
» –
0
Como un representante de los σ12 -vectores propios se puede tomar entonces u1 = . Análogamente se
1
» –
1
puede tomar a u2 = como σ22 -vector propio. Ahora considere la matriz ortogonal
0
» –
0 1
U = [ u1 u2 ] =
1 0
y la matriz diagonal » –
6 0
D = diag(σ1 , σ2 ) = .
0 3
» –
6 0
Puesto que r = ρ(A) = 2 se tiene que Dr = diag(σ1 , σ2 ) = .
0 3

Con las matrices definidas hasta ahora se tiene que


V1 = AT U1 Dr−1
2 3
2 4 » –» –
4 1 −4 5 0 1 1/6 0
=
1 0 0 1/3
−2 2
2 3
2 4 » –
4 1 −4 5 0 1/3
=
1/6 0
−2 2
2 3
2 2
14
= −2 1 5 Columnas ortonormales.
3
1 −2
Si se considera ahora la matriz ortogonal
2 3 2 3
2 2 1 1
14 14
con V2 =
ˆ ˜
V = −2 1 2 5 = V1 V2 2 5,
3 3
1 −2 2 2
se tiene que: » –
6 0 0
U T AV = = Σ. 
0 3 0

154
Factorización de matrices 6.4. Descomposición en valores singulares
2 3
1 1 0
6.26. Ejemplo. Considere la matriz A = 4 0 1 1 5 ; ρ(A) = 3, calcule ahora la descomposición en
1 0 1
valores singulares:

De nuevo se calcula la matriz S = AAT


2 3
2 1 1
S = AAT = 4 1 2 1 5.
1 1 2
cuyos valores propios los se obtienen de manera usual, es decir, resolviendo la ecuación |S − λI| = 0, esto
es,
0 = |S − λI|
˛ ˛
˛ 2−λ 1 1 ˛
˛ = −(λ − 4)(λ − 1)2 .
˛ ˛
= ˛ 1
˛ 2 − λ 1 ˛
˛ 1 1 2−λ ˛

Los valores propios de S son entonces σ12 = 4, σ22 = 1 y σ32 = 1. Algunos cálculos usuales permiten elegir a
los vectores
0
2 3 2 3 2 3
1 −2
1 4 1 1
u1 = √ 1 5 ; u2 = √ 4 1 5 y u3 = √ 4 1 5 ,
3 1 6 1 2 −1
como vectores propios ortonormales asociados a σ12 , σ22 y σ32 respectivamente. Considere ahora la matriz
ortogonal √ √
2 3
1/ 3 −2/ 6 0
√ √ √ 7
6 7
ˆ ˜ 6
U = u1 u2 u3 = 6 1/ 3 6 1/ 6 7.
1/ 2 7
√ √ √
4 5
1/ 3 1/ 6 −1/ 2
y las matrices diagonales (ρ(A) = 3)
2 3
2 0 0
D = diag(σ1 , σ2 , σ3 ) = 4 0 1 0 5 = Dr .
0 0 1

Se definine ahora la matriz V1 = AT U1 Dr−1 , esto es,


2 32 √ √ 32 3
1 0 1 1/√3 −2/√6 √0 1/2 0 0
V1 = 4 1 1 0 5 4 1/√3 1/√6 1/√2 5 4 0 1 0 5
0 1 1 1/ 3 1/ 6 −1/ 2 0 0 1
2 32 √ √ 3
1 0 1 1/2√3 −2/√6 √0
= 4 1 1 0 5 4 1/2√3 1/√6 1/√2 5
0 1 1 1/2 3 1/ 6 −1/ 2
2 √ √ √ 3
1/√3 −1/√6 −1/√2
= 4 1/√3 −1/√6 1/ 2 5 = V
1/ 3 2/ 6 0
Con estas matrices se tiene que: 2 3
4 0 0
U T AV = 4 0 1 0 5 = Σ. 
0 0 1

155
6.4. Descomposición en valores singulares Factorización de matrices

6.4 Ejercicios

1. Calcule la descomposición en valores singulares de las matrices


» – » –
2 1 −2 2 2 1
(a) A = (b) B =
−1 4 1 1 1 −4
2 3 2 3
1 1 1 −1
(c) C=4 2 2 5 (d) D = 4 −1 1 5
2 2 2 −2

156
CAPÍTULO 7

Rectas e hiperplanos. Conjuntos convexos.

Este capítulo consta de dos secciones. En la primera se darán las definiciones de recta, segmento de recta
e hiperplanos en Rn . En la segunda se verán algunos resultados sobre conjuntos convexos. Quien desee
estudiar un poco más sobre estos tópicos puede consultar el capítulo 6 de [7].

7.1. Rectas. Segmentos de recta. Hiperplanos

Los conceptos de recta, segmento de recta e hiperplanos en Rn son útiles en programación lineal (véase el
capítulo 6 de [12]). Antes de proseguir con la discusión, se hará una pequeña aclaración sobre la notación
y se hará una diferencia entre lo que es un punto P en el espacio Rn y el segmento de recta dirigido (vector
coordenado o simplemente vector), que tiene como extremo inicial el origen de coordenadas O y como
−−

extremo final al punto P. Éste se denotarár por OP o simplemente p.

Al punto P ∈ Rn se le asignan las coordenadas (x1 , x2 , . . . , xn ) y se escribe P (x1 , x2 , . . . , xn ), mientras que



−→ −− →
al vector OP también se le asignan coordenadas (x1 , x2 , . . . , xn ), pero escribiremos OP = (x1 , x2 , . . . , x3 )
o simplemente, p = (x1 , x2 , . . . , x3 ) (ver figura 7.1 en el caso de R ).
3

IR 3
x3 x3

P(x1 , x2 , x 3) P

p = 0P =(x1 , x2, x 3)

O(0, 0, 0) x2 O(0, 0, 0) x2

x1 x1

Figura 7.1. Puntos y vectores en R3 .

157
7.1. Rectas y planos Hiperplanos

Nota. Dados dos puntos P (x1 , x2 , . . . , xn ) y Q(x01 , x02 , . . . , x0n ) en Rn , el segmento de recta dirigido o

−→
vector, que tiene como punto inicial a P y como punto final Q, se denotará por P Q y se le asignan las
0 0 0
coordenadas (x1 − x1 , x2 − x2 , . . . , xn − xn ). En tal sentido, y dado que

−→ − −→
OQ − OP = (x01 , x02 , . . . , x0n ) − (x1 , x2 , . . . , xn )
= (x01 − x1 , x02 − x2 , . . . , x0n − xn ),

−→
se escribireá P Q = (x01 − x1 , x02 − x2 , . . . , x0n − xn ).
7.1. Definición (Rectas). En Rn , la recta que pasa por el punto P en la dirección del vector d 6= 0 se
define como el conjunto de puntos:
−−→ − −→
(7.1) ` = {X ∈ Rn : OX = OP + λd, λ ∈ R} .

Se dice además, que el vector d es un vector director de la recta `.

Según la definición anterior, un punto X0 ∈ Rn pertenece a la recta ` dada por (7.1) sii existe un λ0 ∈ R
−−→ − −→
tal que OX0 = OP + λ0 d.

y
2
IR

OX=OP+ λ d
P

λd
d

Figura 7.2. Una recta en R2 .

7.2. Ejemplo. En R3 , la recta que pasa por el punto P (1, 2, 3) en la dirección del vector d = (1, 0, 5), es
el conjunto de puntos:
` = X(x1 , x2 , x3 ) ∈ R3 : (x1 , x2 , x3 ) = (1, 2, 3) + λ(1, 0, 5), λ ∈ R .
˘ ¯

El punto X0 (−1, 2, −7) pertenece a dicha recta, pues:


−−→
OX0 = (−1, 2, −7) = (1, 2, 3) + (−2)(1, 0, 5).
Sin embargo, el punto X ∗ (2, 3, 2) no pertenece a la recta `, pues no existe λ∗ ∈ R tal que:
(2, 3, 2) = (1, 2, 3) + λ∗ (1, 0, 5) = (1 + λ∗ , 2, 3 + 5λ∗ ). 

158
Hiperplanos 7.1. Rectas y planos

Ahora bien, si el punto Q de Rn está sobre la recta (7.1) y Q 6= P, entonces existe un λ0 ∈ R tal que

−→ − −→ 1 −−→
OQ = OP + λ0 d. De aquí que d = P Q, y por lo tanto:
λ0
n −−→ − −
→ o
` = X ∈ Rn : OX = OP + λd, λ ∈ R
 ff
−−→ − −
→ λ −−→
= X ∈ Rn : OX = OP + P Q, λ ∈ R .
λ0
En consecuencia, se puede decir que la recta que pasa por los puntos P y Q (P 6= Q) de Rn es el conjunto
de puntos:
n −−→ − −→ −−→ o
(7.2) ` = X ∈ Rn : OX = OP + t P Q, t ∈ R .

y
2
IR

Q OX=OP+t PQ
P

PQ = 0Q − OP

t PQ

Figura 7.3. Gráfica de una recta que pasa por los puntos P y Q.

7.3. Ejemplo. La recta que pasa por los puntos P = (1, 2, 3) y Q = (4, 1, 1) de R3 , es el conjunto de
puntos:
` = X(x1 , x2 , x3 ) ∈ R3 : (x1 , x2 , x3 ) = (1, 2, 3) + t(3, −1, −2), t ∈ R .
˘ ¯


7.4. Definición. [Segmento de recta]

El segmento de recta que une los puntos P y Q de Rn , se denota por P Q y se define así:
n −−→ − −→ −−
→ o
PQ = X ∈ Rn : OX = OP + t P Q, para 0 ≤ t ≤ 1 .
n −−→ −
−→ −−→ o
= X ∈ Rn : OX = tOP + (1 − t) OQ, para 0 ≤ t ≤ 1 .

−−→
Según la definición anterior, un punto X0 ∈ Rn pertenece a P Q sii existe 0 ≤ t0 ≤ 1 tal que OX0 =
−−
→ −−

OP + t0 P Q.

159
7.1. Rectas y planos Hiperplanos

IR 2
Q

P OX = OP + t 0 PQ

PQ = OQ − OP

t0 PQ
x

Figura 7.4. Segmento de recta que une los puntos P y Q

7.5. Ejemplo. El segmento de recta que une al punto P (1, 2, 3, 4) con el punto Q(0, 1, 0, 2), es el conjunto
de puntos X(x1 , x2 , x3 , x4 ) ∈ R4 :

X ∈ R4 : (x1 , x2 , x3 , x4 ) = (1, 2, 3, 4) + t(−1, −1, −3, −2) ,


˘ ¯
PQ =
1 3 3
El punto X0 ( , , , 3) pertenece a P Q, pues
2 2 2
1 3 3 1
( , , , 3) = (1, 2, 3, 4) + (−1, −1, −3, −2).
2 2 2 2
Sin embargo, el punto X ∗ (−1, 0, −3, 0) no pertenece a P Q, pues no existe t∗ con 0 ≤ t∗ ≤ 1 tal que
(−1, 0, −3, 0) = (1, 2, 3, 4) + t∗ (−1, −1, −3, −2)
= (1 − t∗ , 2 − t∗ , 3 − 3t∗ , 4 − 2t∗ ) .
7.6. Definición. [Hiperplano]

En Rn , el hiperplano que pasa por el punto P y que es normal al vector n 6= 0, se define como el conjunto
de puntos: n −−→ − −→ o
H = X ∈ Rn : (OX − OP ) · n = 0 ,
o lo que es lo mismo, n −−→ −
−→ o
H = X ∈ Rn : OX · n = OP · n = cte. ,
donde “·” es el producto interno usual en Rn (véase apartado 1.2.3).

7.7. Observación. En R2 y en R3 los hiperplanos tienen una estructura muy particular. En efecto,

1. En R2 , un hiperplano es una recta. Así por ejemplo, el hiperplano (recta) que pasa por el punto
P (4, −3) y que es normal al vector n = (−5, 2), es el conjunto de puntos X(x1 , x2 ) de R2 que
satisfacen la ecuación:
−−→ −
−→
OX · n = −5x1 + 2x2 = −20 − 6 = −26 = OP · n,

160
Hiperplanos 7.1. Rectas y planos

n
H
3 x3
IR

X
P

x2

x1

Figura 7.5. Gráfica de un plano en R3 .

o sea,
−5x1 + 2x2 = −26.
2. En R , un hiperplano es un plano. Así por ejemplo, el hiperplano (plano) que pasa por el punto
3

P (2, −1, 1) y que es normal al vector n = (−1, 1, 3), es el conjunto de puntos X(x1 , x2 , x3 ) de R3
que satisfacen la ecuación:
−−→ −
−→
OX · n = −x1 + x2 + 3x3 = −2 − 1 + 3 = 0 = OP · n,
o sea,
−x1 + x2 + 3x3 = 0 .
7.8. Ejemplo. Dados los puntos Q(1, 1, 1), P (1, −1, 2) y el vector n = (1, 2, 3), encuentre el punto de
intersección, si lo hay, de la recta que pasa por el punto P en la dirección del vector n y del hiperplano
(plano) que pasa por Q y es normal al vector n.

La recta que pasa por P en la dirección del vector n, es el conjunto de puntos de X(x1 , x2 , x3 ) de R3 tales
que:
−−→ −−→
(x1 , x2 , x3 ) = OX = OP + λn = (1, −1, 2) + λ(1, 2, 3). λ ∈ R.
El hiperplano (plano) que pasa por Q y que es normal al vector n, es el conjunto de puntos de X(x1 , x2 , x3 )
de R3 para los cuales se satisfacen la ecuación:
−−→ −−

OX · n = x1 + 2x2 + 3x3 = 6 = OQ · n .
Ahora bien, si denotamos por I al punto de intersección entre la recta y el plano, entonces:
−→ − −

OI = OP + λ∗ n
para algún λ∗ ∈ R, y también
−→ −
−→
OI · n = OQ · n.
De esto se sigue que:

−→ −
−→
OP + λ∗ n = OQ .
Utilizando las propiedades del producto interno encontramos que:
−−→
PQ · n 1
λ∗ = = .
k nk2 14
161
7.1. Rectas y planos Hiperplanos

En consecuencia, las coordenadas del punto buscado están dadas por:


−→ −−
→ 1
OI = OP + λ∗ n = (1, −1, 2) + (1, 2, 3)
14
15 12 31
= ( ,− , ) .
14 14 14

La figura 7.6 ilustra la situación de la intersección entre una recta y un plano.

n P

x3
3
IR x

x2

x1

Figura 7.6. Gráficas de un plano y una recta en R3

7.9. Definición. Sea H el hiperplano de Rn descrito por la ecuación


−−→ −−

OX · n = OP · n = c
Los conjuntos n −−→ o
S1 = X ∈ Rn : OX · n ≤ c y
n −−→ o
S2 = X ∈ Rn : OX · n ≥ c ,
se denominan los semiespacios cerrados con frontera H.

Los conjuntos n −−→ o


S1 = X ∈ Rn : OX · n < c y
n −−→ o
S2 = X ∈ Rn : OX · n > c ,
se denominan semiespacios abiertos con frontera H.

Nota. Los semiespacios abiertos no incluyen la frontera H, mientras que los semiespacios cerrados si la
incluyen.

7.1 Ejercicios
162
Hiperplanos 7.1. Rectas y planos

IR
2 y

x. n. = c
x. n. > c

x.n. < c

Figura 7.7. Ilustración de semiespacios abiertos

En los ejercicios 1 al 3 responda verdadero o falso, justificando su respuesta.

1. El punto X (4, 5, 0) pertenece a la recta que pasa por el punto P (1, 2, −3) en la dirección del
vector d = (1, 1, 1).
2. El punto X (0, 1, 2) pertenece al segmento de recta que une a los puntos P (1, 2, −3) y Q (4, 5, 6).
3. Sean Q (1, 2, 3) , P (0, 1, 2) y n = (1, 1, 1). El punto de intersección de la recta que pasa por P en
la dirección del vector n y de hiperplano que pasa por Q y que es normal al vector n, es M (2, 0, 1).

En los ejercicios 4 al 7 demuestre la afirmación correspondiente


n −−→ o
4. Sea H = X ∈ Rk : OX · n = c un hiperplano de Rk .
a) Muestre que si X = 0 ∈
/ H, entonces existe un vector n∗ 6= 0 tal que:
n −−→ o
H = X ∈ Rk : OX · n∗ = 1 .
b) Demuestre que si X = 0 ∈/ H, entonces existen k puntos b1 , b2 , . . . , bk de H, que como vectores
son linealmente independientes.
c) Demuestre que si X = 0 ∈/ H, entonces
( k k
)
k
X X
H= X∈R : X= λi b i , λi = 1 , .
i=1 i=1

donde b1 , b2 , . . . , bk son puntos de H, que como vectores, son linealmente independientes.


5. Encuentre b1 , b2 y b3 tales que
X ∈ R3 : X · (2, 1, 1) = 1
˘ ¯
H =
( 3 3
)
3
X X
= X∈R : X= λ i bi , λi = 1
i=1 i=1

6. Sean b1 = (1, 0, 0), b2 = (1, 1, 0) y b3 = (1, 1, 1).


a) Demuestre que b1 , b2 y b3 son linealmente independientes.
b) Encuentre un vector n∗ 6= 0 tal que:
( 3 3
)
3 −−→ X X
H = X ∈ R : OX = λi bi , λi = 1
i=1 i=1
n −−→ o
= X ∈ R3 : OX · n∗ = 1 .

163
7.2. Conjuntos convexos Hiperplanos

7. Sea H = X ∈ Rk : X · n = c un hiperplano de Rn .
˘ ¯

a) Muestre que X = 0 ∈ H sii c = 0.


b) Demuestre que si X = 0 ∈ H, entonces existen k − 1 puntos a1 , a2 , . . . , ak−1 de H, que como
vectores son linealmente independientes.
c) Demuestre que si X = 0 ∈ H, entonces
( k−1
)
k −−→ X
H = X ∈ R : OX = λi ai .
i=1

donde a1 , a2 , . . . , ak−1 son k − 1 puntos de H, que como vectores son linealmente independi-
entes.
8. Encuentre a1 y a2 tales que
n −−→ o
H = X ∈ R3 : OX · (2, 1, 1) = 0
n −−→ o
= X ∈ R3 : OX = λ1 a1 + λ2 a2

9. Sean a1 = (1, 1, 1) y a2 = (1, 0, 1).


a) Muestre que a1 y a2 son linealmente independientes.
b) Encuentre un vector n∗ 6= 0 tal que:
n −−→ o
H = X ∈ R3 : OX = λ1 a1 + λ2 a2
X ∈ R3 : v · N ∗ = 0 .
˘ ¯
=
10. Demuestre que todo hiperplano de Rn es una variedad lineal de dimensión n − 1 (véase el apartado
1.2.1).

7.2. Conjuntos convexos

Los conjuntos convexos juegan un papel importante en la programación lineal. En particular se tiene que
la llamada región factible de un problema de programación lineal es un conjunto convexo (vea el teorema
6.6(iii) de [12]).
7.10. Definición. Sea C un subconjunto de Rn . Se dice que C es convexo, si para dos puntos cualesquiera
P y Q de C, el segmento de recta P Q está contenido en C.

En la figura 7.1 los conjuntos C1 y C2 son convexos, mientras que los conjuntos C3 y C4 no son convexos.

7.11. Teorema. Todo hiperplano de Rn es un conjunto convexo.

Demostración. Sea H el hiperplano de Rn descrito por la ecuación


−−→ −
−→
OX · n = OP · n = c
y sean Q1 y Q2 puntos de H. Ahora, si X ∗ es un punto de Rn cuyas coordenadas satisfacen:
−−→ ∗ −−→ −−−→
OX = OQ1 + t(Q2 Q1 ), 0 ≤ t ≤ 1 ,

164
Hiperplanos 7.2. Conjuntos convexos

y y
C1 C3
Q
P
Q
P

C2 C4
Q
P
P Q

x x
(a) (b)

Figura 7.1. Conjuntos convexos y no convexos

entonces X ∗ es un punto del segmento de recta Q1 Q2 y se tiene que:


−−→ ∗ h−−→ −−−→ i
OX · n = OQ1 + t(Q2 Q1 ) · n
h−−→ −−→ −−→ i
= OQ1 + t(OQ2 − OQ1 ) · n
−−→ −−−→ −−→
= OQ1 + t OQ2 · n − t OQ1 · n
−−→ −−→
= (1 − t)OQ1 · n + t OQ2 · n
= (1 − t)c + t c
= c,
es decir, X ∈ H. Por lo tanto H es un conjunto convexo.



7.12. Teorema. Sea H el hiperplano de R . Todo semiespacio cerrado o abierto con frontera H es un
n

conjunto convexo.

Demostración. Sea H el hiperplano de Rn descrito por la ecuación


−−→ −−→
OX · n = OP · n = c .
Se demuestrá únicamente que el semiespacio abierto con frontera H
n −−→ o
S = X ∈ Rn : OX · n < c
es un conjunto convexo. En el caso de semiespacio cerrados con frontera H se procede de manera análoga.

Sean pues Q1 y Q2 puntos del conjunto S y sea X ∗ un punto del segmento de recta Q1 Q2 . Puesto que
−−→ −−→
Q1 ∈ S y Q2 ∈ S, entonces OQ1 · n < c y OQ2 · n < c, de aquí que:
−−→ ∗ h−−→ −−−→ i
OX · n = OQ1 + t(Q2 Q1 ) · n
h−−→ −−→ −−→ i
= OQ1 + t(0Q2 − OQ1 ) · n
−−→ −−→ −−→
= OQ1 + t 0Q2 · n − t OQ1 · n
−−→ −−→
= (1 − t)OQ1 · n + t OQ2 · n
< (1 − t)c + t c = c ,

165
7.2. Conjuntos convexos Hiperplanos

esto es, X ∗ ∈ S. Por lo tanto S es un conjunto convexo. 


7.13. Teorema. La intersección de dos conjuntos convexos de R es un conjunto convexo de R .
n n

Demostración. Sean C1 y C2 dos conjuntos convexos de Rn y sea C3 = C1 ∩ C2 . Si C3 tiene solamente


un punto, entonces C3 es automáticamente convexo. Sean Q1 y Q2 dos puntos distintos de S3 , ya que C1 y
C2 son conjuntos convexos de Rn , entonces:
−−→ −−→ −−→
OQ1 + t(OQ2 − OQ1 ) ∈ C1 Para todo t tal que 0 ≤ t ≤ 1.
y
−−→ −−→ −−→
OQ1 + t(OQ2 − OQ1 ) ∈ C2 Para todo t tal que 0 ≤ t ≤ 1.
−−→ −−→ −−→
En consecuencia. OQ1 + t(OQ2 − OQ1 ) ∈ C3 = C1 ∩ C2 para todo t tal que 0 ≤ t ≤ 1 y por lo tanto C3 es
un conjunto convexo de Rn . 

La prueba del siguiente corolario se puede obtener aplicando el principio de inducción matemática y se
propone como un ejercicio.
7.14. Corolario. La intersección de un número finito de conjuntos convexos de Rn es un conjunto conexo
de Rn .
7.15. Teorema. [Envolvente convexa]Sean X1 , X2 , . . . , Xm puntos de Rn . El conjunto:
( m m
)
n −−→ X −−→ X
C = X ∈ R : OX = αi OXi ; αi ≥ 0, i = 1, . . . , m, αi = 1
i=1 i=1

es un conjunto convexo y es llamado la Envolvente convexa de los puntos X1 , X2 , . . . , Xm .

Demostración. Sean P y Q dos puntos de C; entonces existen escalares α1 , α2 , . . . , αm y β1 , β2 ,


. . . , βm no negativos, tales que:
m m

−→ X −−→ X
OP = αi OXi , αi = 1
i=1 i=1
y
m m

−→ X −−→ X
OQ = βi OXi , βi = 1 .
i=1 i=1

Sea ahora X ∗ un punto en el segmento de recta P Q, esto es, un X ∗ para el cual se satisface
−−→ ∗ −
−→ −
−→ − −→
OX = OP + t(OQ − OP ), 0 ≤ t ≤ 1.
Puesto que:
m
"m m
#
−−→ ∗ X −−→ X −−→ X −−→
OX = αi OXi + t βi OXi − αi OXi
i=1 i=1 i=1

m
X −−→
= [(1 − t)αi + tβi ] OXi ,
i=1

donde (1 − t)αi + tβi ≥ 0 para i = 1, . . . , m, y


m
X m
X m
X
[(1 − t)αi + tβi ] = (1 − t) αi + t βi
i=1 i=1 i=1

= (1 − t) + t = 1 ,

166
Hiperplanos 7.2. Conjuntos convexos

entonces X ∗ ∈ C. En consecuencia, C es un conjunto convexo. 

7.2 Ejercicios

En los ejercicios 1 al 2, responda verdadero o falso, justificando su respuesta.

1. La unión de dos conjuntos convexos de Rn es un conjunto convexo de Rn .


˜T
2. El conjunto de todas las soluciones x = x1 x2 · · · xn de un sistema de ecuaciones lineales
ˆ

Ax = y, tales que xi ≥ 0 , i = 1, . . . , n es un conjunto convexo.

En los ejercicios 3 al 4 demuestre la afirmación correspondiente

3. Si T : Rn → Rm es una transformación lineal, entonces envía conjuntos convexos en conjuntos


convexos.
4. Demuestre que si T : R2 → R2 es una transformación lineal biyectiva, entonces T envía triángulos
en triángulos.

167
Índice alfabético

Base, 7 indefinida, 72, 82


cambio de, 13 negaitivamente definida, 82
canónica de Rn , 9 negativamente definida, 72
ortogonal, 10, 49 negativamente semidefinida, 82
ortonormal, 10 negitivamente semidefinida, 72
no negaitiva, 72
c-inversa de una matriz, 112 no posiitiva, 72
Cholesky positivamente definida, 72, 82
descomposición, 146 positivamente semidefinida, 72, 82
Conjuntos Forma escalonada reducida, 4
convexos, 164
g-inversa de una matriz, 99, 103
Descomposición método, 15
LU, 131 Gram-Schmidt, proceso, 140
Descomposición Gram-Schmidt, proceso de, 10
de Cholesky, 146
en valores singulares, 151 Hermite
QR, 138 matriz superior, 115
Desigualdad de Schwarz, 10
Determinante, matriz, 3 Idéntica, matriz, 2
Diagonal principal, matriz, 1 Identidad, matriz, 2
Diagonal, matriz, 2 transformación lineal, 11
Diagonalización Inversa
simétricas, 48 condicional, 112
cuadrática, 75 generalizada, 99, 103, 143
ortogonal, 51 cálculo de, 107
simultánea propiedades, 105
cuadráticas, 77
de matrices, 63 LU
Diagonalización de matrices, 39 descomposición, 131

Eigenvalores, eigenvectores; vea Matrices


valores (vectores) propios, 31 Diagonalización de, 39
Espacio columna, matriz, 13 factorización, 131
Espacio fila, matriz, 13 no negativas, 89
Espacio generado, 7 semejantes
Espacio nulo, matriz, 14 característicos de, 37
Espacio vectorial, 5 simétricas
base, 7 diagonalización, 48
base ordenada, 8 Matrices elementales, 4
de transformaciones lineales, 13 Matriz
dimensión, 7 adjunta, 3
subespacio, 6 cambio de base, 13
suma directa, 8 cofactor ij, 3
Espacios fundamentales, matriz, 13 de cofactores, 3
cuadrática, 72
Factorización de matrices; ver transformación lineal, 12
descompisición de matrices, 131 determinante, 3
cuadrática, 71 propiedades, 3
cambio de variables, 74 diagonal, 2
clasificación, 72 espacio columna de una, 13
diagonalización de una, 75 espacio fila de una, 13

169
Índice alfabético

espacio nulo de una, 14 linealmente independientes, 7, 15, 16, 41


espacios fundamentales de una, 13 ortogonales, 10
forma escalonada reducida, 4 ortonormales, 10
hermite superior, 115 proceso de Gram-Schmidt, 10
idempotente, 94 propios ortogonales, 49
idéntica, 2
inversa, 2, 15
propiedades, 2
menor ij, 3
operaciones elmentales, 4
particionada, 17
determinante, 21, 23
inversas, 24
operaciones con, 18
caracterí stico de una, 34
rango de una, 13, 15
semejante, 13
submatriz, 17
transpuesta, 2
propiedades, 2
traza de una, 28
valor propio de una, 33
vector propio de una, 33
solución aproximada, 122
Mínimos cuadrados, 120
Operaciones elmentales en una matriz, 4
Producto interno, 9
QR
descomposición, 138
Rango de una matriz, 13
Rectas, planos e hiperplanos, 157
Sistemas de ecuaciones, 15
c-inversas,g-inversa, 119
Gauss-Jordan, 15
solución aproximada, 122
mínimos cuadrados, 119
Solución mí nima cuadrada, 122
Transformación lineal
álgebra de, 12
imagen, 11
inversa de una, 13
matriz de una, 12
transformación inyectica, 11
valores propios, 31
vectores propios, 31
Transformacion lineal
transformación sobreyectiva, 11
Transformación lineal
núcleo, 11
Transformaciones lineales, 11
Transpuesta, matriz, 2
Valor propio, 31
espacio asociado a un, 33
multiplicidad algebraica de un, 34
geométrica de un, 33
caracterí sticos; vea
valores (vectores) propios, 31
Valores singulares
descomposición, 151
Variedad lineal, 15
Vector propio, 31
Vectores, 5, 157
coordenadas resp. a una base, 8
linealmente dependientes, 7

170
Bibliografía

[1] ANTON, H. Introducción al álgebra lineal. Limusa, México, 1981,


[2] FLOREY, F.G. Fundamentos de álgebra lineal y aplicaciones. Prentice Hall Internacional, Colombia, 1980.
[3] GRAYBILL, F.A. Introduction to matrices with applications in statistic. Wadsworth Publishing Company. Inc. Belnont,
California, 1969.
[4] GRAYBILL, F.A. Theory and applications of linear model. Duxbury Presss, Massachusetts, 1976.
[5] GROSSMAN S. I. Álgebra Lineal. Quinta edición. McGraw-Hill/Interamericana de Mexico, S. A. de C. V., 1996.
[6] ESPINOSA, M. A. y MARMOLEJO M. A. Operaciones elementales: Usos en el salón de calse. Matemáticas: Enseñanza
Universitaria. Pág. 61-82, Vol. V, No.1, 1996
[7] HADLEY, G. A. Álgebra lineal, Fondo Educativo Interamericano S.A., U.S.A. 1969.
[8] LIPSCHUTZ, S. Álgebra lineal, McGraw Hill, México, 1979.
[9] MARMOLEJO, M.A. Inversa condicional e inversa generalizada de una matriz: esquema geométrico. Lecturas Matemáti-
cas, Soc. Col. Matemat., Pág. 129-146, Vol. IX, 1988.
[10] NAKOS, G.y JOYNER, D., Álgebra lineal con aplicaciones, Thonsom, México, 1998.
[11] NERING, E.D. álgebra lineal y teoría de matrices. Limusa, México, 1977.
[12] NOBLE, B. Applied linear algebra. Prentice Hall, Inc. London, 1969.
[13] RORRES , C y ANTON, H, Aplicaciones del álgebra lineal. Limusa, México 1979.
[14] STRANG, G, Álgebra lineal y sus aplicaciones. Fondo educativo interamericano, 1982.

171

También podría gustarte