Está en la página 1de 107

Derivacin Matricial

Fernando Lara
Fundacin Universitaria Konrad Lorenz

Director: Leonardo Jimnez Moscovitz


Matemtico
Fundacin Universitaria Konrad Lorenz

11 de junio de 2007

Resumen
En este trabajo se hace una presentacin de algunos aspectos tericos
y prcticos acerca de la derivacin matricial. Este tema es especialmente
importante, ya que las matrices no solo proveen una notacin muy com-
pacta para algunos desarrollos matemticos, sino que adems permiten
una mayor generalizacin. Despus de la presentacin terica, se expone
un caso de aplicacin a las redes neuronales, y se exponen algunas lineas
de cdigo en Matlab para la resolucin de problemas que involucren la
derivacin matricial.
This work develops a presentation of some theorical and practical top-
ics about matrix derivation. This area is specially important because ma-
trix theory not only provides a compact notation for some mathematical
developments, it also provides a greater generalization. After the theoric
presentation, this paper exposes an application to neural networks, and
some code in Matlab to help in the solutions of problems involving matrix
derivation.

1
ndice
Introduccin 3

1. Preliminares 5
1.1. Matrices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.2. Conceptos Bsicos . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.3. Matrices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.3.1. Operaciones con Matrices . . . . . . . . . . . . . . . . . . 10
1.3.2. Matrices Especiales. . . . . . . . . . . . . . . . . . . . . . 14

2. Derivacin. 23
2.0.3. Interpretacin de la derivada como la pendiente de una
tangente. . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.0.4. Reglas de Derivacion. . . . . . . . . . . . . . . . . . . . . 25
2.0.5. Derivacin Parcial . . . . . . . . . . . . . . . . . . . . . . 33

3. Derivacin Matricial 35
3.1. Funciones Matriciales . . . . . . . . . . . . . . . . . . . . . . . . 35
3.1.1. Funciones de Variable Escalar . . . . . . . . . . . . . . . . 35
3.1.2. Funciones de Variable Vectorial . . . . . . . . . . . . . . . 36
3.1.3. Funciones de Variable Matricial . . . . . . . . . . . . . . . 37
3.2. Otras Matrices Especiales . . . . . . . . . . . . . . . . . . . . . . 37
3.3. Producto de Kronecker . . . . . . . . . . . . . . . . . . . . . . . . 39
3.4. Frmulas de Derivacin Matricial. . . . . . . . . . . . . . . . . . 49
3.5. Reglas de Derivacin. . . . . . . . . . . . . . . . . . . . . . . . . 60
3.6. Propiedades de Derivacin de Funciones Matriciales. . . . . . . . 70

4. Aplicacines 87
4.1. Redes Neuronales . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
4.1.1. Caractersticas del Algoritmo . . . . . . . . . . . . . . . . 87
4.1.2. Propagacin hacia adelante. . . . . . . . . . . . . . . 88
4.1.3. Propagacin hacia atrs. . . . . . . . . . . . . . . . . . . . 89
4.1.4. Resumen (Algoritmo) . . . . . . . . . . . . . . . . . . . . 96
4.1.5. Propagacin hacia adelante. . . . . . . . . . . . . . . . . . 97
4.1.6. Propagacin hacia atrs. . . . . . . . . . . . . . . . . . . . 97
4.1.7. Propagacin hacia atrs. . . . . . . . . . . . . . . . . . . . 100
4.2. Derivadas Matriciales en Matlab. . . . . . . . . . . . . . . . . . . 101

5. Conclusiones 106

2
Introduccin
El lgebra matricial se ha convertido en los ltimos aos en una parte esen-
cial de los conocimientos de matemticas, necesarios en campos tan diversos
como la ingeniera, la fsica, la pedagoga, la qumica, la sociologa y en el cam-
po cientfico, as como la estadstica y la matemtica pura. Este requerimiento
refleja la importancia y la amplitud de sus aplicaciones.
Muchos de los temas tratados en los campos mencionados comparten mto-
dos comunes para resolver algunos de los problemas especficos. Los programas
de las materias de matemticas han ido evolucionando para facilitar que el pro-
fesional domine las tcnicas empleadas en el tratamiento de los problemas. Sin
embargo, por razones obvias, la mayora de los textos de matemticas se han
centrado en lo que es el ncleo bsico de los programas de clculo y lgebra. Por
otra parte, asignaturas de corte matemtico dirigidos a dotar de conocimientos
adecuados para abordar problemas, con un nivel ms riguroso, tienen carc-
ter optativo. Con respecto a esas asignaturas, no es fcil encontrar manuales
adecuados a sus contenidos especficos, lo que significa que un estudiante ha
de confiar en las referencias bibliogrficas recomendadas, que en mltiples oca-
siones no se ajustan a sus necesidades de rigor de planteamiento, o bien, apuntes
tomados en clase, con los conocidos inconvenientes que esta prctica conlleva.
Como ejemplos, pensemos en temas como derivadas de vectores y matrices y
derivadas de funciones matriciales.
Basado en la importancia que ha adquirido el clculo matricial, el compendio
que se ha proyectado, se presentar como suplemento a los textos sobre clculo
matricial, que entre otros, son bastante exiguos en nuestro medio.
El objetivo fundamental es fijar un criterio de derivacin, indicar su relacin
con las aproximaciones vectoriales a la derivada y, a partir de ello, obtener
resultados que permitan enfrentarse formalmente y con mayor comodidad al
estudio de variables matriciales.
Antes de abordar el proceso de derivacin matricial, se presenta un compen-
dio con los elementos bsicos del lgebra lineal, especficamente sobre matri-
ces, y un compendio que incluye las propiedades bsicas del clculo diferencial,
necesarios para comprender la manera como se aborda el estudio sobre clculo
matricial.
De la misma forma, dada la complejidad del problema, se hizo preciso incluir
algunas nuevas operaciones entre matrices que completan el clculo matricial
tradicional; para estas nuevas operaciones, se incluyen conceptos y propiedades
sobre producto de Kronecker, vectorizacin de matrices y se definen las matrices
de permutacin que se utilizan en algunos desarrollos.
En el presente trabajo se ha utilizado extensivamente la presentacin de
[Bar98]; este excelente libro es uno de los pocos escritos en espaol que tratan
el tema de la derivacin matricial. En particular, se ha utilizado mucho en la
seccin 3, donde se expone la presentacin terica y de las propiedades. Otros
escritos que se han podido disponer tienen una presentacin algo diferente; en
particular, muchos de ellos utilizan el concepto de diferencial al trabajar con
derivadas matriciales, lo que implica entre otros aspectos, cambios en la no-

3
tacin.
En el captulo 4, se presenta el desarrollo de un problema de redes neuronales
que en su forma original es un aporte del Ing. Pervys Rengifo, profesor de la
F.U.K.L., a quien se le agradece su amable colaboracin. En este ejemplo se
observa la aplicacin de la derivacin matricial en la solucin de un problema
de este tipo. Finalmente, se exponen algunas lneas de cdigo en Matlab para
ayudar en la resolucin de problemas de derivacin matricial o vectorial.

4
1. Preliminares
En este captulo se exponen los conceptos y reglas ms importantes que
sirven de base a la comprensin de la diferenciacin matricial, as como de los
conceptos y procesos asociados. Por ello, se explican en primera instancia las
definiciones y los conceptos bsicos de matrices, as como las operaciones a las
que se pueden someter estos objetos. Luego se presentan los tipos de matrices
ms importantes y las propiedades que stos poseen.

1.1. Matrices
Aqu se introducir el concepto de matriz y se presentarn ciertas operacio-
nes algebricas definidas sobre ellas. Las nociones expuestas sern la base para
comprender los conceptos relativos al clculo vectorial y matricial en general.
De la manera ms general posible, se puede definir una matriz como una
tabla o arreglo rectangular de objetos matemticos que pueden someterse a las
operaciones de suma y producto. Esto requiere por una parte, detallar cuales
son esos objetos o elementos de la matriz que son de inters primordial para el
matemtico, y por otra parte especificar algunas de las propiedades asociadas
con las operaciones sobre dichos elementos: stos, junto con las operaciones de
suma y producto, deben formar un cuerpo k [Her86].
Los elementos de una matriz pueden ser o bien los nmeros reales (k = R) o
bien los nmeros complejos (k = C); en estos caso, los elementos se llaman es-
calares. Pero los elementos de una matriz tambin pueden ser funciones definidas
en los nmeros reales o los complejos. En el presente trabajo se tratarn las ma-
trices definidas sobre los reales, se definir posteriormente la matriz de funciones.
El otro caso en que se considerarn las matrices y vectores es en la propia
definicin de las funciones. Para el presente trabajo el inters no radica en
funciones de variable real por ejemplo, sino que la funcin puede ser de variable
vectorial, o matricial y por otra parte su salida puede ser a su vez un valor
escalar, vectorial o matricial.

1.2. Conceptos Bsicos


En esta seccin se expondrn los principales conceptos relacionados con la
temtica a tratar. Por una parte, se hace referencia a algunos conceptos del lge-
bra abstracta como es el concepto de cuerpo, y por otra parte se hace referencia
al concepto de espacio vectorial. A travs del concepto de cuerpo se describe el
comportamiento de los elementos que conforman una matriz al realizar sobre
ellos ciertas operaciones; el concepto de espacio vectorial es una generalizacin
tanto de vectores en Rn como del propio concepto de matriz.

Definicin 1.1 (Campo o Cuerpo) Un campo o cuerpo k es una estructura


algebraica conformada por un conjunto y dos operaciones definidas sobre los ele-
mentos del conjunto, < K, +, > que se comportan como un anillo conmutativo
en el cual todo elemento diferente de 0 tiene inverso multiplicativo. [Her86].

5
Definicin 1.2 (Espacio Vectorial) Un espacio vectorial definido sobre un
cuerpo k, es un conjunto V de objetos llamados vectores, junto con las opera-
ciones cerradas de suma y producto por escalar, que cumplen ocho propiedades
[San94]:
Si u, v, w V y , son escalares cualesquiera, entonces

1. (u + v) + w = u + (v + w)
2. u + v = v + u
3. Existe 0 V tal que v + 0 = 0 + v = v
4. Para cada v existe un vector v tal que v + (v) = (v) + v = 0
5. (u + v) = u + v
6. ( + )u = u + u
7. ()u = (u)
8. 1 v = v

Definicin 1.3 (Subespacios Vectoriales) Un subespacio U de un espacio


vectorial V es un subconjunto de V que es en s mismo, un espacio vectorial
sobre el mismo cuerpo.

Dentro de los espacios vectoriales ms importantes, se tienen los espacios


k = Rn as como k = Cn . Un vector en Rn se puede expresar como v1 =
1 x1 + 2 x2 + ... + n xn . Esto se puede generalizar a continuacin.

Definicin 1.4 (Combinacin Lineal) Sea V un espacio vectorial, y U =


{u1 , u2 , ...ur } un conjunto finito de vectores de V. Entonces un vector de la
forma:
r
v = 1 u1 + 2 u2 + ... + r ur = i=1 i ui

se llama una combinacin lineal de vectores en U.

Es importante considerar el caso en el que se generan todas las posibles


combinaciones lineales con elementos de U, y con todos los posibles escalares
i k.

Definicin 1.5 (Subespacio Generado) Sea V un espacio vectorial, y U =


{u1 , u2 , ...ur } un conjunto finito de vectores de V. El conjunto de todas las posi-
bles combinaciones lineales de elementos de U se llama el subespacio generado
por U, y se denota:
n
S (U ) = {v|v = k ui , k k}
i=1

6
Un concepto muy importante relacionado con estos vectores es el de depen-
dencia o independencia lineal.

Definicin 1.6 (Dependencia Lineal) Sea V un espacio vectorial, y U =


{u1 , u2 , ...ur } un conjunto finito de vectores de V. Entonces, U es linealmente
dependiente o ligado si y solo si existen escalares 1 , , ...r no todos ceros,
tal que:

1 u1 + 2 u2 + ... + r ur = 0

Se dice que U es linealmente independiente o libre si no es dependiente.

Un conjunto U linealmente independiente y de especial importancia, se define


a continuacin.

Definicin 1.7 (Base) Sea V un espacio vectorial sobre k. Si en V existe un


subconjunto finito U de vectores linealmente independientes, tal que S(U ) = V, o
en otras palabras, que todo vector v V puede ser expresado como combinacin
lineal de vectores en U, entonces se dice que U es una base de V .

Si una base consiste de una cantidad finita de elementos, entoces se puede


demostrar que toda base de un espacio vectorial V tiene la misma cantidad de
elementos:

Definicin 1.8 (Dimensin) Sea V un espacio vectorial con una base B con
n elementos. Entonces, se define a n como la dimensin del espacio vectorial V,
y se expresa como dim(V ) = n.

Para el caso V = Rn con n = 3 se tiene la dimensin del conjunto de vectores


en el espacio.
Es necesario en muchos casos considerar funciones o morfismos entre espacios
vectoriales diferentes, esto es, f : V W donde V, W son espacios vectoriales
sobre el mismo cuerpo k. Estas funciones, cuya descripcin se puede encontrar
en libros de lgebra abstracta tales como [Her86] son de especial importancia si
poseen ciertas propiedades, tal como se observa en la siguiente definicin.

Definicin 1.9 (Isomorfismo) Sean V, W son espacios vectoriales sobre el


mismo cuerpo k, y sea f una funcin f : V W que cumple con las siguientes
propiedades que para todo xi V y para todo a, b k:

1. f 1 existe. Esto es, f es invertible


2. f (ax1 + bx2 ) = f(ax1 ) + f(bx2 ) = af(x1 ) + bf(x2 )

A los espacios vectoriales V, W se les llama espacios isomorfos, es decir,


que tienen la misma estructura.

7
Definicin 1.10 (Transformacin Lineal) Sea U un espacio vectorial
n-dimensional y sea V un espacio vectorial m-dimensional, ambos sobre el mis-
mo cuerpo k. Sea BU una base de U y BV una base de V. Una transformacin
lineal es una funcin T : U V tal que, para escalares arbitrarios a, b k y
vectores x1 , x2 U :

T (ax1 + bx2 ) = T (ax1 ) + T (bx2 ) = aT (x1 ) + bT (x2 )


Una transformacin lineal es entonces, una operacin entre dos espacios vec-
toriales que preserva las operaciones. Son de especial importancia tambin las
transformaciones lineales T : V V que reciben el nombre de endomorfismos.

1.3. Matrices
En esta seccin se establecern las condiciones para definir adecuadamente
el concepto de matriz, sus diferentes tipos y examinar luego algunas de sus
propiedades.
En el presente trabajo, las matrices se establecern con referencia al espacio
vectorial definido por Mmn , el conjunto de todas las matrices de tamao m n,
as:
Definicin 1.11 (Matriz) Sea k un cuerpo, y sea Mmn el espacio vectorial
de todas las matrices de tamao m n definidas sobre k. Se define una matriz
A Mmn con elementos en k, y se expresa diciendo que A es una matriz
sobre k, a un arreglo de mn elementos aij k, ordenados de manera rectangular
con m filas y n columnas encerrados entre corchetes, donde 1 i m y
1jn:

a11 a12 ... a1n
a21 ... ... a2n

... ... ... ...
am1 am2 ... amn

Las lneas horizontales en una matriz se denominan filas y las lneas verti-
cales se denominan columnas. El primero de los coeficientes indica la fila y el
segundo la columna en que est ubicado el elemento. A una matriz con m filas
y n columnas se le denomina matriz m-por-n (escrito m n), siendo los valores
m y n sus dimensiones. La matriz anterior se denota tambin por (aij ).
Bajo esta definicin, entonces sobre las matrices se pueden definir dos ope-
raciones: suma y producto por escalar, que deben cumplir con las propiedades
mencionadas en la definicin 1.2.
Definicin 1.12 (Matriz como Transformacin Lineal) Sean V, W espa-
cios vectoriales de dimensin finita. Si se han determinado las bases BV del
espacio V con dimensin n, y BW del espacio W con dimensin m, entonces
cada transformacin lineal T : V W puede ser representada por una matriz
A.

8
Ejemplo 1.1 Sean V, W espacios vectoriales. Sea {v1 , v2 , ...vn } una base de V
y {w1 , w2 , ...wm } una base de W. Cada vector v V puede ser representado de
manera nica mediante los escalares 1 , , ...n k. mediante la combinacin
lineal 1 v1 + 2 v2 + ... + r vn
Si f : V W es una aplicacin lineal, entonces

f (a1 v1 + a2 v2 + ... + ar vn ) = a1 f (v1 ) + a1 f (v2 ) + ...ar f (vn )

La funcin queda completamente determinada por los valores f(v1 ) + ... +


f(vn ). Como {w1 , w2 , ...wm } es una base de W, entonces cada f(vj ) puede re-
presentarse como:

f (vj ) = a1j f (w1 ) + a2j f(w2 ) + ...anj f (wm )

Luego la funcin queda completamente determinada por los valores aij . Si


estos valores se utilizan para construir una matriz A de tamao mn, Entonces
la matriz A se puede utilizar para calcular el valor de f(v) para todo vector en
V.
Otra manera de representar la interpretacin de una matriz como una apli-
cacin lineal es tomando x kn , y km , luego el morfismo f : kn km puede
ser representado por y = Ax.

Las dimensiones de una matriz siempre se dan con el nmero de filas primero
y el nmero de columnas despus. La entrada de una matriz A que se encuentra
en la fila i-sima y la columna j-sima se le llama entrada i, j o entrada (i, j)-
sima de A. Esto se escribe como Ai,j o A[i, j]. Entonces, el primero de los
subndices indica la fila y el segundo la columna a las que pertenece dicho
elemento. Las filas de la matriz son las m n-plas horizontales:


a11 a12 a1n , a21 a22 a2n , , am1 am2 amn

y las columnas de la matriz son las n m-plas verticales:



a11 a12 a1n
a21 a22 a2n

.. , .. , , .
. . ..
am1 am2 amn

Ntese que el elemento aij llamado entrada ij, aparece en la fila i-sima y en
la columna j-sima. Una matriz con m filas y n columnas se denomina matriz m
por n, o matriz m n; el par de nmeros (m, n) se llama su tamao o forma.
Las matrices se denotan usualmente por letras maysculas A, B, . . . y los
elementos del cuerpo k por minsculas, a, b, . . . con sus respectivos subndices.
Una matriz con una sola columna o una sola fila se denomina a menudo
vector, y se interpreta como un elemento del espacio eucldeo [Her86].

9
Definicin 1.13 (Vector) Un vector es una matriz que posee una sola fila o
una sola columna. Una matriz 1 n (una fila y n columnas) se denomina vector
fila, y una matriz m 1 (una columna y m filas) se denomina vector columna.
En general, dada una matriz A, al vector (ai1 , ai2 , ...ain ) que forma la i-sima
fila de A se le llama un vector fila, mientras que al vector (a1j , a2j , ...amj ) que
forma la j-sima columna de A se le llama vector columna. Ntese que en
particular, un elemento del cuerpo k puede verse como una matriz o vector de
tamao 1 1.
 
1 3 4
Ejemplo 1.2 Se tiene la matriz A23 :
0 5 2

Sus filas son 1 3 4 y 0 5 2 y cada una de ellas es un vector


fila, mientras que      
1 3 4
sus columnas son , , y cada una de ellas es un vector
0 5 2
columna.

   
x+y 2z + w 3 5
Ejemplo 1.3 La asercin = es equivalente al sigui-
xy zw 1 4

ente sistema de ecuaciones:


x+y =3
xy =1
2z + w = 5
zw =4

Definicin 1.14 (Igualdad de Matrices) La condicin necesaria y suficiente


para que dos matrices A = (aij ) y B = (bij ) sean iguales (A = B) es que tengan
el mismo orden y que cada uno de los elementos de una de ellas sea igual al
correspondiente de la otra. Esto es

aij = bij (i = 1, 2, ..., m; j = 1, 2, ..., n)

En otras palabras, dos matrices son iguales solo cuando una es copia de la
otra.

1.3.1. Operaciones con Matrices


Las matrices se han definido dentro del espacio vectorial que se ha llamado
el espacio vectorial Mmn de las matrices de tamao m n. Por tanto, las dos
primeras operaciones que son de inters son la suma y el producto por escalar.
Dichas operaciones deben dar como resultado otra matriz del mismo tamao.
Adems, para estas operaciones, ms adelante,(def 1.19) se definir la matriz
0mn tal que para cualquier matriz Amn , A + 0 = 0 + A = A y obviamente,
se tendr un escalar 1 tal que 1A = A

10
Definicin 1.15 (Suma de Matrices) Sean A = (aij ) y B = (bij ) dos ma-
trices del espacio vectorial Mmn , ambas de igual tamao m n. La suma (o
diferencia) de ellas, denotada como A B, es otra matriz C = (cij ) de orden
m n, en la cual cada elemento de C es la suma (o diferencia) de los elementos
correspondientes de A y B. Esto es, (cij ) = (aij + bij )


a11 a12 a1n b11 b12 b1n
a21 a22 a2n b21 b22 b2n

A= . .. .. .. ; B = .. .. .. ..
.. . . . . . . .
am1
am2 amn bm1 bm2 bmn

a11 + b11 a21 + b21 a1n + b1n
a21 + b21 a22 + b22 a2n + b2n

C =A+B = .. .. .. ..
. . . .
am1 + bm1 am2 + bm2 amn + bmn

Dos matrices del mismo rden se llaman conformes respecto de


la suma algebraica. La suma de matrices no est definida para
matrices no conformes.
Definicin 1.16 (Producto por Escalar) Sea A una matriz del espacio vec-
torial Mmn , y k k un escalar. El producto del escalar k por la matriz A, escrito
kA es la matriz C obtenida multiplicando cada entrada de A por k:

ka11 ka21 ka1n
ka21 ka22 ka2n

C = kA = . .. .. ..
.. . . .
kam1 kam2 kamn

Obsrvese que A + B y kA son tambin matrices de tamao m n. Adems


se define:
A = 1 A y A B = A + (B)
   
1 2 3 3 0 2
Ejemplo 1.4 Sean A = ,B = entonces
4 5 6 7 1 8
   
1 + 3 2 + 0 3 + 2 4 2 5
A+B = =
4 7 5 + 1 6 + 8 3 6 2
   
3x1 3x (2) 3x3 3 6 9
3A = =
3x4 3x5 3x (6) 12 15 18
     
2 4 6 9 0 6 7 4 0
2A 3B = + =
8 10 12 21 3 24 29 7 36

11
Proposicin 1.1 (Propiedades de la Suma y el Producto por Escalar)
Sea V el conjunto de todas las matrices m n sobre un campo k. En tal caso,
para matrices arbitrarias A, B, C, 0 V y escalares cualesquiera k1 , k2 k y los
valores 0, 1 k se cumple:

1. (A + B) + C = A + (B + C)
2. A + 0 = A
3. A + (A) = 0
4. A + B = B + A
5. k1 (A + B) = k1 A + k1 B
6. (k1 + k2 )A = k1 A + k2 A
7. (k1 k2 )A = k1 (k2 A)
8. 1 A = A y 0 A = 0

Estas propiedades son de esperarse, dado que las matrices pertenecen a un


espacio vectorial, y k es un escalar.
Si se supone que los vectores en Rn se representan por vectores fila se tiene

   
u = a1 a2 an v = b1 b2 bn

Entonces, vistos como matrices, la suma u + v y el producto ku son las


siguientes:

   
u + v = a1 + b1 a2 + b2 an + bn ku = ka1 ka2 kan

Definicin 1.17 (Producto de vector fila por vector columna) Sea A =


(ai ) un vector fila, y B = (bi ) un vector columna con el mismo nmero de ele-
mentos. El producto de estos vectores A y B, escrito A B es un vector c de
tamao 1 1 definido como:


b1
 
b2 n
a1 a2 an . = a1 b1 + a2 b2 + + an bn = ak bk = c
..
k=1
bn

12
Ntese que para este caso, el producto de vectores se puede ver como un
escalar c k. El producto A B no est definido si los vectores A y B tienen
diferente cantidad de elementos.


  3
Ejemplo 1.5 8 4 5 2 = 8 3 + (4) 2 + 5 (1) = 24 8 5 = 11
1

Ahora se puede ampliar este procedimiento para realizar el producto de


matrices de tamao m n en general.

Definicin 1.18 (Producto de Matrices) Sean A = (aij ) y B = (bij ) ma-


trices tales que el nmero de las columnas de A coincide con el mismo nmero
de filas de B; esto es, A es una matriz m p y B es una matriz p n. Entonces
el producto de las dos matrices AB, en este orden, es otra matriz C de tamao
m n cuya entrada ij se obtiene multiplicando la fila i-sima Ai de A por la
columna j-sima Bj de B (cada elemento de la fila se multiplica por el corre-
spondiente de la columna y a continuacin se suman los productos obtenidos
segn la definicin 1.17):

A1 B 1 A1 B 2 A1 B n
A2 B 1 A1 B 2 A1 B n

C = Amp Bpn = . .. .. ..
.. . . .
Am B 1 Am B 2 Am B n mn

p

Donde cij = ai1 b1j + ai2 b2j + + aip bpj = aik bkj para todo i, j en C.
k=1
Se observa que en general, el producto de matrices no es conmutativo.
Dos matrices en las cuales el nmero de columnas de A es igual al nmero
de filas de B se llaman matrices conformes respecto de la multiplicacin.
Se debe tener en cuenta el hecho de que el producto AB slo est definido para
matrices conformes. Esto es, no est definido si A es una matriz m p y B una
matriz q n con p = q.
    
r s a1 a2 a3 ra1 + sb1 ra2 + sb2 ra3 + sb3
Ejemplo 1.6 =
t u b1 b2 b3 ta1 + ub1 ta2 + ub2 ta3 + ub3
      
1 2 1 1 1 1 + 2x0 1 1 + 2 2 1 5
= =
3 4 0 2 31+40 31+42 3 11
      
1 1 1 2 11+13 12+14 4 6
= =
0 2 3 4 01+23 02+24 6 8

13
Lo anterior muestra que el producto de matrices no es conmutativo, es decir
los productos AB y BA de matrices no son necesariamente iguales.

Proposicin 1.2 (Propiedades del Producto de Matrices) Sean A, B, C


matrices conformes para la multiplicacin o para la suma, segn corresponda, y
k un escalar. Entonces, se cumplen las siguientes propiedades:

1. (AB)C = A(BC)
2. A(B + C) = AB + AC
3. (B + C)A = BA + CA
4. k(AB) = (kA)B = A(kB)
5. 0A = 0 y B0 = 0 donde 0 es la matriz nula conforme

1.3.2. Matrices Especiales.


Definicin 1.19 (Matriz Nula) Una matriz que tenga nulos todos sus ele-
mentos se llama matriz nula o matriz cero y se denota por 0m,n . En el caso
de que una matriz A sea nula y no haya lugar a confusiones con respecto a su
orden, se escribe simplemente A = 0 en lugar de la disposicin m n con sus
elementos iguales a cero.
 
0 0 0
Ejemplo 1.7 La matriz cero de tamao 2 3 es: 023 =
0 0 0

Para cualquier matriz Am,n y 0m,n , se tiene que A + 0 = 0 + A = A. Esto es


de esperarse, ya que 0 cumple la funcin de vector nulo en el espacio vectorial
Mmn .

Definicin 1.20 (Matriz Traspuesta) La matriz traspuesta de una matriz


A de orden m n es la matriz A de orden n m llamada la traspuesta de
A que se obtiene permutando las filas por las columnas. Por tanto, el elemento
aij de A corresponde al elemento aji de A

  1 4
1 2 3
Ejemplo 1.8 La traspuesta de la matriz A = es A = 2 5
4 5 6
3 6

Obsrvese que el elemento aij de A (fila i, columna j) es aji de A (fila j,


columna i).

Proposicin 1.3 Sean A y B, respectivamente, las traspuestas de las matrices


A y B, y sea k k un escalar; en estas condiciones se cumple que:

1. (A)  = A

14
2. (kA)  = kA
3. (A + B) = A + B
4. (A B) = B A

4 3 6 7 8 9
Ejemplo 1.9 A = 2 5 1 , B = 3 2 1
1 0 3 5 6 4

11 5 15 11 1 4
A + B = 1 7 0 , (A + B)  = 5 7 6
4 6 1 15 0 1

4 2 1 7 3 5 11 1 4
A = 3 5 0 , B = 8 2 6 , A + B = 5 7 6
6 1 3 9 1 4 15 0 1

11 1 4 11 1 4
Por tanto (A + B)  = 5 7 6 = A + B = 5 7 6
15 0 1 15 0 1

Matrices Cuadradas. Dentro de las matrices ms utilizadas en lgebra, se


encuentran las matrices cuadradas.

Definicin 1.21 (Matriz Cuadrada) Una matriz A se llama matriz cuadra-


da si el nmero de filas es igual al nmero columnas. Es decir n = m. Se dice
que una matriz cuadrada n n es de orden n y se le asigna el nombre de matriz
n-cuadrada:

a11 a12 a1n
a21 a22 a2n

.. .. ..
. . .
an1 an2 ann

Las matrices cuadradas son de especial importancia. Es en estas matrices


donde surge el concepto de determinante y de traza. Adems poseen algunas
propiedades interesantes, por ejemplo toda matriz cuadrada se puede descom-
poner en la suma de una matriz simtrica y una matriz antisimtrica. Adems,
si A y B son matrices del mismo orden, entonces se pueden sumar entre s y
sus productos son vlidos en ambos sentidos, esto es, tanto AB como BA estn
definidos.

15
Definicin 1.22 (Traza de una Matriz Cuadrada) Sea A una matriz
cuadrada de orden n. La diagonal principal es la lnea formada por los elementos
a11 , a22 , ..., ann . La suma de los elementos de la diagonal principal de una
nmatriz
cuadrada A, se llama traza de la misma, y se denota como tr(A) = aii .
i=1

1 2 3 2 5 1
Ejemplo 1.10 Sean A = 4 4 4 B = 0 3 2
5 6 7 1 2 4

Entonces A y B son matrices cuadradas de orden 3, y sus trazas son tr(A) =


4 y tr(B) = 1.

Definicin 1.23 (Matriz Triangular) Una matriz cuadrada A cuyos elemen-


tos aij = 0 para i j se llama triangular superior; una matriz cuadrada cuyos
elementos aij = 0 para i j se denomina triangular inferior. As, pues

a11 a12 a13 a1n
0 a22 a23 a2n

0 0 a33 a3n
es una matriz triangular superior
.. .. .. .. ..
. . . . .
0 0 0 ann


a11 0 0 0
a21 a22 0 0

a31 a32 a33 0
es una matriz triangular inferior.
.. .. .. .. ..
. . . . .
an1 an2 an3 ann

Definicin 1.24 (Matriz Diagonal) La matriz D que es triangular supe-


rior e inferior, se llama matriz diagonal. Se representa por:

a11 0 0 0
0 a22 0 0
 


D = diag a11 a22 a33 ann = 0 0 a33 0
.. .. .. .. ..
. . . . .
0 0 0 ann

El producto AB de una matriz diagonal cuadrada de orden m,


A = diag (a11 , a22 , ...amm ) por otra matriz cualquiera B de orden n m se
obtiene multiplicando la primera fila de B por a11 , la segunda de B por a22 y
as sucesivamente. Esto es:

16

a11 0 0 b11 b12 b1n
0 a22 0 b21 b22 b2n

.. .. .. .. .. .. .. ..
. . . . . . . .
0 0 ann bn1 bn2 b3n

a11 b11 a11 b12 a11 b1n
a22 b21 a22 b22 a22 b2n

= .. .. .. ..
. . . .
amm bm1 amm bm2 amm bmn

Definicin 1.25 (Matriz Escalar y Matriz Unidad) Si en una matriz dia-


gonal D se verifica que a11 = a22 = . . . = ann = k, entonces D recibe el nombre
de matriz escalar. Si adems k = 1, la matriz se denomina unidad o identica
y se representa por In .

Las matrices unitarias tienen algunas de las propiedades del entero 1. En


todo caso, se verifica que:
Im Amn = Amn In = Im Amn In =A

  1 0 0
1 0
Ejemplo 1.11 I2 = I3 = 0 1 0
0 1
0 0 1

Definicin 1.26 (Matrices Conmutativas y Anticonmutativas) Si A y B


son dos matrices cuadradas y se verifica que AB = BA dichas matrices se lla-
man permutables, conmutativas o que conmutan. Es fcil demostrar que si
A es una matriz cuadrada de orden n, conmuta consigo misma y tambin con
In .
En las condiciones anteriores, si A y B son tales que AB = BA, las
matrices A y B se llaman antipermutables o anticonmutativas
   
a b c d
Ejemplo 1.12 Demostrar que las matrices y son permutables
b a d c

para todos los valores de a, b, c, d. Esto se deduce de:


     
a b c d ac + bd ad + bd
= =
b a d c bc + ad bc + ad
     
ca + db da + db c d a b
=
cb + da cb + da d c b a

17
Definicin 1.27 (Matriz Idempotente) Una matriz A de manera que
Ak+1 = A, se llama matriz idempotente de grado k la matriz A. Al grado
k tambin se le llama periodo.

2 2 4
Ejemplo 1.13 A = 1 3 4 Verificar si la matriz A es idempotente:
1 2 3

2 2 4 2 2 4 2 2 4
A2 = 1 3 4 1 3 4 = 1 3 4 =A
1 2 3 1 2 3 1 2 3

Definicin 1.28 (Matriz Nilpotente) Una matriz A tal que AP = 0, siendo


p un nmero entero y positivo, se llama nilpotente. Si p es el menor nmero
entero y positivo para la cual AP = 0, la matriz A se llama nilpotente de
ndice p.

1 1 3
Ejemplo 1.14 A = 5 2 6 Demostrar que A es una matriz nilpotente
2 1 3
de ndice 3.

1 1 3 1 1 3 0 0 0
A2 = 5 2 6 5 2 6 = 3 3 9
2 1 3 2 1 3 1 1 3

0 0 0 1 1 3
A3 = A2 A = 3 3 9 5 2 6 =0
1 1 3 2 1 3

Definicin 1.29 (Matriz Involutiva) Una matriz cuadrada A tal que A2 = I


se llama involutiva. Una matriz unidad, por ejemplo, es involutiva. La inversa
de una matriz involutiva es ella misma.

Proposicin 1.4 La condicin necesaria y suficiente para que una matriz A


sea involutiva es que (I A)(I + A) = 0

Demostracin. Supngase (I A)(I + A) = I A2 = 0; luego A2 = I y A


es involutiva.
Supngase que A es involutiva; entonces A2 = I y (I A)(I + A) =
I A2 = I I = 0

Definicin 1.30 (Matriz Simtrica) Una matriz cuadrada A tal que


A = A se llama simtrica. Por tanto, en una matriz cuadrada A = [aij ]simtrica
se verifica que aij = aji para todos los valores de i y de j.

18

1 2 3
Ejemplo 1.15 A = 2 4 5 es simtrica y tambin kA para cualquier
3 5 6
kk

Si A
es una matriz cuadrada
de orden n,
la matriz A + A es simtrica.
1 2 3 1 2 3
A = 2 4 5 , A = 2 4 5 entonces
3 5 6 3 5 6

2 4 6
A + A = 4 8 10
6 10 12

Definicin 1.31 (Matriz Antisimtrica) Una matriz cuadrada A tal que


A = A se llama hemisimtrica o antisimtrica. Por tanto, en una matriz
cuadrada A hemisimtrica se verifica que aij = aji para todos los valores de i
y de j . Evidentemente, los elementos de la diagonal principal deben ser nulos.

0 2 3 0 2 3 0 2 3
Ejemplo 1.16 A = 2 0 4 A = 2 0 4 = A = 2 0 4
3 4 0 3 4 0 3 4 0

La anterior es una matriz hemisimtrica, as como kA, cualquiera que sea el


escalar k k.
Proposicin 1.5 Toda matriz cuadrada A se puede descomponer en la
suma de una matriz simtrica B = 12 (A + A) y otra matriz antisimtrica
C = 12 (A A).
La inversa de una matriz juega un papl muy importante en el desarrollo
de diferentes procedimientos algebraicos y de clculo matricial. As como en R ,
para todo a R con a = 0, existe un b R que es el inverso multiplicativo, para
el caso de una matriz A anlogamente se plantea la posibilidad de que exista
una matriz B conformable, tal que AB = I.
Definicin 1.32 (Matriz Inversa) Sean A y B dos matrices cuadradas del
mismo orden, para las cuales se cumple que AB = BA = I. A la matriz B se
llama inversa de A y se escribe B = A1 (B igual a inversa de A), Recproca-
mente, la matriz A es la inversa de B, y se puede escribir A = B 1 .

1 2 3 6 2 3 1 0 0
Ejemplo 1.17 Como 1 3 3 1 1 0 = 0 1 0 = I
1 2 4 1 0 1 0 0 1

Cada una de las matrices del producto es inversa de la otra.

19
No todas las matrices poseen inversa. Se puede demostrar, sin embargo, que
si A posee matriz inversa, sta es nica.

Proposicin 1.6 (Propiedades de la Inversa) La inversa de una matriz


cumple con las siguientes propiedades

1. Si A es una matriz que tiene inversa, sta es nica


Demostracin. Sean A, B, C tres matrices cuadradas de forma que
AB = BA = I y CA = AC = I. En estas condiciones, (CA)B = C(AB)
y por tanto B = C. En otra forma, B = C = A1 es la nica inversa de
A.
2. (AB)1 = B 1 A1
Demostracin. Por definicin (AB)1 (AB) = (AB)(AB)1 = I. Ahora
bien:
(B 1 A1 )AB = B 1 (A1 A)B = B 1 IB = B 1 B = I
AB(B 1 A1 ) = A(BB 1 )A1 = AA1 = I
Como (AB)1 es nica, luego (AB)1 = B 1 A1

Una matriz que posee inversa se llama invertible o no singular.

Definicin 1.33 (Matriz Ortogonal) Se dice que una matriz A definida so-
bre un cuerpo k, es ortogonal si AAT = AT A = I. Una matriz ortogonal A es
necesariamente cuadrada e invertible, con una inversa A1 = AT


a1 a2 a3
Sea A = b1 b2 b3
c1 c2 c3

Si A es ortogonal, entonces se debe cumplir:



a1 a2 a3 a1 b1 c1 1 0 0
AAT = b1 b2 b3 a2 b2 c2 = 0 1 0
c1 c2 c3 a3 b3 c3 0 0 1

Esto proporciona el siguiente conjunto de ecuaciones:

a21 + a22 + a23 = 1 a1 b1 + a2 b2 + a3 b3 = 0 a1 c1 + a2 c2 + a3 c3 = 0


b1 a1 + b2 a2 + b3 a3 = 0 b21 + b22 + b23 = 1 b1 c1 + b2 c2 + b3 c3 = 0
c1 a1 + c2 a2 + c3 a3 = 0 c1 b1 + c1 b1 + c1 b1 = 0 c21 + c22 + c23 = 1

o en otras palabras:

u1 u1 = 1 u1 u2 = 0 u1 u3 = 0
u2 u1 = 0 u2 u2 = 1 u2 u3 = 0
u3 u1 = 0 u3 u2 = 0 u3 u3 = 1

20
donde u1 = (a1 , a2 , a3 ) , u2 = (b1 , b2 , b3 ) , u3 = (c1 , c2 , c3 ) son las filas de A.
As las filas u1 , u2 y u3 son ortogonales entre s y tienen longitudes unidad o,
dicho de otro modo, forman un conjunto ortonormal de vectores
 
Definicin 1.34 (Matriz Escalonada) Sean  A 1 A 2 A S matri-
ces cuadradas de rdenes m1 m2 mS , respectivamente.

A1 0 0
0 A2 0  

La generalizacin A = . .. .. .. = diag A1 A2 AS
.. . . .
0 0 AS

de la matriz diagonal se llama suma directa o matriz escalonada de las


matrices .Ai

  1 2 1
  1 2
Ejemplo 1.18 Sean A1 = 2 , A2 = , A3 = 2 0 3
3 4
4 1 2

La suma directa de A1, A2 , A3 es la matriz escalonada:



2 0 0 0 0 0
0 1 2 0 0 0

0 3 4 0 0 0
diag (A1, A2 , A3 ) =
0

0 0 1 2 1
0 0 0 2 0 3
0 0 0 0 1 2

Tambien se puede ver a la matriz escalonada como una matriz particionada o


una matriz de bloques en la cual las submatrices no nulas estn sobre la diagonal
.

Definicin 1.35 (Determinante de una Matriz Cuadrada) El de-


terminante de una matriz cuadrada se puede definir recursivamente mediante
desarrollos por columnas o por filas. Sea A = (aij ) una matriz n n, donde i
es el ndice de la fila y j es el ndice de la columna. Se nota por Aij la matriz
(n 1) (n 1) que se obtiene al quitar la fila i y la columna j de la matriz
A. Entonces
n
Desarrollo por la fila i : detA = |A| = j=1 (1)
i+j
aij det(Aij).
n
Desarrollo por la columna j : detA = |A| = i=1 (1)
i+j
aij det(Aij).

Aplicando repetidamente estas frmulas, se va reduciendo el orden de las


determinantes hasta llegar a determinantes de rdenes uno, dos o tres que se
pueden calcular usando las reglas de Sarrus:

21
|a11 | = a11
 
a11 a12
= a11 a22 a12 a21
a21 a22

a11 a12 a13
a21 a22 a23 = a11 a22 a33 + a12 a23 a31 + a21 a32 a13
a31 a32 a33

a13 a22 a31 a23 a32 a11 a21 a12 a33

El valor del determinante no depende de las filas o columnas escogidas,


mientras que la dificultad del clculo probablemente s.

Proposicin 1.7 (Propiedades del Determinante) Las principales propie-


dades de los determinantes de matrices cuadradas son las siguientes.

1. Si una columna es cero, el determinante es cero.


2. Si hay dos columnas iguales, el determinante es cero.
3. Si las columnas son ld, el determinante es cero.
4. El determinante cambia de signo al permutar dos columnas.
5. El determinante no cambia si a una columna se le suma una columna de
las restantes.
6. El determinante es lineal respecto a cada columna:
det(..., ci + ci , ...) = det(..., ci , ...) + det(..., ci , ...).
det(..., ci , ...) = det(..., ci , ...).
7. Las filas tambin cumplen las anteriores propiedades.
8. det(A) = n det(A).
9. El determinante del producto es igual al producto de determinantes:
det(AB) = detAdetB.
10. Una matriz A es invertible si y solo si detA = 0. Adems, det(A1 ) =
(detA)1 .
11. Una matriz y su traspuesta tienen el mismo determinante: det(AT ) =
detA.
12. El determinante de una matriz triangular es igual al producto de los ele-
mentos diagonales.
13. El determinante de una matriz triangular por bloques es igual al producto
de los determinantes de los bloques diagonales.

22
2. Derivacin.
En esta seccin se exponen los conceptos fundamentales de la derivacin de
funciones reales, y algunas de las reglas principales. Se consideran principal-
mente las funciones algebraicas, y al final de la seccin se exponen las frmulas
de algunas funciones trigonomtricas y logartmicas que podrn ser utilizadas
posteriormente.

Definicin 2.1 (Pendiente) Se define la pendiente, en el punto donde x = a,


de la tangente a una curva cuya ecuacin es y = f (x), como

f (a h) f (a)
m = lmh0
h
De hecho, los lmites con esta forma surgen siempre al calcular una rapidez de
cambio en cualquier ciencia o rama de la ingeniera, como la rapidez de reaccin
en qumica o un costo marginal en economa. Dado que este tipo de lmite se
presenta con suma frecuencia, se le da un nombre y una notacin especial.

Definicin 2.2 (Derivada) La derivada de la funcin f en un nmero a rep-


resentada por f  (a) es

f (a + h) f (a)
f  (a) = lmh0 dado el caso de que el lmite exista.
h
Si se escribe x = a + h, entonces h = x a y h 0 si y solo si x
a; por consiguiente de acuerdo con la determinacin de las tangentes, un modo
equivalente de enunciar la definicin de derivada, es

f (x) f (a)
f  (a) = lmxa
xa

Ejemplo 2.1 Determinar la derivada de la funcin f (x) = x2 8x + 9 en el


nmero a.

f (a + h) f (a)
f  (a) lmh0
h
[(a+h)2 8(a+h)+9][a2 8a+9]
f  (a) lmh0 h
2 2 2
f  (a) lmh0 a +2ah+h 8a8h+9a
h
+8a9

2ah+h2 8h
f  (a) lmh0 h = lmh0 (2a + h 8)
f  (a) = 2a 8

El proceso de calcular la derivada de una funcin se llama derivacin.

23
Figura 1:

Notacin 2.1 (Derivada) Si se emplea la notacin tradicional y = f (x) para


indicar que la variable independiente es x y que la dependiente es y , hay otras
notaciones alternativas comunes de la derivada:
dy df d
f  (x) = y = = = f (x) = Df (x) = Dx f (x)
dx dx dx
d
Los smbolos D y se denominan operadores de diferenciacin porque in-
dx
dican la operacin de diferenciacin, que es el proceso de calcular una derivada.
d
El smbolo fue introducido por Leibniz y no se debe considerar como una
dx
relacin, solo es un smbolo de f (x). No obstante, es una notacin muy til y
sugerente, en especial cuando se usa con la notacin de incrementos.

2.0.3. Interpretacin de la derivada como la pendiente de una tan-


gente.
Si se parte de la definicin de que la lnea tangente o recta tangente a la curva
y = f (x) en el punto P (a, f (a)) es la lnea que pasa por P cuya pendiente es
f (x) f (a)
m = lmxa siempre que exista ese lmite
xa

Como, segn la definicin 2.2 es la misma que la derivada f  (a) ahora se


puede decir que la recta tangente a y = f (x) en (a, f (a)) es la lnea que pasa
por (a, f (a)) cuya pendiente es igual a f  (a) la derivada de f en a As, la
interpretacin geomtrica de una derivada (como se tiene en la definicin 2.2)
es lo que registra la figura ??.

24
f (a + h) f (a) f (x) f (a)
f  (a) = lmh0 , b) f  (a) = lmxa
h xa
= pendiente de tangente en P, =pendiente de tangente en P

Al emplear la forma punto-pendiente de la ecuacin de la recta, se llega a:


Si existe f  (a) entonces una ecuacin de la recta tangente a la curva y = f (x)
en el punto (a, f (a)) es la siguiente:

y f (a) = f (a) (x a)

Ejemplo 2.2 Deducir una ecuacin de la tangente a la parbola y = x2 8x+9


en el punto (3, 6).
De acuerdo con el ejemplo anterior se sabe que la derivada de f (x) = x2
8x + 9, en el nmero a es f  (a) = 2a 8 . Entonces la pendiente de la tangente
en (3, 6) es f (3) = 2 (3) 8 = 2. As, la ecuacin de la recta tangente
y (6) = (2) (x 3) o sea y = 2x.

2.0.4. Reglas de Derivacion.


Una funcin se dice diferenciable en un intervalo si lo es en cada uno de sus
puntos. Las funciones del clculo elemental son diferenciables, excepto posible-
mente en puntos aislados, en sus intervalos de definicin.
Si siempre fuera necesario determinar las derivadas directamente a partir
de la definicin, las operaciones seran tediosas y se requerira mucho ingenio
para evaluar algunos lmites. Por fortuna, se han desarrollado varias reglas para
hallar derivadas que obvian ese proceso y simplifican mucho la diferenciacin.
Las reglas siguientes suponen que se trabaja con funciones diferenciables.

Regla 2.1 (Derivada de una Constante) Si f es una funcin constante,


f (x) = c, entonces f  (x) = 0

Este resultado es geomtricamente evidente porque la grfica de una fun-


cin constante es una recta horizontal con pendiente 0; la demostracin formal
tambin es simple.

f (x + h) f (x) cc
f  (x) = lmh0 = lmh0 = lmh0 0 = 0
h h
d
En notacin de Leibniz, se escribe: c=0
dx

Regla 2.2 (Regla de Potencias) Si f (x) = xn en donde n es un entero po-


sitivo, f (x) = nxn1
En la notacin de Leibniz la regla de potencias se expresa como: dx
d
(xn ) =
n1
nx

25
Demostracin. La frmula

xn an = (x a) xn1 + xn2 a + . . . + xan2 + an1

Se comprueba multiplicando el lado derecho, o sumando el segundo factor


como una serie geomtrica. As, si se usa la ecuacin 2.2 para f  (a) y despus
se utiliza la expresin de arriba, se obtiene:

f (x) f (a) xn an
f  (a) = lmxa = lmxa
xa xa

f  (a) = lmxa xn1 + xn2 a + ... + xan2 + an1

f  (a) = an1 + an2 + ... + xaan2 + an1

Demostracin. f (a) = nan1

f (x + h) f (x) (x + h)n xn
f  (x) = lmh0 = lmh0
h h

Al desarrollar (x + h)n de acuerdo con el teorema del binomio, se llega a:


 
n(n1) n2 2
xn + nxn1 h + 2 x h + ... + nxhn1 + hn xn
f  (x) = lmh0
h
 
n(n1) n2
 (x) = lmh0 nxn1 + 2 x h + ... + nxhn2 + hn1

f  (x) = nxn1

Por cuanto todos los trminos excepto el primero, tienen a h como factor;
por consiguiente, tienden a 0.

Ejemplo 2.3 Los siguientes ejemplos

dy
Si y = t5 entonces dt = 5t4

Du (um ) = mum1

Si y = x20 , entonces y = 20x19

d
6

dr r = 6r5

26
 1
d
x 2 = 12 x( 2 )1 =
1
d 1
dx x =
dx 2 x

1
Sea y =
3 2
x

dy d  2  2 2 5
x 3 = x( 3 )1 = x 3
2
Entonces =
dx dx 3 3


Derivar la funcin f (t) = t (1 t) .

Aplicando la regla del producto se tiene:


d d

f  (t) = t dt (1 t) + (1 t) dt t

1
f  (t) = t (1) + (1 t) 21 t 2

1t 13t
f  (t) = t +
2 t
=
2 t

Si se utilizan primero las leyes de los exponentes, despus se podr proceder


directamente, sin recurrir a la regla del producto.
1 3
f (t) = t t t = t 2 t 2

1 1
f  (t) = 12 t 2 32 t 2 que equivale a la respuesta en la solucin anterior

Las frmulas de diferenciacin que siguen indican que la derivada de una


constante multiplicada por una funcin es igual a la constante multiplicada por
la derivada de la funcin, y que la derivada de una suma (o resta) de funciones
es igual a la suma (o resta) de las derivadas, siempre y cuando las derivadas
existan.

Para definir las siguientes reglas, se supone que c es una constante y que
tanto f (x) como g (x) existen.

Regla 2.3 Si g (x) = cf (x), entonces f  (x) existe y g (x) = cf (x)

d df
Tambin se escribe: (cf ) = c
dx dx

27
f (x + h) f (x)
Demostracin. g (x) = lmh0
h
cf (x + h) cf (x)
= lmh0
h
 
f (x + h) f (x)
g (x) = lmh0 c
h

f (x + h) f (x)
g (x) = c lmh0
h

g (x) = cf  (x)

Regla 2.4 Si H (x) = f (x) g (x) , entonces H (x) existe, y


H (x) = f  (x) g (x)
d df dg
Tambin se escribe: (f g) =
dx dx dx
Este resultado se puede ampliar para la suma de cualquier nmero de fun-
ciones.
H (x_h) H (x)
Demostracin. H (x) = lmh0
h

[f (x + h) g (x + h)] [f (x) g (x)]


H (x) = lmh0
h
 
f (x + h) f (x) g (x + h) g (x)
H (x) = lmh0
h h

f (x + h) f (x) g (x + h) g (x)
H (x) = lmh0 lmh0
h h

H (x) = f  (x) g (x)

De manera resumida, las dos reglas anteriores se pueden expresar como:


(cf )  = cf
(f g)  = f g
8

Ejemplo 2.4 dx d
x + 12x5 4x4 + 10x3 6x + 5

d
8
d
5
d
4
d
3
d d
= dx x + 12 dx x 4 dx x + 10 dx x 6 dx (x) + dx (5)


= 8x7 + 12 5x4 4 4x3 + 10 3x2 6 (1) + 0

= 8x7 + 60x4 16x3 + 30x2 6

28
Ejemplo 2.5 Si f (x) = x4 x3 + x2 x + 1, deducir la ecuacin de la tangente
a la grfica de f en el punto (1, 1).
La pendiente de f (1) que se calculara como sigue:

f  (x) = 4x3 3x2 + 2x 1

f  (1) = 4 3 + 2 1 = 2

Por tanto, la ecuacin de la tangente en (1, 1) es


y 1 = 2 (x 1) o bien 2x y 1 = 0

A continuacin se necesita una frmula para la derivada de un producto de


dos funciones; es posible sentirse inclinado a suponer, como lo hizo Leibniz hace
tres siglos, que la derivada de un producto es igual al producto de las derivadas;
pero se puede ver que tal hiptesis no es correcta si se considera un ejemplo
en particular. Sean f (x) = x y g (x) = x2 . Entonces, la regla de potencias
establece que f (x) = 1 y g (x) = 2x y se tendra f  g = 2x. Sin embargo,
si se toma h = f g = x3 y, por consiguiente, hl = (f g)  = 3x2 . Entonces
f  g . Leibniz descubri la frmula correcta, la cual se llama regla
(f g)  =
del producto.

Regla 2.5 (Regla del Producto) Si H (x) = f (x) g (x) y tanto f (x) como
g (x) existen a la vez, entonces

H (x) = f (x) g (x) + f  (x) g (x)

d dg df
Tambin se puede expresar como: (f g) = f +g
dx dx dx

y de manera abreviada: (f g)  = f g + fg

H (x + h) H (x)
Demostracin. H (x) = lmh0
h

f (x + h) g (x + h) f (x) g (x)
H (x) = lmh0
h
Para evaluar este lmite, se van a separar las funciones f y g sumando y
restando el trmino f (x + h) g (x) en el numerador
H (x) =
f (x + h) g (x + h) f (x + h) g (x) + f (x + h) g (x) f (x) g (x)
= lmh0
h
 
g (x + h) g (x) f (x + h) f (x)
= lmh0 f (x + h) + g (x)
h h

29
g (x + h) g (x)
= lmh0 f (x + h) lmh0 +
h

f (x + h) f (x)
+ lmh0 g (x) lmh0
h

H (x) = f (x) g (x) + f  (x) g (x)

Ejemplo 2.6 Determinar F  (x) si F (x) = 6x3 7x4

Segn la regla del producto:



d 4
4
d 3

F  (x) = 6x3
dx 7x
+
7x
dx
6x
F  (x) = 6x3 28x3 + 7x4 18x2
F  (x) = 168x6 + 126x6 = 294x6

Se podra comprobar la respuesta a este ejemplo en forma directa multipli-


cando primero los factores:


F (x) = 6x3 7x4 = 42x7 F  (x) = 42 7x6 = 294x6

(x)
Regla 2.6 (Regla del Cociente) Si F (x) = fg(x) y existen f (x) y g (x) a
g (x) f  (x) f (x) g (x)
la vez, entonces existe F  (x) y F  (x) =
[g (x)]2
  d d
d f (x) g (x) dx f (x) f (x) dx g (x)
En la notacin de Leibniz: =
dx g (x) [g (x)]2
 
f gf fg
y de manera abreviada: =
g g2

f (x+h) f (x)
F (x + h) F (x) g(x+h) g(x)
Demostracin. F  (x) lmh0 = lmh0
h h

f (x + h) g (x) f (x) g (x + h)
F  (x) lmh0
hg (x + h) g (x)

Para separar f y g en esta expresin se suma y resta el trmino f (x) g (x)


al numerador:

f (x + h) g (x) f (x) g (x) + f (x) g (x) f (x) g (x + h)


F  (x) lmh0
hg (x + h) g (x)

30
g (x) f (x+h)f(x)
h f (x) g(x+h)g(x)
h
F  (x) lmh0
g (x + h) g (x)

lmh0 g (x) lmh0 f (x+h)f


h
(x)
lmh0 f (x) lmh0 g(x+h)g(x)
h
F  (x)
lmh0 g (x + h) lmh0 g (x)

g (x) f (x) f (x) g (x)


F  (x) =
[g (x)]2

En palabras, la derivada de un cociente es igual al denominador multiplicado


por la derivada del numerador, menos el numerador multiplicado por la derivada
del denominador, y todo ello se divide entre el cuadrado del denominador.
x2 x2
Ejemplo 2.7 Sea y = x3 +6

(x3 +6)D(x2 +x2)(x2 +x2)D(x3 +6)


Entonces y = (x3 +6)2

(x3 +6)(2x+1)(x2 +x2)(3x2 )


y = (x3 +6)2

(2x4 +x3 +12x+6)(3x4 +3x3 6x2 )


y = (x3 +6)2

x4 2x3 +6x2 +12x+6


y = (x3 +6)2

Tambin se puede emplear la regla del cociente para ampliar la regla de


potencias al caso en que el exponente es un entero negativo.

Regla 2.7 Si f (x) = xn , donde n es un entero positivo, f  (x) = nxn1


1

Demostracin. f (x) = dx d d
(xn ) = dx xn

xn D(1)1D(xn )
f  (x) = (xn )2

nxn1
f  (x) = x2n = nxn12n = nxn1

1
Ejemplo 2.8 Si y = x

dy
1

Entonces, dx = d
dx x = x2 = x12

6
3

Ejemplo 2.9 d
dt t3
d
= 6 dt t = 6 (3) t4 = 18
t4

31

Ejemplo 2.10 Derivar la funcin f (t) = t (1 t) Aplicando la regla del pro-
ducto se tiene:
d d

f  (t) = t dt (1 t) + (1 t) dt t
1
f  (t) = t (1) + (1 t) 12 t 2
1t 13t
f  (t) = t +
2 t
=
2 t

Si se utilizan primero las leyes de los exponentes, despus se podr proceder


directamente, sin recurrir a la regla del producto.
1 3
f (t) = t t t = t2 t2
1 1
f  (t) = 12 t 2 32 t 2 que equivale a la respuesta en la solucin anterior

Ejemplo 2.11 En qu puntos de la hiprbola xy = 12 la tangente es paralela a


la recta 3x + y = 0?
Como xy = 12 se puede escribir en la forma y = 12
x

dy d
1

12
dx = 12 dy x = 12 x2 = x2

Sea a la abscisa de uno de los puntos en cuestin. Entonces, la pendiente de


la tangente en ese punto es 12
a2 . Esa tangente ser paralela a la recta 3x +y = 0
o y = 3x, si tiene la misma pendiente, que es 3. Al igualar las pendientes se
llega a a122 = 3 , o sea a2 = 4 , o sea a = 2 Por consiguiente, los puntos
buscados son(2, 6) y (2, 6).

Regla 2.8 (Regla de la Cadena) Sean f, g dos funciones. Si existen a la vez


las derivadas g y f y si H = f g es la funcin compuesta definida por
H (x) = f (g (x)) , entonces H(x) existe y est dada por el producto H (x) =
f (g (x)) g (x)

En la notacin de Leibnitz, si y = f (u) y u = g(x) son dos funciones


diferenciables, entonces

dy dy du
=
dx du dx

Demostracin. Se desarrollar mediante el examen de dos casos.


du
dx = 0
Aqu u = 0 si x es suficientemente pequea (porque si no du/dx sera
0)pero en este caso se puede dividir entre y multiplicar por u en

32
dy y
1. dx = lmx0 x

por tanto

dy y u
dx = lmx0 u x

dy y u
dx = lmx0 u lmx0 x u 0 cuando x 0
porque g es contnua

dy y u
dx = lmu0 u lmx0 x

dy dy du
dx = du dx

2. du
dx =0
Aqu u = 0 para algunos casos de x, y u = 0 para otros valores
de x. Si se tiene x 0 pasando por valores tales que u = 0 ,
podemos escribir

y y u dy du dy
x = u x du dx = du 0=0

Si x 0 pasando por valores tales que u = 0 , entonces\


y = f (u + u) f (u) = f (u) f (u) = 0

y
y as x =0

y
En ambos casos x 0,

dy dy du
y entonces dx =0= du dx

En estas circunstancias se comprueba la regla de la cadena, porque ambos


lados son 0.

2.0.5. Derivacin Parcial


Los casos expuestos anteriormente se aplican para funciones de una sola
variable. Cuando se trabaja con funciones de varias variables f (x, y, z, ...) el
proceso es similar, teniendo en cuenta que se puede derivar de manera separada
la funcin f con respecto a cada una de sus variables independientes. Para
simplificar la presentacin, se considerar en las lneas siguientes el caso de una
funcin de dos variables, pero cada caso se puede llevar por analoga a funciones
de tres o ms variables.

33
Definicin 2.3 Sea z = f (x, y) una funcin de dos variables independientes
x, y. Entonces, las derivadas parciales de z son las funciones fx y fy que se
definen como:

f (x + h, y) f (x, y)
fx (x, y) = lm
h0 h
f (x, y + h) f (x, y)
fy (x, y) = lm
h0 h
Donde fx se denomina la primera derivada parcial de f(x, y) con respecto a
x, y fy se denomina la primera derivada parcial de f(x, y) con respecto a y.

Por tanto, fx permite calcular la variacin de f a medida que cambia x, con


todas las dems variables fijas, y equivalentemente para fy .

Notacin 2.2 Sea z = f(x, y). Entonces, las derivadas parciales de esta fun-
cin con respecto a x y con respecto a y son:
f z
fx (x, y) = fx = = f (x, y) = = f1 = D1 f = Dx f
x x x
f z
fy (x, y) = fy = = f(x, y) = = f2 = D2 f = Dy f
y y y

34
3. Derivacin Matricial
El clculo matricial es en gran manera una ampliacin de la notacin tradi-
cional del clculo univariado, que permite una notacin ms compacta a la hora
de realizar clculo multivariado, en el cual las funciones pueden ser de un tipo
ms amplio, ya que la variable puede ser vectorial o matricial. En general, el
clculo matricial trabaja sobre espacios de matrices M (m, n) de tamao m n
definidas sobre k = R.
Antes de abordar el proceso de la derivacin matricial dada la complejidad
tcnica del problema, es preciso incorporar algunas nuevas operaciones entre
matrices que completan el clculo matricial tradicional. Por ello, se definen las
matrices de permutacin y los conceptos de producto Kronecker y vectorizacin
junto con sus propiedades.
Primero se exponen nuevos tipos de matrices que son de especial inters para
desarrollos del clculo matricial.

Nota 3.1 Es importante resaltar en todo caso, que en este escrito se identifi-
carn explcitamente los espacios de matrices Mpn con Rpn y Mmq con Rmq ,
respectivamente.

3.1. Funciones Matriciales


Dentro de esta seccin se presentarn los diversos casos de funciones de
acuerdo con su variable, hasta llegar al caso general de las funciones de variable
matricial.
Para ello, sea Mmn el espacio vectorial de las matrices de tamao m n, en
el cual se definen las matrices X, Y. Dentro del espacio vectorial M1n se definen
los vectores fila A, B. Adems se definen los escalares x, y k. Se define adems
una funcin f.

3.1.1. Funciones de Variable Escalar


Sea Mmn el espacio vectorial de las matrices de tamao m n, y X, Y
matrices de Mmn . Sea M1n el espacio vectorial de los vectores fila de tamao n,
y sean A, B vectores de M1n . Sean x, y k escalares reales. Entonces se pueden
dar los siguientes casos:

Caso 3.1 f : R R

f (x) = y

Este es el caso usual, cuya derivacin y propiedades de la derivacin se ha


expuesto en la seccin 2.

Ejemplo 3.1 f (x) = x + 1

35
Caso 3.2 f : R M1n

f (x) = A

Es el caso de una funcin de variable escalar, cuya salida es un vector.

Ejemplo 3.2 f (x) = (2x, x2 )

Caso 3.3 f : R Mmn

f (x) = Y

 
1 x
Ejemplo 3.3 f (x) =
x + 1 x2

3.1.2. Funciones de Variable Vectorial


Sea Mmn el espacio vectorial de las matrices de tamao m n, y X, Y
matrices de Mmn . Sea M1n el espacio vectorial de los vectores fila de tamao n,
y sean A, B vectores de M1n . Sean x, y k escalares reales. Entonces se pueden
dar los siguientes casos:

Caso 3.4 f : M1n R

f (A) = y

Caso 3.5 f : M1n M1n

f (A) = B

Es el caso de una funcin de variable vectorial, cuya salida es un vector.

Caso 3.6 f : M1n Mmn

f (A) = Y

36
3.1.3. Funciones de Variable Matricial
Sea Mmn el espacio vectorial de las matrices de tamao m n, y X, Y
matrices de Mmn . Sea M1n el espacio vectorial de los vectores fila de tamao n,
y sean A, B vectores de M1n . Sean x, y k escalares reales. Entonces se pueden
dar los siguientes casos:

Caso 3.7 f : Mmn R

f (X) = y

Caso 3.8 f : Mmn M1n

f (X) = B

Es el caso de una funcin de variable vectorial, cuya salida es un vector.

Caso 3.9 f : Mmn Mmn

f (X) = Y

3.2. Otras Matrices Especiales


Se definen las siguientes matrices:

Definicin 3.1 (Particin de una Matriz) Una matriz es particionada, si


es subdividida en matrices ms pequeas llamadas submatrices o bloques me-
diante lineas horizontales y verticales que demarcan filas y columnas completas:

a11 a12 a1n
a21 a2n

.. .. .. ..
. . . .
am1 am2 amn

Una matriz Amn se puede particionar de 2m+n2 1 maneras distintas,


con al menos una lnea de particin.

Definicin 3.2 (Matriz de Bloques) Una matriz a la que se ha realizado


una particin se llama matriz de bloques o Matriz Particionada..

Ejemplo 3.4 Dada la matriz A34 ,, se le pueden realizar 25 1 = 31 parti-


ciones diferentes. Una de ellas puede ser:

a11 a12 a13 a14  
B C
A34 = a21 a22 a23 a24 =
D E
a31 a32 a33 a34

37
Donde a las submatrices o bloques se les ha denominado B, C, D, E y corres-
ponden a:
   
a a12 a13 a    
B = 11 , C = 14 , D = a31 a32 a33 , E = a34
a21 a22 a23 a24

Definicin 3.3 (Matriz de Permutacin) Una matriz de permutacin P es


una matriz cuadrada de rden n, donde todos los elementos son 0, a excepcin
de uno cualquiera por cada fila y columna que tiene el valor 1
Existen n! matrices de permutacin de tamao n n. Las matrices de con-
mutacin de orden n forman un grupo [Her86], cuyo elemento neutro es la
matriz identidad de orden n, mientras que el elemento inverso es la transpuesta
de la matriz dada.

Ejemplo 3.5 Para n = 3 se tienen las siguientes matrices de permutacin:



1 0 0 1 0 0 0 1 0
0 1 0 0 0 1 1 0 0
0 0 1 0 1 0 0 0 1

0 1 0 0 0 1 0 0 1
0 0 1 1 0 0 0 1 0
1 0 0 0 1 0 1 0 0

Se les llama matrices de permutacin por cuanto al multiplicar por P otra


matriz conforme A, da como resultado una matriz con los mismos elementos
de la matriz original A, pero con sus posiciones permutadas de acuerdo con la
ubicacin de los elementos con valor 1 de P.

Definicin 3.4 (Matrices de Permutacin Par e Impar) A una matriz de


permutacin P que tiene determinante igual a 1 se le denomina matriz de per-
mutacin par, y a la que tiene determinante igual a 1 se le denomina matriz de
conmutacin impar. La mitad de las matrices de permutacin de tamao n n
son matrices de permutacin pares, y la otra mitad son impares.

Definicin 3.5 (Matrices de Permutacin en Bloques) Una matriz de per-


mutacin por bloques de orden mn, que se denota por Pm,n , es una matriz
cuadrada de orden mn, dividida en n m bloques o cajas cada una de ellas
de orden m n, de manera que el bloque (i, j) , i = 1, ..., n, j = 1, ..., m tiene
todos sus elementos nulos salvo el que est situado en su j-sima fila e i-sima
columna que es igual a la unidad

Esta definicin muestra que tanto el primer elemento como el ltimo ele-
mento de una matriz de permutacin por bloques es 1.

38
Proposicin 3.1 (Propiedades Matrices de Permutacin por Bloques)
Las matrices de permutacin en bloques cumplen las siguientes propiedades:
1. Pm,1 = P1,m = Im
2. Pm,n

= Pn,m
3. Pm,n Pn,m = Inm
4. La matriz Pm,n es ortogonal
Demostracin. Se va a demostrar la propiedad 4; la demostracin de las
dems propiedades se hacen de manera anloga. Las demostraciones se pueden
consultar en [Bar98].

Pm,n = Pn,m entonces de (3)., resulta

Pm,n Pn,m = Pn,m Pm,n = In,m
de donde se deduce que Pm,n es ortogonal ya que Pm,n
1 
= Pm,n

3.3. Producto de Kronecker


En ocasiones el producto de matrices que se asocia a la composicin de
aplicaciones lineales es insuficiente. El producto de Kronecker que a continuacin
se define, en cierto sentido lo generaliza.
Definicin 3.6 (Producto de Kronecker) Sea A una matriz mn y B una
una matriz p q. El producto de Kronecker de la matriz A por la matriz B,
denotado como A B, es la matriz bloque C de tamao mp nq definida como:

a11 B a1n B
C = A B = ... ..
..
. .
am1 B amn B

y desarrollando las operaciones implcitas en cada bloque aij B, se tiene para


C = A B que
a11 b11 a11 b12 a11 b1q a1n b11 a1n b12 a1n b1q
a11 b21 a11 b21 a11 b2q a1n b21 a1n b22 a1n b2q

.. .. .. .. .. .. .. ..
. . . . . . . .

a11 bp1 a11 bp2 a11 bpq a1n bp1 a1n bp2 a1n bpq

.. .. .. .. .. .. ..
. . . . . . .
C = .. . . . . .

. .. .. . .. .. .. ..

am1 b11 am1 b12 am1 b1q amn b11 amn b12 amn b1q

am1 b21 am1 b22 am1 b2q amn b22 am1 b21 amn b2q

. .. .. .. .. .. .. ..
.. . . . . . . .
am1 bp1 am1 bp2 am1 bpq amn bp1 amn bp2 amn bpq

El producto de Kronecker tambin recibe el nombre de Producto Tensorial


o Producto Directo.

39
Se llama producto de Kronecker, denotado con , a una operacin sobre
dos matrices de tamao arbitrario que da como resultado una matriz bloque. El
producto de Kronecker no debe confundirse con el producto de matrices habi-
tual, que es una operacin totalmente diferente. Debe su nombre al matemtico
alemn Leopold Kronecker.


a11 a12  
b b12 b13
Ejemplo 3.6 a21 a22 11 =
b21 b22 b23
a31 a32

a11 b11 a11 b12 a11 b13 a12 b11 a12 b12 a12 b13
a11 b21 a11 b22 a11 b23 a12 b21 a12 b22 a12 b23

a21 b11 a21 b12 a21 b13 a22 b11 a22 b12 a22 b13

a21 b21 a21 b22 a21 b23 a22 b21 a22 b22 a22 b23

a31 b11 a31 b12 a31 b13 a32 b11 a32 b12 a32 b13
a31 b21 a31 b22 a31 b23 a32 b21 a32 b22 a32 b23

   
1 2 5 6
Ejemplo 3.7 =
3 4 7 8

1,5 1,6 2,5 2,6 5 6 10 12
1,7 1,8 2,7 2,8 16
= 7 8 14
3,5 3,6 4,5 4,6 15 18 20 24
3,7 3,8 4,7 4,8 21 24 28 32

   
5 6 1 2
Ejemplo 3.8 =
7 8 3 4

5,1 5,2 6,1 6,2 5 10 6 12
5,3 5,4 6,3 6,4 15 20 18 24
=
7,1 7,2 8,1 8,2 7 14 8 16
7,3 7,4 8,3 8,4 21 28 24 32

Con el ejemplo 3.8 se muestra que el producto de Kronecker no es conmuta-


tivo. En general, AB y B A son matrices diferentes. Sin embargo disfruta de
otras propiedades, algunas de las cuales se recogen en la siguiente proposicin.

Proposicin 3.2 (Propiedades del Producto Kronecker) Sean, A1 , A2


Mmn y B1 , B2 Mpq . Para el producto Kronecker se verifican las siguientes
propiedades:

40
1. (A1 B1 ) + (A2 B1 ) = (A1 + A2 ) B1

(A1 B1 ) + (A1 B2 ) = A1 (B1 + B2 ) .

2. Dadas Amn , Bpq y R, se verifica (A B) = (A B) = (A B) .

3. Dadas las matrices Amn , Bpq , Crs , se verifica que [(A B) C] =


[A (B C)] .

4. Dadas A1 Mmn , A2 Mmp , B1 Mqr , B2 Mrs , si se consideran


las matrices

C1 = A1 B1 y C2 = A2 B2 de ordenes mqnr y nrps respectivamente,


entonces

C1 C2 = (A1 B1 ) (A2 B2 ) = A1 A2 B1 B2 .

5. Dadas A y B matrices de ordenes m n y p q, respectivamente, en


general A B = B A.

Esto quiere decir, el producto de Kronecker no es conmutativo, si bien se


verifica que Pm,p (A B) Pq,n = (B A)

6. Si A Mn y B Mm son dos matrices invertibles, entonces se verifica


que A B es invertible y su inversa
(A B)1 = A1 B 1 .

7. Supuestas A y B dos matrices cualesquiera, se verifica que (A B)  =


A B.

8. Dadas A y B dos matrices cuadradas de rdenes m y n, respectivamente,


se verifica que tr (A B) = tr (A) tr (B) .

9. Sean, A Mnn y B Mmm entonces se verifica que |A B| =


|Am | |B n | .

10. Dadas A y B matrices cualesquiera, se tiene que rg (A B) = rg (A)


rg (B) .

41
11. Si A es una matriz m n particionada en cuatro bloques Aij , i, j = 1, 2
de dimensiones mi nj , i, j = 1, 2 con m1 + m2 = m y n1 + n2 = n y B
es una matriz de orden p q, entonces
 
A11 B A12 B
AB =
A21 B A22 B

Se presenta ahora la demostracin de algunas de las anteriores



proposiciones.
Demostracin. Si para k = 1, 2 se tiene Ak = akij , i = 1, ..., m,

j = 1, ..., n, Bk = bkij , i = 1, ..., p, j = 1, ..., q entonces como


A1 B1 = a1ij B1 ij ,

A2 B1 = a2ij B1 ij

resulta que
1

(A1 B1 ) + (A2 B1 ) = aij + a2ij B1 ij = (A1 + A2 ) B1

Anlogamente se comprueba la otra igualdad.

Demostracin. Dado que



a11 B a11 B
a11 B a11 B

AB = . .. ,
.. .
a11 B a11 B

por definicin
de matriz traspuesta y producto
de Kronecker resulta que
a11 B a21 B am1 B
(A B)  = ... .. .. ,

. .
a1n B a2n B amn B

tal como se quera probar.

Nota 3.2 Si se comparan las propiedades del producto ordinario de matrices y


del producto Kronecker se tiene:

Producto Matricial Producto Kronecker


(AB)  = BA (A B)  = A B
(AB)1 = B 1 A1 (A B)1 = A1 B 1
tr (AB) = tr (A) tr (B) tr (A B) = tr (A) tr (B)
|AB| = |A| |B| |A B| = |Am | |B n |
rg (AB) mn {rg (A) , rg (A)} rg (A B) = rg (A) rg (B)

42
Ejemplo 3.9 Las matrices:

  1 1 1
1 1
A= B = 1 0 1
2 1
0 2 4

son tales que tr (A) = 2, tr (B) = 3; rg (A) = 2, rg (B) = 3; |A| = 3, |B| = 4

Entonces para la matriz:



1 1 1 1 1 1
1 0 1 1 0 1

0 2 4 0 2 4
AB = 2

2 2 1 1 1
2 0 2 1 0 1
0 4 8 0 2 4

Sin necesidad de trabajar con ella directamente, en virtud de las propiedades


del producto de Kronecker se pueden calcular los siguientes valores:

tr (A B) = tr (A) tr (B) = 6

rg (A B) = rg (A) rgB = 6

|A B| = |A|3 |B|2 = 32 (4)2 = 432

Adems como rg (A B) = 6, la matriz A B es invertible, siendo su


inversa, de acuerdo con la propiedad 6:

(A B)1 = A1 B 1

por tanto, como:


  1 1 1
1 1 2 2 4
A1 = 3 3
y B 1 = 1 1 0
23 1
3 12 12 1
4

se tiene que:
1 1 1 1
6 6 12 61 1
6 12
1 1
0 1 1
0
3 3 3 3
1 1
6 16 1
61 16
(A B)1 =
1
12 12
1
3 13 61 16 1
6 12
2
3 23 0 1
3
1
3 0
1 1
3 3 61 16 16 1
12

43
Un mbito en el que puede resultar til expresar una matriz como un vector
columna es el de la derivacin de matrices o expresiones matriciales. Por ello, a
continuacin se define lo que se entiende por vectorizacin de una matriz y se
analizan algunas de sus propiedades.

Definicin 3.7 (Vectorizacin de una Matriz) La vectorizacin de una ma-


triz es una transformacin lineal que convierte una matriz en un vector columna.
Dada una matriz A de orden mn, la vectorizacin de A es el vector columna de
mn elementos que se obtiene escribiendo las columnas de A una a continuacin
de otra y se denota por vec (A) . Entonces:

a1 a1j
a2 a2j

vec (A) = . , con a1 = . , j = 1, ..., n.
.. ..
an anj

Ejemplo 3.10 Dada la matriz



1
5

3

1 2 1 2


A = 5 1 0 se tiene que vec (A) =
1

3 0 2
0
1

0
2

Proposicin 3.3 (Propiedades de la Vectorizacin) La vectorizacin


de matrices verifica las siguientes propiedades:

1. Sean A, B Mmn dos matrices cualesquiera, y sea R. Se verifica las


siguientes propiedades: vec (A + B) = vec (A) + vec (B)

vec (A) = vec (A)

2. Dadas las matrices Amn y Bnq se verifica que:


vec (AB) = (B Im ) vec (A) = (Ip A) vec (B) = (B A) vec (In )

3. Dada la matriz A de orden m n, se verifica que:


vec (A) = (In A) vec (In ) = (A Im ) vec (Im )

44
4. Dadas las matrices Amn , Bnp y Cpq , se verifica que:
vec (ABC) = (C A) vec (B) = (Iq AB) vec (C) = (CB Im ) vec (A)

5. Dada la matriz A de orden m n, se verifica:


vec (A) = Pm,n vec (A) , vec (A) = Pn,m vec (A)

6. Dada la matriz A de orden m n, se verifica:


[(vecIn )  Im ] [In vec (A)] = A

[vec (A)  Im ] [In vec (Im )] = A

[Im (vec (A)) ] [vec (Im ) In ] = A. [Im (vec (In )) ] [vec (A) In ] =
A

7. Dadas las matrices A y B de orden m n y C, D de orden m p, se tiene


que:

vec [(A + B) (C + D)] = [(Ip A) + (Ip B)] [vec (C) + vec (D)]

vec [(A + B) (C + D)] = [(C Im ) + (D Im )] [vec (A) + vec (B)]

8. Sean las matrices Amn y Bnm , entonces se tiene que

tr (AB) = (vec (A)) vec (B) = (vec (B)) vec (A)

En particular si n = m y B = In :

tr (A) = (vec (A)) vec (In ) = (vec (In )) vec (A)

Demostracin. La j-sima columna del producto AB es Abj , entonces por


definicin de vectorizacin y el producto de matrices particionadas de tiene

Ab1 A 0mXn 0 b1
Ab2 0 A 0 b2

vecAB = . = . .. .. .. ..
.. .. . . . .
Abp 0 0 A bp

Ahora bien, teniendo en cuenta el producto Kronecker de matrices, esto se


puede expresar como

45
vec (AB) = (Ip A) vec (B)


n
Por otra parte, la j-sima columna de AB es ai bij
i=1

pues la componenete k-sima de este vector 


coincide con el elemento de la
k-sima fila y la j-sima columna de AB que es ni=1 aki bij

Por tanto:

n
ai bi1
i=1
n B 0pXn 0 a1

ai bi2 0 B 0 a2

vec (AB) = i=1 = . .. .. ..
.. .
. . . .

. 0 0 B an
n
ai bip
i=1

y por definicin de producto de Kronecker y vectorizacin, resulta:

vec (AB) = (B I) vec (A)

Demostracin. Como A = Im A por la proposicin 3.3,2:

vec (A) = vec (Im A) = (A Im ) vec (Im )

Anlogamente, como A = AIn , de nuevo por la proposicin 3.3,2:

vec (A) = vec (AIn ) = (In A) vec (In )

Demostracin. De acuerdo con la proposicin 3.3,2 se verifica que:

vec (ABC) = vec [(AB) C] = (Iq AB) vec (C)

vec (ABC) = vec [(AB) C] = ((BC)  Im ) vec (A)

vec (ABC) = vec [(AB) C] = (CB Im ) vec (A)

Adems, como en virtud de la proposicin 3.3, 1, se tiene tambin que

vec (ABC) = vec [(AB) C] = (C AB) vec (Ip )

entonces por la proposicin 3.3, 4 del producto de Kronecker,

(C AB) = (C A) (Ip B)

46
y, teniendo en cuenta la proposicin 3.3, 3, se obtiene finalmente

vec (ABC) = (C A) (Ip B) vec (Ip ) = (C A) vec (B)

Las proposicines 3.3, 2 y 8 pueden generalizarse para el producto de un


nmero finito de matrices. As, para matrices A1 , A2 , A3 y A4 de dimensiones
adecuadas, se tiene que:

vec (A1 A2 A3 A4 ) = (I A1 A2 A3 ) vec (A4 )


vec (A1 A2 A3 A4 ) = (A4 A1 A2 ) vec (A3 )
vec (A1 A2 A3 A4 ) = (A4 A3 A1 ) vec (A2 )
vec (A1 A2 A3 A4 ) = (A4 A3 A2 I) vec (A1 )

tr (A1 A2 A3 ) = (vec (A1 ))  (A3 I) vec (A2 )


tr (A1 A2 A3 ) = (vec (A1 ))  (I A2 ) vec (A3 )
tr (A1 A2 A3 ) = (vec (A2 ))  (I A3 ) vec (A1 )
tr (A1 A2 A3 ) = (vec (A2 ))  (A1 I) vec (A3 )
tr (A1 A2 A3 ) = (vec (A3 ))  (A2 I) vec (A1 )
tr (A1 A2 A3 ) = (vec (A3 ))  (I A1 ) vec (A2 )

que se pueden demostrar fcilmente, pues son consecuencia de la vectoriza-


cin y traza del producto de dos matrices y de las propiedades del producto de
Kronecker. Resultados anlogos existen para el producto de un nmero finito
de matrices.
En algunas ocasiones, cuando se vectoriza una matriz, conviene hacerlo a
partir de sus filas.

Definicin 3.8 (Vectorizacin por Filas) Dada A una matriz de orden m


n, se define:

a1
a2

vec (A) = . con ai (ai1 , ..., ain ) , i = 1, ..., m
..
am

Es obvio y fcil de verificar que vec (A) = vec (A) . Por tanto, pueden enun-
ciarse las propiedades de vec (A) . Por ejemplo:

vec (AB) = vec ((AB) ) = vec (BA) = [(A I) vec (B)]

vec (AB) = (A I) vec (B)

47
tr (AB) = (vec (A)) vec (B) = (vec (A)) vec (B)

tr (AB) = (vec (A))  vec (B)

Definicin 3.9 (vec)


 Dada una matriz simtrica A de orden n, puede definirse
una vectorizacin diferente de las ya indicadas de manera que en dicha vecto-
rizacin, solo se recojan los elementos distintos de la matriz A. As, se denota
n (n + 1)
por vec
 (A) el vector columna de orden r = dado por:
2


a11
a12

a22

a13

a23

a33
 (A) = .
vec

..

a1n

a2n

..
.
ann

En vec
 (A) se incluyen los elementos situados por encima de la diagonal
principal de cada una de las columnas de A. Por otra parte, la relacin entre
esta vectorizacin y la indicada en la defincin 3.7 se establece por la igualdad
 (A) = Qvec (A) , (donde Q es la matriz diagonal por bloques de orden rn):
vec


Q1
Q2

Q= ..
.
Qn

donde i = 1, ..., n, y el bloque Qi una matriz de orden i n dada por


1 0 0 0
0 1 0 0

Qi = . . .... ....
.. .. .. ..
0 0 1 0

i-sima columna

48
Nota 3.3 La vectorizacin se utiliza en conjunto con el producto Kronecker
para expresar la multiplicacin de matrices como una transformacin lineal sobre
las matrices. Por ejemplo, si A, B, X son matrices conformes:
vec(AXB) = (B T A)vec(X)

3.4. Frmulas de Derivacin Matricial.


La derivada de una funcin matricial de variable matricial no difiere sus-
tancialmente del concepto de derivada habitual. La diferencia y dificultad se
presenta cuando es preciso manipular estas derivadas matriciales, debido a su
dimensin y la ubicacin de sus elementos [Bar98].
En esta seccin se indican las definiciones de funciones escalares, vectoriales
y matriciales de variable escalar, vectorial o matricial, adoptando un criterio
comn para la colocacin de los distintos elementos que componen cada una
de estas derivadas. En las definiciones de las derivadas de funciones escalar o
vectorial, bien sean de variable escalar o vectorial, existe casi unanimidad en la
literatura en cuanto a su ordenacin.
Se acostumbra usar la variable en negrilla cuando se trata de una variable de
tipo vectorial o matricial; sin embargo, en las siguientes secciones no se utilizar
esta notacin ya que el contexto har claridad. As, si x Rn e y Rm , entonces
se puede observar que una notacin bastante usual se expone as:

 
y y y
Si y = y (x1 , ..., xn ) su derivada es = ... , que es el caso de
x x1 xn
las funciones escalares de variable vectorial.

y1 (x)
y1 (x) x
y .
Si y = y (x) = ... su derivada es

= .. , . que es el caso
x
yn (x) ym (x)
x
de las funciones vectoriales de variable escalar.

y1 y1
y1 (x1 , ..., xn ) x xn
. y . 1 .. ,
Si y = y (x) = .. su derivada es = .. .
x ym ym
yn (x1 , ..., xn ) x1 xn
que es el caso de las funciones matriciales de variable vectorial

Cuando se ha de calcular el gradiente de y = f (x) , se respeta la ordenacin


del vector fila x = (x1 , ..., xn ) de las variables explicativas; luego parece lgico
que este mismo criterio de ubicacin de elementos se adopte para definir la
derivada de una funcin escalar de variable matricial.[Bar98]. Siguiendo este
acuerdo se exponen las siguientes definiciones.

49
Definicin 3.10 Sea y = y (x) una funcin real de variable vectorial, es decir,
y es una funcin definida de Rn en R. La derivada de y respecto de x es el
 
y (x) y (x) y (x)
vector fila = , ...,
x x1 xn

Se adopta esta notacin ya que se est derivando un escalar y (x) con respecto
y (x)
a un vector fila x = (x1 , ..., xn ). Obsrvese que es el vector gradiente de
x
la funcin y (x) .
Si se precisa que el vector de variables x respecto a las que se efecta la
derivada de y se toma como columna, entonces se denotar por
 
y (x) y (x)
= 
x x

es decir, este vector coincide con el traspuesto del vector gradiente de y.


Definicin 3.11 Sea y = y (x) una funcin vectorial de variable real, es decir

y1 (x)
y (x) = ...

yn (x)

es una funcin definida de R en Rm . La derivada de y respecto del escalar


x es el vector columna
y1 (x)
x
y (x) ..
= .
x
ym (x)
x

Definicin 3.12 Sea y = y (x) una funcin vectorial de variable vectorial, es


decir, una funcin definida de Rn en Rm . Como

y1 (x)
y (x) = ... entonces:

ym (x)
y1 (x) y
1 (x) y1 (x)
x x1 xn
.. .. ..
=
y(x)
x = . . .
ym (x) ym (x) ym (x)
x x1 xn|

50
Obsrvese que esta matriz de orden m n es el Jacobiano de la funcin y(x),
ya que cada una de sus filas es el gradiente de las funciones y1 (x) , ..., yn (x) ,
que son las componentes de y(x).

Definicin 3.13 Sea y = y (X) una funcin real de variable matricial, es decir,
la funcin y est definida de Mpn en R. La derivada de y respecto de la matriz
X de orden p n, es la matriz del mismo orden dada por
y(X) y(X)

x11 x1n  
y (X) .. .. y (X)
=
. .
=

X y(X) y(X)
xij i=1,...,p
j=1,...,n
xp1 xpn

Definicin 3.14 Sea Y = Y (x) una funcin matricial de variable escalar, es


decir la funcin Y est definida de R en Mmq . La derivada de Y = Y (x) respecto
de la variable x est dada por la matriz de orden m q
y11 (x) y1q (x)
x x  
Y (x) .. yij (x)
= . =
x x i=1,...,m
ym1 (x) ymq (x) j=1,...,q
x x

Definicin 3.15 Sea y = y(X) una funcin vectorial de variable matricial


definida de Mpn en R. La derivada de y(X) respecto de la matriz A de orden
p n es la matriz de orden pm n dada por
y1 (X)
X
y (X) ..
= . ,
X
ym (X)
X

ya que, de acuerdo con la definicin 3.13, para cada k = 1, ..., m


 
yk (X) yk (X)
=
X xij i=1,...,p
j=1,...,n

Definicin 3.16 Sea Y = Y (x) una funcin matricial de variable vectorial


definida de Rn en Mmq . La derivada de Y (x) respecto del vector x es la matriz
de orden m qn cuya expresin es
y11 (x) y1q (x)
x x
Y (x) .. ..
= . .
x
ym1 (x) ymq (x)
x x

51
donde, teniendo en cuenta la definicin 3.10,
 
yij (x) yij (x) yij (x)
= , ...,
x x1 xn

con i = 1, ..., m, j = 1, ..., q

Definicin 3.17 (Derivada Funcion Matricial de Variable Matricial)


Sea Y = Y (X) una funcin matricial de variable matricial, es decir, definida
de Mpn en Mmq . La derivada de Y (X) respecto de la matriz X est dada por
la matriz de orden pm nq
y11 (X) y1q (X)
X X
Y (X) .. ..
= . .
X
ym1 (X) ymq (X)
X X

ya que, teniendo en cuenta la definicin 3.14, para cada i 1, ..., m, j =


1, ..., q
 
yij (X) yij (X)
=
X xk k=1,...,p
=1,...,n

La definicin 3.17 hace referencia al caso general que se puede tratar en el


caso de la derivacin matricial. Este caso se convierte en los casos particulares de
las definiciones 3.10 hasta la definicin 3.16 si se dan las siguientes condiciones:

1. p = q = m = q se obtiene la definicin 3.10


2. p = n = q = 1 se obtiene la definicin 3.11
3. p = q = 1 se obtiene la definicin 3.12
4. q = m = 1 se obtiene la definicin 3.13
5. p = n = 1 se obtiene la definicin 3.14
6. q = 1 se obtiene la definicin 3.15
7. p = 1 se obtiene la definicin 3.16

Existen mltiples formas de dar la expresin de derivadas matriciales, ya


que pueden considerarse distintas ordenaciones de los elementos de la matriz
final que se obtiene al derivar una matriz respecto de otra. Algunas derivadas
matriciales se pueden definir a travs de la vectorizacin de la matriz de variables
dependientes e incluso de la de variables independientes.

52
1. En el presente trabajo, empleando el concepto de vectorizacin de una ma-
triz, pueden obtenerse las siguientes expresiones alternativas de las defini-
ciones 3.13, 3.14, 3.15, 3.16 y 3.17 en trminos de vectorizacin:

y(X)
x
.11
..

y(X)
xp1  
y (X) y (X)
= ... = vec


vec(X) (X)
y(X)
x1n
.
.
.
y(X)
xpn

y11 (x)
x11
.
..

y1m (x)
x  
vecY (x) .. = vec Y (x)
=
.
x y1q (x) x

x
..
.
ymq (x)
x
y
1 (X)
vec(X)
y (X) ..
= .
,
vec(X)
ym (X)
vec(X)

yi (X)
siendo para i = 1, ..., m lo indicado en la primera expresin alter-
vec(X)
nativa.
y (X)
El vector columna de orden mnp, teniendo en cuenta propiedades
vec(X)
del producto de Kronecker y de la vectorizacin, se puede expresar tambin
como

 
y (X) y (X)
= Ip (vecIp ) ,siendo
vec(X) X
 
y (X) y (X) 
= .
X X

53
 
y (X) y (X)
Ntese que en este caso = vec
vec(X) X
y11 (x) y
11 (x) y11 (x)
x1 xn
x
. .. ..
.. . .


ym1 (x)
ym1 (x)
ym1 (x)

x x1 xn
vecY (x) .. = . ..
=
. .. .
x y1q (x)
x y1q (x)
y1q (x)

x1 xn
.. .. ..
. . .
ymq (x) ymq (x) ymq (x)
x x1 xn

vec (Y (x))
Se observa que es una matriz de orden mq n, mientras que
x

Y (x)
es de orden m qn. Entre estas dos matrices puede establecerse la sigui-
x
ente relacin:

 
vec (Y (x)) Y (x)
= Iq (vec (Iq ) In )
x x

Mediante las definiciones anteriores y las expresiones en trminos de la vec-


torizacin y las propiedades del producto de Kronecker se obtienen las siguientes
Y (X)
formas alternativas para el clculo de :
X
y11 (X)
X

..

.
ym1 (X)
X  
vec (Y (X)) ..
= Iq Y (X) (vec (Iq ) In )
=
.
X y1q (X) X
X

..
.
ymq (X)
X

y y1q (X)

11 (X)
vec(X) vec(X)  
Y (X) .. .. Y (X)
=
. .
=
Ip (Iq vec (Ip ))
vecX X
ym1 (X) ymq (X)
vec(X) vec(X)

54
   
vec (Y (X)) Y (X) Y (X)
= vec = Iq Ip (vec (Iq ) vec (Ip ))
vec(X) vecX X

Alternativamente, es posible otra formulacin para la derivada de expresiones


matriciales. Para ello, es necesario considerar para cualquier m, n, p, q N y
cualquier funcin:

Y (X) : Mpn Mmq

la definicin

Y (X) [Y (X))]

X (vecX) 

Retomando lo expresado anteriormente, en este trabajo se identificarn ex-


plcitamente los espacios de matrices Mpn y Mmq con Rpn y Rmq , respectiva-
mente.Lo que se est considerando generalmente es Y (X) como funcin vectorial
de variable vectorial definida de Rpn en Rmq , por lo que la expresin

vec [Y (X))]
(vecX) 

es el Jacobiano de dicha funcin vectorial. La eleccin de esta definicin


de derivada puede resultar til para aplicar a funciones matriciales resultados
matemticos relativos a funciones vectoriales.

Ejemplo 3.11 Dada la funcin y = y (x) de R2 en R2 definida por


   2 
y1 (x1 , x2 ) x1 + x32
y (x) = = ,
y2 (x1 , x2 ) 2x1 x2

de acuerdo con la Definicin 3.12 se tiene que



y1 (x)
y1 (x) y1 (x)  
y (x)
x x1 x2 2x1 3x22
= y2 (x) = y2 (x) y2 (x)
=
x 2x2 2x1
x1 x2
x

Por otra parte, teniendo en cuenta la Definicin 3.16


   
y (x) 2 0 0 6x2
= =
x x 0 2 2 0

55
Observese que el resultado anterior difiere de
  
2x1 2 0
vec y(x)
x
= 2x22 = 0 2
x x 3x2 0 6x2
2x1 2 0

Ejemplo 3.12 Dada la matriz A = (aij ) , i = 1, ..., m, j = 1, ..., q, se verifica


que la derivada de A respecto del primer vector fila que se denota por a1 es la
matriz de orden m q 2
a1q

a11
a1 ... a1
A ..
= .. ..
a1 . . .
amq
am1
a1 ... a1


1 0 0 0 1 0 0 0 1
0 0 0 0 0 0 0 0 0

= .. .. .. .. .. .. .. .. ..
. . . . . . . . .
0 0 0 0 0 0 0 0 0

Haciendo uso de la expresin alternativa se obtiene


1 0 0 0
0 0 0 0

.. .. .. ..

. . . .

0 0 0 0

0 1 0 0

0 0 0 0
 
vec (A) A .. .. .. ..
= Iq (vec (Iq ) Iq ) =
. . . .

a1 a1 0 0 0 0


.. .. .. ..

. . . .
0 0 0 1

0 0 0 0

.. .. .. ..
. . . .
0 0 0 0

La derivada de la matriz A respecto de s misma viene dada por la matriz


de orden m2 q 2

56
a11 a1q
A A
A . .. = (vecI ) (vecI ) 
= .. . m q
A amq
am1
A A

para cada i = 1, ..., m, j = 1, ..., q se tiene que



0 0 0 0
.. .. .. ..
. . . .
aij
=
0 0 1 0 i esima fila
A .. .. .. ..
. . . .
0 0 0 0

y j-sima columna.

La derivada de la matriz A respecto de A es una matriz cuadrada de orden


mq definida como
a11 am1
A ... A
A . .. ..
= .. . . = P, m, q,
A a amq
A
1q
... A

para cada i = 1, ..., m, j = 1, ..., q



0 0 0 0
.. .. .. ..
. . . .
aij
=
0 0 1 0 j-sima fila
A .. .. .. ..
. . . .
0 0 0 0

y la j-sima columna

Ejemplo 3.13 Sea y = y(A) una funcin definida de M22 en R2 dada por
   
y1 (A) a211 + 2a12 a222
y = y(A) = =
y2 (A) (a11 + a22 )2 2a12 a21
 
a11 a12
donde A =
a21 a22

La derivada de la funcin y = y(A) respecto de la matriz A de variables


independientes, de acuerdo con la definicin 3.15 es

57
y1 (A) y1 (A)

a11 a12
 
y(A) y1 (A) y1 (A) y1 (A)
A a21 a22
= y2 (A) =
A y2 (A) y2 (A)
A a11 a12
y2 (A) y2 (A)
a21 a22


2a11 2
0 2a22

= ,
2a11 + 2a22 2a21
2a12 2a11 + 2a22

y la derivada de y(A) respecto a la vectorizacin de A, teniendo en cuenta


la definicin 3.17, tiene la expresin

y1 (A)

ya(A)
11
2a11
1
a21 0
y (A)
1
a12 2
y1 (A) y (A)
y(A) 1 2a
vec(A) a22 22
= y (A) = y2 (A) =
vec (A) 2 2a11 + 2a22
vec(A) a11
y2 (A) 2a
12
a21
y2 (A) 2a21

a12 2a11 + 2a22
y2 (A)
a22


2a11 0 0 0
0 2a11 0 0

2 0 2a22 0 1

0 2 0 2a22

= 0

2a11 + 2a22 0 2a12 0 0
0 2a11 + 2a22 0 2a12 1

2a21 0 2a11 + 2a22 0
0 2a21 0 2a11 + 2a22

2a11 0
  1
2 2a22 1 0 0
=
2a11 + 2a22 2a21 0 1 0

2a21 2a11 + 2a22 1

 
y(A)
= A I2 vec (I2 )

58
Ejemplo 3.14 Sea
la funcin Y =
Y (X)definida de M22 en
M32 por
y11 (X) y12 (X) x11 + x12 2x12
Y = Y (X) = y21 (X) y22 (X) = x222 ex21 ,
y31 (X) y32 (X) x11 + x12 x21 x12

siendo

1 1 0 2
y11 (X) y12 (X) 0 0 0 0

y X X
0 0 0 0
X = 21 (X)
X
y22 (X)
X
=

.

0 2x22 ex21 0
y31 (X) y32 (X)
X X x22 0 0 x21
0 x11 x12 0

Ahora bien, de acuerdo con la expresin alternativa


 
vecY (X) Y (X)
= I2 (vec (I2 ) I2 )
X X

1 1 0 2 0 0 0 0
0 0 0 0 0 0 0 0

0 0 0 0 0 0 0 0
1 0
0 2x22 ex21 0 0 0 0 0 1
0
x22 0 0 x21 0 0 0 0 0
0
0 x11 x12 0 0 0 0 0 0
= 0
0 0 0 0 1 1 0 2 0
0
0 0 0 0 0 0 0 0 0
0
0 0 0 0 0 0 0 0 0
1
0 0 0 0 0 2x22 ex21 0
0 1
0 0 0 0 x22 0 0 x21
0 0 0 0 0 x11 x12 0

1 1
0 0

0 0

0 2x22

x22 0

0 x11
=
0

2
0 0

0 0
x
e 21 0

0 x21
x12 0

59
3.5. Reglas de Derivacin.
La derivada de un vector o de una matriz respecto de un escalar, vector o
matriz, no difiere sustancialmente de la derivacin habitual de funciones. Sin
embargo esto no conlleva que sean vlidas, en general las reglas usuales para
derivar, por ejemplo, las de suma, el producto o la composicin de funciones.
Ahora bien, como se ver a continuacin, si se hace uso del producto Kro-
necker en lugar del producto matricial estandar, en algunos casos es posible
obtener reglas de derivacin anlogas a las habituales para funciones.

Proposicin 3.4 Sea C una matriz de variables independientes de orden p n


, esto es, C Mpn :

1. Derivada del Producto por Escalar. Sea A una matriz de orden mq cuyos
elementos dependen de los de la matriz C de orden p n. Entonces, para
cualquier R, se verifica que

(A) A
=
C C

2. Derivada de la Suma. Sean A y B dos matrices de orden m q, cuyos


elementos dependen de los de la matriz C de orden p n. Se verifica que

(A + B) A B
= + .
C C C

3. Derivada de Producto. Sean A, B y C matrices de ordenes m q, q r,


p n, respectivamente, tales que los elementos de A y B son funciones de
los elementos de la matriz C. Entonces se verifica que

a) Si p = n = 1 m = q = 1

AB A B
= B+A
C C C

b) Si p = 1, es decir, C es un vector fila de Rn , entonces

AB A B
= (B In ) + A
C C C

c) Si p = 1 y n = 1

AB A B
= (B In ) + (A Ip )
C C C

60
4. Derivada del Producto de Kronecker. Sean A, B y C matrices de ordenes
m q, t r, p n,respectivamente, tales que los elementos de A y B son
funcin de los elementos de la matriz C.Entonces se verifica que
 
A B B (A Ir )
= A + (Im B Ip )
C C C

donde
 
(A Ir ) A
= (Pr,m Ip )  Ir (Pq,r In )
C C

5. Regla de la Cadena. Sea y = y (A) uma funcin real de variable matri-


cial, donde A es una matriz de orden t r cuyos elementos a su vez son
funciones de la matriz C de orden p n. Se verifica
   
y (A) y (A) vec (A)
= Ip 
C vec (A) C

o tambin
 
y (A) y (A) A
= [(vec (It ))  Ip ] (vec (Ir ) In ) .
C A C

A
Demostracin. La derivada de acuerdo con la definicin 3.17 es una
C
matriz de orden mp nq dada por
 
A aij
=
C C i=1,...,m
j=1,...,q

y como para cada i = 1, ...m ; j = 1, ..., q, segn la definicin 3.10,


 
aij aij aij
= =
C ck ck k=1,...,p
=1,...,n

 
A A
se obtiene que = .
C C

(A + B)
Demostracin. La derivada segn la definicin 3.17, es la matriz
C
de orden mp qn

61
 
(A + B) (aij + bij )
=
C C i=1,...,m
j=1,...,q

Ahora bien, para cada i = 1, ...m ; j = 1, ..., q, a partir de la definicin 3.13


se obtiene
(aij + bij ) aij bij
= +
C C C
y sumando por bloques se puede concluir

(A + B) A B
= +
C C C

Demostracin.
a) Si p = n = 1, entonces

AB A B
= B+A ,
C C C
ya que para cada i = 1, ...m ; j = 1, ..., r la derivada del elemento dij de la
matriz D = AB es
 q 
dij (C) 
= aik (C) bkj (C)
C C
k=1

q q
dij (C)  aik (C)  bkj (C)
= bkj (C) + aik (C)
C C C
k=1 k=1

b) En el caso en que n = q = r = 1, segn la definicin 3.13 se tiene

AB AB
c11 c1n
AB . ..
= .. .
C AB AB
cp1 cpn

A A B B
c11 c1n c11 c1n
AB . .. . ..
= .. . B + A .. . ,
C A A B B
cp1 cpn cp1 cpn

62
dado que para cada i = 1, ...p ; j = 1, ..., n

(AB) A B
= B+A ,
cij cij cij

y por tanto,

(AB) A B
= B+A
C C C

c) Ahora, si p = 1, n = 1 y D = AB = (dij ) i = 1, ...m ; j = 1, ..., r, se tiene


que

q q
dij (C)  aik (C)  bkj (C)
= bkj (C) + aik (C) ,
C C C
k=1 k=1

de donde

bij (C) In
  b2j (C) In
dij (C) ai1 aiq
= ... bij (C) In ..
C C C .
bqj (C) In
b1j (C)
C

+ (ai1 (C) Ip ...ain (C) Ip ) ..
.
bqj (C)
C

y por la definicin de producto Kronecker y la definicin 3.12, resulta

dij (C) ai bj (C)


= (bj (C) In ) + (ai (C) Ip ) ,
C C C
y, por consiguiente,

D (AB) A B
= = (B In ) + (A Ip ) .
C C C C
Si p = 1 como Ip = 1, la expresin anterior se transforma en

(AB) A B
= (B In ) + A
C C C
Demostracin. Atendiendo a la definicin de producto Kronecker

63
(A B) aij B
= ,i=1,...,m ,
C C j=1,...,q

y por la definicin 3.17, para cada i = 1, ...m ; j = 1, ..., q se tiene que

aij B (aij bk )


= k=1,...,t
.
C c =1,...,r

Ahora bien, en virtud del apartado anterior,

aij bk aij bk


= bk + aij .
c C C
As pues,
aij aij
C b11 + aij b
C
11
C b1r + aij b
C
1r

aij B .. ..
= . .
C a aij
C
ij
bt1 + aij b
C
t1
C btr + aij b
C
tr

o lo que es equivalente

aij B  aij
 B
= B C + aij .
C C
Por tanto,
   
a11 B a1q B
B C + a11 C B
C
+ a1q
C
(A B)
.. ..


= . .
C    
am1 B amq B
B + am1 B + amq
C C C C

a11 a1q
  B C B
C
(A B) B .. ..
= A +
. .


C C am1 amq
B B
C C

(A B)
C
 
B (A Ir )
Solucin 3.1 = A + (Im B Iq )
C C

64
Ahora bien, a partir de la propiedad 5 del producto de Kronecker, se tiene

A Ir = Pr,m (Ir A) Pq,r

y aplicando dos veces la regla de derivacin del producto indicada en la


proposicin 3.4,3 se obtiene

(A Ir ) (Ir A)
= (Pr,m Ip ) (Pq,r In ) ,
C C
lo que de acuerdo con la solucin 3.1, tomando A = Ir y B = A conduce a
 
(A Ir ) A
= (Pr,m Ip ) Ir (Pq,r In ) .
C C

Demostracin. Teniendo en cuenta la definicin 3.13,

y (A) y (A)
= , i=1,...,p
C cij j=1,...,n

y por la regla de la cadena para el caso unidimensional


t r
y (A)   y(A) akl (C)
= akl .
cij t=1
cij
k=1

Por tanto,
a
y y kl (C) akl (C)
a11 a1n t 
r c11 c1n
y (A) . ..  y (A) .. ..
..
=
C . = akl . .
y y k=1 t=1 akl (C) akl (C)
ap1 apn cp1 cpn

de donde
t r
y (A)   y (A) akl (C)
=
C t=1
akl C
k=1

ahora bien, como


   
y (A) y y y y
= , ..., , ..., , ...,
vec (A) a11 at1 a1r atr
y

65
a11
C
..
.
at1

vec (A)
C
..
= .
C
a1r
C
.
..
atr
C
  
y (A) y (A) vec (A)
resulta =  Ip
C vec (A) C

 
y (A) vec (A)
Solucin 3.2 = Ip 
vec (A) C

Para obtener la expresin alternativa de la regla de la cadena que se indica


en el enunciado, hasta tener en cuenta, que de acuerdo con la propiedad 3 de la
vectorizacin
    
y (A) y (A) y (A)
= vec =  It vec (It ) ,
vec (A) A C

lo que sustituido en la solucin 3.2 permite obtener


     
y (A) y (A) vec (A)
= vec Ip 
C A C
    ! 
y (A) y (A) vec (A)
=  It vec (It ) Ip 
C A C

y (A) " y(A)   #  vec (A)


= A  It vec (It )  Ip
C C
   
y (A) y (A) vec (A)
= (vec (It ))  It Ip ,
C A C

y tomando B2 = Ip en la propiedad 4 del producto de Kronecker se tiene


 
y (A) y (A) vec (A)
= ((vec (It ))  Ip ) Itp .
C A C

Finalmente de acuerdo con las formas alternativas, como


 
vec (A) A
= Ir (vec (Ir ) In )
C C

66
vec (A)
sustituyendo en y haciendo uso de nuevo de la propiedad 4 del
C
producto de Kronecker se tiene
 
vec (A) y (A) A
= ((vec (It ))  Ip ) (vec (Ir ) In )
C A C

Ejemplo 3.15 Dadas las matrices


   
2
x2 y xy (y + 1) 2y x+y
A= 3 x
,B= y
x+1 y e ex+y 0 1
 
x z
C=
w y

x2 x2 y y xy xy
x z x z x z
x2 x2

A y y xy xy
w y w y w y
como = (x+1) y 3 y 3

C (x+1) ez ez
x z x z x z
(x+1) (x+1) y 3 y 3 ez ez
w y w y w y


2x 0 0 0 y 0
0 0 0 1 0 x
=
1

0 0 0 ex 0
0 0 0 3y 2 0 0

0 0 0 0 1 0
B 0 2 (y + 1) 0 2 0 1
y =
ex+y

C 0 0 0 0 0
0 ex+y 0 0 0 0

se tiene

2x 0 0 0 1+y 0
(A + B) A B 0 2 (y + 1) 0 3 0 1 + x
= + =
C C C 1 + ex+y 0 0 0 ex 0
0 ex+y 0 3y 2 0 0

Asi mismo se verifica que



  6x 0 0 0 3y 0
(3A) A 0 0 0 3 0 3x
=3 =3

C C 0 0 0 3ex 0
0 0 0 9y 2 0 0

67
Ejemplo 3.16 Dadas las matrices A y C del ejemplo anterior y el vector

x+y
b = 2x
yz

Ab A b
teniendo en cuenta = (b I2 ) + (A I2 )
C C C

1 0
0 1

A B 2 0
como ya se conoce y, =
C C 0 0
0 y
0 z

sustituyendo en la expresin inicial resulta



x+y 0
2x 0 0 0 y 0 0 x + y

Ab 0 0 0 1 0 x
2x 0
=
C 1 0 0 0 ex 0
0 2x
0 0 0 3y2 0 0 yz 0
0 yz

1 0
x2 0 y 0 xy 0 0 1
0 x2
0 y 0 xy 0
+ 2
x + 1 0 y3 0 ex 0 0 0
0 x+1 0 y3 0 ex 0 y
0 z

3x2 + 2xy + y 2 z + 2y xy2
0 x2 + 2xyz + 2x
=
2x + y + 2y3 + yzex + 1


yex
0 6y 2 x + x + zex + 1

Este resultado coincide con:


 
Ab x3 + x2 y + 2xy + xy2 z
=
C C x2 + xy + x + y + 2xy 3 + yzex

68
Ejemplo 3.17 Dadas las matrices A, B y C definidas por

x+y 2z  2
 x
2y z
A = xy x + z , B = , C = y
3 1 3z
ex y z

se verifica, de acuerdo con el apartado cuarto de la proposicin anterior


 
(A B) B (A I2 )
= A + (I3 B I3 )
C C C

siendo en este caso



0 0
2 0

B 0 2z
= 0 0

C
0 0
0 3
 
(A I2 ) A
= (P2,3 I3 ) I2 P2,2
C C

donde

1 0 0 0 0 0
0 0 0 1 0 0 1 0 0 0

0 1 0 0 0 0 0 0 1 0
P2,3 =

, P2,2 =
0

0 0 0 0 1 0 1 0 0
0 0 1 0 0 0 0 0 0 1
0 0 0 0 0 1

1 0
1 0

0 2

y 1
A
= x 0
C
0 1



ex 1

0 3y 2
0 0

As pues

69

2y z2 0 0
2x + 4y z2 4z 0

0 2xz + 2yz 4y 6z 2

1 3z 0 0

1 3z 0 0

0 3x + 3y 2 12z

2y 2 yz 2 2y z2

4xy xz 2 2x + 2z 0

(A B) 0 2xyz 2y 2xz + 3z 2
=



C y 3yz 1 3z
x 3xz 0 0

0 3xy 1 3x + 6z

2yex z 2 ex 0 0

2ex 0 8y 3 3y 2 z 2

0 2zex 0 2y 3 z

ex 3zex 0 0

0 0 3y 2 9y 2 z
0 3ex 0 3y 3

 
x w
Ejemplo 3.18 Si y = y (A) = |A| = xy zw donde A = y cada
z y

elemento de A es funcin del vector c = (t, u) en la forma x = t + u, y = tu,


z = t2 + u, w = 2u, se verifica que

y (A)

= u2 2ut, 2ut t2 4u , pues por la regla de la cadena, y las


c
proposiciones 3.4 y 5
       
y (A) y (A) vec (A) y (A) vec (A)
= I1  = 
c vec (A) c vec (A) c

1 1

0 2

= y z w x
2t 1 = y 2tw + xu y 2x w + xt
u t

3.6. Propiedades de Derivacin de Funciones Matriciales.


En esta seccin se recogen algunas de las que aparecen con mayor frecuencia.
Los resultados que se indican se obtienen utilizando las definiciones propuestas
en este trabajo, las reglas de derivacin y las diferentes propiedades tanto del
producto de Kronecker como de la vectorizacin de matrices.

70
Proposicin 3.5 Sea A una matriz m n y sean x y z vectores de Rn y Rm ,
respectivamente. Entonces

y (x)
1. Si y (x) = Ax se verifica que = A.
x

2. Si y (x, z) = zAx se verifica que

y y
= zA = xA.
x z

3. Si m = n e y (x) = xAx, se verifica que

y (x) 2 y (x)
= x (A + A) , = (A + A) ,
x xx

y si adems A es una matriz simtrica se tiene que

y (x) 2 y (x)
= 2xA, = 2A.
x xx

4. Si m = n, A es simtrica, X es una matriz de orden np e Y (X) = XAX,


se verifica que

Y (X)
= Pn,p (AX Ip ) + (vec (AX)) (vecIp ) .
X

Demostracin. Si y(x) = Ax entonces


n


a1j xj
j=1

 n

a2j xj
y(x) = Ax = j=1

..
.
n

amj xj
j=1

y teniendo en cuenta la definicin 3.12

71
 


n
x a1j xj
j=1


 n a11 a12 a1n

x a2j xj a21 a22 a2n

y(x)
x =
j=1 = .
. .. .. = A
.. . . .

. a m1 am2 amn

 n
a x
x mj j
j=1

Demostracin. Dado que y (x, z) = zAx = (zA) x, por la proposicin 3.5,


1 resulta

y (zA) x
= = zA
x x

Por otra parte, como y = zAx = y = (xA) z, razonando de forma anloga


se tiene que

y
= xA.
x
n 
 n
Demostracin. Si y(x) = xAx dado que y = xi xj aij , entonces,
j=1 i=1
como para cada k = 1, ..., n, se tiene que
n
 n
y
= akj xj + aik xi = xak + xak
xk i=1
kj=1

aplicando la definicin 3.10 resulta


 
y (x) y y
= = xA + xA = x (A + A)
x x1 xn

teniendo en cuenta esta expresin y la proposicin 3.5, 1, se deduce que


 
2 y (x) y (x)
= = [x (A + A)] = (A + A)  = A + A
xx x x x

lo que coincide con


    
2 y (x) y (x) y (x)
= =  = x [(A + A) x] = A + A
xx x x x x

Si A es una matriz simtrica, los resultados son inmediatos.

72
Demostracin. Si Y (X) = XAX = X (AX) aplicando la regla de deriva-
cin de un producto 3, se tiene

X (AX) X AX
= (AX Ip ) + (X In )
X X X
y aplicndola nuevamente al producto AX resulta

X (AX) X
= Pn,p (AX Ip ) + (X In ) + (A In )
X X
X A
ya que = Pn,p y es la matriz nula.
X X
Finalmente a partir de las propiedades 4 del producto de Kronecker y la
propiedad 2 de la vectorizacin, se concluye

X (AX)
= Pn,p (AX Ip ) + (X In ) (vecIn ) (vecIp ) 
X

X (AX)
= Pn,p (AX Ip ) + (vec(AX)) (vecIp ) ,
X

ya que vec(AX) = vec(AX) por se A una matriz simtrica.

Proposicin 3.6 Sea A una matriz regular de orden m. Entonces se verifica

A1

1. = vec A1 vec A1 .
A

vec A1

2. = A1  A1 .
(vecA) 

Si adems se supone que los elementos de la matriz A son funciones del


vector x Rn , entonces

  1 
A1 (x) A (vecA)
3. = (Im (vecIm ) ) Im
x A x


  (vecA)
vec A1 (x)
4. = (A)1 A1
x x

73
Demostracin. Si A es una matriz regular, entonces existe A1 verificando

AA1 = Im ,

y aplicando en esta expresin la regla de derivacin de un producto resulta

AA1 A 1
A1
0m2 = = A Im + (A Im ) ,
A A A
de donde

A1 1

= (A Im )1 A
A A Im .
A
Ahora bien como
A
= (vecIm ) (vecIm ) 
A
a partir de las propiedades 6, 7 del producto de Kronecker y la propiedad 3
de la vectorizacin se obtiene

A1

= A1 Im (vecIm ) (vecIm )  A1 Im
A

A1



= A1 Im (vecIm ) A1  Im vecIm 
A

A1


= vec A1  vec A1 
A

Demostracin. Dado que AA1 = Im , aplicando el resultado 3a de la


Proposicin 3.4 para cada i, j = 1, ..., m se tiene que

AA1 A 1 A1
= 0m = A +A
aij aij aij

y, por tanto,

A1 A 1
= A1 A .
aij aij

Como

74

0 0 0 0
.. .. .. ..
. . . .
A1
=
0 0 1 0 i
aij . . .. ..
.. .. . .
0 0 0 0

si se denota por ai y aj la fila i esima y la columna j esima de A1 ,


respectivamente, se obtiene

0 0 0 0
a1 . . .. ..
a2 .. .. . . | |
A1

= .. 0 0 1 0 a1 am =
aij . .. .. ..

.. | |
. . . .
am
0 0 0 0
ai aj .

que de acuerdo con la segunda expresin alternativa y la propiedad 2 de la


vectorizacin de matrices, resulta

vec A1
= vec (ai aj ) = (Im ai ) vecaj = (aj ai )
aij

de donde





vec A1 vec A1 vec A1 vec A1
= , , ...,
aj a1j a2j amj

= [aj a1 , aj a2 , ..., aj am ] = aj A1 ,

y por tanto

vec A1  
= a1 A1 , a2 A1 , ..., am A1 =
vec
 (A)

 
A1  A1

Demostracin. Si los elementos de la matriz A son funcin del vector x


Rn , entonces, para cada i, j = 1, ..., m, la derivada del elemento aij de A1
respecto de x, en virtud de la regla de la cadena (Proposicin 3.4, 5) es
 
aij aij vec (A) aij vec (A)
=  = ,
x vec (A) x (vecA)  x

y por tanto

75
 
A1 A1 vec (A)
= .
x (vecA)  x

Ahora bien, como




A1 A1 
= 
(vecA)  vec (A)

y

 1 
A1  A
= 
A A

de acuerdo con las formas alternativas





A1  A1 
= Im (Im vec (Im )) =
vec (A) A
  
A1
 Im (Im vec (Im )) ,
A

de donde
   !
A1 A1 vec (A)
=  Im (Im vec (Im ))  ,
x A x

o lo que es igual
  1 
A1 A vec (A)
= (Im vec (Im ) ) Im .
x A x

Pero como de acuerdo con las expresiones alternativas


 
vec (A) A
= Im (vec (Im ) In )
x x

se obtiene finalmente
  1    
A1 (x) A A
= (Im (vecIm ) ) Im Im (vec (Im ) In ) .
x A x

Demostracin. Como ya se indic antes


  
aij aij vec (A)
= ,
x (vecA)  x

76
as pues, de acuerdo con la proposicin 3.6, 2 resulta

vec A1 vec A1 vec (A) 


 vec (A)
= = A1  A1 .
x (vecA)  x x

Proposicin 3.7 sean A, B y X matrices de ordenes m m , m n , y n m


respectivamente. Entonces

y (A) tr (A)
1. Si y (A) = tr (A) , se tiene que = = Im
A A

2. Si y (X) = tr (BX) , se tiene que

y (X) tr (BX)
= = B
X X

3. Si y (X) = tr (BXA) , se tiene que

y (X) tr (BXA)
= = BA
X X

4. Si C es una matriz de orden n e y (X) = tr (AXCX) , se tiene que

y (X) tr (AXCX)
= = CXA + CXA
X X

y (X)
y si adems C es una matriz simetrica y A = I/m , entonces = 2CX
X
m
Demostracin. Dado que tr (A) = i=1 aii , de acuerdo con la Definicin
3.13, es trivial obtener

y (A) tr (A)
= = Im
A A
m n
Demostracin. Si y (X) = tr (BX) , entonces y (X) = bik xki
i=1 k=1
y por tanto,
m n 


bik xki
m n  x1. i=1 k=1
tr (BX) 
=

bik xki = .
..
=
X X i=1 k=1 m n 
 

bik xki
xn. i=1 k=1

77

b.1
..
. = B
b.n

Demostracin. Teniendo en cuenta que tr (BXA) = tr (ABX) , aplicando


la proposicin 3.7, 2 , resulta

y (X) tr (ABX)
= = (AB)  = BA
X X
Demostracin. De acuerdo con las propiedades 8 y 2 de la vectorizacin
de una matriz y la propiedad 4 del producto de Kronecker se tiene

tr (AXCX) = [vec (AX) ] vec (CX) = [vec (XA)] vec (CX)

= [(A In ) vec (X)]  (Im C) vec (X)

= [vec (X)]  (A C) vec (X)

La derivada de esta expresin respecto a vec (X) es, en virtud de la Proposi-


cin 3.5,3
 
tr (AXCX) tr (AXCX)
=  = ((vec (X))  [(A C) + (A C)]) 
vec (X) [vec (X)]

= [(A C) vec (X)] + [(A C) vec (X)]

= vec (CXA) + V EC (CXA) = vec (CXA + CXA)

Por ultimo, teniendo en cuenta la primera expresin alternativa, como


 
tr (AXCX) tr (AXCX)
vec = = vec (CXA + CXA)
X vec (X)

se concluye que

tr (AXCX)
= CXA + CXA
X
y, en caso de ser C simetrica y A = Im , es inmediato que

tr (XCX)
= 2CX
X

Proposicin 3.8 Sea A una matriz cuadrada de orden m y X una matriz de


orden m p . Entonces

78
y (A) |A|
1. Si y (A) = |A| , se tiene que = = Adj (A) 
A A

2. Si A es simetrica e y (X) = |XAX| , se tiene que

y (X)
= 2AX Adj (XAX)
X

3. Si A es simetrica e y (X) = In |XAX| con XAX no singular, se tiene


que

y (X) 2
= AX Adj (XAX) = 2AX (XAX)1
X |XAX|

Si se supone que los elementos de la matirz A son funciones de x Rn ,


entonces

4. Si y (x) = |A (x)| , se tiene que


 
y (x) A (x)
= [vec (Adj (A) )]  Im (vec (Im ) In )
x x

verificandose tambien que si A (x) es no singular


  
In |A(x)| A(x)
= tr (A1 )
x xi i=l,...,n

Demostracin. Dada A matriz cuadrada de orden m, si para cada elemento


aij i, j = 1, ..., n se denota por A ij su cofactor correspondiente, se tiene que


n
|A| = aik Aik
k=1

Entonces
 n 
|A| 
= aik Aik = Aij
aij aij
k=1

Teniendo en cuenta la Definicin 3.12 resulta



A11 A12 A1n
|A| . .. .. = Adj (A) 
= .. . .
aij
An1 An2 Ann

79
Demostracin. Si se denota por bij i, j = 1, ..., p a los elementos de la matriz
B = XAX , aplicando la regla de la cadena, resulta para cada k = 1, ..., m,
7 = 1, ..., p
p p
y (X)   |B| bij
=
xk i=1 j=1
bij xk

|B|
Como para cada i, j = 1, ..., p es el cofactor correspondiente Bij , se
bij
tiene
p p
y (X) |XAX|   bij
= = Bij =
xk xk i=1 j=1
xk

 
XAX
[vec (Adj (XAX))] vec
xk

que de acuerdo con la propiedad 8 de la vectorizacin se puede reducir a


 
|XAX| XAX
= tr Adj (XAX)
xk xk

Teniendo en cuenta la derivada de un producto (Proposicin 3, 3a), para


cada k = 1, ..., m , 7 = 1, ..., p , se verifica

XAX X X
= AX + XA donde
xk xk xk

X p X
 ek y
= em = em 
k ek
xk xk
p
adems, emk y ek representan dos vectores columna de m y p elementos todos
ellos nulos salvo el k-simo y el 7-esimo, respectivamente, que son iguales a la
unidad. En virtud de esto y teniendo en cuenta las propiedades de la traza,

|XAX|  p m p


= tr Adj (XAX) em ek AX + XAek e
xk
p
m p

= Adj (XAX) em ek AX + tr XAek e Adj (XAX)

= tr (b ak X) + tr (Xak b )

= tr (ak Xb ) + tr (ak Xb


 )

= ak Xb + ak Xb




80
siendo b y b la 7-sima columna y fila, respectivamente, de la matriz
Adj (B) = Adj (XAX) y ak y ak la k-sima columna y fila, respectivamente,
de la matriz A
De acuerdo con la Definicin 3.13,

x (X) |XAX|
= = AX Adj (XAX) + AX (Adj (XAX))  =
X X

2AXAdj (XAX)

ya que tanto A como XAX y, por consiguiente, Adj (XAX) , son matrices
simtricas

Demostracin. Aplicando la regla de la cadena y teniendo en cuenta el


apartado anterior, resulta

x (X) In |XAX| |XAX|


=
X |XAX| X

1
= 2AXAdj (XAX)
|XAX|

= 2AX (XAX)1

pues por hiptesis, XAX es simtrica y no singular

Demostracin. Si y (x) = |A (x)| con x Rn , por la regla de la cadena,


    
|A (x)| |A (x)| vecA (x) |A (x)| vecA (x)
=  = vec 
x vecA (x) x A (x) x

de donde, en virtud de la demostracin 3.6 se obtiene


 
|A (x)| A (x)
= [vec (Adj (A (x)) )]  Im (vecIm In )
x x

considerando ahora que A (x) es una matriz no singular para cada x Rn ,


por definicin se tiene que
 
In |A (x)| In |A (x)| In |A (x)|
= , ,
x x1 xn

Para cada i = 1, ..., n

In |A (x)| In |A (x)| |A (x)| 1 |A (x)|


= =
xi |A (x)| xi |A (x)| xi

81
y segn la regla de la cadena
 
|A (x)| |A (x)| vec (A (x)) vec (A (x))
=  = [vec (Adj (A (x)) )] 
xi vec (A (x)) xi xi

se tiene
  
In |A (x)| 1 vec (A (x))
= vec Adj (A (x))  
xi |A (x)| xi
 

A (x)
= vec A1 vec
xi

y utilizando la propiedad 8 de la vectorizacin, se obtiene


   
In |A (x)| A (x) 1

A (x)
= tr A  = tr A1 
xi xi xi

Por tanto
    
In |A (x)| 1
A (x) 1
A (x)
= tr A  , ..., tr A 
x x1 xn

Ejemplo 3.19 Sea la funcin y (x) = x Ax con A matriz simtrica y no singu-


lar de orden n. Supngase que se desea conocer si y (x) tiene mximo o mnimo
global en algn punto x Rn . para ello habr que estudiar si y (x) tiene puntos
crticos, lo que presupone resolver el sistema de ecuaciones

y (x)
=0
x
es decir, de acuerdo con la Proposicin 3.5, 3

y (x)
= 2xA = 0
x
Cuya solucin es x = 0 por ser A no singular.

Si y (x) tiene mximo, mnimo o punto de silla lo alcanzar en x = 0. Para


poder decidir el comportamiento de y (x) en x bastar utilizar condiciones de
segundo orden, y como en este caso

2 y (x)
= 2A
xx
para todo x Rn se verificar que
x = 0 es mnimo global si A es definida o semidefinida positiva
x = 0 es mximo global si A es definida o semidefinida negativa
x = 0 es punto de silla si A es indefinida

82
Ejemplo 3.20 Sea la matriz
 
a11 a12
A=
a21 a22

cuyos elementos dependen de x = (x1 , x2 , x3 ) de forma que

a11 = a22 = x1 + x3
a12 = x1 + x2
a21 = x1 x2

De acuerdo con las proposiciones 3.6 y 3, se verifica que para todo x R3++

A1 (x)   1  vec [A (x)]


= (I2 (vecI2 ) ) A
A I2
x x
dado que
 
1 a22 a12
a1 = resulta
|A| a21 a11

A1

= vec A1  vecA1  =
A

 2 a22
1 a12

a22 a21 a12 a11


|A| a21
a11

a222 a21 a22 a12 a22 a22 a11
1 a12 a22 a12 a21 a212 a12 a11

=
|A| a21 a22 a221 a12 a21 a21 a11
a11 a22 a11 a21 a12 a11 a211

Por otra parte se obtiene que


a11 (x)

x 1 0 1
a21 (x)
vec [A (x)]
x
1 1 0
=
x a12 (x) 1 1 0
x
a22 (x) 1 0 1
x

Por tanto, efectuando los correspondientes productos y teniendo en cuenta


la propiedad 2 del producto de Kronecker, se tiene que

A1 (x) tr (A)
=
x |A|2

83

  1 0 1
a22 0 a21 0 a12 0 a11 0 1 1 0

0 a22 0 a21 0 a12 0 a11 1 1 0
1 0 1

Ejemplo 3.21 Sea la funcin y (x) = tr (AX) donde



1 3  
x11 x12 x13
A = 2 0 y X=
x21 x22 x23
1 1

como tr (AX) = x11 + 3x21 + 2x12 x13 + x23 entonces


 
tr (AX) 1 2 1
= = A
X 3 0 1

tal como se indica en la Proposicin 3.7, 2

Ejemplo 3.22 Sea A una matriz no singular de orden n , entonces aplicando


la regla de la cadena

In |A| 1 |A|
=
A |A| A

y, de acuerdo con la Proposicin 3.8, 1, se tiene

In |A| 1
= Adj (A)  = A1
A |A|

es decir, en virtud de la Definicin 3.13, para cada i, j = 1, ..., n

In |A| 1
= Aji
aij |A|

 
a11 a12
Ejemplo 3.23 Dada A =
a21 a22

cuyos elementos dependen de x = (x1 , x2 ) de forma que aij = ix1 + jx2 con
x1  0 y x2 0 , i , j = 1, 2, se verifica que

In |A (x)| In (a11 (x) a22 (x) a21 (x) a12 (x))


=
x x
 
1 (a11 (x) a22 (x) a21 (x) a12 (x)) (a11 (x) a22 (x) a21 (x) a12 (x))
= ,
|A| x1 x2

84
 
1 1
= ,
x1 x2

que coincide con lo que se seala en la Proposicin 3.8, 4


    
In |A (x)| 1
A (x) 1
A (x)
= tr A  , tr A  pues como
x x1 x2
 
x1 + x2 x1 + 2x2
A (x) =
2x1 + x2 2x1 + 2x2

entonces
 
1 2 (x1 + x2 ) x1 + 2x2
A1 =
x1 + x2 2x1 + x2 (x1 + x2 )

y
   
A (x) 1 1 A (x) 1 2
= , =
x1 2 2 x2 1 2

y, por tanto
 
1
A (x) 1 1
tr A  = (2x2 x2 ) =
x1 x1 x2 x1
 
1
A (x) 1 1
tr A  = (2x1 x1 ) =
x2 x1 x2 x2

Cuando la matriz respecto de la que se deriva es simtrica, debe de tenerse en


cuenta esta caracterstica pues, en caso contrario, pueden obtenerse resultados
aparentemente contradictorios [Bar98]. Por ejemplo si

y (A) = a211 + a222 + a212 , donde


 
a11 a21
A=
a12 a22

y cada elemento de la matriz A es funcin del vector x = (x1 , x2 ) en la forma:

a11 = x1 + 2x2 , a22 = x1 , a12 = x1 x2

al aplicar la regla de la cadena (Proposiciones 3.4, 4) resulta


 
y (A) y (A) vec (A (x))
= 
x vec (A) x

85

1 2

x2 x1
= 2a11 2a12 2a12 2a22 x2

x1
1 0

= 4x1 + 4x2 + 4xs1 x22 4x1 + 8x2 + 4x21 x2

sustituyendo directamente y considerando que


2 2
y (A (x)) = (x1 + 2x2 ) + x21 + (x1 x2 ) = 2x21 + 4x22 + 4x1 x2 + x21 x22

al calcular el gradiente se obtiene un resultado diferente, debido a que


y = 4x1 + 4x2 + 2x1 x22 , 8x2 + 4x1 + 2x21 x2

Hay una aparente contradiccin, que se debe a que tras sustituir se ha consi-
derado y (A) como una funcin de tres variables a11 , a12 , a22 cuando en realidad
es una funcin de R4 R, la cual est definida en puntos cuyas componentes
segunda y tercera son iguales. Al tener esto en cuenta, los calculos de la derivada
coinciden. Para manejar esta aparente disparidad en los resultados al calcular la
derivada respecto de una matriz simtrica A , usualmente se deriva nicamente
respecto de los elementos distintos de A, utilizando la vec
 (A) cuya descripcin
se encuentra en la definicin 3.9.

86
APLICACIN A REDES NEURONALES
CAPA 0 CAPA 1 CAPA 2
1.0
b11
S11 y11
b21 f 1(S11 ) W112
W111 b22
b12 d1
b1 W121 2
3 W 21

S12 y12 e12


( )
f 2 S12 e1

y10 W211 W122


S21 y12
f 1(S21 )
2
W 22 d2
W311
1
W 22
S22 y22
W132 ( )
f 2 S22 e2 e22

W232
S31 y31
W 1 f 1(S31)
32
y20

Figura 2:

4. Aplicacines
4.1. Redes Neuronales
A continuacin se expone el desarrollo completo de una aplicacin tpica de
la derivacin de funciones vectoriales y matriciales, que es el caso de la solucin
de problemas mediante las redes neuronales artificiales.Esta aplicacin es un
trabajo realizado por [Per07]
Utilizando notacin matricial, es fcil comprobar que una red multicapa
cuyas funciones de activacin son lineales se pueden reducir a una red de una
capa lineal; por ello es preciso utilizar funciones de activacin no lineales. El
algoritmo Backpropagation es un algoritmo iterativo que permite entrenarredes
multicapa. La figura ?? muestra una red neuronal tpica, donde y son las en-
tradas, S las salidas, W los pesos, e el error y f (s) la salida deseada

4.1.1. Caractersticas del Algoritmo


1. Busca el mnimo de la funcin error a partir de un conjunto de patrones
de entrenamiento.
2. Precisa que la funcin de activacin sea diferenciable (fcilmente).
3. Entrenar consiste en modificar los pesos de la red.

87
4. Los pesos se modifican hacia la direcci descendente de la funcin error.
5. La red entrenada es capaz de generalizar, clasificando correctamente pa-
trones ruidosos o incompletos.
6. indica cunto cambian los pesos.
7. Si es muy pequeo, la velocidad de aprendizaje es muy lenta. Si es
muy grande aparecen efectos oscilatorios.

1 1
b1  2 y1  
b e
b1 = b12 , b2 = 12 , y 1 = y21 ,e = 1
1 b2 nn(2)x1 1 e2
b3 nn(1)x1 y3 nn(1)x1
1
S1  2  2
S y
S 1 = S21 , S 2 = 12 , y 2 = 12
1 S2 nn(2)x1 y2 nn(2)x1
S3 nn(1)x1
1 1
2 2

W11 W12 W11 W12
W 1 = W211 1
W22 , W 2 = W212 2
W22
1 1 2 2
W31 W32 nn(1)nn(0) W31 W32 nn(2)nn(1)
nn (k) = nmero de neuronas de la capa k, nc = ndice de la ltima capa
 k      
En general S nn(k)x1 , y k nn(k)x1 , bk nn(k)x1 , W k nn(k)xnn(k1) ,
 
e nn(nc)x1

4.1.2. Propagacin hacia adelante.


Clculo

S11 = W11
1 0 1 0
y1 + W12 y2 + b11

S21 = W21
1 0 1 0
y1 + W22 y2 + b12

S31 = W31
1 0 1 0
y1 + W32 y2 + b13

1 1
W11 1
W12  0 b1
y
Matricialmente S 1 = W21
1 1
W22 1 1
0 + b2
1 1 y2
W31 W32 b13

Por lo tanto, 1 1 0

b 1, y en1 general,
1
S 1 = W1 y 1+
1
1
S k = W k yk1 + bk
1 1
y1 = f1 S1 , y2 = f2 S2 , y3 = f3 S3

88
1 1 1
1 1

y1 f1 S1

f1 S1

y21 = f21 S21 , haciendo F 1 S 1 = f21 S21 , queda y 1 = F 1 S 1



y31 f31 S31 f31 S31


En general:

yk = F k S k

e1 = d1 y12 e2 = d2 y22
     2
e1 d y
= 1 12 e = d y 2 , en general e = d y nc
e2 d2 y2

donde nc = ndice de la ltima capa  


  e1
El error cuadrtico 8 = e21 + e22 = e1 e2 = eT e
e2

4.1.3. Propagacin hacia atrs.


Escalarmente

8 (n)
Wij2 (n + 1) = Wij2 (n)
Wij2 (n)

8 (n)
b2i (n + 1) = b2i (n)
b2i (n)

donde n indica el nmero de iteracin


 2 2 2

W11 (n + 1) W12 (n + 1) W13 (n + 1)
2 2 2 =
W21 (n + 1) W22 (n + 1) W23 (n + 1)

 2   )(n) )(n) )(n)



2 2
W11 (n) W12 (n) W13 (n) 2
11 (n)
2 (n) 2 (n)
2 2 2 W
)(n)
W12
)(n)
W13
)(n)
W21 (n) W22 (n) W23 (n) 2 2 (n) 2 (n)
W21 (n) W22 W23

8 (n)
Es decir, W 2 (n + 1) = W 2 (n)
W 2 (n)

y escalarmente:

8 8 ei yi2 Si2 8 Si2


= =
Wij2 ei yi2 Si2 Wij2 Si2 Wij2

89
Matricialmente

8 8 S 2
=
W 2 S 2 W 2

8
= derivada de una funcin escalar con respecto a un vector
S 2
S 2
= derivada de una funcin vectorial de argumento matricial con res-
W 2
pecto a una matriz
Escalarmente

8 8 ei yi2
2 =
Si ei yi2 Si2
Matricialmente se debe tener en cuenta que si z es una funcin de p, la
cual es una funcin de y, que a su vez es una funcin del vector x, entonces

dz dy p z
=
dx dx y p
Teniendo en cuenta lo anterior

8 y 2 e 8 8 y2 e 8 S 2
= =
S 2 S 2 y2 e W 2 S 2 y 2 e W 2
Teniendo en cuenta que

dAx S 2 2 1

T
= xT 2
= 2
W y + b2 = y1
dA W W
En general,
S k
T
= y k1
W k
2
y1 y22
y 2 S12 S12
yi2
= y2 y22
, ya que yi2 = fi2 Si2 , entonces, = 0, para
S 2 1
2
Sj2
S2 S22
yi2

i = j y = fi2  Si2
Sj2
2
y1
y 2 0
2

= S12
2
, como yi2 = fi2 Si2 yi = fi2  Si2
S 2 y 2
Si
0 S 2
2
2

90


y2
y 2 = F 2 S 2 se puede hacer F 2  S 2 =
S 2

 e e2

1
e y12 y12 ei
= e1 e2 , ya que ei = di yi2 , entonces = 0, para i = j
y 2 y22 y22 yj2
ei
y = 1
yi2
 e   
e y12
1
0 1 0
= e2 =
y 2 0 y22
0 1
 
T
e
= e e = 2e = 2 1
e e e2
Acoplando todos estos resultados

2  
y1 e1  
0 0 e1  
= S12 y12
2 y11 y21 y31
W 2 y22 0 e2 e2
0 S22 y22


y12   
0 1 0 e1  1 
=2 12
S y1 y21 y31
W 2 y22 0 1 e2
0 S22


y12  
S 2 0 e1  1 
= 2

1 y1 y21 y31
W 2 y 2 e2
0 22
S2

y12
S 2 e1  1 
2
= 2 y21 y1 y21 y31 =
W S 2 e2
2

2
2
y y 2 y 2
2e1 S12 y11 2e1 S12 y21 2e1 S12 y31
1 1 1
y2 y 2 y 2
2e2 S22 y11 2e2 S22 y21 2e2 S22 y31
2 2 2

Si se hace

y 2   y12  2 2
  2
S12 0 2 e
2
= 2 = 2 1
2
e1 = S212 1 = 2f12  S12
e1 = 12
S 0
y
22 e2 y
2 22 e2 2f2  S2 e2 2
S2 S2

Matricialmente

91
 2 2



f  S1 0

2 = 2F 2  S 2 e donde F 2  S 2 = 1
0 f22  S22

Entonces,


T
2
= 2 y1
W
recordando que

(n)
W 2 (n + 1) = W 2 (n) donde n es el contador de iteraciones
W 2 (n)
 T
W 2 (n + 1) = W 2 (n) + 2 (n) y(n)
1

Ahora

(n)
b2 (n + 1) = b2 (n)
b2 (n)

S 2 S 2
2
= 2 2
= 2 2
b b S b

pero S 2 = W 2 y1 + b2 recurdese que yk+1 = W k S K + bk



2 S12 S22  
S b212 b21 1 0
= S22
=
b2 S1 0 1
b22 b22

    2
1 0 21 1
= = = 2
b2 0 1 22 22

Por lo tanto

b2 (n + 1) = b2 (n) + 2

En general, para los pesos y el BAS de la ltima capa se tiene


nc = 2F nc  (S nc ) e


T
nc
= nc ync1
W
 T
W nc (n + 1) = W nc (n) + 2 (n) y(n)
nc1

92

= nc y bnc (n + 1) = bnc (n) + nc
(n) donde nc es el nmero de capas
bnc
de la red

Ahora es necesario hallar la frmula para la actualizacin de W 1 y b1

(n)
W 1 (n + 1) = W 1 (n)
W 1 (n)

S 1 y1 S 2 y 2 y 1 S 2 S 2
= y = = =
W 1 S 1 W 1 S 1 S 1 y 1 S 2 y 2 e S 1 y 1 S 2 S 1 S 2
y1 y21 y31

1
S11 S11 S11
y 1
y11 y21 y31
= S21 S21 S21
S 1
y11 y21 y31
S31 S31 S31


yi1 yi1

Recordando que yi1 = fi1 Si1 1 = 0, i =


j 1 = f 1  Si1
Sj Si
y1
1
0 0 1 1

S11
f1  S1 0
0
y 1 y21

= 0 0 =
0 f21  S21 0
= F 1  S 1
S 1 S21
y31 0 0 f31  S31
0 0 S31

S 2

T
1
= 1 W 2 y 1 + b2 = W 2
y y

Es decir
S 2 S22

1
y11 y11
S 2 S12

S22
=
y21 y21
recordando que
y 1
S12 S22
y31 y31

Si2
S12 = Wi1
2 1 2 1
y1 + Wi2 2 1
y2 + Wi3 y3 + b2i = Wij2
yj1

2 2

W W21
S 2 11 2 2

T
= W12 W22 = W2
y 1 2
W13 2
W23

8
Recordando que = 2
S 2

93
y1
1
0 0 2
2  2
8 S11
y21
W11 W21
2 1
=
0 0 2
W12 W22
S 1 S21
2 2 22
1
y3 W13 W23
0 0 S31



T
1
= F 1  S 1 W 2 2
S


T
haciendo 1 = F 1  S 1 W 2 2


= 1
S 1

S 1 W 1 y 0 + b1
T
1
= 1
= y0
W W

S k
T
en general = y k1
W k

S 1
T
1
= 1 1
= 1 y0
W S W
En general

S k
=
W k S k W k

S k+1
=
S k S k S k+1

S k+1 y k S k+1 y k

k
= k k
k
= F k  Sk
S S y S

S k+1 W k+1 yk + bk+1 S k+1 k+1


T
= = W
y k y k yk

S k+1

T
= F k  S k W k+1
y k



T
k+1
= k+1 k
= F k  S k W k+1 k+1
S S
Si se generaliza



T
k = k k = F k  S k W k+1 k+1 k =
k+1 S

T k+1

W F k  Sk ya que F k  S k es simtrica

94
S k k
k1
T
= = y
W k S k W k
 T
W 1 (n + 1) = W 1 (n) + 1(n) y(n)
0

y, en general
 T
W k (n + 1) = W k (n) + k(n) y(n)
k1

Ahora se determina la frmula de actualizacin para b1

(n)
b1 (n + 1) = b1 (n)
b1 (n)

S 1
1
=
S 1 = 1
b b1 S 1
S 1 S21 S31

1
b11 b11 b11

1 0 0
S 1 11 S21 S31

 
1
= S1 b12 b12 = 0 1 0 = I nn(1)
b b2
S11 S21 S31 0 0 1
b13 b13 b13

En general,

S k  
= I nn(k)
bk


1 0 0

b1 = 0 1 0 1 = 1
0 0 1

En general,

 
k
= I nn(k) k = k
b

b1 (n + 1) = b1 (n) + 1 (n)

bk (n + 1) = bk (n) + k (n)

95
4.1.4. Resumen (Algoritmo)
Datos de Entrada

Patrones de entrenamiento X con su salida deseada.

 
X nn(0)Xnp donde np = nmero de patrones.
 
d nn(c)Xnp donde nc = nmero de capas de la red (recuerde que la capa

de entrada no se considera como una capa de la red).

Nmero mximo de iteraciones: N U MIT

Valor de la tasa de aprendizaje:

Valor de la tolerancia: T OL
Inicializar:

1 2 nc
W(1) , W(1) , ..., W(1)
b1(1) , b2(1) , ..., bnc
(1)

con valores aleatorios pequeos,


 k
Wij nn(k)Xnn(k1) [0,5, 0,5]

 k
bi nn(k) [0,5, 0,5]

n = 0, =0

Mientras que n <= N U MIT < T OL

0
y(n) = X(n) , donde X(n) es un vector de entrada escogido aleatoriamente

96
4.1.5. Propagacin hacia adelante.

Para k = 1 hasta nc

k k k1
S(n) = W(n) y(n) + bk(n)

 
k
y(n) = F k S(n)
k

Fin para k.

e(n) = d(n) y nc (n)

(n) = e(n)T e(n)

4.1.6. Propagacin hacia atrs.

nc (n) = 2F nc  (S nc (n)) e (n)


T
W nc (n + 1) = W nc (n) + nc (n) y nc1 (n)

bnc (n + 1) = bnc (n) + nc (n)

Para k = nc 1 hasta 1


T
k (n) = F k  S k (n) W k+1 (n) k+1 (n)


T
W k (n + 1) = W k (n) + k (n) y k1 (n)

bk (n + 1) = bk (n) + k (n)

Fin para k

97
APLICACIN A REDES NEURONALES

1 .0
S11 1 y 11
S11
1+ e

S12 y12
tanh( S12 )

y 10

S 21 1 y12
1 + e S2
1

y20

S22 y22
tanh( S 22 )

S 31 1 y 31
1+ e S31

Figura 3:

Ejemplo 4.1 Entrenar una red neuronal para aprender los siguientes patrones
n x1 x2 d1 d2
1 1 1 1 1
2 1 1 1 1
3 1 1 1 1
4 1 1 1 1

Utilice una red 2-3-2 (2 entradas, 3 neuronas en la capa oculta y dos neuronas
en la capa de salida.
Utilice funcin logstica como funcin de activacin para todas las neuronas
de la capa oculta (capa 1) y tanh para todas las neuronas de la capa de salida
(capa 2).
Se va a trabajar con = 0,5
La figura ?? muestra la red propuesta.
Primer Patrn n = 0
Inicializacin:

0,7826 0,609  
0,0636 0,6596 2,0639
W 1 (1) = 1,4372 1,6513 , W 2 (1) =
0,582 1,8127 2,2377
2,713 2,8013

0,437  
0,7279
b1 (1) = 1,298 , b2 (1) =
1,9579
2,2137

98
   
x1 (1) 1
y 0 (1) = X(1) = =
x2 (1) 1

S 1 (1) = W 1 (1) y 0 (1) + b1 (1)



0,7826 0,609   0,437
1
S 1 (1) = 1,4372 1,6513 + 1,298
1
2,713 2,8013 2,2137

0,9576
S 1 (1) = 1,7905
7,728
1
1 1

f1 S1 (1)

1
1+eS1 0,27796067
1
y 1 (1) = f21 S21 (1)
=
1+eS21 = 0,85698857

1 1 1 0,99955987
f3 S3 (1) S1
1+e 3

S 2 (1) = W 2 (1) y 1 (1) + b2 (1)



  0,27796067  
0,0636 0,6596 2,0639 0,7279
S 2 (1) = 0,85698857 +
0,582 1,8127 2,2377 1,9579
0,99955987
 
3,33848298
S 2 (1) =
1,11287495
 2 2
 
  
f1 S1 (1)
tanh S12 (1)
tanh (3,33848298)
y 2 (1) = = =
f22 S22 (1) tanh S22 (1) tanh (1,11287495)
 
2 0,99748398
y (1) =
0,80507629

e (1) = d (1) y 2 (1)


     
1 0,99748398 0,00251602
e (1) = =
1 0,80507629 0,19492371

99
4.1.7.Propagacin hacia atrs.

Ejemplo 4.2 1. 2 (1) = 2F 2  S 2 (1) e (1)


Recuerde que:

f 21 S12 (1) = tanh S22 (1) = y12 (1)




2
f 21  S12 (1) = 1 y12 (1)

f 22 S22 (1) = tanh S22 (1) = y22 (1)




2
f 22  S22 (1) = 1 y22 (1)
 2 2


f 1  S1 (1) 0
2F 2  S 2 (1) =

0 f 22  S22 (1)

2 
1 y12 (1) 0
=
2
0 1 y22 (1)
  
2 1 (0,99748398) 0 0,00251602
(1) = 2
0 1 (0,80507629) 0,19492371
 
2,52896 X 105
2 (1) =
0,13716866

T
W 2 (2) = W 2 (1) + 2 (1) y1 (1)
 
0,0636 0,6596 2,0639
W 2 (2) = +
0,582 1,8127 2,2377
 
2,52896 X 105  
0,5 0,27796067 0,85698857 0,99955987
0,13716866
 
0,0636 0,6596 2,0639
W 2 (2) = +
0,582 1,8127 2,2377
 
3,514775 X 106 1,08364 X 105 1,2639 X 105
0,019063746 0,0587755987 0,06855414
 
0,063596485 0,659610836 2,063912639
W 2 (2) =
0,562936254 1,871475987 2,169145856

b2 (2) = b2 (1) + 2 (1)


 
0,7279
b2 (2) = + 0,5
1,9579


T
1 (1) = F 1  S 1 (1) W 2 (1) 2 (1)
1

y1 (1) 1 y11 (1) 0
0
1 (1) = 0 y21 (1) 1 y21 (1) 0 1


1
0 0 y3 (1) 1 y3 (1)

100

0,0636 0,582  5

0,6596 1,8127 2,52896 X 10
0,13716866
2,0639 2,2377

0,01602252
1 (1) = 0,03047584
0,00013501

T
W 1 (2) = W 1 (1) + 1 (1) y0 (1)

0,7826 0,609 0,01602252  
W 1 (2) = 1,4372 1,6513 + 0,5 0,03047584 1 1
2,713 2,8013 0,00013501

0,7826 0,609 0,00801126 0,00801126
W 1 (2) = 1,4372 1,6513 + 0,01523792 0,01523792
2,713 2,8013 6,7506 X 105 6,7506 X 105

0,79061126 0,61701126
W 1 (2) = 1,45243792 1,66653792
2,71293249 2,80123249

b1 (2) = b1 (1) + 1 (1)



0,437 0,01602252
b1 (2) = 1,298 + 0,5 0,03047584
2,2137 0,00013501

0,42898874
b1 (2) = 1,28276208
2,21363249

4.2. Derivadas Matriciales en Matlab.


Aprovechando las funciones bsicas y las operaciones que con respecto a ma-
trices se pueden utilizar en Matlab, se disearon unas pequeas funciones que
permiten a travs de la utilizacin de las propiedades de la derivacin matricial,
empleando la vectorizacin y el producto de Kronecker, resolver derivadas ma-
triciales. Se adjuntan los cdigos fuente de las mismas, las cuales son solo un
ejemplo, teniendo en cuenta que las funciones f1, f2 y dems que se presentan,
pueden ser modificadas de acuerdo con la necesidad de solucin.
Un exmen previo de las figuras 4 hasta la 8 puede facilitar la lectura de
esta seccin, ya que el lenguaje Matlab es bastante intuitivo. Inicialmente se
han creado dos funciones vec() que realiza la vectorizacin de una matriz por
columnas, tal como se observa en la figura 4 y vecf () que realiza la vectorizacin
por filas de una matriz, tal como se observa en la figura 5.

En primera instancia, se debe tener claro que es posible definir funciones


nuevas y archivos de sencuencia de comandos (script) en Matlab. De hecho, las

101
function [vec] = vec(mat)
%vectorizacion (columna)
%CAPTURA TAMAO
[m,n] = size(mat);
%LEE ELEMENTOS Y REUBICA
for I = 1:m,
for J = 1:n,
pos=n*(I-
pos=n*(I-1)+J;
vecf(pos) = mat(I,J);
end
end
%TRANSPONE
vec=vecf.';
end
end

Figura 4: Vectorizacin de una matriz.

function [vecf] = vecf(mat)


%CAPTURA TAMAO
[m,n] = size(mat);
%LEE ELEMENTOS Y REUBICA
for I = 1:m,
for J = 1:n,
pos=n*(I-
pos=n*(I-1)+J;
vecf(pos) = mat(I,J);
end
end
end

Figura 5: Vectorizacin por filas de una matriz.

% CREA VARIABLES
syms v
syms w
syms x
syms y
syms z
%CREA MATRICES IDENTICAS DE ORDEN 1 HASTA 5
I1=eye(1);
I2=eye(2);
I3=eye(3);
I4=eye(4);
I5=eye(5);
return

Figura 6: Inicializacin, crea variables simblicas y matrices idnticas.

102
% CASO:
% DERIVACIN DE f(x,y,z,...) RESPECTO DE CADA VARIABLE INDEPENDIENTE
% BORRA VARIABLES DE LA MEMORIA
clear
% INICIALIZA VARIABLES Y CREA MATRICES UTILITARIAS
ini

% USUARIO: SE DEFINEN FUNCIONES


%EJEMPLO:
f1=x^2+y^3;
f2=2*x*y;
%Fn=...

% USUARIO: SE DEFINEN VECTORES O MATRICES


% EJEMPLO:
Y=[f1 ; f2];
X=[x y];
%%% PROCESANDO... %%%
% EXTRAE EL TAMAO DE LOS VECTORES O MATRICES:
[P,N]=size(X);
[M,Q]=size(Y);
% EXPANSION:
for I = 1:M,
for J = 1:Q,
%DERIVAR CADA ELEMENTO DE Y RESPECTO A MATRIZ
MATRIZ X:
for K=1:P,
for L=1:N,
%DERIVACIN INDIVIDUAL:
R(P*(I-
R(P*(I-1)+K,N*(J-
1)+K,N*(J-1)+L)=diff(Y(I,J),X(K,L));
end
end
end
end
R

Figura 7: Codigo completo para realizar una derivacin matricial simple.

figuras referenciadas muestran cdigo de cada uno de ellos. Tanto las funciones
como los scripts pueden utilizar funciones de control de flujo para detallar la
forma como se desea ejecutar una secuencia de procesos. Por ejemplo, en Matlab
se dispone de los comandos: for, if, else, elseif, while, return, break, con un uso
bastante similar al de otros programas ms conocidos, aunque con una sintaxis
ligeramente diferente.
De inters particular para este trabajo, se encuentran las funciones para la
generacin, manipulacin de matrices y operaciones con matrices. Algunas de
ellas son:

trace(M): calcula la traza de una matriz.M


kron(M, N) : desarrolla el producto de kronecker de las matrices M y N.
eye(M, N): devuelve una matrz idntica de tamao M N.
ones(M, N): devuelve una matrz de unos de tamao M N.

103
%BORRA VARIABLES DE LA MEMORIA
clear
%INICIALIZA VARIABLES Y CREA IDENTICAS
ini

%SE DEFINEN FUNCIONES


f1=2*x+3*y;
f2=x^2+2*y;
f3=exp(x);
f4=2*x*y;
f5=1/x;
f6=4*y-
f6=4*y-x^2;
%SE DEFINEN MATRICES
X=[f1 f2 ; f3 f4; f5 f6];
[filas,col]=size(X);
dXrX=(vec(eye(filas))*vecf(eye(col)))
dXrX=(vec(eye(filas))*vecf(eye(col)))
R=kron(eye(col),dXrX)*kron(vec(eye(col)),eye(col))

vec(X)
Figura 8: Desarrollo de utilizando las propiedades.
X

zeros(n): devuelve una matrz idntica de tamao M N.


: (dos puntos) crea un vector espaciado regularmente.
linspace: crea un vector espaciado linealmente.
logspace: crea un vector espaciado logartmicamente.
diag: crea o extrae diagonales.
reshape: cambia la dimensin de la matriz.
tril: extrae la matriz triangular inferior.
triu: extrae la matriz triangular superior.
det: calcula el determinante de una matriz.
eig: calcula los autovalores y autovectores.
expm: calcula la exponencial de una matriz.
logm: calcula el logaritmo de una matriz.

Se pueden consultar funciones adicionales mediante el men de ayuda del


programa o mediante el comando help de Matlab.
El cdigo que muestra la figura 6 tiene por objeto crear variables simblicas,
con el fin de poder utilizarlas dentro de expresiones ms complejas. Adems,
crea un conjunto de matrices idnticas, para utilizar cuando se necesiten.

104
En la figura 7, se expone el cdigo necesario para derivar una funcin ma-
tricial de variable matricial, aunque se ha desarrollado como primer ejemplo el
caso particular en que tanto la funcin como la variable son vectoriales.
vec(X)
En el ejemplo de la figura 8 se muestra como resolver el problema de .
X
Para ello, despus de observar las propiedades que cumple este desarrollo, se
ha planteado la solucin como lo indica el cdigo all expuesto. Al utilizar las
propiedades de la derivacin, el proceso se hace ms simple y menos costoso
computacionalmente.
Los resultados de la ejecucin de los ejercicios expuestos coinciden plena-
mente con los desarrollos mediante otros paquetes o tcnicas,siempre y cuando
se definan correctamente los tipos de datos (entero, real, etc).
Mediante la aplicacin iterativa de las frmulas presentadas, se pueden ob-
tener las derivadas de orden superior o la aplicacin de la regla de la cadena. En
primera instancia, hay una gran cantidad de opciones para desarrollar en este
caso, cada una de las cuales requiere que se definan correctamente las variables
dependientes e independientes, la relacin funcional, y las matrices o vectores
que intervienen.
Matlab es un lenguaje de programacin que facilita el trabajo con matri-
ces. Dado que la representacin interna de Matlab es en forma matricial, los
programas finales son compactos y relativamente sencillos.

105
5. Conclusiones
Al finalizar el trabajo, es necesario presentar algunos puntos importantes,
considerados como vitales en la comprensin y realizacin del mismo.

Al iniciar el estudio de la derivacin matricial es fundamental tener claridad


en conceptos y definiciones de la teora bsica del lgebra lineal y del clculo
diferencial.

Antes de introducirse directamente en el tema, es necesario comprender las


operaciones que complementan el lgebra lineal y que son el soporte de la deriva-
cin matricial, tales como la permutacin de matrices por bloques, el producto
de Kronecker y la vectorizacin de matrices por fila y por columna.

Al abordar la derivacin matricial es fundamental analizar las propiedades


del producto de Kronecker, de la vectorizacin de matrices, las reglas de deriva-
cin matricial y las formas alternativas de derivacin con el fin de minimizar la
solucin de problemas, teniendo en cuenta que en algunos casos la expansin de
las matyrices es bastante amplia y utilizando adecuadamnte la o las reglas enu-
meradas anteriormente, el procedimiento de solucin es ms gil, ms eficiente
y esposible que la expansin de las matrices sea ms reducida.

A nivel personal puedo concluir que adquir el conocimiento de nuevas ope-


raciones del lgebra lineal y el del tema central: el clculo matricial, lo que
significa un avance personal muy interesante, que aunque mnimo si se tiene en
cuenta la amplitud del campo matemtico, si muy importante en el desarrollo
y el conocimiento de nuevos temas relacionados con la matemtica.

A nivel profesional, es como haber dado el primer paso en la profundizacin


de conceptos y conocimientos, los cuales se logran solo a travs del tiempo y con
la dedicacin necesaria que permiten realmente formar al verdadero matemtico.

Por ltimo, espero que el trabajo haya respondido a las expectativas de las
directivas y docentes de la Fundacin y que sirva como un aporte interesante no
solo para los matemticos, sino para los profesionales que de una u otra forma
en sus aplicaciones requieren de la derivacin matricial.

106
Referencias
[Her86] I. Herstein, lgebra Abstracta. Mxico: Grupo Editorial Iberoamericano
(1985).
[Bar98] R. Barbolla, P. Sans, lgebra Lineal y Teora de Matrices. Madrid:
Prentice-Hall (1998).
[San94] R. Snchez, A. Velasco, Curso Bsico de Algebra Lineal. Bogot: Ed
Trillas (1994).
[Mey07] C. Meyer, Matrix Analysis and Applied Linear Algebra.
http://www.matrixanalysis.com/ (2007)
[Rad99] C. Radhakrishna, H. Toutenburg, Linear Models: Least Squares and
Alternatives. New York: Springer (1999).
[Per07] P Rengifo. Borradores de Trabajo y Notas de Clase Sistemas Basados
en el Conocimiento. FUKL. (2007)
[Mag06] J. Magnus, Matrix Calculus and Econometrics. Tilburg University
(2006)

107

También podría gustarte