Está en la página 1de 4

Tarea Nro 1

IPD-440: Aprendizaje de Mquinas


Oswaldo Anbal Menndez Granizo
02 de Abril de 2015

Problema 1.1 Encontrar una expresn general para el clculo del gradiente de:

h
xT Ax = x1


x xT Ax

a11 a12

i a21 a22
. . . xn
..
..
.
.

an1 an2

x2

(1)
...
...

..

...

x1


a2n x2

.. ..

.
.
xn
ann
a1n

(2)

Resolviendo la multiplicacin de matrices se tiene:


xT Ax = (a11 x1 + a21 x2 + + an1 xn ) x1 + (a12 x1 + a22 x2 + + an2 xn ) x2 + . . .

(3)

+ (a1n x1 + a2n x2 + + ann xn ) xn

Aplicando la denicin de Gradiente se obtiene:

2a11 x1 + (a21 + a12 ) x2 + + (an1 + a1n ) xn

(a
+
a
)
x
+
2a
x
+

+
(a
+
a
)
x


21
12
1
22 2
n2
2n
n
T

x Ax =
..

(an1 + a1n ) x1 + (an2 + a2n ) x2 + + 2ann xn

(4)

De donde se nota que la matriz anterior puede ser representada como:

a11

a12

...

a1n

a11

a21

...

an1

a21
T

x Ax =
..
.

an1

a22

...



a2n a12

.. + ..

.
.
ann
a1n

a22

...



an2 x2

.. ..

.
.
ann
xn

..
.

an2

..

...

..
.

a2n

..

...

x1

(5)

De donde se tiene nalmente la siguiente expresin:




x xT Ax = A + AT x

(6)

Para una matriz simtrica se tiene que se cumple que A = AT de donde se tiene:

x xT Ax = 2Ax

(7)

Problema 1.2 Encontrar una expresn general para el Hessiano de:


x 2 xT Ax

(8)

Aplicando la denicin de Hessiano a la expresin (3) se tiene:


2 f (x)

=
(2a11 x1 + (a21 + a12 ) x2 + + (a1n + an1 ) xn ) = 2a11
x1 2
x1

(9)

2 f (x)
=
((a21 + a12 ) x1 + 2a22 x2 + + (a2n + an2 ) xn ) = a21 + a12
x1 x2
x1

(10)

2 f (x)

=
(2a11 x1 + (a21 + a12 ) x2 + + (a1n + an1 ) xn ) = a21 + a12
x2 x1
x2

(11)

2 f (x)

=
((a21 + a12 ) x1 + 2a22 x2 + + (a2n + an2 ) xn ) = 2a22
x2 2
x2

(12)

De manera general derivando para el trmino xn se tiene las siguientes expresiones:

2 f (x)
=
((an1 + a1n ) x1 + (a2n + an2 ) x2 + + 2ann xn ) = 2ann
xn 2
xn

(13)

2 f (x)

=
((an1 + a1n ) x1 + (a2n + an2 ) x2 + + 2ann xn ) = an1 + a1n
x1 xn
x1

(14)

2 f (x)

=
(2a11 x1 + (a21 + a12 ) x2 + + (a1n + an1 ) xn ) = an1 + a1n
xn x1
xn

(15)

De donde se obtiene que el Hessiano viene dado por:

x 2

2a11

a21 + a12
xT Ax =
..

an1 + a1n

a21 + a12

...

an1 + a1n

2a22

...

an2 + a2n

..

2ann

..
.

..

an2 + a2n

...

(16)

La expresin anterior puede ser escrita de la siguiente manera:

x 2

a11

a12

...

a1n

a11

a21

...

an1

a21
T
x Ax =
..
.

an1

a22

...



a2n a12

.. + ..

.
.
ann
a1n

a22

...

an2

..
.

ann

..
.

an2

..

...

..
.

a2n

..

...

(17)

De donde se tiene nalmente la siguiete expresin:



x 2 xT Ax = A + AT

(18)

Para una matriz simtrica se tiene que se cumple que A = AT de donde se tiene:

x 2 xT Ax = 2A

(19)

Problema 1.3.- De acuerdo a la ecuacin caractersitica obtenida en clases relacionada con los
vectores propios de la matriz de convarianza, obtenga una expresin para la proyeccin de los
datos X en un espacio de orden menor generado por los vectores propios donde este la mayor
parte de la varianza.
El objetivo de PCA es reducir el nmero de variables de los datos de entrada consevando la mayor cantidad de
informacin posible. El funcionamiento de PCA est enfocado a encontrar, a partir de un conjunto de datos de
entrada X con m variables, un vector de pesos u1 capaz de proyectar este conjunto de datos sobre la direccin
de mxima varianza de X , una vez que se encuentra u1 , se busca encontrar un vector u2 que sea ortogonal a
u1 que retenga la mxima varianza posible, se continua as hasta encontrar el p-esimo elemento up ortogonales

entre s. La matriz de covarianzas por denicin es una matriz simtrica por el teorema espectral se garantiza
que cualquier matriz cuadrada simtrica con coecientes reales es ortogonalmente diagonalizable por lo que
todos sus autovectores son linealmente independientes y ortogonales entre s, lo que garantiza que la proyeccin
de los datos sobre el espacio generado por lo p autovectores sea la suma de la proyeccin sobre cada vector de
la base dada en otras palabras:
Sea V un espacio vectorial de dimensin n < y S = {s1 , . . . , sk } un subconjuto l.i de dicho espacio, donde si
son los autovectores de la matriz de convarianza. Dado un vector v V , la proyeccin de v sobre el (sub)espacio
generado por S es igual a la suma de sus proyecciones sobre los elementos de S si y solo si los vectores de S son
ortogonales, es decir:
proy Span

Sv

(20)

= proy s1 v + + proy sk v

Demostracin Necesidad : Se puede expresar la condicn planteada de la siguiente manera


n
A s1

s2

...

sn

(21)

El Span de S es el espacio columnas de A (C (A)), adems S genera el subespacio y todos sus elementos deben
ser l.i por lo que es una base. Se obtiene la proyeccin de v en el Span de S dado por:

proy Span

proy Span

Sv

h
= s1

h
v
=
s1
S

s2

s2

...

...

i
s2 T h

sn
.. s1

s T
2

sn

s1 T s1

T
i
s2 s1

..
.

s T s
n
1

s2

...

s1 T s2

s2 T s2

..
.

sn T s2

..


i
s2 T

sn
.. v

sn T

(22)

s1 T sn
s1 T

s2 T sn s2 T

.. .. v
.
.

sn T sn
sn T

(23)

Ya que todos los vectores de S son ortogonales entre s se tiene que:


hsi , sj i = si T sj = 0

i 6= j

(24)

Aplicando este principio a (23) se tiene:

proy Span

h
v
=
s1
S

s2

...

sn

s1 T s1

0
i

..

proy Span

h
v
=
s1
S

s2

...

sn

1

s1 T s1

i
0

proy Span

Sv

= s1 s1 T s1

proy Span

1

Sv

..
.

s2 T s2

..
.

..

s2 T s2

..
.

s1 T + s2 s2 T s2

0
1

0
s2

.. .. v

sn T sn
sn T
0

1

..

s1 T

0
s2

..
.

..
.

1

T
T
sn sn
sn

(25)

s2 T + + sn sn T sn

1

sn T

= proy s1 v + proy s2 v + + proy sk v

(26)

(27)
(28)

Demostracin Suciencia: Se puede expresar a la condicin planteada de la siguiente manera:


proy Span

Deniendo a Ps1 proy Span

Sv

Sv

proy s1 v = proy s2 v + + proy sk v

(29)

proy s1 v se tiene:
Ps1 = proy s2 v + proy s3 v + + proy sk v

(30)

Si nosotros analizamos a la proyeccin de v como un nuevo vector a que queremos proyectar en un subespacio
ms pequeo se puede observa que Ps1 = Span{s1 } pues represemta la parte del vector que no pertenece a s1 .
De manera similar si se realiza el mismo procedimiento con los otros vectores se puede observar que para cada
vector Psi donde i = 1, 2, ..., k viene a ser el complemento ortogonal del Span de s1 , por lo que se determina
que cada para de vectores de S son ortogonales entre s.

También podría gustarte