Está en la página 1de 16

MTODOS AVANZADOS EN APRENDIZAJE ARTIFICIAL: TEORA Y APLICACIONES A PROBLEMAS DE PREDICCIN Manuel Snchez-Montas Luis Lago Ana Gonzlez

Escuela Politcnica Superior Universidad Autnoma de Madrid

Repaso de conceptos de lgebra lineal


Notacin vectorial y matricial Vectores Matrices Espacios de vectores Transformaciones lineales Autovalores y autovectores

Notacin vectorial y matricial


Un vector columna x de d dimensiones y su transpuesta se escriben as:

Una matriz rectangular de n x d dimensiones y su transpuesta se escriben as:

El producto de dos matrices es:

donde

Vectores (1)
El producto interno de dos vectores (o producto escalar) se define por:

La norma de un vector (o magnitud, longitud) es:

La proyeccin ortogonal del vector y sobre el vector x es:

Donde el vector ux tiene norma 1 y la misma direccin que x El ngulo entre los vectores x e y est definido por:

Dos vectores x e y son: Ortogonales si xT y = 0 Ortonormales si xT y = 0 y |x| = |y| = 1

Vectores (2)
Un conjunto de vectores x1, x2, , xn son linealmente dependientes si existe un conjunto de coeficientes a1, a2, , an (con al menos uno diferente de cero) tales que

Intuitivamente, esto quiere decir que hay por lo menos un vector redundante, que podemos expresar como combinacin de los otros. Por ejemplo, si a1 0:

x1 = c2 x2 + c3 x3 + + cn xn
con

ck = - ak / a1

Alternativamente, un conjunto de vectores x1, x2, , xn son linealmente independientes si

Matrices
El determinante de una matriz cuadrada A de d x d dimensiones es:

- donde Aik es el menor, matriz formada cogiendo A y eliminando su fila i y su columna k - El determinante de una matriz es igual al de su transpuesta: |A| = |AT|

La traza de una matriz cuadrada A de d x d dimensiones es la suma de los elementos de su diagonal: El rango de una matriz es el nmero de filas (o columnas) linealmente independientes Se dice de una matriz cuadrada que es no singular si y slo si su rango es igual al nmero de filas (o columnas) - El determinante de una matriz no singular es distinto de 0 Se dice de una matriz cuadrada que es ortonormal si AAT = ATA = I

Matrices
Dado una matriz cuadrada A: - Si xT A x > 0 para todo x 0, entonces se dice que A es definida positiva (ejemplo: matriz de correlacin) - Si xT A x 0 para todo x 0, entonces se dice que A es semidefinida positiva La inversa de una matriz cuadrada A se denomina A-1, y es una matriz tal que A-1 A = A A-1 = I - La inversa de A existe si y slo si A es no singular (su determinante no es cero) En algunos problemas cuando la inversa de A no existe (porque A no es cuadrada, o es singular), se utiliza la pseudoinversa A, que se define como: A = [AT A]-1 AT con A A = I (notad que en general A A I )

Espacios de vectores
El espacio n-dimensional en el cual todos los vectores de n dimensiones residen se denomina un espacio de vectores Se dice que un conjunto de vectores { u1, u2, , un } es una base de un espacio vectorial si cualquier vector x puede ser expresado como una combinacin lineal de los { ui }

- Los coeficientes { a1, a2, , an } se denominan

componentes del vector x con respecto a la base { ui }

- Para ser una base, es necesario y suficiente que los n vectores { ui } sean linealmente independientes Se dice que una base { ui } es ortogonal si Se dice que una base { ui } es ortonormal si

- Por ejemplo la base cartesiana de coordenadas es una base ortonormal

Espacios de vectores
Dados n vectores {v1, v2, , vn} linealmente independientes, podemos construir una base ortonormal {w1, w2, , wn } por el procedimiento de ortonormalizacin de Gram-Schmidt

w1 = v1

wj = v j
i =1

j i

v j wi wi
2

wi

La distancia entre dos puntos en un espacio vectorial se define como la norma del vector diferencia entre los dos puntos:

Transformaciones lineales
Una transformacin lineal es un mapeo del espacio vectorial XN al espacio vectorial YM, y se representa por una matriz - Dado un vector x XN, el correspondiente vector y de YM se calcula as:

- Notad que la dimensin de los dos espacios no tiene por qu ser la misma - Para problemas de reconocimiento de patrones tpicamente tendremos M < N (proyeccin en un espacio de menor dimensin) Se dice que una transformacin lineal representada por la matriz cuadrada A es ortonormal cuando AAT = ATA = I - Esto implica que AT = A-1 - Las transformaciones ortonormales preservan la norma de los vectores:

- Las transformaciones ortonormales se pueden ver como rotaciones del sistema de ejes de referencia - Los vectores fila de una transformacin ortonormal forman una base de vectores ortonormales

con

Autovectores y autovalores (1)


Dada una matriz cuadrada A de N x N dimensiones, decimos que v es un autovector si existe un escalar tal que Av=v Entonces, se dice que es autovalor de A Clculo de los autovectores
solucin trivial solucin no trivial ecuacin caracterstica

La matriz formada por los autovectores columna se denomina matriz modal M La matriz es la forma cannica de A: una matriz diagonal con los autovalores en su diagonal

Autovectores y autovalores (2)


Propiedades - Si A es no singular Todos los autovalores son diferentes de cero - Si A es real y simtrica Todos los autovalores son reales Dos autovectores asociados a diferentes autovalores son ortogonales entre s - Si A es definida positiva - Todos los autovalores son positivos - Si A es semidefinida positiva - Todos los autovalores son mayor o igual que cero

Interpretacin de los autovectores y autovalores (1)


Si consideramos la matriz A como una transformacin lineal, entonces un autovector representa una direccin invariante en el espacio vectorial Cualquier punto en la direccin de v es transformado por A en otro punto que est en la misma direccin, y su mdulo es multiplicado por el correspondiente autovalor

Por ejemplo, la transformacin que rota los vectores de 3 dimensiones en torno al eje Z tiene un solo autovector, que es [0 0 1]T, siendo 1 es su autovalor correspondiente

Interpretacin de los autovectores y autovalores (2)


Dada la matriz de covarianza de una distribucin gaussiana - Los autovectores de son las direcciones principales de la distribucin - Los autovalores son las varianzas de las correspondientes direcciones principales La transformacin lineal definida por los autovectores de lleva a componentes que estn descorrelacionadas, independientemente de la forma de la distribucin En el caso particular de que la distribucin sea gaussiana, entonces las variables transformadas sern estadsticamente independientes
con y

Estadsticamente Independientes

Repaso de conceptos de probabilidad y estadstica


Definicin y propiedades de la probabilidad Variables aleatorias - Definicin de variable aleatoria - Funcin de distribucin acumulada - Funcin de densidad de probabilidad - Caracterizacin estadstica de variables aleatorias Vectores aleatorios - Vector promedio - Matriz de covarianzas Distribucin de probabilidad gaussiana

Variables aleatorias
Cuando consideramos un proceso aleatorio, normalmente nos interesa saber alguna medida o atributo numrico que genera una secuencia de valores modelizables.

Ejemplos: Cuando muestreamos una poblacin nos puede interesar por ejemplo el peso y la altura Cuando calculamos el rendimiento de dos ordenadores nos interesa el tiempo de ejecucin de un programa de test Cuando tratamos de reconocer un avin intruso, nos puede interesar medir los parmetros que caracterizan la forma del avin

Variables aleatorias
Definimos una variable aleatoria X que puede tomar un conjunto de valores {xi} como una funcin X( ) que asigna un nmero real x a cada resultado en el espacio de muestreo de un experimento aleatorio x= X( ).
- Esta funcin X() realiza un mapeo de todos los posibles elementos en el espacio de muestreo a la recta real (nmeros reales). - La funcin X() que asigna valores a cada resultado es fija y determinista - La aleatoriedad en los valores observados se debe a la aleatoriedad del argumento de la funcin X() , es decir, el resultado del experimento Las variables aleatorias pueden ser:
- Discretas: por ejemplo, el resultado en el lanzamiento de un dado Continuas: por ejemplo, el peso de un individuo escogido al azar

map

Funcin de distribucin acumulada (fda)


Dada una variable aleatoria X, se define su funcin de distribucin acumulada Fx(x) como la probabilidad del evento {X < x}
Fx(x) = P[X < x] para - < x < + 1 lb = 0.454 Kg

De manera intuitiva, Fx(b) representa la proporcin de veces en la que X( ) < b


fda del peso de una persona

Propiedades de la funcin de distribucin acumulada

Funcin acotada y montonamente creciente

si a b
fda del resultado de un dado

Funcin de densidad de probabilidad (fdp)


La funcin de densidad de probabilidad de una variable aleatoria continua X, si existe, se define como la derivada de Fx(x)
fdp 1 lb = 0.454 Kg

fdp del peso de una persona

El equivalente a la fdp para variables aleatorias discretas es la funcin de masa de probabilidad ( fmp ):

fmp

fmp del resultado de un dado

Funcin de densidad de probabilidad (fdp)


Propiedades de la funcin de densidad de probabilidad

donde

si

Densidad de probabilidad versus probabilidad


Cul es la probabilidad de que alguien pese 200 libras =90.8 Kg ?

- De acuerdo a la fdp, es cerca de 0.62 - Suena razonable, no ?


fdp

Ahora, cul es la probabilidad de que alguien pese 124.876 libras = 56.70 Kg? - De acuerdo a la fdp, es cerca de 0.43 - Pero, intuitivamente, la probabilidad debera ser cero Probabilidad en un punto es cero.

fdp del peso de una persona

Cmo explicamos esta paradoja ? - La fdp no define una probabilidad, sino una DENSIDAD de probabilidad! - Para obtener una verdadera probabilidad, debemos integrar en un intervalo - La pregunta original es incorrecta, nos deberan haber preguntado: Cul es la probabilidad de que alguien pese 124.876 libras, ms / menos 2 libras ?

Caracterizacin estadstica de variables aleatorias


La fdp o fmp son SUFICIENTES para caracterizar completamente una variable aleatoria. Sin embargo, una variable aleatoria puede ser PARCIALMENTE caracterizada por otras medidas Valor esperado (media) Representa el centro de masa de la densidad

Varianza Representa la dispersin alrededor de la media

Desviacin estndar Es la raz cuadrada de la varianza, por lo que tiene las mismas unidades que la variable aleatoria

Momento de orden N

Vectores aleatorios
La nocin de vector aleatorio es una extensin de la nocin de variable aleatoria - Una variable vectorial aleatoria X es una funcin que asigna un nmero real a cada posible valor del espacio de muestreo S - Consideraremos siempre a un vector aleatorio como un vector columna

x1 x2 x 3

Las nociones de fda y fdp se sustituyen por fda conjunta y fdp conjunta - Dado un vector aleatorio X = [x1 x2 xN]T definimos - La funcin de distribucin acumulada conjunta como:

- La funcin de distribucin de probabilidad conjunta como:

Vectores aleatorios
El trmino fdp marginal se usa para representar la fdp de un subconjunto de los componentes del vector - Se obtiene integrando la fdp en las componentes que no son de inters - Por ejemplo, si tenemos un vector X = [x1 x2]T , la fdp marginal de x1, dado la fdp conjunta fx1 x2 (x1, x2) es:

Caracterizacin estadstica de vectores aleatorios


Al igual que en el caso escalar, un vector aleatorio est completamente caracterizado por su fda conjunta o su fdp conjunta Alternativamente, podemos describir parcialmente un vector aleatorio por medio de medidas similares a las definidas para el caso escalar Vector promedio
T

Matriz de covarianza

Matriz de covarianza
La matriz de covarianza indica la tendencia de cada par de atributos (las componentes del vector aleatorio) de variar juntas, es decir, co-variar

La matriz de covarianza C tiene varias propiedades importantes:


- Si

xi y xk tienden a aumentar juntas, entonces cik > 0

- Si xi tiende a disminuir cuando xk aumenta, entonces cik < 0 - Si xi y xk no estn correlacionadas, entonces cik = 0 - |cik| i k donde i es la desviacin estndar de xi - cii = i2 = VAR(xi)

Matriz de covarianza
Los componentes de la matriz de covarianza se pueden escribir como: cii = i2 y cik = ik i k - donde ik es el llamado coeficiente de correlacin

Correlacin versus independencia


Se dice que dos variables aleatorias xi y xk no estn correlacionadas si

E [xi xk] = E [xi] E [xk]


- En este caso tambin se dice que estas variables aleatorias son linealmente independientes (no confundir con la nocin de independencia lineal de vectores).

Se dice que dos variables aleatorias xi y xk son independientes, su distribucin conjunta ser el producto de las marginales.

P [xi xk] = P [xi] P [xk]

La distribucin Gaussiana o Normal (1)


La distribucin multivariable Normal o Gaussiana N( , ) se define como

En una sola dimensin, esta expresin se reduce a

La distribucin Gaussiana o Normal (2)


Las distribuciones gaussianas son muy utilizadas ya que: - Los parmetros ( , ) son suficientes para caracterizar completamente la distribucin gaussiana - Si los atributos no estn correlacionados ( cik = 0 ), entonces son tambin independientes - La matriz de covarianza es entonces diagonal, con las varianzas individuales en la diagonal - Las densidades marginales y condicionadas son tambin Gaussianas - Cualquier transformacin lineal de N variables conjuntamente Gaussianas, nos da un vector cuya distribucin es tambin Gaussiana - Si la distribucin del vector X = [X1 X2 XN]T es Gaussiana, y A es una matriz, entonces la distribucin de Y=AX es tambin Gaussiana. Para el caso particular de que A sea una matriz invertible, entonces:

Interpretacin de los autovectores y autovalores (2)


Dada la matriz de covarianza de una distribucin gaussiana - Los autovectores de son las direcciones principales de la distribucin - Los autovalores son las varianzas de las correspondientes direcciones principales La transformacin lineal definida por los autovectores de lleva a componentes que estn descorrelacionadas, independientemente de la forma de la distribucin En el caso particular de que la distribucin sea gaussiana, entonces las variables transformadas sern estadsticamente independientes
con y

Estadsticamente Independientes

El Teorema Central del Lmite


El teorema dice que si y = xk , siendo xk N variables aleatorias independientes con distribuciones individuales arbitrarias, entonces la distribucin de y tiende a ser Gaussiana segn se va haciendo mayor N. En el lmite N

, termina siendo una Gaussiana perfecta.

En otras palabras, cualquier variable que sea la contribucin de muchos factores aleatorios independientes tiende a ser Gaussiana. Ejemplos: ruido en aparatos medidores,

Ejemplo numrico: calculamos un histograma a partir de 500 valores de y generados con y = xk