Está en la página 1de 53

Atributos: edad, casado, .......

, tipo de trabajo Cada atributo tiene ciertos valores P.e. Edad tiene valores numericos Casado yiene valores {s/N} hay que decidir cuales de los atributos son importantes Experto

El clasicador: - Entra: un ejemplo - Salida: una clase predicha de un conjunto nito de clases Aprendizaje supervisado: - Entrada: un conjunto de ejs previamente clasicados (x1,y1), -, (xn,yn) (conjunto de entrenamiento) un clasicador - Salida: un clasicador entrenado o clasicado. Existen muchos clasicadores: - Clasif Bayesiano. - k vecinos mas cercanos (k-nn). - Arboles de decision. - Perceptrones multicapa. - Modelos de Markov ocultos. - Redes Bayesianas. Buena generalizacion. Capaidad

Tasa de error E: conjunto de entrenamiento. P: conjunto con ejes preeviamente clasicados (conjunto prueba) Conguramos el clasicador con E, pasando cada eje de P por el clasicador vemos si da el resultado correcto o no. Tasa_error

1.4 Clasicador: k-nn - Fijar k, sea E = {(x1,y1),...,(xn,yn)} -> conjunto de entrenamiento - Para clasicar un mero vector X: 1- Calcular la distancia de x a cada punto de E 2- Encontrar los k puntos de E mas cercanos a x (es decir con menor distancia). 3- Asignar la clase mayoritaria.

Distancia de manhattan o del taxi

Viernes 20 enero 2012

Utilizar un conjunto de entrenamiento para congurar el clasicador. 1.5. Tipos de Datos - Cualitativos o simbolicos. - Numericos (Cuantitativas).

Cuantitativos Continuas Presion arterial Peso Edad Talla Salario Temperatura Cualitativas Nominal Vivo/muerto Genero/sexo Grupo sanguineo

Discretos Numero de hijos Edad (determinado caso)

Ordinal Adversion fuerte, adversion....

Preprocesamiento de datos Normalizacion escalamos los valores de un atributo de la siguente forma. Sea S el atributo numerico, ymaxs = maximo de los valores que puede tomar S. Mins = minimo de los valores q puede tomar S.

Estandarizacion

Asigna la clase mayoritaria

Lunes 23 Enero 2012 Aprendisaje supervisado Se habla de conjuntos linealmente separables cuando, existe una linea recta que separa dos conjuntos de datos.

Como encontrariamos (w,b) para datos linealmente separables?

Miercoles 25 de Enero 2012

La regla de delta Widrow + Hopf 1962 (adaline) Introducimos una funcion de error E (w') y utilizamos el gradiente decendente para encontrar minimos

El gradiente de E con respecto a W

Existen dos maneras de extender 1- Agregando una funcion sigmoide.

2- Varias salidas.

Experimentar con k = 1, 2, 3 Boundary Volted Perceptron Multilayer perceptron sin capas ocultas

Unidades de procesamiento organizadas en capas

1 capa oculta con dos unidades h1 y h2. 1 capa de salida con una unidad O1. 1 capa de entrada con 2 unidades.

Retropropagacion (backpropagation) 1- Determinar la arquitectura. - cuantas unidades de entrada y de salida. - cuantas capas ocultas y cuantas unidades en cada capa. 2- inicializar todos lo pesos y umbrales a valores aleatorios pequeos (ej -1,1). 3- Repetir hasta un criterio de terminacion. - presentar cada patron y calcular su salida (paso adelante). - adaptar los pesos empezando en la capa oculta y trabajando haia atras Wpq(t+1) = Wpq(E) + DeltaWpq Donde Wpq(t) es el precio de no p al nodo q en paso t. (cambio de peso) donde n pertenece a [0, 1] parametro de aprendizaje.

Para una unidad i de salida. Para una unidad j oculta. (la suma sobre todos los nodos i en la capa arriba de j).

Arquitectura Capas ocultas 1sola Normalizacion Sesgo ID3 C4.5 J48 Reales Poda Atributos faltantes.

Aprendizaje basado en margenes. Clasicar con margenes maximos.

1- Denir el vocabulario Vj el numero de palabras en V dene la dimension. 2- Contar lo siguiente en el conjunto de entrenamiento: - N el numero de documentos. - Nj el numero de documentos en la clase Ci, para cada clase. - nk (wt) el numero de documentos en la clase Ck que contienen la palabra wt, para todas las clases y palabras. 3- 4- Asignar un documento nuevo D' mediate

Regresion logistica para la clasicacion

En general no conocemos P(Ci | x) y en reg log.supongamos que:

MSV con mas de dos clases. Supongamos que existen C clases. 1 vs Resto. Se calculan varias MSV tomando una contra el resto, se hacen C maquinas. 1 vs 1. Se hacen alrrededor de (C-1)(C-2).

Combinaciones de clasicadores (Ensemble learning) Seria posible conseguir un clasicador fuerte usando una conjuncion de clasicadores debiles ? Clasicador fuerte = Clasicador con una buena tasa de error. Clasicador debil = Clasicador que esta un poco mejor que la adivinacion. Se demostro que si a nes de los aos 80's. Podemos entender por que: supongamos que hay 25 clasicadores y cada clasicador tiene una tasa de error de 0.35. Suponiendo que son independientes, entonces la probabilidad de que un clasicador combinado hace una prediccion equivocada de:

Para clasicar un numero ej se vota entre los clasif. Trabaja de mejor manera con clasicadores que sean estables. Breiman 1994. Adaboost (Adaptive boost) Frennd + Schapire 1995 Construye un clasicador fuerte como una combinacion lineal de clasicadores

Vamos a contruir una coleccion de pesos Wt, t=1......,N - Inicializar todos los pesos a

- Entrenar un clasicador ht sobre { D, wt (i) } dando una prediccion ht(xn) por cada patron xn. - Calcular el error de entrenamiento.

Donde Zt es una constante para normalizar a 1

Bagging. Combinacion de clasicadores (ensemble learning).

Bootstraping Muestreo con reemplazo.

Adaboost

Mezcla de Expertos.

Stacking

Agrupamiento Hasta el momento hemos hablado de aprendizaje supervisado, pero en este caso hablaremos de aprendizaje no supervizado.

Organizar los grupos en grupos. Ej k= 2

K- medias Sea D = { x1,,,,,,xn} para un subconjunto Di c D denimos el centroide mui de Di como:

Para una particion D1,,,,,,,Dk de D

Denimos una funcion, la suma de los cuadros de la particion D1, ,,,,,, Dk por

Objetivo: queremos minimizar J, es decir encontrar k grupos tal que J sea minimo. Fijar k - inicializar los k centroides m1,,,,,mk. - mientras que no converge. * asignar a cada vector xi al agrupamiento con centroide muy cercano. * Recalcular los centroides como el centroide de los vectores asignados a este

Escojer centroide Para cada punto x en D - asignar x al centroide mas cercano. - Recalcular los nuevos centroides C es mas cercano a b.

Hubo modicaciones. Si A esta mas cerca de mu1 por tanto no hay cambio

Mezclas de Gaussianas. La distribucion Gaussiana o normal para una dim. Es denida por:

Ubicacion - mu = media Diersion - desviacion estandar Varianza desviasion estandar al cuadrado.

Estimacion de parametros dados los puntos x1.......xn

Ej Clase S Clase T

Para varias variables.

Covarianza nxn.

Estimacion de parametros.

Denicion. Una mezcla de gaussianas es unadistribucion de la forma.

1977 Algoritmo EM (Expectation - Maximization). Dado puntos x1, ......xn petenecientes a R dos el algoritmo es usado para encontrar N gaussianas (es decir sus medias Mi y covarianzas) 1- Inicializar las medias y covarianzas a algunos valores. P.e usar un subconj aleatorio de los datos para las medias y Para las covarianzasa multiplos grandez de la identidad.

2- Actualizar las medias y covarianzas segun.

Tambien se puede usar para clasicacion. En este caso se toma los datos de cada clase y se encuentra un modelo mezaclado de gaussianas para cada uno. Por ejemplo hay dos clases.

Agrupamiento Encontrar conglomerados en un conjunto de datos basado en una medida de (des) similitud como distancia o correlacion. Aprendizaje no-supervizado. Agrupamiento duro / suave Enfoquez. - Particionado. (k-medios). - Probabilistico. (Modelo mezclado de gaussianas). - Difuso. (Fuzzy c-means). - Jerarquico. ( Agrupamiento Difuso. Conjuntos difusos y fns. De membresia. Zadeh (60's) - mujer bonita - subjetivo Es como el concepto de carro rapido. Lenguaje natural -> terminos vagos. Logica difusa trata de cuanticar estos terminos vagos. Logica clasica <

Para cualquier y en R o y pertenece a H o y no p ertenece a H. Y= 6.5 entonces y pertenece a H. Y= 3 entonces y no pertenece a H. F = conjunto de los carros rapidos.

X1 tiene una velocidad de 199 ypor lo tanto no pertenece a F. X2 tiene una velocidad de 201 y por lo tanto pertenece a F.

Con cada conjunto F asocia una funcion de membresia. Mf : X -> [0, 1] mf(x) representa el grado de membresia de X en el conjunto F. Mf = 0 x no pertenece a F. Mf = 1 x si pertenece a F. Vel(x) = 199 Mf(x) = 0.5 es decir que hay un grado de pertenencia al conjunto F.

Fuzzyc-means (FCM) Es un metodo de agrupamiento suave que permite que un dato pertenezca a mas de un conglomerado.

N = el numero de patrones. C = numero jo de conglomerados. M pertenece al intervalo (0,1) Uij = grado de membresia de Xi en el conglomerado j.

Algoritmo FCM Bezdek 1981 1- Inicializar U = Uij , U0 2- Calcular los centroides Ck = [Cj] con Uk y *. 3- Actualizar Uk dando Uk+1 por

4- Si.

Entonces termina si no regreesa a 2.

Disminucion en el desempeo de un clasicador. - La necesidad de una explosion combinatoria en terminos del numero de datos que se reuiere para congurar el clasicador.

Suponganos ue {xq ,,,,xase c]) puntos en Rn A los cualds, .n que cuales Nias miaouedesk. De oreomp pertenece a una eraaexion dnla claen

Y podemos tomar la distancia entre las medias proyectadas como muestra ja obtenida

Entonces las medias solas no dan una buena sol y Fisher propuso maximiszar una funcion que representa la diferencia entre las mediasnormalizadas. Por una medida de dispercion dentro de las clases. Para cada clase denimos la dispercn como.

El discriminante lineal de Fisher es denido como la fn incial wt*x que maximiza la func objetivo.

Formato de la IEEE Etension de hasta 4 paginas. Titulos, autor. Resumen, palabras clave. Introduccion, metodos Datos. Resultados. Conclusion. Referencias. Lunes semana 12 presentacion (20 min o menos) y entrega del articulo.

Miercoles 14 marzo 2012 Seleccion de atributos. Filtros (lters). Envolturas (wrappers). Funcion objetivo Busqueda

También podría gustarte