Está en la página 1de 16

Aprendizaje no Supervisado:

Clustering

Norberto Daz Daz


Bioinformatics Group of Seville (BIGS)
Dpto. de Lenguajes y Sistemas Informaticos
Universidad de Sevilla

Tabla de Contenidos

Introduccin
Clustering
Jerrquico: CobWeb, FarthestFirst
Basado en Particiones: K-means
Algoritmo EM

Introduccin

Aprendizaje Supervisado (Clasificacin)


El conjunto de datos contiene un atributo que gua el aprendizaje (clase).
Clasificadores: K-NN (IBk), C4.5 (J48)

Aprendizaje Semi-Supervisado
Algunos ejemplos tienen clase y otros no.

Aprendizaje No Supervisado (Clustering-Biclustering)


No existe atributo clase.

CLUSTERING
Objetivo: crear conjunto de elementos los cuales
tengan alguna caracterstica comn.
Crear conjuntos de genes segn su expresin bajo condiciones
experimentales.
Crear conjuntos de condiciones segn la expresin de los
genes de un genoma.

filas

columnas

El clustering solo actua bajo una dimensin.

Clustering Jerrquico - Algoritmo

Se basa en descomponer jerrquicamente el conjunto de datos de entrada

Clustering Jerrquico - Ejemplo

Particin recursiva de los datos

1-clustering

2-clustering

3-clustering

4-clustering

5-clustering

Clustering Jerrquico CobWeb (en Weka)

Clustering Jerrquico FarthestFirst (en Weka)

Clustering Basado en particiones: K-Medias

Consiste en minimizar las distancias de los elementos de la particin y


el centroide de sta.

K-Medias: Ejemplo 1

K-Medias: Ejemplo online

http://www.lsi.us.es/~ndiaz/proyectosFinCarrera.html
http://www.elet.polimi.it/upload/matteucc/Clustering/tutorial_html/AppletKM.html

Kmedias SimpleKMeans (en Weka)

Clustering EM (Expectation Maximization)

Se basa en el modelo estadstico de Gauss:


Estima parmetros por mxima verosimilitud
Imputacin de datos inexistentes

El proceso es similar a K-means


Los parmetros son recalculados hasta que los valores convergen

Suele utilizarse para estimar la distribucin de los datos a priori


Esto puede verse en el algoritmo de clustering CLICK

Clustering EM - Weka

Ejercicio Supervisado vs NoSupervisado

Quin consigue el mejor resultado para la base de datos zoo.arf,


usando supervisado y no-Supervisado?

FIN

También podría gustarte