Está en la página 1de 11

Tema 2: Aprendizaje Automático

Conf: Técnicas de Agrupamiento

Bibliografía:

- Data Mining: Concepts and Techniques. Second Edition.


o Jiawei Han, Micheline Kamber (Capítulo 7, epígrafes 7.1, 7.2, 7.3, 7.4)
- Introducción a la Minería de Datos.
o Hernández Orallo (Capítulo 2, epígrafe 2.4.1, Capítulo 16, epígrafe 16.2.2)
- Clustering
o RUI XU, DONALD C. WUNSCH, II (Capítulo 4, epígrafes 4.1, 4.2, 4.3)
- TÉCNICAS DE ANÁLISIS DE DATOS. APLICACIONES PRÁCTICAS UTILIZANDO MICROSOFT
EXCEL Y WEKA
o José Manuel Molina López, Jesús García Herrero (Capítulo 3, epígrafe 3.1, 3.2,
3.2.1, Capítulo 4, Agrupamiento)

1. INTRODUCCIÓN
A) Tareas de Minería datos

- Tareas predictivas: ejemplo

o Caracterización general:
(1) conjunto de entrenamiento clasificado,
(2) el valor a predecir puede ser discreto (clasificación) o continuo (regresión),
(3) aprendizaje supervisado (los ejemplos clasificados ayudan en aprender el
modelo)
- Tareas descriptivas: ejemplos

o Caracterización general:
(1) Naturaleza exploratoria, NO confirmatoria.
(2) Proporciona una hipótesis que explica un agrupamiento en los datos.
(3) Aprendizaje No supervisado (no se cuenta con ejemplos ya clasificados).

2. OBJETIVO
- Caracterizar el algoritmo de agrupamiento k-means.
3. DESARROLLO
A) Agrupamiento: Fases

B) Agrupamiento: Estructura y Tipos de datos


- Estructura de datos
- Tipos de datos
o Variables cuantitativas: continuas escala intervalo

- Estudio independiente - 1: funciones de proximidad para otro tipo de variables


o Variables cualitativas: Binarias
(1) tablas de contingencias,
(2) variables binarias simétricas: la coincidencia 1 - 1 y 0 - 0 tiene igual
importancia (Ej: sexo),
(3) variables binarias asimétricas: La coincidencia 0 - 0 es ignorada (Ej:
ausencia de un síntoma).
o Variables cualitativas: nominales
(1) Función de similitud
(2) Ejemplo de uso
o Variables cuantitativas: ordinales.
(1) Función de similitud
(2) Ejemplo de uso
o Variables de tipo mezclado.
(1) Función de similitud
(2) Ejemplo de uso

C) Agrupamiento Particional: Definición


- Agrupamiento general: Caracterización
o No es clasificación: los datos NO tienen información de clase.
o No es construir grupos atendiendo a un filtrado (Ej: Query SQL)
o Dividir las instancias en grupos “naturales”:
(1) Reflejar algún mecanismo subyacente que causa que algunas instancias se
asemejen más entre sí que al resto.
(2) Ganar una visión en los datos, generar hipótesis, descubrir anomalías, e
identificar rasgos distintivos.
(3) Método para resumir los datos a través de los prototipos de los grupos
identificados.
o Definición imprecisa, su mejor definición depende de la naturaleza de los datos
y los resultados deseados.

o Dos grandes clases de métodos:


(1) Agrupamiento Jerárquico: el conjunto de grupos se organiza de forma
jerárquica, formando un árbol (dendograma).
(2) Agrupamiento Particional: organizan los objetos en k particiones
optimizando un criterio de agrupamiento.

- Agrupamiento Particional: Definición

- Clases de problemas que ataca la IA:


(1) problemas no algorítmicos
(2) algorítmicos no viables computacionalmente.
- Aplicar y diseñar métodos de aproximación: heurísticas y metaheurísticas.
D) Algoritmo Agrupamiento: k-means

Caracterización general:
- Agrupar los datos en k grupos (clusters): k parámetro a priori del método.
- Cada grupo está asociado a su centroide (media de los puntos del grupo, prototipo).
- Cada punto (objeto) se asigna al grupo más cercano: se utiliza generalmente la
distancia euclidiana.
- Criterio de agrupamiento: minimizar la suma de las distancias al cuadrado de todos los
puntos al centro (prototipo) de su cluster: suma error cuadrático.
- Elegir el modelo (k centroides, prototipos) que minimiza el error cuadrático total

Definición suma error cuadrático: criterio partición

Paso 1:

Paso 3:
Paso 4:

Ejemplo ejecución

Ventajas:
- Converge eficientemente a un óptimo local: complejidad asintótica polinomial de
grado 1 (O(n*k*t)), n: número de objetos a agrupar, k: número de particiones a
encontrar, t: número de iteraciones.
- Adecuado en grupos compactos y bien separados.
Desventajas:
1. Inadecuado para descubrir grupos no convexos, de tamaño y densidad diferente.
Soluciones:
- Utilizar mayor número k y luego post-procesar uniendo grupos pocos distantes (suma
error cuadrático pequeño)

2. Conocimiento a priori del número k:


- Intentar varios valores de k y quedarse con el mejor: Minimizar la Suma del error
cuadrático.
- Un buen agrupamiento con un k pequeño puede tener Suma error cuadrático menor
que un agrupamiento con mayor k.
- Penalizar soluciones con muchos grupos.
3. Mínimos locales: dependiente a los centroides iniciales
(1) Los resultados en distintas ejecuciones pueden variar bastante dependiendo de los
centros seleccionados inicialmente.
(2) Para aumentar las posibilidades de encontrar el mínimo global: Repetir con
distintas semillas aleatorias (múltiples ejecuciones).

4. Sensible a la existencia de valores atípicos: k-medoides (uso del objeto


representativo del grupo, NO un centroide, NO depende del cálculo de una media)
- En vez de utilizar un centroide (media de los elementos del grupo), utiliza el objeto
representativo del grupo.
- El resto de los objetos son agrupados a los objetos representativos más similares.
- Minimiza la suma de disimilitudes entre cada objeto y su correspondiente objeto
representativo: criterio error absoluto

- Se itera hasta que el objeto representativo del grupo es el más centrado de este
(medoide).
- Los objetos representativos iniciales se toman de manera general aleatoriamente.
- Iterativamente se reemplaza los objetos representativos por objetos no
representativos mientras se mejore el agrupamiento. Este reemplazo depende de 4
casos:
5. Solo es aplicable cuando la media está definida. ¿Datos cualitativos nominales?:
K-modas (Estudio independiente)

También podría gustarte