Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Bibliografía:
1. INTRODUCCIÓN
A) Tareas de Minería datos
o Caracterización general:
(1) conjunto de entrenamiento clasificado,
(2) el valor a predecir puede ser discreto (clasificación) o continuo (regresión),
(3) aprendizaje supervisado (los ejemplos clasificados ayudan en aprender el
modelo)
- Tareas descriptivas: ejemplos
o Caracterización general:
(1) Naturaleza exploratoria, NO confirmatoria.
(2) Proporciona una hipótesis que explica un agrupamiento en los datos.
(3) Aprendizaje No supervisado (no se cuenta con ejemplos ya clasificados).
2. OBJETIVO
- Caracterizar el algoritmo de agrupamiento k-means.
3. DESARROLLO
A) Agrupamiento: Fases
Caracterización general:
- Agrupar los datos en k grupos (clusters): k parámetro a priori del método.
- Cada grupo está asociado a su centroide (media de los puntos del grupo, prototipo).
- Cada punto (objeto) se asigna al grupo más cercano: se utiliza generalmente la
distancia euclidiana.
- Criterio de agrupamiento: minimizar la suma de las distancias al cuadrado de todos los
puntos al centro (prototipo) de su cluster: suma error cuadrático.
- Elegir el modelo (k centroides, prototipos) que minimiza el error cuadrático total
Paso 1:
Paso 3:
Paso 4:
Ejemplo ejecución
Ventajas:
- Converge eficientemente a un óptimo local: complejidad asintótica polinomial de
grado 1 (O(n*k*t)), n: número de objetos a agrupar, k: número de particiones a
encontrar, t: número de iteraciones.
- Adecuado en grupos compactos y bien separados.
Desventajas:
1. Inadecuado para descubrir grupos no convexos, de tamaño y densidad diferente.
Soluciones:
- Utilizar mayor número k y luego post-procesar uniendo grupos pocos distantes (suma
error cuadrático pequeño)
- Se itera hasta que el objeto representativo del grupo es el más centrado de este
(medoide).
- Los objetos representativos iniciales se toman de manera general aleatoriamente.
- Iterativamente se reemplaza los objetos representativos por objetos no
representativos mientras se mejore el agrupamiento. Este reemplazo depende de 4
casos:
5. Solo es aplicable cuando la media está definida. ¿Datos cualitativos nominales?:
K-modas (Estudio independiente)