Está en la página 1de 2

FUNDAMENTOS DE INGENIERÍA DE DATO Y la separación es 3. Lo tengo que hacer para cada cluster ¿???

Lección CLUSTERING k=nº de cluster


CLUSTERING: agrupa los puntos buscando:
- Si son parecidos (mismo cluster)
- Se diferencian de otros (otros cluster).
Distancia Intracluster: la distancia que hay entre puntos del mismo cluster
Distancia Intercluster: la distancia que hay entre puntos de distinto cluster

 Externas: parámetro que no he usado para definir el cluster.


Ej: cluster por rendimiento académico en secundaria,
Variables: notas, asistencia y comportamiento

Test chi cuadrado: mide si hay diferente comportamiento frente a una variable.
Algoritmo clustering: intenta maximizar la distancia intercluster
Cuanto mayor sea el valor más diferencia hay entre los clusters.
minimizar la distancia Intracluster
Outliers son anomalías
Técnicas de cluster
Tipos de clustering:
Series temporales: es bueno organizar la secuencia

Dificultades:
 ¿Cuántos clusters pongo? Max intercluster y min intracluster
 ¿Cómo agrupo?

Define distintos ejemplos de distancia de cluster


 Distancia mínima al punto más cercano del cluster
 Distancia máxima
 Distancia media
Crips: muy claro
Como se clasifican las medidas de Bondad de clustering Fuzzy: es un poco borroso, tiene un valor entre 0 y 1
 Internas: distancia intracluster e intercluster: cohesión vs separación
Discretos: 0,1. Ordinal y continuo Algoritmo k-means
Cohesión WSS debe ser menor Estocástico: tiene un arranque aleatoria, no siempre sale lo mismo
WSS: medida de cohesión es la distancia del punto al centroide Politético: utiliza varias variables.
W:within No incremental: tiene el mismo nº de cluster.
BSS: medida de separación. Distancia del centroide global al centroide de cada Ejemplo: elige los puntos centroides de cada cluster y calculo los puntos que pertienecen,
cluster.B:between repito hasta que deje de variar.
Para cualquier agrupación de cluster wss+bss es constante.
Medidas externas por sexo, zona rural/ciudad, publico/privado
Para calcular el nº de cluster se utiliza CVI (Cluster Validation Index)
La mejor es Silhuette se basa en medir la distancia media de un punto a
FDI 1
Reglas de asociación
Hay relaciones entre diferentes patrones
A partir de un conjunto de medidas, busco reglas de asociación.
No hay clasificación

Se suele utilizar en marketing

Detrás de todo problema de marching learning es un problema de optimización: hay que


maximizar o minimizar una variable
¿Cómo mido que es bueno? Define medidas de bondad. (Transparencia 59)
Es una regla popular (66,6%) soporte conjunto de miembros que cumple la regla
Confianza siempre que compro huevos y leche compro pan
Intenta maximizar soporte y confianza.
De todos los puntos que cumplen a y c cuales cumple b

Regla de asociación es una implicación de la forma:


Antecedentes  consecuente

Tipos de RA
Reglas de asociación Booleanas
 Asociaciones entre la presencia y ausencia de items
 Leche y Huevos ⇒ Pan
Reglas de asociación nominales
 Asociaciones entre las propiedades o valores de items
 Temperatura es FRÍA y Humedad es NORMAL ⇒ Jugar es SI
Reglas de asociación cuantitativas
 Asociaciones entre items o atributos cuantitativos
 Temperatura  [38, 42] y Humedad  [25, 33] ⇒ Ozono
 Troposférico  [140, 206]

Define soporte y confianza


Se fija un soporte mínimo y se intenta maximizar la confianza

Clustering muy útil


Es más difícil de medir lo bueno que es porque existen muchas medidas
Caming algoritmo clustering???

A priori algoritmo de reglas de asociación

FDI 2

También podría gustarte