Resumen FID 3

FUNDAMENTOS DE INGENIERÍA DE DATO Y la separación es 3. Lo tengo que hacer para cada cluster ¿???
Lección CLUSTERING k=nº de cluster

CLUSTERING: agrupa los puntos buscando:
- Si son parecidos (mismo cluster)
- Se diferencian de otros (otros cluster).
Distancia Intracluster: la distancia que hay entre puntos del mismo cluster
Distancia Intercluster: la distancia que hay entre puntos de distinto cluster
 Externas: parámetro que no he usado para definir el cluster.

Ej: cluster por rendimiento académico en secundaria,
Variables: notas, asistencia y comportamiento
Test chi cuadrado: mide si hay diferente comportamiento frente a una variable.
Algoritmo clustering: intenta maximizar la distancia intercluster
Cuanto mayor sea el valor más diferencia hay entre los clusters.
minimizar la distancia Intracluster
Outliers son anomalías
Técnicas de cluster
Tipos de clustering:
Series temporales: es bueno organizar la secuencia
Dificultades:
 ¿Cuántos clusters pongo? Max intercluster y min intracluster
 ¿Cómo agrupo?
Define distintos ejemplos de distancia de cluster

 Distancia mínima al punto más cercano del cluster
 Distancia máxima
 Distancia media
Crips: muy claro
Como se clasifican las medidas de Bondad de clustering Fuzzy: es un poco borroso, tiene un valor entre 0 y 1
 Internas: distancia intracluster e intercluster: cohesión vs separación
Discretos: 0,1. Ordinal y continuo Algoritmo k-means
Cohesión WSS debe ser menor Estocástico: tiene un arranque aleatoria, no siempre sale lo mismo
WSS: medida de cohesión es la distancia del punto al centroide Politético: utiliza varias variables.
W:within No incremental: tiene el mismo nº de cluster.
BSS: medida de separación. Distancia del centroide global al centroide de cada Ejemplo: elige los puntos centroides de cada cluster y calculo los puntos que pertienecen,
cluster.B:between repito hasta que deje de variar.
Para cualquier agrupación de cluster wss+bss es constante.
Medidas externas por sexo, zona rural/ciudad, publico/privado
Para calcular el nº de cluster se utiliza CVI (Cluster Validation Index)
La mejor es Silhuette se basa en medir la distancia media de un punto a
FDI 1
Reglas de asociación
Hay relaciones entre diferentes patrones
A partir de un conjunto de medidas, busco reglas de asociación.
No hay clasificación
Se suele utilizar en marketing
Detrás de todo problema de marching learning es un problema de optimización: hay que

maximizar o minimizar una variable
¿Cómo mido que es bueno? Define medidas de bondad. (Transparencia 59)
Es una regla popular (66,6%) soporte conjunto de miembros que cumple la regla
Confianza siempre que compro huevos y leche compro pan
Intenta maximizar soporte y confianza.
De todos los puntos que cumplen a y c cuales cumple b
Regla de asociación es una implicación de la forma:

Antecedentes  consecuente
Tipos de RA
Reglas de asociación Booleanas
 Asociaciones entre la presencia y ausencia de items
 Leche y Huevos ⇒ Pan
Reglas de asociación nominales
 Asociaciones entre las propiedades o valores de items
 Temperatura es FRÍA y Humedad es NORMAL ⇒ Jugar es SI
Reglas de asociación cuantitativas
 Asociaciones entre items o atributos cuantitativos
 Temperatura  [38, 42] y Humedad  [25, 33] ⇒ Ozono
 Troposférico  [140, 206]
Define soporte y confianza

Se fija un soporte mínimo y se intenta maximizar la confianza
Clustering muy útil

Es más difícil de medir lo bueno que es porque existen muchas medidas
Caming algoritmo clustering???
A priori algoritmo de reglas de asociación
FDI 2

Resumen FID 3

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Resumen FID 3

Cargado por

Copyright:

Formatos disponibles

FUNDAMENTOS DE INGENIERÍA DE DATO Y la separación es 3. Lo tengo que hacer para cada cluster ¿???

Lección CLUSTERING k=nº de cluster

 Externas: parámetro que no he usado para definir el cluster.

Define distintos ejemplos de distancia de cluster

Se suele utilizar en marketing

Detrás de todo problema de marching learning es un problema de optimización: hay que

Regla de asociación es una implicación de la forma:

Define soporte y confianza

Clustering muy útil

A priori algoritmo de reglas de asociación

También podría gustarte