04 MétodosNoSupervisados PDF

MÉTODOS NO
SUPERVISADOS
Jorge Bedoya
Médodos NO Supervisados
Temas a tratar:
1. Modelado No supervisado
2. Evaluación
1. Clustering
1. Método particional
2. Método Jerarquico
3. Método probabilistico
3. Técnicas
4. Self-Organizing Maps
2. Reglas de asociación
1. Apriori
1. Modelado No supervisado
1. Modelado supervisado
 No existe un conocimimiento a priori(NO hay variable de salida)
 Es útil para la compresión de datos:

¿Cuáles grupos?
¿Cuáles compradores tienen gustos similares?
Clustering ¿Cuáles temas se están hablando en redes sociales?
¿Cuáles tiendas son similares?
¿Cual es la relación (entre atributos)?
Correlaciones ¿Cuál es la relación entre la temperatura y la
Análisis venta de helados?
exploratorio
¿Cual es la relación (entre instancias)?
Asociaciones y dependencias ¿Cuál es la relación entre la compra de pañales
y cerveza?
2. Evaluación
2. Evaluación:
Validación externa
Evalúa la calidad de los clusters basado en una estructura pre-clasificada, algunos
índices son:
✓Rand Index
✓Fowlkes and Mallows Index
✓Hubert and Arabie Index
✓Jaccard Index
Efraín alberto oviedo -Minería de datos y texto – Análisis descrip

2. Evaluación:
Validación interna
Evalúa la calidad de los clusters basado en medidas de distancia, algunos índices son:
✓Dunn Index
✓Davies-Bouldin Index
✓Silhouette Index
Efraín alberto oviedo -Minería de datos y texto – Análisis descrip

3. Técnicas
Clustering
Técnicas: Método particional K-medias
Busca la partición de un conjunto de n observaciones en k grupos en el que cada observación
pertenece al grupo cuyo valor medio es más cercano
1. Dividir aleatoriamente los ejemplos en k

conjuntos y calcular la media (el punto medio)
de cada conjunto.
2. Reasignar cada ejemplo al conjunto con el
punto medio más cercano.
3. 3. Calcular los puntos medios de los k
conjuntos.
4. Repetir los pasos 2 y 3 hasta que los conjuntos
no varíen.
Clustering
Técnicas: Método particional K-medias
 Sensible a los centroides

iniciales
 Requiere especificar K (el
número de clusters).
 Se afecta por datos “ruidosos”.
http://user.ceng.metu.edu.tr/~akifakkus/courses/ceng574/k-me
Técnicas: Método particional K-medias Clustering
Ejemplo Weka
1. Cargar el archivo: wine.arff
Canopy Preprocesamiento para acelerar
clustering, eliminando registros que son
muy parecidos (distancia menor a T2)
1. Cluster →Weka → Clusterers → SimpleKmeans

2. Parametros:
• displayStdDevs: mostrar las desviaciones estándar de los

atributos.
• distanceFunction: definir la distancia
• dontReplaceMissingValues: reemplazar valores faltantes con la
media/moda.
• maxIterations: definir el número máximo de iteraciones.
• numClusters: configurar el número k de clústers.
• preserveInstancesOrder: preservar el orden de las instancias.
• Seed: semilla para reiniciar pesos aleatorios
Efraín alberto oviedo -Minería de datos y texto – Análisis descri
Técnicas: Método particional K-medias Clustering
Ejemplo Weka
Clustering
Técnicas: Método Jerárquico
Busca subgrupos recursivamente creando
un dendrograma o árbol binario de acuerdo
a una matriz de proximidad. No requiere el
número k de clústers como entrada, pero
requiere una condición de finalización*
*Efraín alberto oviedo -Minería de datos y texto – Análisis descri

Clustering
Técnicas: Método Jerárquico
Cluster 1 Cluster 2 Cluster 3

Técnicas: Método Jerárquico Clustering
Ejemplo Weka
1. Normalizar y centrar wine.arff
1. Cluster →Weka → Clusterers → cobweb

2. Parametros:
• Acuity: valor de varianza mínimo para atributos numéricos.

Acuity: 0.25
• Cut-off: Indica el grado de mejoría que se debe producir en la

utilidad de categoría para que la instancia sea tenida en cuenta
de manera individual. Este valor se utiliza para evitar el
crecimiento desmesurado del número de clusters.
Efraín alberto oviedo -Minería de datos y texto – Análisis descri

Técnicas: Método Jerárquico Clustering
Ejemplo Weka
Clustering
Técnicas: Método Probabilístico
El algoritmo esperanza-maximización o algoritmo EM
1. Se tienen k distribuciones de probabilidad que

representan los k clusters
2. No depende del orden de los ejemplos
3. Se busca el grupo de clusters más probables
dados los datos
4. Los ejemplos tienen ciertas probabilidades de
pertenecer a un cluster.

Técnicas: Método Probabilístico Clustering
Ejemplo Weka
1. Cluster →Weka → Clusterers → EM

2. Parametros:
• NumCusters: Número de clusters

• MaximumNumberOfclusters: máximo número de clusters
Técnicas: Método Probabilístico Clustering
Ejemplo Weka
Clustering
Técnicas: Self-Organizing Maps
También conocidos como redes de memoria asociativa
(Kohonen 1984).
1. Durante el entrenamiento cada uno de los nodos de este grid
compite con los demás para ganar cada uno de los ejemplos.
2. Los nodos fuertes (representados con colores más oscuros)
ganan más ejemplos que los nodos débiles.
3. Al final del aprendizaje la red se estabiliza y sólo unas pocas
combinaciones de pares (X,Y) obtienen registros. Estos son
los grupos formados
Técnicas: Self-Organizing Maps Clustering
Ejemplo Weka
Requiere instalar SelfOrganizingMap (SOM)

Reglas de
Técnicas: Reglas de asociación a priori asociacion
Se utilizan para descubrir hechos que ocurren en común dentro de un determinado conjunto
de datos
Reglas de
Soporte: porcentaje de veces que una regla (tanto si es antecedente como consecuente) o un
set de datos coincide dentro de todas las transacciones o filas de un dataset
Confianza: exactitud de la regla al dividir el soporte de la regla entre el soporte de su

antecedente (elementos que solo están presentes en la parte del antecedente de la regla)
Lift: mide la fuerza de la regla o el incremento en el valor
lift = 1 indica que ese conjunto aparece una cantidad de veces acorde a lo esperado
lift > 1 indica que ese conjunto aparece una cantidad de veces superior a lo esperado
lift < 1 indica que ese conjunto aparece una cantidad de veces inferior a lo esperado
Reglas de
1. Cargar el dataset groceries.csv

2. Convierta los atributos numéricos
en nominales
3. Identifique que el dataset tiene
marcado solo los productos que
fueron comprados (los que no En blanco
fueron comprados están en
blanco)
Reglas de
 lowerBoundMinSupport – límite inferior para el

soporte
 metricType – Medida de evaluación de las reglas.
 minMetric – Valor mínimo para el evaluación de las
reglas.
 numRules – cantidad de reglas a buscar.
 outputItemSets – True para conjuntos de elementos
en el consecuente.
 removeAllMissingCols – True para eliminar
comlumnas con datos faltantes.
 significanceLevel – Nivel de significancia para la
confianza.
 upperBoundMinSupport – Límite superior
Reglas de

04 MétodosNoSupervisados PDF

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

04 MétodosNoSupervisados PDF

Cargado por

Copyright:

Formatos disponibles

MÉTODOS NO

 Es útil para la compresión de datos:

Efraín alberto oviedo -Minería de datos y texto – Análisis descrip

Efraín alberto oviedo -Minería de datos y texto – Análisis descrip

1. Dividir aleatoriamente los ejemplos en k

 Sensible a los centroides

1. Cluster →Weka → Clusterers → SimpleKmeans

• displayStdDevs: mostrar las desviaciones estándar de los

*Efraín alberto oviedo -Minería de datos y texto – Análisis descri

Cluster 1 Cluster 2 Cluster 3

*Efraín alberto oviedo -Minería de datos y texto – Análisis descri

1. Cluster →Weka → Clusterers → cobweb

• Acuity: valor de varianza mínimo para atributos numéricos.

• Cut-off: Indica el grado de mejoría que se debe producir en la

Efraín alberto oviedo -Minería de datos y texto – Análisis descri

1. Se tienen k distribuciones de probabilidad que

*Efraín alberto oviedo -Minería de datos y texto – Análisis descri

1. Cluster →Weka → Clusterers → EM

• NumCusters: Número de clusters

Requiere instalar SelfOrganizingMap (SOM)

Confianza: exactitud de la regla al dividir el soporte de la regla entre el soporte de su

Lift: mide la fuerza de la regla o el incremento en el valor

1. Cargar el dataset groceries.csv

 lowerBoundMinSupport – límite inferior para el

También podría gustarte