Está en la página 1de 26

MÉTODOS NO

SUPERVISADOS

Jorge Bedoya
Médodos NO Supervisados
Temas a tratar:
1. Modelado No supervisado
2. Evaluación

1. Clustering
1. Método particional
2. Método Jerarquico
3. Método probabilistico
3. Técnicas
4. Self-Organizing Maps
2. Reglas de asociación
1. Apriori
1. Modelado No supervisado
1. Modelado supervisado
 No existe un conocimimiento a priori(NO hay variable de salida)

 Es útil para la compresión de datos:


¿Cuáles grupos?
¿Cuáles compradores tienen gustos similares?
Clustering ¿Cuáles temas se están hablando en redes sociales?
¿Cuáles tiendas son similares?
¿Cual es la relación (entre atributos)?
Correlaciones ¿Cuál es la relación entre la temperatura y la
Análisis venta de helados?
exploratorio
¿Cual es la relación (entre instancias)?
Asociaciones y dependencias ¿Cuál es la relación entre la compra de pañales
y cerveza?
2. Evaluación
2. Evaluación:
Validación externa
Evalúa la calidad de los clusters basado en una estructura pre-clasificada, algunos
índices son:

✓Rand Index
✓Fowlkes and Mallows Index
✓Hubert and Arabie Index
✓Jaccard Index

Efraín alberto oviedo -Minería de datos y texto – Análisis descrip


2. Evaluación:
Validación interna
Evalúa la calidad de los clusters basado en medidas de distancia, algunos índices son:

✓Dunn Index
✓Davies-Bouldin Index
✓Silhouette Index

Efraín alberto oviedo -Minería de datos y texto – Análisis descrip


3. Técnicas
Clustering
Técnicas: Método particional K-medias
Busca la partición de un conjunto de n observaciones en k grupos en el que cada observación
pertenece al grupo cuyo valor medio es más cercano

1. Dividir aleatoriamente los ejemplos en k


conjuntos y calcular la media (el punto medio)
de cada conjunto.
2. Reasignar cada ejemplo al conjunto con el
punto medio más cercano.
3. 3. Calcular los puntos medios de los k
conjuntos.
4. Repetir los pasos 2 y 3 hasta que los conjuntos
no varíen.
Clustering
Técnicas: Método particional K-medias

 Sensible a los centroides


iniciales
 Requiere especificar K (el
número de clusters).
 Se afecta por datos “ruidosos”.

http://user.ceng.metu.edu.tr/~akifakkus/courses/ceng574/k-me
Técnicas: Método particional K-medias Clustering
Ejemplo Weka
1. Cargar el archivo: wine.arff
Canopy Preprocesamiento para acelerar
clustering, eliminando registros que son
muy parecidos (distancia menor a T2)

1. Cluster →Weka → Clusterers → SimpleKmeans


2. Parametros:

• displayStdDevs: mostrar las desviaciones estándar de los


atributos.
• distanceFunction: definir la distancia
• dontReplaceMissingValues: reemplazar valores faltantes con la
media/moda.
• maxIterations: definir el número máximo de iteraciones.
• numClusters: configurar el número k de clústers.
• preserveInstancesOrder: preservar el orden de las instancias.
• Seed: semilla para reiniciar pesos aleatorios
Efraín alberto oviedo -Minería de datos y texto – Análisis descri
Técnicas: Método particional K-medias Clustering
Ejemplo Weka
Clustering
Técnicas: Método Jerárquico
Busca subgrupos recursivamente creando
un dendrograma o árbol binario de acuerdo
a una matriz de proximidad. No requiere el
número k de clústers como entrada, pero
requiere una condición de finalización*

*Efraín alberto oviedo -Minería de datos y texto – Análisis descri


Clustering
Técnicas: Método Jerárquico

Cluster 1 Cluster 2 Cluster 3

*Efraín alberto oviedo -Minería de datos y texto – Análisis descri


Técnicas: Método Jerárquico Clustering
Ejemplo Weka
1. Normalizar y centrar wine.arff

1. Cluster →Weka → Clusterers → cobweb


2. Parametros:

• Acuity: valor de varianza mínimo para atributos numéricos.


Acuity: 0.25

• Cut-off: Indica el grado de mejoría que se debe producir en la


utilidad de categoría para que la instancia sea tenida en cuenta
de manera individual. Este valor se utiliza para evitar el
crecimiento desmesurado del número de clusters.

Efraín alberto oviedo -Minería de datos y texto – Análisis descri


Técnicas: Método Jerárquico Clustering
Ejemplo Weka
Clustering
Técnicas: Método Probabilístico
El algoritmo esperanza-maximización o algoritmo EM

1. Se tienen k distribuciones de probabilidad que


representan los k clusters
2. No depende del orden de los ejemplos
3. Se busca el grupo de clusters más probables
dados los datos
4. Los ejemplos tienen ciertas probabilidades de
pertenecer a un cluster.

*Efraín alberto oviedo -Minería de datos y texto – Análisis descri


Técnicas: Método Probabilístico Clustering
Ejemplo Weka

1. Cluster →Weka → Clusterers → EM


2. Parametros:

• NumCusters: Número de clusters


• MaximumNumberOfclusters: máximo número de clusters
Técnicas: Método Probabilístico Clustering
Ejemplo Weka
Clustering
Técnicas: Self-Organizing Maps
También conocidos como redes de memoria asociativa
(Kohonen 1984).
1. Durante el entrenamiento cada uno de los nodos de este grid
compite con los demás para ganar cada uno de los ejemplos.
2. Los nodos fuertes (representados con colores más oscuros)
ganan más ejemplos que los nodos débiles.
3. Al final del aprendizaje la red se estabiliza y sólo unas pocas
combinaciones de pares (X,Y) obtienen registros. Estos son
los grupos formados
Técnicas: Self-Organizing Maps Clustering
Ejemplo Weka

Requiere instalar SelfOrganizingMap (SOM)


Reglas de
Técnicas: Reglas de asociación a priori asociacion

Se utilizan para descubrir hechos que ocurren en común dentro de un determinado conjunto
de datos
Reglas de
Técnicas: Reglas de asociación a priori asociacion

Soporte: porcentaje de veces que una regla (tanto si es antecedente como consecuente) o un
set de datos coincide dentro de todas las transacciones o filas de un dataset

Confianza: exactitud de la regla al dividir el soporte de la regla entre el soporte de su


antecedente (elementos que solo están presentes en la parte del antecedente de la regla)

Lift: mide la fuerza de la regla o el incremento en el valor

lift = 1 indica que ese conjunto aparece una cantidad de veces acorde a lo esperado
lift > 1 indica que ese conjunto aparece una cantidad de veces superior a lo esperado
lift < 1 indica que ese conjunto aparece una cantidad de veces inferior a lo esperado
Reglas de
Técnicas: Reglas de asociación a priori asociacion

1. Cargar el dataset groceries.csv


2. Convierta los atributos numéricos
en nominales
3. Identifique que el dataset tiene
marcado solo los productos que
fueron comprados (los que no En blanco
fueron comprados están en
blanco)
Reglas de
Técnicas: Reglas de asociación a priori asociacion

 lowerBoundMinSupport – límite inferior para el


soporte
 metricType – Medida de evaluación de las reglas.
 minMetric – Valor mínimo para el evaluación de las
reglas.
 numRules – cantidad de reglas a buscar.
 outputItemSets – True para conjuntos de elementos
en el consecuente.
 removeAllMissingCols – True para eliminar
comlumnas con datos faltantes.
 significanceLevel – Nivel de significancia para la
confianza.
 upperBoundMinSupport – Límite superior
Reglas de
Técnicas: Reglas de asociación a priori asociacion

También podría gustarte