Está en la página 1de 11

ESCUELA SUPERIOR POLITÉCNICA AGROPECUARIA DE MANABÍ

MANUEL FÉLIX LÓPEZ

CARRERA DE COMPUTACIÓN

SEMESTRE SÉPTIMO

INFORME

MATERIA:
ANÁLISIS DE DATOS

AUTORES:
PEDRO P. PROAÑO SOLÓRZANO
MANUEL A. ZAMBRANO SABANDO

FACILITADOR:
ING. JAVIER H. LÓPEZ ZAMBRANO

CALCETA, AGOSTO 2020


INTRODUCCIÓN

El aprendizaje automático es una rama de la inteligencia artificial, y se puede definir como el


conjunto de técnicas, métodos y sus implementaciones algorítmicas capaces de aprender y
mejorar su eficacia a través de la experiencia.

Según (Larrañaga et al., 2012) en la mayoría de los casos se busca realizar ese aprendizaje
a partir de información no estructurada y sin supervisión humana. En las últimas décadas, el
uso de técnicas de aprendizaje automático en aplicaciones en campos tan diversos como la
informática, la estadística, la robótica, la medicina, etc. se ha visto incrementado de manera
extraordinaria.

En este trabajo se tratará brevemente la técnica de aprendizaje automático no supervisado


de agrupamiento o clustering. El agrupamiento o clustering consiste en la clasificación de
datos, observaciones o vectores de características en grupos (clusters), sin tener ningún
tipo de información sobre la salida.

El resultado de un agrupamiento es un conjunto de grupos en los cuales los objetos de un


mismo grupo son más similares entre sí que con objetos de otros grupos. ​Existen
principalmente dos tipos diferentes de técnicas de clustering:

Clustering jerárquico: La técnica de clustering jerárquico construye un dendograma o


árbol que representa las relaciones de similitud entre los distintos elementos.(Marín, 2009)
La exploración de todos los posibles árboles es computacionalmente intratable. Por lo tanto,
suelen seguirse algoritmos aproximados guiados por determinadas heurísticas. Existen dos
aproximaciones diferentes al clustering jerárquico:

● Clustering jerárquico aglomerativo: se comienza con tantos clústeres como


individuos y consiste en ir formando (aglomerando) grupos según su similitud.
● Clustering jerárquico de división: se comienza con un único clúster y consiste en ir
dividiendo clústeres según la disimilitud entre sus componentes.

En el clustering jerárquico no es necesario especificar en número de clústeres a priori. Es


posible seleccionarlo a posteriori según un umbral de corte. La estructura jerárquica es
cercana a la intuición humana. La principal desventaja consiste en la acumulación de
errores.
Clustering de partición: La técnica de según (Marín, 2009) clustering de partición entorno
a centroides (PAM) realiza una distribución de los elementos entre un número prefijado de
clústeres o grupos. Esta técnica recibe como dato de entrada el número de clusters a formar
además de los elementos a clasificar y la matriz de similitudes. Explorar todas las posibles
particiones es computacionalmente intratable. Por lo tanto, suelen seguirse algoritmos
aproximados guiados por determinadas heurísticas. En lugar de construir un árbol el
objetivo en PAM consiste en agrupar los elementos entorno a elementos centrales llamados
centroides a cada clúster.
MARCO TEÓRICO
CLUSTERING

El concepto básico de clustering es muy sencillo: estamos agrupando casos similares y


separando casos diferentes. La similitud o diferencia entre dos casos se puede medir como
un número o distancia y, hay muchas herramientas que, al realizar la segmentación,
proporcionan también las distancias entre casos y clusters. Una buena segmentación crea
agrupaciones (clusters) lo más compactas posibles ( distancia entre los casos dentro de un
grupo es mínimo) y con la distancia entre los distintos grupos siendo la máxima posible
(buena separación de grupos de casos distintos) (Nettleton, 2003).

CLUSTERING PROBABILÍSTICO ( EM )

Los dos algoritmos anteriores presentan el mismo problema de dependencia del resultado
del orden en el que estén presentados los sujetos en la base de datos, y su tendencia a
sobre ajustar los clústeres obtenidos en las muestras de entrenamiento (Berzal, 2012).

El algoritmo EM Permite un acercamiento probabilístico al problema del clustering,


solucionando los mencionados problemas. Ahora, en lugar de buscar sujetos parecidos
entre sí de manera iterativa, lo que se intenta es buscar el grupo de clústeres más
probables dado un conjunto de puntuaciones. El algoritmo se basa en calcular las
probabilidades que existen de que un sujeto tenga una puntuación en la variable, si se
supiera que el sujeto es miembro de ese clúster. Así, se obtienen k distribuciones de
probabilidad, una por cada uno de los k clústeres.

De acuerdo a (Gallardo Campos, 2009) EM adivina inicialmente los parámetros de las


distribuciones para, a continuación, emplear esos parámetros para llevar a cabo el cálculo
de las probabilidades de que cada sujeto pertenezca a un cluster. Posteriormente, emplea
esas probabilidades para re-estimar los parámetros. Y así hasta llegar al criterio de parada
establecido, en base a un valor mínimo de convergencia.
PROCEDIMIENTO

Los algoritmos de agrupación o clustering permiten dos tipos de técnicas:

1. Exploración inicial: testear las agrupaciones que aseguren una mayor homogeneidad
intragrupo y una mayor heterogeneidad intergrupal a partir de una serie de variables
de entrada.
2. Evaluación a partir de un criterio variable: probar si un conjunto de variables de
entrada puede emplearse como predictor de una variable de clase o variable criterio,
generando unas agrupaciones conforme al criterio en base a las puntuaciones
obtenidas en las variables predictoras.

En ambos casos, se pueden generar modelos empleando la muestra completa como


muestra de entrenamiento, o estableciendo algún tipo de control del sobreajuste a partir de
validaciones. La validación de los datos a partir de submuestras es altamente
recomendable, ya que los procedimientos de Clustering (al igual que las técnicas de
clasificación) tienden a generar modelos que sobreestiman la verdadera relación entre la
variable criterio y las variables predictoras. Las principales técnicas para la validación de
datos que nos ofrece Weka son:

1. División de la muestra: Se establece de antemano una submuestra que será


considerada muestra de entrenamiento (muestra a partir de la que se genera el
modelo con las normas de agrupación), a partir de la que se genera el modelo
principal. Ese modelo es contrastado a partir de la otra submuestra, que es
considerada simplemente para esta validación.
2. Validación cruzada (sólo disponible en las técnicas de clasificación): Se genera en
primer lugar el modelo de clasificación, contando con la muestra completa como
muestra de entrenamiento. Posteriormente, se divide la muestra en submuestras y el
modelo es testeado en todas ellas. Los resultados de la validación se muestran
indicando una media aritmética de los índices de ajuste obtenidos en cada una de
las submuestras.
DEMOSTRACIÓN

Para este ejercicio vamos a utilizar un cvs sobre diabetes, una vez descargado
procederemos a utilizar la aplicación de ​Weka​ lo ejecutamos y le damos clic en ​Explorer​.

Lo siguiente es abrir el csv de diabete, para ello nos dirimos a botón “open file”, buscamos
el csv en nuestro equipo y le damos en abrir.

Una vez cargado el archivo, nos ubicamos en la ventana “Cluster”.


A Continuación se explica cada una de las opciones de Cluster mode:

1. Use training set: Se trabajará con la muestra de entrenamiento como muestra


completa.
2. Supplied test set: ​Se trabajará con la muestra completa como muestra de
entrenamiento y los datos se validan en otra muestra incorporada en otro archivo.
3. Percentaje Split:​ Técnica de validación de división de la muestra
4. Classes to clusters evaluation: ​Emplear alguna variable categórica como variable
criterio a partir de la que comparar la asignación de clústeres.

Clustering Probabilístico (EM)


1. maxIterations:​ Máximo de iteraciones permitidas en las que el modelo debe
converger.
2. maximumNumberOfClusters: ​El algoritmo EM puede realizar un testeo del número
de clusters óptimo para los datos, si se selecciona esta opción, se puede establecer
el número de clústeres máximo tolerable en el modelo.
3. nunClusters:​ Se puede establecer aquí un número concreto de Clústeres a extraer.
4. numExecutionSlots:​ Número de ranuras de expansión empleadas para el cómputo
(depende de cada ordenador, si no se sabe, mantener 1).
5. numFlods:​ Número de submuestras empleado en la prueba del número óptimo de
clústeres.
6. numKMeansRuns:​ Veces que se itera el algoritmo k-medias a la hora de generar el
modelo.

Para este ejercicio vamos a evaluar el modelo con una variable en especifica, luego en el
Algoritmo EM, aplicamos por default, y le damos en Start.

Una vez se ha obtenido el modelo deseado, se puede guardar una nueva variable en la
base de datos con la asignación obtenida haciendo clic con el botón derecho del ratón sobre
el modelo en Results lists, seleccionar Visualice clusters assignments, y en la ventana
emergente hacer clic en Save. El archivo guardado incluirá las variables de la base de datos
original y una nueva variable con la asignación llevada a cabo por la técnica de clustering
aplicada.
CONCLUSIONES
En conclusión a resaltar no hay que confundir dos términos que son cluster y
clustering, ya que cluster vendría a ser un número de cosas o personas similares
agrupadas y el clustering ya seria el proceso de particionar en un conjunto de
sub-clases.

Las aplicaciones del clustering son muy diversas y requeridas para analizar cosas
que pasan a nuestro alrededor, como para reconocer áreas con cierta característica
de tierra (GIS) que sirven para detectar posibles fallas que ocasionen problemas en
el futuro, entre otras.

De acuerdo a los tipos de clustering en el método jerárquico los individuos no se


particionan en clusters de una sola vez, sino que se van haciendo particiones
sucesivas a " distintos niveles de agregación o agrupamiento ". Que nos da la
ventaja distintiva de que cualquier medida de distancia puede ser usada. De hecho,
las observaciones de por si no son requeridas: todo lo que se usa es una matriz de
distancia.

EM Probabilístico resalta por realizar una división más específica que otros
algoritmos. Se puede concluir que el algoritmo EM, siendo un algoritmo que realiza
clustering probabilístico, es más adecuado que otros algoritmos por ejemplo el
algoritmo k-medias por lo cual se escogió este para la demostración porque nos dio
mejores resultados.

BIBLIOGRAFÍA
Berzal, F. (2012). Clustering e Introducción a Medidas de similitud. ​Decsai​, ​1(​ 5), 35–50.
elvex.ugr.es/decsai/intelligent/slides/dm/D3 Clustering.pdf

Gallardo Campos, M. (2009). ​APLICACIÓN DE TÉCNICAS DE CLUSTERING PARA


LA MEJORA DEL APRENDIZAJE.​
https://e-archivo.uc3m.es/bitstream/handle/10016/5880/PFC_Margarita_Gallardo_
Campos.pdf

Larrañaga, P., Inza, I., & Moujahid, A. (2012). ​Tema 14. Clustering.​ 1–11.
https://www.google.com/url?sa=t&rct=j&q=&esrc=s&source=web&cd=4&ved=2ah
UKEwig3-ne88_nAhXOrFkKHbisDRUQFjADegQIBxAB&url=http%3A%2F%2Fww
w.sc.ehu.es%2Fccwbayes%2Fdocencia%2Fmmcc%2Fdocs%2Ft14clustering.pdf
&usg=AOvVaw2IBAoHOrXTyVbnd9Ld6M-n

Nettleton, D. (2003). ​Análisis de datos comerciales​ (Ediciones).

Marín, J. M. (2009). Análisis de Cluster y Árboles de Clasificación. ​Springer​, 1–21.


http://halweb.uc3m.es/esp/Personal/personas/jmmarin/esp/DM/tema6dm.pdf

También podría gustarte