Documentos de Académico
Documentos de Profesional
Documentos de Cultura
2021-Una Panorámica Al Agrupamiento de Datos y Sus Aplicaciones
2021-Una Panorámica Al Agrupamiento de Datos y Sus Aplicaciones
Ciencia e Ingenierı́a
en Tecnologı́as Computacionales
versión web
ISBN: 978-607-9023-65-2
2022
Editor
Cinvestav Unidad Tamaulipas
Parque Cientı́fico y Tecnológico TECNOTAM,
Km. 5.5 carretera Cd. Victoria-Soto La Marina, 87130, Cd. Victoria, Tamps.
https://www.tamps.cinvestav.mx/
NINGUNA PARTE DE ESTA OBRA PUEDE SER REPRODUCIDA O TRANSMITIDA, MEDIANTE NINGÚN SISTEMA O
TITULAR.
Las denominaciones empleadas y la presentación del material en esta publicación no implican la expresión de opinión alguna por
Enero, 2022
Una panorámica al agrupamiento de datos y sus aplicaciones
Wilfrido Gómez-Flores Adán José-García
Cinvestav Unidad Tamaulipas Université de Lille
Ciudad Victoria, Tamps, Mexico Lille, France
wgomez@cinvestav.mx adan.josegarcia@univ-lille.fr
1
Ciencia e Ingeniería en Tecnologías Computacionales W. Gómez-Flores & A. José-García
Figura 1: Especies de flores del género Iris descritas por el largo y ancho de sus pétalos.
2.5 2.5
Iris virginica
Iris setosa
Ancho del pétalo (cm)
1.5 1.5
1 1
0.5 0.5
0 0
0 1 2 3 4 5 6 7 0 1 2 3 4 5 6 7
Largo del pétalo (cm) Largo del pétalo (cm)
(a) (b)
Figura 2: (a) Conjunto de datos Iris no etiquetados. (b) Grupos creados para cada especie de Iris.
puntos más similares al prototipo y se asignan como miembros de 2. ENFOQUES DE AGRUPAMIENTO DE DATOS
su grupo. La similitud está definida por una medida de distancia, Existen principalmente cuatro categorías de enfoques de agru-
que indica que mientras más cercanos estén dos puntos, entonces pamiento de datos que son conceptualmente diferentes entre sí:
son más semejantes. De este modo se crean los grupos mostrados particionales, jerárquicos, basados en densidad y basados en mode-
en la Figura 2(b), donde cada muestra de flor ahora tiene un color los [16]. A continuación se presentan estos enfoques y se describe
que indica su pertenencia a un grupo o especie de flor Iris, lo cual un algoritmo representativo para cada caso.
se denomina partición o agrupamiento.
Uno de los objetivos del análisis de datos es desarrollar algoritmos
que sean capaces de descubrir automáticamente grupos a partir 2.1. Enfoques particionales
de un conjunto de datos no etiquetados. El método descrito Este tipo de algoritmos construyen varias particiones y evalúan
anteriormente basado en prototipos se conoce como el algoritmo de la calidad de cada una con algún criterio de agrupamiento. Estos
𝑘-medias, cuya tarea es encontrar a los prototipos que representan enfoques a su vez pueden clasificarse en rígidos (o duros) y difusos.
a los grupos. Sin embargo, existen muchos tipos de enfoques El agrupamiento duro supone que la pertenencia entre los objetos
de agrupamiento de datos que utilizan diferentes formas para y grupos es binaria, es decir, cada objeto pertenece exactamente
establecer la similitud entre puntos. a un grupo. Por otro lado, en el agrupamiento difuso se asignan
Por lo tanto, en este artículo presentamos una panorámica diferentes grados de pertenencia a los objetos de cada grupo para
de diferentes técnicas para realizar el agrupamiento de datos, construir una relación no binaria entre ellos. Por simplicidad y
mostramos algunas aplicaciones modernas para resolver problemas nivel de aplicación a continuación nos centraremos en el tipo de
de la vida real y exponemos tendencias de investigación. agrupamiento particional duro.
El algoritmo de 𝑘-medias es la técnica más conocida y popular
de esta familia de enfoques de agrupamiento particional. La autoría
de este método se asocia con diferentes autores como Lloyd (1957),
2
Capítulo 1: Una panorámica al agrupamiento de datos y sus aplicaciones Ciencia e Ingeniería en Tecnologías Computacionales
Ball y Hall (1965) y MacQueen (1967). El algoritmo 𝑘-medias busca 2.3. Enfoques basados en densidad
iterativamente la mejor partición de los datos minimizando la suma Estos enfoques generan agrupaciones utilizando criterios de
del error cuadrático mediante los siguientes pasos [6]: conectividad y densidad. El método más representativo de esta
Paso 1: Inicializar aleatoriamente una 𝑘-partición mediante familia es el algoritmo DBSCAN (density-based spatial clustering
un conjunto de prototipos (también llamados centroides). of applications with noise) [4]. Este método clasifica a los objetos
Paso 2: Asignar cada objeto del conjunto de datos al como:
prototipo más cercano basándose en una medida de distancia Un punto x es núcleo si al menos 𝑚 puntos están a una
(por ejemplo, la distancia Euclidiana). distancia 𝑟 , donde estos puntos son directamente alcanzables
Paso 3: Obtener los nuevos 𝑘 prototipos calculando la media desde x, de modo que no es posible tener puntos directamente
de los objetos en cada grupo. alcanzables desde un punto que no sea un núcleo.
Paso 4: Repetir los Pasos 2 y 3 hasta alcanzar convergencia, Un punto y es densamente alcanzable desde x si existe
es decir, cuando las asignaciones en el Paso 2 ya no cambian. una secuencia de puntos x1, . . . , x𝑝 , donde x1 = x (inicio)
Estos pasos del algoritmo 𝑘-medias se ilustran en la Figura 3 para y x𝑝 = y (fin), tal que cada punto x𝑖+1 es directamente
el conjunto de datos Iris, donde puede observarse el agrupamiento alcanzable desde x𝑖 . En otras palabras, dos puntos x e y
final encontrado por el algoritmo en el Paso 4. Nótese que están conectados densamente si existe un punto intermedio
cada grupo está representado por un prototipo que se encuentra z tal que x e y son directamente alcanzables desde z.
exactamente a la mitad del grupo, es decir, su centro de masa. Un punto que no sea alcanzable desde cualquier otro punto
es considerado ruido, denotado por n.
2.2. Enfoques jerárquicos DBSCAN utiliza un criterio de agrupamiento basado en densidad
Estos métodos crean una descomposición jerárquica del conjunto para la formación de grupos, donde un grupo satisface dos
de datos usando algún criterio de agrupamiento (por ejemplo, la propiedades:
distancia promedio entre elementos de cada grupo). Estos métodos
Si y es densamente alcanzable desde cualquier otro punto x
se clasifican en [16]:
que pertenece al mismo grupo, entonces y también forma
Aglomerativos: Comienzan el análisis con tantos grupos parte del grupo.
como objetos existan en el conjunto de datos. Después Cada par de puntos (x, y) en un grupo están densamente
se fusionan sucesivamente los grupos hasta que todos los conectados entre sí.
objetos están englobados en un mismo conglomerado.
Disociativos: Comienzan con un conglomerado que engloba Finalmente, dadas las definiciones previas de grupo y tipos de
a todos los objetos. Después se dividen sucesivamente los objetos, DBSCAN se puede resumir en los siguientes pasos:
grupos hasta que se tienen tantas agrupaciones como objetos Para cada objeto encontrar sus puntos vecinos en un radio 𝑟 ,
existan en el conjunto de datos. e identificar los puntos núcleo con al menos 𝑚 objetos.
En la práctica, los métodos aglomerativos son los más utilizados Para cada punto núcleo encontrar sus componentes conecta-
debido a su simplicidad y menor número operaciones matemáticas. dos, es decir, puntos densamente alcanzables.
Un ejemplo representativo de los algoritmos aglomerativos es el Asignar cada punto no central a su grupo cercano si está a
método de enlace-promedio o average-linkage, que consiste en una distancia 𝑟 , de lo contrario considerarlo como un punto
los siguientes pasos [13]: de ruido.
Paso 1: Cada objeto define su propio grupo. Entonces, La Figura 5(a) ejemplifica los diferentes tipos de objetos
determinar los dos objetos más cercanos y fusionarlos en un considerados por DBSCAN, mientras que la Figura 5(b) presenta
solo grupo. el agrupamiento obtenido para el conjunto de datos Iris. Nótese
Paso 2: Encontrar los dos grupos más cercanos y formar un que DBSCAN no requiere predefinir el número de grupos, 𝑘,
nuevo grupo. Para medir la distancia entre grupos, el método como parámetro de entrada; sin embargo, se deben especificar los
de enlace-promedio calcula la distancia promedio entre pares parámetros 𝑚 y 𝑟 que representan el número mínimo de puntos y
de objetos de los diferentes grupos. el radio, respectivamente, los cuales impactan en el agrupamiento
Paso 3: Repetir el Paso 2 hasta que todos los objetos resultante.
pertenezcan a un mismo grupo.
El agrupamiento generado por el algoritmo jerárquico de enlace- 2.4. Enfoques basados en modelos
promedio para el conjunto de datos Iris se presenta en la Figura 4. Este tipo de técnicas buscan el mejor ajuste de un modelo
La Figura 4(a) presenta la estructura jerárquica denominada probabilístico a cada uno de los grupos en el conjunto de datos.
dendrograma, generada por el método jerárquico. Por otro lado, El algoritmo de Esperanza-Maximización (EM) es un método que
en la Figura 4(b) se presenta el agrupamiento resultante cuando asigna cada objeto a un grupo, según la probabilidad de pertenencia
se hace un corte transversal en el dendrograma para generar una del objeto a ese grupo. Como modelo se utiliza una mezcla de
partición con tres grupos. Tome en cuenta que el nivel de corte funciones Gaussianas, cuyos parámetros (es decir, media y matriz
define la cantidad de grupos generados; por lo tanto, a mayor nivel, de covarianza) son ajustados gradualmente por el algoritmo EM, el
menor cantidad de grupos. cual consta de los siguientes pasos [14]:
3
Ciencia e Ingeniería en Tecnologías Computacionales W. Gómez-Flores & A. José-García
1 1 1 1
0 0 0 0
0 1 2 3 4 5 6 7 0 1 2 3 4 5 6 7 0 1 2 3 4 5 6 7 0 1 2 3 4 5 6 7
Largo del pétalo (cm) Largo del pétalo (cm) Largo del pétalo (cm) Largo del pétalo (cm)
Figura 3: Ejemplificación de los pasos del algoritmo 𝑘-medias sobre el conjunto de datos Iris.
Paso 1 (Inicialización): Definir los parámetros iniciales imágenes de tomografía computarizada (TC) del tórax [15]. En
de 𝑚 componentes Gaussianas. El valor 𝑚 define la cantidad la Figura 7(a) se muestra un caso de pulmones infectados por
de grupos que se desean encontrar. COVID-19 donde se observan “manchas” típicas producidas por la
Paso 2 (Esperanza): Calcular la probabilidad para cada neumonía.
componente y cada objeto y, posteriormente, computar el En este trabajo se realiza la segmentación de la imagen de TC
valor esperado de la función de verosimilitud1 . del tórax para detectar regiones infectadas dentro de los pulmones.
Paso 3 (Maximización): Actualizar los parámetros que El método se basa en el algoritmo 𝑘-medias, en donde los píxeles de
maximizan la probabilidad esperada encontrada en el paso la imagen son agrupados de acuerdo con su similitud de intensidad.
previo. De esta manera se forman grupos de píxeles relacionados con
Paso 4 (Finalización): Repetir los Pasos 1 y 2 hasta las manchas de neumonía observadas en la imagen de TC, como
alcanzar convergencia. se muestra en la Figura 7(b). Mediante este método, un médico
La Figura 6 presenta un agrupamiento obtenido a partir de los puede cuantificar de manera más precisa la extensión del daño por
parámetros de tres componentes Gaussianas encontradas con el neumonía y derivar al paciente hacia el tratamiento más adecuado.
algoritmo EM para el conjunto de datos Iris. Nótese que cada grupo
de objetos se modela por una elipse, que es la base de una función
Gaussiana, cuya localización está dada por la media (o centroide), 3.2. Detección de anomalías en series de tiempo
mientras que la matriz de covarianza define su rotación. Los datos de series de tiempo describen diferentes aspectos de
un cierto fenómeno temporal, por ejemplo, el comportamiento
3. APLICACIONES MODERNAS de la bolsa de valores, variaciones de señales biológicas, cambios
El agrupamiento de datos tiene una gran variedad de aplicaciones climáticos, entre otros. La detección de anomalías en series de
en las ciencias y la ingeniería. Continuamente los investigadores tiempo se refiere al descubrimiento de cualquier comportamiento
proponen técnicas novedosas para resolver problemas particulares. anormal dentro un intervalo de tiempo específico. Este problema
A continuación, se presentan algunos trabajos interesantes sobre ha sido abordado por Li y colaboradores, en donde analizan la
temas de actualidad. amplitud y la forma de series de tiempo basado en un algoritmo de
agrupamiento de datos llamado 𝑐-medias difuso [11].
3.1. Detección de neumonía por COVID-19 Una aplicación interesante de este método es la detección
de arritmias en señales de electrocardiografía (ECG), las cuales
El virus del SARS-CoV-2, más conocido como COVID-19, está
registran la actividad eléctrica del corazón. Una arritmia cardíaca
asociado con síntomas respiratorios graves conduciendo a ingresos
sucede cuando los impulsos eléctricos que sincronizan los latidos del
a las unidades de terapia intensiva y muerte con alta frecuencia.
corazón no funcionan adecuadamente, haciendo que el corazón lata
Por lo tanto, una gran cantidad de investigaciones actuales están
de manera irregular, ya sea lento (bradicardia) o rápido (taquicardia).
enfocadas en detectar síntomas de COVID-19 en etapas tempranas
En la Figura 8 se muestra un ejemplo de una señal de ECG en donde
para aumentar las probabilidades de supervivencia al acceder a un
el método detecta arritmias usando una puntuación de anomalía
tratamiento oportuno.
(anomaly score). Mientras mayor sea la puntuación, mayor es la
En este sentido, la investigación de Singh y Sekhar está orientada
probabilidad de encontrar una arritmia. Por lo tanto, se pueden
en la detección temprana de neumonía por COVID-19 usando
marcar con colores los intervalos de tiempo en donde se detecta
1 Función de los parámetros de un modelo que permite realizar inferencias acerca de una arritmia en la señal ECG, lo cual apoya el diagnóstico de los
su valor a partir de un conjunto de datos. cardiólogos.
4
Capítulo 1: Una panorámica al agrupamiento de datos y sus aplicaciones Ciencia e Ingeniería en Tecnologías Computacionales
Dendrograma
(a) 3.5
2.5
Similitud
1.5
0.5
0
1
6
2
3
7
5
9
8
12
14
25
10
13
15
18
11
16
17
19
30
24
26
20
23
28
29
21
27
22
Objetos
(b) 2.5
Iris virginica
Iris versicolor
Ancho del pétalo (cm)
2 Iris setosa
1.5
0
0 1 2 3 4 5 6 7 Iris virginica
Iris setosa
Largo del pétalo (cm) Iris versicolor
5
Ciencia e Ingeniería en Tecnologías Computacionales W. Gómez-Flores & A. José-García
6
Capítulo 1: Una panorámica al agrupamiento de datos y sus aplicaciones Ciencia e Ingeniería en Tecnologías Computacionales
7
Ciencia e Ingeniería en Tecnologías Computacionales W. Gómez-Flores & A. José-García
8
Capítulo 1: Una panorámica al agrupamiento de datos y sus aplicaciones Ciencia e Ingeniería en Tecnologías Computacionales
[7] Nan Jiang and Ting Liu. 2020. An improved speech segmentation and clustering [12] Yun Li, Manzhu Yu, Mengchao Xu, Jingchao Yang, Dexuan Sha, Qian Liu, and
algorithm based on SOM and 𝐾 -means. Mathematical Problems in Engineering Chaowei Yang. 2020. Big data and cloud computing. In Manual of Digital Earth.
2020 (2020), 1–19. Springer, Singapore, 325–355.
[8] Adán José-García, Julia Handl, Wilfrido Gómez-Flores, and Mario Garza-Fabre. [13] Frank Nielsen. 2016. Hierarchical clustering. In Introduction to HPC with MPI
2021. An evolutionary many-objective approach to multiview clustering using for Data Science (Undergraduate Topics in Computer Science). Springer, Cham,
feature and relational data. Applied Soft Computing 108 (2021), 107425. 195–211.
[9] Adán José-García and Wilfrido Gómez-Flores. 2016. Automatic clustering using [14] Douglas A Reynolds. 2009. Gaussian mixture models. Encyclopedia of Biometrics
nature-inspired metaheuristics: A survey. Applied Soft Computing 41 (2016), 741 (2009), 659–663.
192–213. [15] Pritpal Singh and Surya Sekhar Bose. 2021. A quantum-clustering optimization
[10] Adán José-García and Wilfrido Gómez-Flores. 2021. A survey of cluster validity method for COVID-19 CT scan image segmentation. Expert Systems with
indices for automatic data clustering using differential evolution. In Proceedings of Applications 185 (2021), 115637.
the Genetic and Evolutionary Computation Conference. Association for Computing [16] Rui Xu and Dondald C. Wunsch. 2009. Clustering (1st. ed.). Wiley, New York,
Machinery, New York, NY, USA, 314–322. NY.
[11] Jinbo Li, Hesam Izakian, Witold Pedrycz, and Iqbal Jamal. 2021. Clustering-based [17] Ruiyu Yang, Yuxiang Jiang, Scott Mathews, Elizabeth A. Housworth, Matthew W.
anomaly detection in multivariate time series data. Applied Soft Computing 100 Hahn, and Predrag Radivojac. 2019. A new class of metrics for learning on
(2021), 106919. real-valued and structured data. Data Mining and Knowledge Discovery 33 (2019),
995–1016.