Está en la página 1de 16

942

Artículo Revista Tecnología e Innovación


Diciembre 2015 Vol.2 No.5 942-957

Una versión modificada del algoritmo de agrupamiento Isodata


RENDON, Eréndira*†, MENDOZA, Marcos, CISNIEGA, Roció y CARBAJAL, Guillermo
Recibido 5 de Julio, 2015; Aceptado 24 de Noviembre, 2015

Resumen Abstract
El algoritmo de agrupamiento Isodata es uno de los más Isodata algorithm is one of the most used by the data
utilizados por la comunidad de minería de datos, aunque mining community, even though it has some
cuenta con algunas desvestajas. En este artículo se disadvantages. In this paper we present two modified
presentan dos versiones modificadas del algoritmo de versions of Isodata clustering algorithm where θ_c and
agrupamiento Isodata, que calcula automáticamente los θ_s input parameters are automatically calculate. Results
parámetros de entrada θ_c y θ_s. Las pruebas realizadas show similar performance to the original algorithm
sugieren que se obtienen los mismos resultados de according to SSE measure.
acuerdo a la medida SSE.
Clustering, Isodata, Data mining.
Agrupamiento, Isodata, Minería de datos

Citación: RENDON, Eréndira, MENDOZA, Marcos, CISNIEGA, Roció y CARBAJAL, Guillermo. Una versión
modificada del algoritmo de agrupamiento Isodata. Revista de Tecnología e Innovación 2015, 2-5: 942-957

* Correspondencia al Autor (Correo Electrónico: erendon @ittoluca.edu.mx)


† Investigador contribuyendo como primer autor.

© ECORFAN-Bolivia www.ecorfan.org/bolivia
943
Artículo Revista Tecnología e Innovación
Diciembre 2015 Vol.2 No.5 942-957

Introducción Dentro de los algoritmos más comunes


de esta familia tenemos el k-Means (Jain 1988),
El aprendizaje automático ha proporcionado (Kaufman L, 1989), PAM (Partitional Around
técnicas básicas para la minería de datos, para Medoid) (Kaufman L., 1989), CLARA
extraer conocimiento de las bases de datos. El (Clustering Large Applications) (Kaufman L.,
aprendizaje automático es dividido en dos áreas: 1989), ISODATA (Iterative Self-Organizing
el aprendizaje supervisado y el aprendizaje no Data Analysis Techniques) (Ball G., 1965),
supervisado; dentro del aprendizaje no todos estos algoritmos funcionan con datos de
supervisado existe una herramienta denominada tipo numérico.
agrupamiento o clustering. Por otro lado el
agrupamiento es una técnica muy utilizada en la El algoritmo de agrupamiento
minería de datos. ISODATA, el cual tiene como base el algoritmo
k-Means, incluye una serie de operaciones
El agrupamiento encuentra grupos o heurísticas e involucra un conjunto de
particiones en un conjunto de datos o base de parámetros extra, el algoritmo ISODATA
datos, de tal manera que los objetos que queden emplea iteraciones en las cuales incorporan la
en el mismo grupo sean similares entre si y eliminación de grupos poco numerosos, la
disimilares de los objetos de los otros grupos. fusión de grupos cercanos y la división de
grupos dispersos.
Dentro del agrupamiento se cuentan con
técnicas de agrupamiento básicas, las El algoritmo ISODATA es considerado
jerárquicas y las de partición. Las técnicas un excelente algoritmo de agrupamiento, si y
jerárquicas organizan los datos en una secuencia sólo si los parámetros que requiere de entrada
anidada de grupos, pueden iniciar considerando están correctamente definidos, ya que al ser un
un objeto como un grupo y de esta forma ir algoritmo iterativo depende en gran medida del
mezclándolos, la mezcla continúa hasta que conocimiento a priori del conjunto de datos y su
todos los objetos pertenecen a un solo grupo o experiencia para poder proporcionar
cuando el usuario decide escoger un nivel de eficientemente los parámetros que necesita el
agrupamiento en la jerarquía; por otro lado se algoritmo.
puede optar por el método inverso,
considerando todos los objetos como un grupo La eficiencia de algoritmo ISODATA
e ir dividiendo el grupo en grupos más depende de estimación correcta de los
pequeños, hasta que un objeto sea considerado parámetros de entrada, de tal forma que puede
un grupo o el usuario decida la jerarquía o nivel crear grupos perfectamente establecidos y
de agrupamiento. diferenciados, o en caso contrario generar
grupos débiles que no aportarán conocimiento
Así mismo las técnicas de agrupamiento significativo a la persona que lo emplea, ya que
basadas en partición van obteniendo un número el objetivo del algoritmo es encontrar
k de particiones de los datos, optimizan una información interesante y relevante dentro del
función objetivo en donde k es el número de conjunto de datos.
grupos deseados del conjunto de datos, la forma
de representar los grupos es por centros de El algoritmo ISODATA posee grandes
gravedad o por objetos asignados al centro más ventajas sobre otros algoritmos de
cercano (centroides), buscando obtener grupos agrupamiento al introducir la división y fusión
naturales presentes en los datos empleando de grupos, buscando grupos naturales presentes
ajuste en los centros. en el conjunto de datos; por otro lado cabe

ISSN-2410-3993 RENDON, Eréndira, MENDOZA, Marcos, CISNIEGA, Roció y


ECORFAN® Todos los derechos reservados CARBAJAL, Guillermo. Una versión modificada del algoritmo de
agrupamiento Isodata. Revista de Tecnología e Innovación 2015
944
Artículo Revista Tecnología e Innovación
Diciembre 2015 Vol.2 No.5 942-957

mencionar que el algoritmo ISODATA al igual Trabajos relacionados


que muchos de los algoritmos de partición
presentan sensibilidad debido a los parámetros En (Kohei A., 2007) se presenta un nuevo
de entrada que requieren para funcionar, es aquí método donde se emplean algoritmos genéticos
donde se encuentran los parámetros que para obtener los parámetros de fusión y división
determinan la fusión (θC) y división de grupos de grupos. Según los resultados obtenidos el uso
(θS). Sin embargo en muchas aplicaciones de algoritmos genéticos para la obtención de los
reales es difícil calcular correctamente estos parámetros θC y θS genera una mejor selección
parámetros, entonces una forma de eliminar de los grupos. En este nuevo método los
esta desventaja es calcular automáticamente los algoritmos genéticos proporcionaron un método
parámetros tanto de fusión como de división de alternativo para determinar el umbral en la
grupos, realizando tal estimación sin contar con separación e integración de la variedad de
información a priori y considerando la forma en grupos formados por el algoritmo ISODATA,
cómo se encuentran distribuidos los objetos los resultados obtenidos muestran mejoría
previamente o en los primeros pasos de la notable el resultado, debido a que el método
aplicación del algoritmo. típico ejecutado en el ISODATA distribuye el
grupo suponiendo que es una función convexa y
Actualmente el algoritmo requiere de un cuando la distribución del grupo es una función
conocimiento a priori del conjunto de datos cóncava éste puede responder en cierta medida
para poder establecer por el usuario los por la fusión y división, pero si el
parámetros antes mencionados, entonces el procedimiento convencional del algoritmo es
problema a resolver es estimar los parámetros seguido entonces el grupo clasificado
θC y θS sin contar con información a priori. correctamente puede ser destruido, mediante lo
descrito anteriormente el método propuesto en
En este trabajo se presenta dos versiones (Kohei A. ,2007) obtiene grupos mejor
del algoritmo Isodata, donde se incluyen un distribuidos y definidos.
método que estima de manera adecuada el
parámetro de entrada de fusión de grupos θC y En (El-Zaart., 2010) se expone la
así mismo el parámetro de división de grupos θS aplicación del algoritmo ISODATA en la
del algoritmo de agrupamiento ISODATA. segmentación de imágenes, fundamental en
diversas vertientes del procesamiento de
Este trabajo se encuentra organizado de imágenes. En esta investigación se asume que
la siguiente manera, en la primera sección se los datos de la imagen son modelados por la
presentan algunos trabajos que se han realizados distribución Gamma en combinación con el
sobre el algoritmo Isodata, en la sección se algoritmo ISODATA se desarrolla un nuevo
describe el algoritmo Isodata, en la sección 3 se método útil en la fase de segmentación de
presenta los algoritmos de las modificaciones imágenes. La aplicación del ISODATA en (El-
propuestas, en la sección cuatro se presntan las Zaart., 2010) es calcular los umbrales y
pruebas y los resultados obtenidos y finalmente segmentar la imagen, el objetivo perseguido es
en sección cinco las conclusiones a las cuales se dividir la imagen en una región no homogénea
llegaron. (histograma) en dos sub-regiones (modo), de
esta forma un histograma de una imagen puede
ser en modo simétrico o asimétrico.

ISSN-2410-3993 RENDON, Eréndira, MENDOZA, Marcos, CISNIEGA, Roció y


ECORFAN® Todos los derechos reservados CARBAJAL, Guillermo. Una versión modificada del algoritmo de
agrupamiento Isodata. Revista de Tecnología e Innovación 2015
945
Artículo Revista Tecnología e Innovación
Diciembre 2015 Vol.2 No.5 942-957

La distribución Gamma es empleada Se desarrollaron pruebas para medir el


para modelar formas simétricas y no simétricas, desempeño del AGMFI mediante la aplicación
por lo tanto se emplea esta distribución para de un conjunto de datos conocido y a
aproximar el histograma de una imagen por una disposición del público y por otro lado datos
mezcla de distribuciones y así los parámetros sintéticos, los experimentos indican que el
estadísticos extraídos de la imagen pueden ser lo algoritmo aumento el enriquecimiento de los
más exactos posibles. El propósito es usar la genes de función similar en el grupo. En el
distribución Gamma para estimar los parámetros algoritmo expuesto solo se emplean 4
necesarios y aplicar el ISODATA al segmentar parámetros de entrada (número de grupos,
la imagen. El algoritmo propuesto en (El-Zaart., número mínimo de elementos, parámetro de la
2010) pretende mejorar la división y fusión de división y el número máximo de iteraciones)
las clases, si la clase no es homogénea los con los cuales se puede seguir la secuencia
parámetros iniciales de la clase son requeridos normal del ISODATA hasta la parte de la
para dividir en dos subclases diferentes. Las posible fusión de grupos. Para generar el factor
clases se combinarán si bien el número de de mezcla se debe calcular la matriz de
miembros (píxeles) es menor que el valor para distancias entre grupos, encontrar la mínima
los miembros mínimos de una clase ó por otro distancia entre dos grupos y hallar la distancia
lado si los centros de dos clases están más cerca promedio entre todos los grupos del conjunto,
que el valor de distancia mínima media entre posterior se obtiene un promedio de las
dos clases. En conclusión la división y los pasos distancias anteriormente mencionadas y se
de la fusión en el ISODATA de (El-Zaart., procede con el calculó del factor de mezcla. Las
2010) requieren una estimación de medias y conclusiones obtenidas muestran mejores
umbrales, y mediante la distribución Gamma se resultados en comparación con el ISODATA
realiza el cálculo de parámetros de fusión y tradicional y el K-Medias, pero los resultados
división de clases. continúan teniendo gran dependencia de los
centroides iniciales.
En (Pavan K., 2008) se expone un
método para la generación del factor de mezcla Algoritmo de agrupamiento Isodata
o fusión empleado en el ISODATA. Como se
describe en (Pavan K. 2008) aplicar la Los parámetros de entrada que maneja el
inteligencia artificial en asuntos de genética es algoritmo ISODATA (Ball G., 1965) son los
cada vez más común, en específico en los siguientes:
microarrays cuyo objetivo es identificar genes
co-expresados y patrones de coherencia además 𝑁𝐶 : Número actual de grupos que han sido
del análisis de las expresiones genéticas. En esta formados.
investigación se propone un algoritmo de
generación automática del factor de mezcla para 𝑘: Número deseado o estimado a priori de
el ISODATA (AGMFI), de esta forma agrupar grupos.
los datos de microarrays sobre la base de
ISODATA, en AGMFI se generan valores 𝜃𝑁 : Número mínimo de elementos o miembros
iniciales para el factor de mezcla en vez de de un grupo para constituirlo como tal.
seleccionar valores heurísticos como en el
ISODATA tradicional. 𝜃𝑆 : Desviación típica máxima, servirá para
aplicar el criterio de división de un grupo o
clase en dos, la división se realiza si la
desviación típica del grupo es superior a 𝜃𝑠 .

ISSN-2410-3993 RENDON, Eréndira, MENDOZA, Marcos, CISNIEGA, Roció y


ECORFAN® Todos los derechos reservados CARBAJAL, Guillermo. Una versión modificada del algoritmo de
agrupamiento Isodata. Revista de Tecnología e Innovación 2015
946
Artículo Revista Tecnología e Innovación
Diciembre 2015 Vol.2 No.5 942-957

𝜃𝐶 : es un parámetro de unión de dos grupos, se Eliminar los grupos con un número


emplea para comprobar si la distancia euclídea insuficiente de miembros.
entre dos grupos es menor que 𝜃𝐶 en cuyo caso
son dos grupos a fusionar. Se procede con la eliminación de grupos que
tengan un número de elementos inferior a 𝜃𝑁 ,
𝐿: Cuando en una iteración genérica del actualizando el parámetro 𝑁𝐶 , si la eliminación
algoritmo existe más de una pareja de grupos de grupos procede posterior a ésta se debe
susceptibles a unirse, este parámetro limita el volver a agrupar esos elementos entre los
número de fusiones que pueden llevarse a cabo centroides existentes.
en esa iteración.
Actualizar los centroides de los grupos.
𝐼: Número máximo de iteraciones que puede
ejecutar el algoritmo. La actualización se lleva a cabo calculando la
media muestral de cada grupo, empleando la
Pasos del algoritmo ISODATA siguiente ecuación:
1 𝑁𝑖
𝑍𝑖 = 𝑁 ∑𝑗=1 𝑥𝑗 ; 𝑖 = 1,2 … 𝑁𝑐 (2)
El algoritmo ISODATA se describirá a 𝑖

continuación mediante una serie de pasos para


su fácil comprensión. Donde 𝑁𝑖 es el número de elementos de la clase
𝛼𝑖 .
Inicialización
Cálculo de la distancia euclídea media de
Se comienza con darle valor a los parámetros, cada grupo
recomendando asignar 𝑘 ha 𝑁𝐶 , se eligen 𝑘
Para cada grupo se debe obtener la distancia
elementos entre los 𝑃 elementos a clasificar:
euclídea media de sus elementos con respecto a
𝑋1 , 𝑋2 , … , 𝑋𝑃 formando con cada uno de ellos
su centroide, empleando la siguiente ecuación:
un grupo inicial. Se tienen entonces los 𝑘 = 𝑁𝐶
centroides 𝑍1 , 𝑍2 , … , 𝑍𝑁𝑐 .
̅𝑖 = 1 ∑𝑁𝑖 ‖𝑥𝑗 − 𝑍𝑖 ‖;
𝐷 𝑖 = 1,2 … 𝑁𝑐 (3)
𝑁 𝑗=1
𝑖
Distribuir los elementos entre los distintos
grupos. Lo que devuelve este parámetro es una
medida de la dispersión de los elementos de
Se agrupan los elementos 𝑥1 , 𝑥2 , … , 𝑥𝑃 entre los cada grupo con respecto a su media, y se
𝑁𝐶 grupos ya formados, siguiendo el principio utilizará posteriormente para la posible división
de la mínima distancia euclídea, empleando la de un grupo.
siguiente ecuación:
Cálculo de la distancia media de todos los
𝑥𝑗 ∈ 𝛼𝑖 𝑠𝑖 ‖𝑥𝑖 − 𝑍𝑖 ‖𝑚í𝑛𝑖𝑚𝑎 grupos
∀𝑗 = 1,2 … 𝑝; ∀𝑖 = 1,2 … 𝑁𝑐
(1) De las distancias obtenidas en el paso
anterior se obtiene el promedio:

̅ = 1 ∑𝑁
𝐷 𝑐 ̅
𝑁 𝑖=1 𝑁𝑖 𝐷𝑖
𝑐
(4)

ISSN-2410-3993 RENDON, Eréndira, MENDOZA, Marcos, CISNIEGA, Roció y


ECORFAN® Todos los derechos reservados CARBAJAL, Guillermo. Una versión modificada del algoritmo de
agrupamiento Isodata. Revista de Tecnología e Innovación 2015
947
Artículo Revista Tecnología e Innovación
Diciembre 2015 Vol.2 No.5 942-957

{𝜎1 𝑚𝑎𝑥 , 𝜎2 𝑚𝑎𝑥 … 𝜎𝑁𝑐 𝑚𝑎𝑥 }


Comprobación de bifurcaciones
Posible división de grupos
 Se comprueba en primer lugar si se trata
de la última iteración, si es así entonces Para una clase, 𝛼𝑗 en que se cumple que
se hace 𝜃𝐶 = 0 y se avanza al paso 11 𝜎𝑗𝑚𝑎𝑥 > 𝜃𝑆 y cumple con alguna de las
(unión de grupos). siguientes condiciones:

 Por otro lado se verifica si es posible  𝐷𝑗 > 𝐷 y 𝑁𝑗 > 2(𝜃𝑁 + 1)


unir grupos, considerando si 𝑁𝐶 ≥ 2𝑘, 𝐾
 𝑁𝐶 ≤ 2 ; 𝑁𝐶 es el número de elementos del
si es así se avanza al paso 11 (unión de
grupos). grupo

 Si no se cumple alguna de las La primera condición significa que la


condiciones anteriores se prosigue con dispersión media del grupo 𝜎𝑗 candidato a
la secuencia natural que se describe a dividirse en dos, es superior a la media de las
continuación. dispersiones de todos los grupos; y la segunda
condición significa que el número de sus
Cálculo del vector de desviaciones típicas de elementos es al menos superior al doble del
cada grupo número mínimo para formar un grupo.

Al trabajar con un vector de características n- Si se cumple entonces se divide el grupo


dimensional, los grupos presentan un vector n- en dos, siguiendo alguno de los procedimientos
dimensional de desviaciones típicas como se que se plantean a continuación:
muestra a continuación:
1. Una posibilidad para el proceso de división
𝜎𝑖1 es crear dos nuevos centroides, 𝑍𝑗 + y 𝑍𝑗 − a
𝜎𝑖2 2 partir de 𝑍𝑗, de tal forma que las
𝜎𝑖 = … ; 𝜎𝑖𝑗 = √𝑁 ∑𝐾=1
1 𝑁𝑖
(𝑋𝑘𝑗 − 𝑍𝑖𝑗 ) componentes de los nuevos centroides
… 𝑖
coincidan con los de 𝑍𝑗, excepto la
(𝜎𝑖𝑛 )
componente con la máxima dispersión, es
(5)
decir la 𝑍𝑘 , siendo la dispersión 𝜎𝑗𝑚𝑎𝑥 ,
De la fórmula anterior donde: entonces los componentes de 𝑍𝑗 + y 𝑍𝑗 −
serán:
 𝑖= 1,2,…, 𝑁𝑐 (grupos actuales);
𝑍𝑗 𝑘 + = 𝑍𝑗 𝑘 + 𝛾𝜎𝑗 𝑚𝑎𝑥 (6)
 𝑗= 1,2,…, 𝑛 (características);
 𝐾= 1,2,…, 𝑁𝑖 (elementos de la clase 𝛼𝑖 );
𝑍𝑗 𝑘 − = 𝑍𝑗 𝑘 − 𝛾𝜎𝑗 𝑚𝑎𝑥 , 𝑐𝑜𝑛 0 < 𝛾 < 1 (7)
Obtener desviaciones típicas máximas de
𝑃𝑎𝑟𝑎 𝑒𝑠𝑡𝑒 𝑡𝑟𝑎𝑏𝑎𝑗𝑜 𝑒𝑙 𝑣𝑎𝑙𝑜𝑟 𝑑𝑒 𝛾 𝑠𝑒 𝑡𝑜𝑚𝑎𝑟á 𝑐𝑜𝑚𝑜 0.5
cada grupo
 Lo que se pretende con esta división es
De cada grupo se selecciona el componente distribuir adecuadamente las muestras
mayor del correspondiente vector de originales del grupo antes de la división
desviaciones típicas, entonces se forma el entre los dos nuevos grupos.
conjunto:

ISSN-2410-3993 RENDON, Eréndira, MENDOZA, Marcos, CISNIEGA, Roció y


ECORFAN® Todos los derechos reservados CARBAJAL, Guillermo. Una versión modificada del algoritmo de
agrupamiento Isodata. Revista de Tecnología e Innovación 2015
948
Artículo Revista Tecnología e Innovación
Diciembre 2015 Vol.2 No.5 942-957

2. Por otro lado se tiene la alternativa de Siendo 𝑁𝑖 y 𝑁𝑗 el número de elementos


división basada en obtener las dos muestras de los grupos 𝛼𝑖 y 𝛼𝑗 respectivamente antes de
del grupo 𝛼𝑗 más alejadas entre sí y con la fusión. En cada unión se actualiza el
respecto a su centroide, si las muestras parámetro 𝑁𝐶 ya que el grupo se puede unir una
obtenidas se representan como 𝑍𝑗 + y 𝑍𝑗 − sola vez en cada iteración, generalmente no se
los dos nuevos centroides se calcularan de obtendrán 𝐿 uniones en cada iteración.
la manera siguiente:
Comprobar última iteración
(𝑍𝑗 + +𝑍𝑗)
𝑍𝑗1 = (8)
2
Se comprueba si se ha llegado a la última
(𝑍𝑗 + 𝑍𝑗)− iteración, comparando con el parámetro 𝐼, el
𝑍𝑗2 = caso negativo se vuelve al paso 2 iniciando una
2 nueva iteración.
(9)
Para una fácil comprensión se muestra en la
Cálculo de distancias entre grupos
Figura 3.1 el diagrama de flujo del algoritmo
Para la posible unión de grupos se debe calcular ISODATA.
previamente todas las distancias entre parejas
de grupos, empleando: Método propuesto

Modificación M1 del algoritmo Isodata


𝐷𝑖𝑗 = 𝐷𝑗𝑖 = ‖𝑍𝑖 − 𝑍𝑗 ‖ (10)
𝑖 = 1,2 … 𝑁𝑐 − 1; 𝑗 = 𝑖 + 1, 𝑖 + 2 … 𝑁𝑐 El algoritmo ISODATA (Ball G., 1965) con la
Modificación 1 se describirá a continuación.
Posible unión
Inicialización
Se comparan las distancias 𝐷𝑖𝑗 con el parámetro
𝜃𝐶 de forma que se toman, si existen, las 𝐿 más Se empieza asignando valores a los parámetros,
pequeñas en orden creciente, teniendo: se recomienda asignar 𝑘 ha 𝑁𝐶 , se eligen 𝑘
elementos entre los 𝑃 elementos a clasificar:
{𝐷1 , 𝐷2 … 𝐷𝐿 } 𝑐𝑜𝑛 𝐷1 < 𝐷2 < ⋯ < 𝐷𝐿
𝑋1 , 𝑋2 , … , 𝑋𝑃 formando con cada uno de ellos
un grupo inicial. Se tienen entonces los 𝑘 = 𝑁𝐶
Proceso de unión
centroides 𝑍1 , 𝑍2 , … , 𝑍𝑁𝑐 .
Se comienza con los pares de grupos con las
distancias menores, supóngase que se unirán los Distribuir los elementos entre los distintos
grupos
grupos 𝑖, 𝑗 cuya distancia es 𝐷𝑖𝑗 encontrada
dentro del conjunto {𝐷1 , 𝐷2 , … , 𝐷𝐿 } con 𝐷1 <
Se agrupan los elementos 𝑥1 , 𝑥2 , … , 𝑥𝑃 entre los
𝐷2 < ⋯ < 𝐷𝐿 . Sí y sólo sí ninguno de estos dos
𝑁𝐶 grupos ya formados, siguiendo el principio
grupos ha sido fusionado previamente con otro
de la mínima distancia euclidiana, empleando la
en esta misma iteración, se forma un grupo
siguiente ecuación:
único cuyo centroide es:
1 𝑥𝑗 ∈ 𝛼𝑖 𝑠𝑖 ‖𝑥𝑖 − 𝑍𝑖 ‖𝑚í𝑛𝑖𝑚𝑎 (12)
𝑍𝑖𝑗 = 𝑁 +𝑁 ∗ (𝑁𝑖 𝑍𝑖 + 𝑁𝑗 𝑍𝑗 ) (11) ∀𝑗 = 1,2 … 𝑝; ∀𝑖 = 1,2 … 𝑁𝑐
𝑖 𝑗

ISSN-2410-3993 RENDON, Eréndira, MENDOZA, Marcos, CISNIEGA, Roció y


ECORFAN® Todos los derechos reservados CARBAJAL, Guillermo. Una versión modificada del algoritmo de
agrupamiento Isodata. Revista de Tecnología e Innovación 2015
949
Artículo Revista Tecnología e Innovación
Diciembre 2015 Vol.2 No.5 942-957

Eliminar los grupos con un número 𝜎𝑖1


𝑁𝑖
insuficiente de miembros 𝜎𝑖2 1 2
𝜎𝑖 = … ; 𝜎𝑖𝑗 = √ ∑(𝑋𝑘𝑗 − 𝑍𝑖𝑗 )
… 𝑁𝑖
Se procede con la eliminación de grupos que 𝐾=1
(𝜎𝑖𝑛 )
tengan un número de elementos inferior a 𝜃𝑁 , (14)
actualizando el parámetro 𝑁𝐶 , si la eliminación
de grupos procede posterior a ésta se debe Donde:
volver a agrupar esos elementos entre los
centroides existentes. 𝑖= 1,2,…, 𝑁𝑐 (grupos actuales);
𝑗= 1,2,…, 𝑛 (características);
Actualizar los centroides de los grupos 𝐾= 1,2,…, 𝑁𝑖 (elementos de la clase 𝛼𝑖 );

La actualización se lleva a cabo calculando la La desviación típica de cada grupo (𝜎𝑖 =


media muestral de cada grupo, empleando la (𝜎𝑖1 , 𝜎𝑖2 , … , 𝜎𝑖𝑛 )) se almacena de acuerdo a las
siguiente ecuación: características empleadas, mas adelante se
empleará junto con otros componentes en la
1 𝑁𝑖
𝑍𝑖 = 𝑁 ∑𝑗=1 𝑥𝑗 ; 𝑖 = 1,2 … 𝑁𝑐 (13) fase de división de un grupo.
𝑖

Donde 𝑁𝑖 es el número de elementos de la clase Cálculo de la matriz de distancias entre


𝛼𝑖 . grupos

En este paso se calculan las distancias entre


Comprobación de bifurcaciones
grupos, es decir obtener las distancias entre
todos los grupos actuales, para esto se emplea la
 Se comprueba en primer lugar si se trata
siguiente fórmula:
de la última iteración, si es así entonces
se hace 𝜃𝐶 = 0 y se avanza al paso
11(unión de grupos). 𝐷𝑖𝑗 = 𝐷𝑗𝑖 = ‖𝑍𝑖 − 𝑍𝑗 ‖ (15)
𝑖 = 1,2 … 𝑁𝑐 − 1; 𝑗 = 𝑖 + 1, 𝑖 + 2 … 𝑁𝑐
 Por otro lado se verifica si es posible
unir grupos, considerando si 𝑁𝐶 ≥ 2𝑘, La matriz que ejemplifica el escenario
si es así se avanza al paso 11 (unión de se muestra en la Tabla 1:
grupos).

 Si no se cumple alguna de las


condiciones anteriores se prosigue con
la secuencia natural que se describe a
continuación. Tabla 1 Ejemplo de matriz de distancia entre grupos.

Cálculo del vector de desviaciones típicas de 𝐶𝑜𝑛 𝑖 = 1,2 … 𝑁𝑐 − 1;


cada grupo
De los resultados obtenidos en la matriz
Al trabajar con un vector de características n- se selecciona la mínima distancia entre dos
dimensional, los grupos presentan un vector n- grupos (𝐷𝑚𝑖𝑛 ) y además se debe calcular el
dimensional de desviaciones típicas como se promedio de todas las distancias obtenidas
muestra a continuación: como a continuación se muestra:
ISSN-2410-3993 RENDON, Eréndira, MENDOZA, Marcos, CISNIEGA, Roció y
ECORFAN® Todos los derechos reservados CARBAJAL, Guillermo. Una versión modificada del algoritmo de
agrupamiento Isodata. Revista de Tecnología e Innovación 2015
950
Artículo Revista Tecnología e Innovación
Diciembre 2015 Vol.2 No.5 942-957

̅ = 𝐷12 + 𝐷13 +⋯+𝐷(𝑖−1) 𝑖


𝐷 (16) Posible división de grupos
𝑖

Con los rangos por clase se comienza a evaluar


Con 𝑖= número de distancias entre si cada característica del objeto se encuentra
centroides del conjunto de datos.
dentro del rango establecido, es decir para un
objeto 𝑋𝑖𝑗 que pertenece a la clase 𝛼𝑖 , la
Cálculo del factor de mezcla 𝜽𝑪 .
característica 𝑗 de dicho objeto debe encontrar
̅ se procede a entre los rangos calculados por la Ec. 18 para
Una vez obtenido 𝐷𝑚𝑖𝑛 y 𝐷
la característica 𝑗 de la clase 𝑖, se denota como
calcular el factor de mezcla, el cual se obtiene
de la siguiente forma: sigue: 𝑋𝑖𝑗 ∈ 𝑅𝑖𝑗 = [𝜇𝑖𝑗 − 𝜎𝑖𝑗 , 𝜇𝑖𝑗 + 𝜇𝑖𝑗 ] en
donde:
̅
𝐷𝑚𝑖𝑛 + 𝐷
𝜃𝐶 = (17)
2 i= 1,2,…, 𝑁𝑐 (grupos actuales);
𝑗= 1,2,…, 𝑛 (características);
Obtención de rangos por clase 𝜇== es la media centroide 𝑖 de la característica
𝑗
Haciendo uso de las desviaciones típicas 𝜎= La desviación típica del grupo 𝑖 con con la
(calculadas en el paso 6) de cada grupo (𝜎𝑖 = característica 𝑗 (previamente calculado).
(𝜎𝑖1 , 𝜎𝑖2 , … , 𝜎𝑖𝑛 )) y junto con los centroides
actuales (𝑍1 , 𝑍2 , … , 𝑍𝑁𝑐 ) se procede a calcular Si todas las características del objeto 𝑋𝑖𝑗
rangos por cada grupo y por cada característica se encuentran dentro de los rangos establecidos
como se muestra a continuación: para la clase 𝛼𝑖𝑗 el objeto es considerado como
parte de dicha clase, de lo contrario el objeto no
𝑅𝑖1 es considerado parte de la clase. Esta
𝑅𝑖2 comparación se realiza para todos los objetos de
𝑅𝑖 = … ; 𝑅𝑖𝑗 = [𝜇𝑖𝑗 − 𝜎𝑖𝑗 , 𝜇𝑖𝑗 + 𝜇𝑖𝑗 ]
… una clase establecida, y al final se debe obtener
un porcentaje de los objetos que quedaron
(𝑅𝑖𝑛 ) dentro y fuera, a continuación se enuncian las
(18)
reglas para una posible separación de grupos:
Donde:
 Si el porcentaje de objetos dentro es igual al
𝑖= 1,2,…, 𝑁𝑐 (grupos actuales); 60% o más del total de objetos del grupo,
entonces no se divide dicha clase y se
𝑗= 1,2,…, 𝑛 (características);
avanza al paso 11
𝜇= es la media centroide 𝑖 de la característica 𝑗
𝜎= La desviación típica del grupo 𝑖 con la
 De lo contrario si el porcentaje de objetos
característica 𝑗 (previamente calculado en el
dentro del rango es menor que el 60 % del
paso 6)
total de ellos para esa clase, si se cumple
entonces se divide el grupo en dos,
De lo anterior se obtiene un rango por
siguiendo alguno de los procedimientos
clase, este rango está en función del número de
que se plantean a continuación:
características de los objetos del conjunto
analizado.

ISSN-2410-3993 RENDON, Eréndira, MENDOZA, Marcos, CISNIEGA, Roció y


ECORFAN® Todos los derechos reservados CARBAJAL, Guillermo. Una versión modificada del algoritmo de
agrupamiento Isodata. Revista de Tecnología e Innovación 2015
951
Artículo Revista Tecnología e Innovación
Diciembre 2015 Vol.2 No.5 942-957

1. Una posibilidad para el proceso de división Proceso de unión


es crear dos nuevos centroides, 𝑍𝑗 + y 𝑍𝑗 − a
partir de 𝑍𝑗, de tal forma que las Se comienza con los pares de grupos con las
componentes de los nuevos centroides distancias menores, supóngase que se unirán los
coincidan con los de 𝑍𝑗, excepto la grupos 𝑖, 𝑗 cuya distancia es 𝐷𝑖𝑗 encontrada
componente con la máxima dispersión, es dentro del conjunto {𝐷1 , 𝐷2 , … , 𝐷𝐿 } con 𝐷1 <
decir la 𝑍𝑘 , siendo la dispersión 𝜎𝑗𝑚𝑎𝑥 , 𝐷2 < ⋯ < 𝐷𝐿 . Sí y sólo sí ninguno de estos dos
entonces los componentes de 𝑍𝑗 + y 𝑍𝑗 − grupos ha sido fusionado previamente con otro
serán: en esta misma iteración, se forma un grupo
único cuyo centroide es:
𝑍𝑗 𝑘 + = 𝑍𝑗 𝑘 + 𝛾𝜎𝑗 𝑚𝑎𝑥 (19)
1
𝑍𝑖𝑗 = 𝑁 +𝑁 ∗ (𝑁𝑖 𝑍𝑖 + 𝑁𝑗 𝑍𝑗 ) (22)
𝑍𝑗 𝑘 − = 𝑍𝑗 𝑘 − 𝛾𝜎𝑗 𝑚𝑎𝑥 , 𝑐𝑜𝑛 0 < 𝛾 < 1 (20) 𝑖 𝑗

Siendo 𝑁𝑖 y 𝑁𝑗 el número de elementos


Lo que se pretende con esta división es
distribuir adecuadamente las muestras de los grupos 𝛼𝑖 y 𝛼𝑗 respectivamente antes de
originales del grupo antes de la división entre la fusión. En cada unión se actualiza el
los dos nuevos grupos. parámetro 𝑁𝐶 ya que el grupo se puede unir una
sola vez en cada iteración, generalmente no se
2. Por otro lado se tiene la alternativa de obtendrán 𝐿 uniones en cada iteración.
división basada en obtener las dos muestras
del grupo 𝛼𝑗 más alejadas entre sí y con Comprobar última iteración
respecto a su centroide, si las muestras
Se comprueba si se ha llegado a la última
obtenidas se representan como 𝑍𝑗 + y 𝑍𝑗 −
los dos nuevos centroides se calcularan de iteración, comparando con el parámetro 𝐼, el
la manera siguiente: caso negativo se vuelve al paso 2 iniciando una
nueva iteración.
(𝑍𝑗 + +𝑍𝑗)
𝑍𝑗1 = (20) Modificación M2 del algoritmo Isodata
2

(𝑍𝑗 − +𝑍𝑗) Los parámetros de entrada que son manejados


𝑍𝑗2 = (21)
2 por ésta modificación del algoritmo son:
Posible unión
𝑁𝐶 : Número actual de grupos que han sido
formados.
De la matriz calculada en el paso 7 generamos
una lista con las distancia entre parejas de
𝑘: Número deseado o estimado a priori de
grupos. Se comparan las distancias 𝐷𝑖𝑗 con
grupos.
factor de mezcla 𝜃𝐶 de forma que se toman, si
existen, las 𝐿 más pequeñas en orden creciente, 𝜃𝑁 : Número mínimo de elementos o miembros
teniendo: de un grupo para constituirlo como tal.
{𝐷1 , 𝐷2 … 𝐷𝐿 } 𝑐𝑜𝑛 𝐷1 < 𝐷2 < ⋯ < 𝐷𝐿

ISSN-2410-3993 RENDON, Eréndira, MENDOZA, Marcos, CISNIEGA, Roció y


ECORFAN® Todos los derechos reservados CARBAJAL, Guillermo. Una versión modificada del algoritmo de
agrupamiento Isodata. Revista de Tecnología e Innovación 2015
952
Artículo Revista Tecnología e Innovación
Diciembre 2015 Vol.2 No.5 942-957

𝐿: Cuando en una iteración genérica del Actualizar los centroides de los grupos
algoritmo existe más de una pareja de grupos
susceptibles a unirse, este parámetro limita el La actualización se lleva a cabo calculando la
número de fusiones que pueden llevarse a cabo media muestral de cada grupo, empleando la
en esa iteración. siguiente ecuación:
1 𝑁𝑖
𝐼: Número máximo de iteraciones que puede 𝑍𝑖 = 𝑁 ∑𝑗=1 𝑥𝑗 ; 𝑖 = 1,2 … 𝑁𝑐 (24)
ejecutar el algoritmo. 𝑖

El algoritmo ISODATA (Ball G., 1965) Donde 𝑁𝑖 es el número de elementos de la clase


con la Modificación 2 se describirá a 𝛼𝑖 .
continuación.
Comprobación de bifurcaciones
Inicialización
 Se comprueba en primer lugar si se trata
Se establecen los valores para los parámetros de la ultima iteración, si es así entonces
previamente mencionados, se recomienda se hace 𝜃𝐶 = 0 y se avanza al paso 12
asignar 𝑘 ha 𝑁𝐶 , se eligen 𝑘 elementos entre los (unión de grupos).
𝑃 elementos a clasificar: 𝑋1 , 𝑋2 , … , 𝑋𝑃
formando con cada uno de ellos un grupo  Por otro lado se verifica si es posible
inicial. Se tienen entonces los 𝑘 = 𝑁𝐶 unir grupos, considerando si 𝑁𝐶 ≥ 2𝑘,
centroides 𝑍1 , 𝑍2 , … , 𝑍𝑁𝑐 . si es así se avanza al paso 12 (unión de
grupos).
Distribuir los elementos entre los distintos
grupos  Si no se cumple alguna de las
condiciones anteriores se prosigue con
Se agrupan los elementos 𝑥1 , 𝑥2 , … , 𝑥𝑃 entre los la secuencia natural que se describe a
𝑁𝐶 grupos ya formados, siguiendo el principio continuación.
de la mínima distancia euclidiana, empleando la
siguiente ecuación: Cálculo del vector de desviaciones típicas de
cada grupo
𝑥𝑗 ∈ 𝛼𝑖 𝑠𝑖 ‖𝑥𝑖 − 𝑍𝑖 ‖𝑚í𝑛𝑖𝑚𝑎 (23)
Al trabajar con un vector de características n-
∀𝑗 = 1,2 … 𝑝; ∀𝑖 = 1,2 … 𝑁𝑐
dimensional, los grupos presentan un vector n-
dimensional de desviaciones típicas como se
Eliminar los grupos con un número
muestra a continuación:
insuficiente de miembros
𝜎𝑖1
Se procede con la eliminación de grupos que 𝜎𝑖2 2
𝜎𝑖 = … ; 𝜎𝑖𝑗 = √𝑁 ∑𝐾=1
tengan un número de elementos inferior a 𝜃𝑁 , 1 𝑁𝑖
(𝑋𝑘𝑗 − 𝑍𝑖𝑗 )
actualizando el parámetro 𝑁𝐶 , si la eliminación … 𝑖

de grupos procede posterior a ésta se debe (𝜎𝑖𝑛 )


volver a agrupar esos elementos entre los (25)
centroides existentes.
De la fórmula anterior donde:

ISSN-2410-3993 RENDON, Eréndira, MENDOZA, Marcos, CISNIEGA, Roció y


ECORFAN® Todos los derechos reservados CARBAJAL, Guillermo. Una versión modificada del algoritmo de
agrupamiento Isodata. Revista de Tecnología e Innovación 2015
953
Artículo Revista Tecnología e Innovación
Diciembre 2015 Vol.2 No.5 942-957

𝑖= 1,2,…, 𝑁𝑐 (grupos actuales); Al obtener las distancias se generara una


𝑗= 1,2,…, 𝑛 (características); matriz de distancias entre objetos, la matriz será
𝐾= 1,2,…, 𝑁𝑖 (elementos de la clase 𝛼𝑖 ); por cada grupo del conjunto de datos, en la
Tabla 2 se muestra la plantilla de la matriz
La desviación típica de cada grupo (𝜎𝑖 = antes mencionada:
(𝜎𝑖1 , 𝜎𝑖2 , … , 𝜎𝑖𝑛 )) se almacena de acuerdo a las
características empleadas, mas adelante se
empleará junto con otros componentes en la
fase de división de un grupo.

Cálculo de la matriz de distancias entre


grupos

En este paso se calculan las distancias entre


grupos, es decir obtener las distancias entre Tabla 2 Ejemplo de Matriz de distancia entre objetos
todos los grupos actuales, para esto se emplea la
siguiente fórmula: Con i = 1,2 … Oc − 1; j = i + 1, i + 2 … Oc
con OC
𝐷𝑖𝑗 = 𝐷𝑗𝑖 = ‖𝑍𝑖 − 𝑍𝑗 ‖ (26) = numero de elementos del grupo analizado
𝐶𝑜𝑛 𝑖 = 1,2 … 𝑁𝑐 − 1; 𝑗 = 𝑖 + 1, 𝑖 + 2 … 𝑁𝑐 Obtención del promedio de distancias entre
elementos de un grupo
De los resultados obtenidos en la matriz
se selecciona la mínima distancia entre dos Con las distancias obtenidas en el paso 9 se
grupos (𝐷𝑚𝑖𝑛 ) y además se debe calcular el procede a calcular un promedio entre éstas, es
̅ ).
promedio de todas las distancias obtenidas (𝐷 decir después de los cálculos se tendrá un
promedio por cada grupo del conjunto de datos,
Cálculo del factor de mezcla 𝜽𝑪 para esto empleamos la siguiente ecuación:
Una vez obtenido 𝐷𝑚𝑖𝑛 y 𝐷 ̅ se procede a 𝐷 +𝐷 +⋯+𝐷 +⋯+𝐷𝑂𝑐−2, 𝑂𝑐−1
𝑃𝑔 = 𝑖,𝑗 𝑖,𝑗+1 𝑖+1,𝑗+2
calcular el factor de mezcla, el cual se obtiene (28)
2
de la siguiente forma: 𝐶𝑜𝑛 𝑖 = 1,2 … 𝑂𝑐 − 1; 𝑗 = 𝑖 + 1, 𝑖 + 2 … 𝑂𝑐

̅
𝐷𝑚𝑖𝑛 + 𝐷 𝑐𝑜𝑛 𝑂𝐶 = 𝑛ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑒𝑙𝑒𝑚𝑒𝑛𝑡𝑜𝑠 𝑑𝑒𝑙 𝑔𝑟𝑢𝑝𝑜 𝑎𝑛𝑎𝑙𝑖𝑧𝑎𝑑𝑜 𝑦 𝑔
𝜃𝐶 = (26) = 𝑛ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑔𝑟𝑢𝑝𝑜
2

Cálculo de la matriz de distancias entre Posible división de grupos


elementos de un grupo
Una vez obtenidos los promedios entre objetos
Se procede a calcular las distancias entre por cada grupo se procede a realizar la
elementos de un grupo, se obtienen las evaluación para saber si existe la posibilidad de
distancias entre todos los elementos de cierto división o no. Por cada grupo se obtendrá la
grupo haciendo uso de la distancia euclidiana, distancia de cada uno de sus objetos a su
para esto se emplea la siguiente fórmula: centroide correspondiente.

𝐷𝑖𝑗 = 𝐷𝑗𝑖 = ‖, 𝑍𝑖 − 𝑍𝑗 ‖ (27)

ISSN-2410-3993 RENDON, Eréndira, MENDOZA, Marcos, CISNIEGA, Roció y


ECORFAN® Todos los derechos reservados CARBAJAL, Guillermo. Una versión modificada del algoritmo de
agrupamiento Isodata. Revista de Tecnología e Innovación 2015
954
Artículo Revista Tecnología e Innovación
Diciembre 2015 Vol.2 No.5 942-957

Una vez obtenidos estos valores se Por otro lado se tiene la alternativa de
comienza a evaluar por grupo si la distancia que división basada en obtener las dos muestras del
se obtuvo de cada objeto a su centroide es grupo 𝛼𝑗 más alejadas entre sí y con respecto a
menor o mayor que el promedio de distancia su centroide, si las muestras obtenidas se
𝑃𝑔 (se obtuvo en el paso 10) para el grupo representan como 𝑍𝑗 + y 𝑍𝑗 − los dos nuevos
correspondiente. centroides se calcularan de la manera siguiente:

A continuación, se debe obtener el (𝑍𝑗 + +𝑍𝑗)


𝑍𝑗1 =
porcentaje de los objetos cuya distancia a su 2
centro es menor que 𝑃𝑔 , una vez calculados (31)
(𝑍𝑗 − +𝑍𝑗)
estos porcentajes de cada grupo se procede 𝑍𝑗2 = 2
según las siguientes reglas: (32)

 Si la cifra obtenida es 60 por ciento o más el Posible unión


grupo no es propenso a dividirse
De la matriz calculada en el paso 7 generamos
 De lo contrario si la cifra es menor al 60 por una lista con las distancia entre parejas de
ciento, el grupo debe dividirse de mediante grupos. Se comparan las distancias 𝐷𝑖𝑗 con
alguno de los procedimientos que se factor de mezcla 𝜃𝐶 de forma que se toman, si
plantean enseguida: existen, las 𝐿 más pequeñas en orden creciente,
teniendo:
 Una posibilidad para el proceso de división
es crear dos nuevos centroides, 𝑍𝑗 + y 𝑍𝑗 − a {𝐷1 , 𝐷2 … 𝐷𝐿 } 𝑐𝑜𝑛 𝐷1 < 𝐷2 < ⋯ < 𝐷𝐿
partir de 𝑍𝑗, de tal forma que las
componentes de los nuevos centroides Proceso de unión
coincidan con los de 𝑍𝑗, excepto la
componente con la máxima dispersión, es Se comienza con los pares de grupos con las
decir la 𝑍𝑘 , siendo la dispersión 𝜎𝑗𝑚𝑎𝑥 , distancias menores, supóngase que se unirán los
entonces los componentes de 𝑍𝑗 + y 𝑍𝑗 − grupos 𝑖, 𝑗 cuya distancia es 𝐷𝑖𝑗 encontrada
serán: dentro del conjunto {𝐷1 , 𝐷2 , … , 𝐷𝐿 } con 𝐷1 <
𝐷2 < ⋯ < 𝐷𝐿 . Sí y sólo sí ninguno de estos dos
𝑍𝑗 𝑘 + = 𝑍𝑗 𝑘 + 𝛾𝜎𝑗 𝑚𝑎𝑥 grupos ha sido fusionado previamente con otro
(29) en esta misma iteración, se forma un grupo
𝑍𝑗 𝑘 − = 𝑍𝑗 𝑘 − 𝛾, 𝑐𝑜𝑛 0 < 𝛾 < 1 único cuyo centroide es:
(30) 1
𝑍𝑖𝑗 = ∗ (𝑁𝑖 𝑍𝑖 + 𝑁𝑗 𝑍𝑗 )
𝑁𝑖 +𝑁𝑗
Lo que se pretende con esta división es
distribuir adecuadamente las muestras
Siendo 𝑁𝑖 y 𝑁𝑗 el número de elementos
originales del grupo antes de la división entre
los dos nuevosgrupos. de los grupos 𝛼𝑖 y 𝛼𝑗 respectivamente antes de
la fusión. En cada unión se actualiza el
parámetro 𝑁𝐶 ya que el grupo se puede unir una
sola vez en cada iteración, generalmente no se
obtendrán 𝐿 uniones en cada iteración.

ISSN-2410-3993 RENDON, Eréndira, MENDOZA, Marcos, CISNIEGA, Roció y


ECORFAN® Todos los derechos reservados CARBAJAL, Guillermo. Una versión modificada del algoritmo de
agrupamiento Isodata. Revista de Tecnología e Innovación 2015
955
Artículo Revista Tecnología e Innovación
Diciembre 2015 Vol.2 No.5 942-957

Comprobar última iteración Evaluación de resultados

Se comprueba si se ha llegado a la última Los agrupamientos obtenidos con cada uno de


iteración, comparando con el parámetro 𝐼, el los algoritmos de agrupamiento (ISODATA,
caso negativo se vuelve al paso 2 iniciando una ISODATA M1 e ISODATA M2), fueron
nueva iteración. evaluados utilizando la suma de cuadrados del
error (SSE). Ver Tablas 3- 14
Resultados

Datos utilizados

En el presente trabajo se emplearon un total de


12 conjuntos de datos en los que se aplicó el Tabla 3 Dataset1.txt (599)
algoritmo ISODATA tradicional, la
modificación 1 (M1) y modificación 2 (M2) del
mismo. Los datos utilizados son descritos por
dos características y el número de objetos en
cada conjunto varía desde unas pocas decenas
hasta miles. Tabla 4 Dataset2.txt (849)

Los distintos conjuntos de datos se


sometieron a los tres algoritmos como se ha
mencionado.

Diseño de pruebas

A continuación se explicará cómo se emplearon Tabla 5 Dataset3.txt (599)


los conjuntos de datos en cada algoritmo y las
modificaciones realizadas en los parámetros,
cabe mencionar que los parámetros de número
de iteraciones (𝐼) y número de fusiones en cada
iteración (𝐿) se colocaran como valores fijos en
50 y 3 respectivamente.
Tabla 6 Dataset4.txt (450)
Adicionalmente los parámetros 𝜃𝑆 y 𝜃𝐶
solo aplican para el algoritmo ISODATA
tradicional y solo en éste se definirán los
valores para estos parámetros; en el caso de 𝜃𝑁
se establecerá utilizando el 10% y 15 % del
total de cada conjunto de datos.
Tabla 7 Dataset6.txt (800)

ISSN-2410-3993 RENDON, Eréndira, MENDOZA, Marcos, CISNIEGA, Roció y


ECORFAN® Todos los derechos reservados CARBAJAL, Guillermo. Una versión modificada del algoritmo de
agrupamiento Isodata. Revista de Tecnología e Innovación 2015
956
Artículo Revista Tecnología e Innovación
Diciembre 2015 Vol.2 No.5 942-957

Conclusiones y trabajos futuros

En este trabajo se presentan dos versiones del


algoritmo de agrupamiento Isodata, las cuales
Tabla 8 Dataset5.txt (36) no requieren como parámetros de entrada θ_c y
θ_s, parámetro de unión de grupos y la
desviación estándar respectivamente, las
pruebas se realizaron con conjuntos de datos
sintéticos de los cuales se conoce el número
Tabla 9 Dataset7.txt (2200)
exacto de grupos que los forman. Se utilizó la
suma de cuadrados del error para evaluar la
eficiencia de las modificaciones propuestas. Los
experimentos realizados con los 12 conjuntos de
datos, indican que los resultados son al menos
iguales que el algoritmo Isodata original, ya que
Tabla 10 Dataset8.txt (500) solo en un caso el algoritmo Isodata obtuvo
mejores resultados. También es importante
resaltar que la modificación M1 dio mejores
resultados que la modificación M2. Aunque
pensamos que es necesario realizar más pruebas
con conjuntos de datos reales, para contar
Tabla 11 Dataset9.txt (155)
asegurarmos que las modificaciones propuestas
son confiables, para ellos continuaremos
realizando pruebas con otro tipo de conjuntos de
datos.

Referencias

Tabla 12 Dataset10.txt (399) Ball G. H., Hall D. J. (1965), Isodata: a method


of data analysis and pattern classification,
Stanford Research Institute, Menlo Park,United
States. Office of Naval Research. Information
Sciences Branch.

Tabla 13 Dataset11.txt (128) Ali El-Zaart, (2010), Expectation-maximization


technique for fibro-glandular discs detection in
ammography images. Comp. in Bio. and Med.
40(4):392-401.

Kohei A., XianQiang Bu. (2007). ISODATA


Tabla 14 Dataset12.txt (128) clusteringwith parameter (threshold for merge
and split) estimation based on GA: Genetic
lgorithm. Reports of the Faculty of Science and
Enginneering, Saga University, 36, No. 1, 17-
23.

ISSN-2410-3993 RENDON, Eréndira, MENDOZA, Marcos, CISNIEGA, Roció y


ECORFAN® Todos los derechos reservados CARBAJAL, Guillermo. Una versión modificada del algoritmo de
agrupamiento Isodata. Revista de Tecnología e Innovación 2015
957
Artículo Revista Tecnología e Innovación
Diciembre 2015 Vol.2 No.5 942-957

Kaufman L., Rousseeuw P. J. (1989), Finding


Groups in Data “ An Introducction to Cluster
Analysis, Wiley series in probability and
Mathematical Statistics.

Jain A.J., Dubes R. C. (1988), Algorithms for


Clustering Data, Prentice Hall.

Pavan K., Rao D., Sridhar, Gr.(2008),


Automatic Genetation of Merge Factor for
Clustering Microarray. IJCSNS International
Journal of Computer Science and Network
Security Vol. 8, No. 9, 127-131.

ISSN-2410-3993 RENDON, Eréndira, MENDOZA, Marcos, CISNIEGA, Roció y


ECORFAN® Todos los derechos reservados CARBAJAL, Guillermo. Una versión modificada del algoritmo de
agrupamiento Isodata. Revista de Tecnología e Innovación 2015

También podría gustarte