Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Clase Media Nota Tecnica 2 PDF
Clase Media Nota Tecnica 2 PDF
EXPLORATORIO
Nota Técnica 2
Introducción
1
es un punto central, se empieza a construir un cluster alrededor de él,
tratando de descubrir componentes denso-conectadas; si no, se visita otro
objeto del conjunto de datos. Uno de los primero algoritmos que utilizó este
enfoque: DBSCAN (Density Based Spatial Clustering of Aplications with
Noise) [Ester, et al., 96].
2
Para más información sobre distintos métodos y criterios de validación y calidad
de agrupación (ver [2]). Un método reciente por ejemplo, es el análisis de clúster
no jerárquico, el cual está relacionado con la identificación de outliers y es llamado
Fixed Point Cluster Analysis FPCA. El objetivo es encontrar grupos de puntos
generados por un modelo estocástico sin asumir un modelo global para todo el
conjunto de datos (ver C. Hennig 1997).
3
La representación de la mezcla de distribuciones matemáticamente es expresado
por:
(1)
Los valores πk son probabilidades a priori de cada grupo y son tal que
Una de las grandes ventajas de este tipo de algoritmos es que pueden identificar
grupos con distintas formas, orientación y volumen, para lograr esto se plantea
4
que la matriz de covarianza de cada distribución (grupo) puede re-parametrizarse
por su descomposición espectral en la forma:
(2)
Por ejemplo, si se supone que todas las matrices de covarianza son iguales en
todos los grupos, en otras palabras no existe correlación entre las variables de los
datos, la matriz de covarianza para cada grupo sería expresada así . ( es
la matriz identidad). Esta restricción es la misma que supone los algoritmos que
usan el criterio de suma de cuadrados. El caso contrario a este ejemplo, la
caracterización menos parsimoniosa donde se da la libertad a los parámetros de la
matriz de covarianzas que varíen y se permite que sean desiguales en todos los
grupos. Entre estos dos ejemplos, existirán modelos intermedios resultado de la
combinación de la variación de las componentes.
5
Cuadro 1 Parametrización de la matriz de covarianza y su relación con la forma
geométrica
(3)
Se tendrá el valor del criterio BIC para cada plantilla y para diferentes números de
grupos. Se sugiere el modelo o plantilla que en combinación con el número de
grupos maximice1 el criterio BIC, esto puede apreciarse mejor en un gráfica como
en la figura 2.
1
Algunos autores definen el BIC con signo contrario a la expresión (3). En estos casos, el valor más
pequeño (más negativo) es el que se toma como referencia para la elección del mejor modelo.
6
El software MCLUST implementa el agrupamiento basado en modelos, disponible
en http://www.stat.washington.edu/mclust y diseñado para interfaz S-plus y/o
R.
Como resumen podemos decir que sin duda, el alto crecimiento de aplicaciones
en distintas áreas en materia de agrupamiento forza a los investigadores
estadísticos a implementar nuevos algoritmos que mejoren los procedimiento y
que se adapten a las aplicaciones reales. El método basado en modelos es una
buena opción para realizar agrupaciones que no necesariamente son restringidos
a ser iguales en forma y orientación, casos que se obtienen en situaciones reales
con datos multidimencionales. Por la naturaleza del método podemos conocer las
incertidumbres de los elementos clasificados en algún grupo, es decir, podemos
saber qué probabilidad tiene el elemento de ser asignado a cualquier cluster y
estimar el error de medición. Además, el problema de determinar el número de
grupos se resuelve simultáneamente eligiendo también el mejor modelo o plantilla
que se adapte a los datos según el criterio BIC. Otra ventaja es que el método
7
también tiene la capacidad de identificar la presencia de ruido y outliers
suponiendo que es un grupo distinto a los demás modelado con una distribución
Poisson. Para más detalles consultar las referencias mostradas.
Referencias:
[3] Fraley C., Raftery AE (1998). “How Many Clusters? Which Clustering
Method? – Answers via Model-based Cluster Analysis.” Computer Journal,
41, 578–588.
[4] Fraley C., Raftery AE (1999). “MCLUST: Software for Model-based Cluster
Analysis.” Journal of Classification, 16, 297–306.
[6] Fraley C., Raftery AE (2007). “Bayesian Regularization for Normal Mixture
Estimation and Model-Based Clustering”. Journal of Classification, 24,
155-181.
[7] Jasra A, Holmes C.C y Stephens D.A (2005). “Markov Chain Monte Carlo
Methods and the Label Switching Problem in Bayesian Mixture Modelling”.
Statistical Science 20,50-67.