Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Revisado: 12/26/2019
Resumen.......................................................................................................................................... 2
Introducción de Datos ..................................................................................................................... 3
Opciones de Análisis....................................................................................................................... 4
Tablas y Gráficos ............................................................................................................................ 5
Modelo Estadístico.......................................................................................................................... 5
Resumen de Análisis ....................................................................................................................... 6
Gráfico de Distribución Ajustada ................................................................................................... 7
Parámetros Estimados ..................................................................................................................... 9
Histograma de Frecuencia............................................................................................................... 9
Comparaciones de Modelos .......................................................................................................... 12
Estimado de Densidad No Paramétrica......................................................................................... 13
Asignaciones de Componentes ..................................................................................................... 15
Guardar Resultados ....................................................................................................................... 16
Referencias .................................................................................................................................... 17
Datos de Muestra
• (Grupo:) columna opcional, numérica o de texto, que identifica la pertenencia al grupo para
cada observación. Esta entrada no tiene efecto en el modelo ajustado. Solo se usa para
resumir los porcentajes de membresía en cada componente del modelo.
Una vez especificados los datos, se muestra el cuadro de diálogo Opciones de Análisis:
• Método inicialización: método utilizado para inicializar el algoritmo de ajuste del modelo.
RndEm (Maitra 2009) selecciona aleatoriamente K centros y agrupa el resto de datos al
centro más cercano. Repite el proceso y selecciona la mejor inicialización en función de la
probabilidad de registro. emEM (Biernacki y col. 2003) consta de pasos ME (maximización
Expectativa) cortos y ME largos. svd (Maitra 2001) selecciona los centros del espacio de
componentes principales y la descomposición de datos en valores singulares. Para más
detalles, ver Wei-Chen Chen y Ranjan Maitra (2015).
Modelo Estadístico
(1)
(2)
set.seed(8604)
AIC<-vector(mode="numeric",length=0)
BIC<-vector(mode="numeric",length=0)
CLC<-vector(mode="numeric",length=0)
logL<-vector(mode="numeric",length=0)
for (clusters in 1:2) {
ret<-init.EM(d,nclass=clusters,method="Rnd.EM")
em<-em.ic(d,ret)
AIC<-c(AIC,em$AIC)
BIC<-c(BIC,em$BIC)
CLC<-c(CLC,em$CLC)
logL<-c(logL,ret$llhdval)
}
summary(ret)
## Method: Rnd.EM
## n = 130, p = 2, nclass = 2, flag = 0, total parameters = 11,
## logL = -566.8589, AIC = 1155.7179, BIC = 1187.2607.
## nc:
## [1] 109 21
## pi:
## [1] 0.8624 0.1376
write.table(ret$pi,file="C:\\Users\\Neil\\AppData\\Local\\Temp\\props.csv",sep=",")
write.table(ret$Mu,file="C:\\Users\\Neil\\AppData\\Local\\Temp\\mus.csv",sep=",")
write.table(ret$LTSigma,file="C:\\Users\\Neil\\AppData\\Local\\Temp\\sigmas.csv",sep=",")
write.table(AIC,file="C:\\Users\\Neil\\AppData\\Local\\Temp\\aic.csv",sep=",")
write.table(BIC,file="C:\\Users\\Neil\\AppData\\Local\\Temp\\bic.csv",sep=",")
write.table(logL,file="C:\\Users\\Neil\\AppData\\Local\\Temp\\logl.csv",sep=",")
write.table(CLC,file="C:\\Users\\Neil\\AppData\\Local\\Temp\\clc.csv",sep=",")
En las líneas bajo resumen(ret), resume los resultados del proceso de ajuste del modelo. Es de
particular interés:
Densidad Bivariable
0.06
0.05
0.04
densidad
0.03
0.02
0.01 96
86
0 76
96 66
97 98 56 Heart Rate
99 100 101
Temperature
Opciones de Panel
• Dibujar líneas de contorno: si se crea un gráfico de contorno, si las líneas deben dibujarse
en lugar de usar una paleta de colores.
Densidad Bivariable
96 Gender
Female
Male
86
Heart Rate
76
66
56
96 97 98 99 100 101
Temperature
El color de cada punto indica si ese punto corresponde a un hombre o una mujer. El gráfico
parece indicar un componente primario a baja temperatura y frecuencia cardíaca baja con poca
correlación entre las 2 variables, y un componente secundario a temperaturas y frecuencias
cardíacas más altas con una fuerte correlación negativa.
Parámetros Estimados
Incluye estimaciones de las 2 medias para cada componente, las desviaciones estándar de 2
componentes, los coeficientes de correlación y las proporciones de componentes pi. También se
muestran las medias, las desviaciones estándar y el coeficiente de correlación de la distribución
combinada.
Histograma de Frecuencia
Este gráfico muestra la función de densidad estimada para la mezcla de distribuciones gaussianas
bivariantes. La altura de cada barra es proporcional al número de observaciones observadas en
un área rectangular pequeña definida por un recorrido de Temperatura y Frecuencia Cardíaca.
0.08
0.06
densidad
0.04
0.02
96
86
0 76
96 66
97 98 56 Heart Rate
99 100 101
Temperature
Opciones de Panel
• Número de clases: número de intervalos en los que se debe dividir el recorrido de los
datos.
Especificar también:
Esta tabla compara los resultados del ajuste de la mezcla de distribuciones gaussianas con
componentes que varían entre 1 y K, el número de componentes indicado en el cuadro de diálogo
Opciones de Análisis.
Comparaciones de Modelos
La tabla incluye:
2. Log probabilidad –valor de la función log probabilidad . Los modelos con más
parámetros siempre tendrán valores más grandes de la función log probabilidad.
3. CIA –valor del Criterio de Información Akaike. El CIA es un criterio muy usado para la
selección del modelo y penaliza la función de probabilidad basada en el número de
parámetros estimados según
(3)
4. CIB –valor del Criterio de Información Bayesiano. Es similar al CIA, excepto que usa
una ecuación diferente para penalizar la función de probabilidad:
(4)
5. CPC –valor del Criterio de Probabilidad de Clasificación. Es similar a CIA y CIB pero
penaliza la función de probabilidad basada en una medida de entropía (ver Biernacki and
Govaert 1997).
Son preferibles modelos con los valores más pequeños de CIA, CIB y CPC. En la tabla anterior,
el CIA selecciona un modelo con 2 componentes, mientras que los otros criterios seleccionan un
modelo con 1 sola componente.
(X 0.001)
24
20
16
densidad
12
8
4 96
86
0 76
96 66
97 98 56 Heart Rate
99 100 101
Temperature
(det S )
−1 / 2
1 T
W h (X − X 1 ) S −1 (X 2,i − X 2 )
n
f ( x) =
T
1,i (5)
2 2
h n i =1
exp(− u / 2 )
1
W (u ) = (6)
2
Un ancho del 50% no es irrazonable para una muestra pequeña, pero puede que no proporcione
tantos detalles como un valor menor en muestras más grandes.
Opciones de Panel
Para determinar a qué componente es más probable que pertenezca cada uno de los valores de
datos observados, el programa compara la altura de las funciones de densidad de probabilidad de
la componente ponderada en cada valor. Luego asigna una observación a ese valor para el cual el
pdf ponderado es mayor. Proporciona una tabla que muestra las asignaciones de componentes:
Asignaciones de Componentes
Porcentajes de Grupo
Gender Componente 1 Componente 2
Female 65 80.00% 20.00%
Male 65 87.69% 12.31%
Todo 130 83.85% 16.15%
Para los datos de la muestra, aproximadamente el 84% de las observaciones se han asignado a la
Componente #1 y 16% a la Componente #2. Si se realiza una entrada en el campo Grupo en el
cuadro de diálogo de introducción de datos, también se mostrarán los porcentajes de asignación
por grupo.
• Autoguardado: si está marcada, los resultados se guardarán automáticamente cada vez que
se cargue un StatFolio guardado.
• Guardar comentarios: si está marcada, se guardarán los comentarios para cada columna en
la segunda línea del encabezado de la hoja de datos.
Biernacki, C., Celeux, G, and Govaert, G. (2003). “Choosing starting values for the EM
algorithm for getting the highest likelihood in multivariate Gaussian mixture models.”
Computational Statistics and Data Analysis, 413, 561-575.
Biernacki C and Govaert G (1997). “Using the classification likelihood to choose the number of
clusters.” Computing Science and Statistics 29, 451–457.
Maitra R. (2001). “Clustering massive datasets with applications to software metrics and
tomography.” Technometrics, 43(3), 336-346.
Wei-Chen Chen and Ranjan Maitra (2015) – A Quick Guide for the EMCluster Package.