Está en la página 1de 17

Ajuste de Distribución (Distribuciones Mezcla Bivariante)

Revisado: 12/26/2019

Resumen.......................................................................................................................................... 2
Introducción de Datos ..................................................................................................................... 3
Opciones de Análisis....................................................................................................................... 4
Tablas y Gráficos ............................................................................................................................ 5
Modelo Estadístico.......................................................................................................................... 5
Resumen de Análisis ....................................................................................................................... 6
Gráfico de Distribución Ajustada ................................................................................................... 7
Parámetros Estimados ..................................................................................................................... 9
Histograma de Frecuencia............................................................................................................... 9
Comparaciones de Modelos .......................................................................................................... 12
Estimado de Densidad No Paramétrica......................................................................................... 13
Asignaciones de Componentes ..................................................................................................... 15
Guardar Resultados ....................................................................................................................... 16
Referencias .................................................................................................................................... 17

© 2019 by Statgraphics Technologies, Inc. Distribution Fitting (Bivariate Mixture Distributions) - 1


Resumen

El Ajuste de Distribución (Distribuciones Mezcla Bivariante) ajusta una distribución a datos


numéricos continuos que consiste en una mezcla de 2 ó más distribuciones gaussianas
bivariantes. Los componentes de la mezcla pueden representar diferentes grupos en la muestra
utilizada para ajustarse a la distribución general, o el modelo de mezcla puede aproximarse a
alguna distribución con una forma complicada.

El procedimiento calcula el ajuste de la distribución y crea gráficos del modelo ajustado.


También se proporcionan herramientas para determinar cuántas componentes se necesitan para
representar una muestra de datos.

Los cálculos se realizan mediante el paquete “EMCluster” en R. Para ejecutar el procedimiento,


R debe estar instalado en su ordenador junto con esos paquetes. Para obtener información sobre
la descarga e instalación de R, consulte el documento titulado “R – Instalación y Configuración”.

Muestra StatFolio: bivariate mixture.sgp

Datos de Muestra

El archivo bodytemp.sgd contiene mediciones de la temperatura corporal y la frecuencia cardíaca


de 130 personas. A continuación se muestran las primeras filas de ese archivo:

Temperature Gender Heart rate


98.4 Male 84
98.4 Male 82
98.2 Female 65
97.8 Female 71
98 Male 78
97.9 Male 72
99 Female 79
98.5 Male 68
98.8 Female 64
98 Male 67
… … …

La mitad de los sujetos eran hombres y la otra mitad mujeres.

© 2019 by Statgraphics Technologies, Inc. Distribution Fitting (Bivariate Mixture Distributions) - 2


Introducción de Datos

Cuando se selecciona el procedimiento por primera vez, se muestra un cuadro de diálogo de


introducción de datos que solicita los nombres de las columnas que contienen los datos:

• Muestra 1: nombre de la primera columna de datos que se utilizará para ajustar la


distribución.

• Muestra 2: nombre de la segunda columna que se utilizará para ajustar la distribución.

• (Grupo:) columna opcional, numérica o de texto, que identifica la pertenencia al grupo para
cada observación. Esta entrada no tiene efecto en el modelo ajustado. Solo se usa para
resumir los porcentajes de membresía en cada componente del modelo.

• (Selección:) selección de subconjunto opcional.

© 2019 by Statgraphics Technologies, Inc. Distribution Fitting (Bivariate Mixture Distributions) - 3


Opciones de Análisis

Una vez especificados los datos, se muestra el cuadro de diálogo Opciones de Análisis:

• Número de componentes: K, el número de distribuciones gaussianas univariadas separadas


contenidas en el modelo.

• Método inicialización: método utilizado para inicializar el algoritmo de ajuste del modelo.
RndEm (Maitra 2009) selecciona aleatoriamente K centros y agrupa el resto de datos al
centro más cercano. Repite el proceso y selecciona la mejor inicialización en función de la
probabilidad de registro. emEM (Biernacki y col. 2003) consta de pasos ME (maximización
Expectativa) cortos y ME largos. svd (Maitra 2001) selecciona los centros del espacio de
componentes principales y la descomposición de datos en valores singulares. Para más
detalles, ver Wei-Chen Chen y Ranjan Maitra (2015).

• Aleatorización: si se debe corregir la semilla del generador de números aleatorios utilizando


el valor indicado. Si se fija la semilla, se obtendrán los mismos resultados cada vez que se
ejecute el procedimiento (suponiendo que no se cambien otras opciones).

© 2019 by Statgraphics Technologies, Inc. Distribution Fitting (Bivariate Mixture Distributions) - 4


Tablas y Gráficos

Se pueden crear las siguientes tablas y gráficos:

Modelo Estadístico

El modelo estadístico ajustado por este procedimiento es una mezcla de distribuciones


gaussianas bivariantes de K. Cada distribución de componentes se parametriza por un vector de
medias

(1)

un vector de desviaciones estándar

(2)

Y un coeficiente de correlación j. La función de densidad es la suma ponderada de tales K


distribuciones de componentes e incluye K parámetros de mezcla pj > 0 que suman 1.

© 2019 by Statgraphics Technologies, Inc. Distribution Fitting (Bivariate Mixture Distributions) - 5


Resumen de Análisis

El Resumen de Análisis muestra los comandos R ejecutados.

Distribuciones de Mezcla Bivariantes


d<-
read.csv("C:\\Users\\Neil\\AppData\\Local\\Temp\\data.csv",dec=".",sep=",",stringsAsFactors=TRUE
)
setwd("C:\\Users\\Neil\\AppData\\Local\\Temp\\")
library("EMCluster")

## Warning: package 'EMCluster' was built under R version 3.2.5

## Loading required package: MASS

## Loading required package: Matrix

## Warning: package 'Matrix' was built under R version 3.2.5

set.seed(8604)
AIC<-vector(mode="numeric",length=0)
BIC<-vector(mode="numeric",length=0)
CLC<-vector(mode="numeric",length=0)
logL<-vector(mode="numeric",length=0)
for (clusters in 1:2) {
ret<-init.EM(d,nclass=clusters,method="Rnd.EM")
em<-em.ic(d,ret)
AIC<-c(AIC,em$AIC)
BIC<-c(BIC,em$BIC)
CLC<-c(CLC,em$CLC)
logL<-c(logL,ret$llhdval)
}
summary(ret)

## Method: Rnd.EM
## n = 130, p = 2, nclass = 2, flag = 0, total parameters = 11,
## logL = -566.8589, AIC = 1155.7179, BIC = 1187.2607.
## nc:
## [1] 109 21
## pi:
## [1] 0.8624 0.1376

write.table(ret$pi,file="C:\\Users\\Neil\\AppData\\Local\\Temp\\props.csv",sep=",")
write.table(ret$Mu,file="C:\\Users\\Neil\\AppData\\Local\\Temp\\mus.csv",sep=",")
write.table(ret$LTSigma,file="C:\\Users\\Neil\\AppData\\Local\\Temp\\sigmas.csv",sep=",")
write.table(AIC,file="C:\\Users\\Neil\\AppData\\Local\\Temp\\aic.csv",sep=",")
write.table(BIC,file="C:\\Users\\Neil\\AppData\\Local\\Temp\\bic.csv",sep=",")
write.table(logL,file="C:\\Users\\Neil\\AppData\\Local\\Temp\\logl.csv",sep=",")
write.table(CLC,file="C:\\Users\\Neil\\AppData\\Local\\Temp\\clc.csv",sep=",")

En las líneas bajo resumen(ret), resume los resultados del proceso de ajuste del modelo. Es de
particular interés:

1. n: número de observaciones utilizadas para ajustar el modelo.


2. nclase: número de componentes en el modelo ajustado.
3. Parámetros totales: número de parámetros estimados.
4. logL: valor final de la función de probabilidad de registro.
5. CIA: valor del Criterio de Información Akaike.
6. CIB: valor del Criterio de Información Bayesiano.
© 2019 by Statgraphics Technologies, Inc. Distribution Fitting (Bivariate Mixture Distributions) - 6
7. nc: número de observaciones en cada componente del modelo.
8. pi: proporción estimada de la distribución para cada componente.

Gráfico de Distribución Ajustada

Este gráfico muestra la función de densidad bivariante ajustada.

Densidad Bivariable

0.06
0.05
0.04
densidad

0.03
0.02
0.01 96
86
0 76
96 66
97 98 56 Heart Rate
99 100 101
Temperature

Es una mezcla de 2 distribuciones normales bivariantes.

Opciones de Panel

© 2019 by Statgraphics Technologies, Inc. Distribution Fitting (Bivariate Mixture Distributions) - 7


• Mostrar: selecciona una superficie o gráfico de contorno.

• Puntos mostrados: si se crea un gráfico de contorno, si se deben mostrar las observaciones


individuales.

• Dibujar líneas de contorno: si se crea un gráfico de contorno, si las líneas deben dibujarse
en lugar de usar una paleta de colores.

• Resolución: número de ubicaciones a lo largo de cada eje en el que se evalúa la función de


densidad.

A continuación se muestra un gráfico de contorno.

Densidad Bivariable
96 Gender
Female
Male
86
Heart Rate

76

66

56
96 97 98 99 100 101

Temperature

El color de cada punto indica si ese punto corresponde a un hombre o una mujer. El gráfico
parece indicar un componente primario a baja temperatura y frecuencia cardíaca baja con poca
correlación entre las 2 variables, y un componente secundario a temperaturas y frecuencias
cardíacas más altas con una fuerte correlación negativa.

© 2019 by Statgraphics Technologies, Inc. Distribution Fitting (Bivariate Mixture Distributions) - 8


Parámetros Estimados

Esta tabla muestra los parámetros estimados del modelo:

Parámetros Estimados

Tamaño de muestra: 130

Componente Proporción Media 1 Media 2 Sigma 1 Sigma 2 Correlación


1 0.862423 98.1814 72.3688 0.752765 6.47316 0.198505
2 0.137577 98.6747 82.4923 0.339429 2.94411 -0.898109
Combinado 98.2492 73.7615 0.730358 7.03486 0.143541

Incluye estimaciones de las 2 medias para cada componente, las desviaciones estándar de 2
componentes, los coeficientes de correlación y las proporciones de componentes pi. También se
muestran las medias, las desviaciones estándar y el coeficiente de correlación de la distribución
combinada.

Histograma de Frecuencia

Este gráfico muestra la función de densidad estimada para la mezcla de distribuciones gaussianas
bivariantes. La altura de cada barra es proporcional al número de observaciones observadas en
un área rectangular pequeña definida por un recorrido de Temperatura y Frecuencia Cardíaca.

© 2019 by Statgraphics Technologies, Inc. Distribution Fitting (Bivariate Mixture Distributions) - 9


Histograma de Frecuencia

0.08

0.06
densidad

0.04

0.02
96
86
0 76
96 66
97 98 56 Heart Rate
99 100 101
Temperature

Opciones de Panel

Especifique para cada variable:

• Número de clases: número de intervalos en los que se debe dividir el recorrido de los
datos.

© 2019 by Statgraphics Technologies, Inc. Distribution Fitting (Bivariate Mixture Distributions) - 10


• Desde: límite inferior de la primera clase.

• Hasta: límite superior de la última clase.

Especificar también:

• Mantener: si está marcada, la escala de las clases permanecerá constante incluso si


cambian los datos.

© 2019 by Statgraphics Technologies, Inc. Distribution Fitting (Bivariate Mixture Distributions) - 11


Comparaciones de Modelos

Esta tabla compara los resultados del ajuste de la mezcla de distribuciones gaussianas con
componentes que varían entre 1 y K, el número de componentes indicado en el cuadro de diálogo
Opciones de Análisis.

Comparaciones de Modelos

Número de componentes Parámetros Log probabilidad AIC BIC CLC


1 5 -577.367 1164.73 1179.07 1154.73
2 11 -566.859 1155.72 1187.26 1163.14
3 17 -560.885 1155.77 1204.52 1183.9
4 23 -559.125 1164.25 1230.2 1180.2

La tabla incluye:

1. Parámetros –número de parámetros m estimados en el modelo. Para un modelo con K


componentes, m = 6K-1.

2. Log probabilidad –valor de la función log probabilidad . Los modelos con más
parámetros siempre tendrán valores más grandes de la función log probabilidad.

3. CIA –valor del Criterio de Información Akaike. El CIA es un criterio muy usado para la
selección del modelo y penaliza la función de probabilidad basada en el número de
parámetros estimados según

(3)

4. CIB –valor del Criterio de Información Bayesiano. Es similar al CIA, excepto que usa
una ecuación diferente para penalizar la función de probabilidad:

(4)

5. CPC –valor del Criterio de Probabilidad de Clasificación. Es similar a CIA y CIB pero
penaliza la función de probabilidad basada en una medida de entropía (ver Biernacki and
Govaert 1997).

Son preferibles modelos con los valores más pequeños de CIA, CIB y CPC. En la tabla anterior,
el CIA selecciona un modelo con 2 componentes, mientras que los otros criterios seleccionan un
modelo con 1 sola componente.

© 2019 by Statgraphics Technologies, Inc. Distribution Fitting (Bivariate Mixture Distributions) - 12


Estimado de Densidad No Paramétrica

Se puede obtener un estimado alternativo de la función de densidad bivariante contando el


número de observaciones que caen dentro de una ventana de tamaño fija movida a través del
recorrido de los datos.

Estimado Densidad No Paramétrica

(X 0.001)
24
20
16
densidad

12
8
4 96
86
0 76
96 66
97 98 56 Heart Rate
99 100 101
Temperature

La función de densidad estimada viene dada por:

(det S )
−1 / 2
 1 T 
W  h (X − X 1 ) S −1 (X 2,i − X 2 ) 
n
f ( x) =
T
1,i (5)

2 2
h n i =1

donde S es la matriz de covarianza de muestra de las 2 variables, h es el ancho de ventana y W(u)


es la función de ponderación definida por

exp(− u / 2 )
1
W (u ) = (6)
2

Un ancho del 50% no es irrazonable para una muestra pequeña, pero puede que no proporcione
tantos detalles como un valor menor en muestras más grandes.

Opciones de Panel

© 2019 by Statgraphics Technologies, Inc. Distribution Fitting (Bivariate Mixture Distributions) - 13


• Ancho de Intervalo: ancho de ventana h dentro de la cual las observaciones afectan a la
densidad estimada, como un porcentaje del recorrido cubierto por el eje x. h = 60% no es
irrazonable para una muestra pequeña, pero puede que no proporcione tantos detalles como
un valor menor en muestras más grandes.

• Resolución: número de puntos a lo largo de cada eje en el que se estima la densidad.

• Mostrar: selecciona una superficie o gráfico de contorno.

• Mostrar puntos: si crea un gráfico de contorno, si se deben mostrar observaciones


individuales.

© 2019 by Statgraphics Technologies, Inc. Distribution Fitting (Bivariate Mixture Distributions) - 14


Asignaciones de Componentes

Para determinar a qué componente es más probable que pertenezca cada uno de los valores de
datos observados, el programa compara la altura de las funciones de densidad de probabilidad de
la componente ponderada en cada valor. Luego asigna una observación a ese valor para el cual el
pdf ponderado es mayor. Proporciona una tabla que muestra las asignaciones de componentes:

Asignaciones de Componentes

Porcentajes de Grupo
Gender Componente 1 Componente 2
Female 65 80.00% 20.00%
Male 65 87.69% 12.31%
Todo 130 83.85% 16.15%

Fila Temperature Heart Rate Componente


1 98.4 84.0 2
2 98.4 82.0 1
3 98.2 65.0 1
4 97.8 71.0 1
5 98.0 78.0 1
6 97.9 72.0 1
7 99.0 79.0 2
8 98.5 68.0 1
9 98.8 64.0 1
10 98.0 67.0 1
11 97.4 78.0 1
… … … …

Para los datos de la muestra, aproximadamente el 84% de las observaciones se han asignado a la
Componente #1 y 16% a la Componente #2. Si se realiza una entrada en el campo Grupo en el
cuadro de diálogo de introducción de datos, también se mostrarán los porcentajes de asignación
por grupo.

© 2019 by Statgraphics Technologies, Inc. Distribution Fitting (Bivariate Mixture Distributions) - 15


Guardar Resultados

Las asignaciones de componentes se pueden guardar en una hoja de datos Statgraphics


presionando el botón Guardar Resultados en la barra de herramientas de análisis. Se mostrará el
siguiente cuadro de diálogo:

• Asignaciones de Componentes –componente más probable asociada con cada observación.

• Variables Objetivo: introducir nombres para la columna que se creará.

• Hoja de datos: hoja de datos en la que se guardarán los resultados.

• Autoguardado: si está marcada, los resultados se guardarán automáticamente cada vez que
se cargue un StatFolio guardado.

• Guardar comentarios: si está marcada, se guardarán los comentarios para cada columna en
la segunda línea del encabezado de la hoja de datos.

© 2019 by Statgraphics Technologies, Inc. Distribution Fitting (Bivariate Mixture Distributions) - 16


Referencias

Biernacki, C., Celeux, G, and Govaert, G. (2003). “Choosing starting values for the EM
algorithm for getting the highest likelihood in multivariate Gaussian mixture models.”
Computational Statistics and Data Analysis, 413, 561-575.

Biernacki C and Govaert G (1997). “Using the classification likelihood to choose the number of
clusters.” Computing Science and Statistics 29, 451–457.

Maitra R. (2001). “Clustering massive datasets with applications to software metrics and
tomography.” Technometrics, 43(3), 336-346.

Maitra R. (2009). “Initializing Partition-Optimization Algorithms.” IEEE/ACM Transactions on


Computational Biology and Bioinformatics, 6, 144-157.

R Package “EMCluster” (2018) - https://cran.r-


project.org/web/packages/EMCluster/EMCluster.pdf

Wei-Chen Chen and Ranjan Maitra (2015) – A Quick Guide for the EMCluster Package.

© 2019 by Statgraphics Technologies, Inc. Distribution Fitting (Bivariate Mixture Distributions) - 17

También podría gustarte