Ajuste de Distribución (Distribuciones de Mezcla Bivariante)

Ajuste de Distribución (Distribuciones Mezcla Bivariante)
Revisado: 12/26/2019
Resumen.......................................................................................................................................... 2
Introducción de Datos ..................................................................................................................... 3
Opciones de Análisis....................................................................................................................... 4
Tablas y Gráficos ............................................................................................................................ 5
Modelo Estadístico.......................................................................................................................... 5
Resumen de Análisis ....................................................................................................................... 6
Gráfico de Distribución Ajustada ................................................................................................... 7
Parámetros Estimados ..................................................................................................................... 9
Histograma de Frecuencia............................................................................................................... 9
Comparaciones de Modelos .......................................................................................................... 12
Estimado de Densidad No Paramétrica......................................................................................... 13
Asignaciones de Componentes ..................................................................................................... 15
Guardar Resultados ....................................................................................................................... 16
Referencias .................................................................................................................................... 17
© 2019 by Statgraphics Technologies, Inc. Distribution Fitting (Bivariate Mixture Distributions) - 1

Resumen
El Ajuste de Distribución (Distribuciones Mezcla Bivariante) ajusta una distribución a datos

numéricos continuos que consiste en una mezcla de 2 ó más distribuciones gaussianas
bivariantes. Los componentes de la mezcla pueden representar diferentes grupos en la muestra
utilizada para ajustarse a la distribución general, o el modelo de mezcla puede aproximarse a
alguna distribución con una forma complicada.
El procedimiento calcula el ajuste de la distribución y crea gráficos del modelo ajustado.

También se proporcionan herramientas para determinar cuántas componentes se necesitan para
representar una muestra de datos.
Los cálculos se realizan mediante el paquete “EMCluster” en R. Para ejecutar el procedimiento,

R debe estar instalado en su ordenador junto con esos paquetes. Para obtener información sobre
la descarga e instalación de R, consulte el documento titulado “R – Instalación y Configuración”.
Muestra StatFolio: bivariate mixture.sgp
Datos de Muestra
El archivo bodytemp.sgd contiene mediciones de la temperatura corporal y la frecuencia cardíaca

de 130 personas. A continuación se muestran las primeras filas de ese archivo:
Temperature Gender Heart rate

98.4 Male 84
98.4 Male 82
98.2 Female 65
97.8 Female 71
98 Male 78
97.9 Male 72
99 Female 79
98.5 Male 68
98.8 Female 64
98 Male 67
… … …
La mitad de los sujetos eran hombres y la otra mitad mujeres.

Introducción de Datos
Cuando se selecciona el procedimiento por primera vez, se muestra un cuadro de diálogo de

introducción de datos que solicita los nombres de las columnas que contienen los datos:
• Muestra 1: nombre de la primera columna de datos que se utilizará para ajustar la

distribución.
• Muestra 2: nombre de la segunda columna que se utilizará para ajustar la distribución.
• (Grupo:) columna opcional, numérica o de texto, que identifica la pertenencia al grupo para
cada observación. Esta entrada no tiene efecto en el modelo ajustado. Solo se usa para
resumir los porcentajes de membresía en cada componente del modelo.
• (Selección:) selección de subconjunto opcional.

Opciones de Análisis
Una vez especificados los datos, se muestra el cuadro de diálogo Opciones de Análisis:
• Número de componentes: K, el número de distribuciones gaussianas univariadas separadas

contenidas en el modelo.
• Método inicialización: método utilizado para inicializar el algoritmo de ajuste del modelo.
RndEm (Maitra 2009) selecciona aleatoriamente K centros y agrupa el resto de datos al
centro más cercano. Repite el proceso y selecciona la mejor inicialización en función de la
probabilidad de registro. emEM (Biernacki y col. 2003) consta de pasos ME (maximización
Expectativa) cortos y ME largos. svd (Maitra 2001) selecciona los centros del espacio de
componentes principales y la descomposición de datos en valores singulares. Para más
detalles, ver Wei-Chen Chen y Ranjan Maitra (2015).
• Aleatorización: si se debe corregir la semilla del generador de números aleatorios utilizando

el valor indicado. Si se fija la semilla, se obtendrán los mismos resultados cada vez que se
ejecute el procedimiento (suponiendo que no se cambien otras opciones).

Tablas y Gráficos
Se pueden crear las siguientes tablas y gráficos:
Modelo Estadístico
El modelo estadístico ajustado por este procedimiento es una mezcla de distribuciones

gaussianas bivariantes de K. Cada distribución de componentes se parametriza por un vector de
medias
(1)
un vector de desviaciones estándar
(2)
Y un coeficiente de correlación j. La función de densidad es la suma ponderada de tales K

distribuciones de componentes e incluye K parámetros de mezcla pj > 0 que suman 1.

Resumen de Análisis
El Resumen de Análisis muestra los comandos R ejecutados.
Distribuciones de Mezcla Bivariantes

d<-
read.csv("C:\\Users\\Neil\\AppData\\Local\\Temp\\data.csv",dec=".",sep=",",stringsAsFactors=TRUE
)
setwd("C:\\Users\\Neil\\AppData\\Local\\Temp\\")
library("EMCluster")
## Warning: package 'EMCluster' was built under R version 3.2.5
## Loading required package: MASS
## Loading required package: Matrix
## Warning: package 'Matrix' was built under R version 3.2.5
set.seed(8604)
AIC<-vector(mode="numeric",length=0)
BIC<-vector(mode="numeric",length=0)
CLC<-vector(mode="numeric",length=0)
logL<-vector(mode="numeric",length=0)
for (clusters in 1:2) {
ret<-init.EM(d,nclass=clusters,method="Rnd.EM")
em<-em.ic(d,ret)
AIC<-c(AIC,em$AIC)
BIC<-c(BIC,em$BIC)
CLC<-c(CLC,em$CLC)
logL<-c(logL,ret$llhdval)
}
summary(ret)
## Method: Rnd.EM
## n = 130, p = 2, nclass = 2, flag = 0, total parameters = 11,
## logL = -566.8589, AIC = 1155.7179, BIC = 1187.2607.
## nc:
## [1] 109 21
## pi:
## [1] 0.8624 0.1376
write.table(ret$pi,file="C:\\Users\\Neil\\AppData\\Local\\Temp\\props.csv",sep=",")
write.table(ret$Mu,file="C:\\Users\\Neil\\AppData\\Local\\Temp\\mus.csv",sep=",")
write.table(ret$LTSigma,file="C:\\Users\\Neil\\AppData\\Local\\Temp\\sigmas.csv",sep=",")
write.table(AIC,file="C:\\Users\\Neil\\AppData\\Local\\Temp\\aic.csv",sep=",")
write.table(BIC,file="C:\\Users\\Neil\\AppData\\Local\\Temp\\bic.csv",sep=",")
write.table(logL,file="C:\\Users\\Neil\\AppData\\Local\\Temp\\logl.csv",sep=",")
write.table(CLC,file="C:\\Users\\Neil\\AppData\\Local\\Temp\\clc.csv",sep=",")
En las líneas bajo resumen(ret), resume los resultados del proceso de ajuste del modelo. Es de
particular interés:
1. n: número de observaciones utilizadas para ajustar el modelo.

2. nclase: número de componentes en el modelo ajustado.
3. Parámetros totales: número de parámetros estimados.
4. logL: valor final de la función de probabilidad de registro.
5. CIA: valor del Criterio de Información Akaike.
6. CIB: valor del Criterio de Información Bayesiano.
7. nc: número de observaciones en cada componente del modelo.
8. pi: proporción estimada de la distribución para cada componente.
Gráfico de Distribución Ajustada
Este gráfico muestra la función de densidad bivariante ajustada.
Densidad Bivariable
0.06
0.05
0.04
densidad
0.03
0.02
0.01 96
86
0 76
96 66
97 98 56 Heart Rate
99 100 101
Temperature
Es una mezcla de 2 distribuciones normales bivariantes.
Opciones de Panel

• Mostrar: selecciona una superficie o gráfico de contorno.
• Puntos mostrados: si se crea un gráfico de contorno, si se deben mostrar las observaciones

individuales.
• Dibujar líneas de contorno: si se crea un gráfico de contorno, si las líneas deben dibujarse
en lugar de usar una paleta de colores.
• Resolución: número de ubicaciones a lo largo de cada eje en el que se evalúa la función de

densidad.
A continuación se muestra un gráfico de contorno.
Densidad Bivariable
96 Gender
Female
Male
86
Heart Rate
76
66
56
96 97 98 99 100 101
Temperature
El color de cada punto indica si ese punto corresponde a un hombre o una mujer. El gráfico
parece indicar un componente primario a baja temperatura y frecuencia cardíaca baja con poca
correlación entre las 2 variables, y un componente secundario a temperaturas y frecuencias
cardíacas más altas con una fuerte correlación negativa.

Parámetros Estimados
Esta tabla muestra los parámetros estimados del modelo:
Parámetros Estimados
Tamaño de muestra: 130
Componente Proporción Media 1 Media 2 Sigma 1 Sigma 2 Correlación

1 0.862423 98.1814 72.3688 0.752765 6.47316 0.198505
2 0.137577 98.6747 82.4923 0.339429 2.94411 -0.898109
Combinado 98.2492 73.7615 0.730358 7.03486 0.143541
Incluye estimaciones de las 2 medias para cada componente, las desviaciones estándar de 2
componentes, los coeficientes de correlación y las proporciones de componentes pi. También se
muestran las medias, las desviaciones estándar y el coeficiente de correlación de la distribución
combinada.
Histograma de Frecuencia
Este gráfico muestra la función de densidad estimada para la mezcla de distribuciones gaussianas
bivariantes. La altura de cada barra es proporcional al número de observaciones observadas en
un área rectangular pequeña definida por un recorrido de Temperatura y Frecuencia Cardíaca.

Histograma de Frecuencia
0.08
0.06
densidad
0.04
0.02
96
86
0 76
96 66
97 98 56 Heart Rate
99 100 101
Temperature
Opciones de Panel
Especifique para cada variable:
• Número de clases: número de intervalos en los que se debe dividir el recorrido de los
datos.

• Desde: límite inferior de la primera clase.
• Hasta: límite superior de la última clase.
Especificar también:
• Mantener: si está marcada, la escala de las clases permanecerá constante incluso si

cambian los datos.

Comparaciones de Modelos
Esta tabla compara los resultados del ajuste de la mezcla de distribuciones gaussianas con
componentes que varían entre 1 y K, el número de componentes indicado en el cuadro de diálogo
Opciones de Análisis.
Comparaciones de Modelos
Número de componentes Parámetros Log probabilidad AIC BIC CLC

1 5 -577.367 1164.73 1179.07 1154.73
2 11 -566.859 1155.72 1187.26 1163.14
3 17 -560.885 1155.77 1204.52 1183.9
4 23 -559.125 1164.25 1230.2 1180.2
La tabla incluye:
1. Parámetros –número de parámetros m estimados en el modelo. Para un modelo con K

componentes, m = 6K-1.
2. Log probabilidad –valor de la función log probabilidad . Los modelos con más
parámetros siempre tendrán valores más grandes de la función log probabilidad.
3. CIA –valor del Criterio de Información Akaike. El CIA es un criterio muy usado para la
selección del modelo y penaliza la función de probabilidad basada en el número de
parámetros estimados según
(3)
4. CIB –valor del Criterio de Información Bayesiano. Es similar al CIA, excepto que usa
una ecuación diferente para penalizar la función de probabilidad:
(4)
5. CPC –valor del Criterio de Probabilidad de Clasificación. Es similar a CIA y CIB pero
penaliza la función de probabilidad basada en una medida de entropía (ver Biernacki and
Govaert 1997).
Son preferibles modelos con los valores más pequeños de CIA, CIB y CPC. En la tabla anterior,
el CIA selecciona un modelo con 2 componentes, mientras que los otros criterios seleccionan un
modelo con 1 sola componente.

Estimado de Densidad No Paramétrica
Se puede obtener un estimado alternativo de la función de densidad bivariante contando el

número de observaciones que caen dentro de una ventana de tamaño fija movida a través del
recorrido de los datos.
Estimado Densidad No Paramétrica
(X 0.001)
24
20
16
densidad
12
8
4 96
86
0 76
96 66
97 98 56 Heart Rate
99 100 101
Temperature
La función de densidad estimada viene dada por:
(det S )
−1 / 2
 1 T 
W  h (X − X 1 ) S −1 (X 2,i − X 2 ) 
n
f ( x) =
T
1,i (5)

2 2
h n i =1
donde S es la matriz de covarianza de muestra de las 2 variables, h es el ancho de ventana y W(u)

es la función de ponderación definida por
exp(− u / 2 )
1
W (u ) = (6)
2
Un ancho del 50% no es irrazonable para una muestra pequeña, pero puede que no proporcione
tantos detalles como un valor menor en muestras más grandes.
Opciones de Panel

• Ancho de Intervalo: ancho de ventana h dentro de la cual las observaciones afectan a la
densidad estimada, como un porcentaje del recorrido cubierto por el eje x. h = 60% no es
irrazonable para una muestra pequeña, pero puede que no proporcione tantos detalles como
un valor menor en muestras más grandes.
• Resolución: número de puntos a lo largo de cada eje en el que se estima la densidad.
• Mostrar: selecciona una superficie o gráfico de contorno.
• Mostrar puntos: si crea un gráfico de contorno, si se deben mostrar observaciones

individuales.

Asignaciones de Componentes
Para determinar a qué componente es más probable que pertenezca cada uno de los valores de
datos observados, el programa compara la altura de las funciones de densidad de probabilidad de
la componente ponderada en cada valor. Luego asigna una observación a ese valor para el cual el
pdf ponderado es mayor. Proporciona una tabla que muestra las asignaciones de componentes:
Asignaciones de Componentes
Porcentajes de Grupo
Gender Componente 1 Componente 2
Female 65 80.00% 20.00%
Male 65 87.69% 12.31%
Todo 130 83.85% 16.15%
Fila Temperature Heart Rate Componente

1 98.4 84.0 2
2 98.4 82.0 1
3 98.2 65.0 1
4 97.8 71.0 1
5 98.0 78.0 1
6 97.9 72.0 1
7 99.0 79.0 2
8 98.5 68.0 1
9 98.8 64.0 1
10 98.0 67.0 1
11 97.4 78.0 1
… … … …
Para los datos de la muestra, aproximadamente el 84% de las observaciones se han asignado a la
Componente #1 y 16% a la Componente #2. Si se realiza una entrada en el campo Grupo en el
cuadro de diálogo de introducción de datos, también se mostrarán los porcentajes de asignación
por grupo.

Guardar Resultados
Las asignaciones de componentes se pueden guardar en una hoja de datos Statgraphics

presionando el botón Guardar Resultados en la barra de herramientas de análisis. Se mostrará el
siguiente cuadro de diálogo:
• Asignaciones de Componentes –componente más probable asociada con cada observación.
• Variables Objetivo: introducir nombres para la columna que se creará.
• Hoja de datos: hoja de datos en la que se guardarán los resultados.
• Autoguardado: si está marcada, los resultados se guardarán automáticamente cada vez que
se cargue un StatFolio guardado.
• Guardar comentarios: si está marcada, se guardarán los comentarios para cada columna en
la segunda línea del encabezado de la hoja de datos.

Referencias
Biernacki, C., Celeux, G, and Govaert, G. (2003). “Choosing starting values for the EM
algorithm for getting the highest likelihood in multivariate Gaussian mixture models.”
Computational Statistics and Data Analysis, 413, 561-575.
Biernacki C and Govaert G (1997). “Using the classification likelihood to choose the number of
clusters.” Computing Science and Statistics 29, 451–457.
Maitra R. (2001). “Clustering massive datasets with applications to software metrics and
tomography.” Technometrics, 43(3), 336-346.
Maitra R. (2009). “Initializing Partition-Optimization Algorithms.” IEEE/ACM Transactions on

Computational Biology and Bioinformatics, 6, 144-157.
R Package “EMCluster” (2018) - https://cran.r-

project.org/web/packages/EMCluster/EMCluster.pdf
Wei-Chen Chen and Ranjan Maitra (2015) – A Quick Guide for the EMCluster Package.

Ajuste de Distribución (Distribuciones de Mezcla Bivariante)

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Ajuste de Distribución (Distribuciones de Mezcla Bivariante)

Cargado por

Copyright:

Formatos disponibles

Ajuste de Distribución (Distribuciones Mezcla Bivariante)

© 2019 by Statgraphics Technologies, Inc. Distribution Fitting (Bivariate Mixture Distributions) - 1

El Ajuste de Distribución (Distribuciones Mezcla Bivariante) ajusta una distribución a datos

El procedimiento calcula el ajuste de la distribución y crea gráficos del modelo ajustado.

Los cálculos se realizan mediante el paquete “EMCluster” en R. Para ejecutar el procedimiento,

Muestra StatFolio: bivariate mixture.sgp

El archivo bodytemp.sgd contiene mediciones de la temperatura corporal y la frecuencia cardíaca

Temperature Gender Heart rate

La mitad de los sujetos eran hombres y la otra mitad mujeres.

© 2019 by Statgraphics Technologies, Inc. Distribution Fitting (Bivariate Mixture Distributions) - 2

Cuando se selecciona el procedimiento por primera vez, se muestra un cuadro de diálogo de

• Muestra 1: nombre de la primera columna de datos que se utilizará para ajustar la

• Muestra 2: nombre de la segunda columna que se utilizará para ajustar la distribución.

• (Selección:) selección de subconjunto opcional.

© 2019 by Statgraphics Technologies, Inc. Distribution Fitting (Bivariate Mixture Distributions) - 3

• Número de componentes: K, el número de distribuciones gaussianas univariadas separadas

• Aleatorización: si se debe corregir la semilla del generador de números aleatorios utilizando

© 2019 by Statgraphics Technologies, Inc. Distribution Fitting (Bivariate Mixture Distributions) - 4

Se pueden crear las siguientes tablas y gráficos:

El modelo estadístico ajustado por este procedimiento es una mezcla de distribuciones

un vector de desviaciones estándar

Y un coeficiente de correlación j. La función de densidad es la suma ponderada de tales K

© 2019 by Statgraphics Technologies, Inc. Distribution Fitting (Bivariate Mixture Distributions) - 5

El Resumen de Análisis muestra los comandos R ejecutados.

Distribuciones de Mezcla Bivariantes

## Warning: package 'EMCluster' was built under R version 3.2.5

## Loading required package: MASS

## Loading required package: Matrix

## Warning: package 'Matrix' was built under R version 3.2.5

1. n: número de observaciones utilizadas para ajustar el modelo.

Gráfico de Distribución Ajustada

Este gráfico muestra la función de densidad bivariante ajustada.

Es una mezcla de 2 distribuciones normales bivariantes.

© 2019 by Statgraphics Technologies, Inc. Distribution Fitting (Bivariate Mixture Distributions) - 7

• Puntos mostrados: si se crea un gráfico de contorno, si se deben mostrar las observaciones

• Resolución: número de ubicaciones a lo largo de cada eje en el que se evalúa la función de

A continuación se muestra un gráfico de contorno.

© 2019 by Statgraphics Technologies, Inc. Distribution Fitting (Bivariate Mixture Distributions) - 8

Esta tabla muestra los parámetros estimados del modelo:

Tamaño de muestra: 130

Componente Proporción Media 1 Media 2 Sigma 1 Sigma 2 Correlación

© 2019 by Statgraphics Technologies, Inc. Distribution Fitting (Bivariate Mixture Distributions) - 9

Especifique para cada variable:

© 2019 by Statgraphics Technologies, Inc. Distribution Fitting (Bivariate Mixture Distributions) - 10

• Hasta: límite superior de la última clase.

• Mantener: si está marcada, la escala de las clases permanecerá constante incluso si

© 2019 by Statgraphics Technologies, Inc. Distribution Fitting (Bivariate Mixture Distributions) - 11

Número de componentes Parámetros Log probabilidad AIC BIC CLC

1. Parámetros –número de parámetros m estimados en el modelo. Para un modelo con K

© 2019 by Statgraphics Technologies, Inc. Distribution Fitting (Bivariate Mixture Distributions) - 12

Se puede obtener un estimado alternativo de la función de densidad bivariante contando el

Estimado Densidad No Paramétrica

La función de densidad estimada viene dada por:

donde S es la matriz de covarianza de muestra de las 2 variables, h es el ancho de ventana y W(u)

© 2019 by Statgraphics Technologies, Inc. Distribution Fitting (Bivariate Mixture Distributions) - 13

• Resolución: número de puntos a lo largo de cada eje en el que se estima la densidad.

• Mostrar: selecciona una superficie o gráfico de contorno.

• Mostrar puntos: si crea un gráfico de contorno, si se deben mostrar observaciones

© 2019 by Statgraphics Technologies, Inc. Distribution Fitting (Bivariate Mixture Distributions) - 14

Fila Temperature Heart Rate Componente

© 2019 by Statgraphics Technologies, Inc. Distribution Fitting (Bivariate Mixture Distributions) - 15

Las asignaciones de componentes se pueden guardar en una hoja de datos Statgraphics

• Asignaciones de Componentes –componente más probable asociada con cada observación.

• Variables Objetivo: introducir nombres para la columna que se creará.