Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Instituto Tecnolgico del Valle del Yaqui. Block 611 Valle del Yaqui, Bcum Sonora
(rasalazarg@hotmaillcom) 2Instituto Tecnolgico de Sonora, Cinco de Febrero 818 Obregn, Sonora. 85000 (rcruz@itson.mx)
RESUMEN
ABSTRACT
Los anlisis estadsticos con una sola variable tienen la limitacin de proveer conocimientos parciales no suficientes para caracterizar fenmenos multivariados complejos como las precipitaciones, tormentas, escorrentas e inundaciones. Para el entendimiento integral de estos fenmenos se requiere estudiar la densidad conjunta de las variables correlacionadas que los caracterizan. En hidrologa se ha supuesto que las variables de inters
siguen una distribucin gamma, por lo que la distribucin gamma
bivariada es la ms utilizada en esta disciplina. En este trabajo
se presenta la generalizacin de una distribucin gamma bivariada
a una familia de distribuciones bivariadas. Esta familia (que da
la posibilidad de utilizar cualquier distribucin continua como
marginal, por ejemplo, la lognormal, inversa de Gauss o logstica), aunada a las familias existentes, puede ser til para modelar
los fenmenos hidrolgicos. Una ventaja de esta familia es que su
distribucin conjunta tiene una expresin explcita simple que
permite su utilizacin con paquetes matemticos como
Mathematica o Matlab.
Palabras clave: Distribucin bivariada, distribucin gamma, distribucin inversa de Gauss, distribuciones marginales, familias
multivariadas.
INTRODUCTION
INTRODUCCIN
ue et al. (2001) revisaron algunas distribuciones bivariadas propuestas para las aplicaciones hidrolgicas y mencionan que su complicacin matemtica es el principal obstculo para su
uso. La generalizacin bivariada de una distribucin
univariada generalmente no es nica como en el caso
de la distribucin normal; para la distribucin gamma,
por ejemplo, cualquier distribucin bivariada con marginales gamma puede considerarse una distribucin
gamma bivariada. Plackett (1965), cita a Frchet, quien
considerando dos variables aleatorias X y Y, con distribucin conjunta H(x, y) y distribuciones marginales
F(x) y G(y), obtuvo las siguientes desigualdades conocidas como cotas de Frchet (Kotz et al., 2000).
Recibido: Octubre, 2006. Aprobado: Septiembre, 2007.
Publicado como ENSAYO en Agrociencia 41: 903-912. 2007.
903
(1)
(2)
(1)
(2)
Morgenstern, citado por Deste (1981) propuso la distribucin bivariada con distribuciones marginales F(x)
y F(y):
a f
a fm
a fr
H x, y = F ( x )G y 1 + 1 F ( x ) 1 G y
a f
a fl
(3)
(4)
donde las funciones A(F) y B(G) son funciones acotadas, con sus primeras diferenciales tambin acotadas,
es un parmetro de asociacin y si se acepta, sin
prdida de generalidad, que las cotas superiores de
A(F) y B(G) son iguales a uno, la expresin
para la funcin bivariada (4) es nica. La familia (4)
de distribuciones bivariadas se conoce como las distribuciones Farlie-Gumbel-Morgenstern. Deste (1981)
puntualiza que la distribucin gamma bivariada derivada de la ecuacin (3) de Morgenstern tiene una cota
superior de 1/=0.3183 para el coeficiente de correlacin y concluye que esta distribucin gamma bivariada
slo es til para variables con correlacin dbil.
El mtodo de Plackett (1965) para la construccin
de una distribucin conjunta H(x,y), satisface la ecuacin (5) y depende del parmetro 0 donde:
H (1 F G + H )
( F H )(G H )
(5)
Karian y Dudewics (2000) proporcionan una descripcin completa del mtodo, cuando =1 las variables son independientes y se alcanzan las cotas de
Frchet; la funcin de densidad conjunta, denominada
familia lambda generalizada (FLG), tiene la expresin:
a f
h x, y =
af
cS 4( 1)FG h
f ( x )g y 1 + ( 1)( F + G 2 FG )
2
3/2
(6)
904
a f
a fm
a fr
H x, y = F ( x )G y 1 + 1 F ( x ) 1 G y
(3)
a f
a fl
H x, y = F ( x )G y 1 + A( F ) B(G )
(4)
H (1 F G + H )
( F H )(G H )
(5)
a f
h x, y =
af
cS 4( 1)FG h
f ( x )g y 1 + ( 1)( F + G 2 FG )
2
3/2
(6)
Para generar esta familia los autores definen un conjunto de variables exponenciales y un conjunto de variables gamma independientes, definen varias transformaciones al hipercubo p-dimensional con mrgenes
uniformes (0, 1) para obtener p variables uniformes
Ui, y se reemplazan las variables Ui por las funciones
de distribucin Fi(xi). Para dos variables, la funcin de
densidad contiene tres parmetros de asociacin (11,
12 y 22), sin embargo, la funcin puede simplificarse
de forma que contenga nicamente al parmetro 12,
(11=22=0) y si este parmetro se denota por , la
densidad bivariada es:
a f
af
h x, y = f ( x )g y F ( x )
FGC
H
( +2 )
12
1/
af
IJ
K
G y
1 +2
+ C12
a f
af
h x, y = f ( x )g y F ( x )
FGC
H
( +2 )
12
1/
af
IJ
K
G y
1 +2
C12
1/
(7)
where:
1/
(7)
donde:
C12=C21=F(x)1/1++G(y)1/2+F(x)1/1+G(y)1/2+ (8)
Johnson y Tenenbein (1981), generaron una familia de distribuciones bivariadas por el mtodo de la
combinaciones lineales ponderadas (CLP), el cual se
inicia con dos variables independientes e idnticamente
distribuidas (iid) U y V con funcin de densidad w(t),
para definir las variables U y V:
U=U y
V=cU+(1c)V
(9.a)
(9.b)
donde, c(0,1) es una constante que afecta la dependencia entre las variables; w(t) una funcin de densidad que se puede utilizar para evaluar la sensibilidad
de la distribucin conjunta H(x,y). Los autores utilizan
como distribucin w (t) a las distribuciones uniforme,
normal, exponencial y doble exponencial, pero no proporcionan la expresin explcita de la funcin de densidad conjunta h(x, y) generada por estas distribuciones.
Las familias de distribuciones presentadas no se
aplican frecuentemente debido a la complejidad de sus
funciones de densidad. El objetivo del presente trabajo
fue obtener una familia de distribuciones bivariadas de
menor complejidad. La hiptesis que se plantea es que
el procedimiento de Moran (1969), descrito en la siguiente seccin para obtener una distribucin gamma
bivariada, se puede generalizar para cumplir el objetivo buscado.
C12=C21=F(x)1/1++G(y)1/2+F(x)1/1+G(y)1/2+ (8)
Johnson and Tenenbein (1981) generated a family
of bivariate distributions by the weighted linear
combination method (WLC), which starts with two
independent variables that are identically distributed
(iid) U and V with density function w(t), to define the
variables U and V:
U=U and
V=cU+(1c)V
(9.a)
(9.b)
MATERIALS
AND
METHODS
SALAZAR-GMEZ y CRUZ-MEDINA
905
MATERIALES
MTODOS
f w, z
R| 1
a w, z f =
exp S
dw
2 d1 i
T| 2d1 i
1
2 1/2
U|
2 wz + z iV
W|
V=
1
2
w t
e 2
dt
(11.a)
2 1/2
2 1
R| 1
S| 2d1 i dw
T
exp
2 wz + z 2
U
i|V|
W
(10)
V=
1
2
w t
e 2
U = (W ) =
dt
and
(11.a)
z t
e 2
dt = ( Z )
(11.b)
U = F X , 1 =
dt = ( Z )
a f
(12.a)
a f
(12.b)
f s, 1 ds
(11.b)
a f
f w , z w, z =
z t
e 2
(10)
U = (W ) =
U = F X , 1 =
a f
f s, 1 ds
(12.a)
V = G Y , 2 =
g s, 2 ds
V = G Y , 2 =
a f
g s, 2 ds
(12.b)
906
distribucin. Por medio del teorema de cambio de variable se obtiene la funcin de densidad conjunta de una distribucin gamma
bivariada.
X=F1[U]=F1[(W)] y
(13.a)
Y=G1[V]=G1[(W)]
(13.b)
W=1[F(X)] y
(14.a)
Para generalizar la distribucin bivariada de Moran (1969), resultado principal de este trabajo, ntese que las variables X y Y en
las expresiones (12.a y 12.b) pueden tener diversas distribuciones
continuas. Utilizando las transformaciones (13.a) y (13.b) con transformaciones inversas (14.a) y (14.b):
Z=1[G(Y)] y
(14.b)
X=F1[U]=F1[(W)] y
(13.a)
Y=G1[V]=G1[(W)]
(13.b)
W=1[F(X)] y
(14.a)
Z= [G(Y)] y
(14.b)
w
x
J=
z
y
w
w z
x
x
=
z
x y
y
(15)
b a fg =
1 F x
w
=
x
x
(16)
b a fg =
a f = a2 f
d b a fgi
f x; 1
1/2
f z 1 F x
c a fh =
1 G y
z
=
x
y
c a fh =
f = a2 f
f d c F a y fh i
g y; 2
1/2
sa f
exp 1 / 2 w 2 f x; 1
sa
exp 1 / 2 z 2 g x; 2
(17.b)
fz representa la funcin de densidad de la distribucin normal
estndar y las variables W y Z estn definidas por las ecuaciones
(14.a) y (14.b), as:
a f = a2 f
d b a fgi
f x; 1
1/2
f z 1 F x
sa f
exp 1 / 2 w 2 f x; 1
f = a2 f
f d c F a y fh i
g y; 2
1/2
sa
exp 1 / 2 z 2 g x; 2
(17.b)
fz represents the density function of the standard normal
distribution and variables W and Z are defined by the equations
(14.a) and (14.b), as follows:
a f { d
J = 2 exp 1 / 2 w 2 + z 2
(17.a)
1 G y
z
=
x
y
(16)
(17.a)
1 F x
w
=
x
x
w
w z
x
x
=
z
x y
y
w
x
J=
z
y
(15)
i} f a x; fga y; f
1
(18)
SALAZAR-GMEZ y CRUZ-MEDINA
907
a f { d
J = 2 exp 1 / 2 w 2 + z 2
i} f a x; fga y; f
1
(18)
h( x, y) =
h( x, y) =
d1 i
2
1/2
R| 1 L
S| 2d1 i NMa w f
T
x f a x; f ga y; f
exp
U
a f OPQ|V
|W
2 wz + z
(19)
Ajuste de las distribuciones bivariadas
Para estimar el parmetro en la familia FLG Plackett (1965)
sugiere dividir la distribucin conjunta en cuatro cuadrantes, utilizando las lneas x=x1 y y=y1 para algunas constantes x1 y y1, contar
el nmero de puntos (x, y) en cada cuadrante. Los conteos proporcionan los valores a, b, c y d:
a=n(xx1, yy1); b=n(xx1, y>y1),
b=n(x>x1, yy1) y d=n(x>x1, y>y1)
donde, n(A) es el nmero de elementos del evento A. El estimador
propuesto es: +=ad/bc, que tiene una distribucin asintticamente
normal con varianza:
V(+)=(+)2[1/a+1/b+1/c+1/d]
(20)
908
d1 i
2
1/2
R| 1 L
S| 2d1 i MNa w f
T
x f a x; f ga y; f
exp
U
a f OPQ|V
|W
2 wz + z
(19)
Fit of the bivariate distributions
To estimate the parameter in the family FLG, Plackett (1965)
suggests dividing the joint distribution into four quadrants, using the
lines x=x1 and y=y1 for some constants x1 and y1, counting the
number of points (x, y) in each quadrant. The counts provide the
values a, b, c and d:
a=n(xx1, yy1); b=n(xx1, y>y1),
b=n(x>x1, yy1) y d=n(x>x1, y>y1)
where, n(A) is the number of elements of event A. The proposed
estimator is: +=ad/bc, which has an asymptotically normal
distribution with variance:
V(+)=(+)2[1/a+1/b+1/c+1/d]
(20)
w i zi
0 =
i=1
n
i=1
i=1
w i2 zi2
(21)
Para el ajuste de la familia FGM se utilizar un algoritmo similar al anterior, sustituyendo la ltima indicacin por: 4) estimar el
valor de , por 0, el coeficiente de correlacin de las variables
normalizadas, esto es,
procedure (which can also be used for the fit of the distributions of
the two previous families). These authors mention that high values
of 11, 12 and 22 induce a weak association between variables X
and Y; this information is useful for selecting the initial values of the
parameter.
Comparison of the bivariate families
w i zi
i=1
0 =
i=1
i=1
w i2 zi2
(21)
RESULTADOS
DISCUSIN
The bivariate FLG (6) and FGM (19) families have only one
parameter for modeling the dependence, for the FLG family and
the correlation coefficient for the family FGM. The family FKS
has three parameters; however, to compare the goodness of fit of
these families with equal number of parameters, the simplified version
(7) will be used.
Comparisons will be made by modeling the runoffs of the Yaqui
River, in the State of Sonora, Mxico. The modeling of the runoffs
in the arid and semi-arid regions of Mxico is important for planning
the use of the limited water resources of these regions. It is the case
of the Yaqui River, which irrigates the valley of the same name in
the south of Sonora. The runoffs from December to June (DJ), which
will be modeled, have significant correlations, but are not correlated
with the runoffs from July to September caused by the summer
rainfalls associated with the Mexican monsoon. The autocorrelations
of the DJ runoffs were not significant, but their correlation with the
average of the southern oscillation index SOI (Ropelewsky and Jones,
1987) from October to November is equal to 0.475, a significant
value (p0.001). To model and predict the DJ runoffs with the SOI
index, bivariate distributions were adjusted for the accumulated runoffs
from December-June and the average of the SOI index of October
and November.
RESULTS
AND
DISCUSSION
SALAZAR-GMEZ y CRUZ-MEDINA
909
Cuadro 1. Escurrimientos y promedios del ndice SOI (por columnas) para el periodo 1956-2002.
Table 1. Runoffs and averages of the SOI index (by columns) for the period 1956-2002.
Escurrimientos
295
427
996
381
1936
583
1193
509
487
576
1256
437
3679
712
644
425
679
2279
480
576
635
503
1138
2425
Dic-Jun
(Hm3)
465
1267
4370
3315
1009
4393
792
1175
566
612
628
2128
2831
2762
792
2190
365
433
1326
287
453
600
400
distribucin inversa de Gauss; se seleccion la distribucin gamma desfasada por tener el mejor ajuste con
el criterio de Kolmogorov-Smirnov. Los parmetros
de localizacin, escala y forma son =287.48,
=1146.31 y =0.7108. El ndice SOI promedio de
octubre y noviembre (Cuadro 1) tiene como mnimo,
mximo, mediana, media y desviacin estndar a
2.725, 1.850, 0.292, 0.109 y 0.981. Las distribuciones con mejor ajuste fueron la logstica y la normal; de ellas se seleccion la normal porque Ropelewsky
y Jones (1987) modificaron este ndice precisamente
para que tuviera una distribucin normal estndar.
Si las distribuciones de las escorrentas y del ndice
SOI fueran independientes, la grfica de contornos de
la funcin de densidad conjunta sera como la presentada en la Figura 1.
SOI
Oct-Nov
0.370
0.490
1.160
0.395
0.405
1.435
0.765
0.320
0.850
1.295
1.150
0.755
1.850
0.150
1.460
0.445
1.475
0.520
2.725
1.195
0.110
0.245
0.555
0.515
0.380
1.635
0.115
0.425
0.180
0.025
1.500
1.010
1.085
1.445
0.130
c1 h
R| 1
Exp S
( pw )
|T 2c1 h
ga y; f
2 1/ 2
2 wz + ( pz) 2
U|
V|
W
(22)
SOI
1
0
1
500
1000
1500 2000
2500
3000
3500 4000
Escurrimiento Hm
910
SOI
0
1
c1 h
R| 1
Exp S
( pw )
|T 2c1 h
ga y; f
2 1/ 2
2 wz + ( pz) 2
U|
V|
W
(22)
La media de esta distribucin condicional se puede
obtener por integracin numrica. La grfica de las
medias condicionales, que generalizan a la ecuacin de
regresin y son los estimadores de mnimos cuadrados
de las escorrentas cuando se conoce el valor del ndice
SOI, se presenta en la Figura 3, en la cual se muestra
tambin la recta de regresin. Para un valor del ndice
SOI igual a 2.5, la recta de regresin proporciona una
escorrenta negativa, mientras que la media condicional es 294 Hm3. El ajuste de las distribuciones y los
clculos numricos se efectuaron por medio de Matemtica (Wolfram, 1998).
1000
3000
2000
4000
3000
2000
xx
xx
x
1000
xx
xx x x
4000
3
Escurrimiento Hm
Escurrimientos
h( y / x ) =
x
2
ndice SOI
SALAZAR-GMEZ y CRUZ-MEDINA
911
CONCLUSIONES
La familia generalizada de Moran desarrollada en
este trabajo es una alternativa para la modelacin de
variables bivariadas. En el ejemplo analizado modela
en forma adecuada la dependencia entre las escorrentas
del Ro Yaqui y el ndice SOI. La familia bivariada de
Plackett, conocida como familia lambda generalizada,
no est bien definida para valores grandes del parmetro
, sto es, en cada caso particular es necesario analizar si la funcin conjunta de la ecuacin (6) es vlida.
Para la familia de Koehler y Symanowsky, la expresin proporcionada por los autores slo permite la
modelacin de correlaciones positivas.
LITERATURA CITADA
Casella, G., and R. L. Berger 1990. Statistical Inference. Duxbury
Press. Belmont USA. 650 p.
Deste, G. M. 1981. A Morgenstern-type bivariate gamma
distribution. Biometrika 68: 339-340.
Farlie D. J. G. 1960. The performance of some correlations
coefficients for a general bivariate distribution. Biometrika 47:
307-323.
Johnson, M. E., and A Tenenbein. 1981. A bivariate distribution
family with specified marginals, J. Amer. Stat. Assoc. 76: 198201.
Karian Z. A., and E. J. Dudewics. 2000. Fitting Statistical
Distributions: The Generalized Lambda Distribution and
Generalized Bootstrap Methods. Chapman & Hall/CRC. Boca
Ratn Fl. USA. 456 p.
Koehler, K. J, and J. T. Symanowski. 1995. Constructing multivariate
distributions with specific marginal distributions. J. Multivariate
Anal. 55: 261-282.
912
CONCLUSIONS
The generalized Moran family developed in the
present study is an alternative for the modeling of
bivariate variables. In the example analyzed it
adequately models the dependence among the runoffs
of the Yaqui River and the SOI index. The Plackett
bivariate family, known as generalized lambda family,
is not well defined for large values of the parameter
, that is, in each particular case it is necessary to
analyze whether the joint density function of equation
(6) is valid. For the family of Koehler and Symanowsky,
the expression provided by the authors only allows the
modeling of positive correlations.
End of the English version
Kotz S., N. Balakrishnan, and N. L. Johnson. 2000. Continuous
Multivariate Distributions Vol 1: Models and Applications. 2nd
Ed. John Wiley & Sons. N. Y. USA. 752 p.
Moran, P. A. P. 1969. Statistical inference with bivariate gamma
distributions. Biometrika 56: 627-634.
Plackett, R. L. 1965. A class of bivariate distributions. J. Am. Stat.
Assoc. 60: 516-522.
Ropelewski, C. F., and P. D. Jones. 1987. An extension of the
Tahiti-Darwin southern oscillation index. Monthly Weather Rev.
115: 2161-2165.
Wolfram, S. 1998. The Mathematica Book. Fourth ed. Cambridge
University Press. Cambridge U. K. 1470 p.
Yue S., T. B. M. J. Quarda, and B. Bobe. 2001. A review of
bivariate gamma distributions for hydrological applications. J.
Hydrology 246: 1-18.