Está en la página 1de 91

I.

CONCEPTOS BASICOS

1. Introduccin a la Estadstica Descriptiva


La estadstica descriptiva es una ciencia que analiza series de datos (como
por ejemplo, edad de una poblacin, altura de los estudiantes de una escuela,
temperatura en los meses de verano, etc) y trata de extraer conclusiones sobre
el comportamiento de estas variables.
Las variables pueden ser de dos tipos:
Variables cualitativas o atributos: no se pueden medir numricamente (por
ejemplo: nacionalidad, color de la piel, sexo).
Variables cuantitativas: tienen valor numrico (edad, precio de un producto,
ingresos anuales).
Las variables tambin se pueden clasificar en:
Variables unidimensionales: slo recogen

informacin

sobre

una

caracterstica (por ejemplo: edad de los alumnos de una clase).


Variables bidimensionales: recogen informacin sobre dos caractersticas de
la poblacin (por ejemplo: edad y altura de los alumnos de una clase).
Variables pluridimensionales: recogen informacin sobre tres

ms

caractersticas (por ejemplo: edad, altura y peso de los alumnos de una clase).
Por su parte, las variables cuantitativas se pueden clasificar en discretas y
continuas:
Discretas: slo pueden tomar valores enteros (1, 2, 8, 4, etc.). Por ejemplo:
nmero de hermanos (puede ser 1, 2, 3......etc, pero, por ejemplo, nunca podr
ser 3,45).
Continuas: pueden tomar cualquier valor real dentro de un intervalo. Por
ejemplo, la velocidad de un vehculo puede ser 80,3 km/h, 94,57 km/h...etc.
Cuando se estudia el comportamiento de una variable hay que distinguir los
siguientes conceptos:
Individuo: cualquier elemento que porte informacin sobre el fenmeno que se
estudia. As, si estudiamos la altura de los nios de una clase, cada alumno es
un individuo; si estudiamos el precio de la vivienda, cada vivienda es un
individuo.
Poblacin: conjunto de todos los individuos (personas, objetos, animales, etc.)
que porten informacin sobre el fenmeno que se estudia. Por ejemplo, si
estudiamos el precio de la vivienda en una ciudad, la poblacin ser el total de
las viviendas de dicha ciudad.

Muestra: subconjunto que seleccionamos de la poblacin. As, si se estudia el


precio de la vivienda de una ciudad, lo normal ser no recoger informacin
sobre todas las viviendas de la ciudad (sera una labor muy compleja), sino que
se suele seleccionar un subgrupo (muestra) que se entienda que es
suficientemente representativo.
ESPACIO MUESTRAL (S)
Es el conjunto de todos los posibles resultados de un experimento. Aun cuando
en un experimento, no es posible determinar con seguridad su resultado, se
puede s, definir con precisin un listado de los resultados posibles de ocurrir.
Esta lista constituye el espacio muestral, y se designa como S.
Ejemplos:
1. Si el experimento consiste en lanzar una moneda, los resultados posibles
son sello o cara, luego:
S = {sello, cara}
Ns = 2
Ns: nmero posible de resultados del espacio muestral.
2. Si el experimento consiste en lanzar un dado, el espacio muestral ser:
S = {1, 2, 3, 4, 5, 6}
Ns = 6
3. Si el experimento consiste en lanzar 2 dados, el espacio muestral, de la
suma de los resultado ser:
S = {2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12}
Ns = 11
EVENTOS
Son los resultados posibles que se puedan presentar en la realizacin de un
experimento.
Es un subconjunto del espacio muestral.
Ejemplos:
1. En el experimento de lanzar una moneda: El evento A, que salga cara es:
A = {cara}
NA = 1
NA: nmero posible de resultados del experimento.

2. En el experimento lanzar un dado: El evento B; que salga un


nmero mayor o igual que 3, es:
B = {3, 4, 5, 6}
NB = 4

3. En el experimento, lanzar dos dados: El evento C, que salga la


suma 7, es:
C = {(1,6), (6,1), (2,5), (5,2), (4,3), (3,4)}
Nc = 6
1.3 DEFINICIN CLSICA DE PROBABILIDAD
La probabilidad P(A), de un evento A, en un experimento aleatorio que tiene Ns
resultados iguales posibles, y de los cuales N A, son resultado favorable, est

dada por:
P ( A )=

NA
NS

.. (1)

Ejemplos:
1. El arrojar una moneda, la probabilidad de que salga sello, es:
1
P= 2
2. Al arrojar un dado, hay seis casos igualmente posibles, la
probabilidad de que salga un nmero igual o mayor que 3 es:
4
2
P= 6 = 3
3. Al arrojar dos dados, hay 36 casos igualmente posibles, la
probabilidad de que la suma de los resultado sea 7, es:
6
1
P = 36 = 6
4. En una serie de dos bolas rojas y ocho bolas negras, hallar la
probabilidad que al extraer una bola, esta sea de color rojo.
De los 10 casos igualmente probables, en 2 casos suceder el
evento que se considera, por lo que se tendr:
2
1
P = 10 = 5
En el concepto clsico
experimentos en los
igualmente posibles.
problemas prcticos no

de probabilidad solo se puede aplicar en


que hay un nmero finito de casos
Pero en la naturaleza, los principales
son de este tipo.

1.4 DEFINICIONES AXIOMATICA DE PROBAILIDAD


Sea S un espacio muestral asociado a un experimento, y A cualquier
suceso de S (A subconjunto de S). Se dice que P es una funcin de

probabilidad en el espacio muestral S, si se satisfacen los siguientes tres


axiomas:
1. 0

P(A)

2. P(S) = 1
A1
3. Si
,

1 , para todo A

A2

, ,

AN

es una serie de sucesos, mutuamente

excluyentes, entonces:
A
A2
A3
AN
A
A
P( 1 U
U
U.U
) = P ( 1 ) + P ( 2 ) + + P (
AN

De estos axiomas se deducen los siguientes teoremas:


1. P( ) = 0
2. P ( A

) = 1 P(A), donde

AC

es el complemento de A.

PROBABILIDAD DE LA UNION DE SUCESOS


Si A y B son eventos cualesquiera en un espacio muestral S, entonces:

P ( A B )=P ( A ) + P ( B )P ( A B )( 2)
PROBABILIDAD CONDICIONAL
Si A y B son dos eventos en los cuales

P ( A ) 0 , entonces, la probabilidad

condicional de que ocurra el suceso B, dado que sucedi A, se define por:

P ( B/ A )=

P( A B)
.(3)
P( A)

1.5 VARIABLES ALEATORIOS


Es una funcin X, definida sobre un espacio muestral S, que asigna un valor a
esta variable, correspondiente a cada punto (resultado) del espacio muestral
de un experimento
A una variable aleatoria, se le conoce tambin como variable estocstica, sus
valores son nmeros reales, que no pueden predecirse con certeza antes de
ocurrir el fenmeno, es decir, ocurren al azar

1.5.1 CLASES DE VARIABLES ALEATORIAS


1. Variable aleatoria discreta
Se dice que una variable aleatoria X es discreta. Cuando sus valores se
restringen a un conjunto enumerable finito o infinito.
Ejemplo: Nmero de das de lluvias ocurridas en los meses de un ao
cualquiera.
Representacin Grafica

Nmero
de das

Meses

2. Variable aleatoria contina


Se dice que una variable aleatoria X es continua cuando sus valores se
encuentran en un rango continuo y puede ser representado por cualquier
nmero entero o decimal.
Ejemplo: El caudal diario registrado en una estacin de aforo

Caudal Q

31

La mayora de secuencias de variables geologicas son series continuas, de


variables continuas. Sin embargo, para propsitos prcticos, una variable
discreta puede tratarse arbitrariamente como continua, ajustndose a una
funcin continua, o bien, una continua como discreta, dividiendo stas en
intervalos y agrupndolas en nmeros discretos.

II. MEDIDAS DE LAS DISTRIBUCIONES.


2.1 MEDIDAS DESCRIPTIVAS DE LAS DISTRIBUCIONES DE
FRECUENCIAS.
Para describir ciertas caractersticas de un conjunto de datos, se pueden usar
nmeros simples, llamados estadsticos. De ellos se puede obtener un
conocimiento ms preciso de los datos que el que se obtiene a partir de las
tablas y los grficos.
Las caractersticas ms importantes de este conjunto de datos son:
1. Medida de tendencia central o medidas de localizacin
Indican cual ser el punto medio o localizacin central. En la fig. 1 la curva A
queda a la izquierda de los puntos medios de las curvas B y C, las cuales tienen
la misma localizacin central

Curva B

Curva A

Curva C

Figura 1.Comparacion de la localizacin central de tres curvas

2. Medidas de dispersin
Se refiere a la forma como se encuentran esparcidas las observaciones. En la
fig. 2, se observa que la curva B tiene una mayor separacin o dispersin que
la curva A.

Curva B
Curva A

Figura 2.Comparacin de la dispersin de dos curvas

3. Medidas de simetra y asimetra


Las curvas que representan los datos puntuales de un conjunto pueden ser
simtricas o asimtricas. Las curvas simtricas, como la que se muestra en la
fig. 3, son las que al trazar una lnea vertical desde el pico de la curva al eje
horizontal dividen su rea en dos partes iguales, cada una idntica a la otra.

Figura 3.Curva simtrica

Las curvas asimtricas o sesgadas, como las que se muestran en la fig. 4 son
aquellas en las cuales la distribucin de frecuencia se concentra en el extremo
inferior o superior de la escala de medida sobre el eje horizontal. Los valores
no se distribuye igualmente, por lo que pueden ser sesgadas a la derecha
(curva A) i sesgadas a la izquierda (curva B).

Curva A
Curva B

Figura 4.Curvas segadas, A: sesgo a la derecha o positivo


B: sesgo a la izquierda o negativo

4. Medidas de achatamiento o curtosis


Indican el grado de llanura de la curva. Por ejemplo en la fig. 5, las curvas A y B
tienen la misma localizacin central, y la misma dispersin, pero difieren por el

hecho que una es ms puntiaguda que la otra,, por lo que tienen diferente
grado de curtosis.

Curva A
Curva B

Figura 5. Curvas con diferente curtosis

De acuerdo al grado de achatamiento, las curvas pueden ser Mesocrtica


(curva A, fig. 6), Leptocrtica (curva B) y Platicrtica (curva C)

Curva B (Leptocrtica)

Curva A (Mesocrtica)
Curva C (Platicrtica)

Figura 6. Grados de achatamiento

2.2 MEDIDAS DE TENDENCIA CENTRAL.


Se define una medida de tendencia central como un ndice de localizacin
central empleado en la descripcin de las distribuciones de frecuencias.
En trminos generales se tienen tres medidas: la media, la mediana y la moda.
2.2.1 Media aritmtica

Dada la muestra compuesta de n datos, X 1, X2, X3,Xn; la media, se


define como la suma algebraica de ellas, dividida ente el nmero de datos.
Cuando se calcula la media para una poblacin, esta se denota por m, y

X .

cuando se trata de una muestra, por

Media aritmtica de datos no agrupados


Matemticamente la media de los datos no agrupados se representa por:
n

xi

= i=1
n

(1)

xi

X = i=1
n

(2)

Donde:
: media poblacional

X : media muestral
Xi: valor i-simo de la muestra
n: nmero de datos de la muestra o poblacin
Media aritmtica de datos agrupados
Para el caso de datos agrupados, la frmula es:
k

fi . xi

X = i=1

(3)

Donde:
fi: frecuencia absoluta (nmero de observaciones) en el intercalo i
xi: marca de clase del intercalo i
k: nmero de intervalos de clase
n: nmero de observaciones de la muestra

2.2.2 Media ponderada


El promedio ponderado permite calcular un promedio que toma en cuenta la
ponderacin de los datos con respecto a un factor, es casi, un caso particular
de la frmula del clculo de la media para los datos agrupados, su frmula es:
n

fi . xi

X p = i=1n

fi

..(4)

i=1

Donde:

x p : Media ponderada
xi: valor i-simo de la muestra
fi: valor del factor de ponderacin del i-simo valor de la muestra
n: nmero de observaciones de la muestra
La media ponderada, se utiliza por ejemplo para el clculo de la notas
promedio de un alumno, donde para cada valor de notas, el factor de
ponderacin es el credito, as:
n

Pi . Ai
P= i=1 n
Ai
i=1

Dnde:

P
: Notas promedio
Pi: valor de las notas promedio del alumno i
Ai: Numero de crditos del alumno i
n: nmero de estaciones
2.2.3 Media geomtrica
Dada la muestra compuesta de n datos, X 1, X2, X3,Xn, la media
geomtrica se define como la raz n-sima, de la productoria de los datos, es
decir:

1/ n

x G=( xi)

(5)

i=1

Donde:

x G : media geomtrica
n

xi
i=1

: x1 x2 . Xn (productoria de los datos)

xi: i-simo valor de la muestra


n: nmero de elementos de la muestra
2.2.4 Mediana
Es un valor nico de un conjunto de datos que mide al elemento central en los
datos.
Este nico elemento de los datos ordenados es el ms cercano a la mitad o el
ms central en el conjunto de nmeros. La mitad de los elementos quedan por
encima de ese punto y otra mitad por debajo de l.
Mediana de los datos no agrupados
Sean X1, X2, X3,Xn, datos ordenados por magnitud creciente o
decreciente y en el nmero impar de datos, la mediana (Med) es el dato
situado en el centro, es decir:
Med=X(n+1)/2

, n impar

(6)

Si n es par, la mediana es el promedio de los nmeros centrales, es decir:

Mcd=

X n / 2+ X n/ 2+1
, n par
2

(7)

Mediana de datos agrupados


Siendo la mediana el valor de la observacin central de un arreglo y como no
se conocen los valores de cada observacin en datos agrupados, la mediana se
suele aproximar, despus de localizar el intercalo de clase de la mediana, por
la siguiente ecuacin

n+1
(F +1)
2
Mcd=
W + Lm
fm

(8)

Donde:
Med: mediana muestral
n: nmero total de elementos de la muestra
F: suma de todas las frecuencias hasta la clase de la mediana pero sin
incluirla
fm: frecuencia nicamente de la clase de la media
w: amplitud del intervalo de clase
Lm: lmite inferior
En general la clase donde se encuentra la mediana es aquella que tiene al
elemento situado en la porcin (n+1)/2
2.2.5 Moda
Es aquel valor que se repite ms frecuentemente en un conjunto de datos, se
denota por Mo.
Para datos agrupados en intervalos de clase, la moda, una vez determinada la
clase modal se calcula con la siguiente ecuacin:

Mo=Lm+

d1
w
d 1+ d 2

(9)

Donde:
di: diferencia entre la frecuencia de la clase modal y la premodal (clase
anterior)
d2: diferencia entre la frecuencia de la clase modal y la postmodal (clase
siguiente)
w: amplitud del intervalo de clase
Lm: limite inferior de la clase modal
En general la clase modal es aquella que tiene la mxima frecuencia
2.2.6 comparacin entre la media, la mediana y la moda

La media, la mediana y la moda de una distribucin de frecuencias son


consideradas cono tres promedios ms importantes. Sin embargo, no son
igualmente aplicables y representativos a todas las situaciones. Como se
muestra en la fig. 7 las posiciones relativas de estas tres medidas dependen de
la simetra de la distribucin.
Si la distribucin es simtrica (fig. a), las tres medidas de tendencia central
tienen valores idnticos.
Si la distribucin es asimtrica (fig. b y c), los tres valores divergen, aunque
siempre para una distribucin unimodal, la moda esta localizada en su punto
mas alto y la mediana esta ente la media y la moda.

Media mediana moda

(a)

moda
mediana
Media

(c)

mediana
moda
Media

(c)
Figura 7. Localizacion de la media, mediana y moda

2.3 MEDIDAS DE DISPERSION.


Las medidas de dispersin o variabilidad permiten observar cmo se reparten o
dispersan los datos a uno y otro lado del centro. Si la dispersin es poca, indica
gran uniformidad de los datos en la distribucin. Por el contrario, gran
dispersin indica poca uniformidad.
2.3.1 Rango

Es una medida de distancia y representa la diferencia entre el mayor y el


menor de los valores observados, es decir:
R = Xmax Xmin

(10)

Donde:
R: rango
Xmax: valor mximo de los datos
Xmin: valor mnimo de los datos
El rango o la amplitud es una manera conveniente de describir la dispersin,
sin embargo, no da medida alguna de la dispersin ente los datos con respecto
al valor central.
2.3.2 Varianza
Datos no agrupados:
La varianza poblacional (2), se define como la suma de cuadrados de las
desviaciones, de los datos con respecto a la media, dividida entre el nmero
total de datos, es decir:
n

( xi)2

2= i=1

(11)

La varianza muestral (S2), se obtiene dividiendo la suma de cuadrados de las


observaciones de los datos con respecto a la media, entre el nmero toral de
datos menos uno, es decir:
n

( xix )2

S 2= i=1

n1

(12)

Para el clculo computacional es til expresar la sumatoria de la siguiente


forma:

( xi x )2= ( xi22 x . xi+ x2 )


xi22 x ( xi ) +n x 2
Pero:

(13)

xi=n

xi =n x

(14)

Luego, sustituyendo (14) en (13), resulta:

( xi x )2= xi2 2 x ( xi )+ n x 2
( xi x )2= xi2 n x2

(15)

Sustituyendo (15) en (11), se tiene:


n

1
2= ( xi 2n x 2 ) (16)
n i=1
Y en (12) resulta:
2

S=

1
2
2
( xi n x )
n1 i=1

(17)

Donde:
S2: varianza muestral
2= varianza poblacional
xi: valor i-simo de la muestra

x =: media muestral o poblacional


N: nmero total de datos
Datos agrupados
Para el caso de datos agrupados en intervalos de clase, la varianza poblacional,
se define como la suma de los cuadrados de las desviaciones de las marcas de
clase con respecto a la media, por la frecuencia absoluta, dividido entre el
nmero total de datos, es decir:
k

(xi)2 . fi

2= i=1

Y la varianza muestral por:

(18)

( xix )2 . fi

S 2= i=1

(19)

n1

Donde:
xi: valor de la i-sima marca de clase

x =: media
fi: valor de la i-sima frecuencia absoluta, es decir, nmero de datos en el
intervalo i
k: nmero de intervalos de clase
n: nmero total de datos
Para el clculo computacional, las ecuaciones (18) y (19), se pueden expresar:
2

xi . fin

(20)

i=1

1
=
n
2

xi 2 . fin x 2
k

i=1

1
S=

n1

(21)

2.2.3 Desviacin Estndar


La desviacin estndar, se define como la raz cuadrada positiva de la varianza,
es decir:

= 2 (poblacional)
S= S2

(muestral)

As se tiene, para datos no agrupados:

xi n
k

i=1

n
=

(22)

xi 2n x 2
k

i=1

n1
S=

(23)

Siendo:
n

1
x == xi
n i=1

(24)

Para datos agrupados


2

xi . fin

i=1

n
=
2

xi . fin x

(25)

i=1

n1
S=
Siendo:

(26)

x ==

1
xi . fi
n i=1

(27)

xi: valor de la i-sima marca de clase

x= :media
fi: valor de la i-sima frecuencia absoluta, es decir nmero de datos en el
intervalo i
k: nmero de intervalos de clase
n: nmero total de datos
2.3.4 COEFICIENTE DE VARIACION
Es una medida relativa de dispersin, que relaciona la desviacin estndar y la
media, es decir:

CV =

S
x2

(28)

Generalmente en Hidrologa se suele trabajar con datos muestrales


2.4 MEDIDAS DE SIMETRIA Y ASIMETRIA
2.4.1 sesgo
El sesgo es el estadstico que mide la simetra y asimetra
Datos no agrupados:
El sesgo () para datos no poblacionales, se obtiene con la siguiente ecuacin:

(29)

Donde:
n

( xi)3

3= i=1

(30)

(xi)
k

i=1

n
=
n

1
xi
n i=1

El sesgo para datos muestrales, se obtiene con:

Cs=

n2 M 3
( n1 )( n2 ) S 3

(31)

Donde:
k

( xi x )2

M 3= i=1

S=

(32)

1
(xi x )2
n1 i=1
k

1
x = xi
n i=1
Datos agrupados:
El sesgo ( ) para datos poblacionales, se obtiene con la siguiente ecuacin:
=

3
3

Donde:

( xi)3 fi

3 i=1

. (33)

1
2
= ( xi) fi
n i=1
k

1
fi xi
n i=1

xi

= marca de clase de intervalo i

fi = valor de la i-ensima frecuencia


K=numero de intervalos de clase
n= nmero total de datos
el sesgo para datos mustrales, se obtiene con :

n2 M 3
( n1 ) ( n2 ) s3

Cs =

(34)

(xix )3 fi

M3 =

S=

i=1

(35)

1
(xi x )2 fi
n1 i=1
k

1
fi xi
n i=1

xi

= marca de clase de intervalo i

fi = valor de la i-ensima frecuencia


K=numero de intervalos de clase

n= nmero total de datos

2.5 MEDIDAS DE ACHATAMIENTO.


El grado de achatamiento se mide con el estadstico denominado
coeficiente de curtosis.
2.5.1 Curtosis
Datos no agrupados:
4

K=

.. (36)

(xi)4 fi

3 =

i=1

. (37)

1
=
( xix )2 fi

n1 i=1
k

1
xi
n i=1

El coeficiente de curtosis para datos mustrales se define como:


n3 M 4
( n1 ) ( n2 )( n3)S 4

Ck =

. (38)

(xix )4

M3 =

S=

i=1

1
(xi x )2 fi
n1 i=1
k

(39)

1
fi xi
n i=1

Datos agrupados
El coeficiente de curtosis (k) para datos poblacionales se define
mediante la siguiente ecuacin
4
4

K=

Donde
k

(xi)3 fi

3 i=1

........ (40)

1
= ( xi)2 fi
n i=1
k

1
fi xi
n i=1

xi

= marca de clase de intervalo i

fi = valor de la i-ensima frecuencia


K=numero de intervalos de clase
n= nmero total de datos

el coeficiente de curtosis para datos muestrales, se define como:


3

Ck =

n M4
( n1 ) ( n2 )( n3)S 4

. (41)

Donde
k

M4 =

(xix )3 fi
i=1

(42)

S=

1
(xi x )2 fi
n1 i=1
k

1
fi xi
n i=1

Los clculos de los estadsticos de una serie de datos es por si laboriosa.


Para la simplificacin de los clculos, donde se requieren la
determinacin de la media, varianza, desviacin estndar, el coeficiente
de variacin, coeficiente de variacin, coeficiente de sesgo y coeficiente
de curtosis.
2.6 EJEMPLO DE CLCULO
Dado los datos de precipitacin anual, en mm de la estacin, Mesapata,
para el periodo 1974-1986. Calcular su media, varianza, desviacin
estndar, coeficiente de variacin, coeficiente de sesgo y el coeficiente
de curtosis.
AO
1974
1975
1976
1977
1978
1979
1980

PRECIPITACIO
N (mm)
1418.60
1527.30
1108.60
1084.20
1509.10
1394.90
1334.40

AO
1981
1982
1983
1984
1985
1986

PRECIPITACIO
N (mm)
1441.50
1133.20
891.00
1429.80
1141.50
1312.60

Solucin:
Los resultados que se obtienen, son los que se muestran:
SERIE
1418.60 1527.30 1108.60 1084.20 1509.10 1394.90 1334.40
1441.50 1133.20 891.00 1429.80 1141.50 1312.60
Numero de datos = 13

RESULTADOS

Media
Varianza
Desviacin estndar
Coeficiente variacin
Coeficiente sesgo
Coeficiente curtosis

DATOS
PROBLACIONALES
1286,67
35214.73
187.66
0.15
-0.55
2.20

DATOS
MUESTRALES
1286.67
38149.29
195.32
0.15
0.63
3.12

2.7 PROBLEMAS PROPUESTOS


1. dadas las descargas medias del mes de mayo de un rio, en m3/seg.
AO
1971
1972
1973
1974
1975
1976
1977
1978
1979
1980

Q m3/seg
3.99
2.96
1.79
1.55
2.48
2.61
2.27
1.86
2.07
2.70

AO
1981
1982
1983
1984
1985
1986
1987
1988
1989

Q m3/seg
5.52
3.09
5.00
6.03
2.73
3.13
4.18
3.26
4.03

Calcular la media, varianza, coeficiente de variacin, coeficiente de


asimetra o sesgo y coeficiente de curtosis.
Usar el proceso a pie y el proceso computacional.
2. si los datos del problema 1, se agrupan en los intervalos de clase que
se muestran calcular la media, varianza, coeficiente de variacin,
coeficiente de asimetra o sesgo y coeficiente de curtosis.
INTERVALOS DE
CLASE
1- 2
2 -3
3 -4
4 -5
56
6 -7

MARCA DE
CLASE
1.5
2.5
3.5
4.5
5.5
6.5

Usar el proceso a pie y el proceso computacional.


3. se tiene una cuenta en la que se han instalado 8 pluvimetros. Las
precipitaciones promedio anuales registradas, en mm, para el periodo de
1970 1991 y las reas de influencia, en km2, de esas estaciones, se
muestran en la siguiente tabla.
ESTACION
AREA Km2
PRECIPITA
CION

1
150
2915

2
300
2563

3
187
3241

4
600
4017

Determinar la precipitacin promedio.

5
550
5321

6
145
4621

7
278
5002

8
110
4932

III. DISTRIBUCION DE FRECUENCIAS DE UNA MUESTRA


3.1 REPRESENTACION TABULAR Y GRAFICA DE LAS MUESTRAS
3.1.1 DEFINICIONES
En Geologia se trabaja con informacin datos de muestreo, estas
informaciones pueden consistir de datos de leyes, potencia, Precio, etc.
Por lo general, se encuentra solo con una muestra de los datos de esa
poblacin, es decir nunca podemos disponer de la totalidad de los datos.
Pero cuando estos datos se organizan en forma compacta y fcil de
utilizar, los gelogos pueden disponer de una herramienta de gran
utilidad, para las decisiones a tomar.
Existen muchas formas de clasificar los datos, una manera til es
dividirlo en categoras similares o clases y luego contar el nmero de
observaciones que caen en cada categora, lo que constituye una tabla
de frecuencias o una distribucin de frecuencias.
Para una muestra dada, se escoge un rango R, que contenga a todos los
valores de la misma. Se subdivide R en subintervalos que se llaman
intervalos de clase; los puntos medios de estos intervalos se denominan
marcas de clase. Se dice que los valores de la muestra en cada uno de
los intervalos forma una clase. Al nmero de valores en una clase se
llama frecuencia de clase; su divisin en el tamao N de la muestra es la
frecuencia relativa de clase. Esta frecuencia considera como funcin de
las marcas de clase; se denomina funcin de frecuencias de la muestra,
y se denota con f(x). La funcin de frecuencias acumuladas de la
muestra, se denota como F(x). La funcin de frecuencia acumulada de la
muestra, se denota como F(x), y se define como:
F(x) =

f (t)
tx

. ( 1)

3.1.2 PROCEDIMIENTO DE CLCULO


A continuacin se indica un procedimiento prctico, para el clculo de
las frecuencias acumuladas, la misma que se usara ms adelante para el
clculo de la distribucin de probabilidades empricas de datos
agrupados en intervalos de clase:

Procedimiento
1. Ordenar la muestra en forma creciente o decreciente puede
hacerse uso del programa en Exel.
Por ejemplo, ordenando en forma creciente, se tiene:
Xmin, X2,X3.. Xmax
Donde
Xmin = X1 es el valor minimo de los datos
Xmax = XN es el valor mximo de los datos
2. Calcular el rango R de la muestra.
R = Xmax Xmin ( 2)
3. Seleccionar el nmero de intervalos de clase NC, este depende del
tamao de la muestra N en aplicaciones de hidrologa el numero
de intervalos de clase puede estar entre 6 y 25.
Yevjevich sugiere para seleccionar NC, las siguientes relaciones
empricas:
(i)

NC : 1.33 ln N +1 (3)

(ii)

Si N < 30 .. NC < 5
Si 30 < N < 75 8 NC 10
Si N > 75 . 10 < NC 30
Donde
N : tamao de la muestra
Ln N logaritmo natural o neperiano del tamao muestral.

4. Calcular la amplitud de cada intervalo de clase x, segn la


ecuacin.
x =

X maxXmin
NC 1

R
NC 1

. ( 4)

Al dividir el rango entre NC 1, lo que en realidad se hace es


incrementar el rango en x, incluyendo un intervalo mas, el mismo
que resulta, de agregar medio intervalo en cada extremo de la
serie ordenada, a fin de que Xmin y Xmax sern respectivamente,

las marcas de clase de la primera y ltima clase. Esto se aprecia


en la figura 8.

Fig 8: representacin del total de la muestra en intervalos de clase


igualmente espaciados.
5. Calcular los lmites de clase de cada uno de los intervalos. Como
se manifest en 4, con el artificio de dividir entre NC-1 se logra
que Xmin y Xmax queden centrados y representan la marca de
clase de la primera y ltima clase, entonces los limites de clase
inferior y superior del primer intervalo son :
LCII = Xmin x/2 .. ( 5)
LCSI = Xmin + x/2 . ( 6)
Los otros limites de clase, se obtienen sumando la amplitud x, al
limite de clase antecedente
6. Calcular las marcas de clase de cada uno de los intervalos. Las
marcas de clase se obtienen del promedio de los limites de clase.
Asi la marca de clase del primer intervalo es :
MCI =

LCII + LCSI
2

(7)

Con el artificio realizado anteriormente la marca de clase es igual


al valor minimo, de igual forma la marca de clase del ltimo
intervalo al valor mximo es decir:
MCI = X min
MICn = X max
Las otras marcas de clase, se obtienen sumando la amplitud x, a
las marcas de clase antecedente.

7. Calcular la frecuencia absoluta, esta es igual al numero de


observaciones, que caen dentro de cada intervalo definido por sus
limites de clases respectivos, la misma que se obtiene por conteo,
asi se obtiene.
Fabi = ni .. (8 )
Donde:
Fabi : frecuencia absoluta del intervalo i
ni : numero de observaciones en el intervalo i
8. Calcular la frecuencia relativa fri de cada intervalo, esta es igual a
la frecuencia absoluta del mismo, dividido entre el numero total d
observaciones, es decir:

fri =

Fab i
N

. ( 9 )

9. Calcular la frecuencia relativa acumulada Fri, usando la formula:


Fri =

j=1

j=1

frj=

nj
N

1
nj
N j=1

. ( 10 )

Donde
Fri: frecuencia relativa acumulada hasta el intervalo i
J: 1,2,.. i acumulacin de los intervalos hasta i
10.
Calcular la funcin de distribucin acumulada o empirica Fi
para cada intervalo. Esta funcin segn Yevjevich, se calcula
usando la formula:

Fi =

lim

x 0

fri
x

fri
x

N x

.. (11)

11.
Calcular la funcin de distribucin acumulada o emprica
usando la formula:
i

Fi =

x fj
j=1

(12)

Los valores de Fi y Fri obtenidos con las ecuaciones (10) y (12)


resultan similares.
En el listado 3 se muestra un programa en QuickBASIC, que
efectua el proceso anterior, pero con ligeras variantes. Este
programa permitre determinar los datos para el histograma en

forma de frecuencia absoluta y relativa densidad empirica y la


funcin de distribuciones acumulada.
3.1.3 EJEMPLO DE CLCULO
Dada la serie histrica de caudales medios anuales m3/s (tabla 3.1)
de la estacin Salinar del rio chicama (peru) para el periodo 19111980, calcule las frecuencias absolutas, relativas, acumulativas,
funcin densidad, funcin acumulada.
Tabla 3.1 serie histrica de caudales medios anuales en m 3/s del
rio Chicama. Estacin Salinar (1911-1980).

AO
1911
1912
1913
1914
1915
1916
1917
1918
1919
1920
1921
1922
1923
1924
1925
1926
1927
1928
1929
1930
1931
1932
1933
1934

CAUDAL
M3/S
7.91
8.01
13.27
16.39
80.83
60.08
21.55
27.71
28.63
30.27
33.43
35.16
27.21
15.58
64.81
51.26
33.48
25.79
25.80
18.93
16.15
38.30
54.54
59.40

AO
1935
1936
1937
1938
1939
1940
1941
1942
1943
1944
1945
1946
1947
1948
1949
1950
1951
1952
1953
1954
1955
1956
1957
1958

CAUDAL
M3/S
24.58
28.49
10.05
28.01
34.92
31.36
42.74
12.94
41.16
35.90
33.76
29.28
19.17
29.37
30.06
9.67
10.42
23.99
42.17
16.00
22.78
32.69
34.28
20.24

AO
1959
1960
1961
1962
1963
1964
1965
1966
1967
1968
1969
19970
1971
1972
1973
1974
1975
1976
1977
1978
1979
1980

CAUDAL
M3/S
22.88
17.57
14.60
31.14
18.20
24.69
22.99
11.78
32.26
4.76
12.70
16.19
30.14
30.57
45.38
18.91
34.99
21.49
29.26
4.58
12.46
3.14

IV. ESTIMACION DE PARAMETROS:


Una funcin densidad o una funcin de distribucin acumulada, pueden
escribirse como una funcin de variable aleatoria y en general como una
funcin de sus parmetros, as por ejemplo, la funcin densidad de la
distribucin normal, de variable aleatoria X, es:

f ( x )=

1
e1 /2[( x)/ ]
2

Donde:
= parmetro de localizacin
2 = parmetro de escala

Para la funcin f(x), quede definida, debe calcularse para los parmetros
y

como normalmente, no se conocen todos los valores de la

variable aleatoria, la estimacin de los parmetros, se realiza a partir de


una muestra.
Por ejemplo se tiene una muestra:
X1, x2, x3,.., xn
Y si estos se ajustan a una distribucin y

xi

^= x^ = i=1
n

se estiman a partir de:

(x ix )2

^ =S 2= i=1

Donde:
^

Es el estimador de la

Es el estimador de

Cualquier estimado desde la muestra es dominado un estimado o


estimador de los parmetros poblacionales.

4.1 DEFINICION DE ESTIMADORES.


Dada una funcin de distribucin con parmetros , , ,, se llaman
estimadores a los valores a, b, c,, a partir de los estadsticos de la
muestra que se supone que pertenece a la poblacin que se pretende
caracterizar.
La bondad de estos estos estimadores esta dado por diferencias (-a),
(-b), (-c), etc; pero como es fcil intuir hay infinitas posibilidades para
a, b, c, por lo tanto se consideran como mejores estimadores aquellos
que se aproximan mas a los valores poblacionales y se llaman , , ,
Los estimadores se clasifican como:

Sesgado si

E(a)=

Insesgado

E(a)= + v ()
Dnde: v () = E(a)

Eficiente si:

El estimador es integrado y dems:


VAR(a) =E (-a)2

Consistente

Si el tamao muestral N es largo

En hidrologa, se requiere principalmente que los estimadores sean


insesgados y eficiente, cuando se requiere extraer la mxima
informacin de los datos muestrales.
4.2 METODOS DE ESTIMACION DE PARAMETROS
Para determinar los valores numricos de los parmetros en distribucin
terica, apartir de los datos muestrales, se utilizan varios mtodos de
estimacin, siendo en orden ascendente de menor a mayor eficiencia.

Grafico

Mnimo cuadrado

Momentos

Mxima verosimilitud

4.2.1 METODO GRAFICO


Consiste en plotear los valores de la distribucin emprica sobre un
papel especial, donde la distribucin terica asignada apriori, se puede
representar con una lnea recta y de all estimar los parmetros
buscados.
Asi:

El papel de probabilidades normal, representa la distribucin


normal como una lnea recta.

El papel de probabilidades log-normal, representa la distribucin


log-normal es como una lnea recta.

El papel de probabilidades extremas, representa la distribucin


gumbel como una lnea recta

Por ejemplo para determina los estimadores de y por medio de una


muestra dada correspondiente a una poblacin normal, hacer.
1. plotear los valores de la distribucin emprica de la muestra.
2. dibujar una muestra k se aproxime a los puntos, tanto como sea
posible.
3. calcular el valor correspondiente para una posibilidad de 50% este
valor es x , el cual es un estimador .

4 calcular el valor para una posibilidad del 84.13% el mismo k


corresponde a x +S, es decir.
x + s=K 2
s=K 2 x
S

es un estimador de

4.2.2 METODO DE MINIMOS CUADRADOS


Este, mtodo ms aplicable para la estimacin de los parmetros de una
ecuacin de regresin.
Por ejemplo, dada la recta de regresin lineal:
Y = a + bX
Donde a y b son parmetros
El error entre el valor observado i y el terico es:
i= y iab x i
e
Y la suma de los cuadrados de los errores de los valores observados es :
n

S= e = ( y iab x i )
i =1

2
i

i=1

Esta suma puede minimizarse para a y b, esto se consigue derivando


parcialmente S en funcin de cada estimando a y b, e igualando a cero,
es decir:
n

S
=2 ( y iab x i )=0
b
i=1

(1)

S
=2 x i ( y iab x i ) =0
b
i=1

(2)

Las ecuaciones (1) y (2) se denominan ecuaciones normales, las cuales


resueltas dan para a y b.

xi

x ix

x
2i
xy
x i y i in i

b=

a= y b x =

y i xi b
n

4.2.3 MOMENTOS DE LOS MOMENTOS


El principio bsico de la estimacin por mtodo de los momentos es
establecer para cada funcin de distribucin la relacin entre los
parmetros y momentos centrales, de tal manera que:
=f 1( i , i +1, )
=f 2 ( j , j +1, )

(3)

=f 3 ( k , k +1, )

Donde , , son parmetros de la funcin de distribucin


i , j , k

Son momentos con respecto a la media, o momentos

centrales de la poblacin.
Como los momentos son estimados a partir de los momentos de la
muestra como estimadores sesgados o insesgados, el resultado k se

obtiene ser a, b, c, o

a^ , b^ , c^ ,

como estimadores sesgados o

insesgados de los parmetros.


Cuando la distribucin de probabilidad, a la que se estiman los
parmetros por este mtodo es simtrica y particularmente si es normal,
se puede demostrar que este mtodo es un mtodo muy eficiente, pero
cuando la distribuciones son asimtricas y por lo tanto sesgadas, como
sucede muy a menudo con la mayora de las variables hidrolgicas, el
utilizar este mtodo representa una perdida de eficiencia en la
estimacin:
Ejemplos:
1 dada la funcin densidad de la distribucin normal:
(x 1)/2

2
2
1/
1
f ( x )=
e
2

Para - < x <

Estimar los parmetros

1 , 2 ,

por el mtodo de momentos.

Solucin:
Sabemos que:
1) la media poblacional es igual al 1er momento respecto al origen, es
decir:

=E ( x )=1 = xf ( x ) dx

2) la varianza
decir:

(4)

es igual al 2do momento con respecto a la media, es

(5)

V (x)= = 2=

Sustituyendo f(x) en (4) resulta:


(x1 )/2

2
1/
1
x
e
2 2

( x1) / 2

2
1/
x e

1
=

2 2

(6)

Haciendo:
x1
=y
2

Lmites: si

x=1 +2 y

x -
x +

dx= 2+ d y

y -
y +

Sustituyendo (7) en (6), se tiene:

1
=
( + y)e y /2 2 dy
2 2 1 2
2

1 2
( 2)
e y /2 dy+
e y / 2 dy

2
2
2

y /2

e
2

dy +

e y / 2 dy

2 2

Calculo de:

A= e

y /2

dy = e

Siendo

y /2

dy + ey /2 dy
0

(9)

1/2
f ( y )=e

1/2
f ( y )=e

e1/ 2 y

= f(y)

Dado que f(-y) =f(y), f(y) es una funcin par, por lo cual se tiene:
0

f ( y ) dy

f ( y ) dy
0

Luego (9), se escribe:

A= e1 /2 y dy+ e1 /2 y dy
0

A=2 e1/ 2 y dy

(10)

Haciendo
2

y =t

y=t

1/ 2

dy=

2 ydy=dt

dt
dt
= 1/2
2 y 2t

Limites:
Para y = 0

t =0

Luego (10) se convierte en:

A=2 e1/ 2
0

dt
1 /2
2t

A= t 1 /2 e1 /2 t dt
0

Aplicando la transformacin de Laplace:


r(
A=

(1/2)

Pero

1
r( )
2
=
1
+1
(1/2)1 /2
2

1
+1)
2

( 12 )=

(propiedad de la funcin gamma)


A=
1
2
A= 2

. (11)

Calculo de B

B= ye1 /2 y dy

B= ye

1 /2 y

. (12)

Donde

dy+ ye 1 /2 y dy

f ( y )= y e

f ( y ) =( y ) e

1 2
y
2

1
( y )2
2

=(y ) e

1 2
y
2

=f ( y )

Luego: (12) se escribe

B= ye1 /2 y dy + ye1 /2 y dy
0

B=0

(13)

Sustituyendo (11) y (13) en (8), resulta


=

2 +

(0)

=1

( lo que indica que el primer parmetro

)
1=

1
X = X
N i

Sustituyendo f(x) en (5) se tiene:


(x1) / 2

2
1/
1
(x)
e
2 2

2= 2=

Como =

( x1 )/ 2

2
1/
x1 2 e

1
2
=2=

2 2

es igual a la media

Haciendo:
x1
=y
2

x=1 +2 y

dx= 2 d y

Limites:
Lmites: si

y -

luego

2=

1
22 y 2 e1/ 2 y 2 dy

2=

22 2 1 /2 y
y e dy
2 2

2 1 /2 y
Siendo f(Y) y e

f ( y ) dy=2 f ( y ) dy

Luego:
22 2 1/ 2 y
=
y e dy
2 0
2

Haciendo:

f(-y)=f(y) (funcin par), por lo cual

y 2=t

dy=

y=t 1/ 2

dt
2 t 1 /2

Limites.
Para y = 0

t =0

Se tiene:
2 22 1/ 2 dt
=
t e 2t 1/ 2
2 0
2

22 1 /2 1 /2
=
t e dt
2 0
2

Aplicando transformacin de Laplace:


1
r ( +1)
2

2
2= 2 .
2 (1/2)3 /2
1
1/2 r ( )
2

2
2= 2 .
3/ 2
2 (1 /2)

Pero: r(1/2) =
2=

2 2

. 1/ 2
2

(1/2)

luego:

2=

2
. 2
2

2= 22

( el parmetro

2= 22=

2=

es igual

1
)2
( X i X

N 1

1
(X i X )2

N1

2. Dada la funcin densidad de la distribucin poisson:


x e
xfactorial

Para x= 0, 1, 2,

f(x)
0

En otro caso

Calcular usando el mtodo de momentos:


El parmetro
La varianza
Solucin:
1. como X es una variable discreta:
=E ( X ) = xf (x)

= x
x=0

x e
x

e
x=0 ( x 1)

0 e
x e
+
(1) x=1 (x1)

Pero (-1) = r(0) =

Pero:

e
e
e
=
=
=0
(1) r (0)

Luego:

x e
x=1 (x1)


=e .
+ + +
0 1 2

= e . 1+


+ +
1 2

Pero:

2 3
1+ + + =e
1 2

Entonces:
=e e

Falta 88 y 89

(Por desarrollo de serie de Taylor)

El mtodo de mxima verosimilitud, consiste en estimar , , g, a partir de la muestra


de tal manera que L sea mxima. Esto se obtiene por la diferenciacin parcial de L con
respecto a cada parmetro e igualando a cero.
Puesto que f(x) es no negativo, un valor mximo de L ser, en general positivo. Como el
logaritmo natural lnL es una funcin monotmicamente creciente de L, esta tiene un
mximo precisamente en los puntos en que L tiene un mximo. Por lo tanto, se puede
usar lnL en lugar de L, es decir:
N

i =1

i=1

L= f ( x i , a ,b ,c , ) lnL= ln f ( x i , a , b , c , )

este artificio, permite transformar una productoria a una sumatoria, donde:


a, b, c son estimadores de , , g,
entonces el conjunto de ecuaciones de mxima verosimilitud es:

lnL
lnL
lnL
=0 ;
=0;
=0 ;
a
b
c
El mismo que tiene tantas ecuaciones como incgnitas.
Las propiedades de los estimadores calculados por el mtodo de mxima verosimilitud,
son:

Usualmente insesgado.
Si la eficiencia de estimadores existe para los parmetros , , g,, el mtodo
puede producirlos.

La solucin de la ecuacin de verosimilitud proporciona un estimador que


converge al valor poblacional cuando el tamao muestral tiende a infinito, por lo
que el estimador es consistente.

Ejemplos:
1. Dada la funcin densidad de la distribucin exponencial:

x
f ( x )= e para x >0, > 0
0 en otros casos

Estimar el parmetro l, usando el mtodo de mxima verosimilitud.


Solucin:
Sea la funcin de verosimilitud:
n

L= f ( x i , )
i =1

f ( x i , )=

Siendo:

ex

Luego:
N

L= ex
i =1

lnL= ln ( e

i=1

lnL= ln ( ln+ ln ex )
i=1

lnL= ln ( ln x i )
i=1

Derivando con respecto a l, se tiene:

lnL

=lnL=

i=1

ln ( ln x i ) =0

( 1 x i)=0
i=1

1
x i=0

i=1
n

i=1

n1
= x i

i=1
n

1 1
= x
n i=1 i

1
n

1
x
n i=1 i

2. Dada la funcin densidad de la distribucin normal

f ( x )=

1
[ x1 /2 ]
2

para< a<

Estimar los parmetros

1 /2 , por el mtodo de mxima verosimilitud.

Solucin:
1. La funcin de verosimilitud es:
N

L=
i =1

1
[ x1/ 2]
2

2. Tomando ln:

lnL= ln (
i=1

)e

1
[ x1 /2 ]
2

1 x
ln ( 2 2) ( i 1 )
2 2

lnL=
i=1

1 2
lnL= ln ( 2 1ln 2 ) ( )
2
i=1
Derivando con respecto a

1 , 2 , resulta:

n
x 1
lnL
1
=
2( i 1 )(
) =0
i=1 2
2
2

a)
n

i=1

x i1
=0
2
n

1
( x i1 )=0
22 i=1
n

i=1

i=1

i=1

i=1

x i 1=0

x i= 1
n

x i=n 1
i=1

xi =
n

1=

n i=1

x i 1

1 1
=0
2 2

n
lnL
=
i=1

b)

x i1

2
1
+ =0
2

i=1

x i1

2
1+=0

n
1

2 i=1
x i 1

(1)+
i=1

i=1

x i 1

n
1

22 i=1

xi 1

n
1

n i=1
x i 1

n
1
2
2 =
n i=1
4.3 PROBLEMAS PROPUESTOS
1. dada la funcin densidad de la distribucin uniforme:
f ( x )=

1
para x

Estimar sus parmetros

y , utilizando el mtodo de momentos.

2. dada la funcin densidad de la distribucin exponencial:

f ( x )= ex para x> 0, >0

Estimar su parmetro

, utilizando el mtodo de momentos.

3. Dada la funcin densidad de la distribucin de Poisson:

e
f ( x )= x !

para x =0,1, 2,
0 en otros casos

Calcular el parmetro

, usando el mtodo de mxima verosimilitud.

4. dada la funcin densidad de la distribucin exponencial de dos parmetros:

(x)

f ( x )= e

para x> , >0

Estimar sus parmetros

, , utilizando el mtodo de momentos.

5. dada la funcin densidad de la distribucin exponencial de dos parmetros:

f ( x )= e(x) para x> , >0


Estimar sus parmetros

, , utilizando el mtodo de mxima verosimilitud.

V. PRUEBAS DE BONDAD DE AJUSTE


Las pruebas de bondad de ajuste consiste en comprobar grfica y estadsticamente, si la
frecuencia emprica de la distribucin emprica de la serie analizada se ajusta a una
determinada funcin de probabilidades terica seleccionada a priori, con los parmetros
estimados en base a los valores muestrales.
Las pruebas estadsticas, tienen por objeto medir la certidumbre que se obtiene al hacer
una hiptesis estadstica sobre poblacin, es decir calificar el hecho de suponer que una
variable aleatoria se distribuya segn una cierta funcin de probabilidades.
Las pruebas de bondad de ajuste ms utilizadas son:

Ajuste grafico

Ajuste estadistico

chicuadrado
{SmirnovKolmogorov

5.1 AJUSTE GRAFICO


El ajuste grafico se puede realizar de las siguientes formas:
Comparar grficamente el histograma o funcin densidad emprica de la serie de
datos con la funcin densidad terica y decidir visualmente si hay o no ajuste de
acuerdo a la similitud o diferencia de ambos, respectivamente.

Comparar grficamente la funcin acumulada de la serie de datos, con la funcin


acumulada terica seleccionada, dibujada en papel milimtrico, y decidir
visualmente si hay o no ajuste.

Se puede comparar tambin grficamente la funcin acumulada de la serie de


datos, con la funcin acumulada terica, ploteada en un papel probabilstico
adecuado, donde la distribucin terica seleccionada, se puede representar como
una lnea recta. As se tienen disponibles los papeles probabilsticos normal, lognormal, gumbel, etc.
El procedimiento consiste en plotear los valores de la variable (caudal,
precipitacin, temperatura, etc.), versus la probabilidad emprica en el papel de
probabilidad correspondiente. Si los puntos ploteados se agrupan alrededor de

una lnea recta, que es la representacin de la distribucin terica, se puede


afirmar con cierta certeza que estos datos se ajustan a la distribucin deseada.

5.2 PRUEBA CHI


La prueba chi-

CUADRADO
cuadrado es la

ms

comnmente

usada

para

verificar

la

bondad de ajuste de la distribucin emprica a una distribucin terica conocida.


La expresin general de chi-cuadrado est dado por:

i ei

2/i

(1)

X c =
i=1

Donde:
k

i=1

i=1

i = e i=N
X c 2 =Valor calculado de chi-cuadrado, a partir de los datos.
i

=Nmero de valores observados en el intervalo de clase i.

ei

=Nmero de valores esperados en el intervalo de clase i.

=Nmero de intervalos de clase.

Asignado probabilidades a la ecuacin (1) es decir, asignando igual probabilidad


de ocurrencia a cada intervalo de clase, se tiene:

N iN Pi

X c 2=
i=1

Donde:

N i = Nmero de observaciones que caen dentro de los lmites de clases

ajustadas del intervalo i.

N = Tamao muestral

Pi = Probabilidad igual para todos los intervalos de clases.


i
Pi= o ei =N Pi
k

. (3)

Simplificando la ecuacin (3), se obtiene la forma computacional desarrollada por


Markovic (1965).
k

k
X c = N i2N ( 4)
N i=1
2

El valor

X c 2 obtenido por la ecuacin (4) se compara con el

X t 2 obtenido de

las tablas, cuyo valor se determina con:


Nivel de significacin: =0.05 o =0.01
Grados de libertad: g.l.= k-l-h
Dnde:
h = Es el nmero de parmetros a estimarse, as:
h = 2, para la distribucin normal
h = 3, para la distribucin log-normal de 3 parmetros
El criterio de decisin se fundamenta en la comparacin del valor calculado de chicuadrado con el valor tabular encontrado, esto es:
Si el chi-cuadrado calculado es menor o igual que el valor de la tabla, es
decir:

X c 2 X t2 ,
Entonces se acepta la hiptesis de que el ajuste es bueno al nivel de

significacin seleccionado.
Si el chi-cuadrado calculado es mayor que el valor tabular, es decir:
2

Xc > Xt

Entonces el ajuste es malo y se rechaza la hiptesis, siendo necesaria


probar con otra distribucin terica.
VENTAJAS Y LIMITACIONES
1. Es aplicable solo para ajustes a la distribucin normal, puesto que ha sido
desarrollado en base a datos normales e independientes.
2. Es realizado en la funcin densidad de datos agrupados en intervalos de clases.
3. Requiere un conocimiento a priori de la funcin de distribucin terica utilizada en
el ajuste.
4. En la prctica se usa para cualquier modelo de ajust, pero estrictamente es
vlido solo para la normal.
5. Es de fcil aplicacin
6. Al utilizar esta prueba, se debe tener cuidado que en cada intervalo de clase, se
tenga por lo menos 5 observaciones.
5.3 PRUEBA DE BONDAD DE AJUSTE SMIRNOV-KOLMOGOROV
La prueba de ajuste de Smirnov-Kolmogorov, consiste en comparar las diferencias
existentes entre la probabilidad emprica de los datos de la muestra y la
probabilidad terica, tomando el valor mximo del valor absoluto, de la diferencia
entre el valor observado y el valor de la recta terica del modelo, es decir:

=max|F ( x )P( x)| . (5)


Donde:

= Estadstico de Smirnov-Kolmogorov, cuyo valor es igual a la diferencia


mxima existente entre la probabilidad ajustada y la probabilidad emperica.

F(x) = Probabilidad de la distribucin de ajuste o terica


P(x) = Probabilidad experimental o emperica de los datos, de denominada tambin
frecuencia acumulada.
El estadstico tiene su funcin de distribucin de probabilidades.

Si o es un valor crtico para un nivel de significacin , se tiene que:


P { max | F(x) P(x) | o } =
P( o) =

o
(6)

Tambin:
P( < o) = 1

(7)

5.4 PROCEDIMIENTO.
El procedimiento para efectuar el ajuste con Smirnov-Kolmogorov, es:
1. Calcular la probabilidad empica o experimental P(x) de los datos, para

esto usar la frmula de Weibull:


P(x) =

M
N +1 .(8)

Dnde:
M = Nmero de orden.
N = Nmero de datos
Existen varias frmulas para calcular la probabilidad experimental, la misma
que se muestra en la tabla 1, siendo la ms utilizada la frmula de Weibull.
2. Calcular la probabilidad terica F(x).
2.1.

Para el caso de utilizar el procedimiento de los modelos tericos, Usar


la ecuacin de la Funcin acumulada F(x), o tablas elaboradas por tal
fin.

2.2.

Si se quiere aplicar el procedimiento grfico, se utiliza un papel


probabilstico especial donde F(x), puede representarse como una
lnea recta, por lo cual, se puede trazar con solo 2 puntos, pero si se
quiere chequear que es una recta, se puede plotear 3 puntos, por
ejemplo para el caso de una distribucin normal, los puntos:
Tabla 1. Frmulas para determinar la probabilidad experimental.
Mtodo
California

Probabilidad experimental
P
m
n

Hazen

m-1/2
n

Weibull

m
n+1

Chegadayev

m - 0.3
n + 0.4

Bom

m-3/8
n+

Tukey

3m 1
3n + 4

Gringorten

ma
n + 1 2a

Dnde:

P = Probabilidad experimental o frecuencia relativa emprica.


m = Numero de orden
n = Numero de datos
a = Valor comprendido en el intervalo 0 < a < 1, y depende de n, de
acuerdo a la siguiente tabla:
n
a
n
a

10
0.448
60
0.440

20
0.443
70
0.440

Valor

30
0.442
80
0.440

40
0.441
90
0.439

50
0.440
100
0.439

Probabilidad %

X
X + S
X
-S

50
84.13
15.87

Representados en un papel de probabilidad normal, forman una recta.


3. Calcular las diferencias P(x) F (x), para todos los valores de x.
4. Seleccionar la mxima diferencia
5. Calcular el valor crtico del estadstico de , es decir o para un =
0.05 y N igual al Nmero de datos. Los valores de o, se muestran en
la tabla 2.
Tabla 2 valores crticos de o del estadstico Smirnov- kolmogorov , Para varios valores de N y
niveles de significacin

TAMAO
MUESTRAL
N

0.20

0.10

0.05

0.01

0.45

0-51

0.56

0.67

10

0.32

0.37

0.41

0.49

15

0.27

0.30

0.34

0.40

20

0.23

0.26

0.29

0.36

25

0.21

0.24

0.27

0.32

30

0.19

0.22

0.24

0.29

35

0.18

0.20

0.23

0.27

40

0.17

0.19

O.21

0.25

45

0.16

0-18

0.20

0.24

50

0.15

0.17

0.19

0.23

N >50

NIVESLES SIGNIFICACION

1.07

1.22

1.36

1.63

6. Comparar el valor del estadstico , con el valor critico o de la tabla


2, con los siguientes criterios de decisiones deducidos de la ecuacin
(6).
Si < o el ajuste es bueno, a nivel de significacin
seleccionado.
Si 0 el ajuste no es bueno, al nivel de significacin
seleccionado.
VENTAJAS Y LIMITACIONES

a. No requiere un conocimiento a priori de la funcin de la distribucin


terica.
b. Es aplicable a distribuciones de datos no agrupados, es decir no se
requiere hacer intervalos de clase.
c. Es aplicable a cualquier distribucin terica.
d. Se aplica en la funcin de distribucin acumulada y no en la funcin de
densidad.
e. Comparndola con la prueba chi- cuadrado, no hay condicin de que
cada clase de frecuencia deba contener un mnimo de 5 valores
observados.
f. No es una prueba exacta, sino una prueba aproximada.

VI

El

DISTRIBUCIONES TEORICAS
hidrlogo

generalmente

tendr

disponible

un

registro

de

datos

hidrometerologico (precipitacin, descarga, evapotranspiracin, etc.), a travs de

su conocimiento del problema fsico, escoger un modelo probabilstico a usar,


que represente en forma satisfactoria el comportamiento de la variable.
Para utilizar estos modelos probabilsticos, debe calcular sus parmetros y realizar
la prueba de bondad de ajuste, en un esquema de este proceso se muestra en la
figura 15.
Encontrada la ley de distribucin que rige a las variables aleatorias se podr
predecir con determinada probabilidad, la ocurrencia o no ocurrencia, de una
determinada magnitud de un fenmeno Hidrometeorolgico.
Las distribuciones tericas comnmente utilizadas en Hidrologa, son entre otras:

Distribucin normal
Distribucin log-normal de 2 o 3 parmetros
Distribucin de gamma de 2 o 3 parmetros
Distribucin Gumbel

Las cuales se ven en este capitulo


6.1.

DISTRIBUCION NORMAL O GAUSSIANA


1. FUNCION DENSIDAD
La funcin densidad de la distribucin normal es:
1
f ( x )=
exp
2 S

1
f ( x )=
e
2 S

1 X X
2
S

1 X X
2
S

..(1)

(2)

Para - < x < .


Fig. 15. Proceso de seleccin de una distribucin terica.

seleccion de
una
distribucin

REGISTRO DE
DATOS

ELEGIR UNA
DISTRIBUCIO
N TEORICA
ESTIMACION
DE
PARAMETROS

PRUEBA DE
BONDAD DE
AJUSTE
AJUSTE
BUENO

UTILIZAR
DISTRIBUCION
TEORICA
ELEGIDA
FIN
Donde:
F(x) es la funcin de distribucin de la distribucin para la variable original x,
segn la ecuacin (6), o tambin para la variable estandarizada Z, segn la ec.
(8), es decir F(x) = F(Z).
Esta funcin de distribucin tiene las siguientes funciones:

F( ) = 0

F( X ) = 0.5

F( + ) = 1

3. CALCULO DE LA FUNCION DE DISTRIBUCION ACUMULA


Existen tablas, por ejemplo las tablas 1 y 2 del apndice que permite calcular
F(Z).
Para realizar clculos computacionales de F(Z), se utiliza funciones de
aproximacin, dentro de las cuales se pueden mencionar:
a)

Abramowitz stegun (1965) han dado varias aproximaciones para la F.D.A.

de la Variable normal estandarizada Z . Una aproximacin polinomial con un error


menor que 10-5 es:
F(Z)

1- f(Z)(0.043618V 0.1217V2 + 0.9373V3)

..(10)

Donde:
F(Z) = es la funcin de distribucin acumulada
f(Z) = es la funcin densidad de la variable estandarizada
V

= es definido para Z 0, como:


1+0 .33267Z
1
V=

..(11)
b)

Masting (1955), ha dado una aproximacin polinomial que ha sido utilizado

por la IBM (1968). Esta aproximacin con un error menor que 7.5 x 10 -8 , es:
F(Z)

1- f(Z)( b1w + b2w + b3w + b4w + b5w)

..(12)
Donde:
W es definido para Z 0, como:

W=

1+0.2316419Z
1

(13)

Siendo las constantes:


b1 = 0.319381530

b4 = -0.356563782

b2 = 1.781477937

b5 = - 1.821255978

b3 = 1.330274429
En ambas aproximaciones la F.D.A. es 1- F(Z), si Z<0
4. ESTIMACION DE PARAMETROS

Para estimar los parmetros de distribucin terica se puede usar el mtodo de


momentos o el mtodo de mxima verosimilitud.
Cabe mencionar que la distribucin normal, es la nica funcin de distribucin, que
produce los mismos resultados de los parmetros, estimados por el mtodo de los
momentos y mxima verosimilitud, los parmetros obtenidos son los siguientes:
N

1
X
N i=1 i

S = = [

Xi

N 1 i=1

)2]1/2

..(14)

Donde:
X

= es el estimado de la media, llamado tambin parmetro de

posicin.
S=

es el estimado insesgado de la desviacin estndar parmetro de

escala.
5. APLICACIONES EN HIDROLOGIA
L a distribucin normal tiene gran utilidad en hidrologa, siendo alguna de sus
principales aplicaciones:

En el ajuste de distribuciones empricas de variables hidrolgicas de intervalos


de tiempos grandes, tales como variables medias anuales, estacionales, etc.,

que puede ser descargadas, precipitaciones, entre otros.


Anlisis de los errores aleatorios en las observaciones o mediciones

hidrolgicas.
Como referencia para comparar varias distribuciones tericas de ajuste en una

distribucin emprica.
Para hacer procesos de inferencia estadstica.

Para generacin de datos por el mtodo de Monte Carlos. El inconveniente en


la generacin de datos es que se obtienen valores negativos, lo cual
fsicamente no es justificado.

6. AJUSTE
El ajuste puede realizarse grficamente utilizando papel probabilstico normal o
analticamente, mediante los estadsticos chi-cuadrado o Smirnov Kolmogorov.
DISTRIBUCIONES LOGARITMICAS
Las distribuciones logartmicas ms conocidas son la Log-normal,

6.2.

Log-Pearson tipo 3 y Log-Gumbel. Por ejemplo, si la variable aleatoria


X, tiene una distribucin log-normal, esto significa

Y =lnX , tiene

una distribucin normal. Anlogamente, si X es una variable aleatoria


log-Pearson tipo 3,

Y =lnX , es una variable aleatoria Pearson tipo 3.

Tambin, si la variable aleatoria X, tiene una distribucin log-Gumbel,


Y =lnX , es una variable aleatoria

Gumbel. Es

posible una

generalizacin, en el caso que se introduzca un lmite inferior


en cuyo caso

lnX , anteriores, es sustituido por

X0

ln ( X X 0 ) .

6.2.1 DISTRUBUCIONES LOG-NORMAL


Hay
una distribucin Log-normal de 2 parmetros y otra de 3
parmetros. En la de 3 parmetros, el tercer parmetro es el lmite
X0
inferior
, denominado parmetro de posicin.
6.2.1.1 DISTRIBUCION LOG-NORMAL DE 2 PARAMETROS
La variable aleatoria X, es positiva y el lmite inferior
La variable aleatoria:
y

y varianza

2 y .

X0

no aparece.

Y =ln X , es normalmente distribuida con media

Se usan estos parmetros para especificar que la distribucin es


logartmica, puesto que tambin puede usarse la media y varianza de X.
1. FUNCION DENSIDAD
La funcin de distribucin de Y, es:
2

1
f ( y )=
e
2 y

1 y y
(
)
2
y

.... (15)

y N ( y , y )
para < y<

Refiriendo la funcin de distribucin de Y como f(x), se tiene:


f ( x )=f ( y )

dy
dx

Donde:
dy 1
=
dx x

y=ln x

Por esta razn, la funcin de distribucin de probabilidad de X es:


f ( x )=

1
x y2

1 lnX y
2
y

(16)

x logN ( y , 2 y)
2. FUNCION DE LA DISTRIBUCION ACUMULADA
y

1
F ( y )=
e
2 y

Si

Z=

y y
y

1 y y
2
y

) dy

. (17)

1
F ( Z)=
e
2

Z
2

dZ ... (18)

Z N (0,1)

3. ESTIMACION DE PARAMETROS POR EL METODO DE MOMENTOS


Utilizando el mtodo de momentos, las relaciones entre la media y la
y
2 y , que se
varianza de la variable X y los parmetros
y
obtienen son:
Media:

=E ( x )=exp ( y +

2 y
)
2

S 2=E( xE( x ))2=exp ( 2 y + 2 y ) ( exp ( 2 y )1)

Varianza:

2 y
S=exp ( y +
)(exp( 2 y)1) 2
2

Desv. Est :

Coeficiente de variacin:

CV =

S
=

(exp( y )1)

1
2

De donde:
2

1+C V
2
y=ln )

y=

. (19)

1 2
y + ln X
2

1
2
y = ln ( 2 )
2
C V +1
Coeficiente de sesgo:

. (20)

3
Cs= g =

3
2

(e

2 y

1)

1
2

2 y

Para valores prcticos de

y
( e +2 )

. (21)

0.1< 2 y <0.6 , la relacin es casi lineal

y puede ser aproximado por:


C s=g=0.52+ 4.85 2 y

. (22)

Que es correcto dentro del 2%, en el rango mencionado.


En la figura 16, se presenta la funcin densidad de la distribucin lognormal de 2 parmetros, para varios valores de y

2 .

Fig. 16. Distribucin log-normal de 2 parmetros, con varios valores de


y .

6.2.1.2 DISTRIBUCION LOG-NORMAL DE 3 PARMETROS


Esta difiere de la distribucin log-normal de 2 parmetros por la
X0
introduccin de un lmite inferior
, tal que:
2

y=ln ( x X 0 ) y N ( y , y )
La funcin de distribucin de probabilidad de x es:

f ( x )=

1
e
(x X 0) y 2

para x 0 x <

1 ln ( x X0 ) y
(
)
2
y

. (23)

x 0 : Parmetro de posicin en el dominio x


y

: Parmetro de escala en el dominio x

2 y : Parmetro de forma en el dominio x

1. ESTIMACION DE PARMETROS, MTODOS DE MONENTOS


Utilizando el mtodo de los momentos, las relaciones entre la media, la
varianza y el coeficiente de sesgo, de la variable X y los parmetros de
2
x0
y
,
y y , que se obtiene, son:
2

Media:

=E ( x )=x 0 +e

y +

y
2

. (24)
2

Varianza:

S 2=E( xE( x ))2=e2 + y (e y 1)


y

. (25)

Coeficiente de sesgo:
3
Cs= g =

3
2

y
(e y 1) 2 ( e +2 )
2

C s=g=0.52+ 4.85 2 y

. (26)

. (27)

Para datos muestrales el coeficiente de sesgo es:


C s=g=

Donde:

N2 M3
( N1)(N2) S 3

. (28)

M 3=

( x i )3

S=

. (29)

(x i )2

. (30)

N 1

xi

. (31)

Luego:
De (27):

De (25):

y=

Cs0.52
4.85

. (32)
2

1
S
2
y = ( ln y
y)
2
e 1
2

. (33)

De (24):

x 0= e

y+

y
2

. (34)

6.2.2 EJEMPLO
3

Dada la serie histrica de caudales medio anuales, en

m
seg .

corresponde a un registro de 50 aos para el rio Santa (Per):


95.05
105.21
108.75
123.00
132.49
246.08
158.48
177.00
193.78
212.48

98.13
105.81
110.77
123.22
134.10
153.64
162.29
182.53
193.88
217.52

100.18
106.40
114.31
124.31
136.22
153.97
164.35
183.11
197.58
239.07

101.66
107.43
116.40
127.82
144.22
154.80
169.18
183.49
207.78
256.62

101.76
107.62
119.52
128.15
145.79
156.80
169.64
184.98
208.18
266.54

1. Averiguar si se ajustan a una distribucin log-normal de dos


parmetros

que

2. El caudal a para un periodo de retorno de 75 aos.


SOLUCION:
1) Ajuste a la distribucin log-normal de dos parmetros:
Utilizando los programas del listado 6(para crear el archivo de datos)
y el listado 7(para realizar la prueba de bondad de ajuste), se
encuentra que los datos, se ajustan a la distribucin log-normal de dos
parmetros, con un nivel de significancia del 5%, o a una probabilidad
de 95%.
Un resumen de los resultados obtenidos con el programa es:
= 0.0747
0=0.1923 , para un nivel de significancia del 5%

0=0.1923

Como: = 0.0747 <

, se concluye que los datos se

ajustan a al distribucin log-normal de 2 parmetros, con un nivel de


significancia del 5%.
2) Calculo de un caudal para un periodo de retorno de 75 aos:
F ( Q=q )=P ( Q q )=1
F ( Q=q )=1

1
T

1
75

F ( Q=q )=0.9866666=F ( Z )

De la tabla 2 del apndice, para

F ( Z ) =0.9866666 , se obtiene por

interpolacin:
Z= 2.215
Pero para una distribucin log-normal de 2 parmetros, la variable
estandarizada es:
lnQ y
Z=
. (1)
y
El programa del listado 7, permite calcular tambin los parmetros
y
y
y
, siendo los valores obtenidos:
y =4.9861

y =0.2808
Sustituyendo valores en la ec. (1), se tiene:
lnQ4.9861
=2.215
0.2808
De donde:
2.2150.2808+4.9861

Q=e

Q=272.618

6.3.

m3
s

DISTRIBUCIN GAMMA

Otra distribucin que juega un papel importante en Hidrologa es la


distribucin Gamma. Su aplicacin es tan comn, como el uso de la
distribucin log-norma.
6.3.1.

DISTRIBUCIN GAMMA DE DOS PARMETROS

1. FUNCIN DENSIDAD
Se dice que una variable aleatoria X, tiene una distribucin gamma de 2
parmetros si su funcin densidad de probabilidad es:
1 x/

f ( x )=

x e
( )

para:
0x

0
0

siendo:

+
= parmetro de forma

+
= parmetro de escala
( )=funcin gamma completa , definidacomo :

( )= x 1 ex / dx
0

que converge si

>0

La funcin gamma tiene las siguientes propiedades:

Si

>0

( )=( 1 ) !

( + 1 )= x ( )

( 1 )= ( 2 )=1

( 1/2 )=

( 0 )=

pero no entero, puede

para
para

( )

=1, 2,3,

>0

ser calculado por expansin de

series e integracin numrica por:


( )= e

2
1
1
1
1
1+
+

12 288 2 51840 3 2488320 4

Para ms detalles sobre las propiedades de la funcin gamma completa,


su forma de clculo y la transformada de Laplace, ver anexo.
2. FUNCIN ACUMULADA
La funcin de distribucin acumulada, de la funcin gamma incompleta
de 2 parmetros es:

F ( x )=
0

1 x/

x e
dx

( )

(44)

La integral de la ec. (44) puede evaluarse para valores dados de

, usando la tabla 7 del apndice, en la cual se ha tabulado la funcin


gamma incompleta. En esta tabla se dan los valores de la probabilidad
de excedencia 1F ( x) , y se entra con:
2

x=

si

2x

v =2

(45)

es entero, la funcin de distribucin gamma acumulada, segn

Mood et al (1974), puede calcularse por:


1

F ( x )=1ex/
n

x j
/ j!

()

La variable aleatoria reducida est dada por:


Y=

(46)

la cual reduce la funcin de densidad de probabilidad a:


g (Y )=

Y 1 eY
( )

(47)

y la funcin de distribucin acumulada:


y

Y 1 eY
G ( Y )=
dY
()
0

(48)

las funciones reducidas contienen el parmetro


valor positivo de

, por lo cual cada

determina una funcin diferente. Un extracto de

las tablas de Wik, Gnanadesikan Huyett (1962), para las variables


aleatorias reducidas Gamma, se muestra en la tabla 1.

Tabla 1. Funcin de variables aleatorias reducidas Gamma, G(Y), en


funcin de Y y .
=1

=2

=5

0.10
0.20
0.30
0.40
0.50
0.60

0.105
0.223
0.357
0.511
0.693
0.916

0.532
0.824
1.097
1.376
1.678
2.022

2.433
3.090
3.634
4.148
4.671
5.237

0.70

1.204

2.439

5.890

0.80

1.609

2.994

6.721

0.90

2.303

3.890

7.994

0.95

2.996

4.744

9.154

0.99

4.605

6.638

11.60
5

G(Y )

=10

=20

6.221
7.289
8.133
8.904
9.669
10.47
6
11.38
7
12.51
9
14.20
6
15.70
5
18.78
3

14.53
16.17
17.44
18.57
19.67
20.81
22.08
23.63
25.90
27.88
31.85

En el listado 8, se presenta un programa, que tiene una subrutina que


permite calcular la funcin gamma acumulada F ( x ) .
La representacin grfica de la funcin densidad y la funcin de
distribucin acumulada, para una variable aleatoria X, que sigue una
distribucin gamma, con =5 y =5.63 , se muestra en la figura 17.
3. ESTIMACIN DE PARMETROS, MTODO DE
MOMENTOS
Utilizando el mtodo de los momentos, las relaciones entre la media, la
varianza y el coeficiente de sesgo, de la variable X y los parmetros
y

de la distribucin gamma, que se obtiene son:

Fig. 17. funcin densidad y funcin acumulada de la distribucin


gamma de dos parmetros.
media:

X =E ( x ) =

(49)

varianza:

S 2= 2

(50)

coeficiente de sesgo:

C S=g=

2
1 /2

(51)

De las ecs. (49) y (50), se tiene:

X 2
S2

(52)

De las ecs. (49) y (52), resulta:

S2
2
X

(53)

4. ESTIMACIN DE PARMETROS, MTODO DE MXIMA


VEROSIMILITUD
Thom (1958), estableci que para

<10 , el mtodo de momentos

produce una estimacin inaceptable de los parmetros

. Para

cerca de 1 el mtodo de momentos usa solamente el 50% de la

informacin de la muestra para estimar


estimar

y solamente el 40% para

Greenwood y Durand (1960), presentan las siguientes relaciones


aproximadas de estimacin de parmetros por el mtodo de mxima
verosimilitud:
0 y 0.5772

para:

=( 0.5000876+ 0.1648852 y 0.0544274 y 2 )

(54)

y para:
=

8.898919+9.05995 y +0.9775373 y 2
y ( 17.79728+11.968477 y + y 2 )

(55)

donde:

lnX
y=ln X

(56)

siendo:
=

(57)

Greenwood y Durand (1960), establecieron que el mximo error de la


ecuacin (54) es de 0.0088% y en la ecuacin (55) es 0.0054%.
6.3.2.
DISTRIBUCIN GAMMA INCOMPLETA DE 3
PARMETROS O PEARSON III
1. FUNCIN DENSIDAD
Se dice que una variable aleatoria X, tiene una distribucin gamma de 3
parmetros o distribucin Pearson III, si su funcin de densidad de
probabilidad es:
1 (xx o)/

f ( x )=

( xx o )

e
( )

(58)

para:
x o x<
x o<
0 <

0<
2. FUNCIN ACUMULADA
La funcin de distribucin acumulada de la distribucin gamma de 3
parmetros es:
x

F ( x )=

( xx o )

xo

1 (xx o)/

( )

dx

(59)

en la cual:
x : variable aleatoria gamma de 3 parmetros o Pearson

tipo III
xo

: origen de la variable x, parmetro de posicin

: parmetro de escala
: parmetro de forma

( ) : funcin gamma completa


La representacin grfica de la funcin densidad y de la funcin de
x o=10
distribucin acumulada, para
, =5 y =3 , se muestra en la
figura 18.

Fig. 18. Funcin densidad y funcin acumulada de la distribucin


gamma de 3 parmetros.
La variable reducida Y Pearson tipo III, es:
Y=

xx o

(60)

La funcin acumulada Pearson III reducida es:


x

G ( Y )=

xo

1 Y

e
dY
( )

(61)

la cual tiene como parmetro


origen en

Y =0

x=x o

, y cuya variable aleatoria tienen

3. ESTIMACIN DE PARMETROS, MTODO DE


MOMENTOS
Aplicando el mtodo de momentos, se obtuvieron las siguientes
relaciones:
media:

X =x o+

varianza:

S =

(62)
(63)

C S=g=

sesgo:

(64)

de donde:
=

4
C2S

(65)

=C S S /2

(66)

x o= X 2 S /CS

(67)

4. APLICACIN EN HIDROLOGA
Su uso en hidrologa est casi tan difundido como el uso de la
distribucin log-normal de 3 parmetros, con la desventaja de la mayor
complicacin al estimar sus parmetros y calcular los valores de la
funcin de distribucin acumulada.
La prctica ha demostrado que los resultados entre la distribucin lognormal y la distribucin Pearson III, para el ajuste de series de
precipitaciones anuales, mdulos anuales, precipitaciones mensuales,
etc. no difieren.
Las razones que convalidan la utilizacin de esta distribucin de
probabilidad son las mismas que lo hacen en la distribucin log-normal.
6.3.3.

EJEMPLO

Para proteger de inundaciones a la poblacin de la ribera del rio


Turrialba, se desea construir muros de encauzamiento. Para esto, se
cuenta con un registro de 25 aos de caudales mximos en m3/s de una
estacin aguas arriba de la poblacin, los mismos que se muestran en la
tabla 2.
Tabla 2. Registro de caudales del ro Turrialba
53.5
0
165.
60
250.

64.0
0
155.
80
120.

169.
90
199.
00
250.

162.
70
22.8
0
231.

102.
10
76.0
0
207.

50
50
50
70
00
234. 189. 196. 96.9 91.6
00
00
00
0
0
65.4 123. 119. 200. 380.
0
00
00
00
00
Determinar el caudal de diseo para un periodo de retorno de 50 aos.
Usar la distribucin gamma de 2 parmetros.
SOLUCIN:
1. Ajuste de los datos de la serie a la distribucin gamma de dos
parmetros.
1.1. Para crear el archivo con la serie de datos, se usa el
programa del listado 6.
1.2. Para realizar la prueba de bonda de ajuste, se utiliza el
programa del listado 8. Este programa calcula adems los
parmetros de la serie y los parmetros de la distribucin,
algunos clculos parciales que se obtienen, es como se
muestra:
-

Clculo de los parmetros de la serie de caudales:

Clculo de los parmetros de la distribucin gamma:

X =157.05

ln x=4.90
2

S =6450.21
S=80.31

Utilizando la ec. (56), se tiene:


ln x=ln157.054.9=0.15656
y=ln X
como:

y=0.15656< 0.5772 , se utiliza la ec. (54), para el clculo de

es decir:

=( 0.500087+ 0.1648852 y 0.0544274 y 2 ) / y


De la ec. (57), se tiene:
=

157.05
=45.8133
3.4280

6.4DISTRIBUCION GUNBEL
La distribucin Gumbel, una de la distribuciones de valor extremo, es
llamada tambin valor extremo Tipo I, Fisher Tippett tipo I o distribucin
doble exponencial.
1. FUNCION ACUMULADA
La funcin de distribucin acumulada de la distribucin Gunbel, tienes
la forma.
F(x) = EXP (-EXP (-(x-u)/))
(68)

(x )

F(x) =

ee

Para:

-< x <

................................................................... (69)

Dnde:
0 < < , es el parmetro de escala.
-< < , es el parmetro de posicin, llamado tambin valor
central o moda.
2. FUNCION DENCIDAD

Derivando la funcin de distribucin acumulada, ec. (68) con respecto a


x, se obtiene la funcin densidad de probabilidad, es decir:
f(x)=

dF(x )
dx

f(x) = EXP(-(x-)/) EXP(-(x-)/)


(70)

1 (x)/ e
e

( x)/

f(x) =

.. (71)

Para:
-< x <
La variable aleatoria reducida de Gunbel, se define como:
Y=

...................................... (7)

Con lo cual, la funcin densidad reducida Gunbel es:


eYe

g(x) = EXP (- Y- EXP (-Y)) =

................................................................ (73)
y la funcin acumulada reducida Gunbel, es:
Y

G (Y) = EXP (-EXP(-Y)) =

ee

.. (74)
Los valores correspondientes x e Y, estn relacionados por:
F(x) = G (Y)
Y la relacin es:

Y=

x = + Y

.. (75)
3. ESTIMACION DE PARMETROS, MTODO DE MOMENTOS
Utilizando el mtodo de momentos, se obtiene las siguientes relaciones:
-Moda

xmoda =

-Media

E(x) =

= +C

Donde C, es la constante de Euler, cuyo valor es:

lim
n

C =

1 1
1
1+ + ++ ln n
2 3
n

C = 0.5772156649
Por lo tanto:
X

= +0.57721 .

(76)

Varianza: E[(x E(x)) ] = S =

De donde se obtiene:

2 2
6

(77)

S = 0.78 S

..

(78)

- 0.57721 =

- 0.45 S.

. (79)

4. APLICACIN EN HIDROLOGIA
La ley de Gunbel o ley de valores extremos, sed utiliza generalmente
para ajustar, a una expresin matemtica, las distribuciones empricas
de frecuencia de caudales mximos anuales, precipitaciones mximas,
etc.
Es importante verificar antes de aplicar esta distribucin de
probabilidad que los coeficientes de asimetra y curtosis de la
distribucin emprica sean del mismo orden que los valores
poblacionales.
Uno de los inconvenientes del uso de esta distribucin , es que en una
distribucin doble exponencial , la variable puede tomar cualquier
valor, por lo que se puede asignar probabilidades a valores negativos
de la aleatorio, cuestin que resta significacin fsica a la aplicacin,
debido a que las variables hidrolgicas toman solamente valores
positivos o cero.

5. EJEMPLO
Se tiene el registro de caudales mximos de 29 aos, para la estacin 93 Angostura, como se muestra en la tabla.
En este rio se desea construir una presa de almacenamiento, calcular el
caudal de diseo para el vertedor de demasas, con un periodo de
retorno de 50 aos. Usar la distribucin Gunbel.

1660
618
876
563
824
557

917
683
740
520
824
818

3800
934
1120
360
1230
1030

1410
779
610
367
522
418

2280
921
1150
658
581

SOLUCION:
1. Ajuste de los datos de la serie a la distribucin Gunbel.
1.1Para crear el archivo con la serie de datos, se usa el programa del
listado 6.
1.2Para realizar la prueba de bondad de ajuste, se utiliza el programa
del listado 9. Este programa calcula adems los parmetros de la serie
y los parmetros de la distribucin, algunos clculos parciales que se
obtienen, es como se muestra:
-Clculo de los parmetros de la serie de caudales:
X

Media:
Desviacin estndar:

= 957.59

S = 682.72

-Clculo de los parmetros de la distribucin de Gunbel:


El programa calcula estos parmetros utilizando las ec. (778) y (79)
obteniendo:
Parmetro de escala:

= 523.3182

Parmetro de posicin

=650.3237

-Prueba de bondad de ajuste


Los resultados que se obtienen del programa son:
= 0.1454
0 = 0.2552, para un nivel de significacin del 5%.

Decisin
Siendo:

= 0.454 < 0 =0.2552

Se concluye que los datos se ajustan a una distribucin Gunbel, con un


nivel de significacin del 5%.

2. Clculo del caudal de diseo, para un periodo de retorno de 50 aos.


F(Q =q) = P(Q q) = 1-

F(Q = q) = 1 -

1
T

1
50

F(Q = q) = 0.98 =F(y)


y

F(y) =
y
- e

e y

ee

= 0.98

= ln0.98
= 0.020202707

-y = ln(0.020202707)
Y= 3.9019
Pero de la ec. (72)
y=

= 3.9019

Q = + 3.9019 x
Q = 650.3237 + (3.9019) (523.3182)
Q =2,727.38 m3/s.

También podría gustarte