Está en la página 1de 28

ESTADISTICA: e.

orozco

F R E C U E N C I A Y F U N C I O NE S D E P R O B A B I L I D A D E S

3.1 V A R I A B L E S A L E A T O R I A S DISCRETAS
Con fines de notación se usa letras mayúsculas (normalmente las últimas letras del
alfabeto) para referirse a las variables aleatorias; por ejemplo, X, y letras minúsculas
para indicar los valores (números reales) de las variables aleatorias; por ejemplo, xi .

Una variable aleatoria discreta es una variable aleatoria que puede tomar un número
de valores finito o a lo sumo un número infinito contable de valores. La medida de
probabilidad en el espacio muestral determina las probabilidades de los diferentes
valores de la variable aleatoria. Si estos valores se indican por x1, x2, ..., entonces
existe una función p de tal manera que

P(X=xi ) = p(xi ) y i=1,2,3,..,N (3.1)

Esta función que asigna p(xi ) a xi , o sea el conjunto de pares ordenados (xi , p(xi )), se le
denomina distribución de probabilidades o función de frecuencia de masa, ffm (o
simplemente función de frecuencia) de la variable aleatoria discreta X. Esta función
describe completamente las propiedades probabilísticas de la variable aleatoria. La
distribución de probabilidades está sujeta a las siguientes condiciones:

∑ p( x ) = 1
i (3.2a)
i=1

0 ≤ p(xi ) ≤ 1 (3.2b)

donde N es el número total de observaciones. Además de la función de frecuencia, es


muchas veces, apropiado usar la función de frecuencia acumulada (ffa) la cual se
define como

F(x) = P(X ≤ x) = ∑ p(x )


x i ≤x
i (3.3)

La función de frecuencia acumulada se denota, usualmente, con letras mayúsculas y la


función de frecuencia de masa con letras minúsculas. Una propiedad importante de
F(x) es que la probabilidad de tener a X entre xi y xj >xi , es igual a la diferencia entre los
valores de F(xi ) y F(xj ); o sea,

P(xi ≤ X ≤ xj ) = F(xj ) – F(xi ) (3.4)

Pag.14
ESTADISTICA: e.orozco

3.2 V A R I A B L E S A L E A T O R I A S C O N T I N U A S
Cuando los valores de la variable aleatoria X toman valores continuos, el papel de la
función de frecuencia lo toma la función de densidad de probabilidades (fdp), f(x).
La probabilidad de que x se sitúa dentro de un intervalo elemental ∆x se calcula
mediante la Ec. 3.5.

P(x ≤ X ≤ x+∆x) = f(x)∆x (3.5)

Esta función es similar a función de frecuencia de la variable aleatoria discreta (Ec.


3.1). La probabilidad se obtiene mediante integración; por ejemplo, la probabilidad de
que X esté dentro del intervalo x=a y x=b, es (área ashurada en la Fig. 3.1):

b
P(a ≤ X ≤ b ) = ∫a
f ( x)dx

Para la probabilidad X ≤ c
c
P( X ≤ c ) = ∫−∞
f ( x)dx
Para la probabilidad X > c
+∞
P( X > c ) = ∫
c
f ( x )dx

Las dos Ecs. anteriores se les denomina, comúnmente en hidrología, probabilidad de


no excedencia y de excedencia, respectivamente.

Al igual que la función de frecuencia (Ecs. 3.2 y 3.3), la fdp está sujeta a las siguientes
condiciones (ver Fig. 3.1):

+∞

−∞
f (x )dx = 1 (3.6a)

f(x) ≥ 0 (3.6b)

La Ec. 3.6ª indica que el área debajo de la fdp (Fig. 3.1) es igual a 1. La función de
frecuencia acumulada se obtiene mediante la integración de la fdp,

x
F( x ) = P( X ≤ x ) = ∫ −∞
f ( x )dx (3.7)

Derivando la Ec. 3.7 se obtiene la fdp

dF( x )
f (x ) = (3.8)
dx

Pag.15
ESTADISTICA: e.orozco

n/N
f (x)
P(a<X<b)
P(X<c)

_
c x a b x
ni = N
1.0

P(a<X<b)
P(X<x)

P (X > c)

ni = N/2
0.5

P(X<c)
_ ni = 0
c x a b x

Fig. 3.1 Función de densidad de probabilidades, pdf (arriba) y función de


frecuencia acumulada, ffa (abajo) de una variable aleatoria continua.

3.3 F R E C U E N C I A A B S O L U T A Y F R E C U E N C I A R E L A T I V A
La frecuencia absoluta ni indica el número de eventos u observaciones que manifiestan
el mismo valor xi en una muestra. En muestras clasificadas, indica el número de
valores que se encuentran en el intervalo i, entre el rango [xi , xi +∆x]. A partir de la
frecuencia absoluta resulta la frecuencia relativa, fi (Ec. 3.9). el subíndice s indica que
la función se calcula a partir de una muestra. La Fig. 3.1 muestra en el eje de las
ordenadas del lado derecho la escala para ni .

ni
f s ( xi ) = (3.9)
N

N en esta Ec. es el número de todas las observaciones. La Ec. 3.9 está sujeta a las
siguientes condiciones

Pag.16
ESTADISTICA: e.orozco

m m
ni
∑ fs (x i ) = ∑ N
=1 (3.10a)
i =1 i =1

0 ≤ f s(xi ) ≤ 1 (3.10b)

∑n i =N (3.10c)
i =1

La Ec. 3.9 es una estimación de P(xi , xi +∆x) (Ec. 3.5); o sea la probabilidad de que la
variable aleatoria X esté dentro del intervalo [xi , xi +∆x]. A partir de la suma acumulada
de la frecuencia relativa, hasta cierto punto, se obtiene función de frecuencia
acumulada

i
Fs ( x i ) = ∑ f s ( x j ) (3.11)
j=1

La Ec. 3.11 es una estimación de P(X ≤ xi ). Las Ecs. 3.9 al 3.11 están definidas para
una muestra. Las funciones correspondientes para poblaciones cuando N → ∞ se
obtienen aproximando ∆x → 0. En el límite, la frecuencia relativa divida por el intervalo
∆x es la función de densidad de probabilidades f(x):

lim f s ( x )
f (x ) = N→ ∞ (3.12)
∆x→ 0 ∆x

lim
F( x ) = N→ ∞ Fs ( x ) (3.13)
∆x →0

A partir de acá, aplican las Ecs. 3.5 a 3.8.

EJEMPLO 3.1:

Con los datos del Cuadro 2.2 (EJEMPLO 2.6), construir un gráfico de la función de frecuencia y la función de
frecuencia acumulada y determinar la probabilidad de que la precipitación, L, sea, en cualquier año, menor a
los 1000 mm, mayor a los 1400 mm y entre 1000 y 1400.

En primer lugar se divide el rango de la variable aleatoria L en intervalos discretos, luego se cuenta el número
de observaciones que se encuentran en cada intervalo y el resultado se grafica como un diagrama de barras
(histograma). La amplitud del intervalo ∆x se selecciona tan pequeña como sea posible, cuidando que en cada
intervalo haya suficientes observaciones y el histograma tenga una variación razonablemente suave sobre todo
el rango de datos.

Pag.17
ESTADISTICA: e.orozco

En nuestro caso el rango es

LMAX –LMIN = 1811-752 = 1059 (ver Cuadro 2.2)

Los intervalos se eligieron con una amplitud de 100 mm (Cuadro 3.1).

Cuadro 3.1 Frecuencia absoluta, relativa


y acumulada.
INTERVALO
ni fs(xi) F s(xi)
I xi xi+∆x
1 701 800 3 0.044 0.044 El número de observaciones n i en cada intervalo i, se muestra en
2 801 900 4 0.059 0.103 el Cuadro 3.1. La probabilidad de que la variable aleatoria L esté
3 901 1000 5 0.074 0.176 dentro del intervalo [xi, xi+∆x] se calcula mediante
4 1001 1100 12 0.176 0.353
5 1101 1200 15 0.221 0.574 ni
P(xi ≤ L ≤ xi+∆x) = fs(xi) =
6 1201 1300 10 0.147 0.721 N
7 1301 1400 5 0.074 0.794
8 1401 1500 6 0.088 0.882 La frecuencia acumulada se calcula mediante
9 1501 1600 4 0.059 0.941
10 1601 1700 3 0.044 0.985 i

11 1701 1800 0 0.000 0.985 Fs ( x i ) = ∑f s (x i )


12 1801 1900 1 0.015 1.000 1

La Fig. 3.2 muestra la representación gráfica de la función de frecuencia y la función de frecuencia acumulada.

La probabilidad de que L sea menor a 1000 mm se calcula mediante la Ec. 3.3 (ver Cuadro 3.1).

3
P(L ≤ 1000) = F s(1000) = ∑f s ( x i ) = 0.176
1

La probabilidad de que L sea mayor a 1400 mm se determina, más fácilmente, considerando la


complementariedad

7
P(L ≥ 1400) = 1 - P(L ≤ 1400) = 1 - F s(1400) = 1 - ∑f s ( x i ) = 1-0.794 = 0.206
1

La probabilidad de que L esté entre 1000 y 1400 mm (área obscura de Fig. 3.2 inferior) se determina aplicando
la Ec. 3.4

P(1000 ≤ L ≤ 1400) = F s(1400) - F s(1000) = 0.794 – 0.176 = 0.618

Pag.18
ESTADISTICA: e.orozco

16 P(1000<X<1400) 0.24
14 0.21

fs (x i) (frecuencia relativa)
ni (número de datos)

12 0.18
10 0.15
8 0.12
6 0.09
4 0.06
2 0.03
0 0.00
1000

1100

1200

1300

1400

1500

1600

1700

1800

1900
700

800

900

x i (precipitación, mm)

1.0
P(X>1400)
Fs (x i) (frecuencia absoluta)

0.8

0.6 P(1000<X<1400)

0.4

0.2
P(X<1000)

0.0
1000

1100

1200

1300

1400

1500

1600

1700

1800

1900
700

800

900

x i (precipitación, mm)

Fig. 3.1 Funciones empíricas de frecuencia (arriba) de frecuencia acumulada (abajo)


para la serie de datos de precipitación de la Estación Observatorio Nacional.

3.4 D I S T R I B U C I O N E S T E O R IC A S D E F R E C U E N C I A
Como se puede inferir del ejemplo 3.1, el rango de las observaciones se encuentra
entre 752 y 1811 mm, para 68 datos. Esta serie de datos es una muestra estadística de
una población infinita cuyos extremos (rango) es desconocido. Es posible que hayan
precipitaciones menores a 752 y mayores a 1811 mm. A través de la representación
matemática del comportamiento estadístico de la población es posible inferir la
probabilidad de ocurrencia de cualquier evento dentro del rango de observaciones
(interpolación) y fuera del mismo (extrapolación).

En virtud de que toda variable aleatoria puede describirse mediante una función de
probabilidades, la distribución de frecuencia empírica de la muestra puede

Pag.19
ESTADISTICA: e.orozco

reemplazarse por una función de probabilidades teórica apropiada para la población.


La función de probabilidades está en función de los parámetros estadísticos de la
población (x, µ, σ, γ), lo que se estiman a través de los parámetros de la muestra (x, x ,
s, Cs), comúnmente denominados estadísticas de la muestra.

3.4.1 PROPIEDADES ESTADISTICAS DE LA VARIABLE ALEATORIA

El objetivo de la estadística es extraer información esencial a partir de un conjunto de


datos, reduciendo una cantidad, relativamente, grande de datos a un pequeño conjunto
de números. Los parámetros estadísticos resumen las características importantes de la
población, y en muchos casos, son estimados mediante los parámetros de la muestra.

Los parámetros estadísticos se expresan, comúnmente, mediante los momentos


estadísticos. Los parámetros principales: media, varianza, sesgo y kurtosis, se derivan
mediante el método de momentos. Otros métodos para el cálculo de estos parámetros
incluyen el método de máxima probabilidad (maximum likelihood) y el de momentos
lineales (L-moments). En la presente discusión se incluye únicamente el método de
momentos.

3.4.1.1 PARAMETROS DE TENDENCIA CENTRAL

MEDIA

El punto de partida para describir las propiedades de todos los valores de la población
es la tendencia central; es decir, el valor central alrededor del cual se aglomeran todos
las observaciones. Este parámetro de posición es la media, µ o valor esperado E(X).
La µ se calcula como el producto de x y su función de densidad de probabilidades
(fdp), f(x), correspondiente integrada sobre el rango de la variable aleatoria:

+∞
E( X) = µ = ∫
−∞
xf ( x)dx (3.14)

La estimación para µ es el promedio aritmético de los datos de la muestra:

1 N
x = ∑ xi (3.15)
N i=1

Para una muestra N, que se subdivide en k clases cuya amplitud es ∆x, se calcula x
mediante la Ec. 3.16, en donde ni es el número de observaciones en el intervalo i y xi
es el valor que se repite en el intervalo i o un valor representativo del intervalo i.

1
x=
N
∑ nix i (3.15)

Pag.20
ESTADISTICA: e.orozco

El promedio aritmético tiene la propiedad de que la suma algebraica de la desviación


de la media, de los valores individuales, es igual a cero. Asimismo, la suma del
cuadrado de las distancias de la media, de todos los valores, es menor que la distancia
de cualquier otro valor. Otras propiedades incluyen:

1 N
∑ (x i ± c ) = x ± c
N i =1
(3.16a)

1 N
∑ (x i c ) = xc
N i=1
(3.16b)

Otros promedios incluyen: El promedio geométrico (Ec. 3.17) y el promedio armónico


(Ec. 3.18).

1
 N N
x g =  ∏ x i  (3.17)
 i =1 

1
xh = N
(3.18)
1 1

N i =1 x i

Para las distintas clases de promedio, que se derivan de una muestra con un rango
xmin < xi < xmax, es válido lo siguiente:

x min < x h < x g < x < x max

A la par de los parámetros que se derivan de los momentos estadísticos, pueden


usarse también otros valores de x para describir la fdp. Estos valores están asociados
con una parte porcentual del área debajo de la curva de la fdp (percentiles). Si los
datos de una muestra se ordenan en forma ascendente, resulta el -j avo percentil
(j=1,2,...,99), pj mediante
j(N + 1)
pj =
100

LA MEDIANA

La mediana es el 50-avo percentil de los datos, también denominado el cualtil-50%, ya


que divide en dos partes iguales la masa estadística; o sea, P(X=mediana) = 0.50. La
mediana se calcula mediante la Ec. 3.19a, cuando N es un número impar, y Ec. 3.19b,
cuando N es par.

Pag.21
ESTADISTICA: e.orozco

N+1
Mediana = (3.19a)
2

1 
Mediana = xN + xN  (3.19b)
2  2 2
+1 

Una propiedad importante de la mediana es que la suma de las desviaciones absolutas


de la mediana, de todos los valores de la muestra, es menor que cualquier otro valor.
Asimismo, la mediana es insensible a los valores extremos. La mediana puede, junto
con los cuartiles (25-avo y 75-avo percentil) y deciles (10-avo,..., 90-avo percentil) y sus
respectivos cuantiles, usarse para representar la función de frecuencia.

LA MODA

La moda es el valor más frecuente y corresponde al máximo de la fdp; o sea, el punto


de inflexión de la curva de la fdp. La moda se usa para describir la asimetría. Para fdp
simétricas la moda, la mediana y la media coinciden. Para una fdp con una asimetría
regular, se puede estimar la moda mediante

Moda = x ⋅ 3( x − mediana )

La moda , a partir de una distribución de frecuencia. Se determina, más fácil,


gráficamente, ya que numéricamente solo es posible para datos clasificados.

3.4.1.2 PARAMETROS DE DISPERSION

VARIANZA

La varianza es el parámetro más importante de medida de la dispersión o variabilidad


de los datos y es el segundo momento respecto de la media:

+∞
E[( x − µ ) 2 ] = σ 2 = ∫
−∞
( x − µ ) 2 f ( x)dx (3.20)

La estimación muestral de la varianza está dada por

1 N
Var( x ) = s x =
2
∑ (x i − x )2
N i=1
(3.21)

En muestras relativamente pequeñas se usa como denominador, en la Ec. 3.21, N-1,


en lugar de N para asegurar que el estimador estadístico es objetivo; es decir que no

Pag.22
ESTADISTICA: e.orozco

tenga una tendencia a sobre o subestimar el valor verdadero de var(x). Propiedades


importantes de var(x) incluyen:

Var(cx) = c 2Var(x) (3.22a)

Var(b+cx) = c 2 Var(x) (3.22b)

Donde c es una constante que se multiplica a cada valor de xi .

DESVIACION ESTANDAR

La dimensión varianza es [X] 2. La desviación estándar σ es una medida de la


dispersión, cuya dimensión es igual a la dimensión de X. La magnitud de σ es la raíz
cuadrada de la varianza y es estimada mediante sx (Ec. 3.23). El significado de la
desviación estándar se ilustra en la fig. 3.4. A mayor dispersión de los datos, mayor
será σ o s.

1 N
sx = ∑
N − 1 i =1
( x i − x )2 (3.23)

Para datos clasificados


sx = ∑ n (xi i − x )2 (3.24)

donde ni es la frecuencia del intervalo i y xi es la media del intervalo i.

COEFICIENTE DE VARIACION

El coeficiente de variación, CV es una medida adimensional de la variación de los


datos y es la relación entre la media y la desviación estándar (Ecs. 3.25). La Ec. 3.26
es la estimación de CV a partir de los datos muestrales.

σ
CV = (3.25)
µ
s
Cv = x (3.26)
x

RANGO

El rango, Rx es una medida de la dispersión absoluta de los datos y es la diferencia


entre el valor máximo y valor mínimo (Ec. 3.27).

Rx = xmax- xmin (3.27)

Pag.23
ESTADISTICA: e.orozco

VARIABLE ESTANDARIZA DA

Una representación adimensional de xi es su transformación a la variable estadarizada,


k (Ec. 3.28).
xi − x
k= o sea xi = x + ks x (3.28)
sx
Esta transformación lineal, en el que el coeficiente de sesgo permanece igual, es la
ecuación punto de partida para el análisis de frecuencia, cuando el valor de k se
introduce como factor de frecuencia, el cual depende de la función de frecuencia
estadarizada con x = 0 y s x= 1 y de la probabilidad (de no excedencia) elegida.

Una transformación adicional es la normalización a través del rango:

x i − x min
x' = (3.29)
Rx

3.4.1.3 PARAMETROS DE SIMETRIA

SESGO Y COEFICIENTE DE SESGO

La simetría de una distribución, respecto de la media se mide por medio del sesgo, el
cual es el tercer momento respecto de la media (Ec. 3.30). Normalmente, el sesgo se
transforma de tal manera de hacerlo adimensional. Esto se logra dividiéndolo entre σ3,
resultando el coeficiente de sesgo, γ (ec. 3.31); el cual se estima mediante los datos
muestrales (Ec. 3.32).

+∞
E[(x - µ)3] = ∫−∞
( x − µ ) 3 f ( x)dx (3.30)

1
γ= E[( x − µ ) 3 ] (3.31)
σ3
N
N∑ ( x i − x ) 3
i =1
Cs = (3.32)
(N − 1)(N − 2)s 3x

La Fig. 3.3 muestra que, cuando C s es positivo, los datos están sesgados hacia la
derecha, con muy pocos datos grandes. Si los datos manifiestan un sesgo
pronunciado, indica que los pocos valores extremos ejercen un efecto significativo en la
media calculada mediante momentos (Ec. 3.15). En estos casos, otras medidas de
tendencia central pueden ser más apropiados, tales como la mediana o el promedio
geométrico.

Pag.24
ESTADISTICA: e.orozco

f (x)

f (x)
Cs = 0 Cs < 0
Cs > 0 Var(x) <<

moda=mediana=media
moda

moda
mediana Var(x) >>

mediana
media

media
x x

Fig. 3.3 Posición de la media (promedio), mediana Fig. 3.4 Efecto de la desviación estándar en
(valor central) y moda (valor que se repite con la fdp.
mayor frecuencia) para distribuciones
asimétricas y significado del C s.

3.4.1.4 PARAMETROS ADICIONALES PARA VARIABLES ALEATORIAS ASOCIADAS

COVARIANZA

Si dos variables aleatorias X y Y están asociadas en una función v = g(x,y), los


parámetros pueden determinarse mediante el método de momentos. A partir del
segundo momento respecto de la media se deriva, para variable aleatorias discretas, la
covarianza, Cov (X,Y)=sxy. Para una muestra se calcula la covarianza (empírica) se
calcula mediante:

1 N
s xy = ∑ (x i − x )(y i − y )
N − 1 i=1
(3.33)

La varianza es un caso especial de la covarianza

Cov(X,X) = Var(X)

Otras propiedades de la covarianza incluyen:

Cov(aX+b,cY+d) = acCov(X,Y) (3.34a)

Cov(X,X+Y) = Var(X) + Cov(X,Y) (3.34b)

Var(X±Y) = Var(X) + Var(Y) ± 2Cov(X,Y) (3.34c)

En la Ec. 3.34a a, b, c y d son constantes.

Pag.25
ESTADISTICA: e.orozco

COEFICIENTE DE CORRE LACION

La dimensión de la covarianza corresponde al producto de las dimensiones de x y y,


[X][Y]. Una expresión normalizada (adimensional) de la covarianza es el coeficiente de
correlación, ρ(X,Y) (Ec. 3.35).

Cov( x, y )
ρ xy = (3.35)
Var( x ) ⋅ Var( y)

con -1 ≤ ρ xy ≤ 1.

Para la muestra se tiene


s xy 1 N  x i − x  y i − y 
rxy = = ∑  
s x s y N − 1 i=1  s x  s y 
(3.36)

con -1 ≤ rxy ≤ 1

Si rxy= 0, significa que las variables X y Y no se correlacionan linealmente. Eso no


significa que sean independientes una de la otra, ya que puede existir dependencia no
lineal; por ejemplo, y = x2, cuando rxy= 0.

3.4.2 DISTRIBUCIONES DE FRECUENCIA DISCRETAS

3.4.2.1 DISTRIBUCION HIPERGEOMETRICA

Se introdujo ya, en el ejemplo 2.3, Cap. 2, la distribución hipergeométrica; sin embargo,


no fue llamado así, donde se discutió una aplicación en control de calidad. Si se
considera una muestra, con n cantidades aleatorias, extraída, sin reemplazo, de una
población finita de tamaño N, se obtendrán dos grupos: Uno tendrá r elementos y el
otro n-r. Si X es el número de elementos del grupo r que se obtiene cuando se extraen
k elementos sin reemplazo, la probabilidad de que la muestra contiene exactamente k
elementos del grupo r, es el número de maneras que X puede ocurrir dividido el
número total de posibles muestras, de tamaño k, que se pueden obtener de N
elementos.
Existen  N posibilidades de formar los dos grupos, r y n-r (número total de posibles
n
muestras de tamaño n); existen  r  maneras de elegir los k elementos del grupo de r
k  
elementos; y existen  N − r  posibilidades de elegir n-k elementos del grupo de los N-r
n − k 
elementos.

Pag.26
ESTADISTICA: e.orozco

De tal manera que el número de posibilidades de que X puede ocurrir es  r  N − r 


 k  n − k 
y el número total de posibles muestras de tamaño n es  N . Por lo tanto,
n  
 r  N − r 
k n −k
P( X = k ) =   (3.37)
 N 
 n

X es una variable hipergeométrica con parámetros r, N y n. Donde k<r<n; r<n<N. La


función de frecuencia acumulada es

∑  xr  nN−− xr 


k

x == 0
F(x) = P(X ≤ x) = (3.38)
 N 
 n

El valor esperado (media) y la varianza son, respectivamente:

nr
E(X) = (3.39)
N

nr (N − r )(N − n)
Var(x) = (3.40)
N 2 (N − 1)

En el área de recursos hidráulicos y medio ambiente, la distribución hipergeométrica es


útil para el establecimiento de muestras representativas en poblaciones grandes.

EJEMPLO 3.3:

Se desea evaluar datos de precipitación diaria, en una estación determinada, en un mes; por ejemplo, mayo,
en donde los días de lluvia deben ser independientes. Se deben extraer muestras de 15 días de las
observaciones de mayo. ¿Cuál es la probabilidad de que se tengan (a) 5 días de lluvia y (b) menor que 5 días
de lluvia?

N=31, n=15, r=15, N-n=16.

a) Para k=5, de la Ec. 3.37, se obtiene

15  31 − 15 
 5  15 − 5  ( 3003 )(8008 )
  
P( X = 5) = = = 0.080
 31  300540195
15 

Pag.27
ESTADISTICA: e.orozco

b) Para x<5, en la Ec. 3.38, se obtiene

4
− 15 
∑  15x  31
x ==0
15 − x 
15  16  + 15  16  +  15 16  +  15 16  + 15  16 
 0  15   1  14   2 13   3 12   4  11 
              
F( x) = P( X < 5 ) = = = 0.020
 31  31 
15  15 
   

3.4.2.2 DISTRIBUCION BINOMIAL

Para la derivación de la distribución binomial se parte de un proceso de BERNOULLI.


Una variable aleatoria de BERNOULLI, X puede tomar solamente dos valores: 1 y 0, con
probabilidades p y q=1-p, respectivamente; o sea

P(X = 1) = p
P(X = 0) = 1 - p
P(X = x) = 0, si x ≠ 0 o x ≠ 1

Una notación alternativa es

p x (1 − p)1− x , si x = 0 o x = 1
P( X = x ) = 
 0 en caso contrario

Si A es un evento, entonces una variable aleatoria indicadora, IA, toma el valor de 1 si A


ocurre (éxito) y 0 si A no ocurre (fracaso). IA es una variable aleatoria de BERNOULLI.

Ahora suponer que se tiene una muestra fija de n elementos independientes y que la
probabilidad de que cada elemento ocurra (éxito) es p y que no ocurra (fracaso) es 1-p.
El número total de ocurrencias (éxitos), X es una variable aleatoria binomial con
parámetros n y p. Por ejemplo, la ocurrencia de una crecida, en determinado lugar, de
determinada magnitud. La probabilidad de que el evento ocurra; por ejemplo, en cada
año, es p; y la probabilidad de la no ocurra (en cada año) es 1-p.

Si X es variable aleatoria, la cual es el número total de veces que ocurre la crecida con
probabilidad p, la probabilidad de que X ocurra en el año 4 (y no en los años 1, 2, 3),
considerando el principio de multiplicación, es

(1-p)(1-p)(1-p)p.

La probabilidad de que X ocurra en uno de los 4 años es

p(1-p)(1-p)(1-p) + (1-p)p(1-p)(1-p) + (1-p)(1-p)p(1-p) + (1-p)(1-p)(1-p)p = 4p(1-p)3.

De la misma manera, la probabilidad de que X ocurra 2 veces en los 4 años es

Pag.28
ESTADISTICA: e.orozco

 4 p 2 (1 − p) 2 = 6p 2 (1 − p) 2
 2

En general, para la probabilidad de que X = k ocurrencias en n años es

P( X = k ) =  n p k (1 − p) n −k (3.41)
k

La Ec. 3.41 es la fdp de la distribución binomial y su función de frecuencia acumulada


es
k
P( X ≤ x ) = ∑  nx p (1 − p)
x n−x
(3.42)
x= 0  

El valor esperado (media), la varianza y el coeficiente de sesgo son, respectivamente:

E(X) = np (3.43)

Var(x) = np(1-p) (3.44)

(1 − p) − p
Cs = (3.45)
np(1 − p)

La distribución binomial es simétrica si p = 1 - p; o sea p = 0.5 y es sesgada a la


izquierda para (1-p) < p< o sea, para p > 0.5.

La distribución binomial puede usarse como aproximación de la distribución


hipergeométrica bajo la condición de que n < N. Para valores grandes de np(1-p) > 9 la
distribución binomial puede aproximarse mediante la distribución normal.

EJEMPLO 3.4:

La aplicación más importante de la distribución binomial, en ciencias del agua, es la determinación del riesgo;
por ejemplo, que una crecida de determinada magnitud ocurra una o varias veces, dentro de un intervalo de
tiempo. ¿Cuál es la probabilidad de que en un intervalo de 10 años (por ejemplo el tiempo de construcción de
una obra hidráulica) ocurran exactamente 5 crecidas, cuya probabilidad de ocurrencia, en cualquier año, es 0.5
(período de retorno de dos años).

Si Q es la variable aleatoria, la cual es el número total de veces que ocurre la crecida con p = 0.5,

E(Q) = np = (10)(0.5) = 5

P(Q = 5) = n p k (1 − p) n−k = 10  ⋅ 0 .5 5 ⋅ (1 − 0.5 )10 − 5 = 0.246


k  5
En otras palabras, la probabilidad de que en un período de 10 años no ocurra Q, 5 veces, es 0.744.

Pag.29
ESTADISTICA: e.orozco

EJEMPLO 3.5:

Calcular a probabilidad de ocurrencia, en cualquier año, que debe tener el evento de crecida que debe usarse
en el diseño de una obra hidráulica, cuya vida útil es de 100 años, si la probabilidad de que el evento (crecida
de diseño) ocurra en ese período de 100 años es de 0.01.

Si Q es la variable aleatoria, la cual es el número total de veces de no ocurrencia del evento con probabilidad p
(crecida de diseño). La probabilidad de que la crecida de diseño NO OCURRA, P(Q=0) en el período de n=100
años es 1-0.01 = 0.99. En la Ec. 3.41,

P(Q = 0 ) = 0 .99 = 100 p 0 (1 − p)100 −0 = (1 – p)100


 0 

entonces, p = 0.000100498 (0.01 %). La crecida de diseño debe ser aquel evento que tenga una probabilidad
de ocurrencia, en cualquier año, de 0.01 %. Esto equivale a un período de retorno de 9,950 años,
prácticamente 10,000 años.

¿Cuál sería p si la probabilidad de que la crecida de diseño OCURRA una vez, P(Q=1) en los 100 años?. En la
Ec. 3.41, siendo Q el evento de ocurrencia.

P(Q = 1) = 0 .01 = 100 p 1 (1 − p)100 −1 = 100p(1 – p)99


 1 

De donde se obtiene que p=0.000101015, equivalente a un período de retorno de 9,900 años, igual que arriba,
la obra hidráulica debe diseñarse para que sea resistente a un evento cuya probabilidad de ocurrencia sea
0.0001.

3.4.3 DISTRIBUCIONES DE FRECUENCIA CONTINUAS

3.4.3.1 DISTRIBUCION NORMAL

Entre las distribuciones de frecuencia continuas, la normal o distribución GAUß es una


distribución que es de mucha importancia para una gran cantidad de eventos
aleatorios. La normal es el fundamento de una serie de procedimientos, tales como
ajuste de funciones de frecuencia, distribuciones de errores fortuitos, comparación con
otras distribuciones de frecuencia, distribución de parámetros estadísticos de muestras,
generación de números aleatorios, etc.

La normal es una distribución simétrica con dos parámetros, µ y σ. µ determina la


localización de la cresta de la curva en el eje de las x (parámetro de posición) y σ
determina la forma de la curva (parámetro de escala). Pequeños valores de σ indican
curvas empinados (ver Fig. 3.4). La fdp de la distribución normal es:

Pag.30
ESTADISTICA: e.orozco

( x − µ )2
1 −
f (x ) = e 2 σ2
para -∞ < x < +∞ (3.46)
σ 2π

Las mejores estimaciones de los parámetros µ y σ son el promedio aritmético, x y


desviación estándar, s x (a partir de la muestra), respectivamente, las cuales se
sustituyen en la Ec. 3.46, para resultar la pdf de la muestra (Ec. 3.47).
( x − x )2

1 2 s 2x
f (x ) = e (3.47)
s x 2π

La función de frecuencia acumulada se obtiene integrando la Ec. 3.46 sobre el rango


de valores de x.
( x −µ )2
1 x −

2π ∫
P( X ≤ x ) = e 2σ 2
dx (3.48)
σ −∞

La integral de la Ec. 3.48 no puede evaluarse explícitamente, sino a través de medios


numéricos, debido a que existen un número infinito de distribuciones dependiendo del
número infinito de valores de µ y σ.

Si la variable aleatoria, X se ajusta a una distribución normal, con fines de


simplificación, se puede transformar a otra, también aleatoria, Z, de tal manera que,

x−µ
z= (3.49)
σ

Usando la Ec. 3.49 la 3.46, se transforma en

z2
1 −2
f (z ) = e para -∞ < z < +∞ (3.50)

La Ec. 3.50 representa una única distribución y se le llama distribución normal


estándar y z se le llama variable estadarizada o reducida. Los parámetros de la
media ( z )y desviación estándar (sz) son, respectivamente 0 y 1. En virtud de lo
anterior, las probabilidades de Z pueden calcularse, integrando la Ec. 3.50 y colocarlo
en forma tabular (Apéndice A).

2
z
1 z −
P( Z ≤ z ) =
2π ∫ −∞
e 2
dk (3.51)

En el apéndice A se dan las probabilidades desde -∞ hasta el valor deseado de z. Por


ejemplo, la probabilidad para z < 0.23 es 0.5910. La probabilidad para –0.47 < z < 0.23,
es 0.5910 – 0.3192 = 0.2718. También puede determinarse el valor de z que
corresponde a cierta probabilidad; por ejemplo, para una probabilidad de 0.05 en el

Pag.31
ESTADISTICA: e.orozco

extremo izquierdo, el valor de z es –1.645. Ya que la distribución es simétrica, 5 % del


área baja la curva f(z) queda al lado derecho de z con un valor de 1.645.

Entre las propiedades de la distribución normal incluyen:

• Debido a la simetría, la media, la mediana y la moda tienen el mismo valor y el C s=0.

• En la región x ± 1s x , se encuentra el 68.26 % de todos los valores (o 68.26 % del área de la pdf). Esos
límites corresponden a las probabilidades de 15.87 y 84.13 % (ver Apéndice A). Las regiones entre los
intervalos x ± 1.96s x y x ± 2.58 s x encierran el 95 y 99 % de todos los valores. Estos valores se usan
para algunos tests estadísticos.

• La simetría de la distribución normal se usa para representarla como una línea recta en una escala
probabilística apropiada. La ecuación de esa línea recta está en función de la variable reducida, z (Ec.
3.51). En dicha Ec. x representa el valor de la variable X, con una probabilidad de no excedencia, o sea
P(X≤x), la cual depende del valor de z.

x = x + zsx (3.52)

EJEMPLO 3.6:

Con los datos del Cuadro 2.2 (EJEMPLO 2.6 y EJEMPLO 3.1),
a) calcular los parámetros estadísticos de la muestra
b) ajustar los datos a una distribución normal
c) calcular la probabilidad de que la precipitación, L, sea, en cualquier año, menor a los 1000 mm, mayor a
los 1400 mm, entre 1000 y 1400, menor que 700, mayor que 2000 mm.

a) Los parámetros estadísticos se muestran en el siguiente Cuadro. Dichos parámetros fueron calculados
de acuerdo a las fórmulas discutidas anteriormente. Las unidades de los parámetros son mm, excepto Var(x),
cuyas unidades es mm 2 y Cv y Cs son adimensionales. Notar que la distribución empírica no es simétrica, sino
sesgada hacia la izquierda (Cs>0), ver Fig. 3.5 superior.

Cuadro 3.2 Valores de los parámetros estadísticos de la precipitación anual en la Estación del
Observatorio Nacional.
N x mediana Xg Xh Var(x) sx Cv max min Cs Rango
68 1192 1165 1170 1148 54423 233 0.196 1811 752 0.407 1059

b) El ajuste de los datos se ha una distribución normal. La distribución teórica esperada, basado en los
datos de la muestra, se muestra en la Fig. 3.5. La función de densidad de probabilidades esperada, se calcula
haciendo uso de la Ec. 3.52, donde
x −x
zi = i
sx

Pag.32
ESTADISTICA: e.orozco

Cuadro 3.3 Valores de las funciones esperadas


asumiendo que los datos se ajustan a una
distribución normal.
INTERVALO FUNC. EMPIRICAS FUNC. ESPERADAS x es equivalente a l, o sea valores de la variable
x i x i+∆x ni fs(x i) F s(x i) zi F(xi) f(xi) aleatoria precipitación, L. x es 1192 mm y sx es
701 800 3 0.044 0.044 -2.110 0.017 0.017 233 mm. Para obtener los valores de z, en el
801 900 4 0.059 0.103 -1.681 0.046 0.029 Cuadro 3.2, se usa como x, los límites inferiores
901 1000 5 0.074 0.176 -1.253 0.105 0.059 del intervalo respectivo. Para cada zi se calcula
1001 1100 12 0.176 0.353 -0.824 0.205 0.100 la F(Z=z). Del apéndice A se pueden obtener
1101 1200 15 0.221 0.574 -0.395 0.346 0.141 dichos valores. Los valores de la frecuencia
1201 1300 10 0.147 0.721 0.033 0.513 0.167 esperada normal, f(x) se determina de la
1301 1400 5 0.074 0.794 0.462 0.678 0.165
diferencia F(xi+1)-F(xi). Dichos valores se grafican
1401 1500 6 0.088 0.882 0.890 0.813 0.135
y se obtiene la fdp de la Fig. 3.5. Cuando se
grafica la F(xi) se obtiene la ffa (Fig. 3.5 inferior).
1501 1600 4 0.059 0.941 1.319 0.906 0.093
1601 1700 3 0.044 0.985 1.748 0.960 0.053
La Fig, 3.5 innferior, F(x), se grafica en escala
1701 1800 0 0.000 0.985 2.176 0.985 0.025
probabilística normal, resultando la Fig. 3.6. La
1801 1900 1 0.015 1.000 2.605 0.995 0.010 ecuación de la recta en la Fig. 3.6 es

x = 1192 + 233z

donde z está en función de la probabilidad de no excedencia. Para determinar la probabilidad de ocurrencia de


determinado evento, se calcula z de la Ec. anterior y luego se determina la probabilidad F(Z ≤ z), o sea la
probabilidad de no excedencia o frecuencia acumulada (Ec. 3.51). Este valor se puede obtener de tablas como
la del Apéndice A.

Cuadro 3.4 Valores de precipitación con


diferente probabilidad de ocurrencia.
Precipitación Var. reducida Probabilidad
700 -2.11011 0.0174 De esa manera, la probabilidad de que la precipitación sea menor
1000 -0.82414 0.2049 a 1000 mm, se determina de la siguiente manera:
1400 0.89047 0.8134
2000 3.46240 0.9997 x − 1192 1000 − 1192
z= = = −0.82414
1192 0 0.5 233 233
1426 1 0.8413
959 -1 0.1587 evaluando en el Apéndice A, se tiene que para una z = -0.82414,
1491 1.28155 0.9 la probabilidad (de no excedencia) es 0.205 (20.5 %). De la
1576 1.64485 0.95 misma se calculan probabilidades para otros eventos de
1671 2.05375 0.98 precipitación (ver Cuadro 3.4). por otro lado, la probabilidad de
que la precipitación sea mayor a los 1000 mm es 1-0.205 = 0.795.
En ese Cuadro también se muestran las probabilidades para
eventos de 700, 1400 y 2000 mm.

De manera similar, se pueden obtener los valores de precipitación que ocurren con una probabilidad
determinada. Por ejemplo, la precipitación que ocurre con una probabilidad de 0.159 (x -1sx ), es 959 mm.
Otros valores se muestran en el Cuadro 3.4.

Pag.33
ESTADISTICA: e.orozco

La probabilidad de que la precipitación esté entre 1000 y 1400 mm, se obtiene

F(l≤1400) – F(l≤1000) = 0.8134 – 0.2049 = 0.6085 (60.85 %).

16 0.24
14 0.21

fs (x i) (frecuencia relativa)
fdp esperada
ni (número de datos)

12 0.18
10 0.15
8 0.12
6 0.09
4 0.06
2 0.03
0 0.00
1000

1100

1200

1300

1400

1500

1600

1700

1800

1900
700

800

900

x i (precipitación, mm)

1.0
0.9
ffa esperada
Fs (x i) (frecuencia absoluta)

0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0.0
1000

1100

1200

1300

1400

1500

1600

1700

1800

1900
700

800

900

x i (precipitación, mm)

Fig. 3.5 Ajuste de los valores de la muestra de precipitación anual a una distribución
normal. Arriba, datos clasificados y fdp esperada (normal); abajo, ffa empírica y
esperada (normal).

Pag.34
ESTADISTICA: e.orozco

PROBABILIDAD (%)
0.2 0.5 1 2 5 10 20 30 40 50 60 70 80 90 95 98 99 99.5 99.8
2000

1600
precipitación (mm)

1200

800

distribución teórica normal


400 valores observados
Serie3

0
-3 -2 -1 0 1 2 3
variable reducida, z

Fig. 3.6 Distribución de frecuencia acumulada en escala probabilística normal (abscisa) y aritmética
(ordenada), para la variable aleatoria: precipitación anual en Estación Observatorio Nacional.

3.4.3.2 DISTRIBUCION LOG- NORMAL

Una desventaja de la distribución normal es que el valor más pequeño que la variable
aleatoria puede tomar es -∞. Para muchas variables procesos ambientales, esto tiene
poco sentido, desde el punto de vista físico. Para obtener solo los valores en la región
positiva, se puede transformar la variable aleatoria X a otra Y, cuyos valores yi
corresponden a log(xi ) o ln(xi ). Esta es la distribución Log-Normal.

La fdp y la ffa de la distribución log-normal son idénticas a las Ecs. 3.46, 3.47 y 3.48
(de la distribución normal), la diferencia es que la variable X se sustituye por la variable
Y. De esta manera, los valores de x son siempre positivos.

( y −y )2

1 2
f (y ) =
2 sy
e (3.53)
s y 2π

La función de frecuencia acumulada se obtiene integrando la Ec. 3.46 sobre el rango


de valores de x.
( y− y) 2

1 y

2
P( Y ≤ y ) =
2 sy
e dy (3.54)
sy 2π 0

Pag.35
ESTADISTICA: e.orozco

donde yi = log(xi ) (3.55)

N N
1 1
y=
N ∑y
i=1
i =
N ∑ log( x )
i=1
i
(3.56)

2
N
1 N  log( x i ) 
∑(y ∑
1
sy = − y) =
2
 log( x i ) − 
N+1 N + 1 i =1 
i
i=1 N 
(3.57)

Por supuesto se puede usar el logaritmo natural en lugar del logaritmo de base 10.

EJEMPLO 3.7:

Con los datos del ejemplo anterior (EJEMPLO 3.6) y usando la distribución Log-Normal,
a) calcular los parámetros estadísticos de la muestra
c) calcular la probabilidad de que la precipitación, L, sea, en cualquier año, menor a los 1000 mm, mayor a
los 1400 mm, entre 1000 y 1400, menor que 700, mayor que 2000 mm.

Transformando los valores de precipitación anual, mediante logaritmos de base 10, se obtiene la variable Y =
log(X), donde X es la variable aleatoria de precipitación anual. Los parámetros estadísticos basados en Y se
muestran en el Cuadro 3.5. Para obtener los valores de X se tiene que aplicar el antilog a Y; por ejemplo para

x = 10 y = 10 3.0682 = 1170

Notar que el promedio así obtenido corresponde al promedio geométrico de la serie de datos no transformados,
o sea xi. Una serie de datos que se ajusten a una distribución Log-Normal, el promedio geométrico es el
parámetro que mejor representa la tendencia central de los datos.

Cuadro 3.5 Comparación de los parámetros de tendencia central obtenidos mediante el ajuste de los datos a
las dos distribuciones teóricas de probabilidades: Normal y Log-Normal.
Variable Prom. MedianaProm. Geom.Prom. Arm. Var. Desv. Std. Cv Cs
xi 1192 1165 1170 1148 54423 233 0.19567 0.40689
yi = log(xi) 3.0682 3.0662 3.0670 3.0658 0.0073 0.0853 0.0278 -0.1091
xi = 10 i
y 1170 1165 1167 1164

Para el cálculo de diferentes valores de precipitación que ocurren con diferente probabilidad se usa la
siguientes relaciones,

y = y + zsy

De la Ec. 3.55 se tiene que

x = 10y

Pag.36
ESTADISTICA: e.orozco

combinando estas dos Ecs. se tiene que


y + zs y
x = 10

El Cuadro siguiente muestra los valores que se obtienen, para diferentes eventos de precipitación, con la
relación anterior. Se adjuntan también los valores obtenidos con la distribución normal.

Cuadro 3.6 Comparación de los diferentes valores de precipitación anual asociado


con sus respectivas probabilidades de ocurrencia, según las
distribuciones: Normal y Log-Normal.
DISTRIBUCION NORMAL DISTRIBUCION LOG-NORMAL
PrecipitaciónVar. ReducidaProbabilidadPrecipitaciónVar. ReducidaProbabilidad
700 -2.1101 0.0174 700 -2.6156 0.0045
1000 -0.8241 0.2049 1000 -0.7994 0.2120
1400 0.8905 0.8134 1400 0.9139 0.8196
2000 3.4624 0.9997 2000 2.7301 0.9968
1192 0 0.5 1170 0 0.5
1426 1 0.8413 1424 1 0.8413
959 -1 0.1587 961 -1 0.1587
1491 1.2816 0.9 1505 1.2816 0.9
1576 1.6449 0.95 1616 1.6449 0.95
1671 2.0537 0.98 1751 2.0537 0.98

La probabilidad del evento entre 1000 y 1400 mm, según la distribución Log-Normal, es

F(X ≤ 1400) – F(X ≤ 1000) = 0.8196 – 0.2120 = 0.6076 (60.76 %)

Comparado con el resultado obtenido con la distribución normal de 0.6085, estos valores, prácticamente, son
iguales.

La Fig. 3.7 muestra la frecuencia acumulada para la variable X (precipitac ión anual) en escala probabilística-
logarítmica. En esta escala la frecuencia acumulada inferida de la distribución Log-Normal es una recta, la Ec.
y + zs y
de esa recta es x = 10 .

Del Cuadro 3.6 puede observarse la diferencia de valores de precipitación para probabilidades grandes; por
ejemplo 98 %, donde los valores correspondientes a las dos distribuciones difiere en 80 mm. ¿Qué valor es el
más representativo 1751 o 1671?

Si se observa la Fig. 3.8, puede inferirse que las observaciones (puntos) se ajustan mejor a la distribución Log-
Normal, que a la Normal, especialmente las observaciones en los extremos. Por lo tanto, se concluye que la
precipitación anual en la Estación del Observatorio Nacional se ajusta a una distribución Log-Normal.

Pag.37
ESTADISTICA: e.orozco

PROBABILIDAD (%)
0.2 0.5 1 2 5 10 20 30 40 50 60 70 80 90 95 98 99 99.5 99.8
10000
precipitación (mm)

1000

distribución Log-Normal
valores observados
Serie3
100
-3 -2 -1 0 1 2 3
variable reducida, z

Fig. 3.7 Distribución de frecuencia acumulada en escala probabilística normal (abscisa) y logarítmica
(ordenada), para la variable aleatoria: precipitación anual en Estación Observatorio Nacional.

PROBABILIDAD (%)
0.2 0.5 1 2 5 10 20 30 40 50 60 70 80 90 95 98 99 99.5 99.8
2000

1600
precipitación (mm)

1200

800
distribución normal
valores observados
400 distribución Log-Normal
Serie3

0
-3 -2 -1 0 1 2 3
variable reducida, z

Fig. 3.8 Comparación de frecuencia acumulada, obtenida con la distribución Normal y Log-Normal, en escala
probabilística normal (abscisa) y aritmética (ordenada), para la variable aleatoria: precipitación anual
en Estación Observatorio Nacional.

Pag.38
ESTADISTICA: e.orozco

3.4.3.3 CONSTRUCCION DE PAPEL PROBABILISTICO

Un importante elemento en el análisis estadístico es la representación gráfica de los


datos. En el caso de análisis univariado, existe una amplia variedad de papeles
probabilísticos. Uno de los usados con mayor frecuencia es la escala probabilística
normal. Este tipo de papel, provee una gráfica con la variable aleatoria en el eje de las
ordenadas y la probabilidad en el eje de las abscisas. La abscisa consiste en valores
probabilísticos entre 0 y 1 o 0 y 100 %.

En general, es posible construir un papel probabilístico para cualquier distribución de


probabilidades, para las que pueda encontrarse una variable lineal que sustituya a la
escala de probabilidades.

El papel probabilístico normal se basa en la f(z). El primer paso es construir una línea
con los valores de z, en una escala lineal, para diferentes valores de probabilidad (área
debajo de la fdp. En la Fig. 3.9 se muestra valores de z con sus correspondientes
valores de probabilidades (ver Apéndice A para dichos valores).
variable aleatoria

-3

-2.05375 -2

-1

2.05375 2

3
-2.32634

-1.64485

-1.28155

-0.84162

-0.52440

-0.25335

0.25335
0.52440

0.84162

1.28155

1.64465

2.32634

z
0

F(z)
0.01 0.02 0.05 0.10 0.20 0.30 0.40 0.60 0.70 0.80 0.90 0.95 0.98 0.99
0.00135 0.02275 0.15866
0.50 0.84134 0.97725 0.99865

Fig. 3.9 Construcción de las líneas verticales (escala en el eje de las abscisas) para el papel de probabilidades
normal, para probabilidades seleccionadas.

El segundo paso es construir una línea perpendicular a la primera. La escalas de dicha


línea puede ser aritmética o logarítmica (en el caso de distribución Log-normal).

3.4.3.3 PROBABILIDAD EMPIRICA

Con los parámetros estadísticos y una función de frecuencia se puede calcular la


probabilidad teórica para un valor determinado de x. Para una serie de observaciones
puede determinarse la probabilidad P(X=xi ), a partir de la frecuencia. Esta probabilidad
empírica corresponde a la suma de las frecuencias relativas, cuando las observaciones
se ordenan en orden ascendente. Por ejemplo, los datos de precipitación en el ejemplo

Pag.39
ESTADISTICA: e.orozco

anterior, al valor menor de corresponde la posición m = 1, mientras que el valor mayor


m = N = 68. La probabilidad empírica, para cada valor, puede indicarse como:

~= m
P lim
N→∞ N

Para muestras estadísticas, la Ec. anterior provee resultados satisfactorios en el rango


de la región de frecuencias medias. Sin embargo, conduce, en ambos extremos de la
distribución, a valores de 0 y 1, los cuales están definidos solamente para la población.
Para evitar estos casos, la probabilidad empírica se transforma. No se discute, en este
trabajo el fundamento teórico para la transformación; se dan, sin embargo, solamente
una fórmula comúnmente empleada en muchas aplicaciones hidrológicas. Esta fórmula
es la de W EIBULL (Ec. 3.58).

~= m
P (3.58)
N+1

donde, m es la posición y N es el número de datos de la muestra. La Ec. 3.58 se utilizó


para plotear las observaciones en los gráficos anteriores (Figs. 3.6, 3.7 y 3.8), donde
las 68 observaciones se ordenaron de menor a mayor y cada valor se le asignó una
probabilidad (empírica) de acuerdo a la Ec. 3.58.

Pag.40
Area=P(Z<z)
APENDICE A: Probabilidades de la distribución normal.

El área debajo de la función de densidad de probabilidades (área asurada), es


2
z
1 z −
P(Z ≤ z ) =
2π ∫ −∞
e 2

0 z
z 0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 z 0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09
0 0.5000 0.5040 0.5080 0.5120 0.5160 0.5199 0.5239 0.5279 0.5319 0.5359
0.1 0.5398 0.5438 0.5478 0.5517 0.5557 0.5596 0.5636 0.5675 0.5714 0.5753 -0.1 0.4602 0.4641 0.4681 0.4721 0.4761 0.4801 0.4840 0.4880 0.4920 0.4960
0.2 0.5793 0.5832 0.5871 0.5910 0.5948 0.5987 0.6026 0.6064 0.6103 0.6141 -0.2 0.4207 0.4247 0.4286 0.4325 0.4364 0.4404 0.4443 0.4483 0.4522 0.4562
0.3 0.6179 0.6217 0.6255 0.6293 0.6331 0.6368 0.6406 0.6443 0.6480 0.6517 -0.3 0.3821 0.3859 0.3897 0.3936 0.3974 0.4013 0.4052 0.4090 0.4129 0.4168
0.4 0.6554 0.6591 0.6628 0.6664 0.6700 0.6736 0.6772 0.6808 0.6844 0.6879 -0.4 0.3446 0.3483 0.3520 0.3557 0.3594 0.3632 0.3669 0.3707 0.3745 0.3783
0.5 0.6915 0.6950 0.6985 0.7019 0.7054 0.7088 0.7123 0.7157 0.7190 0.7224 -0.5 0.3085 0.3121 0.3156 0.3192 0.3228 0.3264 0.3300 0.3336 0.3372 0.3409
0.6 0.7257 0.7291 0.7324 0.7357 0.7389 0.7422 0.7454 0.7486 0.7517 0.7549 -0.6 0.2743 0.2776 0.2810 0.2843 0.2877 0.2912 0.2946 0.2981 0.3015 0.3050
0.7 0.7580 0.7611 0.7642 0.7673 0.7704 0.7734 0.7764 0.7794 0.7823 0.7852 -0.7 0.2420 0.2451 0.2483 0.2514 0.2546 0.2578 0.2611 0.2643 0.2676 0.2709
0.8 0.7881 0.7910 0.7939 0.7967 0.7995 0.8023 0.8051 0.8078 0.8106 0.8133 -0.8 0.2119 0.2148 0.2177 0.2206 0.2236 0.2266 0.2296 0.2327 0.2358 0.2389
0.9 0.8159 0.8186 0.8212 0.8238 0.8264 0.8289 0.8315 0.8340 0.8365 0.8389 -0.9 0.1841 0.1867 0.1894 0.1922 0.1949 0.1977 0.2005 0.2033 0.2061 0.2090
1 0.8413 0.8438 0.8461 0.8485 0.8508 0.8531 0.8554 0.8577 0.8599 0.8621 -1 0.1587 0.1611 0.1635 0.1660 0.1685 0.1711 0.1736 0.1762 0.1788 0.1814
1.1 0.8643 0.8665 0.8686 0.8708 0.8729 0.8749 0.8770 0.8790 0.8810 0.8830 -1.1 0.1357 0.1379 0.1401 0.1423 0.1446 0.1469 0.1492 0.1515 0.1539 0.1562
1.2 0.8849 0.8869 0.8888 0.8907 0.8925 0.8944 0.8962 0.8980 0.8997 0.9015 -1.2 0.1151 0.1170 0.1190 0.1210 0.1230 0.1251 0.1271 0.1292 0.1314 0.1335
1.3 0.9032 0.9049 0.9066 0.9082 0.9099 0.9115 0.9131 0.9147 0.9162 0.9177 -1.3 0.0968 0.0985 0.1003 0.1020 0.1038 0.1056 0.1075 0.1093 0.1112 0.1131
1.4 0.9192 0.9207 0.9222 0.9236 0.9251 0.9265 0.9279 0.9292 0.9306 0.9319 -1.4 0.0808 0.0823 0.0838 0.0853 0.0869 0.0885 0.0901 0.0918 0.0934 0.0951
1.5 0.9332 0.9345 0.9357 0.9370 0.9382 0.9394 0.9406 0.9418 0.9429 0.9441 -1.5 0.0668 0.0681 0.0694 0.0708 0.0721 0.0735 0.0749 0.0764 0.0778 0.0793
1.6 0.9452 0.9463 0.9474 0.9484 0.9495 0.9505 0.9515 0.9525 0.9535 0.9545 -1.6 0.0548 0.0559 0.0571 0.0582 0.0594 0.0606 0.0618 0.0630 0.0643 0.0655
1.7 0.9554 0.9564 0.9573 0.9582 0.9591 0.9599 0.9608 0.9616 0.9625 0.9633 -1.7 0.0446 0.0455 0.0465 0.0475 0.0485 0.0495 0.0505 0.0516 0.0526 0.0537
1.8 0.9641 0.9649 0.9656 0.9664 0.9671 0.9678 0.9686 0.9693 0.9699 0.9706 -1.8 0.0359 0.0367 0.0375 0.0384 0.0392 0.0401 0.0409 0.0418 0.0427 0.0436
1.9 0.9713 0.9719 0.9726 0.9732 0.9738 0.9744 0.9750 0.9756 0.9761 0.9767 -1.9 0.0287 0.0294 0.0301 0.0307 0.0314 0.0322 0.0329 0.0336 0.0344 0.0351
2 0.9772 0.9778 0.9783 0.9788 0.9793 0.9798 0.9803 0.9808 0.9812 0.9817 -2 0.0228 0.0233 0.0239 0.0244 0.0250 0.0256 0.0262 0.0268 0.0274 0.0281
2.1 0.9821 0.9826 0.9830 0.9834 0.9838 0.9842 0.9846 0.9850 0.9854 0.9857 -2.1 0.0179 0.0183 0.0188 0.0192 0.0197 0.0202 0.0207 0.0212 0.0217 0.0222
2.2 0.9861 0.9864 0.9868 0.9871 0.9875 0.9878 0.9881 0.9884 0.9887 0.9890 -2.2 0.0139 0.0143 0.0146 0.0150 0.0154 0.0158 0.0162 0.0166 0.0170 0.0174
2.3 0.9893 0.9896 0.9898 0.9901 0.9904 0.9906 0.9909 0.9911 0.9913 0.9916 -2.3 0.0107 0.0110 0.0113 0.0116 0.0119 0.0122 0.0125 0.0129 0.0132 0.0136
2.4 0.9918 0.9920 0.9922 0.9925 0.9927 0.9929 0.9931 0.9932 0.9934 0.9936 -2.4 0.0082 0.0084 0.0087 0.0089 0.0091 0.0094 0.0096 0.0099 0.0102 0.0104
2.5 0.9938 0.9940 0.9941 0.9943 0.9945 0.9946 0.9948 0.9949 0.9951 0.9952 -2.5 0.0062 0.0064 0.0066 0.0068 0.0069 0.0071 0.0073 0.0075 0.0078 0.0080
2.6 0.9953 0.9955 0.9956 0.9957 0.9959 0.9960 0.9961 0.9962 0.9963 0.9964 -2.6 0.0047 0.0048 0.0049 0.0051 0.0052 0.0054 0.0055 0.0057 0.0059 0.0060
2.7 0.9965 0.9966 0.9967 0.9968 0.9969 0.9970 0.9971 0.9972 0.9973 0.9974 -2.7 0.0035 0.0036 0.0037 0.0038 0.0039 0.0040 0.0041 0.0043 0.0044 0.0045
2.8 0.9974 0.9975 0.9976 0.9977 0.9977 0.9978 0.9979 0.9979 0.9980 0.9981 -2.8 0.0026 0.0026 0.0027 0.0028 0.0029 0.0030 0.0031 0.0032 0.0033 0.0034
2.9 0.9981 0.9982 0.9982 0.9983 0.9984 0.9984 0.9985 0.9985 0.9986 0.9986 -2.9 0.0019 0.0019 0.0020 0.0021 0.0021 0.0022 0.0023 0.0023 0.0024 0.0025
3 0.9987 0.9987 0.9987 0.9988 0.9988 0.9989 0.9989 0.9989 0.9990 0.9990 -3 0.0013 0.0014 0.0014 0.0015 0.0015 0.0016 0.0016 0.0017 0.0018 0.0018
3.1 0.9990 0.9991 0.9991 0.9991 0.9992 0.9992 0.9992 0.9992 0.9993 0.9993 -3.1 0.0010 0.0010 0.0010 0.0011 0.0011 0.0011 0.0012 0.0012 0.0013 0.0013
3.2 0.9993 0.9993 0.9994 0.9994 0.9994 0.9994 0.9994 0.9995 0.9995 0.9995 -3.2 0.0007 0.0007 0.0007 0.0008 0.0008 0.0008 0.0008 0.0009 0.0009 0.0009
3.3 0.9995 0.9995 0.9995 0.9996 0.9996 0.9996 0.9996 0.9996 0.9996 0.9997 -3.3 0.0005 0.0005 0.0005 0.0005 0.0006 0.0006 0.0006 0.0006 0.0006 0.0007
3.4 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9998 -3.4 0.0003 0.0003 0.0004 0.0004 0.0004 0.0004 0.0004 0.0004 0.0005 0.0005

También podría gustarte