Tp-Grupo 9

UNAF- FRN ESTADÍSTICA Y PROBABILIDADES PROF.J.C.
BARRETO
ING. CIVIL
ESTUDIANTES: PAROLA GABRIEL, PERALTA PABLO, SANABRIA JORGE, BAEZ AYRTON
TP 1- MEDIDAS DE POSICIÓN Y DISPERSIÓN
1- Medidas de posición. Propiedades y aplicaciones

2- Medidas de dispersión. Propiedades y aplicaciones
3- Medidas de forma
4- Interpretación de estadísticos y aplicaciones
5- Medidas de concentración. Índice de Gini y curva de Lorentz.
1- MEDIDAS DE POSICIÓN
Son medidas que permiten tener una idea aproximada de dónde están los datos, aunque no indican cómo
se distribuyen.
MEDIAS:
- Media generalizada de orden P: es la generalización de la media aritmética
I
1
M p = p ap = p
N
n x
i =1
i i
p
Como caso particular se menciona la media aritmética simple (p=1) y la media cuadrática (p=2)
- Media aritmética simple: Es la medida de posición más frecuentemente usada. Para calcular la
media aritmética o promedio de un conjunto de observaciones se suman todos los valores y se
divide por el número total de observaciones.
I
1
x = M1 =
N
n x
i =1
i i
ni es la frecuencia absoluta o peso. Para datos agrupados xi es la marca de clase, y para datos
simples, xi es cada valor de la variable
Para la media poblacional se utiliza la letra griega “µ”
- Media cuadrática:
1 I
M 2 = X RMS = 2
 ni xi 2
N i =1
Para el caso continuo tenemos :
x
X RMS =  ds. f (s).s
2
2
−
- Media armónica
N
H = M −1 = I
ni

i =1 xi
Ventajas e inconvenientes:
- En su cálculo intervienen todos los valores de la distribución, y en ciertos casos es más
representativa que la media aritmética.
- Su cálculo no tiene sentido cuando algún valor de la variable toma valor cero o muy pequeño..
- Es única.
Suele ser empleada para promediar velocidades, tiempos, rendimientos, etc.
UNAF- FRN ESTADÍSTICA Y PROBABILIDADES PROF.J.C. BARRETO
ING. CIVIL
- Media geométrica
I I
g = X G = M 0 = N  xini ; N =  ni
i =1 j =1
El empleo más frecuente de la media geométrica es el de promediar variables tales como

porcentajes, tasas, números índices. etc., es decir, en los casos en los que se supone que la
variable presenta variaciones acumulativas.
Propiedades:
- El logaritmo de la media geométrica es igual a la media aritmética de los logaritmos de los
valores de la variable
- La media geométrica de un conjunto de números positivos es siempre menor o igual que la
media aritmética
Ventajas e inconvenientes:
- En su cálculo intervienen todos los valores de la distribución.
- Los valores extremos tienen menor influencia que en la media aritmética.
- Es única.
- Su cálculo es más complicado que el de la media aritmética.
- Se anula cuando la variable toma un valor nulo.
-Queda indeterminada si la variable toma valores negativos
- Media aritmética ponderada

I I
1
x=
N
 pi xi Siendo
i =1
p
i =1
i =N
Es una media aritmética que se emplea en distribuciones de tipo unitario, en las que se
introducen unos coeficientes de ponderación, denominados pi, que son valores positivos,
que representan el número de veces que un valor de la variable es más importante que
otro.
Características y propiedades de la media aritmética:

a) Se usa para datos numéricos.
b) Representa el centro de gravedad o el punto de equilibrio de los datos.
Podemos imaginar a los datos como un sistema físico, en el que cada dato tiene una “masa” unitaria y lo
ubicamos sobre una barra en la posición correspondiente a su valor. La media representa la posición en
que deberíamos ubicar el punto de apoyo para que el sistema esté en equilibrio.
c) Es muy sensible a la presencia de datos atípicos. En consecuencia, la media es una buena medida del
centro de la distribución cuando ésta es simétrica.
Propiedades:
✓ La suma de las desviaciones con respecto a la media aritmética es cero (0).
✓ La media aritmética de los cuadrados de las desviaciones de los valores de la variable con
respecto a una constante cualquiera se hace mínima cuando dicha constante coincide con la
media aritmética.
✓ Si a todos los valores de la variable se le suma una misma cantidad, la media aritmética queda
aumentada en dicha cantidad.
ING. CIVIL
✓ Si todos los valores de la variable se multiplican por una misma constante la media aritmética
queda multiplicada por dicha constante.
✓ La media aritmética de un conjunto de números positivos siempre es igual o superior a la media
geométrica:
✓ La media es un valor comprendido entre los extremos de la distribución.
✓ La media es el centro de gravedad de la distribución de la variable. La media muestral es donde
el diagrama de puntos se equilibra. Es decir, la suma de las desviaciones de los valores con
respecto a ella es igual a cero.
✓ La media del producto de una constante a por una variable X es igual al producto de la constante
por la media de la variable dada. Es decir, si se efectúa un cambio de unidad de medida a los
datos (por ejemplo, de metros a centímetros), la media queda afectada por dicho cambio de
escala.
✓ La media de la suma de una constante entera a con una variable X es igual a la suma de la
constante con la media de la variable dada. O sea, al efectuar un cambio en el origen desde el
que se han medido los datos, la media queda afectada por dicho cambio de origen.
✓ La media está influenciada por los valores de cada uno de los datos.
✓ La media no tiene por qué ser iqual a uno de los valores de los datos, ni siquiera de su misma
naturaleza: datos enteros pueden tener una media decimal.
✓ La media es un representante de los datos a partir de los que ha sido calculada, es decir, es un
número que distingue un grupo de datos de otros (aunque es importante tener en cuenta medidas
de dispersión para diferenciar grupos de datos con la misma media). En otros términos, hay por lo
menos un dato que es mayor o igual que la media aritmética.
Para el caso continuo, la media aritmética es:
x
X=  ds. f (s).s
−
Demostración de algunas propiedades

1- La suma de las desviaciones respecto a la media aritmética es cero
n
 (x
i =0
i − x) = 0
n n n n
1 n n n
 ( xi ) −  ( x) =  ( xi ) − n.x =  ( xi ) − n.
i =0 i =0 i =0 i =0

n i =0
( x i ) = 
i =0
( x i ) − 
i =0
( xi ) = 0
2- La media aritmética de los cuadrados de las desviaciones de los valores de la variable respecto a
una constante cualquiera se hace mínima cuando dicha constante es la media aritmética
ING. CIVIL
 n  n
min   ( xi − a) 2 . fi  =  ( xi − x) 2 . fi
 i =0  i =0
Demostración :Teorema de Köning
d  n  n n

dx  i =0
( x i − a ) 2
. fi 

= 0 → 
i =0
2.( x i − a ). fi = 
i =0
(2.x i . fi − 2.a. fi ) =
n
multiplicando por
n
n
1 1 n
2.n.  xi . fi − 2.n.  a. fi = 2.n.x − 2.n.a = 0 →
n i =0 n i =0
→ x−a =0
3- Si a todos los valores de la variable se suma o multiplica una constante, entonces la media
aritmética queda sumada o multiplicada por dicha constante
Suma:
1 n  1 n 1 n n
 1 n 1 n
n  ( x i  a ). fi  = x  a →  ( x i  a ). fi = 
n  i =0
x i fi   a. fi  n
= . x i fi  . a. fi = x  a
 i =0  n i =0 i =0  i =0 n i =0
Multiplicación
1 n  1 n 1 n 
n  i ( x .a ). fi  = x.a →  ( x i .a ). fi = a   xi fi  = a.x
 i =0  n i =0 n  i =0 
También :
1 n 1  1 1 n 1  1 1 n 1
n  i a  a
( x . ). fi = . x →  n  i a ). fi  = a . n  ( xi ). fi = a .x
( x .
 i =0   i =0  i =0
MODA
La moda se define como “el valor más frecuente de una distribución”. La moda es el valor de la variable
que tenga mayor frecuencia absoluta, la que más se repite, es la única medida de centralización que tiene
sentido estudiar en una variable cualitativa, pues no precisa la realización de ningún cálculo.
Por su propia definición, la moda no es única, pues puede haber dos o más valores de la variable que
tengan la misma frecuencia siendo esta máxima. En cuyo caso tendremos una distribución bimodal o
polimodal según el caso.
Características
- Útil para medidas nominales y ordinales
- No se afecta por valores extremos
- Se puede utilizar con clases abiertas
- Puede no existir o no ser única
Para datos ordenados sin agrupar, la moda es el valor de la variable que más se repite o de mayor
frecuencia.
Para datos agrupados en tabla de frecuencia, la moda se calcula con la siguiente fórmula:
ING. CIVIL
d1
M o = x = Li + .h
d1 + d 2
Donde Li es el límite inferior de la clase modal (la clase de mayor frecuencia absoluta)
d1 es la diferencia entre la frecuencia modal y la anterior
d2 es la diferencia entre la frecuencia modal y la posterior
h es la amplitud del intervalo
CUANTILES
Si a un conjunto de datos se ordena de mayor a menor, el valor central es la mediana, este valor divide el
grupo en dos subgrupos cada uno con el 50 % de los datos. Si a cada subgrupo ordenado se le marca el
valor central, tenemos así tres valores seleccionados que llamaremos Cuartiles, Q1, Q2 y Q3. Estos valores
dividen al conjunto de datos en cuatro grupos con igual número de términos, cada cuartil contiene el 25%
de los datos. La mediana es el cuartil dos, Q2. Si se divide al conjunto ordenado en diez partes iguales, los
valores que dividen los datos se llaman deciles, y son 9 (D1 a D9). Lo mismo sucede si se divide el conjunto
en cien partes iguales: los calores que dividen son los percentiles, y son 99 (P1 a P99)
Se define el cuantil de orden “k” como un valor de la
variable por debajo del cual se encuentra una
frecuencia acumulada “k”.
Para datos simples, primero se obtiene el valor
posicional del cuantil y luego se obtiene un promedio
entre los valores de la variable que rodean a esta
posición.
n 1
Ck , p = k . +
p 2
Donde k es la posición del cuantil y p es la cantidad de divisiones del conjunto (para cuartiles, p=4, para
deciles, p=10 y percentiles p=100)
Para datos agrupados: Primero se determina en que clase se encuentra el cuantil o fractil buscado.
n
Ck , p = k . Donde C es la clase. Luego se aplica una de las siguientes fórmulas
p
- Cuartil
k .n
− Fa −1
Qk = Li + 4 .h
fk
- Decil
k .n
− Fa −1
Dk = Li + 10 .h
fk
- Percentil (pk)
ING. CIVIL
k .n
− Fa −1
Pk = Li + 100 .h
fk
Donde
Li es el límite inferior de la clase en la que se encuentra el fractil,
k es el número de fractil,
fk es la frecuencia absoluta de la clase
Fa-1 es la frecuencia acumulada de la clase anterior.
h es la amplitud de la clase o intervalo.
MEDIANA
Es el valor de la variable que divide a las observaciones en dos grupos con el mismo número de individuos
(percentil 50, decil 5, cuartil 2).
Para hallar la mediana de una distribución debemos:
1. Ordenar las observaciones en orden ascendente.
2. Si el número de observaciones n es impar, M es la observación central de la lista ordenada. M se halla
contando (n+1)/2 observaciones desde el comienzo de la lista.
3. Si el número de observaciones n es par, M es la media de las dos observaciones centrales de la lista
ordenada.
Para datos agrupados se calcula de la misma manera que las fractilas:
n
− Fa −1
Me = Li + 2 .h
fk
Propiedades:
a) La mediana puede ser usada no sólo para datos numéricos sino además para datos
ordinales, ya que para calcularla sólo es necesario establecer un orden en los datos.
b) Si la distribución de los datos es aproximadamente simétrica la media y la mediana
serán aproximadamente iguales.
Si la distribución de los datos es asimétrica, la media y la mediana diferirán según el
siguiente patrón:
Asimetría derecha (cola larga hacia la derecha) ⇒ Media > Mediana
Asimetría izquierda (cola larga hacia la izquierda) ⇒ Media < Mediana
c) La mediana es una medida de posición robusta. No se afecta por la presencia de datos outliers, salvo
que se modifique casi el 50% de los datos menores o mayores de la muestra.
d) La mediana es insensible a la distancia de las observaciones al centro, ya que solamente depende del
orden de los datos. Esta característica que la hace robusta, es una desventaja de la mediana
ING. CIVIL
e) Si hay datos censurados en la muestra no es posible calcular la media, sin embargo, eventualmente
puede calcularse la mediana.
2- MEDIDAS DE DISPERSIÓN
Las medidas de dispersión o variabilidad describen cuán cercanos se encuentran los datos entre ellos, o
cuán cerca se encuentran de alguna medida de posición.
RANGO
Es la diferencia entre el mayor y el menor valor de la distribución.
R = max( xi ) − min( xi )
Características y propiedades:
- Es muy simple de obtener.
- Es extremadamente sensible a la presencia de datos atípicos. Si hay datos outliers, estos estarán en los
extremos, que son los datos que se usan para calcular el rango.
- Ignora la mayoría de los datos.
- En general aumenta cuando aumenta el tamaño de la muestra (las observaciones atípicas tienen más
chance de aparecer en una muestra con muchas observaciones). En consecuencia, reportar el rango o el
máximo y el mínimo de un conjunto de datos, no informa demasiado sobre las características de los datos.
A pesar de esto es frecuente encontrar en las publicaciones científicas datos numéricos resumidos a través
de una medida de posición acompañada por los valores mínimo y máximo.
RANGO INTERCUARTÍLICO
El rango intercuartil o distancia intercuartil (RC) de un conjunto de datos es la distancia entre los dos
cuartiles:
RC = Q3 – Q1
Indica el rango donde se encuentra aproximadamente el 50% “central” de las observaciones.
Propiedades
- Si todos los datos son iguales RC = 0. Pero RC puede ser igual a cero aun cuando no todos los datos
sean iguales.
- Es una medida robusta de dispersión.
- Cuando la distribución es simétrica y acampanada la relación entre la distancia intercuartil y el desvío
estándar es la siguiente:
4
RC S
3
DESVIACIÓN CUARTIL
ING. CIVIL
Es la medida de dispersión más usada en relación con la mediana; también es llamada “rango
semiintercuartil”. Se simboliza por Q y se le define por la fórmula:
Q3 − Q1 P75 − P25
Q= =
2 2
en la cual Q1 y Q3 son los puntos bajo los cuales se halla el 25% y el 75% de los datos.
VARIANZA
Es el momento centrado de orden 2. Para el caso de la varianza muestral es:
I I
1 1
s 2 = m2 =
N

i =1
fi ( xi − x ) 2 =
N
 f .x
i =1
i i
2
− x2
I
1 N
s2 = 
N − 1 i =1
fi .xi 2 −
N −1
x2
Para la población sería:

I I
1 1
 n (2) =
N

i =1
fi ( xi − X )2 =
N
 ( f .x
i =1
i i
2
)− X2
Y para el caso continuo tendremos:

x
s( x) =  ds(s − X )2 f (s)
−
La varianza es el desvío estándar elevado al cuadrado y se simboliza con “s 2” cuando es muestral, o 2

cuando es poblacional. Este es una medida que se usa en muchas pruebas de Hipótesis estadísticas, por
ejemplo “el Análisis de Varianza, ANOVA” que se basa en la descomposición y relación de las varianzas
de las causas de variación de los datos. Pero para fines descriptivos se prefiere usar el desvío estándar o
típico en vez de la varianza, que suele ser un valor mayor y difícil de interpretar.
Es una medida de dispersión que representa la variabilidad de una serie de datos respecto a su media.
Formalmente se calcula como la suma de los residuos al cuadrado divididos entre el total de observaciones.
La varianza tiene como valor mínimo el cero.
Principales características de la varianza
1. La varianza es matemáticamente lógica ya que considera los signos de los desvíos, de allí su ventaja
con respecto a la desviación absoluta promedio.
2. La varianza no está expresada en unidades originales, sino en una unidad al cuadrado. Esto es debido
a la operación de elevar al cuadrado las desviaciones.
3. Cuando las varianzas son grandes se hace difícil su interpretación.
DESVIACIÓN TÍPICA O ESTÁNDAR

La fórmula de cálculo para el desvío típico o estándar poblacional es:
ING. CIVIL
I
1
=
N
 n (x − X )
i =1
i i
2
fi
Para el desvío típico o estándar muestral:
1 I
s = s2 =  ni ( yi − y )2 fi
N − 1 i =1
Y la fórmula del desvío estándar poblacional para el caso continuo es:

x
= ds ( s − X ) 2 f ( s )
−
Interpretación del valor de la desviación estándar

La desviación estándar “s” es útil para comparar la variabilidad de dos conjuntos de datos en los que la
variable ha sido medida en las mismas unidades. Si en una muestra s = 5.4 y en otra s = 10.4 podemos
asegurar que los datos de la segunda muestra están más dispersos que los de la primera. Pero ¿cómo
interpretamos el valor s = 5.4?
La desviación estándar nos da idea de la distancia promedio de los datos a la media (aunque estrictamente
hablando no es el promedio). Pero la interpretación de “s” requiere algún conocimiento de la distribución de
los datos.
En Física por ejemplo, la desviación estándar de un conjunto de mediciones sucesivas de una misma
magnitud (por ejemplo la velocidad de la luz) indica la precisión de esas mediciones.
Al determinar si las mediciones concuerdan con una predicción teórica, la desviación estándar de esas
mediciones es de crucial importancia: si la media de las mediciones está demasiado alejada de la predicción
(con la distancia medida según la desviación estándar), entonces la teoría que se está probando
probablemente necesita ser revisada.
Esto tiene sentido, ya que se encuentran fuera del rango de valores que podrían esperarse razonablemente
si la predicción fuera correcta y la desviación estándar se cuantificara adecuadamente.
Propiedades de la desviación estándar
1. Como la varianza, la desviación típica se calcula en base a todos los valores. Mide la dispersión alrededor
de la media y no con respecto a ciertos valores como el rango.
2. La desviación estándar es matemáticamente lógica, ya que al igual que la varianza, tiene en cuenta los
signos positivos y negativos de los desvíos individuales.
3. Como ya se señaló anteriormente, el desvío típico está expresado en unidades originales lo que facilita
su análisis e interpretación.
4. a) Si a cada valor de la variable se le suma (o se le resta) una constante, el desvío típico no se modifica.
b) Si a cada valor de la variable x lo multiplica (o se lo divide) por una constante, el desvío típico queda
multiplicada (o dividida) por dicha constante.
DESVIACIÓN MEDIA
ING. CIVIL
1 I
DM =  ni xi − x
N i =1
Para el caso continuotenemos :
Dm =  ds s − X f ( s )
x
−
También llamada “Desviación absoluta promedio”, es el promedio de las desviaciones de los valores de la
variable respecto a la media aritmética tomados en valor absoluto. Se expresa en la unidad de la variable,
y da cuenta del grado de agrupamiento de los datos en torno a la media aritmética. A valores menores,
corresponde menor dispersión, y lo opuesto. Es cero cuando todos los valores de la variable son iguales.
Características de la DM
1. El cálculo está basada en todos los valores e indica la dispersión con relación a un valor promedio.
2. Al ignorarse los signos de las desviaciones, la medida no resulta adecuada para un manejo matemático.
DESVIACIÓN MEDIANA
Es un indicador estadístico robusto que usa las desviaciones absolutas respecto a la mediana (no respecto
a la media).
I
1
DME =
N
 n x − Me
i =1
i fi
COEFICIENTE DE VARIACIÓN
s 
CV = ; CV =
x X
El coeficiente de variación, CV, es un cociente entre el desvío estándar y la media de los datos. Se puede
expresar como porcentaje multiplicando por 100.
Este coeficiente permite comparar la variabilidad de diferentes muestras de una población o la variabilidad
entre variables diferentes. En general un CV menor al 10 %, dice que los datos tienen poca variabilidad,
que es lo mismo que decir que los valores observados son en general, cercanos al valor medio.
El coeficiente de variación sólo se puede calcular para variables con todos los valores positivos. Todo índice
de variabilidad es esencialmente no negativo. Las observaciones pueden ser positivas o nulas, pero su
variabilidad debe ser siempre positiva. De ahí que sólo debemos trabajar con variables positivas, para las
que tenemos con seguridad que la media es mayor a cero.
Otra propiedad es que es invariante a cambios de escala.
3- MEDIDAS DE FORMA
Las medidas de forma son aquellas que nos muestran si una distribución de frecuencia tiene
características especiales como simetría, asimetría, nivel de concentración de datos y nivel de
apuntamiento que la clasifiquen en un tipo particular de distribución-
Para analizar estos aspectos, recurriremos a dos tipos de medida:
a) Coeficiente de asimetría o sesgo
ING. CIVIL
b) Coeficiente de curtosis o apuntamiento

Sesgo
La medida de asimetría más utilizada parte del uso del tercer momento estándar. La razón de esto
es que nos interesa mantener el signo de las desviaciones con respecto a la media, para obtener
si son mayores las que ocurren a la derecha de la media que las de la izquierda. Sin embargo, no
es buena idea tomar el momento estándar con respecto a la media de orden 1. Debido a que una
simple suma de todas las desviaciones siempre es cero
Las medidas de asimetría son indicadores que permiten establecer el grado de simetría (o
asimetría) que presenta una distribución de probabilidad de una variable aleatoria sin tener que
hacer su representación gráfica.
Como eje de simetría consideramos una recta paralela al eje de ordenadas que pasa por la media
de la distribución. Si una distribución es simétrica, existe el mismo número de valores a la derecha
que a la izquierda de la media, por tanto, el mismo número de desviaciones con signo positivo que
con signo negativo.
Decimos que hay asimetría positiva (o a la derecha) si la "cola" a la derecha de la media es más
larga que la de la izquierda, es decir, si hay valores más separados de la media a la derecha.
Diremos que hay asimetría negativa (o a la izquierda) si la "cola" a la izquierda de la media es más
larga que la de la derecha, es decir, si hay valores más separados de la media a la izquierda.
Coeficiente de asimetría de Pearson
Sólo se puede utilizar en distribuciones uniformes, unimodales y moderadamente asimétricas. Se
basa en que en distribuciones simétricas la media de la distribución es igual a la moda.
3( X − Me)
As =

Coeficiente de asimetría de Bowley-Yule
Está basado en la posición de los cuartiles y la mediana, y utiliza la siguiente expresión:
Q1 + Q3 − Q2
As =
Q3 − Q1
As>0 : Asimétrica a la derecha

As=0 : Sin asimetría
As<0 : Asimétrica a la izquierda
Coeficiente de asimetría de Fisher:
( x − X ) fi
m
1 3
As =
n 3 j
j =1
La asimetría resulta útil en muchos campos. Muchos modelos simplistas asumen una distribución
normal, esto es, simétrica en torno a la media
La distribución normal tiene una asimetría cero.
Cuando el tamaño de la muestra aumenta cualquier población tiende a volverse simétrica. Una
asimetría positiva implica que hay mas valores distintos a la derecha de la media,
Las medidas de asimetría, sobre todo el coeficiente de asimetría de Fisher, junto con las medidas
de apuntamiento o Curtosis se utilizan para contrastar si se puede aceptar que una distribución estadística
sigue a la distribución normal.
ING. CIVIL
Esto es necesario para realizar numerosos contrastes estadísticos en la teoría de la inferencia

estadística.
Para el caso continuo el coeficiente de asimetría de Fisher será:
1

t
As = ds( x(s) − X )3 f (s)
 3 −
Curtosis
La curtosis de una variable estadística aleatoria es una característica de forma de su distribución de
frecuencias o probabilidades.
Según su concepción clásica, una curtosis grande implica una mayor concentración de valores de la
variable tanto muy cerca de la media de la distribución (pico) como muy lejos de ella (colas), al tiempo que
existe una relativamente mejor frecuencia de valores intermedios. Esto explica una forma de la distribución
de frecuencias o probabilidades con colas más gruesas, con un centro más apuntado y una menor
proporción de valores intermedios entre el pico y colas. Una mayor curtosis no implica una mayor varianza
ni viceversa. El coeficiente de apuntamiento o de curtosis es el cuarto momento con respecto a la media
estandarizada que se define como “el grado de agudeza o achatamiento de una distribución con relación a
la distribución normal”, es decir, mide cuán puntiaguda es una distribución.
El coeficiente de curtosis puede usarse como un indicador, en combinación con otros, de la posible
existencia de observaciones anómalas, de no normalidad, o de bi-modalidad.
La evidencia más reciente, no obstante, sostiene que la curtosis poco tiene que ver con el centro de la
distribución y su apuntamiento y en cambio mucho con las colas y la posible existencia de outsiders. Esta
interpretación es la que prevalece al día de hoy.
Tipos de curtosis
La curtosis determina el grado de concentración que presentan los valores en la región central de la
distribución. Así puede ser:
- Leptocúrtica: existe una gran concentración.
- Mesocúrtica: existe una concentración normal.
- Platicúrtica: existe una baja concentración.
Fórmula de Fisher
( x − X ) fi − 3
m
1 4
=
n 4 j
j =1
  0 : Leptocúrtica
 = 0 : Mesocúrtica
  0 : Platicúrtica
Fórmula semiempírica de Yule
Q3 − Q1
=
2( P90 − P10 )
ING. CIVIL
Para el caso continuo, la formula de Fisher toma la forma:
1

x
= ds( x(s) − X )4 f (s) − 3
 4 −
4- INTERPRETACIÓN DE ESTADÍSTICOS Y SUS APLICACIONES

Un Estadístico es una “Función real medible de la muestra de una variable aleatoria”:
- La primera premisa es que es una función real y medible: significa que es una función matemática,
real, porque da lugar a números reales, y medible porque se puede medir.
- La segunda premisa “… de la muestra…”: significa una cantidad específica de objetos, fenómenos,
experimentos, hechos en condiciones conocidas.
- La tercera premisa “… una variable aleatoria”: quiere decir una variable difícil de predecir es
distintas circunstancias.
Los estadísticos se utilizan para realizar una descripción de la muestra. Esta descripción se puede también
graficar a partir de histogramas, gráficos de tallo y hojas, gráficos de caja y extensiones, diagramas de
barras y circulares.
La descripción de la muestra a partir de los estadísticos permite, bajo ciertas condiciones, hacer
estimaciones e inferencias sobre los parámetros de la población.
Quizás algunos consideren que es redundante utilizar la varianza de la muestra y la desviación estándar
de la muestra. Ambas medidas reflejan el mismo concepto en la variabilidad de la medición, pero la
desviación estándar de la muestra mide la variabilidad en unidades lineales; en tanto que la varianza
muestral se mide en unidades cuadradas. Ambas desempeñan papeles importantes en el uso de los
métodos estadísticos. Mucho de lo que se logra en el contexto de la inferencia estadística implica la
obtención de conclusiones acerca de las características de poblaciones. Entre tales características son
constantes los denominados parámetros de la población. Dos parámetros importantes son la media de la
población y la varianza de la población. La varianza de la muestra desempeña un papel explícito en los
métodos estadísticos que se utilizan para obtener inferencias sobre la varianza de la población. La
desviación estándar de la muestra desempeña un papel importante, junto con la media de la muestra, en
las inferencias que se realizan acerca de la media de la población. En general, la varianza se considera
más en la teoría inferencial, mientras que la desviación estándar se utiliza más en aplicaciones.
5- MEDIDAS DE CONCENTRACIÓN. ÍNDICE DE GINI Y CURVA DE LORENTZ.

El término concentración fue introducido en el vocabulario estadístico por el italiano Corrado Gini, a
propósito de la distribución de salarios y de rentas. En general, se denomina concentración a la mayor o
menor equidad en el reparto de la suma total de la variable considerada. Las variables estadísticas cuya
concentración interese estudiar, deberán ser variables positivas y, habitualmente, recogerán magnitudes
económicas (rentas, salarios, productividades, etc.).
Aún cuando “dispersión” y “concentración” tienen significados opuestos en el lenguaje común, el significado
estadístico de ambos términos no coincide con el que corrientemente se les otorga.
Desde el punto de vista estadístico, la “dispersión” hace referencia a la variabilidad de los datos, a las
diferencias que existen entre ellos y, por tanto, a la mayor o menor representatividad de los promedios.
ING. CIVIL
Las medidas de concentración, sin embargo, tratan de poner en relieve el mayor o menor grado de igualdad
en el reparto de la suma total de los valores de una variable. Son, por tanto, indicadores del grado de
equidistribución de la variable.
Supongamos que tenemos n cantidades que miden los valores de una variable determinada para “n” casos.
Para fijar las ideas, supongamos que se trate de la renta de “n” individuos. Ordenamos dichas cantidades
x1, x2,…, xn, en orden creciente, de modo que cada una de ellas sea menor o igual que la sucesiva, es decir,
xi  xi +1 ; i = 1, 2,3,..., n − 1, n
n
Nos interesa estudiar hasta qué punto la suma total de rentas  x está equitativamente repartida.
i =1
i
Sin duda, las infinitas posiciones que pueden presentarse estarán entre las dos situaciones extremas
siguientes:
a) Concentración máxima: de los “n” rentistas, solo uno percibe el total de la renta, en tanto que los demás
no perciben nada:
x1 = x2 = … = xn-1 = 0, xn ≠ 0
b) Concentración mínima o equidistribución: todos los rentistas perciben la misma cantidad:
x1 = x2 = … = xn
Nos interesa encontrar algunas medidas que permitan valorar cuál es el grado de desigualdad en el reparto
de la renta. Para ello, consideremos la siguiente sucesión de rentas acumuladas:
S1 = x1
S2 = x1 + x2
S3 = x1 + x2 + x3
...
Sn = x1 + x2 + x3 + ... + xn
Así, para i = 1, 2, …, n, Si es la renta total percibida por los i rentistas que menos renta perciben, y Sn es
la renta total, cuyo reparto nos interesa estudiar.
Sea qi el cociente entre Si y Sn, y pi el cociente entre i y n:
Si
qi =
Sn
i
pi =
n
Ello significa que:
qi = proporción que representa la suma de las “i” rentas inferiores sobre el volumen total de las n
rentas consideradas. Es la proporción de la renta total que perciben conjuntamente los “i” rentistas
con menos renta.
pi = proporción que representa el número de los “i” rentistas sobre el número total de los rentistas.
Diremos que la concentración de la variable (la renta, en este caso) es tanto más elevada cuanto mayor
sea la desigualdad
ING. CIVIL
pi ≥ qi
Por ejemplo, si el 80% de los rentistas más “pobres” perciben el 20% de las rentas (y, por tanto, el 20% de
los más “ricos” perciben el 80%), el reparto de la renta tendrá más desigualdad que si el 40% de los rentistas
más “pobres” perciben el 20% de las rentas.
Es evidente que la desigualdad pi ≥ qi es cierta en n-1 casos, o sea, para los n-1 valores que puede alcanzar
i desde 1 hasta n-1. Sin embargo, cuando i alcance el valor n, sucede necesariamente que pi = qi, ya que
el total de los rentistas percibe el total de la renta.
Así, para i = 1,2,…,n-1, siempre se cumplirá que pi ≥ qi, lo que es también fácil de comprender, porque
basta imaginar que la sucesión es creciente por hipótesis y, por lo tanto, una fracción determinada de
rentistas más pequeños posee una parte del total de la renta que es menos que proporcional al número de
rentistas que la poseen. Por ejemplo, la primera mitad de rentistas, formada por los más pequeños, no
puede poseer la mitad del volumen total de la renta, sino menos de esa mitad. Existiría proporcionalidad si
las cantidades de la sucesión fueran todas iguales.
Representación gráfica del grado de concentración: curva de Lorenz

En un diagrama de coordenadas cartesianas representamos sobre el eje de abscisas los valores de p i, y
sobre el eje de ordenadas los valores de qi. Al unir entre sí los puntos (pi, qi), obtendremos una poligonal
llamada curva de Lorenz:
Según esta representación, el 25% de los rentistas más “pobres” percibiría el 5% de las rentas; el 50%
percibiría el 20%; el 75% percibiría algo menos del 50%; y el 100% percibiría el 100%.
Veamos a continuación algunas propiedades de esta curva de concentración de Lorenz:
1. Es creciente, ya que al considerar proporciones obtenidas de totales acumulados,
qi  qi +1 , i = 1, 2,..., n − 1
2. Se sitúa necesariamente por debajo de la diagonal del cuadrado, ya que las rentas están
ordenadas de menor a mayor:
xi  xi +1 , i = 1, 2,..., n − 1
de modo que es imposible que la proporción pi de los primeros rentistas supere esa misma
proporción en cuanto a volumen de renta acumulada qi, como ya hemos observado anteriormente.
ING. CIVIL
3. Comienza en el origen de coordenadas (0,0) y termina en el punto (1,1): el 0% de los rentistas

recibe el 0% de la renta total, y el 100% de ellos percibe el 100% de la renta.
4. Es convexa hacia el eje de las abscisas: una fracción determinada de rentistas más pequeños
poseerá una fracción de la renta total menor que la fracción poseída por la misma proporción de
rentistas mayores, o sea, que una fracción determinada de la renta total es menos que
proporcional respecto a la fracción de los rentistas más pequeños que la poseen:
qi − qi −1  qi +1 − qi , i = 1, 2,..., n − 1
Veamos la demostración:
Si − Si −1 xi x S −S
qi − qi −1 = =  i +1 = i +1 i = qi +1 − qi
Sn Sn Sn Sn
En algunas ocasiones se prefiere cambiar la representación de la curva de Lorenz, poniendo qi en

el eje de abscisas y pi en el de ordenadas, para mantener la homogeneidad con el criterio de que
las frecuencias se sitúan en el eje de ordenadas. En este caso, y en un ejemplo como el nuestro,
la curva de Lorenz estaría situada por encima de la diagonal del cuadrado. Sería además creciente
y cóncava.
Es interesante ver qué forma adopta la curva de Lorenz en las dos situaciones extremas descritas
anteriormente: concentración máxima y equidistribución o reparto igualitario de la variable que se esté
considerando (la renta, en este caso).
a) Concentración máxima: un único rentista percibe el total de la renta. De este modo, se verificará
forzosamente que:
q1 = q2 = ... = qn−1 = 0, qn = 1
Y así, en el límite (n→∞), la curva de Lorenz estará formada por los segmentos
comprendidos entre (0,0) y (1,0), y entre (1,0) y (1,1):
b) Concentración mínima o equidistribución: todos los rentistas perciben la misma renta individual y,
por lo tanto, una fracción determinada de rentistas tiene siempre la misma fracción de la renta
total. Entonces, se verificará necesariamente la siguiente igualdad:
pi = qi, i = 1,…, n
con lo que la curva de Lorenz se transformará en la diagonal del cuadrado:
ING. CIVIL
Este es, al igual que el anterior, un caso límite, ya que habitualmente las cantidades serán
desiguales, es decir, los rentistas poseerán una renta individual distinta.
A la vista de las dos representaciones anteriores, podemos empezar a deducir que cuanto más
próxima se halle la curva de Lorenz a la diagonal del cuadrado, tanto más equidistribuida estará
la magnitud que se esté considerando, y menos nivel de concentración habrá.
Será interesante, sin embargo, estudiar algunas medidas cuantitativas que nos permitan
valorar el grado de concentración de un modo más preciso que la curva de Lorenz. Nos
centraremos en la medida más conocida, que es el índice de concentración de Gini, si bien existen
otras, como el índice de Theil.
Índice de concentración de Gini

Hemos dicho que pueden establecerse n-1 desigualdades pi ≥ qi y que de sus valores depende la
intensidad de la concentración. Podemos, por lo tanto, obtener un índice de concentración a partir de una
fórmula que tenga en cuenta estas n-1 desigualdades o, de forma equivalente, las n-1 diferencias pi – qi.
La fórmula más sencilla que satisface estas condiciones es, sin duda, la siguiente:
n −1
(p − q )
i =1
i i
Cuanto mayor sea el valor de esta suma, tanto mayor será la concentración. Para mayor comodidad en las
comparaciones, será conveniente obtener un índice que tenga un valor máximo igual a la unidad. Bastará
para ello dividir la suma anterior por el valor máximo que pueda alcanzar, que corresponderá al caso:
q1 = q2 = … = qn-1 = 0, qn = 1
es decir, a la situación de concentración máxima (notemos que qn no interviene en el sumatorio). Este valor
máximo será, pues:
n −1
p
i =1
i
Y el índice de concentración de Gini quedará definido como:

ING. CIVIL
n −1
(p − q ) i i
G= i =1
n −1
p
i =1
i
Este índice, muy utilizado en la práctica, verifica las siguientes propiedades:

1. “G” crece con el aumento de la concentración: al aumentar la desigualdad, las diferencias pi – qi
se hacen mayores.
2. En el caso de concentración máxima, G = 1: es así por construcción, ya que entonces:
q1 = q2 = … = qn-1 = 0
3. Cuando la concentración es nula, es decir, cuando hay equidistribución, G =0: es evidente, ya que
entonces:
pi = qi , i = 1,…,n
4. Cualquier transferencia de un individuo “rico” a otro más “pobre”, ceteris paribus, reduce G. Del
mismo modo, toda transferencia de un individuo “pobre” a otro más “rico”, hace que G aumente
(condición de Pigou-Dalton).
Por otra parte, observemos el área pintada en la siguiente figura:
Se puede demostrar fácilmente de forma empírica que el índice de Gini es aproximadamente igual al área
comprendida entre la línea de equidistribución (diagonal del cuadrado) y la curva de concentración (área
rayada), dividida por el área del triángulo inferior a la diagonal. Dado que el área del triángulo es igual a
0,5, el índice de Gini es aproximadamente igual al doble del área pintada en la figura anterior. Esta área
puede medirse de forma bastante precisa mediante el método numérico de los trapecios.
Por último, cabe señalar que, si bien el índice de Gini tiene la ventaja de resumir en una sola cifra las
complejas informaciones expresadas por la curva de Lorenz, y por lo mismo permite comparar más
fácilmente que la curva la concentración de dos distribuciones, esta ventaja tiene su contrapartida: dos
distribuciones de aspectos muy diferentes pueden, en efecto, tener dos índices de concentración de Gini
del mismo valor. Así, las distribuciones representadas por las siguientes curvas de Lorenz tienen el mismo
grado de concentración global, aunque la estructura del reparto de la variable no es la misma. En el caso
de la curva naranja, la situación es más desfavorable para los rentistas más “pobres”:
ING. CIVIL
ING. CIVIL
TP N°2- TEORÍAS DE PROBABILIDADES
1- Definición de probabilidades según Von Karman, según Laplace, según A.N. Kolmogorov y
Bayessiana
2- Variable aleatoria continua y discreta. Propiedades. Funciones de variable aleatoria. Criterios de
convergencia. Aplicaciones.
1- DEFINICIONES DE PROBABILIDADES:
Probabilidad frecuentista o a priori

Se entiende por probabilidad frecuentista a la frecuencia relativa de un evento esperado en el largo plazo
o luego de una secuencia de ensayos. Cuantas más veces se repita el experimento, al final las posibilidades
de que ocurra cada uno de los sucesos será regular. Aunque cualquier comportamiento sea aleatorio, por
proceso empírico llegaremos a una regularidad. Es cuando se lanza un dado y suponiendo cuantas veces
cae el número que se seleccionó.
La estadística que estamos acostumbrados a utilizar es la estadística frecuentista, que es la que se
desarrolla a partir de los conceptos de probabilidad y que se centra en el cálculo de probabilidades y los
contrastes de hipótesis.
Utilizando la fórmula del límite cuando N tiende a infinito de n/N y nos da la probabilidad del suceso P(S), o
más gráficamente:
n
lim = P( s )
N → N
Por tanto, la forma de calcular la probabilidad es usar la frecuencia relativa, ya que si se trata de un
experimento aleatorio en el cual se repite muchas veces, la frecuencia relativa se acercará mucho a la
probabilidad del suceso P(S).
Esta definición frecuencial de la probabilidad tiene la ventaja de tener una conexión con la Ley de los
grandes números. Pero también presenta inconvenientes debido a que requiere un número elevado de
realizaciones del experimento.
Probabilidad según Laplace o a posteriori
Formulada en el siglo XVIII por Pierre Simon Laplace, la regla o Ley de Laplace forma parte de la teoría de
la probabilidad. También recibe el nombre de regla de sucesión, y es ampliamente utilizada hoy en día para
estimar las probabilidades de que se produzca determinado evento.
La Ley de Laplace es una fórmula ampliamente utilizada en estadística con el objetivo de calcular
probabilidades de un experimento cuando los resultados del mismo tienen la misma probabilidad de
realizarse. Así, la Ley de Laplace consiste en el cociente entre los resultados probables y los resultados
posibles de un experimento con una variable aleatoria.
n de casos favorables a A A
P( A) = =
n total de casos 
Donde:
1
ING. CIVIL
Casos totales o posibles: son todos los resultados posibles que se pueden obtener al realizar un
experimento. Por ejemplo, si tiramos un dado de 6 caras, hay 6 resultados posibles. Sin embargo, si el dado
tuviera 20 caras, los resultados posibles serían 20 diferentes.
Casos favorables: son aquellos resultados que alumbra un experimento de forma secuencial, siendo estos
resultados excluyentes. Así, si se da un resultado, no se darán los otros. Por ejemplo, y siguiendo con el
ejemplo anterior del dado, si sale un 5, no podrá salir un 2 y viceversa. En cualquier caso, cada cara del
dado es un resultado probable.
Ámbitos en los que se aplica la Ley de Laplace
La Ley de Laplace tiene dos grandes aplicaciones. Por un lado, es ampliamente utilizada para los análisis
de riesgo y en el comercio de los mercados de materias primas. No obstante, tiene muchas más
aplicaciones:
• Regulación ambiental.
• Medición del bienestar.
• Análisis del riesgo.
• Fiabilidad de diferentes bienes de consumo como los automóviles o los electrodomésticos.
• Investigación biomédica: en la investigación biomédica, las diferentes fórmulas de probabilidad
son ampliamente utilizadas, ya que resultan fundamentales para conocer con qué probabilidad se
darán los diferentes resultados posibles de un experimento que se está llevando a cabo. Además,
este tipo de fórmulas permite al investigador determinar la probabilidad de cualquier elemento en
la muestra poblacional sobre la que está realizando el experimento.
• Teoría de la probabilidad: la Ley de Laplace es fundamental para la teoría de la probabilidad, una
rama de las matemáticas que estudia los acontecimientos aleatorios. La regla de Laplace es
fundamental para estudiar las probabilidades, aunque existen otras reglas que son también de
gran importancia, tal es el caso de la regla de la adición o la suma —a través de la cual se
determina la probabilidad de que ocurra un evento gracias a la suma de las probabilidades
individuales—, o la regla de la multiplicación —a través de la cual se determina la probabilidad de
que ocurran dos o más eventos independientes gracias a la multiplicación de las probabilidades
individuales—.
Sin duda, la Ley de Laplace es fundamental para entender la teoría de la probabilidad y es muy utilizada
hoy en día, sobre todo en el campo de la investigación biomédica.
La ventaja que tiene esta visión de la probabilidad es que no requiere una experimentación previa, así
también presenta el inconveniente de requerir un muestral finito y sucesos elementalmente equiprobables.
Por ejemplo, el lanzamiento de dos dados distinguibles y observación de las puntuaciones individuales.
P(A)= 1/6
Probabilidad según Kolmogorov
En 1930 Andréi Kolmogorov desarrolló la base axiomática de la probabilidad utilizando teoría de la medida,
formuló lo que, arbitrariamente, muchos probabilistas denominan la axiomática clásica.
Axioma 1: Los eventos forman una σ -álgebra “s”, es decir, una clase cerrada respecto de las operaciones
de unión, intersección y negación de conjuntos numerables de eventos y del límite de sucesiones de
eventos, es decir:
2
ING. CIVIL

a) Si E j s ( j = 1, 2,..., ) entonces, E j  s (como se verá en la próxima sección, la
j =1
condición de que “s” sea cerrada con respecto a la unión infinita de eventos ha sido muy criticada
por muchos probabilistas debido a que no surge de la aplicación de un razonamiento intuitivo);

b) Si E j s ( j = 1, 2,..., ) entonces, E j s (en realidad, dado que
j =1
E  E ' = ( E  E ') − ( E − E ' )  ( E '− E )  , esta propiedad es una consecuencia del
postulado a)
c) Dada una sucesión de eventos  E1 , E2 ,... pertenecientes a “s”, entonces, lim E j  s
j →
Axioma 2:   s
Axioma 3: Asociado a cada evento E  s , existe un número real no-negativo, p(E), al que se denominará
“probabilidad de ocurrencia del evento E”.
Axioma 4: La probabilidad de que ocurra al menos uno de los eventos incluidos en el espacio muestral es
igual a uno, p() = 1
Axioma 5 (de aditividad): Sean E1 y E2 dos eventos incompatibles, es decir, tales que no pueden
presentarse en forma simultánea ( E1  E2 =  ), entonces se verificará que:
p( E1  E2 ) = p( E1 ) + p( E2 )
Axioma 6 (teorema de continuidad): Dada una sucesión monótona de eventos,
Ei  Ei +1 (i = 1, 2,3,...) , se puede escribir:
Ei = E1  ( E1  E2 )  ...  ( Ei −1  Ei ) (i = 1, 2,3,...)
De lo que resulta que:

i
p( Ei ) = p( E1 ) +  p( E j −1  E j ) ( j = 2,3,...)
j =2
Aplicando m. a m. el operador límite, será:
   
lim p( Ei ) = p( E1 ) +  p( E j −1  E j ) = p  E1  ( E j −1  E j )  =
i →
j =2  j =2 
    
i →
 

 j =2   
(
p lim  E1   ( E j −1  E j )    = p lim Ei
i →
)
Lo que demuestra que la probabilidad es una función continua respecto a cualquier sucesión monótona de
eventos. Por otra parte, si dicha sucesión es tal que Ei  Ei +1 (i = 1, 2,3,...) , entonces, se verificará que
Ei  Ei +1 (i = 1, 2,3,...) y, por lo tanto, dada la existencia del límite de la sucesión de las p( Ei ) será:
3
ING. CIVIL
i → i →

 i =1

lim p( Ei ) = 1 − lim p( Ei ) = 1 − p  ( Ei )  =

 
(
p  ( Ei )  = p lim Ei
 i =1  i →
)
Dados los cinco primeros axiomas, se demuestra fácilmente que este sexto axioma (o teorema) de
continuidad es equivalente a la condición de aditividad completa o aditividad numerable o σ -aditividad (que,
obviamente, contiene a la aditividad simple como caso particular): Sea E1 , E2 ,..., En ,... un conjunto de
eventos incompatibles de a pares (es decir, tales que Ei  E j =  (i  j; i, j = 1, 2,3,...) ). Por
inducción, se demuestra que:
n +1  n 
E j =  E j  + En+1
j =1  j =1 
Dado que cualesquiera de los eventos son incompatibles, será:
 n+1   n  n +1
p Ej  = p  E j  + p ( En +1 ) =  p( E j )
 j =1   j =1  j =1
De la misma forma, se puede escribir:

  n    
Ej =  Ej   Ej 
j =1  j =1   j =n+1 
y, como cada uno de los eventos E j ( j = 1, 2,...) es incompatible con cada uno de los eventos
E j ( j = n + 1, n + 2,...) , se verificará que:
   n     n   
p Ej  = p Ej  + p E j  =  p(E j ) + p  Ej  =
 j =1   j =1   j = n +1  j =1  j = n +1 
n    
= lim  p( E j ) + lim p  E j  =  p( E j )
n → n →
j =1  j = n +1  j =1

Debe tenerse en cuenta que los eventos E j definen una sucesión decreciente, es decir que
j = n +1
      
 E j    E j  De modo que lim Ej = 0

n →
 j = n   j = n +1  j = n +1
Los axiomas de la teoría de probabilidad fueron sintetizados por A.N. Kolmogorov en 1933 en:
Axioma I: A cada suceso A le corresponde un número no negativo P(A) llamado probabilidad del
suceso A
Axioma II: La probabilidad del espacio muestral es 1: P(Ω)=1
Axioma III. Si A1, A2, … es un conjunto finito o numerable de sucesos incompatibles dos a dos,
entonces:
 n  n
P  Ai  =  P( Ai )
 i =1  i =1
4
ING. CIVIL
Probabilidad condicional. Fórmulas de la probabilidad total y de Bayes

Consideremos un espacio de probabilidad (Ω, A, P) y dos sucesos cualesquiera A, B, con P(A) > 0.
Definimos la probabilidad condicional de B dado A, que designamos P(B|A), mediante la fórmula:
P( AB)
P( B | A) =
P( A)
Veamos que la probabilidad condicional así definida (dado el suceso A fijo) verifica todos los axiomas. Es
claro que P(B|A) ≥ 0 para cualquier suceso B, de forma que el axioma I se verifica. Continuando:
P(A) P( A)
P( | A) = = = 1 y el axioma II también se verifica
P( A) P( A)
Sea B1, B2, . . . un conjunto finito o numerable de sucesos incompatibles dos a dos. Tenemos:
    
P  A  Bi   P  ABi   P ( ABi )
   i  P ( ABi )
P Bi | A  =  =  i = i = =  P ( Bi | A)
 i  P( A) P( A) P( A) i P( A) i
La probabilidad de ocurrencia del conjunto de sucesos incompatibles dado el suceso A, es igual a la suma
de las probabilidades de ocurrencia de cada suceso incompatible dado A.
Se verifica el Axioma III. En conclusión, si (Ω, A, P) es un espacio de probabilidad,
la terna (Ω, A, P( ·|A)) donde A es un suceso con probabilidad positiva, también resulta ser un espacio de
probabilidad.
Consideremos ahora el caso particular en el que está compuesto por n puntos, a los cuales se les asignan
probabilidades idénticas. De esta forma, es aplicable la regla clásica del cálculo de probabilidades. Para un
suceso C arbitrario, designamos mediante nC la cantidad de sucesos elementales que componen C.
Entonces P(C) = nC/n, y para la probabilidad condicional tenemos:
P( AB) nAB / n nAB
P( B | A) = = =
P( A) nA / n nA
Probabilidad total:
Consideremos sucesos A1, . . . ,An incompatibles dos a dos, tales que alguno de ellos ocurre, y con
probabilidades positivas. Sea B un suceso arbitrario. Entonces:
n
P ( B ) =  P( Ai )P( B | Ai )
i =1
Fórmula de Bayes:
Consideremos sucesos A1, . . . ,An incompatibles dos a dos, tales que alguno de ellos ocurre, y con
probabilidades positivas. Sea B un suceso con probabilidad positiva. Entonces:
P ( Ak ) P ( B | Ak )
P ( Ak | B ) = (k = 1, 2,..., n)
 P ( Ai ) P( B | Ai )
n
i =1
Esta igualdad se denomina “fórmula de Bayes”.
La probabilidad bayesiana es una de las diferentes interpretaciones del concepto de probabilidad. La
interpretación bayesiana de la probabilidad puede ser vista como una extensión de la lógica proposicional
que permite razonar con hipótesis, es decir, las proposiciones cuya veracidad o falsedad son inciertas.
Probabilidad bayesiana
La probabilidad bayesiana pertenece a la categoría de las probabilidades probatorias: para evaluar la
probabilidad de una hipótesis, la probabilista bayesiana especifica alguna probabilidad a priori, que se
5
ING. CIVIL
actualiza a continuación, a la luz de nuevos y relevantes datos (en pruebas). La interpretación bayesiana
proporciona un conjunto estándar de los procedimientos y las fórmulas para realizar este cálculo.
En contraste con la interpretación de la probabilidad como la "frecuencia" o "propensión" de algún

fenómeno, la probabilidad bayesiana es una cantidad que se asigna para el propósito de representar un
estado de conocimiento, o un estado de creencia. En la vista bayesiana, una probabilidad se asigna a una
hipótesis, mientras que, bajo el punto de vista frecuentista, una hipótesis es típicamente probada sin ser
asignada una probabilidad.
El término "bayesiano" se refiere al matemático del siglo XVIII y teólogo Thomas Bayes, que proporcionó
el primer tratamiento matemático de un problema no trivial de la inferencia bayesiana. El matemático Pierre-
Simon Laplace fue pionero y popularizó lo que ahora se llama probabilidad bayesiana.
En términos generales, hay dos puntos de vista sobre la probabilidad bayesiana que interpretan el concepto
de probabilidad de diferentes maneras. Según el punto de vista objetivista, las reglas de la estadística
bayesiana pueden justificarse por exigencias de la racionalidad y la coherencia, y la interpretan como una
extensión de la lógica. Según la visión subjetivista, cuantifica la probabilidad de una "opinión personal".
Muchos métodos modernos de aprendizaje automático se basan en los principios bayesianos objetivistas.
2-Variable aleatoria continua y discreta. Propiedades. Funciones de variable aleatoria. Criterios de

convergencia. Aplicaciones
Definición
Una variable aleatoria X es una función real definida en el espacio de probabilidad (Ω, F, P), asociado a un
experimento aleatorio.
X : →
La definición anterior involucra conceptos matemáticos procedentes de la teoría de la medida. Dado un
espacio de probabilidad (Ω, F, P) y un espacio medible (S, ), una aplicación X :  → S , es una
variable aleatoria si es una aplicación A,  medible. En el uso ordinario, los puntos   no son
directamente observables, sólo el valor de
la variable en el punto X(w) por lo que el elemento probabilístico reside en el
desconocimiento que se tiene del punto concreto “w”.
Se denomina rango de la variable aleatoria X y se denota como R X , al conjunto
de valores que esta puede tomar, según la aplicación X.
RX =  x  / w   : X ( w) = x
En la mayoría de los casos se toma como espacio medible de llegada, el formado
por los números reales, junto con la  -álgebra de Borel, quedando la definición de esta
manera:
Dado un espacio de probabilidad, (Ω, F, P) una variable aleatoria real es cualquier función F/B(R) es
medible, donde B(R) es la  -álgebra boreliana.
Ejemplo:
Suponiendo que se lanzan dos monedas al aire, donde los posibles resultados que
conforman el espacio, muestral son:
 = cc, xx, cx, xc
donde las c representan que salió cara y las x que salió cruz. Se puede asignar entonces a cada suceso
experimental, el número de caras que se obtienen. De esta manera se define a la variable aleatoria X como,
X : →
dada por:
6
ING. CIVIL
cc → 2
cx, xc → 1
xx → 0
El rango de esta variable aleatoria es el conjunto
RX = 0,1, 2
Variable aleatoria continua y discreta

En principio definiremos las variables aleatorias discretas y continuas así:
• Variable aleatoria discreta: aquella tal que la cantidad de valores posibles que puede tomar es
finita, o infinita pero numerable. En otras palabras, aquella cuyos valores posibles son todos puntos
aislados del conjunto de valores posibles. Dicho incluso de una tercera forma: aquella tal que si
tomamos dos cualesquiera de sus valores posibles, hay entre ellos una cantidad finita de valores
posibles.
• Variable aleatoria continua: aquella que no es discreta, es decir, aquella tal que la cantidad de
valores posibles es infinita y no numerable. ¿A qué nos referimos con infinito numerable y no
numerable? Por ejemplo, el conjunto de los números naturales tiene una cantidad finita pero
numerable de elementos, porque sus elementos se pueden enumerar. En cambio, el conjunto de
los números reales tiene una cantidad infinita no numerable de elementos, porque sus elementos
no se pueden enumerar.
Entonces una variable aleatoria es discreta cuando se pueden enumerar sus valores posibles (aunque sean
infinitos) y es continua cuando no se pueden enumerar. Dicho de otra forma, el rango (conjunto de valores
posibles) de una variable aleatoria discreta es la unión de puntos aislados (en una recta, en un plano, etc.),
mientras que el rango de una variable aleatoria continua es uno o varios segmentos de recta, una superficie
en un plano, etc.
De la definición de variable aleatoria continua podríamos inferir que, como cada valor posible es un punto
en un continuo, es decir, un resultado posible entre una cantidad infinita y ni siquiera numerable de
resultados posibles, entonces la probabilidad de que ocurra ese resultado posible es "cero". Ese cero es
comparable a la longitud de un diferencial de longitud o a la superficie de un diferencial de área. Es decir,
no es que sea cero, porque si no, no sería un resultado posible. Es una probabilidad de orden diferencial
(tiende a cero), por lo cual a los fines prácticos consideramos que vale cero.
Funciones de variable aleatoria
Función de densidad de probabilidad

Esta función le asigna a cada valor posible de la variable aleatoria un número real que consiste en la
probabilidad de que ocurra, y por supuesto debe cumplir con las 2 condiciones que enunciamos antes:
a. No puede ser negativa en ningún punto
b. La suma de las probabilidades de todos los valores da 1.
Puede pensarse que la condición "a" es insuficiente, porque la probabilidad no solamente no puede ser
menor que cero, sino tampoco mayor que uno. Pero agregar esa condición sería redundante, porque la
condición "b" garantiza que eso no puede ocurrir, ya que si la probabilidad para un valor fuera mayor que
1, como ninguna probabilidad puede ser negativa entonces la suma daría necesariamente mayor a 1
Si X es discreta:
PX(x) es una función que a cada valor posible le asigna su probabilidad.
PX(x) es una función de densidad de probabilidad discreta si y solo si cumple con:
1. PX ( x)  0 x
2.  P ( x) = 1
x
X
Ejemplo:
7
ING. CIVIL
X: el número que sale al tirar un dado honesto:
Si X es continua:
Habíamos dicho que la probabilidad de que una variable aleatoria continua asumiera un determinado valor
es cero. Entonces trabajaremos con intervalos: f X(x) es una función que integrada entre a y b nos da la
probabilidad de que la variable aleatoria X asuma un valor entre a y b.
fX(x) es una función de densidad de probabilidad continua si y solo si cumple con:
1. f X ( x)  0 x

2. 
−
f X ( x) dx = 1
Ejemplo:
X: el resultado de elegir un número real al azar entre 4 y 6:
0.5 4  x  6
f X ( x) = 
0  otro x
Luego la probabilidad de que X caiga en un determinado intervalo es el área bajo la curva de f X en ese
intervalo
Cálculo de probabilidades con la función de densidad
Si X es discreta:
P ( X = x ) = PX ( x) porque la función PX(x) nos da justamente la probabilidad
de que X asuma el valor x.
x porque la probabilidad de que X ≤ x es la probabilidad de
P ( X  x ) =  PX ( x) que X valga x o cualquier valor menor que x.
−
8
ING. CIVIL
 x  es igual que la anterior pero le restamos P(X = x) porque

P ( X  x ) =   PX ( x)  − P( X = x) estamos pidiendo que X sea estrictamente menor que x,
 −  lo
cual no incluye al valor x.
 porque la probabilidad de que X ≥ x es la probabilidad de
P ( X  x ) =  PX ( x) que X valga x o cualquier valor mayor que x.
x
   es igual que la anterior pero le restamos P(X = x) porque

P ( X  x ) =   PX ( x)  − P ( X = x) estamos pidiendo que X sea estrictamente mayor que x,
 x  lo
cual no incluye al valor x.
b porque la probabilidad de que X esté entre a y b es la
P ( a  X  b ) =  PX ( x ) probabilidad de que valga a, el valor siguiente de a, el
a
siguiente, ..., ó b.
Si X es continua:
P ( X = x) = 0 porque la probabilidad de un punto en un continuo es cero
x porque la probabilidad de que X ≤ x es la probabilidad de
P ( X  x) =  f X ( x) dx que X caiga en el intervalo (-; x]
−
P ( X  x) = P ( X  x) P ( X  x) = P ( X  x) − P ( X = x) =
= P ( X  x) − 0 = P ( X  x)
solo sucede con las variables
aleatorias continuas, porque un determinado punto tiene probabilidad
cero. En las variables aleatorias discretas, los puntos no tienen
probabilidad cero.
 porque la probabilidad de que X ≤ x es la probabilidad de
P ( X  x ) =  f X ( x) dx que X valga x o cualquier valor mayor que x
x
P ( X  x) = P ( X  x) por razones análogas al caso de P(X < x)

b porque la probabilidad de que X esté entre a y b es la suma
P ( a  X  b ) =  f X ( x) dx de todos los diferenciales de probabilidad en el intervalo
a [a; b]
Función de distribución de probabilidad

(también conocida como función de distribución de probabilidad acumulada a izquierda)
Esta función se nota con la F mayúscula tanto para las distribuciones discretas como continuas. Vale F X(x)
= P(X ≤ x). Se la llama función de distribución acumulada porque indica la probabilidad "acumulada" por
todos los valores con probabilidad no nula desde - hasta x.
x
- Para una variable aleatoria discreta: FX ( x) =  P ( x)
−
X
x
- Para una variable aleatoria continua: FX ( x) =  P ( x) dx
−
X
Para ser función de distribución de probabilidad, FX(x) debe cumplir:
1) lim FX ( x) = 0 porque la probabilidad de que X sea menor a infinito negativo, es cero

x →−
9
ING. CIVIL
2) lim FX ( x) = 1 porque la probabilidad de que X sea menor a infinito es 1

x→ 
3) FX(x) monótonamente creciente (es decir, nunca puede ser decreciente). Porque la probabilidad
de que X sea menor que un cierto valor no puede ser menor a la probabilidad de que X sea menor
a valor mayor que él. Ejemplo: P(X ≤ 5) no puede ser nunca mayor que P(X ≤ 6). A lo sumo podrá
ser igual.
Formalmente: si b>a, entonces FX(b) ≥ FX(a)
4) lim FX ( x + h) = FX ( x) (es decir que FX(x) es continua por la derecha). Esto es diferente en
h →0
variables aleatorias discretas y continuas.
Variables aleatorias discretas:
La probabilidad acumulada comienza siendo cero (en -). Sigue siendo cero hasta que encuentra el primer
valor con probabilidad no nula. A partir de ese valor, la probabilidad acumulada es la probabilidad de ese
primer punto. Dicha probabilidad acumulada se mantiene igual, hasta que se llega al segundo punto con
probabilidad no nula. A partir de ese punto, la probabilidad acumulada vale la suma de las probabilidades
de esos dos puntos. Y así sucesivamente hasta llegar al último valor con probabilidad no nula, a partir del
cual la probabilidad acumulada vale uno. Observemos que
el "salto" dado por la función de distribución acumulada en
cada punto es igual a la probabilidad de ese punto (porque
esa probabilidad es lo que se "agrega" a la suma
acumulada a partir de ese punto). Esto nos muestra que la
función tendrá una discontinuidad por izquierda en cada
punto con probabilidad no nula, porque la función da el
"salto". Pero por derecha es continua, porque a partir de
cada valor con probabilidad no nula (incluyendo el valor) la
función vale lo mismo (hasta llegar al próximo punto con
probabilidad no nula).
Variables aleatorias continuas:

Como lo que se va sumando en cada punto son
diferenciales de probabilidad, entonces la función de
distribución acumulada resulta siempre continua, tanto por derecha como por izquierda. Incluso algunos
autores definen que una variable aleatoria es continua <=> su función de distribución acumulada es
continua. Observemos ahora un gráfico que nos permite obtener una idea intuitiva de la relación entre la
función de densidad y la función de distribución:
10
ING. CIVIL
A la izquierda: función de densidad probabilística y función de distribución de una variable aleatoria discreta.
A la derecha, ambas funciones en una variable aleatoria continua.
Tipos de distribuciones de probabilidad
Según el tipo de variable a estudiar, las cuatro principales (de las que nacen todas las demás) son:
a. Si la variable es una variable discreta (números enteros), corresponderá una distribución discreta,
de las cuales existen:
I. Distribución binomial (eventos independientes).
II. Distribución de Poisson (eventos independientes).
III. Distribución hipergeométrica (eventos dependientes).
b. Si la variable es continua (números reales, la distribución que se generará será una distribución
continua. Ejemplos de ellas son:
I. Distribución normal o gaussiana.
II. Distribución de Cauchy
III. Distribución exponencial
Además, se puede utilizar la «distribución de Poisson como una aproximación de la distribución binomial»
cuando la muestra por estudiar es grande y la probabilidad de éxito es pequeña. De la combinación de los
dos tipos de distribuciones anteriores (a y b), surge una conocida como «distribución normal como una
aproximación de la distribución binomial y de Poisson».
Experimento de Bernoulli
Es un experimento que puede arrojar 2 resultados posibles. A uno de los resultados se lo denomina
arbitrariamente "éxito" y al otro "fracaso". El experimento de Bernoulli lleva asociada una probabilidad (la
probabilidad de "éxito"). Veamos el ejemplo siguiente:
Ejemplo
Si voy a tirar un dado, y lo que voy a observar es si sale o no sale un 5, entonces esto puede ser visto como
un experimento de Bernoulli constituido así:
11
ING. CIVIL
· Éxito: que salga un 5

· Fracaso: que no salga un 5
· Probabilidad de éxito: p = 1/6
· Probabilidad de fracaso: q = 1-p = 5/6
Como vimos, p es la probabilidad de éxito, es decir, la probabilidad de que se cumpla la condición que
queríamos observar. Y la probabilidad de fracaso, es decir, de no-éxito, 1-p, a menudo se encuentra escrita
como q.
Proceso de Bernoulli
Consiste en hacer n veces un experimento de Bernoulli, teniendo en cuenta:
I. Que las condiciones no varían. (Ejemplo: la moneda que arrojo n veces sigue siendo la misma y
no se deforma). Es decir, que la probabilidad p de obtener un éxito en la 5ta vez es la misma que
la de obtener un éxito en la 8va vez.
II. Que cada uno de los experimentos es independiente (Ejemplo: que haya salido cara en la 5ta vez
que tiré la moneda, no me afecta lo que salga en la 8va vez).
Se definen las siguientes variables:
· n : la cantidad de veces que se hace el experimento
· p : la probabilidad de que un experimento arroje éxito.
· k : la cantidad de veces que se obtiene éxito en las n veces que se hace el experimento.
Ejemplo
Si arrojo una moneda 8 veces, con probabilidad 0,5 de que salga cara (considerando cara como éxito) y
sale cara 5 veces, tengo:
·n=8
· p = 0,5
·k=5
Generalmente conocemos el valor de p, y entonces nos preguntamos cuántos éxitos obtendremos haciendo
el experimento una determinada cantidad de veces, o cuántas veces tendremos que hacer el experimento
para obtener una determinada cantidad de éxitos.
De esta forma obtenemos 2 distribuciones:
- Binomial: consiste en preguntar por la cantidad de éxitos en n veces. Es decir, dado n, calcular la
distribución de k.
- Pascal: consiste en preguntar por la cantidad de veces necesarias para obtener k éxitos. Es decir,
dado k, calcular la distribución de n.
- Geométrica: caso particular de Pascal cuando k = 1, es decir, consiste en preguntar por la cantidad
de veces necesarias para obtener el primer éxito.
Distribución Binomial
"¿Cuál es la probabilidad de obtener x éxitos en n intentos?"
Si X: Bi (n; p)
12
ING. CIVIL
es decir: X es una variable binomial con parámetros n y p. X es la variable que representa la cantidad de
éxitos obtenidos en n experimentos de Bernoulli independientes cada uno con probabilidad de éxito
 n  x n− x
  p .(1 − p) 0 xn
P( X = x) =  x 
0  otro x

n n!
 = Coeficiente binomial
 x  x !(n − x)!
Donde n es un número natural, y “p” es un número real entre 0 y 1.

Ejemplo:
Supongamos que se lanza 51 veces un dado de 6 caras y queremos calcular la probabilidad de que el
número 3 salga 20 veces. En este problema un ensayo consiste en lanzar el dado una vez. Consideramos
un éxito si obtenemos un 3 pero si no sale 3 lo consideramos como un fracaso. Defínase X como el número
de veces que se obtiene un 3 en 51 lanzamientos.
En este caso tenemos X: Bi (51; 1/6) por lo que la probabilidad buscada es P  X = 20
 51 
P  X = 20 =   (1/ 6) 20 (1 − 1/ 6)51−20 = 0.0000744
 20 
Propiedades:
Si X es una variable aleatoria discreta tal que X:Bi(n,p), entonces:
E ( X ) = n. p
 2 X = n. p.(1 − p)
Distribución Geométrica
"¿Cuál es la probabilidad de obtener el primer éxito en el intento número x?"
Si X:Geom (p)
es decir: X es una variable geométrica con parámetro p. X es la variable que representa el número del
intento en el cual se obtiene el primer éxito en experimentos de Bernoulli independientes cada uno con
probabilidad de éxito p.
entonces:
 p.(1 − p) x −1 x  1
P( X = x) = 
0  otro x
13
ING. CIVIL
1
E( X ) =
p
1− p
 X2 = 2
p
p es un número real entre 0 y 1
Sabemos que nos encontramos frente a una distribución geométrica cuando:
- Nos dicen que vamos a repetir un determinado experimento hasta que logremos un éxito (ejemplo:
que vamos a revisar piezas hasta que encontremos una que no sea defectuosa, o que vamos a
disparar contra un blanco tantas veces como sea necesario hasta que acertemos, o que vamos a
observar días hasta que haya un día soleado, etc.)
- Nos dan o podemos calcular la probabilidad de tener éxito en cada uno de los intentos (la
probabilidad de que cada pieza sea buena, la probabilidad de acertar cada vez que disparamos,
la probabilidad de que un día sea soleado, etc.)
- Nos preguntan cuál es la probabilidad de que logremos el objetivo en menos de x repeticiones, o
la probabilidad de que nos tome más de x intentos lograr el objetivo, o la probabilidad de que lo
logremos exactamente en el x-ésimo intento.
La única dificultad que esta distribución puede presentar es el cálculo de la probabilidad de tener éxito en
cada uno de los intentos. Una vez obtenido ese valor, tendremos el parámetro p de la distribución, y el uso
de la fórmula será inmediato. La distribución geométrica en realidad es un caso particular de la distribución
de Pascal (explicada en la siguiente sección). Una variable geométrica puede ser vista como una variable
de Pascal cuyo parámetro p es el mismo que el de la geométrica, y cuyo parámetro k es igual a 1. De ahí
que sumar variables geométricas es en esencia como sumar variables de Pascal, y de ahí que la suma de
variables geométricas es una variable de Pascal. Por esto, si sospechamos que en un problema tendremos
que sumar variables geométricas, puede resultar una idea bastante práctica considerarlas desde el principio
variables de Pascal. De hecho la distribución geométrica se enseña separada de la pascal porque es más
fácil aprender del caso particular al caso general.
Una característica de la distribución geométrica que es importante destacar, es lo que se conoce como
"falta de memoria". Se dice que la distribución geométrica "no tiene memoria". Esta característica también
la tiene su análoga continua, la distribución exponencial negativa. ¿De qué se trata? La distribución
geométrica no es afectada por lo que vino antes. Es decir, no importa desde cuándo empecemos a contar,
siempre la probabilidad de las distintas cantidades de intentos hasta alcanzar un éxito estará distribuida de
la misma forma. No importa si empezamos a contar justo después de un éxito, o después de una racha de
30 fracasos.
Distribución de Pascal
"¿Cuál es la probabilidad de obtener el k-ésimo éxito en el intento número x?"
Si X:Pas (k ; p)
es decir: X es una variable de pascal con parámetros k y p. X es la variable que representa el número del
intento en el cual se obtiene el éxito número k en experimentos de Bernoulli independientes cada uno con
probabilidad de éxito p.
14
ING. CIVIL
 x − 1 k
  p .(1 − p) x −k xk
P( X = x) =  k − 1
0  otro x

k
E( X ) =
p
k (1 − p)
 X2 =
p2
k es un número natural
p es un número real entre 0 y 1
Sabemos que nos encontramos frente a una distribución de pascal cuando:

- nos describen un experimento de Bernoulli (probabilidad de que una determinada pieza sea
defectuosa: 0,2; probabilidad de que una operación resulte exitosa 0,9; etc.)
- nos dicen que vamos a seguir hasta el k-ésimo éxito (hasta que encontremos 500 piezas no
falladas; hasta lograr 8 operaciones exitosas; etc.)
- nos preguntan cuál es la probabilidad de que logremos el objetivo en menos de x repeticiones, o
la probabilidad de que nos tome más de x intentos lograr el objetivo, o la probabilidad de que lo
logremos exactamente en el x-ésimo intento.
Al igual que sucedía con la binomial, la principal dificultad con la distribución de Pascal, una vez reconocida,
puede consistir en conseguir la probabilidad de que un intento resulte exitoso. Luego para averiguar la
cantidad de intentos necesarios para obtener k éxitos el uso de la fórmula es bastante inmediato.
Proceso de Poisson
Es un proceso que consiste en considerar un continuo, en el cual ocurren eventos. Si por ejemplo
consideramos la cantidad de fallas que una máquina tiene en 3 horas, el continuo es el tiempo, y los eventos
son las fallas de la máquina. Otro ejemplo puede ser considerar la cantidad de muertes por determinada
enfermedad en un año. Pero el continuo al que nos referimos no tiene necesariamente que ser tiempo. Por
ejemplo podemos considerar un rollo de tela de 100 metros de longitud y contar la cantidad de manchas en
ese tramo. En ese ejemplo, el continuo es la tela y los eventos las manchas.
Se definen las siguientes variables:
· T : la longitud de un intervalo del continuo que va a estudiarse.
· k : la cantidad de eventos que hay en ese intervalo.
·  : la cantidad esperada de eventos por unidad de tiempo (intensidad).
Generalmente conocemos el valor de , y entonces nos preguntamos cuántos eventos obtendremos en

una determinada cantidad de tiempo, o cuánto tiempo tendremos que esperar hasta observar una
determinada cantidad de eventos. De esta forma obtenemos 2 distribuciones:
· Poisson: consiste en preguntar por la cantidad de eventos en el período T. Es decir, dado T, calcular la
distribución de k.
· Gamma: consiste en preguntar por la cantidad de tiempo necesario hasta observar k eventos. Es decir,
dado k, calcular la distribución de T.
15
ING. CIVIL
Y además:
· Exponencial negativa: caso particular de Gamma cuando k = 1, es decir, consiste en preguntar por la
cantidad de tiempo necesaria hasta obtener el primer evento.
Distribución de Poisson
"¿Cuál es la probabilidad de obtener x eventos en el intervalo estudiado?"
Si bien el proceso de Poisson trabaja con los parámetros “T” (longitud del intervalo) y “” (intensidad), la
distribución de Poisson usa solamente el parámetro  = .T .Como “T” es la longitud del intervalo, y “”
es la cantidad esperada de eventos por unidad de tiempo, entonces “µ” resulta ser la media. Es decir que
esta distribución tiene la característica de que su media resulta valer directamente lo mismo que valga el
parámetro µ.
Si
X: Pois (µ)
es decir: X es una variable Poisson con media “µ”. es decir: X es la variable que representa la cantidad de
eventos obtenidos en un intervalo de longitud T e intensidad .
Entonces:
 e−   x
 x0
P( X = x) =  x !
0 x0

E( X ) = 
 X2 = 
 es un número real positivo
Sabemos que nos encontramos frente a la necesidad de emplear una distribución Poisson cuando existe
un determinado intervalo en el cual suceden eventos, y necesitamos calcular cuántos eventos sucederán
en dicho intervalo. Puede ser que nos den la longitud del intervalo y la intensidad, o que directamente nos
den la media.
Cuando nos dan la longitud del intervalo y la intensidad:
- T. El intervalo es continuo, pero no tiene por qué necesariamente ser tiempo. Ejemplos de
intervalos: 2 horas, 3 metros de tela, 10 km. de una ruta, etc. Siempre será un número multiplicado
por una unidad de medida, o algo que deba ser interpretado o tomado como una unidad de medida.
- . La intensidad es la cantidad esperada de eventos por unidad de tiempo.
Ejemplos de intensidades: 4 visitantes por hora, 5 fallas por metro de tela, 3 baches por km., etc. Vemos
que siempre sus unidades serán una unidad de evento (visitantes, fallas, baches, etc.) dividida por una
unidad de medida del mismo tipo que la del intervalo (Es decir, si el intervalo es 3 metros de tela, es decir,
longitud de tela, la intensidad deberá ser una cierta cantidad de algo por unidad de longitud de la tela, por
ejemplo 5 fallas por metro de tela).
Cuando nos dan directamente la media: puede ser que directamente nos digan el valor de la media, o que
nos digan, por ejemplo, "3 errores por página", en un contexto donde se sobreentiende que estamos
16
ING. CIVIL
hablando de una (y sólo una) página. Notemos que la en la media ya están "incluidos" tanto la intensidad
como la duración, y por lo tanto una distribución con 2 eventos/hora en 5 horas, será idéntica a una
distribución con 1 evento/hora en 10 horas.
Una vez determinada la media, el problema ya no tiene mucha dificultad. No debemos olvidar suponer que
el hecho de que en un determinado momento ocurra un evento, no nos afecta la probabilidad de tener o no
más eventos, y cuándo ocurrirán.
Distribución Exponencial Negativa
"¿Cuál es la probabilidad de tener que esperar x tiempo hasta obtener el primer evento?"
Si
X: ExpNeg()
es decir: X es una variable Exponencial Negativa con intensidad .X es la variable que representa el tiempo
que hay que esperar hasta obtener el primer evento en un continuo con intensidad de eventos .
Entonces:
  e−  x  x
 x0
P( X = x) =  x !
0 x0

1
E( X ) =

1
 X2 =
2
 es un número real positivo
Sabemos que nos encontramos frente a una distribución exponencial negativa cuando:
- nos describen un continuo en el cual suceden eventos, como por ejemplo visitas a lo largo de un
día, defectos a lo largo de una tela, fallas de un circuito a lo largo de un determinado período, etc.
- nos dicen que vamos a continuar observando hasta que suceda el primer evento.
Ejemplo: hasta que llegue una visita, hasta que encontremos un defecto en la tela, hasta que el
circuito falle, etc. Y también lo pueden decir al revés: mientras no llegue ninguna visita, mientras
no encontremos un defecto en la tela, mientras el circuito no falle, etc.
- nos dan o nos permiten calcular la frecuencia promedio con que lo eventos suceden (l). Ejemplo:
3 visitas cada 15 minutos, 2 defectos por metro de tela, 3 fallas del circuito por día.
- nos preguntan acerca del tiempo, por ejemplo: cuál es la probabilidad de que el evento suceda en
menos de x tiempo, la probabilidad de que tome más de x tiempo, etc.
Es importante saber que en un proceso Poisson, el intervalo de tiempo entre dos eventos consecutivos es
siempre una variable exponencial negativa.
Otra característica de la distribución exponencial que es importante destacar, es lo que se conoce como
"falta de memoria". Se dice que la distribución exponencial "no tiene memoria". Esta característica también
la tiene su análoga discreta, la distribución geométrica.
Distribución Gamma
"¿Cuál es la probabilidad de tener que esperar x tiempo hasta obtener el k-ésimo evento?"
17
ING. CIVIL
Si X:Gamma (l ; k)
es decir: X es una variable Gamma con parámetros l y k. X es la variable que representa el tiempo que hay
que esperar hasta obtener el evento número k, en un continuo con intensidad de eventos l.
Entonces:
  ( x)k −1 e−  x
 x0
f X ( x) =  ( k )
0 x0

k
E( X ) =

k
 X2 =
2
 es un número real positivo
k es un número natural
(k ) para k natural vale (k − 1)!
Para facilitar el cálculo puede resultar útil:

x0 k =1
 f X ( x) dx = 1 −  P (Y = i )
0 i =0
donde X es la variable gamma con la que estamos trabajando, e Y es una variable de Poisson con m = l .
x0
Sabemos que nos encontramos frente a una distribución gamma cuando:
- nos describen un continuo en el cual suceden eventos, como por ejemplo visitas a lo largo de un
día, defectos a lo largo de una tela, fallas de un circuito a lo largo de un determinado período, etc.
- nos dicen que vamos a continuar observando hasta que suceda una determinada cantidad de
eventos. Ejemplo: hasta que lleguen 5 visitas, hasta que encontremos 10 defectos en la tela, hasta
que el circuito falle por 5ta vez, etc.
- nos dan o nos permiten calcular la frecuencia promedio con que los eventos suceden (l). Ejemplo:
3 visitas cada 15 minutos, 2 defectos por metro de tela, 3 fallas del circuito por día.
- nos preguntan acerca del tiempo, por ejemplo: cuál es la probabilidad de que la cantidad de
eventos indicada suceda en menos de x tiempo, la probabilidad de que tome más de x tiempo,
etc.
Distribución Normal
Cuando la función de densidad es la siguiente:
18
ING. CIVIL
la distribución se llama “normal” o “de Gauss”

1  x− 
2
−  
2  
e
f X ( x) = x 
2 
La gráfica de esta función de densidad se conoce con el nombre de "campana de Gauss".

A primera vista podemos observar:
- A diferencia de todas las distribuciones que vimos anteriormente, es no-nula para todos los
números reales.
- Tiene 2 parámetros, m y s. El parámetro m puede ser cualquier número real, y es, directamente,
la media de la distribución.
El parámetro s puede ser cualquier número real positivo, y es, directamente, el desvío estándar de la
distribución.
La notación X:N(m ;s) significa que la variable aleatoria X tiene una distribución normal con parámetros m
y s, o dicho de otra forma, que la variable aleatoria X tiene una distribución normal, cuya media es m, y
cuya varianza es s2.
Como para todas las distribuciones continuas, para calcular probabilidades podemos plantear:
x
P( X  x) = FX ( x) = 
−
f X ( x) dx
Sin embargo, a los fines prácticos, esta distribución presenta un problema: la integración de una función de
la familia ex² no es un proceso simple. Por tal motivo, en vez de integrar para encontrar el área bajo la
curva, los valores de la función de distribución acumulada F se toman de una tabla. Observemos que, al
ser m y s números reales, hay infinitas distribuciones
posibles, y no se pueden tener infinitas tablas. Es por
eso que se trabaja con una distribución particular
denominada "normal estándar" y lo que se hace es
transformar cualquier normal en una normal estándar,
mediante un proceso denominado estandarización.
Cuando m = 0 y s = 1, la distribución se llama normal
estándar. Se puede demostrar que si X es cualquier
variable aleatoria normal, y tomamos la variable
X −
aleatoria Z = , entonces Z resulta ser una

variable aleatoria normal estándar.
19
ING. CIVIL
X −
Es decir: X : N (  ,  )  Z =  Z : N (0,1)

lo cual puede ser demostrado mediante un simple cambio de variables. Esto nos permite, dada cualquier
variable aleatoria normal, encontrar una variable aleatoria normal estándar, que es la que encontraremos
en las tablas. A la FZ la notaremos con la letra F. El proceso de tomar ese cambio de variables para obtener
una normal estándar a partir de una normal se conoce con el nombre de estandarización.
Distintos tipos de convergencia en teoría de la probabilidad
Consideremos un espacio de probabilidad ( Ω, , P ) y variables aleatorias X , X 1 , X 2 ,  definidas en

este espacio.
Definición 1. Decimos que la sucesión de variables aleatorias X n converge en probabilidad a la

P
variable aleatoria X , y escribimos X n → X , si para todo   0 se verifica
P ( X n − X   ) → 0,
cuando n → .
Es claro que esta definición equivale a la siguiente: Para todo   0 , se verifica
P( Xn − X   ) →1
cuando n →  .
Definición 2. Decimos que la sucesión de variables aleatorias  X n  converge casi seguramente a la

variable aleatoria X , y escribimos X n → X c.s., si X n ( ) → X ( ) para todos los puntos   Ω
, con excepción de un conjunto de probabilidad nula. En otras palabras, X n → X c.s. si se verifica
( )
P  : X n ( ) → X ( ) = 1 .
En análisis real, la convergencia en probabilidad corresponde a la convergencia en medida; la convergencia

casi segura, a la convergencia en casi todo punto. De forma que, como la convergencia en casi todo punto
implica la convergencia en medida, la convergencia casi segura implica la convergencia en probabilidad.
Veamos una demostración directa de este resultado, sin apelar a nociones del análisis real.
Supongamos entonces que X n → X c.s. Esto significa que dado   0 , para cada   Ω , con
excepción de un suceso de probabilidad nula, existe n = n (  ,  ) tal que para todo k  n (  ,  ) ,
tenemos X k ( ) − X ( )   . Es decir, dado   0 , tenemos
20
ING. CIVIL
 
 
P
 n =1 k = n
X k ( )− X ( )   
 = 1.

 
Tomando complemento se obtiene que, dado   0 , tenemos
 
 
P
 n =1 k = n
X k ( )− X ( )   
=0

 

La sucesión de conjuntos En = k =n X n ( ) − X ( )    cumple E 1  E2  . Dado que se
 

verifica la definición 1, por la propiedad 8 obtenemos lim P ( E n ) = P  E n  = 0 . De aquí se obtiene,
n →
 n =1 
que
  
P( Xn − X   )  P X k − X    = P ( En ) → 0
 k =n 
P
Si n →  , para   0 arbitrario. En consecuencia X n → X concluyendo la demostración.
Definición 3. Supongamos que las variables aleatorias X,X1,X2 . . .tienen momento finito de orden r ≥ 1.
Decimos que la sucesión de variables aleatorias {Xn} converge en media de orden r, o más brevemente,
converge en r–media a la variable aleatoria X, si E|Xn−X|r → 0 cuando n → ∞.
No existe una notación estándar para este tipo de convergencia, y aquí utilizaremos la notación
X n → X (r -media). Si r = 2 se dice que la sucesión converge en media cuadrática, si r = 1 que
converge en media.
P
Demostremos que si X n → X (r -media ) para r  1 , entonces X n → X . Aplicando la desigualdad
de Chebishev, tenemos
(
P( Xn − X   ) = P Xn − X   r 
r
) 1
 r
E Xn − X
r
para cualquier   0 . Si E X n − X → 0 , el lado derecho en la desigualdad anterior tiende a cero, y

r
( )
P
por lo tanto P X n − X   → 0 para todo   0 , es decir, X n → X .
Definición 4. Consideremos las variables aleatorias X , X 1 , X 2 , , y sus funciones de distribución

F ( x ) , F1 ( x ) , F2 ( x ) Decimos que la sucesión de variables aleatorias X n converge en
distribución a la variable aleatoria X , si Fn ( x ) → F ( x ) en cada punto x de continuidad de la función
F ( x) .
21
ING. CIVIL
Además de decirse convergencia en distribución, se utiliza el término convergencia débil de distribuciones.

Tampoco existe una notación establecida para la convergencia en distribución, siendo las más comunes
d
Xn → X , y Xn → X
Proposición 1. Consideremos las variables aleatorias X , X 1 , X 2  , con funciones de distribución

P d
F ( x ) , F1 ( x ) , F2 ( x ) Si Xn → X , entonces Xn → X.
La demostración se basa en el siguiente resultado.
P
Lema 1. Supongamos que X n → X , y sean x  x  x números reales arbitrarios. Entonces
F ( x )  lim inf Fn ( x )  lim supFn ( x )  F ( x )

n → n →
Demostración. Tenemos
F ( x ) = P ( X  x ) =
= P ( X  x, X n − X  x − x ) + P ( X  x, X n − X  x − x )
( )
dado que P ( A ) = P ( AB ) + P AB para sucesos A y B arbitrarios. Además, P ( AB )  P ( B ) ,
y por ésto
F ( x )  P ( X n − X  x − x ) + P ( X n  x ) (2)
dado que, el producto de los sucesos X  x y X n − X  x − x implica el suceso X n  x . Como

x  x  x , tenemos x − x  0 , y el primer sumando en (2) tiene límite nulo cuando n →  , porque
P
X n → X . Tomando límite inferior a ambos lados en (2), obtenemos
F ( x )  lim inf Fn ( x )
n→
Un razonamiento análogo conduce a la desigualdad
lim supFn ( x )  F ( x )

n →
Esto concluye la demostración.
Demostración de la proposición 1. Consideremos un punto de continuidad x de la función F ( x ) . Para

cada k = 1, 2, , introducimos xk' = x − 1/ k , xk'' = x + 1/ k . Es claro, que se verifica xk'  x  xk'' .
Por ésto, aplicando el lema [1] (con k fijo), tenemos
( )
F xk'  lim inf Fn ( x )  lim supFn ( x )  F xk''
n→ n→
( )
22
ING. CIVIL
Es claro además, que lim k xk = lim k xk = x ( k →  ) . Como F ( x ) es continua en el punto x , al

' ''
tomar límite en la fórmula anterior, si k →  , obtenemos
F ( x )  lim inf Fn ( x )  lim supFn ( x )  F ( x )

n → n →
lo que implica, que
lim inf Fn ( x ) = lim supn→ Fn ( x ) = F ( x ) .

n →
Existe entonces el lim n Fn ( x ) = F ( x ) para todos los puntos de continuidad, concluyendo la

demostración.
Como conclusión de las proposiciones demostradas, hemos obtenido que son válidas las siguientes
implicaciones entre los distintos tipos de convergencia introducidos:
Observemos que esta tabla incluye todas las relaciones posibles entre los tipos de convergencia
considerados. Sin supuestos adicionales, no es posible obtener más relaciones.
23
ING. CIVIL
Bibliografía
• Teoría de la Probabilidad Segunda Edición. Valentín Vladímirovich Petrov, Ernesto Mordecki
Pupko. Montevideo: DIRAC, 2008.
• Probabilidad y estadística para ingeniería y ciencias Novena edición. Ronald E. Walpole, Raymond
H. Myers, Sharon L. Myers Y Keying Ye. Pearson Educación, México, 2012. ISBN: 978-607-32-
1417-9
• Acerca de los “Fundamentos de la Teoría de la Probabilidad” de A. N. Kolmogorov. Alberto H.
Landro y Mirta L. González. Facultad de Ciencias Económicas. Escuela de Economía “Francisco
Valsecchi”. Documento de Trabajo Nº 33. Marzo 2011
• Probabilidad Y Estadistica. Zylberberg Alejandro D. Editorial: NUEVA LIBRERÍA. 2005.
ISBN:9789871104338
• https://es.wikipedia.org/wiki/Probabilidad
• https://www.sdelsol.com/glosario/ley-de-laplace/
• https://es.wikipedia.org/wiki/Probabilidad_bayesiana
24
ING. CIVIL
Trabajo Practico N°3- Procesos Estocásticos

1- Procesos estocásticos. Definición
a- Proceso Wiener
b- Proceso Poisson
2- Ecuaciones diferenciales estocásticas con perturbaciones o ruidos Wiener o Poisson.
Ecuación de Ito
3- Ecuación de Boltzman, de Fokker Planck de kolmogorov( Blackward y Forward)
4- Inferencia estadística. Descripción y explicación de los dos problemas fundamentales de la
estadística inferencial
a- Estimación por intervalos
i. Calculo del intervalo de confianza para la media poblacional cuando conocemos el
desvió estándar de la población
ii. Estimación del intervalo de confianza para la media poblacional cuando no
conocemos el desvió estándar de la población
iii. Calculo del intervalo de confianza para la diferencia de dos medias poblacionales
cuando se conoce y cuando no se conoce el desvió estándar de la población
iv. Estimación o calculo del intervalo de confianza del desvió estándar de la población
b- Test de hipótesis. Descripción. Realización del test para uno y múltiples hipótesis nulas.
Aplicación a control de calidad
DESARROLLO
Definición:
Un proceso estocástico es una colección o familia de variables aleatorias {Xt, con t ∈ T}, ordenadas según
el subíndice t que en general se suele identificar con el tiempo.
Por tanto, para cada instante t tendremos una variable aleatoria distinta representada por Xt, con lo que un
proceso estocástico puede interpretarse como una sucesión de variables aleatorias cuyas características
pueden variar a lo largo del tiempo. Por ejemplo, si observamos sólo unos pocos valores de t, tendríamos
una imagen similar a la de la figura siguiente:
en la que se representa para cada t la función de densidad correspondiente a Xt. Aunque en la figura se
han representado unas funciones de densidad variables, un proceso estocástico no tiene por que presentar
esas diferencias en la función de densidad a lo largo del tiempo. Como más adelante se comentará
presentan un especial interés aquellos procesos cuyo comportamiento se mantiene constante a lo largo de
t.
A los posibles valores que puede tomar la variable aleatoria se le denominaran estados, por lo que se puede
tener un espacio de estados discreto y un espacio de estados continuo.
ING. CIVIL
Por otro lado, la variable tiempo puede ser de tipo discreto o de tipo continuo. En el caso del tiempo discreto
se podría tomar como ejemplo que los cambios de estado ocurran cada día, cada mes, cada año, etc.. En
el caso del tiempo continuo, los cambios de estado se podrían realizar en cualquier instante.
Por tanto, dependiendo de cómo sea el conjunto de subíndices T y el tipo de variable aleatoria dado por Xt
se puede establecer la siguiente clasificación de los procesos estocásticos:
• Si el conjunto T es continuo, por ejemplo +0 , diremos que Xt es un proceso estocástico

de parámetro continuo.
• Si por el contrario T es discreto, por ejemplo N, diremos que nos encontramos frente a
un proceso estocástico de parámetro discreto.
• Si para cada instante t la variable aleatoria Xt es de tipo continuo, diremos que el
proceso estocástico es de estado continuo.
• Si para cada instante t la variable aleatoria Xt es de tipo discreto, diremos que el
proceso estocástico es de estado discreto.
Una Cadena es un proceso estocástico en el cual el tiempo se mueve en forma discreta y la variable
aleatoria sólo toma valores discretos en el espacio de estados. Un Proceso de Saltos Puros es un proceso
estocástico en el cual los cambios de estados ocurren en forma aislada y aleatoria pero la variable aleatoria
sólo toma valores discretos en el espacio de estados. En un Proceso Continuo los cambios de estado se
producen en cualquier instante y hacia cualquier estado dentro de un espacio continuo de estados.
a) El proceso Wiener.
Definición y propiedades básicas del proceso Wiener.
Hemos analizado uno de los procesos más simples en una dimensión: la caminata aleatoria (random walk).
Hemos visto también que el límite de las distribuciones de probabilidad discretas
puede llevarse al continuo por medio de un límite adecuado en el tamaño de los pasos espacial
y temporal. Las escalas entre ambos pasos están vinculadas de una manera particular para
que en el límite obtengamos una distribución de probabilidad no trivial. Concretamente, hemos
visto que h debe ser del orden de k , donde k es el paso temporal y h el espacial. Si elegimos
h = k ( D = 1/ 2) en el límite podemos generar un proceso continuo, o una familia de variables
aleatorias reales Wt2, indexadas por el tiempo t, que tiene las siguientes propiedades:
1. W0 = 0.
2. Wt es una variable aleatoria con distribución normal, N (0, t − s )

ING. CIVIL
3. Si t > s, Wt−Ws es independiente de Ws y tiene distribución N (0, t − s ) Importante: Esta propiedad

no nos dice que Wt sea independiente de Ws, sino que el incremento Wt −Ws lo es. Las variables Wt y Ws
tienen correlación no nula. Para fijar estas ideas es mejor tener en mente el mecanismo de construcción
del proceso.
b) Proceso Poisson
Variable aleatoria exponencial y distribución de Poisson.
Definición (Variable aleatoria exponencial): Una variable aleatoria real positiva Y se dice que sigue una
distribución exponencial con parámetro λ > 0 si su función de distribución es de la forma
𝐹(𝑦) = (1 − 𝑒−𝜆𝑦) (𝑦 ≥ 0), 𝑦 ∈ ℝ
En este caso, es fácil ver que la densidad de Y es de la forma
𝑓(𝑦) = 𝜆𝑒−𝜆𝑦1(𝑦 ≥ 0) 𝑦 ∈ ℝ
Definición (La distribución de Poisson) Una variable aleatoria N con valores enteros no negativos sigue
una distribución de Poisson con parámetro λ si
𝜆𝑛
ℙ (𝑁 = 𝑛) = 𝑒−𝜆𝑛! ∀𝑛 ∈ ℕ
Definición (Proceso de Poisson)

Sea τ = (τi , i ∈ N) una sucesión de variables aleatorias exponenciales independientes con parámetro λ,
y sea Tn = ∑𝑛𝑖! 𝜏1. El proceso N = (N(t), t ≥ 0) definido por
𝑁(𝑡) = ∑ 1(𝑇𝑛 ≤ 𝑡) ;𝑛≥1
Se denomina proceso de Poisson con intensidad λ. El proceso Poisson es por ende un proceso de
conteo: cuenta el número de tiempos aleatorios Tn (también denominados tiempos de llegada) que
ocurren entre 0 y t, donde (τn = Tn − Tn−1, n ∈ N) es una sucesión de variables aleatorias i.i.d.1 con
distribución exponencial de parámetro λ.
Un proceso de Markov es un tipo particular de proceso estocástico en el que únicamente el estado actual
del proceso es relevante a la hora de predecir el estado futuro. Es decir, la historia pasada del proceso y
la forma en que el presente ha emergido del pasado son irrelevantes. Más formalmente, el valor esperado
de una variable aleatoria xt en el instante t, depende únicamente del valor previo xt-1 . Generalizando, si
poseemos información sobre x r , con r < t , entonces a la hora de estimar xt ,la única información que
necesitamos es la de xr , para el mayor r para el que tengamos información.
2) Ecuaciones diferenciales estocásticas en el sentido de Ito
Las Ecuaciones Diferenciales Estocásticas (E.D.E) tienen múltiples aplicaciones en Matemáticas, Física,
Demografía y Finanzas. Estas tienen un tratamiento similar a las Ecuaciones Diferenciales Ordinarias en el
momento de hallar soluciones explicitas.
Sea (Ω, F, p) un espacio de probabilidad completo con una filtración Ft ≥ 0.

ING. CIVIL
Sea B(t) = (B1(t), B2(t), . . . , Bm(t))T, t ≥ 0 un Movimiento Browniano m-dimensional definido sobre este
espacio.
Tome 0 ≤ t0 < T < ∞.
Sea x0 una variable aleatoria de valores en Rn Ft0 -medible tal que E|x0| 2 < ∞.
Sea f: R2 × [t0, T] → Rn y g: Rn × [t0, T] → Rn×m ambas Borel-medibles.
Considere la Ecuación Diferencial Estocástica n-dimensional del tipo
dx(t) = f(x(t), t)dt + g(x(t), t)dtB(t); t0 ≤ t < T (1)
Con valor inicial x(t0) = x0. Por definición de diferencial estocástica, esta ecuación es equivalente a la
ecuación integral estocástica dada por:
x(t ) = x0 +  f ( x( s), s)ds +  g ( x( s), s)dB( s); t0  t  T

t t
(2)
t0 t0
Definición: Un proceso estocástico {x(t)} t0≤t≤T con valores en Rn se conoce como solución de la ecuación
si tiene las siguientes propiedades:
i) {x(T)} es continua y Ft adaptada

ii) {f(x(t), t)} ∈ L 1 ([t0, T]; Rn ) y {g(x(t), t)} ∈ L2 ([t0, T]; Rn×m)
iii) La ecuación (2) se cumple para todo t ∈ [t0, T], con probabilidad.
Una solución {x(t)} se dice es única si cualquier otra solución {x¯(t)} es idéntica a {x(t)}, es decir:
P{x(t) = ¯x(t)} = 1; t ∈ [t0, T]
t t
x(t ) = x(s) +  f ( x(r ), r )dr +  g ( x(r ), r )dB(r ); S  t  T
S S
Pero esta última ecuación es una Ecuación Diferencial Estocástica sobre [S, T] con valor inicial x(S) =
x(S;t0, x0), cuya solución puede escribirse como x(t; S, x(S;t0, x0)). De este modo puede observarse que
la solución de la ecuación (1) satisface la propiedad x(t;t0, x0) = x(t; S, x(S;t0, x0)); t0 ≤ S ≤ t ≤ T
Ecuaciones diferenciales estocásticas -Regla de Ito
Considerando la siguiente EDO:
La gráfica de su solución, cualitativamente sería la siguiente:
se puede apreciar que es una gráfica suave.

ING. CIVIL
Sin embargo, si ahora escribimos lo siguiente:
esta, se trata de una ecuación diferencial estocástica, donde W(t) es un proceso Wiener.
La expresión dW(t) se utiliza como notación, ya que el proceso Wiener no es integrable en el sentido de
Riemann. Su gráfica tendría esta forma:
La solución de esta EDE, primeramente, se escribiría como:
t t
X (t ) = x0 +  b( X (s)dr +  B( X (s))dW
0 0
Entonces para poder obtener una EDE, hace falta introducir un término estocástico para que altere el
comportamiento de una EDO. Lo mismo se podría hacer con una función de probabilidad, para aleatorizar
la EDO.
3)
Ecuación de Boltzmann:
En física, específicamente en física estadística fuera del equilibrio, la ecuación de Boltzmann describe el
comportamiento estadístico de un sistema termodinámico fuera del equilibrio termodinámico. Esta
ecuación fue deducida por Ludwig Boltzmann en 1872.1El ejemplo clásico es un fluido con gradientes de
temperatura en el espacio, lo que provoca un flujo de calor de las regiones más calientes a las más frías,
causado por el transporte (aleatorio, pero condicionado por las características del sistema) de partículas.
En la literatura moderna el término Ecuación de Boltzmann se usa a menudo en un sentido más general y
se refiere a cualquier ecuación cinética que describe el cambio o evolución de cantidades macroscópicas
en un sistema termodinámico, tales como la energía, la carga o el número de partículas.
f P f  f 
+ .f + F . =  
t m p  t colisiones
Ecuación de Fokker-Planck:
En mecánica estadística , la ecuación de Fokker-Planck es una ecuación diferencial parcial que describe
la evolución en el tiempo de la función de densidad de probabilidad de la velocidad de una partícula bajo la
influencia de fuerzas de arrastre y fuerzas aleatorias, como en el movimiento browniano . La ecuación
también se puede generalizar a otros observables.
Para una dimensión:

En una dimensión espacial x , para un proceso Ito impulsado por el proceso estándar de Wiener Wt y
descrito por la ecuación diferencial estocástica (SDE).
dX t =  ( X t , t )dt +  ( X t , t )dWt
ING. CIVIL
Con derivada  ( X t , t ) y coeficiente de difusión D( X t , t ) =  2 ( X t , t ) / 2 , la ecuación de Fokker-Planck

para la probabilidad p( x, t ) para la variable aleatoria X t es:
f  2
p( x, t ) = − .  ( x, t ) p( x, t ) + 2  D( x, t ) p( x, t )
t x x
Para mayores dimensiones:
dX t =  ( X t , t )dt +  ( X t , t )dWt
Donde X t y  ( X t , t ) son vectores aleatorios N-dimensionales,  ( X t , t ) es una matriz y Wt es un

proceso Wiener estándar de M-dimensional, la densidad de probabilidad p( x, t ) por Xt
Satisface la ecuación de Fokker-Planck
p( x, t ) N
 N N
2
= − . i ( x, t ) p( x, t ) +   Dij ( x, t ) p( x, t ) 
t i =1 xi i =1 j =1 xi x j
Ecuación de Kolmogorov:
p n+m ( x, y ) =  p n ( x, z ) p m ( z, y); 0  k  n
z
Las probabilidades de transición a m pasos son iguales a la potencia m de la matriz de transición p, es

decir:
p m (i, j ) = ( p  ...  p)(i, j ) (m veces)
Demostración
p m+1 (i, j ) =  p m (i, k ) p(k , j )

k
Usamos la partición  X n = z , z por probabilidad total,
p m+n (i, j ) =  P( X n + m = y, X n = z / X o = x)
k
P( X n + m = y, X n = z , X o = x)
=
k P( X 0 = x)
P( X n + m = y / X n = z , X o = x) P( X n = z , X 0 = x)
=
k P( X 0 = x)
=  P( X n + m = y / X n = z ) P( X n = z , X 0 = x) por Markov
k
=  P n ( x, z ) p m ( z , y )
k
ING. CIVIL
4
Introducción a la inferencia estadística
La inferencia estadística es el conjunto de métodos y técnicas que permiten inducir, a partir de la
información empírica proporcionada por una muestra, cual es el comportamiento de una determinada
población con un riesgo de error medible en términos de probabilidad.
Los métodos paramétricos de la inferencia estadística se pueden dividir, básicamente, en dos: métodos de
estimación de parámetros y métodos de contraste de hipótesis. Ambos métodos se basan en el
conocimiento teórico de la distribución de probabilidad del estadístico muestral que se utiliza como
estimador de un parámetro.
La estimación de parámetros consiste en asignar un valor concreto al parámetro o parámetros que
caracterizan la distribución de probabilidad de la población. Cuando se estima un parámetro poblacional,
aunque el estimador que se utiliza posea todas las propiedades deseables, se comete un error de
estimación que es la diferencia entre la estimación y el verdadero valor del parámetro. El error de estimación
es desconocido por lo cual es imposible saber en cada caso cual ha sido la magnitud o el signo del error;
para valorar el grado de precisión asociado con una estimación puntual se parte de dicha estimación para
construir un intervalo de confianza. En síntesis, un intervalo de confianza está formado por un conjunto de
valores numéricos tal que la probabilidad de que éste contenga al verdadero valor del parámetro puede
fijarse tan grande como se quiera. Esta probabilidad se denomina grado de confianza del intervalo, y la
amplitud de este constituye una medida del grado de precisión con el que se estima el parámetro.
Los métodos de contraste de hipótesis tienen como objetivo comprobar si determinado supuesto referido a
un parámetro poblacional, o a parámetros análogos de dos o más poblaciones, es compatible con la
evidencia empírica contenida en la muestra. Los supuestos que se establecen respecto a los parámetros
se llaman hipótesis paramétricas. Para cualquier hipótesis paramétrica, el contraste se basa en establecer
un criterio de decisión, que depende en cada caso de la naturaleza de la población, de la distribución de
probabilidad del estimador de dicho parámetro y del control que se desea fijar a priori sobre la probabilidad
de rechazar la hipótesis contrastada en el caso de ser ésta cierta.
Teorema de límite central
El teorema del límite central indica que, en condiciones muy generales, si S n es la suma de n variables
aleatorias independientes y de varianza no nula pero finita, entonces la función de distribución de S n «se
aproxima bien» a una distribución normal. Así pues, el teorema asegura que esto ocurre cuando la suma
de estas variables aleatorias e independientes es lo suficientemente grande.
Definiciones:
Sea N (  ,  2 ) la función de densidad de la distribución normal definida como:
( x −  )2
1
f  , 2 ( x) = e 2 2
2 2
con media  y varianza  2 . El caso en el que su función de densidad sea N (0,1) a la distribución se le
conoce como normal estándar.
Se define a S n como la suma de n variables aleatorias, independientes, idénticamente distribuidas, y con

una media  y varianza  2 finitas:
ING. CIVIL
Sn = X 1 + ... + X n
de manera que, la media de Sn = n y su varianza  2 = n 2 , dado que son variables aleatorias

independientes. Para facilitar el uso de este teorema, se realiza una estandarización de S n cómo:
S n − n
Zn =
 n
para que la media de la nueva variable sea igual a 0 y la desviación estándar sea igual a 1. Así, las variables
Z n convergerán en distribución a la distribución normal estándar N (0,1) , cuando n tienda a infinito. Como
consecuencia, si  (z) es la función de distribución de N (0,1) ,para cada número real z :
lim Pr( Z n  z ) =  ( z )
n →
donde Pr( ) indica probabilidad y lim se refiere a límite matemático. El enunciado formal del teorema es el
siguiente:
Teorema de límite central: Sea X 1 + ... + X n un conjunto de variables aleatorias, independientes e

idénticamente distribuidas con media  y varianza 0   2   . Sea Sn = X 1 + ... + X n , entonces
lim Pr( Z n  z ) =  ( z ) .
n →
Estimador Definición:
Un estimador es un estadístico utilizado para estimar un parámetro desconocido de la población. Por
ejemplo, si se desea conocer el precio medio poblacional de un artículo se recogen observaciones del
precio de dicho artículo en diversos establecimientos pudiendo utilizarse la media aritmética de las
observaciones para estimar el precio medio poblacional. Para cada parámetro pueden existir varios
estimadores diferentes. En general, se elige el estimador que posea mejores propiedades que los restantes,
como insesgadez, eficiencia, convergencia y robustez.
El valor de un estimador proporciona una estimación puntual del valor del parámetro en estudio. En
general, se realiza la estimación mediante un intervalo, es decir, se obtiene un intervalo estadístico
muestral error de estimación   dentro del cual se espera se encuentre el valor poblacional dentro de un
cierto nivel de confianza. El nivel de confianza es la probabilidad de que a priori el valor poblacional se
encuentre contenido en el intervalo.
Sesgo de un estimador
Se denomina sesgo de un estimador a la diferencia entre la esperanza del estimador y el verdadero valor
del parámetro a estimar. Es deseable que un estimador sea insesgado o centrado, esto es, que el sesgo
sea nulo para que la esperanza del estimador sea igual al valor del parámetro que se desea estimar.
Por ejemplo, si se desea estimar la media de una población, la media aritmética de la muestra es un
estimador insesgado de la misma, ya que la esperanza (valor esperado) es igual a la media poblacional.
Si una muestra X = ( X 1 + ... + X n ) procede de una población de media  , E[ xi ] =  para

i = (1, 2,..., n)
La media aritmética muestral es un estimador insesgado de la media poblacional:

ING. CIVIL
1 n  1  n  1 n 1 1
E[ x ] = E   xi  = E   xi  =  E  xi  = ( E[ xi ] + E[ x2 ] + ... + E[ xn ]) = n  = 
 n i =1  n  i =1  n i =1 n n
La varianza de una muestra aleatoria simple es un estimador sesgado de la varianza poblacional, siendo
su esperanza:
n
 (x − x )
i
2
La varianza muestral es  x2 = i =1
.Para calcular su esperanza matemática se realizan
n
previamente algunos cálculos sumando y restando la esperanza de la variable aleatoria poblacional.
n n
 ( xi − x )2  (x − x +  − )
i
2
1 n
 x2 = i =1
n
= i =1
n
=  [( xi −  ) − ( x −  )]2
n i =1
1 n
= 
n i =1
[( xi −  ) 2 − 2( xi −  )( x −  ) + ( x −  ) 2 ] =
1 n n

=  
n  i =1
( xi −  ) 2
+ n ( xi −  ) 2
− 2( x −  ) 
i =1
( x −  ) =

1 n 
=  
n  i =1
( xi −  ) 2 + n( xi −  ) 2 − 2( x −  )(nx − n )  =

1 n 
=   ( xi −  ) 2 + nx 2 + n 2 − 2nx  + 2nx 2 + 2nx  + 2nx  − 2nx 2  =
n  i =1 
1 n

=   ( xi −  ) 2 − n( x −  ) 2 
n  i =1 
Calculando su esperanza matemática:
1  n  1 n
E[ x ] = E   ( xi −  ) 2 − n( x −  ) 2  =  E[( xi −  ) 2 ] − E[( x −  ) 2 ]
n  i =1  n i =1
La primera esperanza del segundo miembro E[( x −  ) 2 coincide con la varianza poblacional  2 al
tratarse de una muestra aleatoria simple, la segunda esperanza E[( x −  ) 2 coincide con la varianza de
2
la media muestral
n
2 n −1 2
Por lo tanto E[ x2 ] =  2 − = 
n n
Se pueden dar los siguientes sesgos en los estimadores:
a- Un estimador ˆ es insesgado cuando E[ˆ] = 

b- Un estimador ˆ es sesgado si E[ˆ] =  − b(ˆ)  b(ˆ) = E[ˆ] − 
ING. CIVIL
c- Un estimador ˆ es asintóticamente insesgado si su posible sesgo tiende a cero al aumentar el

tamaño muestral que se calcula: lim b(ˆ) = 0
n→
Error cuadrático media de los estimadores

La utilización de la estimación puntual como si fuera el verdadero valor del parámetro conduce a que se
pueda cometer un error más o menos grande. El Error Cuadrático Medio (ECM) de un estimador ˆ viene
definido:
2
 
ECM (ˆ) = E (ˆ −  ) = V (ˆ) +  E (ˆ) −  
2
 sesgo 
Cuando el estimador es centrado, el sesgo b(ˆ) = 0 → ECM [ˆ] = V ˆ ()

Un error cuadrático medio pequeño indicará que en media el estimador ˆ no se encuentra lejos del
parámetro  .
Consistencia Si no es posible emplear estimadores de mínima varianza, el requisito mínimo deseable para
un estimador es que a medida que el tamaño de la muestra crece, el valor del estimadora tienda a ser el
valor del parámetro poblacional, propiedad que se denomina consistencia.
Un estimador ˆ consistente es un estimador asintóticamente insesgado cuya varianza tiende a cero al

aumentar el tamaño muestral.
Eficiencia
Un estimador es más eficiente o más preciso que otro estimador, si la varianza del primero es menor que
la del segundo.
Sean ˆ1 y ˆ2 dos estimadores insesgados, se dice que ˆ1 es más eficiente que ˆ2 si se verifica que
Var (ˆ1 )  Var (ˆ2 ) .
Var (ˆ1 )
La eficiencia relativa se mide por la ratio
Var (ˆ2 )
La eficiencia de los estimadores está limitada por las características de la distribución de probabilidad de la
muestra de la que proceden.
Un estimador es eficiente cuando verifica:

-Es insesgado
-Posee varianza mínima
La cuestión de tener varianza mínima queda resuelta mediante la Cota de Cramér-Rao.
La varianza de un estimador verifica siempre la Cota de Cramér-Rao:
ING. CIVIL
Var (ˆ1 )  CCR .Un estimador será eficiente cuando Var (ˆ) = CCR la cota resulta:
[1 − b(ˆ)]2 [1 + b(ˆ)]2
Var (ˆ)  CCR = =
  ln L( x, )    ln L( x, ) 
2 2
nE   E 
   
Si el estimador es insesgado, es decir b(ˆ) = 0 , resulta:
1
Var (ˆ)  CCR =
  ln L( x,  ) 
2
nE  
 
[1 − b(ˆ)]2
Y en muestras aleatorias simples: Var (ˆ)  CCR =
  ln L( x, ) 
2
nE  
 
Suficiencia
Un estimador ˆ es suficiente cuando no da lugar a una pérdida de información. Es decir, cuando la

información basada en ˆ es tan buena como la que hiciera uso de toda la muestra.
Para identificar estadísticos suficientes se utiliza el criterio de factorización de Fisher-Neyman, que dice que
dada una muestra aleatoria ( X 1... X n ) de una población X con función masa p o función densidad f ,
un estadístico ˆ es suficiente para  si y solo si:
P ( x1 ,..., xn ) = g[ˆ ( x1 ,..., xn ) , ].h[ˆ ( x1 ,..., xn )] caso discreto
f ( x1 ,..., xn ) = g[ˆ ( x1 ,..., xn ) , ].h[ˆ ( x1 ,..., xn )] caso continuo
Para encontrar un estadístico suficiente ˆ hay que factorizar la función de verosimilitud de la forma:
L( ) = g (ˆ, ].hˆ ( x1 ,..., xn )
Estimación puntual
El objetivo de la estimación puntual es usar una muestra para obtener números que, en algún sentido, sean
los que mejor representan a los verdaderos valores de los parámetros de interés.
Supongamos que se selecciona una muestra de tamaño n de una población. Antes de obtener la muestra
no se sabe cuál será el valor de cada observación. Así, la primera observación puede ser considerada una
v.a. X i , la segunda una v.a X 2 , etc. Por lo tanto, antes de obtener la muestra se denotará X 1... X n las
observaciones y, una vez obtenida la muestra, denotaremos x1...xn a los valores observados.
Métodos de estimación puntual

Los métodos que se considerarán para proporcionar estimadores puntual son: el método de momentos y
el método de máxima verosimilitud.
Método de los momentos
ING. CIVIL
El procedimiento consiste en igualar momentos poblacionales respecto al origen  r a los correspondientes

momentos muestrales respecto al origen  r , formando así tantas ecuaciones como parámetros
poblacionales se pretenden estimar:
 n
  Xi
1 = E ( x) =  → ˆ1 = 1 = i =1
=X
 n
 n


 X 2i
 2 = E ( x ) → ˆ 2 =  2 =
2 i =1
 n
....
 n

  X ri
 r = E ( X ´) → ˆ r =  r = n
i =1
Método de máxima verosimilitud

La estimación por máxima verosimilitud es un método de optimización que supone que la distribución de
probabilidad de las observaciones es conocida.
Sea ( x1 ,..., xn ) una muestra aleatoria (no necesariamente simple) de una población X con función de
masa P o función densidad f donde  = (1 ,..., 2 ) .
El estimador de máxima verosimilitud (probabilidad conjunta) de  es el formado por los valores

(1 ,..., 2 ) que maximizan la función de verosimilitud de la muestra ( x1 ,..., xn ) obtenida:
 P ( x ,  ),..., P ( xn ,  ) caso discreto

L( ) = L ( X ,  ) = L ( x1 ,..., xn ,  ) =   i
 f ( xi ),..., f ( xn ) caso continuo
En muchas ocasiones, es más práctico encontrar el estimador de máxima verosimilitud es considerar la
función soporte o log-verosimilitud ln L( ) , en lugar de la función de verosimilitud L( ) , ya que es más
fácil de manejar y presenta los mismos máximos y mínimos.
 ln L( )
Se despeja ˆ(ˆ1 ,..., ˆn ) de la ecuación: = 0 y se obtiene el estimador de máxima
  =ˆ
verosimilitud EMV (ˆ)
Estimación por intervalos

La estimación por intervalos consiste en establecer el intervalo de valores donde es más probable se
encuentre el parámetro. La obtención del intervalo se basa en las siguientes consideraciones:
a) Si conocemos la distribución muestral del estimador podemos obtener las probabilidades de ocurrencia
de los estadísticos muestrales.
ING. CIVIL
b) Si conociéramos el valor del parámetro poblacional, podríamos establecer la probabilidad de que el

estimador se halle dentro de los intervalos de la distribución muestral.
c) El problema es que el parámetro poblacional es desconocido, y por ello el intervalo se establece alrededor
del estimador. Si repetimos el muestreo un gran número de veces y definimos un intervalo alrededor de
cada valor del estadístico muestral, el parámetro se sitúa dentro de cada intervalo en un porcentaje
conocido de ocasiones. Este intervalo es denominado "intervalo de confianza".
Intervalo de confianza
Es un intervalo de valores posibles de un parámetro desconocido, de manera tal que dicho intervalo
contenga al verdadero parámetro con determinada probabilidad.
( )
Específicamente, a partir de una muestra aleatoria se construye un intervalo ˆ1 ,ˆ2 donde los extremos
( (
son estadísticos, tal que P   ˆ1 ,ˆ2 )) = 1 −  , donde  es el parámetro a estimar y  es un valor
(
real entre cero y uno dado de antemano. Por ejemplo si  = 0,05 , se busca construir un intervalo ˆ1 ,ˆ2 )
( (
tal que P   ˆ1 ,ˆ2 )) = 0,95 o P (ˆ    ˆ ) = 0,95
1 2
Esta probabilidad tiene el siguiente significado: cómo ˆ1 y ˆ2 son estadísticos, los valores que ellos toman
varían con los valores de la muestra, es decir si x1...xn son los valores medidos de la muestra entonces
el estadístico ˆ1 tomará el valor 1 y el estadístico ˆ2 tomará el valor  2 . Si se mide nuevamente, ahora
los valores obtenidos serán x´1...x´n ,por lo tanto, los estadísticos tomarán valores ˆ1 y ˆ2
respectivamente, diferente a los anteriores. Esto significa que si medimos la muestra 100 veces
obtendremos 100 valores diferentes para los estadísticos y por lo tanto obtendremos 100 intervalos
distintos, de los cuales aproximadamente 5 de ellos no contendrán al verdadero parámetro.
Al valor 1− se lo llama nivel de confianza del intervalo. La construcción repetida de un intervalo de
confianza para  se ilustra en la siguiente figura:
ING. CIVIL
Intervalo de confianza para la media de una distribución normal con varianza conocida
El método general para construir intervalos de confianza es el siguiente llamado método del pivote:
n
X i
A_ Partimos de la esperanza muestral X = i =1
para una muestra aleatoria ( x1 ,..., xn ) .Sabemos que
n
es un estimador insesgado y consistente de  . B_ Construimos el estadístico:
X −
Z= N (0,1)

n
La variable aleatoria Z cumple las condiciones necesarias de un pivote. Para construir un intervalo de
confianza al nivel de confianza 1− partiendo del pivote Z , comenzamos por plantear la ecuación:
P( − z  Z  z ) = 1 − 
donde la incógnita es el número real z . Si reemplazamos la v.a. Z por su expresión tenemos:

ING. CIVIL
 
 X −         
P =  −z   z  = P  −z  X −  z  = P−X − z  −  − X + z  = 1− 
    n n  n n
 
 n 
Multiplicando todos los miembros de la desigualdad por -1 (el orden de los miembros se invierte) llegamos
a:
   
P X − z  X +z  = 1− 
 n n
Definiendo:
ˆ 
1 = X − z n

ˆ = X + z 
 2 n
( )
De esta manera se construyeron dos estadísticos tales que P ˆ1    ˆ2 = 1 −  .Es decir hemos
construido el intervalo de confianza bilateral deseado [ˆ1 , ˆ2 ] . Todos los elementos que forman los
estadísticos ˆ1 y ˆ2 son conocidos ya que el número z verifica la ecuación anterior, es decir:
ING. CIVIL
P(− z  Z  z ) =  ( z ) −  (− z ) = 1 −  ,  ( z )es la Fda para la v.a Z N ( 0,1) .

Recordando que  ( − z ) = 1 −  ( z ) , la ecuación queda :
 ( z ) −  (− z ) = 2 ( z ) − 1 = 1 −  , o bien
 
 ( z ) = 1 − , o de otra forma P( Z  z ) =
2 2
Al valor de z que verifica esta ecuación se lo suele indicar z . En consecuencia, el intervalo de confianza
2
bilateral al nivel de significación 1− queda:
   
[ˆ1 , ˆ2 ] =  X − z , X + z 
 2 n 2 n
En consecuencia: Si ( x1 ,..., xn ) es una muestra aleatoria de tamaño n de una v.a X donde

X N (  ,  2 ),  2 conocido, un intervalo de confianza para  de nivel 1− es:
   
 X − z , X + z 
 2 n 2 n
Intervalo de confianza para la media de una distribución normal con varianza desconocida
Nuevamente como se trata de encontrar un intervalo de confianza para  nos basamos en la esperanza
n
X i
muestral X = i =1
que es un buen estimador de  , sin embargo ahora no se puede usar como
n
pivote a :
X −
Z=

n
porque desconocemos  y una condición para ser pivote es que, excepto por el parámetro a estimar
(en este caso  ), todos los parámetros que aparecen en él deben ser conocidos. Entonces
proponemos como pivote una variable aleatoria definida en forma parecida a Z pero reemplazando 
por un estimador adecuado.
La varianza muestral definida como:
1 n
S2 = 
n − 1 i =1
( X i − X )2
ING. CIVIL
donde X es la esperanza muestral, es un estimador insesgado de la varianza poblacional X ( X ) ,

es decir, E ( S 2 ) = V ( X ) =  2 n . Entonces estimamos  con S y proponemos como pivote a la
variable aleatoria
X −
T=
S
n
Para poder usar a T como pivote, se debe conocer su distribución. Esta se trata de una distribución
Student con parámetro n −1.
Una v.a. continua tiene distribución Student con k grados de libertad, si su f.d.p. es de la forma:
 ( k + 1) 
r 
f ( x) =  2  −  x  
k +1
 k   x  
2 2
 kr     + 1
 2   k  
La gráfica de la f.d.p. de la distribución Student tiene forma de campana como la normal, pero tiende a
cero más lentamente. Se puede probar que cuando k → a fdp de la Student tiende a la fdp de la N
(0,1) :
Se anotara como ta,k al cuantil de la Student con k grados de libertad que deja bajo la fdp a derecha
un área de  , y a su izquierda un área de 1− .
Luego, para construir el intervalo de confianza buscado a partir del pivote T procedemos como en los
casos anteriores:
Comenzamos por plantear la ecuación:
ING. CIVIL
P(−t  T  t ) = 1 − 
donde la incógnita es el número real t .
Si multiplicamos la v.a T por su expresión, tenemos sucesivamente (multiplicando por S / n y

restando X ):
 
 X −   S S   S S 
P =  −t   t  = P  −t  X − t  = P−X −t  −  − X + t  = 1− 
 S   n n  n n
 
 n 
Multiplicando todos los miembros de la desigualdad por -1:
 S S 
P X −t    X +t  = 1− 
 n n
Definiendo:
ˆ S
1 = X − t n

ˆ = X + t S
 2 n
( )
De esta manera se construyeron dos estadísticos tales que P ˆ1    ˆ2 = 1 −  , se pasa a analizar
el número t que satisface la ecuación, es decir:
P(−t  T  t ) = F (t ) − F (−t ) = 1 −  , F (t ) es la Fda para la v.a T tn−1

ING. CIVIL
Por la simetría de la distribución t de Student se deduce fácilmente de la figura anterior que

F ( −t ) = 1 − F ( t ) , la ecuación queda :
F (t ) − F (−t ) = 2 F (t ) − 1 = 1 −  , o bien

F (t ) = 1 −
2
Al valor de t que verifica esta ecuación se lo suele indicar t . En consecuencia, el intervalo de
n −1
2
confianza bilateral al nivel de significación 1− queda:
 S S    
 X − t n −1 , X + t
n −1
 , con F  t  = 1 −
 2 n 2 n  2 n −1  2
En consecuencia:
Si ( x1 ,..., xn ) es una muestra aleatoria de tamaño n de una v.a X donde X N (  ,  2 ),  2

desconocido, un intervalo de confianza para  de nivel 1− es:
 S S 
 X − t n −1 , X + t
n −1

 2 n 2 n
Intervalo de confianza para la media unilateral por la izquierda o derecha con varianza conocida
Se procede de una manera similar al intervalo de confianza para la media bilateral, solo que ahora se
toman porciones del intervalo:
 S 
P X − z    = 1 −  → unilateral por la izquierda
 n 
 S 
P   X + z  = 1 −  → unilateral por la derecha
 n
ING. CIVIL
Intervalo de confianza para la diferencia de dos medias, varianzas conocidas

Supongamos que tenemos dos variables aleatorias independientes normalmente distribuidas:

 X1 N ( 1 , 12 )
 suponemos que ambas varianzas son conocidas

X2 N ( 2 ,  22 )
Sean, además:

( X11 ,......, X1n1 ) una muestra de tamaño n1 de X1


( X 21 ,......, X 2 n2 )una muestra de tamaño n 2 de X 2
Se desea construir un intervalo al nivel de confianza 1− para la diferencia de esperanzas 1 − 2 .
Ya se conoce cuál es la distribución del promedio de variables aleatorias normales independientes:
 n
  X 1i
  12 
 X1 = i =1
N  1 , 
 n  n1 
 n

  X 2i
 2 
X2 =
i =1
N  2 , 2 
 n  n2 
Consideremos ahora la diferencia Y = X1 − X 2 .Si X1 y X 2 tienen distribución normal y son

independientes, su diferencia también es normal, con esperanza igual a la diferencia de las esperanzas
y la varianza es la suma de las varianzas:
 2 2 
X1 − X 2 N  1 − 2 , 1 + 2 
 n1 n2 
Por lo tanto:
X 1 − X 2 − ( 1 − 2 )
Z= N (0,1) , es decir, tiene distribución normal estandarizada
 12  22
+
n1 n2
La v.a. Z cumple con todas las condiciones para servir de pivote y se construirá el intervalo en forma
análoga a cómo se hizo anteriormente.
Planteando la ecuación:
P( − z  Z  z ) = 1 − 
donde la incógnita es el número real z .
 12  22
Reemplazamos la v.a. Z por su expresión y tenemos sucesivamente (multiplicando por + y
n1 n2
restando X1 − X 2 )
ING. CIVIL
 
 
 X 1 − X 2 − ( 1 − 2 )    12  22  12  22 
P  −z   z  = P  −z +  X 1 − X 2 − ( 1 − 2 )  z + =
 2
 2  n1 n2 n1 n2 
 1
+ 2  
 n n 
 1 2 
 2 2 2 2 
P  −( X1 − X 2 ) − z 1 + 2  −( 1 − 2 )  −( X1 − X 2 ) + z 1 + 2  = 1 − 
 n1 n2 n1 n2 

Multiplicando todos los miembros de la desigualdad por -1:
 2 2 2 2 
P  X1 − X 2 − z 1 + 2  1 − 2  X1 − X 2 + z 1 + 2  = 1 − 
 n1 n2 n1 n2 

Definiendo:
  12  22
ˆ1 = X 1 − X − z +
 n1 n2

ˆ  12  22
 2 = X 1 − X + z n1
+
n2

( )
De esta manera se construyeron dos estadísticos tales que P ˆ1    ˆ2 = 1 −  .Se construyó el
intervalo de confianza bilateral deseado [ˆ1 , ˆ2 ] . Todos los elementos que forman los estadísticos
ˆ1 y ˆ2 son conocidos ya que el número z verifica la ecuación anterior, es decir:
P(− z  Z  z ) =  ( z ) −  (− z ) = 1 −  ,  ( z )es la Fda para la v.a Z N ( 0,1) .


 ( z) = 1 − que se anotó como z
2 2
En consecuencia, el intervalo de confianza bilateral al nivel de significación 1− queda:
 12  22  12  22 
 X 1 − X 2 − z + ; X 1 − X 2 + z + 
 2 n1 n2 2 n1 n2 
En conclusión:
Si X 1 y X 2 son dos variables aleatorias independientes normalmente distribuidas:
X1 N (1 , 12 ), X 2 N (2 ,  22 ) y suponemos las varianzas conocidas. Un intervalo de confianza

para la diferencia   1 2 − de nivel 1− es:
 12  22  12  22 
 X 1 − X 2 − z + ; X 1 − X 2 + z + 
 2 n1 n2 2 n1 n2 
ING. CIVIL
Intervalo de confianza para la varianza de una distribución normal
Supongamos que se quiere hallar un intervalo de confianza para la varianza  2 de una distribución normal.
Sea ( X 1 ,..., X n ) una muestra aleatoria de una v.a. X , donde X N ( , 2 )
Luego a partir de este estimador puntual construimos el estadístico
(n − 1) S 2
X=
2
Este estadístico contiene al parámetro desconocido a estimar  2 y tiene una distribución conocida, X tiene
una distribución llamada ji-cuadrado con n −1 grados de libertad
Si X es una v.a. continua e dice que tiene distribución ji-cuadrado con k grados de libertad si su f.d.p. es:
−x
2
1 ( k /2) −1 2
f ( x) = k /2 x e x0
2 r (k / 2)
La distribución ji-cuadrado es asimétrica. En la figura siguiente se grafica la densidad para diferentes
valores de k .
Se anotara  ,k al cuantil de la ji-cuadrado con k grados de libertad que deja bajo la fdp a derecha un área
2
de  , y a su izquierda un área de 1− .

Propiedades
1_ Se puede probar que si X 1 ,.... X n son variables aleatorias independientes con distribución N (0,1),
entonces Z = X12 + ... + X n2 tiene distribución ji-cuadrado con n grados de libertad.
2_ Si X 1 , X 2 .... X n son variables aleatorias independientes tal que X i tiene distribución ji-cuadrado con
ki grados de libertad, entonces Z = X 1 + ... + X n tiene distribución ji-cuadrado con k grados de libertad
donde k = k1 + k2 ... + kn
ING. CIVIL
3_ Si X k2 entonces para k grande 2 X N ( )

2k − 1,1 aproximadamente.
Para desarrollar el intervalo de confianza planteamos hallar dos números a y b tales que:
 (n − 1) S 2 
P ( a  X  b ) = 1 −  ,es decir, P  a   b  = 1−
  2

Se puede probar que la mejor elección de a y b es: a =  2  y b =  2

1− , n −1 , n −1
2 2
Por lo tanto:
 2 (n − 1) S 2 
P      2
  = 1−
 1− 2 ,n −1 2 2
, n −1

Despejando  2 , se obtiene:
 
 (n − 1) S 2 (n − 1) S 2 
P   2
2
 = 1−
  2

1− , n −1 
 
, n −1
 2 2 
Entonces, como conclusión:
Si X 1 ,.... X n es una muestra aleatoria de una v.a. X , donde X N (  ,  2 ) , un intervalo de confianza

para  2 de nivel 1− es:
 
 (n − 1) S 2 (n − 1) S 2 
 2 ; 2 
  ,n −1  
1− , n −1 
 2 2 
ING. CIVIL
Intervalo de confianza para una proporción

Sea una población de tamaño N (eventualmente puede ser infinito) de cuyos individuos nos interesa cierta
propiedad A. Supongamos que la probabilidad de que un individuo de la población verifique A es
p = P( A) .El significado del parámetro p es, en consecuencia, el de proporción de individuos de la
población que verifican la propiedad A . Podemos definir una variable aleatoria Xi que mide a los individuos
de la población la ocurrencia o no de la propiedad A . La variable aleatoria tendrá la distribución:
 p (1) = p ( X 1 = 1) = p
p( x) = 
 p (0) = p ( X 1 = 0) = 1 − p
es decir, Xi es una v.a que toma dos valores: 1 si verifica A con probabilidad p y 0 si no verifica A con
probabilidad 1− p . Esto quiere decir que Xi tiene una distribución binomial con parámetros 1 y p .
Considerando una muestra aleatoria ( X 1 ,.... X n ) de tamaño n . Si formamos los estadísticos

X = X 1 + X 2 + .... + X n , esta v.a. mide el número de individuos de la muestra de tamaño n que verifican
la propiedad A. Por lo tanto, por su significado X es una v.a. cuya distribución es binomial con parámetros
X
n yp: X B(n, p) .De acuerdo con esto, la variable aleatoria P̂ , definida: Pˆ = representa la
n
proporción de individuos de la muestra que verifican la propiedad A.
Se observa que siendo X i B(n, p) , es E ( X i ) = p . Y donde X B(n, p) también es

X  1 1
E ( Pˆ ) = E   = E ( X ) = np = p , es decir, P̂ es un estimador insesgado de p.
n  n n
Pero, además, es fácil ver que P̂ es estimador consistente de p. En efecto, tenemos que E ( Pˆ ) = p ,
pero también es:
X  1 p(1 − p)
V ( Pˆ ) = V   = 2 np(1 − p) =
n  n n
Deseamos construir un intervalo de confianza de p. Es razonable basarnos en el estimador insesgado P̂ .

Consideramos como pivote a la variable aleatoria:
Pˆ − p
Z=
p (1 − p )
n
cuya distribución es, para n suficientemente grande, aproximadamente N (0,1) . En efecto:
X X X n
X 
Pˆ = 1 + 2 + ... + n , es E ( Pˆ ) =  E  i  = np
n n n i =1  n 
Siendo
n
X  p(1 − p)
V ( Pˆ ) = V  i =
i =1  n  n
Por lo tanto:
ING. CIVIL
Pˆ − p
Z= N (0,1)
p (1 − p )
n
El pivote puede ponerse en una forma más conveniente si tenemos en cuenta que, según vimos recién, P̂
es estimador consistente de p y, en consecuencia, en el denominador reemplazamos el parámetro
desconocido p por su estimador P̂ , y se puede probar que :
Pˆ − p
Z=  N (0,1) si n es grande
p (1 − p )
n
Partiendo de este pivote podemos seguir los mismos pasos de los casos anteriores para llegar al siguiente
intervalo de confianza al nivel 1− de p :
 Pˆ (1 − Pˆ ) ˆ Pˆ (1 − Pˆ )    
 Pˆ − z , P + z  con  =  z  = 1 −
 2 n 2 n   2 2
En conclusión: Si P̂ es la proporción de observaciones de una muestra aleatoria de tamaño n que verifican

una propiedad de interés, entonces un intervalo de confianza para la proporción p de la población que
cumple dicha propiedad de nivel aproximadamente 1− es :
 Pˆ (1 − Pˆ ) ˆ Pˆ (1 − Pˆ ) 
 Pˆ − z , P + z 
 2 n 2 n 
Test de hipótesis
Hipótesis estadística
Una hipótesis estadística es una afirmación acerca de una característica poblacional formulada en base a
los parámetros de su distribución.
Tipos de hipótesis
Las que hacen referencia a un parámetro de una población
Por ejemplo, se considera el rendimiento obtenido en un proceso químico X , con distribución N ( , )

siendo  desconocido. Podríamos plantear las siguientes hipótesis:
 = 90
  90
  90
  90
Si la hipótesis asigna un único valor al parámetro se le llama hipótesis simple, en caso contrario, hipótesis
compuesta. En este ejemplo, la primera es simple y el resto son compuestas
Las que comparan varios parámetros de varias poblaciones
ING. CIVIL
Por ejemplo, supongamos que queremos contrastar si el fumar provoca cáncer. Esto equivale a contrastar
si la proporción de fumadores con cáncer, p1 , es significativamente mayor que la proporción de no
fumadores con cáncer, p2 .
Contrastar una hipótesis es comparar lo que dice la hipótesis con la información que nos proporciona una
muestra. Si hay coincidencia, dentro de un margen de error admisible entre la hipótesis planteada (hipótesis
nula, H 0 ) y la información muestral entonces la mantendremos como cierta, en caso contrario la
rechazaremos. Rechazar una hipótesis es sustituirla por otra que sea capaz de explicar la realidad
observada en la muestra (hipótesis alternativa H1 ).
Por ejemplo, supongamos que nos planteamos si el rendimiento del proceso puede ser en media del 90%,
H 0 :  = 90 . Realizamos una serie de pruebas y el rendimiento medio muestral resulta ser xˆ = 75
menor que 90. La información muestral parece ir más a favor de H1 :   90 que de H 0 :  = 90 .
Nunca se puede afirmar el que una hipótesis sea verdadera o falsa, ya que para ello se tendría que tener
observaciones de toda la población. Por lo tanto, al realizar un contraste y tomar una decisión siempre cabe
la posibilidad de equivocarnos. Existen dos tipos de errores asociados a cualquier contraste: error tipo I,
que tiene lugar cuando rechazamos H 0 siendo cierta, y error tipo II, que ocurre si aceptamos H 0 siendo
falsa.
A la probabilidad de que ocurra el error tipo I se le llama nivel de significación del contraste, que denotamos
por  y que fijamos antes de realizar un contraste. A la probabilidad de error tipo II la denotamos por  .
Pasos a seguir para realizar un test de hipótesis
1) Se plantea la hipótesis nula H 0 (de tipo igualdad) y la alternativa H1 (a favor de la información

muestral).
H 0 :  = 0
H1 :    0
  0
  0
2) Se fija el nivel de significación  . Generalmente se fija en 0,05;0,01;0,1.
3) Determinamos una medida de discrepancia entre la hipótesis nula y la información muestral. Esta
medida estará en función de la diferencia del valor que específica H 0 para el parámetro y el
estimador muestral del parámetro, y tendrá distribución conocida. A tal medida la llamamos
estadístico de contraste bajo H 0 .
4) Determinamos la discrepancia máxima que estamos dispuestos a admitir para aceptar H 0 . Este
valor dependerá de la distribución del estadístico de contraste bajo H 0 , del nivel de significación
 especificado y del tipo de hipótesis alternativa que tengamos. Delimita las regiones de
aceptación y rechazo de H 0 .
5) Concluimos: si el estadístico de contraste observado (empírico) cae en la región de rechazo,
rechazamos H 0 , en caso contrario, la mantendremos como cierta.
Contraste de hipótesis clásicos

Contraste para la media de una normal con varianza conocida
ING. CIVIL
Sea X 1 , X 2 .... X n una muestra aleatoria de una población X → N (  ,  ) , conocida.
Hipótesis Nula Estadística de contraste

H 0 :  = 0 x̂ − 0
Z=

n
Hipótesis alternativa Criterios de rechazo
H1 :   0 Z  z o Z  z 
1−
H1 :   0 2 2
Z  z1−
H1 :   0
Z  z
Contraste para la media de una normal con varianza desconocida
Sea X 1 , X 2 .... X n una muestra aleatoria de una población X → N (  ,  ) , desconocida.

H 0 :  = 0 X − 0
T=
S
n
H1 :   0 T  t o Tt 
; n −1 1− ; n −1
H1 :   0 2 2
T  t1− ;n −1
H1 :   0
T  t ;n −1
Contraste para una proporción
Sea X 1 , X 2 .... X n una muestra aleatoria de una población X → Bernoulli( p) desconocida.

H 0 : p = p0 pˆ − p0
Z=
p0 (1 − p0 )
n
H1 : p  p0 Z  z o Z  z 
1−
H1 : p  p0 2 2
Z  z1−
H1 : p  p0
Z  z
ING. CIVIL
UNAF-FRN ESTADÍSTICA Y PROBABILIDADES PROF. J.C. BARRETO
ING. CIVIL
TP Nº4- DISTRIBUCION DE PROBABILIDAD PARA EVENTOS EXTREMOS
1-Distribución de probabilidad para eventos extremos

-Distribución de valores extremos generalizada
-Distribuciones relacionadas con la distribución de Valores Extremos Generalizada.
2-Aplicaciones a la hidrología
-Valores extremos en series estacionarias
-Valores extremos en series no estacionarias
-Estimación del tiempo de recurrencia
1-Distribución de probabilidad para eventos extremos
Los valores extremos han constituido desde hace bastante tiempo una disciplina de gran
interés, y no sólo para estadísticos sino, entre otros, para científicos e ingenieros.
Para Coles (2001), la teoría de valores extremos es una disciplina que desarrolla
técnicas y modelos para describir los sucesos menos comunes, lo cual, para él, hace que
sea una disciplina “única”. En cambio, para Gumbel (1958, autor del considerado
durante mucho tiempo libro de referencia para el estudio de valores extremos), el
objetivo de la teoría de valores extremos es analizar valores extremos observados y
predecir valores extremos en el futuro.
Una definición más simplista que mencionan algunos autores es decir que los valores
extremos son “el máximo y el mínimo”. Para Albeverio, Jentsch y Kantz (2005), la
interpretación de lo que es algo “extremo” es complicada ya que su definición engloba
varios atributos tales como “excepcional”, “sorprendente” y “catastrófico”. Según
dichos autores, al ser como se ha dicho subjetivamente difícil definir a los valores
extremos, es mejor caracterizarlos mediante, por ejemplo, sus propiedades estadísticas,
observaciones, predictibilidad, mecanismos, etc.
Distribución de valores extremos generalizada
El modelo para el que se desarrolla la teoría de valores extremos está enfocado a

describir el comportamiento estadístico de:
M n  max  X1 ,..., X n  ,
donde X 1 ,..., X n es una secuencia de variables aleatorias independientes con

distribución común F y M n representa el máximo del proceso sobre n unidades de
tiempos de observación.
La distribución de M n podría obtenerse de manera exacta a partir de la distribución de

las n variables, teniendo en cuenta las propiedades de independencia:
ING. CIVIL
FMn ( z)  Pr  M n  z   Pr  X1  z,..., X n  z 
 Pr  X 1  z   ...  Pr  X n  z    F ( z )  .
n
y derivando, se obtendría su función de densidad:
f Mn ( z)  n( FMn ( z))n1 f ( z).
La función de distribución anteriormente calculada converge a cero cuando n   para

z  z y a uno para z  z , con z  sup z : F ( z)  1 . Por lo que, para obtener una
distribución límite no degenerada, sería necesario llevar a cabo una normalización.
Esta solución, basada en el Teorema Central del Límite, consiste en la búsqueda de

secuencias de constantes bn ; n  1 y an ; n  1 tales que la distribución de
M n  bn
M n 
an
converge a una distribución no degenerada cuando n   , es decir,
lim F n (an z  bn )  G( z)
n
El rango completo de distribuciones límite que podrá seguir M n vendrá dado por el
Teorema de Valores Extremos:
Teorema 1. Si existen sucesiones de constantes an  0 y bn  tales que
 M b 
P  n n  z   G( z ), cuando n  
 an 
siendo G una función de distribución no degenerada, entonces G debe pertenecer
a una de las siguientes familias:
   z  b  
I. Gumbel: G( z )  exp  exp      ,   z  
   a  
0, zb
 
II. Fréchet: G( z)     z  b  
 exp    ,
   a   z b
ING. CIVIL
 
   z  b  

 zb
exp      
III. Weibull: G( z )      a   
 
 zb
1,
con parámetros a  0 , b y, en el caso de las familias ii y iii,   0 .
Las anteriores distribuciones se conocen como distribuciones de valores extremos y

serán las únicas a las que pueda converger la variable M n , independientemente de cómo
se distribuya F.
Las familias de distribuciones Fréchet, Gumbel y Weibull se pueden combinar en una

única familia con función de distribución

   z    
1/ 

G ( z )  exp  1     
 
      
definida en z :1   ( z   ) /   0 , donde los parámetros de localización, escala y

forma satisfacen, respectivamente,     ,   0 y      . Esta familia de
distribuciones se conoce como familia de distribuciones de valores extremos
generalizada (GEV) (o familia de distribuciones de Von Mises).
La especificación de  determinará el comportamiento de la cola de la distribución, de

forma que según el valor que tome este parámetro se tendrá una de las siguientes
distribuciones:
 Gumbel si   0
 Fréchet si   0
 Weibull si   0
De esta forma, el teorema 1 se replanteará como sigue:
Teorema 2. Si existen sucesiones de constantes an  0 y bn  tales que
Pr  M n  bn  / an  z  G( z), cuando n 
para una distribución G no degenerada, entonces G pertenece a la familia de

distribuciones GEV,
ING. CIVIL

   z    
1/ 

G ( z )  exp  1      .
 
      
El concepto de max-estabilidad, que se introduce a continuación, está estrechamente

relacionado con el teorema anterior.
Definicion 1. Una distribución G se denomina max-estable si, para todo n = 2,3…,

existen constantes  n  0 y  n tales que:
G n ( n z   n )  G ( z ).
Es decir, la propiedad de max-estabilidad la satisfarán aquellas distribuciones en las que

la operación de tomar máximos muestrales conduzca a una distribución idéntica, aunque
con distintos parámetros de localización y escala.
Esta propiedad se relaciona con el Teorema de Valores Extremos a partir del siguiente
resultado:
Teorema 3. Una distribución es max-estable si y solo si es una distribución de valores

extremos generalizada.
Distribuciones relacionadas con la distribución de Valores Extremos Generalizada.
Distribucion Gumbel:
Es un caso particular de la distribución de valores extremos generalizada:
La función de distribución de la distribución de Gumbel es:
(𝜇−𝑥)
𝐹(𝑥) = 𝑒 −𝑒 𝛽
Mientras que la función densidad viene dada por:
(𝜇−𝑥)
(𝜇−𝑥) 𝛽
−𝑒
𝑒 𝛽
𝑓(𝑥) = , 𝑥 ∈ (−∞; +∞)
𝛽
La distribución de Gumbel corresponde al caso en el que𝜇 = 0 y𝛽 = 1

ING. CIVIL
En ese caso, la función de distribución viene dada por𝐹(𝑥) = 𝑒 −𝑒 −𝑥
mientras que la función de densidad de probabilidad sería:
𝐹(𝑥) = 𝑒 −𝑒 −𝑥
Media 𝜇 + 𝛾𝛽, donde 𝛾 es la constante de Euler.

Varianza 𝜋2 2
𝛽
6
Mediana 𝜇 − 𝛽 ln(ln(2))
Moda 𝜇
Coeficiente de Asimetría 12√6𝜁(3)
≈ 1,14
𝜋3
Coeficiente de Curtosis 12
5
Función Generatriz de Momentos Γ(1 − 𝛽𝑡)𝑒 𝜇𝑡
Función Característica Γ(1 − 𝑖𝛽𝑡)𝑒 𝑖𝜇𝑡
Distribucion Weibull:
La distribución de Weibull se describe según los parámetros de forma, escala y valor

umbral y también se conoce como la distribución de Weibull de 3 parámetros.
La función de densidad de una variable con esta distribución es la siguiente:
𝑘 𝑥 𝑘−1 −(𝑥)𝑘
𝑓(𝑥) = ( ) 𝑒 𝜆 si 𝑥 ≥ 0
𝜆 𝜆
k es el parámetro de forma y𝜆 > 0 es el parámetro de escala de la distribución.
Su función de distribución de probabilidad viene dada por:
𝑥 𝑘
−( )
𝐹(𝑥) = 1 − 𝑒 𝜆 si 𝑥 ≥ 0
ING. CIVIL
Momento n-ésimo 𝑛
𝜆𝑛 Γ (1 + )
𝑘
Media 1
𝜆Γ (1 + )
𝑘
Varianza 2 1
𝜆2 [Γ (1 + ) − Γ 2 (1 + )]
𝑘 𝑘
Mediana 1
𝜆(ln(2))𝑘
Moda 1
𝑘−1 𝑘
𝜆( ) si𝑘 > 1
𝑘
Coeficiente de Asimetría 3
Γ (1 + ) 𝜆3 − 3𝜇𝜎 2 − 𝜇 3
𝑘
𝜎3
Coeficiente de Curtosis −6Γ14 + 12Γ12 Γ2 − 3Γ22 − 4Γ1 Γ3 + Γ4

(Γ2 − Γ12 )2
𝑖
donde Γ𝑖 = Γ (1 + )
𝑘
Función Generatriz de Momentos 𝑡

𝜆𝑡 Γ ( + 1)
del Logaritmo 𝑘
Función Característica del 𝑖𝑡

𝜆𝑖𝑡 Γ ( + 1)
Logaritmo 𝑘
Distribucion Fréchet:
Es un caso especial de la distribución de valores extremos generalizada. Su función de

distribución, cuando se tienen tres parámetros, viene dada por:
𝑥−𝜆 −𝛼
−( )
𝐹(𝑥) = 𝑒 𝛿 si 𝜆>0
Mientras que la función de densidad es:
𝛼 𝑥 − 𝜆 −1−𝛼 𝑥 − 𝜆 −𝛼
𝑓(𝑥) = ( ) 𝑒−( ) si 𝑥 > 𝜆
𝛿 𝛿 𝛿
Donde𝛼 ∈ (0; ∞) es el parámetro de forma,𝛿 ∈ (0; ∞) el de escala y𝜆 ∈ (−∞; ∞) el de

localización. Cuando se tienen dos parámetros (en el caso en el que𝜆 = 0), la función de
distribución pasa a ser:
ING. CIVIL
𝑥 −𝛼
𝐹(𝑥) = 𝑒 −(𝛿) si 𝑥 > 0
y la función de densidad es
𝛼 𝑥 −1−𝛼 −(𝑥 ) −𝛼
𝑓(𝑥) = ( ) 𝑒 𝛿 si𝑥 > 0
𝛿 𝛿
Por último, cuando a distribución pasa a tener un solo parámetro (𝛿 = 1),

−𝛼
𝐹 (𝑥) = 𝑒 −𝑥
si 𝑥 > 0 y
−𝛼
𝑓(𝑥) = 𝛼(𝑥)−1−𝛼 𝑒 −(𝑥)
si 𝑥 < 0
Algunas características de esta distribución son las siguientes:
Media 1
𝜆 + 𝛿Γ (1 − 𝛼) siempre que 𝛼 > 1 .
Varianza 2
2
2 1
𝛿 [Γ (1 − ) − (Γ (1 − )) ]
𝛼 𝛼
siempre que 𝛼 > 2
Mediana 𝛿
𝜆+𝛼
√ln(2)
Moda 1
𝛼 𝛼
𝜆+𝛿( )
1+𝛼
𝛿 2 1 1
Coeficiente de Asimetría Γ(1− )−3Γ(1− )Γ(1− )+2Γ3 (1− )
𝛼 𝛼 𝛼 𝛼
si 𝛼 > 3
2 1 3
√(Γ(1− )−Γ2 (1− ) )
𝛼 𝛼
Coeficiente de Curtosis
4 3 1 2
Γ(1− )−4Γ(1− )Γ(1− )+3Γ2 (1− )
𝛼 𝛼 𝛼 𝛼
−6 + 2 1 2
[Γ(1− )−Γ2 (1− )]
𝛼 𝛼
si 𝛼 > 4
Primer Cuartil 𝛿
𝜆+𝛼
√ln(4)
Tercer Cuartil 𝛿
𝜆+
√ln (4)
𝛼
3
ING. CIVIL
2-Aplicaciones a la hidrología
Valores extremos en Series Estacionarias.
Intuitivamente, una serie temporal se considera estacionaria si sus propiedades

estadísticas (media, varianza…) son constantes a lo largo del tiempo. Otra definición
algo más concreta es la siguiente: una proceso (o serie) estacionario es aquel en el que
las distribuciones de probabilidad se mantienen estables a lo largo del tiempo; esto es,
que la distribución de un conjunto de variables se mantiene igual aunque dichas
variables se desplacen h unidades. Esta misma definición, se puede expresar de una

manera más formal de la siguiente forma:
Sea 𝑋𝑡 , 𝑡 = 1,2, … , 𝑛 una serie temporal, se dice que es estacionaria si para cada
conjunto de índices 1 ≤ 𝑡1 < 𝑡2 < ⋯ < 𝑡𝑚 , la distribución conjunta de
(𝑋𝑡1 , 𝑋𝑡2 , … , 𝑋𝑡𝑚 ) coincide con la distribución conjunta (𝑋𝑡1 +ℎ , 𝑋𝑡2 +ℎ , … , 𝑋𝑡𝑚+ℎ ).
Existen dos formas de analizar valores extremos en una serie temporal; la primera
consiste en elegir un modelo para los valores extremos del proceso, y ajustarlo a los
valores extremos de los datos. La segunda parece más difícil, porque trata de elegir un
modelo de serie temporal para el proceso completo, ajustarlo a los datos y luego intentar
estudiar el comportamiento de los valores extremos de dicho proceso.
Valores Extremos en Series no estacionarias.
Al contrario que en los procesos estacionarios, las características de las series

temporales no estacionarias cambian con cierta frecuencia a lo largo del tiempo. La no
estacionariedad se puede expresar a través de cambios en los parámetros del modelo:
𝜇(𝑡) = 𝜃0 + 𝜃1 𝑡 + 𝜃2 𝑡 2 + 𝜃3 𝑡 3
O como una función lineal sin termino constante:
𝜇(𝑡) = 𝜃1 𝑡
Con lo cual el modelo que se tiene para la serie temporal no estacionaria es:
𝐺𝐸𝑉(𝜇(𝑡), 𝜎, 𝜉)
Que, desglosando más, sería una:
𝐺𝐸𝑉(𝜃0 + 𝜃1 𝑡 + 𝜃2 𝑡 2 , 𝜎, 𝜉)
para el primer caso, y una𝐺𝐸𝑉(𝜃1 𝑡, 𝜎, 𝜉)para el segundo.
También se puede expresar la no estacionariedad en el parámetro de escala:

ING. CIVIL
2
𝜎(𝑡) = 𝑒 𝜃0 +𝜃1 𝑡+𝜃2 𝑡
Pero para el parámetro de forma𝜉, es menos bueno expresarlo también en función de

tiempo ya que los parámetros de forma son difíciles de estimar con precisión.
Aun así, un modelo con todos sus parámetros expresados en función del tiempo sería:
𝐺𝐸𝑉(𝜇(𝑡), 𝜎(𝑡), 𝜉(𝑡))
Las series no estacionarias pueden presentar cambios de varianza, así como pueden
presentar una tendencia (la media crece o decrece a lo largo del tiempo) y efectos
estacionales (el comportamiento de la serie es parecido en ciertos periodos de tiempo).
Estimación del tiempo de recurrencia:
El análisis de frecuencia tiene por objeto analizar registros históricos de variables

hidrológicas con el fin de estimar las probabilidades de que vuelvan a ocurrir. Los datos
utilizados para el análisis deben ser evaluados en términos de los objetivos y de
características de los registros, como la duración y la completitud de estos. Deberán
satisfacer también ciertos criterios estadísticos, como los de aleatoriedad,
independencia, homogeneidad y estacionalidad.
Si p es la probabilidad de que una variable x supere a un valor X en un cierto lapso de

tiempo, el periodo de retorno T será el promedio de las unidades de tiempo transcurridas
entre dos oportunidades en que la variable supere dicho valor, es decir:
1
𝑝 = 𝑃(𝑥 ≥ 𝑋) =
𝑇
Para series anuales, el período de retorno es igual al valor inverso de la probabilidad

de excedencia durante un único año. Denotando la probabilidad de excedencia mediante
1/𝑇𝑎 , donde𝑇𝑎 es el período de retorno anual, la relación entre elperíodo de retorno
anual y el período de retorno de la serie de duración parcial puede expresarse como
sigue:
1 −1
= 1 − 𝑒𝑥𝑝{−𝜆𝑞𝑒 } = 1 − 𝑒𝑥𝑝 { }
𝑇𝑎 𝑇𝑃
Donde 𝑇𝑃 = 1/𝜆𝑞𝑒 es el período de retorno promediode la serie de duración

parcial, 𝜆 es la tasa deacaecimiento de valores por encima del umbral, y 𝑞𝑒 es la
probabilidad de que, cuando sobrevenga esacrecida, esta supere el nivel considerado.
Esta ecuaciónpuede ser resuelta para 𝑇𝑝 , obteniéndose:
ING. CIVIL
1
𝑇𝑝 =
ln[1 − 1/𝑇𝑎 ]
𝑇𝑝 es menor que 𝑇𝑎 ya que, en una serie de duración parcial, puede aparecer más de
un fenómeno cada año.
ING. CIVIL
Bibliografía
 Adriana Medialdea “Villanueva. Análisis de Valores Extremos”. Facultad de

Ciencias. Universidad de Granada. (12 de Septiembre de 2016)
 Alejandro Ibáñez Rosales. “Análisis estadístico de valores extremos y

aplicaciones”, Departamento de Estadística e Investigación Operativa.
Universidad de Granada (Octubre 2011).

Tp-Grupo 9

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Tp-Grupo 9

Cargado por

Copyright:

Formatos disponibles

UNAF- FRN ESTADÍSTICA Y PROBABILIDADES PROF.J.C.

TP 1- MEDIDAS DE POSICIÓN Y DISPERSIÓN

1- Medidas de posición. Propiedades y aplicaciones

El empleo más frecuente de la media geométrica es el de promediar variables tales como

- Media aritmética ponderada

Características y propiedades de la media aritmética:

Demostración de algunas propiedades

Para la población sería:

Y para el caso continuo tendremos:

La varianza es el desvío estándar elevado al cuadrado y se simboliza con “s 2” cuando es muestral, o 2

DESVIACIÓN TÍPICA O ESTÁNDAR

Para el desvío típico o estándar muestral:

Y la fórmula del desvío estándar poblacional para el caso continuo es:

Interpretación del valor de la desviación estándar

b) Coeficiente de curtosis o apuntamiento

As>0 : Asimétrica a la derecha

Esto es necesario para realizar numerosos contrastes estadísticos en la teoría de la inferencia

Para el caso continuo, la formula de Fisher toma la forma:

4- INTERPRETACIÓN DE ESTADÍSTICOS Y SUS APLICACIONES

5- MEDIDAS DE CONCENTRACIÓN. ÍNDICE DE GINI Y CURVA DE LORENTZ.

Representación gráfica del grado de concentración: curva de Lorenz

3. Comienza en el origen de coordenadas (0,0) y termina en el punto (1,1): el 0% de los rentistas

En algunas ocasiones se prefiere cambiar la representación de la curva de Lorenz, poniendo qi en

Índice de concentración de Gini

Y el índice de concentración de Gini quedará definido como:

Este índice, muy utilizado en la práctica, verifica las siguientes propiedades:

TP N°2- TEORÍAS DE PROBABILIDADES

Probabilidad frecuentista o a priori

Probabilidad según Kolmogorov

Axioma 6 (teorema de continuidad): Dada una sucesión monótona de eventos,

Ei  Ei +1 (i = 1, 2,3,...) , se puede escribir:

De lo que resulta que:

Aplicando m. a m. el operador límite, será:

De la misma forma, se puede escribir:

 E j    E j  De modo que lim Ej = 0

Probabilidad condicional. Fórmulas de la probabilidad total y de Bayes

En contraste con la interpretación de la probabilidad como la "frecuencia" o "propensión" de algún

2-Variable aleatoria continua y discreta. Propiedades. Funciones de variable aleatoria. Criterios de

Variable aleatoria continua y discreta

Funciones de variable aleatoria

Función de densidad de probabilidad

X: el número que sale al tirar un dado honesto:

Cálculo de probabilidades con la función de densidad

 x  es igual que la anterior pero le restamos P(X = x) porque

   es igual que la anterior pero le restamos P(X = x) porque

P ( X  x) = P ( X  x) por razones análogas al caso de P(X < x)

Función de distribución de probabilidad

Para ser función de distribución de probabilidad, FX(x) debe cumplir:

1) lim FX ( x) = 0 porque la probabilidad de que X sea menor a infinito negativo, es cero

2) lim FX ( x) = 1 porque la probabilidad de que X sea menor a infinito es 1

variables aleatorias discretas y continuas.

Variables aleatorias discretas:

Variables aleatorias continuas:

· Éxito: que salga un 5

Donde n es un número natural, y “p” es un número real entre 0 y 1.

Sabemos que nos encontramos frente a una distribución de pascal cuando:

·  : la cantidad esperada de eventos por unidad de tiempo (intensidad).

Generalmente conocemos el valor de , y entonces nos preguntamos cuántos eventos obtendremos en

Para facilitar el cálculo puede resultar útil:

la distribución se llama “normal” o “de Gauss”

La gráfica de esta función de densidad se conoce con el nombre de "campana de Gauss".

Distintos tipos de convergencia en teoría de la probabilidad

Consideremos un espacio de probabilidad ( Ω, , P ) y variables aleatorias X , X 1 , X 2 ,  definidas en