Documentos de Académico
Documentos de Profesional
Documentos de Cultura
BARRETO
ING. CIVIL
ESTUDIANTES: PAROLA GABRIEL, PERALTA PABLO, SANABRIA JORGE, BAEZ AYRTON
1- MEDIDAS DE POSICIÓN
Son medidas que permiten tener una idea aproximada de dónde están los datos, aunque no indican cómo
se distribuyen.
MEDIAS:
- Media generalizada de orden P: es la generalización de la media aritmética
I
1
M p = p ap = p
N
n x
i =1
i i
p
Como caso particular se menciona la media aritmética simple (p=1) y la media cuadrática (p=2)
- Media aritmética simple: Es la medida de posición más frecuentemente usada. Para calcular la
media aritmética o promedio de un conjunto de observaciones se suman todos los valores y se
divide por el número total de observaciones.
I
1
x = M1 =
N
n x
i =1
i i
ni es la frecuencia absoluta o peso. Para datos agrupados xi es la marca de clase, y para datos
simples, xi es cada valor de la variable
Para la media poblacional se utiliza la letra griega “µ”
- Media cuadrática:
1 I
M 2 = X RMS = 2
ni xi 2
N i =1
Para el caso continuo tenemos :
x
X RMS = ds. f (s).s
2
2
−
- Media armónica
N
H = M −1 = I
ni
i =1 xi
Ventajas e inconvenientes:
- En su cálculo intervienen todos los valores de la distribución, y en ciertos casos es más
representativa que la media aritmética.
- Su cálculo no tiene sentido cuando algún valor de la variable toma valor cero o muy pequeño..
- Es única.
Suele ser empleada para promediar velocidades, tiempos, rendimientos, etc.
UNAF- FRN ESTADÍSTICA Y PROBABILIDADES PROF.J.C. BARRETO
ING. CIVIL
ESTUDIANTES: PAROLA GABRIEL, PERALTA PABLO, SANABRIA JORGE, BAEZ AYRTON
- Media geométrica
I I
g = X G = M 0 = N xini ; N = ni
i =1 j =1
Es una media aritmética que se emplea en distribuciones de tipo unitario, en las que se
introducen unos coeficientes de ponderación, denominados pi, que son valores positivos,
que representan el número de veces que un valor de la variable es más importante que
otro.
✓ Si todos los valores de la variable se multiplican por una misma constante la media aritmética
queda multiplicada por dicha constante.
✓ La media aritmética de un conjunto de números positivos siempre es igual o superior a la media
geométrica:
✓ La media es un valor comprendido entre los extremos de la distribución.
✓ La media es el centro de gravedad de la distribución de la variable. La media muestral es donde
el diagrama de puntos se equilibra. Es decir, la suma de las desviaciones de los valores con
respecto a ella es igual a cero.
✓ La media del producto de una constante a por una variable X es igual al producto de la constante
por la media de la variable dada. Es decir, si se efectúa un cambio de unidad de medida a los
datos (por ejemplo, de metros a centímetros), la media queda afectada por dicho cambio de
escala.
✓ La media de la suma de una constante entera a con una variable X es igual a la suma de la
constante con la media de la variable dada. O sea, al efectuar un cambio en el origen desde el
que se han medido los datos, la media queda afectada por dicho cambio de origen.
✓ La media está influenciada por los valores de cada uno de los datos.
✓ La media no tiene por qué ser iqual a uno de los valores de los datos, ni siquiera de su misma
naturaleza: datos enteros pueden tener una media decimal.
✓ La media es un representante de los datos a partir de los que ha sido calculada, es decir, es un
número que distingue un grupo de datos de otros (aunque es importante tener en cuenta medidas
de dispersión para diferenciar grupos de datos con la misma media). En otros términos, hay por lo
menos un dato que es mayor o igual que la media aritmética.
Para el caso continuo, la media aritmética es:
x
X= ds. f (s).s
−
(x
i =0
i − x) = 0
n n n n
1 n n n
( xi ) − ( x) = ( xi ) − n.x = ( xi ) − n.
i =0 i =0 i =0 i =0
n i =0
( x i ) =
i =0
( x i ) −
i =0
( xi ) = 0
2- La media aritmética de los cuadrados de las desviaciones de los valores de la variable respecto a
una constante cualquiera se hace mínima cuando dicha constante es la media aritmética
UNAF- FRN ESTADÍSTICA Y PROBABILIDADES PROF.J.C. BARRETO
ING. CIVIL
ESTUDIANTES: PAROLA GABRIEL, PERALTA PABLO, SANABRIA JORGE, BAEZ AYRTON
n n
min ( xi − a) 2 . fi = ( xi − x) 2 . fi
i =0 i =0
Demostración :Teorema de Köning
d n n n
dx i =0
( x i − a ) 2
. fi
= 0 →
i =0
2.( x i − a ). fi =
i =0
(2.x i . fi − 2.a. fi ) =
n
multiplicando por
n
n
1 1 n
2.n. xi . fi − 2.n. a. fi = 2.n.x − 2.n.a = 0 →
n i =0 n i =0
→ x−a =0
3- Si a todos los valores de la variable se suma o multiplica una constante, entonces la media
aritmética queda sumada o multiplicada por dicha constante
Suma:
1 n 1 n 1 n n
1 n 1 n
n ( x i a ). fi = x a → ( x i a ). fi =
n i =0
x i fi a. fi n
= . x i fi . a. fi = x a
i =0 n i =0 i =0 i =0 n i =0
Multiplicación
1 n 1 n 1 n
n i ( x .a ). fi = x.a → ( x i .a ). fi = a xi fi = a.x
i =0 n i =0 n i =0
También :
1 n 1 1 1 n 1 1 1 n 1
n i a a
( x . ). fi = . x → n i a ). fi = a . n ( xi ). fi = a .x
( x .
i =0 i =0 i =0
MODA
La moda se define como “el valor más frecuente de una distribución”. La moda es el valor de la variable
que tenga mayor frecuencia absoluta, la que más se repite, es la única medida de centralización que tiene
sentido estudiar en una variable cualitativa, pues no precisa la realización de ningún cálculo.
Por su propia definición, la moda no es única, pues puede haber dos o más valores de la variable que
tengan la misma frecuencia siendo esta máxima. En cuyo caso tendremos una distribución bimodal o
polimodal según el caso.
Características
- Útil para medidas nominales y ordinales
- No se afecta por valores extremos
- Se puede utilizar con clases abiertas
- Puede no existir o no ser única
Para datos ordenados sin agrupar, la moda es el valor de la variable que más se repite o de mayor
frecuencia.
Para datos agrupados en tabla de frecuencia, la moda se calcula con la siguiente fórmula:
UNAF- FRN ESTADÍSTICA Y PROBABILIDADES PROF.J.C. BARRETO
ING. CIVIL
ESTUDIANTES: PAROLA GABRIEL, PERALTA PABLO, SANABRIA JORGE, BAEZ AYRTON
d1
M o = x = Li + .h
d1 + d 2
Donde Li es el límite inferior de la clase modal (la clase de mayor frecuencia absoluta)
d1 es la diferencia entre la frecuencia modal y la anterior
d2 es la diferencia entre la frecuencia modal y la posterior
h es la amplitud del intervalo
CUANTILES
Si a un conjunto de datos se ordena de mayor a menor, el valor central es la mediana, este valor divide el
grupo en dos subgrupos cada uno con el 50 % de los datos. Si a cada subgrupo ordenado se le marca el
valor central, tenemos así tres valores seleccionados que llamaremos Cuartiles, Q1, Q2 y Q3. Estos valores
dividen al conjunto de datos en cuatro grupos con igual número de términos, cada cuartil contiene el 25%
de los datos. La mediana es el cuartil dos, Q2. Si se divide al conjunto ordenado en diez partes iguales, los
valores que dividen los datos se llaman deciles, y son 9 (D1 a D9). Lo mismo sucede si se divide el conjunto
en cien partes iguales: los calores que dividen son los percentiles, y son 99 (P1 a P99)
Se define el cuantil de orden “k” como un valor de la
variable por debajo del cual se encuentra una
frecuencia acumulada “k”.
Para datos simples, primero se obtiene el valor
posicional del cuantil y luego se obtiene un promedio
entre los valores de la variable que rodean a esta
posición.
n 1
Ck , p = k . +
p 2
Donde k es la posición del cuantil y p es la cantidad de divisiones del conjunto (para cuartiles, p=4, para
deciles, p=10 y percentiles p=100)
Para datos agrupados: Primero se determina en que clase se encuentra el cuantil o fractil buscado.
n
Ck , p = k . Donde C es la clase. Luego se aplica una de las siguientes fórmulas
p
- Cuartil
k .n
− Fa −1
Qk = Li + 4 .h
fk
- Decil
k .n
− Fa −1
Dk = Li + 10 .h
fk
- Percentil (pk)
UNAF- FRN ESTADÍSTICA Y PROBABILIDADES PROF.J.C. BARRETO
ING. CIVIL
ESTUDIANTES: PAROLA GABRIEL, PERALTA PABLO, SANABRIA JORGE, BAEZ AYRTON
k .n
− Fa −1
Pk = Li + 100 .h
fk
Donde
Li es el límite inferior de la clase en la que se encuentra el fractil,
k es el número de fractil,
fk es la frecuencia absoluta de la clase
Fa-1 es la frecuencia acumulada de la clase anterior.
h es la amplitud de la clase o intervalo.
MEDIANA
Es el valor de la variable que divide a las observaciones en dos grupos con el mismo número de individuos
(percentil 50, decil 5, cuartil 2).
Para hallar la mediana de una distribución debemos:
1. Ordenar las observaciones en orden ascendente.
2. Si el número de observaciones n es impar, M es la observación central de la lista ordenada. M se halla
contando (n+1)/2 observaciones desde el comienzo de la lista.
3. Si el número de observaciones n es par, M es la media de las dos observaciones centrales de la lista
ordenada.
Para datos agrupados se calcula de la misma manera que las fractilas:
n
− Fa −1
Me = Li + 2 .h
fk
Propiedades:
a) La mediana puede ser usada no sólo para datos numéricos sino además para datos
ordinales, ya que para calcularla sólo es necesario establecer un orden en los datos.
b) Si la distribución de los datos es aproximadamente simétrica la media y la mediana
serán aproximadamente iguales.
Si la distribución de los datos es asimétrica, la media y la mediana diferirán según el
siguiente patrón:
Asimetría derecha (cola larga hacia la derecha) ⇒ Media > Mediana
Asimetría izquierda (cola larga hacia la izquierda) ⇒ Media < Mediana
c) La mediana es una medida de posición robusta. No se afecta por la presencia de datos outliers, salvo
que se modifique casi el 50% de los datos menores o mayores de la muestra.
d) La mediana es insensible a la distancia de las observaciones al centro, ya que solamente depende del
orden de los datos. Esta característica que la hace robusta, es una desventaja de la mediana
UNAF- FRN ESTADÍSTICA Y PROBABILIDADES PROF.J.C. BARRETO
ING. CIVIL
ESTUDIANTES: PAROLA GABRIEL, PERALTA PABLO, SANABRIA JORGE, BAEZ AYRTON
e) Si hay datos censurados en la muestra no es posible calcular la media, sin embargo, eventualmente
puede calcularse la mediana.
2- MEDIDAS DE DISPERSIÓN
Las medidas de dispersión o variabilidad describen cuán cercanos se encuentran los datos entre ellos, o
cuán cerca se encuentran de alguna medida de posición.
RANGO
Es la diferencia entre el mayor y el menor valor de la distribución.
R = max( xi ) − min( xi )
Características y propiedades:
- Es muy simple de obtener.
- Es extremadamente sensible a la presencia de datos atípicos. Si hay datos outliers, estos estarán en los
extremos, que son los datos que se usan para calcular el rango.
- Ignora la mayoría de los datos.
- En general aumenta cuando aumenta el tamaño de la muestra (las observaciones atípicas tienen más
chance de aparecer en una muestra con muchas observaciones). En consecuencia, reportar el rango o el
máximo y el mínimo de un conjunto de datos, no informa demasiado sobre las características de los datos.
A pesar de esto es frecuente encontrar en las publicaciones científicas datos numéricos resumidos a través
de una medida de posición acompañada por los valores mínimo y máximo.
RANGO INTERCUARTÍLICO
El rango intercuartil o distancia intercuartil (RC) de un conjunto de datos es la distancia entre los dos
cuartiles:
RC = Q3 – Q1
Indica el rango donde se encuentra aproximadamente el 50% “central” de las observaciones.
Propiedades
- Si todos los datos son iguales RC = 0. Pero RC puede ser igual a cero aun cuando no todos los datos
sean iguales.
- Es una medida robusta de dispersión.
- Cuando la distribución es simétrica y acampanada la relación entre la distancia intercuartil y el desvío
estándar es la siguiente:
4
RC S
3
DESVIACIÓN CUARTIL
UNAF- FRN ESTADÍSTICA Y PROBABILIDADES PROF.J.C. BARRETO
ING. CIVIL
ESTUDIANTES: PAROLA GABRIEL, PERALTA PABLO, SANABRIA JORGE, BAEZ AYRTON
Es la medida de dispersión más usada en relación con la mediana; también es llamada “rango
semiintercuartil”. Se simboliza por Q y se le define por la fórmula:
Q3 − Q1 P75 − P25
Q= =
2 2
en la cual Q1 y Q3 son los puntos bajo los cuales se halla el 25% y el 75% de los datos.
VARIANZA
Es el momento centrado de orden 2. Para el caso de la varianza muestral es:
I I
1 1
s 2 = m2 =
N
i =1
fi ( xi − x ) 2 =
N
f .x
i =1
i i
2
− x2
I
1 N
s2 =
N − 1 i =1
fi .xi 2 −
N −1
x2
I
1
=
N
n (x − X )
i =1
i i
2
fi
1 I
s = s2 = ni ( yi − y )2 fi
N − 1 i =1
x
= ds ( s − X ) 2 f ( s )
−
DESVIACIÓN MEDIA
UNAF- FRN ESTADÍSTICA Y PROBABILIDADES PROF.J.C. BARRETO
ING. CIVIL
ESTUDIANTES: PAROLA GABRIEL, PERALTA PABLO, SANABRIA JORGE, BAEZ AYRTON
1 I
DM = ni xi − x
N i =1
Para el caso continuotenemos :
Dm = ds s − X f ( s )
x
−
También llamada “Desviación absoluta promedio”, es el promedio de las desviaciones de los valores de la
variable respecto a la media aritmética tomados en valor absoluto. Se expresa en la unidad de la variable,
y da cuenta del grado de agrupamiento de los datos en torno a la media aritmética. A valores menores,
corresponde menor dispersión, y lo opuesto. Es cero cuando todos los valores de la variable son iguales.
Características de la DM
1. El cálculo está basada en todos los valores e indica la dispersión con relación a un valor promedio.
2. Al ignorarse los signos de las desviaciones, la medida no resulta adecuada para un manejo matemático.
DESVIACIÓN MEDIANA
Es un indicador estadístico robusto que usa las desviaciones absolutas respecto a la mediana (no respecto
a la media).
I
1
DME =
N
n x − Me
i =1
i fi
COEFICIENTE DE VARIACIÓN
s
CV = ; CV =
x X
El coeficiente de variación, CV, es un cociente entre el desvío estándar y la media de los datos. Se puede
expresar como porcentaje multiplicando por 100.
Este coeficiente permite comparar la variabilidad de diferentes muestras de una población o la variabilidad
entre variables diferentes. En general un CV menor al 10 %, dice que los datos tienen poca variabilidad,
que es lo mismo que decir que los valores observados son en general, cercanos al valor medio.
El coeficiente de variación sólo se puede calcular para variables con todos los valores positivos. Todo índice
de variabilidad es esencialmente no negativo. Las observaciones pueden ser positivas o nulas, pero su
variabilidad debe ser siempre positiva. De ahí que sólo debemos trabajar con variables positivas, para las
que tenemos con seguridad que la media es mayor a cero.
Otra propiedad es que es invariante a cambios de escala.
3- MEDIDAS DE FORMA
Las medidas de forma son aquellas que nos muestran si una distribución de frecuencia tiene
características especiales como simetría, asimetría, nivel de concentración de datos y nivel de
apuntamiento que la clasifiquen en un tipo particular de distribución-
Para analizar estos aspectos, recurriremos a dos tipos de medida:
a) Coeficiente de asimetría o sesgo
UNAF- FRN ESTADÍSTICA Y PROBABILIDADES PROF.J.C. BARRETO
ING. CIVIL
ESTUDIANTES: PAROLA GABRIEL, PERALTA PABLO, SANABRIA JORGE, BAEZ AYRTON
Q1 + Q3 − Q2
As =
Q3 − Q1
( x − X ) fi
m
1 3
As =
n 3 j
j =1
La asimetría resulta útil en muchos campos. Muchos modelos simplistas asumen una distribución
normal, esto es, simétrica en torno a la media
La distribución normal tiene una asimetría cero.
Cuando el tamaño de la muestra aumenta cualquier población tiende a volverse simétrica. Una
asimetría positiva implica que hay mas valores distintos a la derecha de la media,
Las medidas de asimetría, sobre todo el coeficiente de asimetría de Fisher, junto con las medidas
de apuntamiento o Curtosis se utilizan para contrastar si se puede aceptar que una distribución estadística
sigue a la distribución normal.
UNAF- FRN ESTADÍSTICA Y PROBABILIDADES PROF.J.C. BARRETO
ING. CIVIL
ESTUDIANTES: PAROLA GABRIEL, PERALTA PABLO, SANABRIA JORGE, BAEZ AYRTON
1
t
As = ds( x(s) − X )3 f (s)
3 −
Curtosis
La curtosis de una variable estadística aleatoria es una característica de forma de su distribución de
frecuencias o probabilidades.
Según su concepción clásica, una curtosis grande implica una mayor concentración de valores de la
variable tanto muy cerca de la media de la distribución (pico) como muy lejos de ella (colas), al tiempo que
existe una relativamente mejor frecuencia de valores intermedios. Esto explica una forma de la distribución
de frecuencias o probabilidades con colas más gruesas, con un centro más apuntado y una menor
proporción de valores intermedios entre el pico y colas. Una mayor curtosis no implica una mayor varianza
ni viceversa. El coeficiente de apuntamiento o de curtosis es el cuarto momento con respecto a la media
estandarizada que se define como “el grado de agudeza o achatamiento de una distribución con relación a
la distribución normal”, es decir, mide cuán puntiaguda es una distribución.
El coeficiente de curtosis puede usarse como un indicador, en combinación con otros, de la posible
existencia de observaciones anómalas, de no normalidad, o de bi-modalidad.
La evidencia más reciente, no obstante, sostiene que la curtosis poco tiene que ver con el centro de la
distribución y su apuntamiento y en cambio mucho con las colas y la posible existencia de outsiders. Esta
interpretación es la que prevalece al día de hoy.
Tipos de curtosis
La curtosis determina el grado de concentración que presentan los valores en la región central de la
distribución. Así puede ser:
- Leptocúrtica: existe una gran concentración.
- Mesocúrtica: existe una concentración normal.
- Platicúrtica: existe una baja concentración.
Fórmula de Fisher
( x − X ) fi − 3
m
1 4
=
n 4 j
j =1
0 : Leptocúrtica
= 0 : Mesocúrtica
0 : Platicúrtica
Fórmula semiempírica de Yule
Q3 − Q1
=
2( P90 − P10 )
UNAF- FRN ESTADÍSTICA Y PROBABILIDADES PROF.J.C. BARRETO
ING. CIVIL
ESTUDIANTES: PAROLA GABRIEL, PERALTA PABLO, SANABRIA JORGE, BAEZ AYRTON
1
x
= ds( x(s) − X )4 f (s) − 3
4 −
Los estadísticos se utilizan para realizar una descripción de la muestra. Esta descripción se puede también
graficar a partir de histogramas, gráficos de tallo y hojas, gráficos de caja y extensiones, diagramas de
barras y circulares.
La descripción de la muestra a partir de los estadísticos permite, bajo ciertas condiciones, hacer
estimaciones e inferencias sobre los parámetros de la población.
Quizás algunos consideren que es redundante utilizar la varianza de la muestra y la desviación estándar
de la muestra. Ambas medidas reflejan el mismo concepto en la variabilidad de la medición, pero la
desviación estándar de la muestra mide la variabilidad en unidades lineales; en tanto que la varianza
muestral se mide en unidades cuadradas. Ambas desempeñan papeles importantes en el uso de los
métodos estadísticos. Mucho de lo que se logra en el contexto de la inferencia estadística implica la
obtención de conclusiones acerca de las características de poblaciones. Entre tales características son
constantes los denominados parámetros de la población. Dos parámetros importantes son la media de la
población y la varianza de la población. La varianza de la muestra desempeña un papel explícito en los
métodos estadísticos que se utilizan para obtener inferencias sobre la varianza de la población. La
desviación estándar de la muestra desempeña un papel importante, junto con la media de la muestra, en
las inferencias que se realizan acerca de la media de la población. En general, la varianza se considera
más en la teoría inferencial, mientras que la desviación estándar se utiliza más en aplicaciones.
Las medidas de concentración, sin embargo, tratan de poner en relieve el mayor o menor grado de igualdad
en el reparto de la suma total de los valores de una variable. Son, por tanto, indicadores del grado de
equidistribución de la variable.
Supongamos que tenemos n cantidades que miden los valores de una variable determinada para “n” casos.
Para fijar las ideas, supongamos que se trate de la renta de “n” individuos. Ordenamos dichas cantidades
x1, x2,…, xn, en orden creciente, de modo que cada una de ellas sea menor o igual que la sucesiva, es decir,
xi xi +1 ; i = 1, 2,3,..., n − 1, n
n
Nos interesa estudiar hasta qué punto la suma total de rentas x está equitativamente repartida.
i =1
i
Sin duda, las infinitas posiciones que pueden presentarse estarán entre las dos situaciones extremas
siguientes:
a) Concentración máxima: de los “n” rentistas, solo uno percibe el total de la renta, en tanto que los demás
no perciben nada:
x1 = x2 = … = xn-1 = 0, xn ≠ 0
b) Concentración mínima o equidistribución: todos los rentistas perciben la misma cantidad:
x1 = x2 = … = xn
Nos interesa encontrar algunas medidas que permitan valorar cuál es el grado de desigualdad en el reparto
de la renta. Para ello, consideremos la siguiente sucesión de rentas acumuladas:
S1 = x1
S2 = x1 + x2
S3 = x1 + x2 + x3
...
Sn = x1 + x2 + x3 + ... + xn
Así, para i = 1, 2, …, n, Si es la renta total percibida por los i rentistas que menos renta perciben, y Sn es
la renta total, cuyo reparto nos interesa estudiar.
Sea qi el cociente entre Si y Sn, y pi el cociente entre i y n:
Si
qi =
Sn
i
pi =
n
Ello significa que:
qi = proporción que representa la suma de las “i” rentas inferiores sobre el volumen total de las n
rentas consideradas. Es la proporción de la renta total que perciben conjuntamente los “i” rentistas
con menos renta.
pi = proporción que representa el número de los “i” rentistas sobre el número total de los rentistas.
Diremos que la concentración de la variable (la renta, en este caso) es tanto más elevada cuanto mayor
sea la desigualdad
UNAF- FRN ESTADÍSTICA Y PROBABILIDADES PROF.J.C. BARRETO
ING. CIVIL
ESTUDIANTES: PAROLA GABRIEL, PERALTA PABLO, SANABRIA JORGE, BAEZ AYRTON
pi ≥ qi
Por ejemplo, si el 80% de los rentistas más “pobres” perciben el 20% de las rentas (y, por tanto, el 20% de
los más “ricos” perciben el 80%), el reparto de la renta tendrá más desigualdad que si el 40% de los rentistas
más “pobres” perciben el 20% de las rentas.
Es evidente que la desigualdad pi ≥ qi es cierta en n-1 casos, o sea, para los n-1 valores que puede alcanzar
i desde 1 hasta n-1. Sin embargo, cuando i alcance el valor n, sucede necesariamente que pi = qi, ya que
el total de los rentistas percibe el total de la renta.
Así, para i = 1,2,…,n-1, siempre se cumplirá que pi ≥ qi, lo que es también fácil de comprender, porque
basta imaginar que la sucesión es creciente por hipótesis y, por lo tanto, una fracción determinada de
rentistas más pequeños posee una parte del total de la renta que es menos que proporcional al número de
rentistas que la poseen. Por ejemplo, la primera mitad de rentistas, formada por los más pequeños, no
puede poseer la mitad del volumen total de la renta, sino menos de esa mitad. Existiría proporcionalidad si
las cantidades de la sucesión fueran todas iguales.
Según esta representación, el 25% de los rentistas más “pobres” percibiría el 5% de las rentas; el 50%
percibiría el 20%; el 75% percibiría algo menos del 50%; y el 100% percibiría el 100%.
Veamos a continuación algunas propiedades de esta curva de concentración de Lorenz:
1. Es creciente, ya que al considerar proporciones obtenidas de totales acumulados,
qi qi +1 , i = 1, 2,..., n − 1
2. Se sitúa necesariamente por debajo de la diagonal del cuadrado, ya que las rentas están
ordenadas de menor a mayor:
xi xi +1 , i = 1, 2,..., n − 1
de modo que es imposible que la proporción pi de los primeros rentistas supere esa misma
proporción en cuanto a volumen de renta acumulada qi, como ya hemos observado anteriormente.
UNAF- FRN ESTADÍSTICA Y PROBABILIDADES PROF.J.C. BARRETO
ING. CIVIL
ESTUDIANTES: PAROLA GABRIEL, PERALTA PABLO, SANABRIA JORGE, BAEZ AYRTON
Veamos la demostración:
Si − Si −1 xi x S −S
qi − qi −1 = = i +1 = i +1 i = qi +1 − qi
Sn Sn Sn Sn
Es interesante ver qué forma adopta la curva de Lorenz en las dos situaciones extremas descritas
anteriormente: concentración máxima y equidistribución o reparto igualitario de la variable que se esté
considerando (la renta, en este caso).
a) Concentración máxima: un único rentista percibe el total de la renta. De este modo, se verificará
forzosamente que:
q1 = q2 = ... = qn−1 = 0, qn = 1
Y así, en el límite (n→∞), la curva de Lorenz estará formada por los segmentos
comprendidos entre (0,0) y (1,0), y entre (1,0) y (1,1):
b) Concentración mínima o equidistribución: todos los rentistas perciben la misma renta individual y,
por lo tanto, una fracción determinada de rentistas tiene siempre la misma fracción de la renta
total. Entonces, se verificará necesariamente la siguiente igualdad:
pi = qi, i = 1,…, n
con lo que la curva de Lorenz se transformará en la diagonal del cuadrado:
UNAF- FRN ESTADÍSTICA Y PROBABILIDADES PROF.J.C. BARRETO
ING. CIVIL
ESTUDIANTES: PAROLA GABRIEL, PERALTA PABLO, SANABRIA JORGE, BAEZ AYRTON
Este es, al igual que el anterior, un caso límite, ya que habitualmente las cantidades serán
desiguales, es decir, los rentistas poseerán una renta individual distinta.
A la vista de las dos representaciones anteriores, podemos empezar a deducir que cuanto más
próxima se halle la curva de Lorenz a la diagonal del cuadrado, tanto más equidistribuida estará
la magnitud que se esté considerando, y menos nivel de concentración habrá.
Será interesante, sin embargo, estudiar algunas medidas cuantitativas que nos permitan
valorar el grado de concentración de un modo más preciso que la curva de Lorenz. Nos
centraremos en la medida más conocida, que es el índice de concentración de Gini, si bien existen
otras, como el índice de Theil.
(p − q )
i =1
i i
Cuanto mayor sea el valor de esta suma, tanto mayor será la concentración. Para mayor comodidad en las
comparaciones, será conveniente obtener un índice que tenga un valor máximo igual a la unidad. Bastará
para ello dividir la suma anterior por el valor máximo que pueda alcanzar, que corresponderá al caso:
q1 = q2 = … = qn-1 = 0, qn = 1
es decir, a la situación de concentración máxima (notemos que qn no interviene en el sumatorio). Este valor
máximo será, pues:
n −1
p
i =1
i
n −1
(p − q ) i i
G= i =1
n −1
p
i =1
i
Se puede demostrar fácilmente de forma empírica que el índice de Gini es aproximadamente igual al área
comprendida entre la línea de equidistribución (diagonal del cuadrado) y la curva de concentración (área
rayada), dividida por el área del triángulo inferior a la diagonal. Dado que el área del triángulo es igual a
0,5, el índice de Gini es aproximadamente igual al doble del área pintada en la figura anterior. Esta área
puede medirse de forma bastante precisa mediante el método numérico de los trapecios.
Por último, cabe señalar que, si bien el índice de Gini tiene la ventaja de resumir en una sola cifra las
complejas informaciones expresadas por la curva de Lorenz, y por lo mismo permite comparar más
fácilmente que la curva la concentración de dos distribuciones, esta ventaja tiene su contrapartida: dos
distribuciones de aspectos muy diferentes pueden, en efecto, tener dos índices de concentración de Gini
del mismo valor. Así, las distribuciones representadas por las siguientes curvas de Lorenz tienen el mismo
grado de concentración global, aunque la estructura del reparto de la variable no es la misma. En el caso
de la curva naranja, la situación es más desfavorable para los rentistas más “pobres”:
UNAF- FRN ESTADÍSTICA Y PROBABILIDADES PROF.J.C. BARRETO
ING. CIVIL
ESTUDIANTES: PAROLA GABRIEL, PERALTA PABLO, SANABRIA JORGE, BAEZ AYRTON
UNAF- FRN ESTADÍSTICA Y PROBABILIDADES PROF.J.C. BARRETO
ING. CIVIL
ESTUDIANTES: PAROLA GABRIEL, PERALTA PABLO, SANABRIA JORGE, BAEZ AYRTON
1- Definición de probabilidades según Von Karman, según Laplace, según A.N. Kolmogorov y
Bayessiana
2- Variable aleatoria continua y discreta. Propiedades. Funciones de variable aleatoria. Criterios de
convergencia. Aplicaciones.
1- DEFINICIONES DE PROBABILIDADES:
n
lim = P( s )
N → N
Por tanto, la forma de calcular la probabilidad es usar la frecuencia relativa, ya que si se trata de un
experimento aleatorio en el cual se repite muchas veces, la frecuencia relativa se acercará mucho a la
probabilidad del suceso P(S).
Esta definición frecuencial de la probabilidad tiene la ventaja de tener una conexión con la Ley de los
grandes números. Pero también presenta inconvenientes debido a que requiere un número elevado de
realizaciones del experimento.
Probabilidad según Laplace o a posteriori
Formulada en el siglo XVIII por Pierre Simon Laplace, la regla o Ley de Laplace forma parte de la teoría de
la probabilidad. También recibe el nombre de regla de sucesión, y es ampliamente utilizada hoy en día para
estimar las probabilidades de que se produzca determinado evento.
La Ley de Laplace es una fórmula ampliamente utilizada en estadística con el objetivo de calcular
probabilidades de un experimento cuando los resultados del mismo tienen la misma probabilidad de
realizarse. Así, la Ley de Laplace consiste en el cociente entre los resultados probables y los resultados
posibles de un experimento con una variable aleatoria.
n de casos favorables a A A
P( A) = =
n total de casos
Donde:
1
UNAF- FRN ESTADÍSTICA Y PROBABILIDADES PROF.J.C. BARRETO
ING. CIVIL
ESTUDIANTES: PAROLA GABRIEL, PERALTA PABLO, SANABRIA JORGE, BAEZ AYRTON
Casos totales o posibles: son todos los resultados posibles que se pueden obtener al realizar un
experimento. Por ejemplo, si tiramos un dado de 6 caras, hay 6 resultados posibles. Sin embargo, si el dado
tuviera 20 caras, los resultados posibles serían 20 diferentes.
Casos favorables: son aquellos resultados que alumbra un experimento de forma secuencial, siendo estos
resultados excluyentes. Así, si se da un resultado, no se darán los otros. Por ejemplo, y siguiendo con el
ejemplo anterior del dado, si sale un 5, no podrá salir un 2 y viceversa. En cualquier caso, cada cara del
dado es un resultado probable.
Ámbitos en los que se aplica la Ley de Laplace
La Ley de Laplace tiene dos grandes aplicaciones. Por un lado, es ampliamente utilizada para los análisis
de riesgo y en el comercio de los mercados de materias primas. No obstante, tiene muchas más
aplicaciones:
• Regulación ambiental.
• Medición del bienestar.
• Análisis del riesgo.
• Fiabilidad de diferentes bienes de consumo como los automóviles o los electrodomésticos.
• Investigación biomédica: en la investigación biomédica, las diferentes fórmulas de probabilidad
son ampliamente utilizadas, ya que resultan fundamentales para conocer con qué probabilidad se
darán los diferentes resultados posibles de un experimento que se está llevando a cabo. Además,
este tipo de fórmulas permite al investigador determinar la probabilidad de cualquier elemento en
la muestra poblacional sobre la que está realizando el experimento.
• Teoría de la probabilidad: la Ley de Laplace es fundamental para la teoría de la probabilidad, una
rama de las matemáticas que estudia los acontecimientos aleatorios. La regla de Laplace es
fundamental para estudiar las probabilidades, aunque existen otras reglas que son también de
gran importancia, tal es el caso de la regla de la adición o la suma —a través de la cual se
determina la probabilidad de que ocurra un evento gracias a la suma de las probabilidades
individuales—, o la regla de la multiplicación —a través de la cual se determina la probabilidad de
que ocurran dos o más eventos independientes gracias a la multiplicación de las probabilidades
individuales—.
Sin duda, la Ley de Laplace es fundamental para entender la teoría de la probabilidad y es muy utilizada
hoy en día, sobre todo en el campo de la investigación biomédica.
La ventaja que tiene esta visión de la probabilidad es que no requiere una experimentación previa, así
también presenta el inconveniente de requerir un muestral finito y sucesos elementalmente equiprobables.
Por ejemplo, el lanzamiento de dos dados distinguibles y observación de las puntuaciones individuales.
P(A)= 1/6
En 1930 Andréi Kolmogorov desarrolló la base axiomática de la probabilidad utilizando teoría de la medida,
formuló lo que, arbitrariamente, muchos probabilistas denominan la axiomática clásica.
Axioma 1: Los eventos forman una σ -álgebra “s”, es decir, una clase cerrada respecto de las operaciones
de unión, intersección y negación de conjuntos numerables de eventos y del límite de sucesiones de
eventos, es decir:
2
UNAF- FRN ESTADÍSTICA Y PROBABILIDADES PROF.J.C. BARRETO
ING. CIVIL
ESTUDIANTES: PAROLA GABRIEL, PERALTA PABLO, SANABRIA JORGE, BAEZ AYRTON
a) Si E j s ( j = 1, 2,..., ) entonces, E j s (como se verá en la próxima sección, la
j =1
condición de que “s” sea cerrada con respecto a la unión infinita de eventos ha sido muy criticada
por muchos probabilistas debido a que no surge de la aplicación de un razonamiento intuitivo);
b) Si E j s ( j = 1, 2,..., ) entonces, E j s (en realidad, dado que
j =1
E E ' = ( E E ') − ( E − E ' ) ( E '− E ) , esta propiedad es una consecuencia del
postulado a)
c) Dada una sucesión de eventos E1 , E2 ,... pertenecientes a “s”, entonces, lim E j s
j →
Axioma 2: s
Axioma 3: Asociado a cada evento E s , existe un número real no-negativo, p(E), al que se denominará
“probabilidad de ocurrencia del evento E”.
Axioma 4: La probabilidad de que ocurra al menos uno de los eventos incluidos en el espacio muestral es
igual a uno, p() = 1
Axioma 5 (de aditividad): Sean E1 y E2 dos eventos incompatibles, es decir, tales que no pueden
presentarse en forma simultánea ( E1 E2 = ), entonces se verificará que:
p( E1 E2 ) = p( E1 ) + p( E2 )
Ei = E1 ( E1 E2 ) ... ( Ei −1 Ei ) (i = 1, 2,3,...)
lim p( Ei ) = p( E1 ) + p( E j −1 E j ) = p E1 ( E j −1 E j ) =
i →
j =2 j =2
i →
j =2
(
p lim E1 ( E j −1 E j ) = p lim Ei
i →
)
Lo que demuestra que la probabilidad es una función continua respecto a cualquier sucesión monótona de
eventos. Por otra parte, si dicha sucesión es tal que Ei Ei +1 (i = 1, 2,3,...) , entonces, se verificará que
Ei Ei +1 (i = 1, 2,3,...) y, por lo tanto, dada la existencia del límite de la sucesión de las p( Ei ) será:
3
UNAF- FRN ESTADÍSTICA Y PROBABILIDADES PROF.J.C. BARRETO
ING. CIVIL
ESTUDIANTES: PAROLA GABRIEL, PERALTA PABLO, SANABRIA JORGE, BAEZ AYRTON
i → i →
i =1
lim p( Ei ) = 1 − lim p( Ei ) = 1 − p ( Ei ) =
(
p ( Ei ) = p lim Ei
i =1 i →
)
Dados los cinco primeros axiomas, se demuestra fácilmente que este sexto axioma (o teorema) de
continuidad es equivalente a la condición de aditividad completa o aditividad numerable o σ -aditividad (que,
obviamente, contiene a la aditividad simple como caso particular): Sea E1 , E2 ,..., En ,... un conjunto de
eventos incompatibles de a pares (es decir, tales que Ei E j = (i j; i, j = 1, 2,3,...) ). Por
inducción, se demuestra que:
n +1 n
E j = E j + En+1
j =1 j =1
Dado que cualesquiera de los eventos son incompatibles, será:
n+1 n n +1
p Ej = p E j + p ( En +1 ) = p( E j )
j =1 j =1 j =1
y, como cada uno de los eventos E j ( j = 1, 2,...) es incompatible con cada uno de los eventos
E j ( j = n + 1, n + 2,...) , se verificará que:
n n
p Ej = p Ej + p E j = p(E j ) + p Ej =
j =1 j =1 j = n +1 j =1 j = n +1
n
= lim p( E j ) + lim p E j = p( E j )
n → n →
j =1 j = n +1 j =1
Debe tenerse en cuenta que los eventos E j definen una sucesión decreciente, es decir que
j = n +1
Los axiomas de la teoría de probabilidad fueron sintetizados por A.N. Kolmogorov en 1933 en:
Axioma I: A cada suceso A le corresponde un número no negativo P(A) llamado probabilidad del
suceso A
Axioma II: La probabilidad del espacio muestral es 1: P(Ω)=1
Axioma III. Si A1, A2, … es un conjunto finito o numerable de sucesos incompatibles dos a dos,
entonces:
n n
P Ai = P( Ai )
i =1 i =1
4
UNAF- FRN ESTADÍSTICA Y PROBABILIDADES PROF.J.C. BARRETO
ING. CIVIL
ESTUDIANTES: PAROLA GABRIEL, PERALTA PABLO, SANABRIA JORGE, BAEZ AYRTON
Probabilidad total:
Consideremos sucesos A1, . . . ,An incompatibles dos a dos, tales que alguno de ellos ocurre, y con
probabilidades positivas. Sea B un suceso arbitrario. Entonces:
n
P ( B ) = P( Ai )P( B | Ai )
i =1
Fórmula de Bayes:
Consideremos sucesos A1, . . . ,An incompatibles dos a dos, tales que alguno de ellos ocurre, y con
probabilidades positivas. Sea B un suceso con probabilidad positiva. Entonces:
P ( Ak ) P ( B | Ak )
P ( Ak | B ) = (k = 1, 2,..., n)
P ( Ai ) P( B | Ai )
n
i =1
Esta igualdad se denomina “fórmula de Bayes”.
La probabilidad bayesiana es una de las diferentes interpretaciones del concepto de probabilidad. La
interpretación bayesiana de la probabilidad puede ser vista como una extensión de la lógica proposicional
que permite razonar con hipótesis, es decir, las proposiciones cuya veracidad o falsedad son inciertas.
Probabilidad bayesiana
La probabilidad bayesiana pertenece a la categoría de las probabilidades probatorias: para evaluar la
probabilidad de una hipótesis, la probabilista bayesiana especifica alguna probabilidad a priori, que se
5
UNAF- FRN ESTADÍSTICA Y PROBABILIDADES PROF.J.C. BARRETO
ING. CIVIL
ESTUDIANTES: PAROLA GABRIEL, PERALTA PABLO, SANABRIA JORGE, BAEZ AYRTON
actualiza a continuación, a la luz de nuevos y relevantes datos (en pruebas). La interpretación bayesiana
proporciona un conjunto estándar de los procedimientos y las fórmulas para realizar este cálculo.
Definición
Una variable aleatoria X es una función real definida en el espacio de probabilidad (Ω, F, P), asociado a un
experimento aleatorio.
X : →
La definición anterior involucra conceptos matemáticos procedentes de la teoría de la medida. Dado un
espacio de probabilidad (Ω, F, P) y un espacio medible (S, ), una aplicación X : → S , es una
variable aleatoria si es una aplicación A, medible. En el uso ordinario, los puntos no son
directamente observables, sólo el valor de
la variable en el punto X(w) por lo que el elemento probabilístico reside en el
desconocimiento que se tiene del punto concreto “w”.
Se denomina rango de la variable aleatoria X y se denota como R X , al conjunto
de valores que esta puede tomar, según la aplicación X.
RX = x / w : X ( w) = x
En la mayoría de los casos se toma como espacio medible de llegada, el formado
por los números reales, junto con la -álgebra de Borel, quedando la definición de esta
manera:
Dado un espacio de probabilidad, (Ω, F, P) una variable aleatoria real es cualquier función F/B(R) es
medible, donde B(R) es la -álgebra boreliana.
Ejemplo:
Suponiendo que se lanzan dos monedas al aire, donde los posibles resultados que
conforman el espacio, muestral son:
= cc, xx, cx, xc
donde las c representan que salió cara y las x que salió cruz. Se puede asignar entonces a cada suceso
experimental, el número de caras que se obtienen. De esta manera se define a la variable aleatoria X como,
X : →
dada por:
6
UNAF- FRN ESTADÍSTICA Y PROBABILIDADES PROF.J.C. BARRETO
ING. CIVIL
ESTUDIANTES: PAROLA GABRIEL, PERALTA PABLO, SANABRIA JORGE, BAEZ AYRTON
cc → 2
cx, xc → 1
xx → 0
El rango de esta variable aleatoria es el conjunto
RX = 0,1, 2
Entonces una variable aleatoria es discreta cuando se pueden enumerar sus valores posibles (aunque sean
infinitos) y es continua cuando no se pueden enumerar. Dicho de otra forma, el rango (conjunto de valores
posibles) de una variable aleatoria discreta es la unión de puntos aislados (en una recta, en un plano, etc.),
mientras que el rango de una variable aleatoria continua es uno o varios segmentos de recta, una superficie
en un plano, etc.
De la definición de variable aleatoria continua podríamos inferir que, como cada valor posible es un punto
en un continuo, es decir, un resultado posible entre una cantidad infinita y ni siquiera numerable de
resultados posibles, entonces la probabilidad de que ocurra ese resultado posible es "cero". Ese cero es
comparable a la longitud de un diferencial de longitud o a la superficie de un diferencial de área. Es decir,
no es que sea cero, porque si no, no sería un resultado posible. Es una probabilidad de orden diferencial
(tiende a cero), por lo cual a los fines prácticos consideramos que vale cero.
Ejemplo:
7
UNAF- FRN ESTADÍSTICA Y PROBABILIDADES PROF.J.C. BARRETO
ING. CIVIL
ESTUDIANTES: PAROLA GABRIEL, PERALTA PABLO, SANABRIA JORGE, BAEZ AYRTON
Si X es continua:
Habíamos dicho que la probabilidad de que una variable aleatoria continua asumiera un determinado valor
es cero. Entonces trabajaremos con intervalos: f X(x) es una función que integrada entre a y b nos da la
probabilidad de que la variable aleatoria X asuma un valor entre a y b.
fX(x) es una función de densidad de probabilidad continua si y solo si cumple con:
1. f X ( x) 0 x
2.
−
f X ( x) dx = 1
Ejemplo:
X: el resultado de elegir un número real al azar entre 4 y 6:
0.5 4 x 6
f X ( x) =
0 otro x
Luego la probabilidad de que X caiga en un determinado intervalo es el área bajo la curva de f X en ese
intervalo
Si X es discreta:
P ( X = x ) = PX ( x) porque la función PX(x) nos da justamente la probabilidad
de que X asuma el valor x.
x porque la probabilidad de que X ≤ x es la probabilidad de
P ( X x ) = PX ( x) que X valga x o cualquier valor menor que x.
−
8
UNAF- FRN ESTADÍSTICA Y PROBABILIDADES PROF.J.C. BARRETO
ING. CIVIL
ESTUDIANTES: PAROLA GABRIEL, PERALTA PABLO, SANABRIA JORGE, BAEZ AYRTON
P ( X x) = P ( X x) P ( X x) = P ( X x) − P ( X = x) =
= P ( X x) − 0 = P ( X x)
solo sucede con las variables
aleatorias continuas, porque un determinado punto tiene probabilidad
cero. En las variables aleatorias discretas, los puntos no tienen
probabilidad cero.
porque la probabilidad de que X ≤ x es la probabilidad de
P ( X x ) = f X ( x) dx que X valga x o cualquier valor mayor que x
x
x
- Para una variable aleatoria continua: FX ( x) = P ( x) dx
−
X
9
UNAF- FRN ESTADÍSTICA Y PROBABILIDADES PROF.J.C. BARRETO
ING. CIVIL
ESTUDIANTES: PAROLA GABRIEL, PERALTA PABLO, SANABRIA JORGE, BAEZ AYRTON
3) FX(x) monótonamente creciente (es decir, nunca puede ser decreciente). Porque la probabilidad
de que X sea menor que un cierto valor no puede ser menor a la probabilidad de que X sea menor
a valor mayor que él. Ejemplo: P(X ≤ 5) no puede ser nunca mayor que P(X ≤ 6). A lo sumo podrá
ser igual.
Formalmente: si b>a, entonces FX(b) ≥ FX(a)
4) lim FX ( x + h) = FX ( x) (es decir que FX(x) es continua por la derecha). Esto es diferente en
h →0
La probabilidad acumulada comienza siendo cero (en -). Sigue siendo cero hasta que encuentra el primer
valor con probabilidad no nula. A partir de ese valor, la probabilidad acumulada es la probabilidad de ese
primer punto. Dicha probabilidad acumulada se mantiene igual, hasta que se llega al segundo punto con
probabilidad no nula. A partir de ese punto, la probabilidad acumulada vale la suma de las probabilidades
de esos dos puntos. Y así sucesivamente hasta llegar al último valor con probabilidad no nula, a partir del
cual la probabilidad acumulada vale uno. Observemos que
el "salto" dado por la función de distribución acumulada en
cada punto es igual a la probabilidad de ese punto (porque
esa probabilidad es lo que se "agrega" a la suma
acumulada a partir de ese punto). Esto nos muestra que la
función tendrá una discontinuidad por izquierda en cada
punto con probabilidad no nula, porque la función da el
"salto". Pero por derecha es continua, porque a partir de
cada valor con probabilidad no nula (incluyendo el valor) la
función vale lo mismo (hasta llegar al próximo punto con
probabilidad no nula).
10
UNAF- FRN ESTADÍSTICA Y PROBABILIDADES PROF.J.C. BARRETO
ING. CIVIL
ESTUDIANTES: PAROLA GABRIEL, PERALTA PABLO, SANABRIA JORGE, BAEZ AYRTON
A la izquierda: función de densidad probabilística y función de distribución de una variable aleatoria discreta.
A la derecha, ambas funciones en una variable aleatoria continua.
Tipos de distribuciones de probabilidad
Según el tipo de variable a estudiar, las cuatro principales (de las que nacen todas las demás) son:
a. Si la variable es una variable discreta (números enteros), corresponderá una distribución discreta,
de las cuales existen:
I. Distribución binomial (eventos independientes).
II. Distribución de Poisson (eventos independientes).
III. Distribución hipergeométrica (eventos dependientes).
b. Si la variable es continua (números reales, la distribución que se generará será una distribución
continua. Ejemplos de ellas son:
I. Distribución normal o gaussiana.
II. Distribución de Cauchy
III. Distribución exponencial
Además, se puede utilizar la «distribución de Poisson como una aproximación de la distribución binomial»
cuando la muestra por estudiar es grande y la probabilidad de éxito es pequeña. De la combinación de los
dos tipos de distribuciones anteriores (a y b), surge una conocida como «distribución normal como una
aproximación de la distribución binomial y de Poisson».
Experimento de Bernoulli
Es un experimento que puede arrojar 2 resultados posibles. A uno de los resultados se lo denomina
arbitrariamente "éxito" y al otro "fracaso". El experimento de Bernoulli lleva asociada una probabilidad (la
probabilidad de "éxito"). Veamos el ejemplo siguiente:
Ejemplo
Si voy a tirar un dado, y lo que voy a observar es si sale o no sale un 5, entonces esto puede ser visto como
un experimento de Bernoulli constituido así:
11
UNAF- FRN ESTADÍSTICA Y PROBABILIDADES PROF.J.C. BARRETO
ING. CIVIL
ESTUDIANTES: PAROLA GABRIEL, PERALTA PABLO, SANABRIA JORGE, BAEZ AYRTON
12
UNAF- FRN ESTADÍSTICA Y PROBABILIDADES PROF.J.C. BARRETO
ING. CIVIL
ESTUDIANTES: PAROLA GABRIEL, PERALTA PABLO, SANABRIA JORGE, BAEZ AYRTON
es decir: X es una variable binomial con parámetros n y p. X es la variable que representa la cantidad de
éxitos obtenidos en n experimentos de Bernoulli independientes cada uno con probabilidad de éxito
n x n− x
p .(1 − p) 0 xn
P( X = x) = x
0 otro x
n n!
= Coeficiente binomial
x x !(n − x)!
En este caso tenemos X: Bi (51; 1/6) por lo que la probabilidad buscada es P X = 20
51
P X = 20 = (1/ 6) 20 (1 − 1/ 6)51−20 = 0.0000744
20
Propiedades:
Si X es una variable aleatoria discreta tal que X:Bi(n,p), entonces:
E ( X ) = n. p
2 X = n. p.(1 − p)
Distribución Geométrica
"¿Cuál es la probabilidad de obtener el primer éxito en el intento número x?"
Si X:Geom (p)
es decir: X es una variable geométrica con parámetro p. X es la variable que representa el número del
intento en el cual se obtiene el primer éxito en experimentos de Bernoulli independientes cada uno con
probabilidad de éxito p.
entonces:
p.(1 − p) x −1 x 1
P( X = x) =
0 otro x
13
UNAF- FRN ESTADÍSTICA Y PROBABILIDADES PROF.J.C. BARRETO
ING. CIVIL
ESTUDIANTES: PAROLA GABRIEL, PERALTA PABLO, SANABRIA JORGE, BAEZ AYRTON
1
E( X ) =
p
1− p
X2 = 2
p
p es un número real entre 0 y 1
Sabemos que nos encontramos frente a una distribución geométrica cuando:
- Nos dicen que vamos a repetir un determinado experimento hasta que logremos un éxito (ejemplo:
que vamos a revisar piezas hasta que encontremos una que no sea defectuosa, o que vamos a
disparar contra un blanco tantas veces como sea necesario hasta que acertemos, o que vamos a
observar días hasta que haya un día soleado, etc.)
- Nos dan o podemos calcular la probabilidad de tener éxito en cada uno de los intentos (la
probabilidad de que cada pieza sea buena, la probabilidad de acertar cada vez que disparamos,
la probabilidad de que un día sea soleado, etc.)
- Nos preguntan cuál es la probabilidad de que logremos el objetivo en menos de x repeticiones, o
la probabilidad de que nos tome más de x intentos lograr el objetivo, o la probabilidad de que lo
logremos exactamente en el x-ésimo intento.
La única dificultad que esta distribución puede presentar es el cálculo de la probabilidad de tener éxito en
cada uno de los intentos. Una vez obtenido ese valor, tendremos el parámetro p de la distribución, y el uso
de la fórmula será inmediato. La distribución geométrica en realidad es un caso particular de la distribución
de Pascal (explicada en la siguiente sección). Una variable geométrica puede ser vista como una variable
de Pascal cuyo parámetro p es el mismo que el de la geométrica, y cuyo parámetro k es igual a 1. De ahí
que sumar variables geométricas es en esencia como sumar variables de Pascal, y de ahí que la suma de
variables geométricas es una variable de Pascal. Por esto, si sospechamos que en un problema tendremos
que sumar variables geométricas, puede resultar una idea bastante práctica considerarlas desde el principio
variables de Pascal. De hecho la distribución geométrica se enseña separada de la pascal porque es más
fácil aprender del caso particular al caso general.
Una característica de la distribución geométrica que es importante destacar, es lo que se conoce como
"falta de memoria". Se dice que la distribución geométrica "no tiene memoria". Esta característica también
la tiene su análoga continua, la distribución exponencial negativa. ¿De qué se trata? La distribución
geométrica no es afectada por lo que vino antes. Es decir, no importa desde cuándo empecemos a contar,
siempre la probabilidad de las distintas cantidades de intentos hasta alcanzar un éxito estará distribuida de
la misma forma. No importa si empezamos a contar justo después de un éxito, o después de una racha de
30 fracasos.
Distribución de Pascal
"¿Cuál es la probabilidad de obtener el k-ésimo éxito en el intento número x?"
Si X:Pas (k ; p)
es decir: X es una variable de pascal con parámetros k y p. X es la variable que representa el número del
intento en el cual se obtiene el éxito número k en experimentos de Bernoulli independientes cada uno con
probabilidad de éxito p.
14
UNAF- FRN ESTADÍSTICA Y PROBABILIDADES PROF.J.C. BARRETO
ING. CIVIL
ESTUDIANTES: PAROLA GABRIEL, PERALTA PABLO, SANABRIA JORGE, BAEZ AYRTON
x − 1 k
p .(1 − p) x −k xk
P( X = x) = k − 1
0 otro x
k
E( X ) =
p
k (1 − p)
X2 =
p2
k es un número natural
p es un número real entre 0 y 1
Proceso de Poisson
Es un proceso que consiste en considerar un continuo, en el cual ocurren eventos. Si por ejemplo
consideramos la cantidad de fallas que una máquina tiene en 3 horas, el continuo es el tiempo, y los eventos
son las fallas de la máquina. Otro ejemplo puede ser considerar la cantidad de muertes por determinada
enfermedad en un año. Pero el continuo al que nos referimos no tiene necesariamente que ser tiempo. Por
ejemplo podemos considerar un rollo de tela de 100 metros de longitud y contar la cantidad de manchas en
ese tramo. En ese ejemplo, el continuo es la tela y los eventos las manchas.
Se definen las siguientes variables:
· T : la longitud de un intervalo del continuo que va a estudiarse.
· k : la cantidad de eventos que hay en ese intervalo.
15
UNAF- FRN ESTADÍSTICA Y PROBABILIDADES PROF.J.C. BARRETO
ING. CIVIL
ESTUDIANTES: PAROLA GABRIEL, PERALTA PABLO, SANABRIA JORGE, BAEZ AYRTON
Y además:
· Exponencial negativa: caso particular de Gamma cuando k = 1, es decir, consiste en preguntar por la
cantidad de tiempo necesaria hasta obtener el primer evento.
Distribución de Poisson
"¿Cuál es la probabilidad de obtener x eventos en el intervalo estudiado?"
Si bien el proceso de Poisson trabaja con los parámetros “T” (longitud del intervalo) y “” (intensidad), la
distribución de Poisson usa solamente el parámetro = .T .Como “T” es la longitud del intervalo, y “”
es la cantidad esperada de eventos por unidad de tiempo, entonces “µ” resulta ser la media. Es decir que
esta distribución tiene la característica de que su media resulta valer directamente lo mismo que valga el
parámetro µ.
Si
X: Pois (µ)
es decir: X es una variable Poisson con media “µ”. es decir: X es la variable que representa la cantidad de
eventos obtenidos en un intervalo de longitud T e intensidad .
Entonces:
e− x
x0
P( X = x) = x !
0 x0
E( X ) =
X2 =
es un número real positivo
Sabemos que nos encontramos frente a la necesidad de emplear una distribución Poisson cuando existe
un determinado intervalo en el cual suceden eventos, y necesitamos calcular cuántos eventos sucederán
en dicho intervalo. Puede ser que nos den la longitud del intervalo y la intensidad, o que directamente nos
den la media.
Cuando nos dan la longitud del intervalo y la intensidad:
- T. El intervalo es continuo, pero no tiene por qué necesariamente ser tiempo. Ejemplos de
intervalos: 2 horas, 3 metros de tela, 10 km. de una ruta, etc. Siempre será un número multiplicado
por una unidad de medida, o algo que deba ser interpretado o tomado como una unidad de medida.
- . La intensidad es la cantidad esperada de eventos por unidad de tiempo.
Ejemplos de intensidades: 4 visitantes por hora, 5 fallas por metro de tela, 3 baches por km., etc. Vemos
que siempre sus unidades serán una unidad de evento (visitantes, fallas, baches, etc.) dividida por una
unidad de medida del mismo tipo que la del intervalo (Es decir, si el intervalo es 3 metros de tela, es decir,
longitud de tela, la intensidad deberá ser una cierta cantidad de algo por unidad de longitud de la tela, por
ejemplo 5 fallas por metro de tela).
Cuando nos dan directamente la media: puede ser que directamente nos digan el valor de la media, o que
nos digan, por ejemplo, "3 errores por página", en un contexto donde se sobreentiende que estamos
16
UNAF- FRN ESTADÍSTICA Y PROBABILIDADES PROF.J.C. BARRETO
ING. CIVIL
ESTUDIANTES: PAROLA GABRIEL, PERALTA PABLO, SANABRIA JORGE, BAEZ AYRTON
hablando de una (y sólo una) página. Notemos que la en la media ya están "incluidos" tanto la intensidad
como la duración, y por lo tanto una distribución con 2 eventos/hora en 5 horas, será idéntica a una
distribución con 1 evento/hora en 10 horas.
Una vez determinada la media, el problema ya no tiene mucha dificultad. No debemos olvidar suponer que
el hecho de que en un determinado momento ocurra un evento, no nos afecta la probabilidad de tener o no
más eventos, y cuándo ocurrirán.
Distribución Exponencial Negativa
"¿Cuál es la probabilidad de tener que esperar x tiempo hasta obtener el primer evento?"
Si
X: ExpNeg()
es decir: X es una variable Exponencial Negativa con intensidad .X es la variable que representa el tiempo
que hay que esperar hasta obtener el primer evento en un continuo con intensidad de eventos .
Entonces:
e− x x
x0
P( X = x) = x !
0 x0
1
E( X ) =
1
X2 =
2
es un número real positivo
Sabemos que nos encontramos frente a una distribución exponencial negativa cuando:
- nos describen un continuo en el cual suceden eventos, como por ejemplo visitas a lo largo de un
día, defectos a lo largo de una tela, fallas de un circuito a lo largo de un determinado período, etc.
- nos dicen que vamos a continuar observando hasta que suceda el primer evento.
Ejemplo: hasta que llegue una visita, hasta que encontremos un defecto en la tela, hasta que el
circuito falle, etc. Y también lo pueden decir al revés: mientras no llegue ninguna visita, mientras
no encontremos un defecto en la tela, mientras el circuito no falle, etc.
- nos dan o nos permiten calcular la frecuencia promedio con que lo eventos suceden (l). Ejemplo:
3 visitas cada 15 minutos, 2 defectos por metro de tela, 3 fallas del circuito por día.
- nos preguntan acerca del tiempo, por ejemplo: cuál es la probabilidad de que el evento suceda en
menos de x tiempo, la probabilidad de que tome más de x tiempo, etc.
Es importante saber que en un proceso Poisson, el intervalo de tiempo entre dos eventos consecutivos es
siempre una variable exponencial negativa.
Otra característica de la distribución exponencial que es importante destacar, es lo que se conoce como
"falta de memoria". Se dice que la distribución exponencial "no tiene memoria". Esta característica también
la tiene su análoga discreta, la distribución geométrica.
Distribución Gamma
"¿Cuál es la probabilidad de tener que esperar x tiempo hasta obtener el k-ésimo evento?"
17
UNAF- FRN ESTADÍSTICA Y PROBABILIDADES PROF.J.C. BARRETO
ING. CIVIL
ESTUDIANTES: PAROLA GABRIEL, PERALTA PABLO, SANABRIA JORGE, BAEZ AYRTON
Si X:Gamma (l ; k)
es decir: X es una variable Gamma con parámetros l y k. X es la variable que representa el tiempo que hay
que esperar hasta obtener el evento número k, en un continuo con intensidad de eventos l.
Entonces:
( x)k −1 e− x
x0
f X ( x) = ( k )
0 x0
k
E( X ) =
k
X2 =
2
es un número real positivo
k es un número natural
(k ) para k natural vale (k − 1)!
f X ( x) dx = 1 − P (Y = i )
0 i =0
donde X es la variable gamma con la que estamos trabajando, e Y es una variable de Poisson con m = l .
x0
Sabemos que nos encontramos frente a una distribución gamma cuando:
- nos describen un continuo en el cual suceden eventos, como por ejemplo visitas a lo largo de un
día, defectos a lo largo de una tela, fallas de un circuito a lo largo de un determinado período, etc.
- nos dicen que vamos a continuar observando hasta que suceda una determinada cantidad de
eventos. Ejemplo: hasta que lleguen 5 visitas, hasta que encontremos 10 defectos en la tela, hasta
que el circuito falle por 5ta vez, etc.
- nos dan o nos permiten calcular la frecuencia promedio con que los eventos suceden (l). Ejemplo:
3 visitas cada 15 minutos, 2 defectos por metro de tela, 3 fallas del circuito por día.
- nos preguntan acerca del tiempo, por ejemplo: cuál es la probabilidad de que la cantidad de
eventos indicada suceda en menos de x tiempo, la probabilidad de que tome más de x tiempo,
etc.
Distribución Normal
Cuando la función de densidad es la siguiente:
18
UNAF- FRN ESTADÍSTICA Y PROBABILIDADES PROF.J.C. BARRETO
ING. CIVIL
ESTUDIANTES: PAROLA GABRIEL, PERALTA PABLO, SANABRIA JORGE, BAEZ AYRTON
Sin embargo, a los fines prácticos, esta distribución presenta un problema: la integración de una función de
la familia ex² no es un proceso simple. Por tal motivo, en vez de integrar para encontrar el área bajo la
curva, los valores de la función de distribución acumulada F se toman de una tabla. Observemos que, al
ser m y s números reales, hay infinitas distribuciones
posibles, y no se pueden tener infinitas tablas. Es por
eso que se trabaja con una distribución particular
denominada "normal estándar" y lo que se hace es
transformar cualquier normal en una normal estándar,
mediante un proceso denominado estandarización.
Cuando m = 0 y s = 1, la distribución se llama normal
estándar. Se puede demostrar que si X es cualquier
variable aleatoria normal, y tomamos la variable
X −
aleatoria Z = , entonces Z resulta ser una
variable aleatoria normal estándar.
19
UNAF- FRN ESTADÍSTICA Y PROBABILIDADES PROF.J.C. BARRETO
ING. CIVIL
ESTUDIANTES: PAROLA GABRIEL, PERALTA PABLO, SANABRIA JORGE, BAEZ AYRTON
X −
Es decir: X : N ( , ) Z = Z : N (0,1)
lo cual puede ser demostrado mediante un simple cambio de variables. Esto nos permite, dada cualquier
variable aleatoria normal, encontrar una variable aleatoria normal estándar, que es la que encontraremos
en las tablas. A la FZ la notaremos con la letra F. El proceso de tomar ese cambio de variables para obtener
una normal estándar a partir de una normal se conoce con el nombre de estandarización.
P ( X n − X ) → 0,
cuando n → .
Es claro que esta definición equivale a la siguiente: Para todo 0 , se verifica
P( Xn − X ) →1
cuando n → .
( )
P : X n ( ) → X ( ) = 1 .
Supongamos entonces que X n → X c.s. Esto significa que dado 0 , para cada Ω , con
excepción de un suceso de probabilidad nula, existe n = n ( , ) tal que para todo k n ( , ) ,
tenemos X k ( ) − X ( ) . Es decir, dado 0 , tenemos
20
UNAF- FRN ESTADÍSTICA Y PROBABILIDADES PROF.J.C. BARRETO
ING. CIVIL
ESTUDIANTES: PAROLA GABRIEL, PERALTA PABLO, SANABRIA JORGE, BAEZ AYRTON
P
n =1 k = n
X k ( )− X ( )
= 1.
P
n =1 k = n
X k ( )− X ( )
=0
La sucesión de conjuntos En = k =n X n ( ) − X ( ) cumple E 1 E2 . Dado que se
verifica la definición 1, por la propiedad 8 obtenemos lim P ( E n ) = P E n = 0 . De aquí se obtiene,
n →
n =1
que
P( Xn − X ) P X k − X = P ( En ) → 0
k =n
P
Si n → , para 0 arbitrario. En consecuencia X n → X concluyendo la demostración.
Definición 3. Supongamos que las variables aleatorias X,X1,X2 . . .tienen momento finito de orden r ≥ 1.
Decimos que la sucesión de variables aleatorias {Xn} converge en media de orden r, o más brevemente,
converge en r–media a la variable aleatoria X, si E|Xn−X|r → 0 cuando n → ∞.
No existe una notación estándar para este tipo de convergencia, y aquí utilizaremos la notación
X n → X (r -media). Si r = 2 se dice que la sucesión converge en media cuadrática, si r = 1 que
converge en media.
P
Demostremos que si X n → X (r -media ) para r 1 , entonces X n → X . Aplicando la desigualdad
de Chebishev, tenemos
(
P( Xn − X ) = P Xn − X r
r
) 1
r
E Xn − X
r
( )
P
por lo tanto P X n − X → 0 para todo 0 , es decir, X n → X .
21
UNAF- FRN ESTADÍSTICA Y PROBABILIDADES PROF.J.C. BARRETO
ING. CIVIL
ESTUDIANTES: PAROLA GABRIEL, PERALTA PABLO, SANABRIA JORGE, BAEZ AYRTON
d
Xn → X , y Xn → X
Demostración. Tenemos
F ( x ) = P ( X x ) =
= P ( X x, X n − X x − x ) + P ( X x, X n − X x − x )
( )
dado que P ( A ) = P ( AB ) + P AB para sucesos A y B arbitrarios. Además, P ( AB ) P ( B ) ,
y por ésto
F ( x ) P ( X n − X x − x ) + P ( X n x ) (2)
F ( x ) lim inf Fn ( x )
n→
( )
F xk' lim inf Fn ( x ) lim supFn ( x ) F xk''
n→ n→
( )
22
UNAF- FRN ESTADÍSTICA Y PROBABILIDADES PROF.J.C. BARRETO
ING. CIVIL
ESTUDIANTES: PAROLA GABRIEL, PERALTA PABLO, SANABRIA JORGE, BAEZ AYRTON
Como conclusión de las proposiciones demostradas, hemos obtenido que son válidas las siguientes
implicaciones entre los distintos tipos de convergencia introducidos:
Observemos que esta tabla incluye todas las relaciones posibles entre los tipos de convergencia
considerados. Sin supuestos adicionales, no es posible obtener más relaciones.
23
UNAF- FRN ESTADÍSTICA Y PROBABILIDADES PROF.J.C. BARRETO
ING. CIVIL
ESTUDIANTES: PAROLA GABRIEL, PERALTA PABLO, SANABRIA JORGE, BAEZ AYRTON
Bibliografía
• Teoría de la Probabilidad Segunda Edición. Valentín Vladímirovich Petrov, Ernesto Mordecki
Pupko. Montevideo: DIRAC, 2008.
• Probabilidad y estadística para ingeniería y ciencias Novena edición. Ronald E. Walpole, Raymond
H. Myers, Sharon L. Myers Y Keying Ye. Pearson Educación, México, 2012. ISBN: 978-607-32-
1417-9
• Acerca de los “Fundamentos de la Teoría de la Probabilidad” de A. N. Kolmogorov. Alberto H.
Landro y Mirta L. González. Facultad de Ciencias Económicas. Escuela de Economía “Francisco
Valsecchi”. Documento de Trabajo Nº 33. Marzo 2011
• Probabilidad Y Estadistica. Zylberberg Alejandro D. Editorial: NUEVA LIBRERÍA. 2005.
ISBN:9789871104338
• https://es.wikipedia.org/wiki/Probabilidad
• https://www.sdelsol.com/glosario/ley-de-laplace/
• https://es.wikipedia.org/wiki/Probabilidad_bayesiana
24
UNAF- FRN ESTADÍSTICA Y PROBABILIDADES PROF.J.C. BARRETO
ING. CIVIL
ESTUDIANTES: PAROLA GABRIEL, PERALTA PABLO, SANABRIA JORGE, BAEZ AYRTON
Definición:
Un proceso estocástico es una colección o familia de variables aleatorias {Xt, con t ∈ T}, ordenadas según
el subíndice t que en general se suele identificar con el tiempo.
Por tanto, para cada instante t tendremos una variable aleatoria distinta representada por Xt, con lo que un
proceso estocástico puede interpretarse como una sucesión de variables aleatorias cuyas características
pueden variar a lo largo del tiempo. Por ejemplo, si observamos sólo unos pocos valores de t, tendríamos
una imagen similar a la de la figura siguiente:
en la que se representa para cada t la función de densidad correspondiente a Xt. Aunque en la figura se
han representado unas funciones de densidad variables, un proceso estocástico no tiene por que presentar
esas diferencias en la función de densidad a lo largo del tiempo. Como más adelante se comentará
presentan un especial interés aquellos procesos cuyo comportamiento se mantiene constante a lo largo de
t.
A los posibles valores que puede tomar la variable aleatoria se le denominaran estados, por lo que se puede
tener un espacio de estados discreto y un espacio de estados continuo.
UNAF- FRN ESTADÍSTICA Y PROBABILIDADES PROF.J.C. BARRETO
ING. CIVIL
ESTUDIANTES: PAROLA GABRIEL, PERALTA PABLO, SANABRIA JORGE, BAEZ AYRTON
Por otro lado, la variable tiempo puede ser de tipo discreto o de tipo continuo. En el caso del tiempo discreto
se podría tomar como ejemplo que los cambios de estado ocurran cada día, cada mes, cada año, etc.. En
el caso del tiempo continuo, los cambios de estado se podrían realizar en cualquier instante.
Por tanto, dependiendo de cómo sea el conjunto de subíndices T y el tipo de variable aleatoria dado por Xt
se puede establecer la siguiente clasificación de los procesos estocásticos:
Una Cadena es un proceso estocástico en el cual el tiempo se mueve en forma discreta y la variable
aleatoria sólo toma valores discretos en el espacio de estados. Un Proceso de Saltos Puros es un proceso
estocástico en el cual los cambios de estados ocurren en forma aislada y aleatoria pero la variable aleatoria
sólo toma valores discretos en el espacio de estados. En un Proceso Continuo los cambios de estado se
producen en cualquier instante y hacia cualquier estado dentro de un espacio continuo de estados.
a) El proceso Wiener.
Hemos analizado uno de los procesos más simples en una dimensión: la caminata aleatoria (random walk).
Hemos visto también que el límite de las distribuciones de probabilidad discretas
puede llevarse al continuo por medio de un límite adecuado en el tamaño de los pasos espacial
y temporal. Las escalas entre ambos pasos están vinculadas de una manera particular para
que en el límite obtengamos una distribución de probabilidad no trivial. Concretamente, hemos
visto que h debe ser del orden de k , donde k es el paso temporal y h el espacial. Si elegimos
h = k ( D = 1/ 2) en el límite podemos generar un proceso continuo, o una familia de variables
aleatorias reales Wt2, indexadas por el tiempo t, que tiene las siguientes propiedades:
1. W0 = 0.
b) Proceso Poisson
Variable aleatoria exponencial y distribución de Poisson.
Definición (Variable aleatoria exponencial): Una variable aleatoria real positiva Y se dice que sigue una
distribución exponencial con parámetro λ > 0 si su función de distribución es de la forma
𝑓(𝑦) = 𝜆𝑒−𝜆𝑦1(𝑦 ≥ 0) 𝑦 ∈ ℝ
Definición (La distribución de Poisson) Una variable aleatoria N con valores enteros no negativos sigue
una distribución de Poisson con parámetro λ si
𝜆𝑛
ℙ (𝑁 = 𝑛) = 𝑒−𝜆𝑛! ∀𝑛 ∈ ℕ
Un proceso de Markov es un tipo particular de proceso estocástico en el que únicamente el estado actual
del proceso es relevante a la hora de predecir el estado futuro. Es decir, la historia pasada del proceso y
la forma en que el presente ha emergido del pasado son irrelevantes. Más formalmente, el valor esperado
de una variable aleatoria xt en el instante t, depende únicamente del valor previo xt-1 . Generalizando, si
poseemos información sobre x r , con r < t , entonces a la hora de estimar xt ,la única información que
necesitamos es la de xr , para el mayor r para el que tengamos información.
Las Ecuaciones Diferenciales Estocásticas (E.D.E) tienen múltiples aplicaciones en Matemáticas, Física,
Demografía y Finanzas. Estas tienen un tratamiento similar a las Ecuaciones Diferenciales Ordinarias en el
momento de hallar soluciones explicitas.
Sea B(t) = (B1(t), B2(t), . . . , Bm(t))T, t ≥ 0 un Movimiento Browniano m-dimensional definido sobre este
espacio.
Sea x0 una variable aleatoria de valores en Rn Ft0 -medible tal que E|x0| 2 < ∞.
Sea f: R2 × [t0, T] → Rn y g: Rn × [t0, T] → Rn×m ambas Borel-medibles.
Considere la Ecuación Diferencial Estocástica n-dimensional del tipo
dx(t) = f(x(t), t)dt + g(x(t), t)dtB(t); t0 ≤ t < T (1)
Con valor inicial x(t0) = x0. Por definición de diferencial estocástica, esta ecuación es equivalente a la
ecuación integral estocástica dada por:
Definición: Un proceso estocástico {x(t)} t0≤t≤T con valores en Rn se conoce como solución de la ecuación
si tiene las siguientes propiedades:
Una solución {x(t)} se dice es única si cualquier otra solución {x¯(t)} es idéntica a {x(t)}, es decir:
P{x(t) = ¯x(t)} = 1; t ∈ [t0, T]
t t
x(t ) = x(s) + f ( x(r ), r )dr + g ( x(r ), r )dB(r ); S t T
S S
Pero esta última ecuación es una Ecuación Diferencial Estocástica sobre [S, T] con valor inicial x(S) =
x(S;t0, x0), cuya solución puede escribirse como x(t; S, x(S;t0, x0)). De este modo puede observarse que
la solución de la ecuación (1) satisface la propiedad x(t;t0, x0) = x(t; S, x(S;t0, x0)); t0 ≤ S ≤ t ≤ T
esta, se trata de una ecuación diferencial estocástica, donde W(t) es un proceso Wiener.
La expresión dW(t) se utiliza como notación, ya que el proceso Wiener no es integrable en el sentido de
Riemann. Su gráfica tendría esta forma:
t t
X (t ) = x0 + b( X (s)dr + B( X (s))dW
0 0
Entonces para poder obtener una EDE, hace falta introducir un término estocástico para que altere el
comportamiento de una EDO. Lo mismo se podría hacer con una función de probabilidad, para aleatorizar
la EDO.
3)
Ecuación de Boltzmann:
En física, específicamente en física estadística fuera del equilibrio, la ecuación de Boltzmann describe el
comportamiento estadístico de un sistema termodinámico fuera del equilibrio termodinámico. Esta
ecuación fue deducida por Ludwig Boltzmann en 1872.1El ejemplo clásico es un fluido con gradientes de
temperatura en el espacio, lo que provoca un flujo de calor de las regiones más calientes a las más frías,
causado por el transporte (aleatorio, pero condicionado por las características del sistema) de partículas.
En la literatura moderna el término Ecuación de Boltzmann se usa a menudo en un sentido más general y
se refiere a cualquier ecuación cinética que describe el cambio o evolución de cantidades macroscópicas
en un sistema termodinámico, tales como la energía, la carga o el número de partículas.
f P f f
+ .f + F . =
t m p t colisiones
Ecuación de Fokker-Planck:
En mecánica estadística , la ecuación de Fokker-Planck es una ecuación diferencial parcial que describe
la evolución en el tiempo de la función de densidad de probabilidad de la velocidad de una partícula bajo la
influencia de fuerzas de arrastre y fuerzas aleatorias, como en el movimiento browniano . La ecuación
también se puede generalizar a otros observables.
f 2
p( x, t ) = − . ( x, t ) p( x, t ) + 2 D( x, t ) p( x, t )
t x x
dX t = ( X t , t )dt + ( X t , t )dWt
Ecuación de Kolmogorov:
p n+m ( x, y ) = p n ( x, z ) p m ( z, y); 0 k n
z
Demostración
p m+n (i, j ) = P( X n + m = y, X n = z / X o = x)
k
P( X n + m = y, X n = z , X o = x)
=
k P( X 0 = x)
P( X n + m = y / X n = z , X o = x) P( X n = z , X 0 = x)
=
k P( X 0 = x)
= P( X n + m = y / X n = z ) P( X n = z , X 0 = x) por Markov
k
= P n ( x, z ) p m ( z , y )
k
UNAF- FRN ESTADÍSTICA Y PROBABILIDADES PROF.J.C. BARRETO
ING. CIVIL
ESTUDIANTES: PAROLA GABRIEL, PERALTA PABLO, SANABRIA JORGE, BAEZ AYRTON
4
Introducción a la inferencia estadística
La inferencia estadística es el conjunto de métodos y técnicas que permiten inducir, a partir de la
información empírica proporcionada por una muestra, cual es el comportamiento de una determinada
población con un riesgo de error medible en términos de probabilidad.
Los métodos paramétricos de la inferencia estadística se pueden dividir, básicamente, en dos: métodos de
estimación de parámetros y métodos de contraste de hipótesis. Ambos métodos se basan en el
conocimiento teórico de la distribución de probabilidad del estadístico muestral que se utiliza como
estimador de un parámetro.
La estimación de parámetros consiste en asignar un valor concreto al parámetro o parámetros que
caracterizan la distribución de probabilidad de la población. Cuando se estima un parámetro poblacional,
aunque el estimador que se utiliza posea todas las propiedades deseables, se comete un error de
estimación que es la diferencia entre la estimación y el verdadero valor del parámetro. El error de estimación
es desconocido por lo cual es imposible saber en cada caso cual ha sido la magnitud o el signo del error;
para valorar el grado de precisión asociado con una estimación puntual se parte de dicha estimación para
construir un intervalo de confianza. En síntesis, un intervalo de confianza está formado por un conjunto de
valores numéricos tal que la probabilidad de que éste contenga al verdadero valor del parámetro puede
fijarse tan grande como se quiera. Esta probabilidad se denomina grado de confianza del intervalo, y la
amplitud de este constituye una medida del grado de precisión con el que se estima el parámetro.
Los métodos de contraste de hipótesis tienen como objetivo comprobar si determinado supuesto referido a
un parámetro poblacional, o a parámetros análogos de dos o más poblaciones, es compatible con la
evidencia empírica contenida en la muestra. Los supuestos que se establecen respecto a los parámetros
se llaman hipótesis paramétricas. Para cualquier hipótesis paramétrica, el contraste se basa en establecer
un criterio de decisión, que depende en cada caso de la naturaleza de la población, de la distribución de
probabilidad del estimador de dicho parámetro y del control que se desea fijar a priori sobre la probabilidad
de rechazar la hipótesis contrastada en el caso de ser ésta cierta.
Teorema de límite central
El teorema del límite central indica que, en condiciones muy generales, si S n es la suma de n variables
aleatorias independientes y de varianza no nula pero finita, entonces la función de distribución de S n «se
aproxima bien» a una distribución normal. Así pues, el teorema asegura que esto ocurre cuando la suma
de estas variables aleatorias e independientes es lo suficientemente grande.
Definiciones:
( x − )2
1
f , 2 ( x) = e 2 2
2 2
con media y varianza 2 . El caso en el que su función de densidad sea N (0,1) a la distribución se le
conoce como normal estándar.
Sn = X 1 + ... + X n
S n − n
Zn =
n
para que la media de la nueva variable sea igual a 0 y la desviación estándar sea igual a 1. Así, las variables
Z n convergerán en distribución a la distribución normal estándar N (0,1) , cuando n tienda a infinito. Como
consecuencia, si (z) es la función de distribución de N (0,1) ,para cada número real z :
lim Pr( Z n z ) = ( z )
n →
donde Pr( ) indica probabilidad y lim se refiere a límite matemático. El enunciado formal del teorema es el
siguiente:
Estimador Definición:
Un estimador es un estadístico utilizado para estimar un parámetro desconocido de la población. Por
ejemplo, si se desea conocer el precio medio poblacional de un artículo se recogen observaciones del
precio de dicho artículo en diversos establecimientos pudiendo utilizarse la media aritmética de las
observaciones para estimar el precio medio poblacional. Para cada parámetro pueden existir varios
estimadores diferentes. En general, se elige el estimador que posea mejores propiedades que los restantes,
como insesgadez, eficiencia, convergencia y robustez.
El valor de un estimador proporciona una estimación puntual del valor del parámetro en estudio. En
general, se realiza la estimación mediante un intervalo, es decir, se obtiene un intervalo estadístico
muestral error de estimación dentro del cual se espera se encuentre el valor poblacional dentro de un
cierto nivel de confianza. El nivel de confianza es la probabilidad de que a priori el valor poblacional se
encuentre contenido en el intervalo.
Sesgo de un estimador
Se denomina sesgo de un estimador a la diferencia entre la esperanza del estimador y el verdadero valor
del parámetro a estimar. Es deseable que un estimador sea insesgado o centrado, esto es, que el sesgo
sea nulo para que la esperanza del estimador sea igual al valor del parámetro que se desea estimar.
Por ejemplo, si se desea estimar la media de una población, la media aritmética de la muestra es un
estimador insesgado de la misma, ya que la esperanza (valor esperado) es igual a la media poblacional.
1 n 1 n 1 n 1 1
E[ x ] = E xi = E xi = E xi = ( E[ xi ] + E[ x2 ] + ... + E[ xn ]) = n =
n i =1 n i =1 n i =1 n n
La varianza de una muestra aleatoria simple es un estimador sesgado de la varianza poblacional, siendo
su esperanza:
n
(x − x )
i
2
La varianza muestral es x2 = i =1
.Para calcular su esperanza matemática se realizan
n
previamente algunos cálculos sumando y restando la esperanza de la variable aleatoria poblacional.
n n
( xi − x )2 (x − x + − )
i
2
1 n
x2 = i =1
n
= i =1
n
= [( xi − ) − ( x − )]2
n i =1
1 n
=
n i =1
[( xi − ) 2 − 2( xi − )( x − ) + ( x − ) 2 ] =
1 n n
=
n i =1
( xi − ) 2
+ n ( xi − ) 2
− 2( x − )
i =1
( x − ) =
1 n
=
n i =1
( xi − ) 2 + n( xi − ) 2 − 2( x − )(nx − n ) =
1 n
= ( xi − ) 2 + nx 2 + n 2 − 2nx + 2nx 2 + 2nx + 2nx − 2nx 2 =
n i =1
1 n
= ( xi − ) 2 − n( x − ) 2
n i =1
Calculando su esperanza matemática:
1 n 1 n
E[ x ] = E ( xi − ) 2 − n( x − ) 2 = E[( xi − ) 2 ] − E[( x − ) 2 ]
n i =1 n i =1
La primera esperanza del segundo miembro E[( x − ) 2 coincide con la varianza poblacional 2 al
tratarse de una muestra aleatoria simple, la segunda esperanza E[( x − ) 2 coincide con la varianza de
2
la media muestral
n
2 n −1 2
Por lo tanto E[ x2 ] = 2 − =
n n
Se pueden dar los siguientes sesgos en los estimadores:
sesgo
Sean ˆ1 y ˆ2 dos estimadores insesgados, se dice que ˆ1 es más eficiente que ˆ2 si se verifica que
Var (ˆ1 ) Var (ˆ2 ) .
Var (ˆ1 )
La eficiencia relativa se mide por la ratio
Var (ˆ2 )
La eficiencia de los estimadores está limitada por las características de la distribución de probabilidad de la
muestra de la que proceden.
Var (ˆ1 ) CCR .Un estimador será eficiente cuando Var (ˆ) = CCR la cota resulta:
[1 − b(ˆ)]2 [1 + b(ˆ)]2
Var (ˆ) CCR = =
ln L( x, ) ln L( x, )
2 2
nE E
1
Var (ˆ) CCR =
ln L( x, )
2
nE
[1 − b(ˆ)]2
Y en muestras aleatorias simples: Var (ˆ) CCR =
ln L( x, )
2
nE
Suficiencia
Para identificar estadísticos suficientes se utiliza el criterio de factorización de Fisher-Neyman, que dice que
dada una muestra aleatoria ( X 1... X n ) de una población X con función masa p o función densidad f ,
Para encontrar un estadístico suficiente ˆ hay que factorizar la función de verosimilitud de la forma:
L( ) = g (ˆ, ].hˆ ( x1 ,..., xn )
Estimación puntual
El objetivo de la estimación puntual es usar una muestra para obtener números que, en algún sentido, sean
los que mejor representan a los verdaderos valores de los parámetros de interés.
Supongamos que se selecciona una muestra de tamaño n de una población. Antes de obtener la muestra
no se sabe cuál será el valor de cada observación. Así, la primera observación puede ser considerada una
v.a. X i , la segunda una v.a X 2 , etc. Por lo tanto, antes de obtener la muestra se denotará X 1... X n las
observaciones y, una vez obtenida la muestra, denotaremos x1...xn a los valores observados.
n
Xi
1 = E ( x) = → ˆ1 = 1 = i =1
=X
n
n
X 2i
2 = E ( x ) → ˆ 2 = 2 =
2 i =1
n
....
n
X ri
r = E ( X ´) → ˆ r = r = n
i =1
Sea ( x1 ,..., xn ) una muestra aleatoria (no necesariamente simple) de una población X con función de
masa P o función densidad f donde = (1 ,..., 2 ) .
ln L( )
Se despeja ˆ(ˆ1 ,..., ˆn ) de la ecuación: = 0 y se obtiene el estimador de máxima
=ˆ
( )
Específicamente, a partir de una muestra aleatoria se construye un intervalo ˆ1 ,ˆ2 donde los extremos
( (
son estadísticos, tal que P ˆ1 ,ˆ2 )) = 1 − , donde es el parámetro a estimar y es un valor
(
real entre cero y uno dado de antemano. Por ejemplo si = 0,05 , se busca construir un intervalo ˆ1 ,ˆ2 )
( (
tal que P ˆ1 ,ˆ2 )) = 0,95 o P (ˆ ˆ ) = 0,95
1 2
Esta probabilidad tiene el siguiente significado: cómo ˆ1 y ˆ2 son estadísticos, los valores que ellos toman
varían con los valores de la muestra, es decir si x1...xn son los valores medidos de la muestra entonces
el estadístico ˆ1 tomará el valor 1 y el estadístico ˆ2 tomará el valor 2 . Si se mide nuevamente, ahora
los valores obtenidos serán x´1...x´n ,por lo tanto, los estadísticos tomarán valores ˆ1 y ˆ2
respectivamente, diferente a los anteriores. Esto significa que si medimos la muestra 100 veces
obtendremos 100 valores diferentes para los estadísticos y por lo tanto obtendremos 100 intervalos
distintos, de los cuales aproximadamente 5 de ellos no contendrán al verdadero parámetro.
Al valor 1− se lo llama nivel de confianza del intervalo. La construcción repetida de un intervalo de
confianza para se ilustra en la siguiente figura:
UNAF- FRN ESTADÍSTICA Y PROBABILIDADES PROF.J.C. BARRETO
ING. CIVIL
ESTUDIANTES: PAROLA GABRIEL, PERALTA PABLO, SANABRIA JORGE, BAEZ AYRTON
Intervalo de confianza para la media de una distribución normal con varianza conocida
El método general para construir intervalos de confianza es el siguiente llamado método del pivote:
n
X i
A_ Partimos de la esperanza muestral X = i =1
para una muestra aleatoria ( x1 ,..., xn ) .Sabemos que
n
es un estimador insesgado y consistente de . B_ Construimos el estadístico:
X −
Z= N (0,1)
n
La variable aleatoria Z cumple las condiciones necesarias de un pivote. Para construir un intervalo de
confianza al nivel de confianza 1− partiendo del pivote Z , comenzamos por plantear la ecuación:
P( − z Z z ) = 1 −
X −
P = −z z = P −z X − z = P−X − z − − X + z = 1−
n n n n
n
Multiplicando todos los miembros de la desigualdad por -1 (el orden de los miembros se invierte) llegamos
a:
P X − z X +z = 1−
n n
Definiendo:
ˆ
1 = X − z n
ˆ = X + z
2 n
( )
De esta manera se construyeron dos estadísticos tales que P ˆ1 ˆ2 = 1 − .Es decir hemos
construido el intervalo de confianza bilateral deseado [ˆ1 , ˆ2 ] . Todos los elementos que forman los
estadísticos ˆ1 y ˆ2 son conocidos ya que el número z verifica la ecuación anterior, es decir:
UNAF- FRN ESTADÍSTICA Y PROBABILIDADES PROF.J.C. BARRETO
ING. CIVIL
ESTUDIANTES: PAROLA GABRIEL, PERALTA PABLO, SANABRIA JORGE, BAEZ AYRTON
[ˆ1 , ˆ2 ] = X − z , X + z
2 n 2 n
X − z , X + z
2 n 2 n
Intervalo de confianza para la media de una distribución normal con varianza desconocida
Nuevamente como se trata de encontrar un intervalo de confianza para nos basamos en la esperanza
n
X i
muestral X = i =1
que es un buen estimador de , sin embargo ahora no se puede usar como
n
pivote a :
X −
Z=
n
porque desconocemos y una condición para ser pivote es que, excepto por el parámetro a estimar
(en este caso ), todos los parámetros que aparecen en él deben ser conocidos. Entonces
proponemos como pivote una variable aleatoria definida en forma parecida a Z pero reemplazando
por un estimador adecuado.
La varianza muestral definida como:
1 n
S2 =
n − 1 i =1
( X i − X )2
UNAF- FRN ESTADÍSTICA Y PROBABILIDADES PROF.J.C. BARRETO
ING. CIVIL
ESTUDIANTES: PAROLA GABRIEL, PERALTA PABLO, SANABRIA JORGE, BAEZ AYRTON
X −
T=
S
n
Para poder usar a T como pivote, se debe conocer su distribución. Esta se trata de una distribución
Student con parámetro n −1.
Una v.a. continua tiene distribución Student con k grados de libertad, si su f.d.p. es de la forma:
( k + 1)
r
f ( x) = 2 − x
k +1
k x
2 2
kr + 1
2 k
La gráfica de la f.d.p. de la distribución Student tiene forma de campana como la normal, pero tiende a
cero más lentamente. Se puede probar que cuando k → a fdp de la Student tiende a la fdp de la N
(0,1) :
Se anotara como ta,k al cuantil de la Student con k grados de libertad que deja bajo la fdp a derecha
un área de , y a su izquierda un área de 1− .
Luego, para construir el intervalo de confianza buscado a partir del pivote T procedemos como en los
casos anteriores:
Comenzamos por plantear la ecuación:
UNAF- FRN ESTADÍSTICA Y PROBABILIDADES PROF.J.C. BARRETO
ING. CIVIL
ESTUDIANTES: PAROLA GABRIEL, PERALTA PABLO, SANABRIA JORGE, BAEZ AYRTON
P(−t T t ) = 1 −
X − S S S S
P = −t t = P −t X − t = P−X −t − − X + t = 1−
S n n n n
n
S S
P X −t X +t = 1−
n n
Definiendo:
ˆ S
1 = X − t n
ˆ = X + t S
2 n
( )
De esta manera se construyeron dos estadísticos tales que P ˆ1 ˆ2 = 1 − , se pasa a analizar
el número t que satisface la ecuación, es decir:
S S
X − t n −1 , X + t
n −1
, con F t = 1 −
2 n 2 n 2 n −1 2
En consecuencia:
S S
X − t n −1 , X + t
n −1
2 n 2 n
Intervalo de confianza para la media unilateral por la izquierda o derecha con varianza conocida
Se procede de una manera similar al intervalo de confianza para la media bilateral, solo que ahora se
toman porciones del intervalo:
S
P X − z = 1 − → unilateral por la izquierda
n
S
P X + z = 1 − → unilateral por la derecha
n
UNAF- FRN ESTADÍSTICA Y PROBABILIDADES PROF.J.C. BARRETO
ING. CIVIL
ESTUDIANTES: PAROLA GABRIEL, PERALTA PABLO, SANABRIA JORGE, BAEZ AYRTON
X1 N ( 1 , 12 )
suponemos que ambas varianzas son conocidas
X2 N ( 2 , 22 )
Sean, además:
( X11 ,......, X1n1 ) una muestra de tamaño n1 de X1
( X 21 ,......, X 2 n2 )una muestra de tamaño n 2 de X 2
n
X 1i
12
X1 = i =1
N 1 ,
n n1
n
X 2i
2
X2 =
i =1
N 2 , 2
n n2
2 2
X1 − X 2 N 1 − 2 , 1 + 2
n1 n2
Por lo tanto:
X 1 − X 2 − ( 1 − 2 )
Z= N (0,1) , es decir, tiene distribución normal estandarizada
12 22
+
n1 n2
La v.a. Z cumple con todas las condiciones para servir de pivote y se construirá el intervalo en forma
análoga a cómo se hizo anteriormente.
Planteando la ecuación:
P( − z Z z ) = 1 −
12 22
Reemplazamos la v.a. Z por su expresión y tenemos sucesivamente (multiplicando por + y
n1 n2
restando X1 − X 2 )
UNAF- FRN ESTADÍSTICA Y PROBABILIDADES PROF.J.C. BARRETO
ING. CIVIL
ESTUDIANTES: PAROLA GABRIEL, PERALTA PABLO, SANABRIA JORGE, BAEZ AYRTON
X 1 − X 2 − ( 1 − 2 ) 12 22 12 22
P −z z = P −z + X 1 − X 2 − ( 1 − 2 ) z + =
2
2 n1 n2 n1 n2
1
+ 2
n n
1 2
2 2 2 2
P −( X1 − X 2 ) − z 1 + 2 −( 1 − 2 ) −( X1 − X 2 ) + z 1 + 2 = 1 −
n1 n2 n1 n2
Multiplicando todos los miembros de la desigualdad por -1:
2 2 2 2
P X1 − X 2 − z 1 + 2 1 − 2 X1 − X 2 + z 1 + 2 = 1 −
n1 n2 n1 n2
Definiendo:
12 22
ˆ1 = X 1 − X − z +
n1 n2
ˆ 12 22
2 = X 1 − X + z n1
+
n2
( )
De esta manera se construyeron dos estadísticos tales que P ˆ1 ˆ2 = 1 − .Se construyó el
intervalo de confianza bilateral deseado [ˆ1 , ˆ2 ] . Todos los elementos que forman los estadísticos
ˆ1 y ˆ2 son conocidos ya que el número z verifica la ecuación anterior, es decir:
12 22 12 22
X 1 − X 2 − z + ; X 1 − X 2 + z +
2 n1 n2 2 n1 n2
En conclusión:
12 22 12 22
X 1 − X 2 − z + ; X 1 − X 2 + z +
2 n1 n2 2 n1 n2
UNAF- FRN ESTADÍSTICA Y PROBABILIDADES PROF.J.C. BARRETO
ING. CIVIL
ESTUDIANTES: PAROLA GABRIEL, PERALTA PABLO, SANABRIA JORGE, BAEZ AYRTON
Supongamos que se quiere hallar un intervalo de confianza para la varianza 2 de una distribución normal.
(n − 1) S 2
X=
2
Este estadístico contiene al parámetro desconocido a estimar 2 y tiene una distribución conocida, X tiene
una distribución llamada ji-cuadrado con n −1 grados de libertad
Si X es una v.a. continua e dice que tiene distribución ji-cuadrado con k grados de libertad si su f.d.p. es:
−x
2
1 ( k /2) −1 2
f ( x) = k /2 x e x0
2 r (k / 2)
La distribución ji-cuadrado es asimétrica. En la figura siguiente se grafica la densidad para diferentes
valores de k .
Se anotara ,k al cuantil de la ji-cuadrado con k grados de libertad que deja bajo la fdp a derecha un área
2
1_ Se puede probar que si X 1 ,.... X n son variables aleatorias independientes con distribución N (0,1),
entonces Z = X12 + ... + X n2 tiene distribución ji-cuadrado con n grados de libertad.
2_ Si X 1 , X 2 .... X n son variables aleatorias independientes tal que X i tiene distribución ji-cuadrado con
ki grados de libertad, entonces Z = X 1 + ... + X n tiene distribución ji-cuadrado con k grados de libertad
donde k = k1 + k2 ... + kn
UNAF- FRN ESTADÍSTICA Y PROBABILIDADES PROF.J.C. BARRETO
ING. CIVIL
ESTUDIANTES: PAROLA GABRIEL, PERALTA PABLO, SANABRIA JORGE, BAEZ AYRTON
Para desarrollar el intervalo de confianza planteamos hallar dos números a y b tales que:
(n − 1) S 2
P ( a X b ) = 1 − ,es decir, P a b = 1−
2
Por lo tanto:
2 (n − 1) S 2
P 2
= 1−
1− 2 ,n −1 2 2
, n −1
Despejando 2 , se obtiene:
(n − 1) S 2 (n − 1) S 2
P 2
2
= 1−
2
1− , n −1
, n −1
2 2
Entonces, como conclusión:
(n − 1) S 2 (n − 1) S 2
2 ; 2
,n −1
1− , n −1
2 2
UNAF- FRN ESTADÍSTICA Y PROBABILIDADES PROF.J.C. BARRETO
ING. CIVIL
ESTUDIANTES: PAROLA GABRIEL, PERALTA PABLO, SANABRIA JORGE, BAEZ AYRTON
p (1) = p ( X 1 = 1) = p
p( x) =
p (0) = p ( X 1 = 0) = 1 − p
es decir, Xi es una v.a que toma dos valores: 1 si verifica A con probabilidad p y 0 si no verifica A con
probabilidad 1− p . Esto quiere decir que Xi tiene una distribución binomial con parámetros 1 y p .
Pero, además, es fácil ver que P̂ es estimador consistente de p. En efecto, tenemos que E ( Pˆ ) = p ,
pero también es:
X 1 p(1 − p)
V ( Pˆ ) = V = 2 np(1 − p) =
n n n
Pˆ − p
Z=
p (1 − p )
n
cuya distribución es, para n suficientemente grande, aproximadamente N (0,1) . En efecto:
X X X n
X
Pˆ = 1 + 2 + ... + n , es E ( Pˆ ) = E i = np
n n n i =1 n
Siendo
n
X p(1 − p)
V ( Pˆ ) = V i =
i =1 n n
Por lo tanto:
UNAF- FRN ESTADÍSTICA Y PROBABILIDADES PROF.J.C. BARRETO
ING. CIVIL
ESTUDIANTES: PAROLA GABRIEL, PERALTA PABLO, SANABRIA JORGE, BAEZ AYRTON
Pˆ − p
Z= N (0,1)
p (1 − p )
n
El pivote puede ponerse en una forma más conveniente si tenemos en cuenta que, según vimos recién, P̂
es estimador consistente de p y, en consecuencia, en el denominador reemplazamos el parámetro
desconocido p por su estimador P̂ , y se puede probar que :
Pˆ − p
Z= N (0,1) si n es grande
p (1 − p )
n
Partiendo de este pivote podemos seguir los mismos pasos de los casos anteriores para llegar al siguiente
intervalo de confianza al nivel 1− de p :
Pˆ (1 − Pˆ ) ˆ Pˆ (1 − Pˆ )
Pˆ − z , P + z con = z = 1 −
2 n 2 n 2 2
Pˆ (1 − Pˆ ) ˆ Pˆ (1 − Pˆ )
Pˆ − z , P + z
2 n 2 n
Test de hipótesis
Hipótesis estadística
Una hipótesis estadística es una afirmación acerca de una característica poblacional formulada en base a
los parámetros de su distribución.
Tipos de hipótesis
Las que hacen referencia a un parámetro de una población
= 90
90
90
90
Si la hipótesis asigna un único valor al parámetro se le llama hipótesis simple, en caso contrario, hipótesis
compuesta. En este ejemplo, la primera es simple y el resto son compuestas
Las que comparan varios parámetros de varias poblaciones
UNAF- FRN ESTADÍSTICA Y PROBABILIDADES PROF.J.C. BARRETO
ING. CIVIL
ESTUDIANTES: PAROLA GABRIEL, PERALTA PABLO, SANABRIA JORGE, BAEZ AYRTON
Por ejemplo, supongamos que queremos contrastar si el fumar provoca cáncer. Esto equivale a contrastar
si la proporción de fumadores con cáncer, p1 , es significativamente mayor que la proporción de no
fumadores con cáncer, p2 .
Contrastar una hipótesis es comparar lo que dice la hipótesis con la información que nos proporciona una
muestra. Si hay coincidencia, dentro de un margen de error admisible entre la hipótesis planteada (hipótesis
nula, H 0 ) y la información muestral entonces la mantendremos como cierta, en caso contrario la
rechazaremos. Rechazar una hipótesis es sustituirla por otra que sea capaz de explicar la realidad
observada en la muestra (hipótesis alternativa H1 ).
Por ejemplo, supongamos que nos planteamos si el rendimiento del proceso puede ser en media del 90%,
H 0 : = 90 . Realizamos una serie de pruebas y el rendimiento medio muestral resulta ser xˆ = 75
menor que 90. La información muestral parece ir más a favor de H1 : 90 que de H 0 : = 90 .
Nunca se puede afirmar el que una hipótesis sea verdadera o falsa, ya que para ello se tendría que tener
observaciones de toda la población. Por lo tanto, al realizar un contraste y tomar una decisión siempre cabe
la posibilidad de equivocarnos. Existen dos tipos de errores asociados a cualquier contraste: error tipo I,
que tiene lugar cuando rechazamos H 0 siendo cierta, y error tipo II, que ocurre si aceptamos H 0 siendo
falsa.
A la probabilidad de que ocurra el error tipo I se le llama nivel de significación del contraste, que denotamos
por y que fijamos antes de realizar un contraste. A la probabilidad de error tipo II la denotamos por .
Pasos a seguir para realizar un test de hipótesis
Z z1−
H1 : 0
Z z
T t1− ;n −1
H1 : 0
T t ;n −1
Z z1−
H1 : p p0
Z z
UNAF- FRN ESTADÍSTICA Y PROBABILIDADES PROF.J.C. BARRETO
ING. CIVIL
ESTUDIANTES: PAROLA GABRIEL, PERALTA PABLO, SANABRIA JORGE, BAEZ AYRTON
UNAF-FRN ESTADÍSTICA Y PROBABILIDADES PROF. J.C. BARRETO
ING. CIVIL
ESTUDIANTES: PAROLA GABRIEL, PERALTA PABLO, SANABRIA JORGE, BAEZ AYRTON
Los valores extremos han constituido desde hace bastante tiempo una disciplina de gran
interés, y no sólo para estadísticos sino, entre otros, para científicos e ingenieros.
Para Coles (2001), la teoría de valores extremos es una disciplina que desarrolla
técnicas y modelos para describir los sucesos menos comunes, lo cual, para él, hace que
sea una disciplina “única”. En cambio, para Gumbel (1958, autor del considerado
durante mucho tiempo libro de referencia para el estudio de valores extremos), el
objetivo de la teoría de valores extremos es analizar valores extremos observados y
predecir valores extremos en el futuro.
Una definición más simplista que mencionan algunos autores es decir que los valores
extremos son “el máximo y el mínimo”. Para Albeverio, Jentsch y Kantz (2005), la
interpretación de lo que es algo “extremo” es complicada ya que su definición engloba
varios atributos tales como “excepcional”, “sorprendente” y “catastrófico”. Según
dichos autores, al ser como se ha dicho subjetivamente difícil definir a los valores
extremos, es mejor caracterizarlos mediante, por ejemplo, sus propiedades estadísticas,
observaciones, predictibilidad, mecanismos, etc.
M n max X1 ,..., X n ,
FMn ( z) Pr M n z Pr X1 z,..., X n z
Pr X 1 z ... Pr X n z F ( z ) .
n
M n bn
M n
an
lim F n (an z bn ) G( z)
n
El rango completo de distribuciones límite que podrá seguir M n vendrá dado por el
Teorema de Valores Extremos:
M b
P n n z G( z ), cuando n
an
siendo G una función de distribución no degenerada, entonces G debe pertenecer
a una de las siguientes familias:
z b
I. Gumbel: G( z ) exp exp , z
a
0, zb
II. Fréchet: G( z) z b
exp ,
a z b
UNAF-FRN ESTADÍSTICA Y PROBABILIDADES PROF. J.C. BARRETO
ING. CIVIL
ESTUDIANTES: PAROLA GABRIEL, PERALTA PABLO, SANABRIA JORGE, BAEZ AYRTON
z b
zb
exp
III. Weibull: G( z ) a
zb
1,
z
1/
G ( z ) exp 1
Gumbel si 0
Fréchet si 0
Weibull si 0
Pr M n bn / an z G( z), cuando n
z
1/
G ( z ) exp 1 .
G n ( n z n ) G ( z ).
Esta propiedad se relaciona con el Teorema de Valores Extremos a partir del siguiente
resultado:
Distribucion Gumbel:
(𝜇−𝑥)
𝐹(𝑥) = 𝑒 −𝑒 𝛽
(𝜇−𝑥)
(𝜇−𝑥) 𝛽
−𝑒
𝑒 𝛽
𝑓(𝑥) = , 𝑥 ∈ (−∞; +∞)
𝛽
𝐹(𝑥) = 𝑒 −𝑒 −𝑥
Coeficiente de Curtosis 12
5
Distribucion Weibull:
𝑘 𝑥 𝑘−1 −(𝑥)𝑘
𝑓(𝑥) = ( ) 𝑒 𝜆 si 𝑥 ≥ 0
𝜆 𝜆
𝑥 𝑘
−( )
𝐹(𝑥) = 1 − 𝑒 𝜆 si 𝑥 ≥ 0
UNAF-FRN ESTADÍSTICA Y PROBABILIDADES PROF. J.C. BARRETO
ING. CIVIL
ESTUDIANTES: PAROLA GABRIEL, PERALTA PABLO, SANABRIA JORGE, BAEZ AYRTON
Momento n-ésimo 𝑛
𝜆𝑛 Γ (1 + )
𝑘
Media 1
𝜆Γ (1 + )
𝑘
Varianza 2 1
𝜆2 [Γ (1 + ) − Γ 2 (1 + )]
𝑘 𝑘
Mediana 1
𝜆(ln(2))𝑘
Moda 1
𝑘−1 𝑘
𝜆( ) si𝑘 > 1
𝑘
Coeficiente de Asimetría 3
Γ (1 + ) 𝜆3 − 3𝜇𝜎 2 − 𝜇 3
𝑘
𝜎3
Distribucion Fréchet:
𝑥−𝜆 −𝛼
−( )
𝐹(𝑥) = 𝑒 𝛿 si 𝜆>0
𝛼 𝑥 − 𝜆 −1−𝛼 𝑥 − 𝜆 −𝛼
𝑓(𝑥) = ( ) 𝑒−( ) si 𝑥 > 𝜆
𝛿 𝛿 𝛿
𝑥 −𝛼
𝐹(𝑥) = 𝑒 −(𝛿) si 𝑥 > 0
y la función de densidad es
𝛼 𝑥 −1−𝛼 −(𝑥 ) −𝛼
𝑓(𝑥) = ( ) 𝑒 𝛿 si𝑥 > 0
𝛿 𝛿
Media 1
𝜆 + 𝛿Γ (1 − 𝛼) siempre que 𝛼 > 1 .
Varianza 2
2
2 1
𝛿 [Γ (1 − ) − (Γ (1 − )) ]
𝛼 𝛼
siempre que 𝛼 > 2
Mediana 𝛿
𝜆+𝛼
√ln(2)
Moda 1
𝛼 𝛼
𝜆+𝛿( )
1+𝛼
𝛿 2 1 1
Coeficiente de Asimetría Γ(1− )−3Γ(1− )Γ(1− )+2Γ3 (1− )
𝛼 𝛼 𝛼 𝛼
si 𝛼 > 3
2 1 3
√(Γ(1− )−Γ2 (1− ) )
𝛼 𝛼
Coeficiente de Curtosis
4 3 1 2
Γ(1− )−4Γ(1− )Γ(1− )+3Γ2 (1− )
𝛼 𝛼 𝛼 𝛼
−6 + 2 1 2
[Γ(1− )−Γ2 (1− )]
𝛼 𝛼
si 𝛼 > 4
Primer Cuartil 𝛿
𝜆+𝛼
√ln(4)
Tercer Cuartil 𝛿
𝜆+
√ln (4)
𝛼
3
UNAF-FRN ESTADÍSTICA Y PROBABILIDADES PROF. J.C. BARRETO
ING. CIVIL
ESTUDIANTES: PAROLA GABRIEL, PERALTA PABLO, SANABRIA JORGE, BAEZ AYRTON
2-Aplicaciones a la hidrología
Sea 𝑋𝑡 , 𝑡 = 1,2, … , 𝑛 una serie temporal, se dice que es estacionaria si para cada
conjunto de índices 1 ≤ 𝑡1 < 𝑡2 < ⋯ < 𝑡𝑚 , la distribución conjunta de
(𝑋𝑡1 , 𝑋𝑡2 , … , 𝑋𝑡𝑚 ) coincide con la distribución conjunta (𝑋𝑡1 +ℎ , 𝑋𝑡2 +ℎ , … , 𝑋𝑡𝑚+ℎ ).
Existen dos formas de analizar valores extremos en una serie temporal; la primera
consiste en elegir un modelo para los valores extremos del proceso, y ajustarlo a los
valores extremos de los datos. La segunda parece más difícil, porque trata de elegir un
modelo de serie temporal para el proceso completo, ajustarlo a los datos y luego intentar
estudiar el comportamiento de los valores extremos de dicho proceso.
𝜇(𝑡) = 𝜃0 + 𝜃1 𝑡 + 𝜃2 𝑡 2 + 𝜃3 𝑡 3
𝜇(𝑡) = 𝜃1 𝑡
Con lo cual el modelo que se tiene para la serie temporal no estacionaria es:
𝐺𝐸𝑉(𝜇(𝑡), 𝜎, 𝜉)
𝐺𝐸𝑉(𝜃0 + 𝜃1 𝑡 + 𝜃2 𝑡 2 , 𝜎, 𝜉)
2
𝜎(𝑡) = 𝑒 𝜃0 +𝜃1 𝑡+𝜃2 𝑡
Las series no estacionarias pueden presentar cambios de varianza, así como pueden
presentar una tendencia (la media crece o decrece a lo largo del tiempo) y efectos
estacionales (el comportamiento de la serie es parecido en ciertos periodos de tiempo).
1
𝑝 = 𝑃(𝑥 ≥ 𝑋) =
𝑇
1 −1
= 1 − 𝑒𝑥𝑝{−𝜆𝑞𝑒 } = 1 − 𝑒𝑥𝑝 { }
𝑇𝑎 𝑇𝑃
1
𝑇𝑝 =
ln[1 − 1/𝑇𝑎 ]
𝑇𝑝 es menor que 𝑇𝑎 ya que, en una serie de duración parcial, puede aparecer más de
un fenómeno cada año.
UNAF-FRN ESTADÍSTICA Y PROBABILIDADES PROF. J.C. BARRETO
ING. CIVIL
ESTUDIANTES: PAROLA GABRIEL, PERALTA PABLO, SANABRIA JORGE, BAEZ AYRTON
Bibliografía