Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Probabilidad Capitulo 2 2015 PDF
Probabilidad Capitulo 2 2015 PDF
Carlos J. Zapata
El fenómeno aleatorio bajo estudio se desarrolla en entes del mundo real: la tierra, la
atmosfera, el mar, un río, un volcán, una persona, grupos de personas, un árbol, grupos
de árboles, un equipo, grupos de equipos, la bolsa de valores, la actividad económica de
un país, etc.
Estos entes generan datos de la variable aleatoria x que permite estudiar el fenómeno
aleatorio. El conjunto de estos datos se llama la población de datos.
Pero se debe aclarar, que cuando cada ente aporta datos se habla de las poblaciones de
datos y poblaciones individuos como una misma cosa, pero esto no es cierto para el caso
en que un solo ente es el que genera todos los datos.
Ejemplo 2.1
Al conjunto de entes que generan datos también se le llama población estadística y a los
entes individuos o unidades estadísticas.
Finita Infinita
Esto no quiere decir que sea fácil estudiarla ya que su Aparece cuando:
número puede ser muy elevado.
• Se consideran entes pasados, presentes y
futuros
En la mayoría de los casos no es posible tomar todos los datos de una población por las
siguientes razones:
Entonces, se debe aceptar que en la mayoría de los casos se debe trabajar con una muestra
limitada de datos.
Esta muestra de datos debe ser “representativa” y “aleatoria”, dos características que se
explicarán a continuación.
Representativa Aleatoria
Se refiere a que la muestra debe contener todos los Se refiera a la forma en que se toma la muestra:
tipos de datos o individuos existentes en la
población. • Cada dato debe ser independiente de los
otros. Se debe tener en cuenta si el muestreo
Una muestra representativa se logra si la población es con o sin reemplazo y el grado de
es una “mezcla” homogénea de los diferentes tipos dependencia entre un dato y otro.
de datos o individuos presentes.
• La población debe permanecer sin cambio en
Para garantizar la representatividad, se define el tipo su naturaleza cada que se toma un dato. Esto
de muestreo: aleatorio simple, estratificado o por es importante en experimentos aleatorios
conglomerados. donde se toman medidas o se hacen pruebas
que pueden afectar los individuos.
Definir el tamaño de una muestra y definir el tipo de muestreo a ser aplicado involucran
aspectos que están fuera del alcance del presente texto, por lo cual, se recomienda
consultar un texto de muestreo.
Teorema
Si una muestra aleatoria de tamaño n se toma de una población que tiene valor esperado E( x) y
varianza VAR( x) 2 , entonces x es una variable aleatoria cuya distribución tiene las siguientes
características:
VAR( x) 2
E( x ) E( x) y VAR( x )
n* k n* k
Donde:
2
z /2 * x z *
E( x) x n /2 x
n
2
E( x) x z /2 * CVx z * CVx
p .u n /2
E( x) n p.u
Donde:
Una vez se conoce el tamaño adecuado de la muestra, los siguientes problemas aparecen
cuando se quiere obtener tal cantidad de datos:
Es imposible en un momento dado obtener las En términos prácticos, en algunos casos es casi
3
n observaciones imposible consultar a una gran cantidad de los
habitantes de una ciudad grande
4 Homogeneidad
Ejemplo: Los datos de tiempo de falla provienen de 5
compresores. Son estos equipos idénticos? Tienen la
misma edad? Tienen las mismas especificaciones?
Provienen del mismo fabricante?
Datos que son muy diferentes o “raros” con respecto a los otros que contiene
la muestra. Una regla práctica es considerar como outlier todo dato por
2 Outliers
fuera del intervalo dado por x 3s . No deben eliminarse los outliers sin un
cuidadoso análisis de la real posibilidad de la existencia de estos valores.
1 n
x x
n i 1 i
E( x) x
Cómo se prueba entonces, que el valor promedio de la muestra puede llegar a ser igual al
valor esperado? La ley fuerte de los grandes números da a la respuesta:
Para una secuencia de variables aleatorias IID con valor esperado E( x) y varianza finita se tiene que:
La ley fuerte de los grandes números dice que con toda certeza si el número de
observaciones de una variable aleatoria x es muy grande, el promedio estadístico de estas
observaciones será igual al valor esperado.
1 n
s2 ( x x )2
n 1 i 1 i
La varianza muestral dice cuánto se alejan los datos del valor promedio. Esto es, el grado
de variabilidad del fenómeno aleatorio y el error que puede haber en la predicción dada
por el promedio estadístico.
V ( x) s 2
Prueba de Consistencia
Para una secuencia de variables aleatorias IID con valor esperado y varianza finitos se
tiene que:
2
P[|s2 | k ] 1.0 si n
1 n
s ( x x )2
n 1 i 1 i
cv s / x
Permite comparar la variación entre diferentes conjuntos de datos, aunque las unidades
del problema no sean las mismas. Es usual es expresarlo en porcentaje.
Ejemplo 2.1
Una persona quiere saber cuál de dos balanzas digitales es más precisa. Se pesa varias
veces utilizando ambos equipos y obtiene los siguientes resultados:
2.2.4 Mediana
Si n es impar Si n es par
La mediana es el dato que aparece en la posición La mediana es el promedio de los datos de las
(n 1) / 2 posiciones n / 2 y (n 2) / 2
Ejemplo 2.2
• n5
• Datos ordenados: 2, 13, 14, 15, 27
• Mediana: Dato de la posición (n 1) / 2 (5 1) / 2 3 : 14
• Mediana: Dato de la posición (n 1) / 2 (5 1) / 2 3 : 14
Ejemplo 2.3
• n 6
• Datos ordenados: 4, 5, 9, 11, 17, 19
• Mediana: Promedio de los datos en las posiciones n/ 2 6/ 2 3 y
(n 2) / 2 (6 2) / 2 4
Mediana (9 11) / 2 10
La distribución de frecuencias es una tabla que agrupa los datos por clases o categorías y
presenta el número de datos en cada clase o sea la frecuencia de clase.
No existe una regla fija para determinar el número de clases k en una muestra de tamaño
n . Una regla empírica es la Regla de Sturge:
Aunque k depende del tamaño de la muestra n , tiene poca utilidad utilizar menos de 5 clases o
1
más de 15
Si w es muy grande no reflejará el patrón de comportamiento de los datos. Si w es muy pequeño
no se obtendrá información relevante de los datos.
2
Para el caso de los histogramas se debe probar con varios intervalos de clase para deducir qué
distribución de probabilidad podría ajustarse a los datos.
3 Deben evitarse las clases de frecuencia cero
4 Ningún dato debe quedar en los límites de clase
5 No debe existir brecha ni traslape entre los límites de clase
Si una distribución de frecuencias o histograma se va a comparar con otro, los intervalos de clase
6
deben ser iguales
El valor promedio y la desviación muestral de los datos agrupados están dados por:
1 n 1 n
x x f
n i 1 i i
s ( x f x )2
n 1 i 1 i i
Donde:
fi : Es la frecuencia de la clase i
xi : Es el valor medio del intervalo de clase i o “marca de clase”
El valor promedio y la desviación muestral de los datos agrupados son diferentes a los
calculados sin agrupar los datos.
fx ( x)dx P[ x0 x x0 dx]
fi
Pclasei
n
Cada dato i de una muestra aleatoria de tamaño n tiene una probabilidad de ocurrencia
pi 1.0 / n .
Si los datos de la muestra aleatoria se ordenan de menor a mayor se pueden definir los
percentiles de la siguiente forma:
Percentiles
El p esimo percentil de la muestra Pp % es el dato o valor para el cual al menos 100 p% de los datos están en o
por debajo de ese valor y cuando menos (1 p)100% están en o por encima de ese valor
Esto quiere decir también, que el p esimo percentil es el valor para el cual hay una
probabilidad de ocurrencia menor o igual a p .
Es el valor o dato que tiene el 25% de las observaciones o es el valor para el cual la probabilidad
Q1
de ocurrencia es menor o igual al 25%. Equivale al 25-avo percentil
Es el valor o dato que tiene el 50% de las observaciones o es el valor para el cual la probabilidad
Q2
de ocurrencia es menor o igual al 50%. Equivale al 50-avo percentil. Es la misma mediana
Es el valor o dato que tiene el 75% de las observaciones o es el valor para el cual la probabilidad
Q3
de ocurrencia es menor o igual al 75%. Equivale al 75-avo percentil
Los cuartiles y percentiles son muy utilizados para expresar información en forma
estadística.
Ejemplo 2.4
En una casa se instalan cuatro “cortinas” de luces de navidad, cada una de las cuales tiene 150 bombillas.
El ciclo operativo de las bombillas es de 12 horas por día durante 30 días cada año. Cada que una bombilla
se daña es reemplazada por otra y se inicia la cuenta de horas de funcionamiento para la nueva bombilla.
Al cabo del primer mes de haber instalado las cortinas (la primera navidad), se encuentra que han fallado
16 bombillas con los siguientes tiempos para falla:
El percentil 20 debe tener por lo menos 0.2*16= 3.2 observaciones por debajo y 12.8 observaciones por
encima. Esto criterio solo lo cumple el dato 218.0. Entonces:
El segundo cuartil corresponde al percentil 50, el cual debe tener por lo menos 0.5*16= 8 observaciones
por debajo y 8 observaciones por encima. Esto criterio lo cumplen los datos 252.1 y 256.1. Entonces:
252.1 256.1
Q2 254.1 [Horas]
2
Se espera que el 20 por ciento de las bombillas falle en un tiempo menor o igual a 218. 2 Horas. Y se
espera que el 50% de las bombillas durará mas de 254.1 Horas.
Para aplicar este tipo de prueba se debe conservar la secuencia cronológica en que se
produjeron los datos. Si los datos se ordenan por orden de magnitud se altera la sucesión
de datos continuos mayores y menores a la media.
3. Calcule:
U U
ZU
U
6. Prueba de Hipótesis:
Ejemplo 2.5
Probar con un 95% de confianza si la muestra de datos es aleatoria o si existe un patrón que se alterna con
frecuencia.
Hipótesis alterna H1 : La muestra de datos no es aleatoria y existe un patrón en los datos que se repite con
frecuencia
Criterio de decisión: Como ZU está entre -1.967 y +1.967 se acepta la hipótesis nula, es decir, los datos son
aleatorios
Con un 95% de probabilidad puede afirmarse que los datos de la muestra son aleatorios; existe un 5%
de probabilidad de que esto no sea así.
Si los datos fuesen ordenados por magnitud de menor a mayor, el diagrama de sucesión de datos
continuos sería:
0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1
U=2 z=-3.6228
En este caso, como z es menor que - z / 2 se rechaza la hipótesis nula, es decir, la muestra de datos no es
aleatoria, resultado que es contrario al anterior donde se conserva la secuencia cronológica de los datos!!
Para aplicar este tipo de prueba se debe conservar la secuencia cronológica en que se
produjeron los datos. Si los datos se ordenan por orden de magnitud se altera la
tendencia.
Para los procesos de Poisson existen pruebas de tendencia específicas, algunas de las
cuales se verán en el Capítulo 5.
Una forma muy sencilla de evaluar la tendencia de una variable aleatoria es hacer un
diagrama de barras (magnitudes) conservando el orden cronológico en que se tomaron
los datos. A continuación de ilustra este concepto.
Tendencia negativa
Sin tendencia
Tendencia positiva
Otra forma de prueba de tendencia es dividir el periodo que abarcan los datos en
subperiodos y en cada uno de ellos calcular el promedio y la desviación estándar.
Fenómeno estacionario
Fenómeno no estacionario
1 2 3 4 5 1 2 3 4 5
Para aplicar esta prueba se requiere un gran tiempo de observación y suficientes datos
para todos los subperiodos.
Sean los datos de la muestra x1 , x2 , xn , los cuales están en el orden cronológico en que
se tomaron.
2. Calcule S :
n 1 n
S sign(v j vi )
i 1 j i 1
+1 if (v j vi ) 0
-1 if (v j vi ) 0
0 if (v j vi ) 0
Esto es, parados en cada dato se analiza en todos los siguientes si hay cambio de signo o
no.
3. Calcule k :
-1 if S 0
k es igual a: +1 if S 0
0 if S 0
4. Calcule la varianza de S :
Z S ( S k ) / VAR( S )
6. Prueba de Hipótesis:
Ejemplo 2.6
Para la muestra de datos de voltajes de descarga de 16 baterías del Ejemplo 2.5, probar
con un 95% de confianza si los datos son estacionarios.
Con un 95% de probabilidad puede afirmarse que los datos de la muestra son
estacionarios; existe un 5% de probabilidad de que esto no sea así.
Si los datos de la muestra se toman en un muy “corto” periodo de tiempo para que se
pueda visualizar el cambio en tendencia, entonces no es necesario hacer una prueba de
tendencia ya que su resultado no es relevante.
Por ejemplo, si quiero estudiar el valor que paga un estudiante de esta universidad y tomo
una muestra de 1000 datos en 5 días, este periodo de tiempo en que se toma la muestra
no es suficiente para visualizar cambios en este valor debido a los efectos de la inflación,
especulación etc.
Definir cuando el periodo de tiempo en que se toma la muestra es muy corto dependerá
del fenómeno aleatorio bajo estudio. No es lo mismo el periodo de tiempo para observar
el cambio en el valor que paga un estudiante por el almuerzo que la intensidad de los
temblores producidos por la erupción de un volcán.
Para aplicar este tipo de prueba se debe conservar la secuencia cronológica en que se
produjeron los datos. Si los datos se ordenan por orden de magnitud se altera totalmente
la información contenida en los datos.
En este caso al estar estudiando los datos de la muestra de una sola variable, se está
estudiando la autocorrelación de los datos.
• Si los datos son independientes los puntos están dispersos en el primer cuadrante del
plano ( x i , x i 1 )
• Si los datos están correlacionados positivamente, los puntos tienen a formar una línea
con pendiente positiva en el primer cuadrante del plano ( x i , x i 1 )
• Si los datos están correlacionados negativamente, los puntos tienen a formar una línea
con pendiente negativa en el primer cuadrante del plano ( x i , x i 1 )
Ejemplo 2.7
Para la muestra de datos de voltajes de descarga de 16 baterías del Ejemplo 2.5, probar si
los datos son independientes.
Datos Xi Xi+1
1.261 1.261 1.258
1.258 1.258 1.249
1.249 1.249 1.241
1.241 1.241 1.247
1.247 1.247 1.256
1.256 1.256 1.250
1.250 1.250 1.240
1.240 1.240 1.255
1.255 1.255 1.243
1.243 1.243 1.252
1.252 1.252 1.253
1.253 1.253 1.251
1.251 1.251 1.245
1.245 1.245 1.248
1.248 1.248 1.246
1.246
Sean los datos de la muestra x1 , x2 , xn , los cuales están en el orden cronológico en que
se tomaron.
1 n j
Cj (x x)( xi j x )
(n j) i 1 i
Cj
j
s2
Los j toman valores entre -1 y +1 y son cero en el caso de que no hay correlación
4. Conclusión: Si los j tienen valores muy cercanos a cero, esto es evidencia de que los
datos son independientes.
Ejemplo de este tipo de variables son aquellas que expresan el tiempo acumulado desde
un origen, el producto interno bruto de un país en un periodo de varios años, el capital
de una persona en el tiempo, etc.
Así, para este tipo de variables, las pruebas de aleatoriedad, tendencia e independencia
deben realizarse sobre los incrementos entre los datos. El resultado que se obtenga será el
verdadero para la variable original.
2.7 Referencias
[1] Ospina D, “Introducción al muestreo”, Universidad Nacional de Colombia, 2001.
[3] Law Averill M, Kelton W. David, “Simulation Modeling and Analysis”, Tercera
edición, Mc-Graw Hill, 2000.
[4] National Nonpoint Source Monitoring Program, “Statistical Analysis for Monotonic
Trends”, Tecnhnotes, No. 6, 2011.
[5] Khambhammettu Prasbhanth “Mann-Kendall Analysis for the Fort Ord Site”,
HydroGeoLogic Inc, 2005.