Probabilidad Capitulo 2 2015 PDF

Análisis Probabilístico y Simulación Capítulo 2 – Análisis de Datos
Carlos J. Zapata
Capítulo 2 – Análisis de Datos

2.1 Muestreo
2.1.1 El Concepto de Población de Datos
El fenómeno aleatorio bajo estudio se desarrolla en entes del mundo real: la tierra, la
atmosfera, el mar, un río, un volcán, una persona, grupos de personas, un árbol, grupos
de árboles, un equipo, grupos de equipos, la bolsa de valores, la actividad económica de
un país, etc.
Estos entes generan datos de la variable aleatoria x que permite estudiar el fenómeno
aleatorio. El conjunto de estos datos se llama la población de datos.
Pero se debe aclarar, que cuando cada ente aporta datos se habla de las poblaciones de
datos y poblaciones individuos como una misma cosa, pero esto no es cierto para el caso
en que un solo ente es el que genera todos los datos.
Ejemplo 2.1
Ente o entes que generan los

Datos Población
datos
El Río Cauca caudales Los caudales generados por este río
Los ríos del departamento del Los caudales generados por estos
Chocó que desembocan al océano caudales
ríos o el conjunto de ríos
Pacífico
La TRM: tasa representativa
El mercado cambiario El conjunto de TRMs
del mercado USD/COP
Rayos (descargas atmosféricas) Los KA de descarga o el conjunto de
KA pico de descarga
en la zona de La Macarena rayos en dicha zona
Reclamos que hacen los clientes Los reclamos o los clientes que
#de reclamos
sobre un software o producto reclaman
Errores en un software #de errores Los errores
Al conjunto de entes que generan datos también se le llama población estadística y a los
entes individuos o unidades estadísticas.
Los datos también se denominan observaciones o realizaciones del fenómeno aleatorio.
A la variable aleatoria x también se le denomina en este contexto variable estadística.
Universidad Tecnológica de Pereira ©2015 1

Carlos J. Zapata
La población de datos puede ser:
Finita Infinita
Tiene un número contable. Tiene un número no contable o infinito
Esto no quiere decir que sea fácil estudiarla ya que su Aparece cuando:
número puede ser muy elevado.
• Se consideran entes pasados, presentes y
futuros
• No se retiran de los datos la información de los

entes que salen de la población
• El fenómeno aleatorio se define sobre un

proceso físico continuo en el estado o materia
• Se muestrea con reemplazo: Cuando se

selecciona un individuo al hacer para tomar su
dato, pero no se tiene el cuidado de que
posteriormente no vuelva a ser seleccionado.
2.1.2 Necesidad del Muestreo
En la mayoría de los casos no es posible tomar todos los datos de una población por las
siguientes razones:
1 Es complicado estudiar toda la población

2 Es muy costoso estudiar toda la población
3 Tomaría mucho tiempo estudiar toda la población
4 La población es infinita
El fenómeno aleatorio se desarrolla desde largo tiempo atrás y solo existen registros a partir de
5
una fecha “reciente”
6 No se requiere o desea una precisión muy alta en los resultados
Entonces, se debe aceptar que en la mayoría de los casos se debe trabajar con una muestra
limitada de datos.
Esta muestra de datos debe ser “representativa” y “aleatoria”, dos características que se
explicarán a continuación.

Carlos J. Zapata
2.1.3 El Concepto de Muestra Aleatoria y Representativa
La muestra de datos debe ser:
Representativa Aleatoria
Se refiere a que la muestra debe contener todos los Se refiera a la forma en que se toma la muestra:
tipos de datos o individuos existentes en la
población. • Cada dato debe ser independiente de los
otros. Se debe tener en cuenta si el muestreo
Una muestra representativa se logra si la población es con o sin reemplazo y el grado de
es una “mezcla” homogénea de los diferentes tipos dependencia entre un dato y otro.
de datos o individuos presentes.
• La población debe permanecer sin cambio en
Para garantizar la representatividad, se define el tipo su naturaleza cada que se toma un dato. Esto
de muestreo: aleatorio simple, estratificado o por es importante en experimentos aleatorios
conglomerados. donde se toman medidas o se hacen pruebas
que pueden afectar los individuos.
La muestra aleatoria se define como:
Población finita Población infinita
Un conjunto de observaciones constituye una Un conjunto de observaciones constituye una

muestra aleatoria de tamaño n de una población de muestra aleatoria de tamaño n de una población
tamaño N si: infinita si:
• Es elegida de tal forma que cada observación o • Cada observación o subconjunto de

conjunto de observaciones tenga la misma observaciones es una variable aleatoria cuya
probabilidad de ser elegido. distribución tiene los mismos valores de la
distribución de la población
• Las n variables aleatorias son independientes
Esto se resume en la hipótesis de que las

observaciones de la muestra constituyen una
secuencia de variables aleatorias Independientes
e Idénticamente Distribuidas (IID).
Definir el tamaño de una muestra y definir el tipo de muestreo a ser aplicado involucran
aspectos que están fuera del alcance del presente texto, por lo cual, se recomienda
consultar un texto de muestreo.

Carlos J. Zapata
2.1.4 Tamaño de Muestra
Teorema
Si una muestra aleatoria de tamaño n se toma de una población que tiene valor esperado E( x)   y
varianza VAR( x)  2 , entonces x es una variable aleatoria cuya distribución tiene las siguientes
características:
VAR( x) 2
E( x )  E( x)   y VAR( x )  
n* k n* k
Donde:
k 1 para poblaciones infinitas

N n
k para poblaciones finitas (suele omitirse pues es cercano a 1.0)
n1
El tamaño de muestra se define como:
2
z /2 * x z *  
E( x)  x     n    /2 x 
n   
2
E( x)  x z /2 * CVx  z * CVx 
  p .u   n    /2 
E( x) n   p.u 
Donde:
z  / 2 : Es el valor en la distribución normal para una probabilidad crítica (probabilidad

de rechazo)  .
x : Es la desviación estándar de la variable aleatoria x que se estudia. Generalmente

se estima mediante la desviación estándar sx obtenida en una prueba piloto.
: Es el error de estimación y equivale a la diferencia entre el valor que se quiere

averiguar E( x) y su estimador x . Este valor lo define el analista; un valor típico es
10%.
CV x : Es el coeficiente de variación de la variable.

Carlos J. Zapata
La formulación del tamaño de muestra se toma de la distribución normal porque el

Teorema del Límite Central indica que esta es la distribución del promedio estadístico
cuando el tamaño de muestra es grande (>30). Es decir, no importa cuál sea la distribución
de una población de datos, su promedio estadístico siempre tendrá distribución normal.
Una vez se conoce el tamaño adecuado de la muestra, los siguientes problemas aparecen
cuando se quiere obtener tal cantidad de datos:
Es complicado contactar a una gran cantidad de

habitantes de una ciudad para consultarlos.
1 Es complicado obtener las n observaciones.

Es complicado hacer pruebas o mediciones a una
gran cantidad de los transformadores de
distribución de una ciudad grande o mediana.
Probar una gran cantidad de los componentes

que salen de una fábrica puede ser muy costoso
2 Es muy costoso obtener las n observaciones e incrementaría su precio final.
Hacer un censo de población es muy costoso
Es imposible en un momento dado obtener las En términos prácticos, en algunos casos es casi
3
n observaciones imposible consultar a una gran cantidad de los
habitantes de una ciudad grande
Para tener 100 tiempos para falla hay que

La observación depende de que ocurra el esperar a que ocurran 100 fallas.
4 evento aleatorio que define la variable
estadística. No se puede preguntar a cada componente de
un sistema: Usted cuándo va a fallar?
A diferencia de las ciencias sociales o el mercadeo, en otras áreas de estudio generalmente

se debe esperar a que ocurra el evento que define la variable aleatoria para tener datos,
por lo cual se debe:
1 Aceptar trabajar con una muestra con tamaño menor al adecuado
2 Esperar más tiempo para tener la cantidad de datos adecuada

Agrupar información de componentes o sistemas similares para obtener el tamaño adecuado de
3
muestra

Carlos J. Zapata
2.1.5 Validación de los Datos de la Muestra
El analista debe entender claramente la naturaleza de los datos, es decir:
Escala de medida en que vienen los datos:

1 Cuáles son las unidades de medida? Tiempo en: Horas, días, meses?
Voltaje en: kV, mV?
Se debe seleccionar el modelo teórico apropiado. Sin

Naturaleza de la variable: Continua o
2 embargo, a veces se utiliza una distribución continua
discreta
para una variable discreta.
Permite saber cuál es el rango en el cual deben estar los

datos de la muestra.
Rango de valores de la variable bajo

3 Se debe proponer modelos teóricos acordes con el rango
estudio
de la variable bajo estudio. Por ejemplo, en el caso de la
temperatura si el rango son los reales positivos y
negativos no proponer una distribución como Gamma,
Weibull o la exponencial que no manejan los negativos.
Es importante conocer si los datos proceden de

individuos con similares o existe algún grado de
heterogeneidad.
4 Homogeneidad
Ejemplo: Los datos de tiempo de falla provienen de 5
compresores. Son estos equipos idénticos? Tienen la
misma edad? Tienen las mismas especificaciones?
Provienen del mismo fabricante?
Es importante conocer si los datos proceden un solo

individuo o de varios y su homogeneidad.
5 Datos agrupados o individuales
Ejemplo: Los datos de caudal de un río o los datos de falla
de un lote de componentes.

Carlos J. Zapata
Y debe verificar si en los datos de la muestra hay:
Datos que no pertenecen al rango de valores posibles de la variable. Por

Inconsistencias,
1 ejemplo, hay datos negativos en la muestra de datos de una variable que
errores
solo puede tomar valores positivos.
Datos que son muy diferentes o “raros” con respecto a los otros que contiene
la muestra. Una regla práctica es considerar como outlier todo dato por
2 Outliers
fuera del intervalo dado por x  3s . No deben eliminarse los outliers sin un
cuidadoso análisis de la real posibilidad de la existencia de estos valores.

Carlos J. Zapata
2.2 Estadísticas Descriptivas

2.2.1 Promedio Estadístico
1 n
x x
n i 1 i
El promedio muestral es un pronóstico de cuál será el valor de la variable aleatoria en el

largo plazo.
El valor promedio es un estimador puntual del valor esperado E( x) :
E( x)  x
La calidad de este estimador o de la predicción del promedio depende del tamaño de la

muestra.
Cómo se prueba entonces, que el valor promedio de la muestra puede llegar a ser igual al
valor esperado? La ley fuerte de los grandes números da a la respuesta:
Ley Fuerte de los Grandes Números
Para una secuencia de variables aleatorias IID con valor esperado E( x) y varianza finita se tiene que:
P[lim x  E( x)]  1.0

n
La ley fuerte de los grandes números dice que con toda certeza si el número de
observaciones de una variable aleatoria x es muy grande, el promedio estadístico de estas
observaciones será igual al valor esperado.
Esta ley es la justificación de los métodos iterativos como la simulación de Montecarlo,

pues se tiene certidumbre que si se hacen muchas iteraciones (se obtienen muchas
observaciones), los valores estimados serán iguales a los esperados.

Carlos J. Zapata
2.2.2 Varianza Muestral
1 n
s2   ( x  x )2
n  1 i 1 i
La varianza muestral dice cuánto se alejan los datos del valor promedio. Esto es, el grado
de variabilidad del fenómeno aleatorio y el error que puede haber en la predicción dada
por el promedio estadístico.
La varianza muestral es un estimador puntual de la varianza.
V ( x)  s 2
La calidad de este estimador también depende del tamaño de la muestra. La prueba de

consistencia nos da la calidad del estimador:
Prueba de Consistencia
Para una secuencia de variables aleatorias IID con valor esperado y varianza finitos se
tiene que:
2
P[|s2   | k ]  1.0 si n  
La propiedad de consistencia dice que conforme se aumenta el tamaño de la muestra, la

varianza de la muestra tendrá una diferencia finita k muy pequeña con la varianza.
También se puede definir la desviación muestral:
1 n
s  ( x  x )2
n  1 i 1 i
La desviación muestral dice en las mismas unidades de la variable aleatoria, cuanto se

desviaran los datos por encima y por debajo del promedio estadístico y es un estimador
de la desviación estándar STD( x) .

Carlos J. Zapata
2.2.3 Coeficiente de Variación
cv  s / x
Permite comparar la variación entre diferentes conjuntos de datos, aunque las unidades
del problema no sean las mismas. Es usual es expresarlo en porcentaje.
Ejemplo 2.1
Una persona quiere saber cuál de dos balanzas digitales es más precisa. Se pesa varias
veces utilizando ambos equipos y obtiene los siguientes resultados:
Balanza 1: x1  62.8 kg s1  3kg  cv1  s1 / x1  3 / 62.8 * 100  4.77%
Balanza 2: x2  63.1kg s2  2.53kg  cv2  s2 / x2  2.53 / 63.1* 100  4.01%
Conclusión: La balanza 2 es la más precisa.
2.2.4 Mediana
Es el valor del ítem intermedio cuando el conjunto de observaciones se ordena en forma

ascendente o descendente. Es el valor más cercano a la mitad una vez las observaciones
se jerarquizan de acuerdo con su magnitud.
Si n es impar Si n es par
La mediana es el dato que aparece en la posición La mediana es el promedio de los datos de las
(n  1) / 2 posiciones n / 2 y (n  2) / 2
Ejemplo 2.2
Se tiene la siguiente muestra de datos: 15, 14, 2, 27, 13. Entonces:
• n5
• Datos ordenados: 2, 13, 14, 15, 27
• Mediana: Dato de la posición (n  1) / 2  (5  1) / 2  3 : 14
• Mediana: Dato de la posición (n  1) / 2  (5  1) / 2  3 : 14

Carlos J. Zapata
Ejemplo 2.3
Se tiene la siguiente muestra de datos: 11, 9, 17, 19, 4, 5
• n 6
• Datos ordenados: 4, 5, 9, 11, 17, 19
• Mediana: Promedio de los datos en las posiciones n/ 2  6/ 2  3 y
(n  2) / 2  (6  2) / 2  4
Mediana  (9  11) / 2  10
Nótese que el valor obtenido como mediana no existe en la muestra de datos
2.2.5 Distribuciones de Frecuencia e Histogramas
La distribución de frecuencias es una tabla que agrupa los datos por clases o categorías y
presenta el número de datos en cada clase o sea la frecuencia de clase.
El histograma es la representación gráfica de la tabla de distribución de frecuencia. Se

construye por medio de rectángulos adyacentes. Las alturas de los rectángulos
representan las frecuencias de clase y sus bases se extienden entre fronteras de clase
sucesivas. Como se mostrará más adelante, el histograma es una representación de la
función de densidad de probabilidad.
No existe una regla fija para determinar el número de clases k en una muestra de tamaño
n . Una regla empírica es la Regla de Sturge:
k  1  3.3 log 10 (n)
El intervalo de clases se puede obtener como:
rango (datomax  datomin )

w 
k k
Algunas recomendaciones para construir las distribuciones de frecuencia son:

Carlos J. Zapata
Aunque k depende del tamaño de la muestra n , tiene poca utilidad utilizar menos de 5 clases o
1
más de 15
Si w es muy grande no reflejará el patrón de comportamiento de los datos. Si w es muy pequeño
no se obtendrá información relevante de los datos.
2
Para el caso de los histogramas se debe probar con varios intervalos de clase para deducir qué
distribución de probabilidad podría ajustarse a los datos.
3 Deben evitarse las clases de frecuencia cero
4 Ningún dato debe quedar en los límites de clase
5 No debe existir brecha ni traslape entre los límites de clase
Si una distribución de frecuencias o histograma se va a comparar con otro, los intervalos de clase
6
deben ser iguales
Si la frecuencia de clase en la tabla de distribución de frecuencias o histograma se divide

entre el tamaño de la muestra, entonces se tiene la probabilidad de ocurrencia de la clase.
El valor promedio y la desviación muestral de los datos agrupados están dados por:
1 n 1 n
x x f
n i 1 i i
s  ( x f  x )2
n  1 i 1 i i
Donde:
fi : Es la frecuencia de la clase i
xi : Es el valor medio del intervalo de clase i o “marca de clase”
El valor promedio y la desviación muestral de los datos agrupados son diferentes a los
calculados sin agrupar los datos.
La distribución acumulativa de frecuencias es una tabla donde se acumulan las

frecuencias de cada una de las clases; indica cuales frecuencias de los valores observados
son menores o iguales al valor de la abcisa. Si se dividen las frecuencias acumuladas entre
el tamaño de la muestra, entonces se tiene una tabla o gráfica de probabilidades
acumuladas que es una representación de la función de distribución de probabilidad.

Carlos J. Zapata
2.2.6 Relación entre Histograma y Función de Densidad de Probabilidad
Figura 2.1 función de densidad de probabilidad e histograma
La función de densidad de probabilidad fx ( x) se define como:
dFx ( x) P[ x  ( x0  dx)]  P[x  x0 ]

f x ( x)  
dx dx
fx ( x)dx  P[ x0  x  x0  dx]
Entonces, f x ( x ) evaluada en un valor dado x 0 indica cuánta probabilidad de masa hay

alrededor de ese punto.
A partir de un histograma se puede calcular f x ( x ) pues la probabilidad en un intervalo

de clase se puede evaluar con la definición de frecuencia relativa: La frecuencia del
intervalo de clase dividida entre el número total de datos utilizados para construir el
histograma:
fi
Pclasei 
n
Esta es la relación existente entre un histograma y la función de densidad de probabilidad:

el histograma puede servir para indicar cuál es la forma de la distribución que puede
utilizarse para representar los datos. Por esta razón, la función de densidad de
probabilidad es más utilizada en los análisis que la función de distribución de
probabilidad, pues debe recordarse que ésta última función siempre es una curva creciente
entre 0 y 1 para todas las distribuciones.

Carlos J. Zapata
2.2.7 Percentiles y Cuartiles
Cada dato i de una muestra aleatoria de tamaño n tiene una probabilidad de ocurrencia
pi  1.0 / n .
Si los datos de la muestra aleatoria se ordenan de menor a mayor se pueden definir los
percentiles de la siguiente forma:
Percentiles
El p  esimo percentil de la muestra Pp % es el dato o valor para el cual al menos 100 p% de los datos están en o
por debajo de ese valor y cuando menos (1  p)100% están en o por encima de ese valor
Esto quiere decir también, que el p  esimo percentil es el valor para el cual hay una
probabilidad de ocurrencia menor o igual a p .
Los cuartiles Qi se definen como:
Es el valor o dato que tiene el 25% de las observaciones o es el valor para el cual la probabilidad
Q1
de ocurrencia es menor o igual al 25%. Equivale al 25-avo percentil
Q2
de ocurrencia es menor o igual al 50%. Equivale al 50-avo percentil. Es la misma mediana
Q3
de ocurrencia es menor o igual al 75%. Equivale al 75-avo percentil
Si dos datos cumplen la definición de un percentil dado, entonces se toma el promedio de

los valores o una interpolación lineal entre ellos. Quiere esto decir también, que es posible
que el valor de un percentil dado puede que no exista en la muestra.
Los cuartiles y percentiles son muy utilizados para expresar información en forma
estadística.

Carlos J. Zapata
Ejemplo 2.4
En una casa se instalan cuatro “cortinas” de luces de navidad, cada una de las cuales tiene 150 bombillas.
El ciclo operativo de las bombillas es de 12 horas por día durante 30 días cada año. Cada que una bombilla
se daña es reemplazada por otra y se inicia la cuenta de horas de funcionamiento para la nueva bombilla.
Al cabo del primer mes de haber instalado las cortinas (la primera navidad), se encuentra que han fallado
16 bombillas con los siguientes tiempos para falla:
Tiempos para falla [horas]

184.1 224.4 256.1 344.5
208.3 227.5 300.2 344.7
213.3 248.5 303.8 345.6
218.0 252.1 336.3 349.4
• Dato máximo = 349.40 horas

• Dato mínimo = 184.10 horas
• Rango = 165.30 horas
• x  272.30 horas
• s  58.58 horas
• cv  s / x * 100%  58.58 / 272.30 * 100%  21.51%
• k  1  3.3log10 (16)  4.97  5.0
• w  rango / k  165.30 / 5  33.06  33 horas
• Distribución de frecuencia e histograma
Clase Frecuencia Probabilidad clase

1 184 - 217 3 0.1875
2 218 – 251 4 0.2500
3 252 - 286 2 0.1250
4 287 - 320 2 0.1250
5 321 – 354 5 0.3125
16 1.0000

Carlos J. Zapata
• Distribución acumulada de frecuencia y gráfica de probabilidades acumuladas
Clase Frecuencia Probabilidad clase

1 184 - 217 3 0.1875
2 218 – 251 7 0.4375
3 252 - 286 9 0.5625
4 287 - 320 11 0.6875
5 321 – 354 16 1.0000
• Calcular el percentil 20 y el segundo cuartil
La muestra de datos ordenada de menor a mayor magnitud es:
184.1 208.3 213.3 218.0 224.4 227.5 248.5 252.1

256.1 300.2 303.8 336.3 344.5 344.7 345.6 349.4
El percentil 20 debe tener por lo menos 0.2*16= 3.2 observaciones por debajo y 12.8 observaciones por
encima. Esto criterio solo lo cumple el dato 218.0. Entonces:
P20%  218.0 [Horas]
El segundo cuartil corresponde al percentil 50, el cual debe tener por lo menos 0.5*16= 8 observaciones
por debajo y 8 observaciones por encima. Esto criterio lo cumplen los datos 252.1 y 256.1. Entonces:
252.1  256.1
Q2   254.1 [Horas]
2
Nótese que ninguno de los valores obtenidos se encuentra en la muestra.
Se espera que el 20 por ciento de las bombillas falle en un tiempo menor o igual a 218. 2 Horas. Y se
espera que el 50% de las bombillas durará mas de 254.1 Horas.

Carlos J. Zapata
2.3 Prueba de Aleatoriedad

Consiste establecer si el fenómeno bajo estudio es aleatorio o, por el contrario, hay un
patrón que se repite con frecuencia.
Para aplicar este tipo de prueba se debe conservar la secuencia cronológica en que se
produjeron los datos. Si los datos se ordenan por orden de magnitud se altera la sucesión
de datos continuos mayores y menores a la media.
2.3.1 Prueba de Aleatoriedad “Run Test”
1. Defina la probabilidad crítica  o el nivel de confianza (   1   ) del análisis
2. Calcule la mediana de los datos
3. Calcule:
n1 : Cantidad de datos menores a la mediana

n2 : Cantidad de datos mayores a la mediana
U: Sucesión de datos continuos menores o mayores a la mediana
4. Calcule el valor esperado y desviación estándar del estadístico de prueba:
2n1n2 2n1n2  2n1n2  n 

U  1 U 
n n 2  n  1
5. Calcule el estadístico de prueba ZU :
U  U
ZU 
U
6. Prueba de Hipótesis:
Hipótesis nula H 0 : Los datos son aleatorios

Hipótesis alterna H1 : Existe un patrón en los datos que se repite con frecuencia
7. Criterio de decisión: Se acepta la hipótesis nula si z /2  ZU  z /2

Carlos J. Zapata
Ejemplo 2.5
A un banco de baterías se le hacen en un periodo de 6 años pruebas de carga y descarga y se le mide la

tensión final en voltios.
Probar con un 95% de confianza si la muestra de datos es aleatoria o si existe un patrón que se alterna con
frecuencia.
Datos Mediana=1.2495 (Voltios)

1.261 n1=8 datos menores a la mediana
1.258 n2=8 datos mayores a la mediana
1.249
1.241
1.247
U=8 sucesión de datos continuos menores o mayores a la mediana. Se obtiene
1.256 marcando los datos mayores a la mediana con un “1” y los menores con un
1.250 “0” y luego se hace el siguiente diagrama para contar las transiciones:
1.240
1.255
1 1 0 0 0 1 1 0 1 0 1 1 1 0 0 0
1.243
1.252
1.253
1.251
1.245 U  9  U  1.9322 ZU=-0.5175 z /2  1.967
1.248
1.246
Hipótesis nula H0 : La muestra de datos es aleatoria
Hipótesis alterna H1 : La muestra de datos no es aleatoria y existe un patrón en los datos que se repite con
frecuencia
Criterio de decisión: Como ZU está entre -1.967 y +1.967 se acepta la hipótesis nula, es decir, los datos son
aleatorios
Con un 95% de probabilidad puede afirmarse que los datos de la muestra son aleatorios; existe un 5%
de probabilidad de que esto no sea así.
Si los datos fuesen ordenados por magnitud de menor a mayor, el diagrama de sucesión de datos
continuos sería:
0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1
U=2 z=-3.6228
En este caso, como z es menor que - z / 2 se rechaza la hipótesis nula, es decir, la muestra de datos no es
aleatoria, resultado que es contrario al anterior donde se conserva la secuencia cronológica de los datos!!

Carlos J. Zapata
2.4 Prueba de Tendencia

Consiste establecer si el fenómeno bajo estudio es estacionario o no.
produjeron los datos. Si los datos se ordenan por orden de magnitud se altera la
tendencia.
Para los procesos de Poisson existen pruebas de tendencia específicas, algunas de las
cuales se verán en el Capítulo 5.
2.4.1 Gráfica de Barras
Una forma muy sencilla de evaluar la tendencia de una variable aleatoria es hacer un
diagrama de barras (magnitudes) conservando el orden cronológico en que se tomaron
los datos. A continuación de ilustra este concepto.
Tendencia negativa
Sin tendencia
Tendencia positiva

Carlos J. Zapata
2.4.2 Análisis del Valor Promedio y Desviación Muestral
Otra forma de prueba de tendencia es dividir el periodo que abarcan los datos en
subperiodos y en cada uno de ellos calcular el promedio y la desviación estándar.
Si los promedios y desviaciones son aproximadamente constantes, el fenómeno es

estacionario. Esto se ilustra a continuación.
Fenómeno estacionario
Fenómeno no estacionario
1 2 3 4 5 1 2 3 4 5
Para aplicar esta prueba se requiere un gran tiempo de observación y suficientes datos
para todos los subperiodos.
2.4.3 Prueba Mann - Kendall
Sean los datos de la muestra x1 , x2 , xn , los cuales están en el orden cronológico en que
se tomaron.
1. Defina la probabilidad crítica  o el nivel de confianza (   1   ) del análisis
2. Calcule S :
n 1 n
S   sign(v j  vi )
i 1 j  i 1
Para todo j  i , la función sign es igual a:
+1 if (v j  vi )  0
-1 if (v j  vi )  0
0 if (v j  vi )  0

Carlos J. Zapata
Esto es, parados en cada dato se analiza en todos los siguientes si hay cambio de signo o
no.
3. Calcule k :
-1 if S  0
k es igual a: +1 if S  0
0 if S  0
4. Calcule la varianza de S :
VAR(S )  n(n 1)(2 n  5) /18
5. Calcule el estadístico de prueba Z S :
Z S  ( S  k ) / VAR( S )
6. Prueba de Hipótesis:
Hipótesis nula H 0 : Los datos son estacionarios

Hipótesis alterna H1 : Los datos no son estacionarios
7. Criterio de decisión: Se acepta la hipótesis nula si z /2  ZS   z /2
Ejemplo 2.6
Para la muestra de datos de voltajes de descarga de 16 baterías del Ejemplo 2.5, probar
con un 95% de confianza si los datos son estacionarios.
S  30 k 1 VAR( S )  22.2111 Z S  1.3057
Hipótesis nula H 0 : Los datos son estacionarios

Hipótesis alterna H1 : Los datos no son estacionarios

Criterio de decisión: Como ZS está entre -1.967 y +1.967 se acepta la hipótesis nula, es
decir, los datos son estacionarios.

Carlos J. Zapata
Con un 95% de probabilidad puede afirmarse que los datos de la muestra son
estacionarios; existe un 5% de probabilidad de que esto no sea así.
2.4.4 Cuándo No se Requiere una Prueba de Tendencia?
Si los datos de la muestra se toman en un muy “corto” periodo de tiempo para que se
pueda visualizar el cambio en tendencia, entonces no es necesario hacer una prueba de
tendencia ya que su resultado no es relevante.
Por ejemplo, si quiero estudiar el valor que paga un estudiante de esta universidad y tomo
una muestra de 1000 datos en 5 días, este periodo de tiempo en que se toma la muestra
no es suficiente para visualizar cambios en este valor debido a los efectos de la inflación,
especulación etc.
Definir cuando el periodo de tiempo en que se toma la muestra es muy corto dependerá
del fenómeno aleatorio bajo estudio. No es lo mismo el periodo de tiempo para observar
el cambio en el valor que paga un estudiante por el almuerzo que la intensidad de los
temblores producidos por la erupción de un volcán.
Tampoco se requiere prueba de tendencia cuando en un momento dado se toman los

datos de unos individuos. Por ejemplo, se mira la cantidad de frutos en una muestra de
100 árboles.

Carlos J. Zapata
2.5 Prueba de Independencia

Consiste establecer si las realizaciones del fenómeno bajo estudio son independientes
entre sí o no.
produjeron los datos. Si los datos se ordenan por orden de magnitud se altera totalmente
la información contenida en los datos.
En este caso al estar estudiando los datos de la muestra de una sola variable, se está
estudiando la autocorrelación de los datos.
2.5.1 Diagrama de Dispersion (Scatter Diagram)
Si se tiene una muestra de n datos x 1 , x 2 , , x n no negativos y ordenados

cronológicamente, el diagrama de dispersión es una gráfica de las parejas ( x i , x i 1 ) para
i  1,2, ,(n  1) .
• Si los datos son independientes los puntos están dispersos en el primer cuadrante del
plano ( x i , x i 1 )
• Si los datos están correlacionados positivamente, los puntos tienen a formar una línea
con pendiente positiva en el primer cuadrante del plano ( x i , x i 1 )
• Si los datos están correlacionados negativamente, los puntos tienen a formar una línea
con pendiente negativa en el primer cuadrante del plano ( x i , x i 1 )
Diagrama de dispersión para una muestra

de datos independiente

Carlos J. Zapata
Diagrama de dispersión para una muestra

de datos independiente pero los datos se
ordenaron por magnitud
Ejemplo 2.7
Para la muestra de datos de voltajes de descarga de 16 baterías del Ejemplo 2.5, probar si
los datos son independientes.
Las parejas de datos para construir el diagrama de dispersión son:
Datos Xi Xi+1
1.261 1.261 1.258
1.258 1.258 1.249
1.249 1.249 1.241
1.241 1.241 1.247
1.247 1.247 1.256
1.256 1.256 1.250
1.250  1.250 1.240
1.240 1.240 1.255
1.255 1.255 1.243
1.243 1.243 1.252
1.252 1.252 1.253
1.253 1.253 1.251
1.251 1.251 1.245
1.245 1.245 1.248
1.248 1.248 1.246
1.246

Carlos J. Zapata
2.5.2 Diagrama de Autocorrelación
Sean los datos de la muestra x1 , x2 , xn , los cuales están en el orden cronológico en que
se tomaron.
1. Calcule el promedio estadístico x
2. Calcule la varianza muestral s 2
3. Para cada j  1, 2, , n  1 calcule la covarianza:
1 n j
Cj   (x  x)( xi j  x )
(n  j) i 1 i
2. Para cada j  1, 2, , n  1 calcule el coeficiente de correlación:
Cj
j 
s2
Los  j toman valores entre -1 y +1 y son cero en el caso de que no hay correlación
3. Hacer la gráfica de los j  1, 2, , n  1 (eje horizontal) versus los  j (eje vertical).
4. Conclusión: Si los  j tienen valores muy cercanos a cero, esto es evidencia de que los
datos son independientes.

Carlos J. Zapata
2.6 Pruebas de Aleatoriedad, Tendencia e Independencia en

Variables Crecientes o Decrecientes
Algunas variables aleatorias tienen la característica natural de ser siempre crecientes o
decrecientes, es decir monotónicas.
Ejemplo de este tipo de variables son aquellas que expresan el tiempo acumulado desde
un origen, el producto interno bruto de un país en un periodo de varios años, el capital
de una persona en el tiempo, etc.
En este caso, si se realizan las pruebas de aleatoriedad, tendencia e independencia sobre

este tipo de variable, fallarán y mostraran que no hay aleatoriedad, que hay tendencia y
que los datos son dependientes entre sí. Pero este resultado es falso y se debe a la
naturaleza creciente o decreciente de la variable.
Así, para este tipo de variables, las pruebas de aleatoriedad, tendencia e independencia
deben realizarse sobre los incrementos entre los datos. El resultado que se obtenga será el
verdadero para la variable original.

Carlos J. Zapata
2.7 Referencias
[1] Ospina D, “Introducción al muestreo”, Universidad Nacional de Colombia, 2001.
[2] Miller I, Freund J, Johnson R, “Probabilidad y Estadística para Ingenieros”, cuarta

edición, Prentice Hall, 1992.
[3] Law Averill M, Kelton W. David, “Simulation Modeling and Analysis”, Tercera
edición, Mc-Graw Hill, 2000.
[4] National Nonpoint Source Monitoring Program, “Statistical Analysis for Monotonic
Trends”, Tecnhnotes, No. 6, 2011.
[5] Khambhammettu Prasbhanth “Mann-Kendall Analysis for the Fort Ord Site”,
HydroGeoLogic Inc, 2005.
[6] Bendat J. S, Enochson L. D, Piersol A. G, “Tests for Randomness, Stationarity,

Normality and Comparison of Spectra”, AF Flight Dynamics Laboratory, 1965.
[7] Bendat J. S, Enochson L. D, Piersol A. G, “Detection of Ageing in the Reliability

Analysis of Thermal Generators”, IEEE Transactions on Power Systems, Vol. 3, No. 2,
1988.

Probabilidad Capitulo 2 2015 PDF

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Probabilidad Capitulo 2 2015 PDF

Cargado por

Copyright:

Formatos disponibles

Análisis Probabilístico y Simulación Capítulo 2 – Análisis de Datos

Capítulo 2 – Análisis de Datos

2.1.1 El Concepto de Población de Datos

Ente o entes que generan los

Los datos también se denominan observaciones o realizaciones del fenómeno aleatorio.

A la variable aleatoria x también se le denomina en este contexto variable estadística.

Universidad Tecnológica de Pereira ©2015 1

La población de datos puede ser:

Tiene un número contable. Tiene un número no contable o infinito

• No se retiran de los datos la información de los

• El fenómeno aleatorio se define sobre un

• Se muestrea con reemplazo: Cuando se

2.1.2 Necesidad del Muestreo

1 Es complicado estudiar toda la población

Universidad Tecnológica de Pereira ©2015 2

2.1.3 El Concepto de Muestra Aleatoria y Representativa

La muestra de datos debe ser:

La muestra aleatoria se define como:

Población finita Población infinita

Un conjunto de observaciones constituye una Un conjunto de observaciones constituye una

• Es elegida de tal forma que cada observación o • Cada observación o subconjunto de

• Las n variables aleatorias son independientes

Esto se resume en la hipótesis de que las

Universidad Tecnológica de Pereira ©2015 3

2.1.4 Tamaño de Muestra

k 1 para poblaciones infinitas

El tamaño de muestra se define como:

z  / 2 : Es el valor en la distribución normal para una probabilidad crítica (probabilidad

x : Es la desviación estándar de la variable aleatoria x que se estudia. Generalmente

: Es el error de estimación y equivale a la diferencia entre el valor que se quiere

CV x : Es el coeficiente de variación de la variable.

Universidad Tecnológica de Pereira ©2015 4

La formulación del tamaño de muestra se toma de la distribución normal porque el

Es complicado contactar a una gran cantidad de

1 Es complicado obtener las n observaciones.

Probar una gran cantidad de los componentes

Hacer un censo de población es muy costoso

Para tener 100 tiempos para falla hay que

A diferencia de las ciencias sociales o el mercadeo, en otras áreas de estudio generalmente

1 Aceptar trabajar con una muestra con tamaño menor al adecuado

2 Esperar más tiempo para tener la cantidad de datos adecuada

Universidad Tecnológica de Pereira ©2015 5

2.1.5 Validación de los Datos de la Muestra

El analista debe entender claramente la naturaleza de los datos, es decir:

Escala de medida en que vienen los datos:

Se debe seleccionar el modelo teórico apropiado. Sin

Permite saber cuál es el rango en el cual deben estar los

Rango de valores de la variable bajo

Es importante conocer si los datos proceden de

Es importante conocer si los datos proceden un solo

Universidad Tecnológica de Pereira ©2015 6

Y debe verificar si en los datos de la muestra hay:

Datos que no pertenecen al rango de valores posibles de la variable. Por

Universidad Tecnológica de Pereira ©2015 7

2.2 Estadísticas Descriptivas

El promedio muestral es un pronóstico de cuál será el valor de la variable aleatoria en el

El valor promedio es un estimador puntual del valor esperado E( x) :

La calidad de este estimador o de la predicción del promedio depende del tamaño de la

Ley Fuerte de los Grandes Números

P[lim x  E( x)]  1.0

Esta ley es la justificación de los métodos iterativos como la simulación de Montecarlo,

Universidad Tecnológica de Pereira ©2015 8

2.2.2 Varianza Muestral