Está en la página 1de 27

Análisis Probabilístico y Simulación Capítulo 2 – Análisis de Datos

Carlos J. Zapata

Capítulo 2 – Análisis de Datos


2.1 Muestreo

2.1.1 El Concepto de Población de Datos

El fenómeno aleatorio bajo estudio se desarrolla en entes del mundo real: la tierra, la
atmosfera, el mar, un río, un volcán, una persona, grupos de personas, un árbol, grupos
de árboles, un equipo, grupos de equipos, la bolsa de valores, la actividad económica de
un país, etc.

Estos entes generan datos de la variable aleatoria x que permite estudiar el fenómeno
aleatorio. El conjunto de estos datos se llama la población de datos.

Pero se debe aclarar, que cuando cada ente aporta datos se habla de las poblaciones de
datos y poblaciones individuos como una misma cosa, pero esto no es cierto para el caso
en que un solo ente es el que genera todos los datos.

Ejemplo 2.1

Ente o entes que generan los


Datos Población
datos
El Río Cauca caudales Los caudales generados por este río
Los ríos del departamento del Los caudales generados por estos
Chocó que desembocan al océano caudales
ríos o el conjunto de ríos
Pacífico
La TRM: tasa representativa
El mercado cambiario El conjunto de TRMs
del mercado USD/COP
Rayos (descargas atmosféricas) Los KA de descarga o el conjunto de
KA pico de descarga
en la zona de La Macarena rayos en dicha zona
Reclamos que hacen los clientes Los reclamos o los clientes que
#de reclamos
sobre un software o producto reclaman
Errores en un software #de errores Los errores

Al conjunto de entes que generan datos también se le llama población estadística y a los
entes individuos o unidades estadísticas.

Los datos también se denominan observaciones o realizaciones del fenómeno aleatorio.

A la variable aleatoria x también se le denomina en este contexto variable estadística.

Universidad Tecnológica de Pereira ©2015 1


Análisis Probabilístico y Simulación Capítulo 2 – Análisis de Datos
Carlos J. Zapata

La población de datos puede ser:

Finita Infinita

Tiene un número contable. Tiene un número no contable o infinito

Esto no quiere decir que sea fácil estudiarla ya que su Aparece cuando:
número puede ser muy elevado.
• Se consideran entes pasados, presentes y
futuros

• No se retiran de los datos la información de los


entes que salen de la población

• El fenómeno aleatorio se define sobre un


proceso físico continuo en el estado o materia

• Se muestrea con reemplazo: Cuando se


selecciona un individuo al hacer para tomar su
dato, pero no se tiene el cuidado de que
posteriormente no vuelva a ser seleccionado.

2.1.2 Necesidad del Muestreo

En la mayoría de los casos no es posible tomar todos los datos de una población por las
siguientes razones:

1 Es complicado estudiar toda la población


2 Es muy costoso estudiar toda la población
3 Tomaría mucho tiempo estudiar toda la población
4 La población es infinita
El fenómeno aleatorio se desarrolla desde largo tiempo atrás y solo existen registros a partir de
5
una fecha “reciente”
6 No se requiere o desea una precisión muy alta en los resultados

Entonces, se debe aceptar que en la mayoría de los casos se debe trabajar con una muestra
limitada de datos.

Esta muestra de datos debe ser “representativa” y “aleatoria”, dos características que se
explicarán a continuación.

Universidad Tecnológica de Pereira ©2015 2


Análisis Probabilístico y Simulación Capítulo 2 – Análisis de Datos
Carlos J. Zapata

2.1.3 El Concepto de Muestra Aleatoria y Representativa

La muestra de datos debe ser:

Representativa Aleatoria

Se refiere a que la muestra debe contener todos los Se refiera a la forma en que se toma la muestra:
tipos de datos o individuos existentes en la
población. • Cada dato debe ser independiente de los
otros. Se debe tener en cuenta si el muestreo
Una muestra representativa se logra si la población es con o sin reemplazo y el grado de
es una “mezcla” homogénea de los diferentes tipos dependencia entre un dato y otro.
de datos o individuos presentes.
• La población debe permanecer sin cambio en
Para garantizar la representatividad, se define el tipo su naturaleza cada que se toma un dato. Esto
de muestreo: aleatorio simple, estratificado o por es importante en experimentos aleatorios
conglomerados. donde se toman medidas o se hacen pruebas
que pueden afectar los individuos.

La muestra aleatoria se define como:

Población finita Población infinita

Un conjunto de observaciones constituye una Un conjunto de observaciones constituye una


muestra aleatoria de tamaño n de una población de muestra aleatoria de tamaño n de una población
tamaño N si: infinita si:

• Es elegida de tal forma que cada observación o • Cada observación o subconjunto de


conjunto de observaciones tenga la misma observaciones es una variable aleatoria cuya
probabilidad de ser elegido. distribución tiene los mismos valores de la
distribución de la población

• Las n variables aleatorias son independientes

Esto se resume en la hipótesis de que las


observaciones de la muestra constituyen una
secuencia de variables aleatorias Independientes
e Idénticamente Distribuidas (IID).

Definir el tamaño de una muestra y definir el tipo de muestreo a ser aplicado involucran
aspectos que están fuera del alcance del presente texto, por lo cual, se recomienda
consultar un texto de muestreo.

Universidad Tecnológica de Pereira ©2015 3


Análisis Probabilístico y Simulación Capítulo 2 – Análisis de Datos
Carlos J. Zapata

2.1.4 Tamaño de Muestra

Teorema

Si una muestra aleatoria de tamaño n se toma de una población que tiene valor esperado E( x)   y
varianza VAR( x)  2 , entonces x es una variable aleatoria cuya distribución tiene las siguientes
características:
VAR( x) 2
E( x )  E( x)   y VAR( x )  
n* k n* k
Donde:

k 1 para poblaciones infinitas


N n
k para poblaciones finitas (suele omitirse pues es cercano a 1.0)
n1

El tamaño de muestra se define como:

2
z /2 * x z *  
E( x)  x     n    /2 x 
n   

2
E( x)  x z /2 * CVx  z * CVx 
  p .u   n    /2 
E( x) n   p.u 

Donde:

z  / 2 : Es el valor en la distribución normal para una probabilidad crítica (probabilidad


de rechazo)  .

x : Es la desviación estándar de la variable aleatoria x que se estudia. Generalmente


se estima mediante la desviación estándar sx obtenida en una prueba piloto.

: Es el error de estimación y equivale a la diferencia entre el valor que se quiere


averiguar E( x) y su estimador x . Este valor lo define el analista; un valor típico es
10%.

CV x : Es el coeficiente de variación de la variable.

Universidad Tecnológica de Pereira ©2015 4


Análisis Probabilístico y Simulación Capítulo 2 – Análisis de Datos
Carlos J. Zapata

La formulación del tamaño de muestra se toma de la distribución normal porque el


Teorema del Límite Central indica que esta es la distribución del promedio estadístico
cuando el tamaño de muestra es grande (>30). Es decir, no importa cuál sea la distribución
de una población de datos, su promedio estadístico siempre tendrá distribución normal.

Una vez se conoce el tamaño adecuado de la muestra, los siguientes problemas aparecen
cuando se quiere obtener tal cantidad de datos:

Es complicado contactar a una gran cantidad de


habitantes de una ciudad para consultarlos.

1 Es complicado obtener las n observaciones.


Es complicado hacer pruebas o mediciones a una
gran cantidad de los transformadores de
distribución de una ciudad grande o mediana.

Probar una gran cantidad de los componentes


que salen de una fábrica puede ser muy costoso
2 Es muy costoso obtener las n observaciones e incrementaría su precio final.

Hacer un censo de población es muy costoso

Es imposible en un momento dado obtener las En términos prácticos, en algunos casos es casi
3
n observaciones imposible consultar a una gran cantidad de los
habitantes de una ciudad grande

Para tener 100 tiempos para falla hay que


La observación depende de que ocurra el esperar a que ocurran 100 fallas.
4 evento aleatorio que define la variable
estadística. No se puede preguntar a cada componente de
un sistema: Usted cuándo va a fallar?

A diferencia de las ciencias sociales o el mercadeo, en otras áreas de estudio generalmente


se debe esperar a que ocurra el evento que define la variable aleatoria para tener datos,
por lo cual se debe:

1 Aceptar trabajar con una muestra con tamaño menor al adecuado

2 Esperar más tiempo para tener la cantidad de datos adecuada


Agrupar información de componentes o sistemas similares para obtener el tamaño adecuado de
3
muestra

Universidad Tecnológica de Pereira ©2015 5


Análisis Probabilístico y Simulación Capítulo 2 – Análisis de Datos
Carlos J. Zapata

2.1.5 Validación de los Datos de la Muestra

El analista debe entender claramente la naturaleza de los datos, es decir:

Escala de medida en que vienen los datos:


1 Cuáles son las unidades de medida? Tiempo en: Horas, días, meses?
Voltaje en: kV, mV?

Se debe seleccionar el modelo teórico apropiado. Sin


Naturaleza de la variable: Continua o
2 embargo, a veces se utiliza una distribución continua
discreta
para una variable discreta.

Permite saber cuál es el rango en el cual deben estar los


datos de la muestra.

Rango de valores de la variable bajo


3 Se debe proponer modelos teóricos acordes con el rango
estudio
de la variable bajo estudio. Por ejemplo, en el caso de la
temperatura si el rango son los reales positivos y
negativos no proponer una distribución como Gamma,
Weibull o la exponencial que no manejan los negativos.

Es importante conocer si los datos proceden de


individuos con similares o existe algún grado de
heterogeneidad.

4 Homogeneidad
Ejemplo: Los datos de tiempo de falla provienen de 5
compresores. Son estos equipos idénticos? Tienen la
misma edad? Tienen las mismas especificaciones?
Provienen del mismo fabricante?

Es importante conocer si los datos proceden un solo


individuo o de varios y su homogeneidad.
5 Datos agrupados o individuales
Ejemplo: Los datos de caudal de un río o los datos de falla
de un lote de componentes.

Universidad Tecnológica de Pereira ©2015 6


Análisis Probabilístico y Simulación Capítulo 2 – Análisis de Datos
Carlos J. Zapata

Y debe verificar si en los datos de la muestra hay:

Datos que no pertenecen al rango de valores posibles de la variable. Por


Inconsistencias,
1 ejemplo, hay datos negativos en la muestra de datos de una variable que
errores
solo puede tomar valores positivos.

Datos que son muy diferentes o “raros” con respecto a los otros que contiene
la muestra. Una regla práctica es considerar como outlier todo dato por
2 Outliers
fuera del intervalo dado por x  3s . No deben eliminarse los outliers sin un
cuidadoso análisis de la real posibilidad de la existencia de estos valores.

Universidad Tecnológica de Pereira ©2015 7


Análisis Probabilístico y Simulación Capítulo 2 – Análisis de Datos
Carlos J. Zapata

2.2 Estadísticas Descriptivas


2.2.1 Promedio Estadístico

1 n
x x
n i 1 i

El promedio muestral es un pronóstico de cuál será el valor de la variable aleatoria en el


largo plazo.

El valor promedio es un estimador puntual del valor esperado E( x) :

E( x)  x

La calidad de este estimador o de la predicción del promedio depende del tamaño de la


muestra.

Cómo se prueba entonces, que el valor promedio de la muestra puede llegar a ser igual al
valor esperado? La ley fuerte de los grandes números da a la respuesta:

Ley Fuerte de los Grandes Números

Para una secuencia de variables aleatorias IID con valor esperado E( x) y varianza finita se tiene que:

P[lim x  E( x)]  1.0


n

La ley fuerte de los grandes números dice que con toda certeza si el número de
observaciones de una variable aleatoria x es muy grande, el promedio estadístico de estas
observaciones será igual al valor esperado.

Esta ley es la justificación de los métodos iterativos como la simulación de Montecarlo,


pues se tiene certidumbre que si se hacen muchas iteraciones (se obtienen muchas
observaciones), los valores estimados serán iguales a los esperados.

Universidad Tecnológica de Pereira ©2015 8


Análisis Probabilístico y Simulación Capítulo 2 – Análisis de Datos
Carlos J. Zapata

2.2.2 Varianza Muestral

1 n
s2   ( x  x )2
n  1 i 1 i

La varianza muestral dice cuánto se alejan los datos del valor promedio. Esto es, el grado
de variabilidad del fenómeno aleatorio y el error que puede haber en la predicción dada
por el promedio estadístico.

La varianza muestral es un estimador puntual de la varianza.

V ( x)  s 2

La calidad de este estimador también depende del tamaño de la muestra. La prueba de


consistencia nos da la calidad del estimador:

Prueba de Consistencia

Para una secuencia de variables aleatorias IID con valor esperado y varianza finitos se
tiene que:

2
P[|s2   | k ]  1.0 si n  

La propiedad de consistencia dice que conforme se aumenta el tamaño de la muestra, la


varianza de la muestra tendrá una diferencia finita k muy pequeña con la varianza.

También se puede definir la desviación muestral:

1 n
s  ( x  x )2
n  1 i 1 i

La desviación muestral dice en las mismas unidades de la variable aleatoria, cuanto se


desviaran los datos por encima y por debajo del promedio estadístico y es un estimador
de la desviación estándar STD( x) .

Universidad Tecnológica de Pereira ©2015 9


Análisis Probabilístico y Simulación Capítulo 2 – Análisis de Datos
Carlos J. Zapata

2.2.3 Coeficiente de Variación

cv  s / x

Permite comparar la variación entre diferentes conjuntos de datos, aunque las unidades
del problema no sean las mismas. Es usual es expresarlo en porcentaje.

Ejemplo 2.1

Una persona quiere saber cuál de dos balanzas digitales es más precisa. Se pesa varias
veces utilizando ambos equipos y obtiene los siguientes resultados:

Balanza 1: x1  62.8 kg s1  3kg  cv1  s1 / x1  3 / 62.8 * 100  4.77%

Balanza 2: x2  63.1kg s2  2.53kg  cv2  s2 / x2  2.53 / 63.1* 100  4.01%

Conclusión: La balanza 2 es la más precisa.

2.2.4 Mediana

Es el valor del ítem intermedio cuando el conjunto de observaciones se ordena en forma


ascendente o descendente. Es el valor más cercano a la mitad una vez las observaciones
se jerarquizan de acuerdo con su magnitud.

Si n es impar Si n es par

La mediana es el dato que aparece en la posición La mediana es el promedio de los datos de las
(n  1) / 2 posiciones n / 2 y (n  2) / 2

Ejemplo 2.2

Se tiene la siguiente muestra de datos: 15, 14, 2, 27, 13. Entonces:

• n5
• Datos ordenados: 2, 13, 14, 15, 27
• Mediana: Dato de la posición (n  1) / 2  (5  1) / 2  3 : 14
• Mediana: Dato de la posición (n  1) / 2  (5  1) / 2  3 : 14

Universidad Tecnológica de Pereira ©2015 10


Análisis Probabilístico y Simulación Capítulo 2 – Análisis de Datos
Carlos J. Zapata

Ejemplo 2.3

Se tiene la siguiente muestra de datos: 11, 9, 17, 19, 4, 5

• n 6
• Datos ordenados: 4, 5, 9, 11, 17, 19
• Mediana: Promedio de los datos en las posiciones n/ 2  6/ 2  3 y
(n  2) / 2  (6  2) / 2  4

Mediana  (9  11) / 2  10

Nótese que el valor obtenido como mediana no existe en la muestra de datos

2.2.5 Distribuciones de Frecuencia e Histogramas

La distribución de frecuencias es una tabla que agrupa los datos por clases o categorías y
presenta el número de datos en cada clase o sea la frecuencia de clase.

El histograma es la representación gráfica de la tabla de distribución de frecuencia. Se


construye por medio de rectángulos adyacentes. Las alturas de los rectángulos
representan las frecuencias de clase y sus bases se extienden entre fronteras de clase
sucesivas. Como se mostrará más adelante, el histograma es una representación de la
función de densidad de probabilidad.

No existe una regla fija para determinar el número de clases k en una muestra de tamaño
n . Una regla empírica es la Regla de Sturge:

k  1  3.3 log 10 (n)

El intervalo de clases se puede obtener como:

rango (datomax  datomin )


w 
k k

Algunas recomendaciones para construir las distribuciones de frecuencia son:

Universidad Tecnológica de Pereira ©2015 11


Análisis Probabilístico y Simulación Capítulo 2 – Análisis de Datos
Carlos J. Zapata

Aunque k depende del tamaño de la muestra n , tiene poca utilidad utilizar menos de 5 clases o
1
más de 15
Si w es muy grande no reflejará el patrón de comportamiento de los datos. Si w es muy pequeño
no se obtendrá información relevante de los datos.
2
Para el caso de los histogramas se debe probar con varios intervalos de clase para deducir qué
distribución de probabilidad podría ajustarse a los datos.
3 Deben evitarse las clases de frecuencia cero
4 Ningún dato debe quedar en los límites de clase
5 No debe existir brecha ni traslape entre los límites de clase
Si una distribución de frecuencias o histograma se va a comparar con otro, los intervalos de clase
6
deben ser iguales

Si la frecuencia de clase en la tabla de distribución de frecuencias o histograma se divide


entre el tamaño de la muestra, entonces se tiene la probabilidad de ocurrencia de la clase.

El valor promedio y la desviación muestral de los datos agrupados están dados por:

1 n 1 n
x x f
n i 1 i i
s  ( x f  x )2
n  1 i 1 i i

Donde:

fi : Es la frecuencia de la clase i
xi : Es el valor medio del intervalo de clase i o “marca de clase”

El valor promedio y la desviación muestral de los datos agrupados son diferentes a los
calculados sin agrupar los datos.

La distribución acumulativa de frecuencias es una tabla donde se acumulan las


frecuencias de cada una de las clases; indica cuales frecuencias de los valores observados
son menores o iguales al valor de la abcisa. Si se dividen las frecuencias acumuladas entre
el tamaño de la muestra, entonces se tiene una tabla o gráfica de probabilidades
acumuladas que es una representación de la función de distribución de probabilidad.

Universidad Tecnológica de Pereira ©2015 12


Análisis Probabilístico y Simulación Capítulo 2 – Análisis de Datos
Carlos J. Zapata

2.2.6 Relación entre Histograma y Función de Densidad de Probabilidad

Figura 2.1 función de densidad de probabilidad e histograma

La función de densidad de probabilidad fx ( x) se define como:

dFx ( x) P[ x  ( x0  dx)]  P[x  x0 ]


f x ( x)  
dx dx

fx ( x)dx  P[ x0  x  x0  dx]

Entonces, f x ( x ) evaluada en un valor dado x 0 indica cuánta probabilidad de masa hay


alrededor de ese punto.

A partir de un histograma se puede calcular f x ( x ) pues la probabilidad en un intervalo


de clase se puede evaluar con la definición de frecuencia relativa: La frecuencia del
intervalo de clase dividida entre el número total de datos utilizados para construir el
histograma:

fi
Pclasei 
n

Esta es la relación existente entre un histograma y la función de densidad de probabilidad:


el histograma puede servir para indicar cuál es la forma de la distribución que puede
utilizarse para representar los datos. Por esta razón, la función de densidad de
probabilidad es más utilizada en los análisis que la función de distribución de
probabilidad, pues debe recordarse que ésta última función siempre es una curva creciente
entre 0 y 1 para todas las distribuciones.

Universidad Tecnológica de Pereira ©2015 13


Análisis Probabilístico y Simulación Capítulo 2 – Análisis de Datos
Carlos J. Zapata

2.2.7 Percentiles y Cuartiles

Cada dato i de una muestra aleatoria de tamaño n tiene una probabilidad de ocurrencia
pi  1.0 / n .

Si los datos de la muestra aleatoria se ordenan de menor a mayor se pueden definir los
percentiles de la siguiente forma:

Percentiles

El p  esimo percentil de la muestra Pp % es el dato o valor para el cual al menos 100 p% de los datos están en o
por debajo de ese valor y cuando menos (1  p)100% están en o por encima de ese valor

Esto quiere decir también, que el p  esimo percentil es el valor para el cual hay una
probabilidad de ocurrencia menor o igual a p .

Los cuartiles Qi se definen como:

Es el valor o dato que tiene el 25% de las observaciones o es el valor para el cual la probabilidad
Q1
de ocurrencia es menor o igual al 25%. Equivale al 25-avo percentil

Es el valor o dato que tiene el 50% de las observaciones o es el valor para el cual la probabilidad
Q2
de ocurrencia es menor o igual al 50%. Equivale al 50-avo percentil. Es la misma mediana

Es el valor o dato que tiene el 75% de las observaciones o es el valor para el cual la probabilidad
Q3
de ocurrencia es menor o igual al 75%. Equivale al 75-avo percentil

Si dos datos cumplen la definición de un percentil dado, entonces se toma el promedio de


los valores o una interpolación lineal entre ellos. Quiere esto decir también, que es posible
que el valor de un percentil dado puede que no exista en la muestra.

Los cuartiles y percentiles son muy utilizados para expresar información en forma
estadística.

Universidad Tecnológica de Pereira ©2015 14


Análisis Probabilístico y Simulación Capítulo 2 – Análisis de Datos
Carlos J. Zapata

Ejemplo 2.4

En una casa se instalan cuatro “cortinas” de luces de navidad, cada una de las cuales tiene 150 bombillas.

El ciclo operativo de las bombillas es de 12 horas por día durante 30 días cada año. Cada que una bombilla
se daña es reemplazada por otra y se inicia la cuenta de horas de funcionamiento para la nueva bombilla.

Al cabo del primer mes de haber instalado las cortinas (la primera navidad), se encuentra que han fallado
16 bombillas con los siguientes tiempos para falla:

Tiempos para falla [horas]


184.1 224.4 256.1 344.5
208.3 227.5 300.2 344.7
213.3 248.5 303.8 345.6
218.0 252.1 336.3 349.4

• Dato máximo = 349.40 horas


• Dato mínimo = 184.10 horas
• Rango = 165.30 horas
• x  272.30 horas
• s  58.58 horas
• cv  s / x * 100%  58.58 / 272.30 * 100%  21.51%
• k  1  3.3log10 (16)  4.97  5.0
• w  rango / k  165.30 / 5  33.06  33 horas

• Distribución de frecuencia e histograma

Clase Frecuencia Probabilidad clase


1 184 - 217 3 0.1875
2 218 – 251 4 0.2500
3 252 - 286 2 0.1250
4 287 - 320 2 0.1250
5 321 – 354 5 0.3125
16 1.0000

Universidad Tecnológica de Pereira ©2015 15


Análisis Probabilístico y Simulación Capítulo 2 – Análisis de Datos
Carlos J. Zapata

• Distribución acumulada de frecuencia y gráfica de probabilidades acumuladas

Clase Frecuencia Probabilidad clase


1 184 - 217 3 0.1875
2 218 – 251 7 0.4375
3 252 - 286 9 0.5625
4 287 - 320 11 0.6875
5 321 – 354 16 1.0000

• Calcular el percentil 20 y el segundo cuartil

La muestra de datos ordenada de menor a mayor magnitud es:

184.1 208.3 213.3 218.0 224.4 227.5 248.5 252.1


256.1 300.2 303.8 336.3 344.5 344.7 345.6 349.4

El percentil 20 debe tener por lo menos 0.2*16= 3.2 observaciones por debajo y 12.8 observaciones por
encima. Esto criterio solo lo cumple el dato 218.0. Entonces:

P20%  218.0 [Horas]

El segundo cuartil corresponde al percentil 50, el cual debe tener por lo menos 0.5*16= 8 observaciones
por debajo y 8 observaciones por encima. Esto criterio lo cumplen los datos 252.1 y 256.1. Entonces:

252.1  256.1
Q2   254.1 [Horas]
2

Nótese que ninguno de los valores obtenidos se encuentra en la muestra.

Se espera que el 20 por ciento de las bombillas falle en un tiempo menor o igual a 218. 2 Horas. Y se
espera que el 50% de las bombillas durará mas de 254.1 Horas.

Universidad Tecnológica de Pereira ©2015 16


Análisis Probabilístico y Simulación Capítulo 2 – Análisis de Datos
Carlos J. Zapata

2.3 Prueba de Aleatoriedad


Consiste establecer si el fenómeno bajo estudio es aleatorio o, por el contrario, hay un
patrón que se repite con frecuencia.

Para aplicar este tipo de prueba se debe conservar la secuencia cronológica en que se
produjeron los datos. Si los datos se ordenan por orden de magnitud se altera la sucesión
de datos continuos mayores y menores a la media.

2.3.1 Prueba de Aleatoriedad “Run Test”

1. Defina la probabilidad crítica  o el nivel de confianza (   1   ) del análisis

2. Calcule la mediana de los datos

3. Calcule:

n1 : Cantidad de datos menores a la mediana


n2 : Cantidad de datos mayores a la mediana
U: Sucesión de datos continuos menores o mayores a la mediana

4. Calcule el valor esperado y desviación estándar del estadístico de prueba:

2n1n2 2n1n2  2n1n2  n 


U  1 U 
n n 2  n  1

5. Calcule el estadístico de prueba ZU :

U  U
ZU 
U
6. Prueba de Hipótesis:

Hipótesis nula H 0 : Los datos son aleatorios


Hipótesis alterna H1 : Existe un patrón en los datos que se repite con frecuencia

7. Criterio de decisión: Se acepta la hipótesis nula si z /2  ZU  z /2

Universidad Tecnológica de Pereira ©2015 17


Análisis Probabilístico y Simulación Capítulo 2 – Análisis de Datos
Carlos J. Zapata

Ejemplo 2.5

A un banco de baterías se le hacen en un periodo de 6 años pruebas de carga y descarga y se le mide la


tensión final en voltios.

Probar con un 95% de confianza si la muestra de datos es aleatoria o si existe un patrón que se alterna con
frecuencia.

Datos Mediana=1.2495 (Voltios)


1.261 n1=8 datos menores a la mediana
1.258 n2=8 datos mayores a la mediana
1.249
1.241
1.247
U=8 sucesión de datos continuos menores o mayores a la mediana. Se obtiene
1.256 marcando los datos mayores a la mediana con un “1” y los menores con un
1.250 “0” y luego se hace el siguiente diagrama para contar las transiciones:
1.240
1.255
1 1 0 0 0 1 1 0 1 0 1 1 1 0 0 0
1.243
1.252
1.253
1.251
1.245 U  9  U  1.9322 ZU=-0.5175 z /2  1.967
1.248
1.246

Hipótesis nula H0 : La muestra de datos es aleatoria

Hipótesis alterna H1 : La muestra de datos no es aleatoria y existe un patrón en los datos que se repite con
frecuencia

Criterio de decisión: Como ZU está entre -1.967 y +1.967 se acepta la hipótesis nula, es decir, los datos son
aleatorios

Con un 95% de probabilidad puede afirmarse que los datos de la muestra son aleatorios; existe un 5%
de probabilidad de que esto no sea así.

Si los datos fuesen ordenados por magnitud de menor a mayor, el diagrama de sucesión de datos
continuos sería:

0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1

U=2 z=-3.6228

En este caso, como z es menor que - z / 2 se rechaza la hipótesis nula, es decir, la muestra de datos no es
aleatoria, resultado que es contrario al anterior donde se conserva la secuencia cronológica de los datos!!

Universidad Tecnológica de Pereira ©2015 18


Análisis Probabilístico y Simulación Capítulo 2 – Análisis de Datos
Carlos J. Zapata

2.4 Prueba de Tendencia


Consiste establecer si el fenómeno bajo estudio es estacionario o no.

Para aplicar este tipo de prueba se debe conservar la secuencia cronológica en que se
produjeron los datos. Si los datos se ordenan por orden de magnitud se altera la
tendencia.

Para los procesos de Poisson existen pruebas de tendencia específicas, algunas de las
cuales se verán en el Capítulo 5.

2.4.1 Gráfica de Barras

Una forma muy sencilla de evaluar la tendencia de una variable aleatoria es hacer un
diagrama de barras (magnitudes) conservando el orden cronológico en que se tomaron
los datos. A continuación de ilustra este concepto.

Tendencia negativa

Sin tendencia

Tendencia positiva

Universidad Tecnológica de Pereira ©2015 19


Análisis Probabilístico y Simulación Capítulo 2 – Análisis de Datos
Carlos J. Zapata

2.4.2 Análisis del Valor Promedio y Desviación Muestral

Otra forma de prueba de tendencia es dividir el periodo que abarcan los datos en
subperiodos y en cada uno de ellos calcular el promedio y la desviación estándar.

Si los promedios y desviaciones son aproximadamente constantes, el fenómeno es


estacionario. Esto se ilustra a continuación.

Fenómeno estacionario

Fenómeno no estacionario

1 2 3 4 5 1 2 3 4 5

Para aplicar esta prueba se requiere un gran tiempo de observación y suficientes datos
para todos los subperiodos.

2.4.3 Prueba Mann - Kendall

Sean los datos de la muestra x1 , x2 , xn , los cuales están en el orden cronológico en que
se tomaron.

1. Defina la probabilidad crítica  o el nivel de confianza (   1   ) del análisis

2. Calcule S :
n 1 n
S   sign(v j  vi )
i 1 j  i 1

Para todo j  i , la función sign es igual a:

+1 if (v j  vi )  0
-1 if (v j  vi )  0
0 if (v j  vi )  0

Universidad Tecnológica de Pereira ©2015 20


Análisis Probabilístico y Simulación Capítulo 2 – Análisis de Datos
Carlos J. Zapata

Esto es, parados en cada dato se analiza en todos los siguientes si hay cambio de signo o
no.

3. Calcule k :
-1 if S  0
k es igual a: +1 if S  0
0 if S  0

4. Calcule la varianza de S :

VAR(S )  n(n 1)(2 n  5) /18

5. Calcule el estadístico de prueba Z S :

Z S  ( S  k ) / VAR( S )

6. Prueba de Hipótesis:

Hipótesis nula H 0 : Los datos son estacionarios


Hipótesis alterna H1 : Los datos no son estacionarios

7. Criterio de decisión: Se acepta la hipótesis nula si z /2  ZS   z /2

Ejemplo 2.6

Para la muestra de datos de voltajes de descarga de 16 baterías del Ejemplo 2.5, probar
con un 95% de confianza si los datos son estacionarios.

S  30 k 1 VAR( S )  22.2111 Z S  1.3057

Hipótesis nula H 0 : Los datos son estacionarios


Hipótesis alterna H1 : Los datos no son estacionarios

Criterio de decisión: Como ZS está entre -1.967 y +1.967 se acepta la hipótesis nula, es
decir, los datos son estacionarios.

Universidad Tecnológica de Pereira ©2015 21


Análisis Probabilístico y Simulación Capítulo 2 – Análisis de Datos
Carlos J. Zapata

Con un 95% de probabilidad puede afirmarse que los datos de la muestra son
estacionarios; existe un 5% de probabilidad de que esto no sea así.

2.4.4 Cuándo No se Requiere una Prueba de Tendencia?

Si los datos de la muestra se toman en un muy “corto” periodo de tiempo para que se
pueda visualizar el cambio en tendencia, entonces no es necesario hacer una prueba de
tendencia ya que su resultado no es relevante.

Por ejemplo, si quiero estudiar el valor que paga un estudiante de esta universidad y tomo
una muestra de 1000 datos en 5 días, este periodo de tiempo en que se toma la muestra
no es suficiente para visualizar cambios en este valor debido a los efectos de la inflación,
especulación etc.

Definir cuando el periodo de tiempo en que se toma la muestra es muy corto dependerá
del fenómeno aleatorio bajo estudio. No es lo mismo el periodo de tiempo para observar
el cambio en el valor que paga un estudiante por el almuerzo que la intensidad de los
temblores producidos por la erupción de un volcán.

Tampoco se requiere prueba de tendencia cuando en un momento dado se toman los


datos de unos individuos. Por ejemplo, se mira la cantidad de frutos en una muestra de
100 árboles.

Universidad Tecnológica de Pereira ©2015 22


Análisis Probabilístico y Simulación Capítulo 2 – Análisis de Datos
Carlos J. Zapata

2.5 Prueba de Independencia


Consiste establecer si las realizaciones del fenómeno bajo estudio son independientes
entre sí o no.

Para aplicar este tipo de prueba se debe conservar la secuencia cronológica en que se
produjeron los datos. Si los datos se ordenan por orden de magnitud se altera totalmente
la información contenida en los datos.

En este caso al estar estudiando los datos de la muestra de una sola variable, se está
estudiando la autocorrelación de los datos.

2.5.1 Diagrama de Dispersion (Scatter Diagram)

Si se tiene una muestra de n datos x 1 , x 2 , , x n no negativos y ordenados


cronológicamente, el diagrama de dispersión es una gráfica de las parejas ( x i , x i 1 ) para
i  1,2, ,(n  1) .

• Si los datos son independientes los puntos están dispersos en el primer cuadrante del
plano ( x i , x i 1 )

• Si los datos están correlacionados positivamente, los puntos tienen a formar una línea
con pendiente positiva en el primer cuadrante del plano ( x i , x i 1 )

• Si los datos están correlacionados negativamente, los puntos tienen a formar una línea
con pendiente negativa en el primer cuadrante del plano ( x i , x i 1 )

Diagrama de dispersión para una muestra


de datos independiente

Universidad Tecnológica de Pereira ©2015 23


Análisis Probabilístico y Simulación Capítulo 2 – Análisis de Datos
Carlos J. Zapata

Diagrama de dispersión para una muestra


de datos independiente pero los datos se
ordenaron por magnitud

Ejemplo 2.7

Para la muestra de datos de voltajes de descarga de 16 baterías del Ejemplo 2.5, probar si
los datos son independientes.

Las parejas de datos para construir el diagrama de dispersión son:

Datos Xi Xi+1
1.261 1.261 1.258
1.258 1.258 1.249
1.249 1.249 1.241
1.241 1.241 1.247
1.247 1.247 1.256
1.256 1.256 1.250
1.250  1.250 1.240
1.240 1.240 1.255
1.255 1.255 1.243
1.243 1.243 1.252
1.252 1.252 1.253
1.253 1.253 1.251
1.251 1.251 1.245
1.245 1.245 1.248
1.248 1.248 1.246
1.246

Universidad Tecnológica de Pereira ©2015 24


Análisis Probabilístico y Simulación Capítulo 2 – Análisis de Datos
Carlos J. Zapata

2.5.2 Diagrama de Autocorrelación

Sean los datos de la muestra x1 , x2 , xn , los cuales están en el orden cronológico en que
se tomaron.

1. Calcule el promedio estadístico x

2. Calcule la varianza muestral s 2

3. Para cada j  1, 2, , n  1 calcule la covarianza:

1 n j
Cj   (x  x)( xi j  x )
(n  j) i 1 i

2. Para cada j  1, 2, , n  1 calcule el coeficiente de correlación:

Cj
j 
s2

Los  j toman valores entre -1 y +1 y son cero en el caso de que no hay correlación

3. Hacer la gráfica de los j  1, 2, , n  1 (eje horizontal) versus los  j (eje vertical).

4. Conclusión: Si los  j tienen valores muy cercanos a cero, esto es evidencia de que los
datos son independientes.

Universidad Tecnológica de Pereira ©2015 25


Análisis Probabilístico y Simulación Capítulo 2 – Análisis de Datos
Carlos J. Zapata

2.6 Pruebas de Aleatoriedad, Tendencia e Independencia en


Variables Crecientes o Decrecientes
Algunas variables aleatorias tienen la característica natural de ser siempre crecientes o
decrecientes, es decir monotónicas.

Ejemplo de este tipo de variables son aquellas que expresan el tiempo acumulado desde
un origen, el producto interno bruto de un país en un periodo de varios años, el capital
de una persona en el tiempo, etc.

En este caso, si se realizan las pruebas de aleatoriedad, tendencia e independencia sobre


este tipo de variable, fallarán y mostraran que no hay aleatoriedad, que hay tendencia y
que los datos son dependientes entre sí. Pero este resultado es falso y se debe a la
naturaleza creciente o decreciente de la variable.

Así, para este tipo de variables, las pruebas de aleatoriedad, tendencia e independencia
deben realizarse sobre los incrementos entre los datos. El resultado que se obtenga será el
verdadero para la variable original.

Universidad Tecnológica de Pereira ©2015 26


Análisis Probabilístico y Simulación Capítulo 2 – Análisis de Datos
Carlos J. Zapata

2.7 Referencias
[1] Ospina D, “Introducción al muestreo”, Universidad Nacional de Colombia, 2001.

[2] Miller I, Freund J, Johnson R, “Probabilidad y Estadística para Ingenieros”, cuarta


edición, Prentice Hall, 1992.

[3] Law Averill M, Kelton W. David, “Simulation Modeling and Analysis”, Tercera
edición, Mc-Graw Hill, 2000.

[4] National Nonpoint Source Monitoring Program, “Statistical Analysis for Monotonic
Trends”, Tecnhnotes, No. 6, 2011.

[5] Khambhammettu Prasbhanth “Mann-Kendall Analysis for the Fort Ord Site”,
HydroGeoLogic Inc, 2005.

[6] Bendat J. S, Enochson L. D, Piersol A. G, “Tests for Randomness, Stationarity,


Normality and Comparison of Spectra”, AF Flight Dynamics Laboratory, 1965.

[7] Bendat J. S, Enochson L. D, Piersol A. G, “Detection of Ageing in the Reliability


Analysis of Thermal Generators”, IEEE Transactions on Power Systems, Vol. 3, No. 2,
1988.

Universidad Tecnológica de Pereira ©2015 27

También podría gustarte