Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Cartilla - SEMANA 5 MODELOS ESTADISTICSO 2 PDF
Cartilla - SEMANA 5 MODELOS ESTADISTICSO 2 PDF
GERENCIAL
Modelos estadísticos en Simulación 2
MODELOS ESTADÍSTICOS EN SIMULACIÓN 2
1. Índice
1. Distribuciones de Probabilidad Continuas
1.1. Distribución Exponencial
1.2. Distribución Uniforme Continua
1.3. Distribución Normal
1.4. Distribución Triangular.
2. Estimación Puntual
3. Estimación por Intervalos de Confianza
3.1. Intervalos de Confianza Para una sola Muestra: Estimación de la Media
3.2. Intervalos de Confianza Para dos Muestras: Estimación de la diferencia entre dos
Medias
4. Pruebas de Hipótesis
4.1. Pruebas Para una sola Media
4.2. Pruebas Para dos Medias
2. Introducción
El propósito del presente documento es presentar a los estudiantes los conceptos básicos de
estadística necesarios para desarrollar una simulación de Montecarlo. La estadística será una
herramienta esencial para el soporte de la construcción de modelo, tanto al inicio como al final
para realizar el análisis de resultados.
Por otra parte, teniendo en cuenta que el objetivo general del módulo es que los estudiantes
desarrollen las capacidades necesarias para llevar a cabo un estudio completo de simulación,
en esta unidad, se hará un repaso de las principales funciones de probabilidad continuas que
se emplean frecuentemente en la construcción de estos tipos de modelo.
Finalmente, se presentará al estudiante una serie de ejercicios relacionados para reforzar los
conocimientos adquiridos en el desarrollo del módulo.
3. Objetivo general
Al finalizar el módulo los estudiantes sabrán cuáles son los conceptos básicos de estadística
relacionados con la simulación de Montecarlo, así como las principales funciones de
probabilidad continuas aplicadas en la construcción de este tipo de modelos y la aplicación de
técnicas de estimación por intervalo y pruebas de hipótesis.
2 [ POLITÉCNICO GRANCOLOMBIANO]
Al finalizar la primera semana de aprendizaje el estudiante estará en capacidad de:
4. Desarrollo temático.
[ SIMULACIÓN GERENCIAL] 3
(𝜆𝑡)0 −𝜆𝑡
𝐹𝑥𝑔 (𝑡; 𝜆) = 𝑃(𝑋𝑔 ≤ 𝑡) = 1 − 𝑒
0!
𝐹𝑥𝑔 (𝑡; 𝜆) = 𝑃(𝑋𝑔 ≤ 𝑡) = 1 − 𝑒 −𝜆𝑡
Ejemplo:
Suponga que la vida útil de una lámpara industrial, en miles de horas, se distribuye
exponencialmente con tasa de falla λ=1/3 (una falla cada 3000 horas, en promedio).
4 [ POLITÉCNICO GRANCOLOMBIANO]
La probabilidad de que la lámpara dure más de esta vida útil está dada por:
1
𝑓(𝑋) = {𝑏 − 𝑎 , 𝑎≤𝑋≤𝑏
0, 𝑑. 𝑙. 𝑐.
0 𝑥<𝑎
𝑥−𝑎
F(X) = {𝑏−𝑎 𝑎≤𝑥<𝑏
1 𝑥≥𝑏
𝑎+𝑏
𝐸(𝑋) =
2
(𝑏 − 𝑎)2
𝑉𝑎𝑟 𝑋 =
12
[ SIMULACIÓN GERENCIAL] 5
La distribución uniforme juega un papel importante en simulación. Los números aleatorios,
distribuidos uniformemente entre 0 y 1, proveen los medios básicos para generar eventos
aleatorios. Estos números aleatorios se usan para generar muestras de variables aleatorias de
otras distribuciones de probabilidad.
6 [ POLITÉCNICO GRANCOLOMBIANO]
x
F ( x ) P X x P Z
( x ) / 1 z2 / 2 z 1 t 2 / 2
e dz donde ( z ) e dt
2
2
( x ) /
( z )dz ( x )
La función Φ(z) es la función de distribución de probabilidad de una VA normal con media cero
y varianza 1. A esta distribución se le conoce como la distribución normal estándar, y ha sido
tabulada en distintos formatos para una mejor comprensión y resolución de situaciones que
involucren VA normales.
Dentro de los recursos adicionales encontrará la tabla donde se resumen los valores que toma
la distribución normal estándar.
Ejemplo:
El tiempo requerido en horas para cargar un container se distribuye normalmente con media
= 12 y varianza = 4. La probabilidad de que el container se cargue en menos de 10 horas, estaría
dada por
10 12
F (10 ) (1) 0.1587
2
[ SIMULACIÓN GERENCIAL] 7
2( x a)
(b a)(c a ) a x c
2(b x)
f ( x) c xb
(b a)(b c)
0 dlc
El nombre de esta distribución viene dado por la forma de su función de densidad, cuyo
comportamiento gráfico está dado por:
( x a) 2
axc
(b a )(c a )
(b x) 2
F ( x) 1 c xb
(b a )(b c)
1 xb
abc
E ( x)
3
8 [ POLITÉCNICO GRANCOLOMBIANO]
a 2 b 2 c 2 ab ac bc
V ( x)
18
Un ejemplo del uso de esta distribución se encuentra en el análisis del riesgo, donde la
distribución más apropiada es la beta pero dada su complejidad, tanto en la su comprensión
como en la estimación de sus parámetros, se utiliza la distribución triangular como
aproximación.
2. ESTIMACIÓN PUNTUAL
N
1
̅ = ∑ Yi
Y
N
i=1
N
1
2
S = ̅|2 ,
∑|Yi − Y
N−1
i=1
[ SIMULACIÓN GERENCIAL] 9
Cabe anotar que estos estimadores son puntuales, lo que quiere decir que proveen un
estimado escalar de algún parámetro desconocido.
Es muy poco probable que, incluso el estimador Insesgado más eficiente estime con exactitud
el parámetro poblacional. A pesar que, dicha precisión aumenta con muestras grandes, no
existe ninguna razón por la cual deberíamos considerar que el estimador puntual de una
muestra aleatoria sea exactamente igual al parámetro poblacional que se está estimando. Por
lo tanto, sería más conveniente pensar que se debería estimar un Intervalo, es decir, un límite
inferior y un límite superior en el cual, se esperaría encontrar el valor del parámetro. Este
intervalo se le conoce como estimación por intervalo.
𝑃(φ
̂𝑖𝑛𝑓 < φ < φ
̂)
sup = 1−∝
Donde ∝ es algún valor entre 0 y 1. Esto, en palabras significa que tenemos una probabilidad
1-∝ de seleccionar una Variable (Aleatoria) que contenga el parámetroφ. Por lo tanto, el
intervalo de la forma φ ̂𝑖𝑛𝑓 < φ < φ̂ 𝑠𝑢𝑝 calculado a partir de la muestra aleatoria se le
denomina Intervalo de Confianza, el Porcentaje 1−∝ se le denomina Nivel de Confianza y los
valores φ
̂𝑖𝑛𝑓 y φ
̂𝑠𝑢𝑝 se denominan límites Inferior y Superior del Intervalo, respectivamente.
Cuando se realiza la estimación por intervalo para la media, debemos recordar que, de acuerdo
al Teorema del Limite Central, la distribución muestral de 𝑋̅ será aproximadamente:
𝜎2
𝑋̅~𝑁 (𝜇; )
𝑛
Siempre y cuando el tamaño de la muestra sea grande. Por lo tanto, la forma límite de la
distribución de :
10 [ POLITÉCNICO GRANCOLOMBIANO]
X
Z
n
P X Z / 2 X Z / 2 1
n n
LI X Z / 2
n
LS X Z / 2
n
[ SIMULACIÓN GERENCIAL] 11
X
T
S n
S S
P X t v / 2 X t v , / 2 1
n n
S
LI X t / 2
n
S
LS X t / 2
n
Donde
t es el valor t que tiene un área α a la derecha.
12 [ POLITÉCNICO GRANCOLOMBIANO]
3.2. Intervalos de Confianza Para dos Muestras: Estimación de la diferencia entre dos
Medias
Muchas veces, en el análisis de los modelos de simulación de Montecarlo nos interesará
realizar un análisis sobre dos poblaciones, con medias 𝜇1 y 𝜇2 y varianzas 𝜎1 y 𝜎2
respectivamente. Un estimador puntual de la diferencia 𝜇1 − 𝜇2 está dado por el estadístico
𝑋̅1 − 𝑋̅2 . Teniendo en cuenta esto, para realizar una estimación puntual sobre la diferencia de
dos medias (𝜇1 − 𝜇2 ), se deberá seleccionar 2 muestras aleatorias independientes, de tamaño
n1 y n2 respectivamente. Al calcular la diferencia de los promedios 𝑋̅1 − 𝑋̅2 , debemos
considerar la distribución muestral de dicho estadístico.
21 2 2 21 2 2
P X 1 X 2 Z / 2
1 2 X 1 X 2 Z / 2 1
n1 n2 n1 n2
Por el contrario, si 𝑋̅1 𝑦 𝑋̅2 son las medias de dos muestras aleatorias independientes de
tamaño n1 y n2 respectivamente, de poblaciones aproximadamente normales con varianzas
desconocidas (𝜎1 y 𝜎2 ) pero iguales, el intervalo de confianza de 1−∝ para la diferencia 𝜇1 −
𝜇2 es:
1
P X 1 X 2 t / 2 S p 1 2 X 1 X 2 t / 2 S p
1 1 1
n
n n
n 1
1 2 1 2
Se debe tener en cuenta que S 21 y S 2 2 son las varianzas muestrales de las muestras n1 y n2
respectivamente.
[ SIMULACIÓN GERENCIAL] 13
4. PRUEBAS DE HIPÓTESIS
Las pruebas de hipótesis constituyen uno de los elementos más importantes de la Simulación
de Montecarlo y en la estadística inferencial, ya que representan la formalización de los
intervalos de confianza y su principal objetivo es generar un procedimiento de decisión basado
en un postulado o conjeturas y muestras aleatorias que permitan concluir sobre algún sistema
bajo estudio con un nivel de confianza 1 − 𝛼.
Para entender la estructura de las pruebas de hipótesis, se deben definir ciertos conceptos:
- Hipótesis Estadística: Una hipótesis estadística (HE) es una afirmación acerca del valor de
los parámetros de la distribución de una población si dicha distribución se conoce o sobre
el tipo de distribución si ésta es desconocida. Si la hipótesis caracteriza completamente la
distribución, se le llama hipótesis simple, de lo contrario decimos que es una hipótesis
compuesta.
- Prueba estadística (de H0 contra H1): Una prueba para confrontar una hipótesis estadística
H0 contra una hipótesis estadística H1 (dichas hipótesis deben ser excluyentes) es una regla
que permite tomar la decisión de aceptar o rechazar la hipótesis H0 (y consecuentemente
rechazar o aceptar H1), según los valores obtenidos en la muestra aleatoria y de acuerdo
con cierto porcentaje admisible de error.
Se debe tener en cuenta que, al momento de plantear las hipótesis estadísticas, dichas
pruebas pueden ser a 1 o 2 colas. En otras palabras, la región de aceptación y de rechazo
de las pruebas puede ser una o dos, dependiendo del planteamiento de la Hipótesis
alterna.
𝐻𝑜: 𝜃 = 𝜃𝑜
}
𝐻𝑎: 𝜃 ≠ 𝜃𝑜
𝐻𝑜: 𝜃 = 𝜃𝑜
}
𝐻𝑎: 𝜃 > 𝜃𝑜
14 [ POLITÉCNICO GRANCOLOMBIANO]
3. Pruebas de cola inferior (1 Cola) basadas en un estimador apropiado del parámetro.
𝐻𝑜: 𝜃 = 𝜃𝑜
}
𝐻𝑎: 𝜃 < 𝜃𝑜
Nota: Se debe tener en cuenta que, según la presentación de las alternativas anteriores, las
Hipótesis Nulas (Ho) en cualquier caso siempre se presentan en Igualdad.
- Región crítica (C): La región crítica (C) asociada a la prueba de una hipótesis estadística es
el conjunto de todos los posibles resultados de la muestra aleatoria para los cuales la
hipótesis nula es rechazada, de acuerdo con la prueba aplicada.
Al igual que en los intervalos de confianza, el objetivo de la prueba de hipótesis para una sola
media busca contrastar si el parámetro poblacional (𝜇) es igual a un valor específico de una
muestra aleatoria, denotado anteriormente como 𝜃𝑜, con un nivel de confianza 1-∝.
Teniendo en cuenta que los estadísticos utilizados en los intervalos de confianza para una
media se distribuían Normal o t de Student, bajo la afirmación del conocimiento de la varianza
poblacional (𝜎 2 ), los estadísticos de prueba de las pruebas de hipótesis tendrán el mismo
comportamiento.
[ SIMULACIÓN GERENCIAL] 15
X 0
Zp n
Bajo la Hipótesis nula (Ho), dicho estadístico se distribuye Normal Estándar – N(0,1). El rechazo
de Ho a un nivel de significancia 𝛼 resulta cuando el estadístico de prueba Zp excede a 𝑍𝛼/2 o
es menor a −𝑍𝛼/2 siempre y cuando la prueba sea de dos colas. Si la prueba es de una cola se
rechazará Ho a un nivel de significancia 𝛼 cuando el estadístico de prueba Zp excede a 𝑍𝛼 o es
menor a −𝑍𝛼 , siempre y cuando la prueba sea de cola superior o inferior, respectivamente.
X 0
tp n
S
Bajo la Hipótesis nula (Ho), dicho estadístico se distribuye t de Student con n-1 grados de
libertad – t(n-1). Nuevamente, el rechazo de Ho a un nivel de significancia 𝛼 resulta cuando el
estadístico de prueba tp excede a 𝑡𝛼/2,𝑛−1 o es menor a −𝑡𝛼/2,𝑛−1 siempre y cuando la prueba
sea de dos colas. Si la prueba es de una cola se rechazará Ho a un nivel de significancia 𝛼 cuando
el estadístico de prueba tp excede a 𝑡𝛼,𝑛−1 o es menor a −𝑡𝛼,𝑛−1 , siempre y cuando la prueba
sea de cola superior o inferior, respectivamente.
Ejemplo: En cierto estudio sobre la duración de las llamadas en un centro de quejas y reclamos,
se recolectó una muestra aleatoria de 100 llamadas. Dicha muestra aleatoria mostró que, la
duración promedio de una llamada es de 71,8 minutos con una desviación estándar poblacional
de 8.9 minutos. ¿Dicha información indicará que el tiempo promedio de duración de las
llamadas es superior a 70 minutos? ¿Indicará que el tiempo promedio de duración de las
llamadas es diferente a 70 minutos? Valide dichas afirmaciones con un nivel de confianza del
95% (1 − 𝛼)
16 [ POLITÉCNICO GRANCOLOMBIANO]
1. Establezca las hipótesis Nula y Alterna.
Teniendo en cuenta que la afirmación que se quiere validar es que la duración promedio de las
llamadas sea mayor a 70 minutos, las hipótesis para esta prueba son:
𝐻𝑜: 𝜃 = 70
𝐻𝑎: 𝜃 > 70
Nota: La hipótesis nula siempre debe ir en igualad. La hipótesis alterna se plantea de acuerdo
con la afirmación a verificar, que en este caso, hace referencia a que la duración promedio de
las llamadas es mayor a 70 minutos.
Para este problema, se quiere validar la hipótesis con un nivel de confianza del 95%. Por lo
tanto, el nivel de significancia es 𝛼 = 5% o 𝛼 = 0,05
X 0 71 .8 70
Zp n Zp 100 Z p 2.02
8.9
Teniendo en cuenta que la Hipótesis alterna es de orientación mayor (>), se puede establecer
que la prueba es a una cola, en este caso, a una cola superior. Por lo tanto, se debe encontrar
el valor crítico de la distribución. En este caso, como el estadístico de prueba se distribuye
normal estándar, se debe encontrar el valor en la distribución normal que acumula en la cola
superior el nivel de significancia del 5%. Gráficamente, este análisis será:
[ SIMULACIÓN GERENCIAL] 17
Por lo tanto, buscando en la tabla de la distribución Normal Estándar, el valor de la distribución
que acumula el 95% de probabilidad es 1.645. En Excel, este valor se calcula por medio de la
siguiente función:
Teniendo en cuenta el resultado del valor crítico del numeral anterior, podemos establecer
que la región de rechazo de Ho será cualquier valor mayor a 1.645. Por lo tanto, teniendo en
cuenta que el valor del estadístico de prueba es 2.02, podemos ver que el estadístico se
encuentra en la zona de rechazo de Ho.
Teniendo en cuenta el resultado anterior, se establece que, con un nivel de confianza del 95%,
se rechaza la hipótesis nula. Esto quiere decir que, la duración de las llamadas es superior a 70
minutos.
18 [ POLITÉCNICO GRANCOLOMBIANO]
1. Establezca las hipótesis Nula y Alterna.
Teniendo en cuenta que la afirmación que se quiere validar es que la duración promedio de las
llamadas es diferente a 70 minutos, las hipótesis para esta prueba son:
𝐻𝑜: 𝜃 = 70
𝐻𝑎: 𝜃 ≠ 70
Nota: La hipótesis nula siempre debe ir en igualad. La hipótesis alterna se plantea de acuerdo
con la afirmación a verificar, que en este caso, hace referencia a que la duración promedio de
las llamadas es diferente a 70 minutos.
Para este problema, se quiere validar la hipótesis con un nivel de confianza del 95%. Por lo
tanto, el nivel de significancia es 𝛼 = 5% o 𝛼 = 0,05
X 0 71 .8 70
Zp n Zp 100 Z p 2.02
8.9
Teniendo en cuenta que la Hipótesis alterna es de orientación mayor (≠), se puede establecer
que la prueba es a dos colas. Por lo tanto, en este caso se deben encontrar los valores críticos
de la distribución. En este caso, como el estadístico de prueba se distribuye normal estándar,
se debe encontrar el valor en la distribución normal que acumula en la cola superior el nivel de
significancia del 2.5%, ya que el nivel de significancia se reparte equitativamente entre las dos
colas. Gráficamente, este análisis será:
[ SIMULACIÓN GERENCIAL] 19
Por lo tanto, buscando en la tabla de la distribución Normal Estándar, el valor de la distribución
que acumula el 97.5% de probabilidad es 1.959 y el valor de la distribución que acumula el 2.5%
de probabilidad es -1.959. En Excel, estos valores se calculan por medio de la siguiente función:
Teniendo en cuenta el resultado del valor crítico del numeral anterior, podemos establecer
que la región de rechazo de Ho será cualquier valor mayor a 1.959 y cualquier valor menor a -
1.959. Por lo tanto, teniendo en cuenta que el valor del estadístico de prueba es 2.02, podemos
ver que el estadístico se encuentra en la zona de rechazo de Ho.
Teniendo en cuenta el resultado anterior, se establece que, con un nivel de confianza del 95%,
se rechaza la hipótesis nula. Esto quiere decir que, la duración de las llamadas es diferente a
70 minutos.
Al igual que en los intervalos de confianza, el objetivo de la prueba de hipótesis para dos
medias busca contrastar si la diferencia de los parámetros poblacionales (𝜇1 − 𝜇2 ) es igual a
un valor específico de una muestra aleatoria, denotado como 𝑑𝑜, con un nivel de confianza 1-
∝.
20 [ POLITÉCNICO GRANCOLOMBIANO]
Teniendo en cuenta que los estadísticos utilizados en los intervalos de confianza para la
diferencia de medias se distribuían Normal o t de Student, bajo la afirmación del conocimiento
de las varianzas poblacionales ( 𝜎 21 y 𝜎 2 2 ), los estadísticos de prueba de las pruebas de
hipótesis tendrán el mismo comportamiento.
Por lo tanto, si las varianzas poblacionales son conocidas (𝜎 21 y 𝜎 2 2 ) y teniendo en cuenta que
el modelo se centra en un experimento con X1, X2,…., Xn de dos muestras aleatorias de una
distribución con media 𝜇 y varianza 𝜎 2 el estadístico de prueba para la hipótesis de contraste
de una diferencia de medias (𝐻0 : 𝜇1 − 𝜇2 = 𝑑0 ), será:
X1 X 2 d0
Zp
21 22
n1 n2
Bajo la Hipótesis nula (Ho), dicho estadístico se distribuye Normal Estándar – N(0,1). El rechazo
de Ho a un nivel de significancia 𝛼 resulta cuando el estadístico de prueba Zp excede a 𝑍𝛼/2 o
es menor a −𝑍𝛼/2 siempre y cuando la prueba sea de dos colas. Si la prueba es de una cola se
rechazará Ho a un nivel de significancia 𝛼 cuando el estadístico de prueba Zp excede a 𝑍𝛼 o es
menor a −𝑍𝛼 , siempre y cuando la prueba sea de cola superior o inferior, respectivamente.
X1 X 2 d0
tp
1 1
Sp
n1 n2
S 21 n1 1 S 2 2 n2 1
Sp
n1 n2 2
Bajo la Hipótesis nula (Ho), dicho estadístico se distribuye t de Student con n1+n2-2 grados de
libertad – t(n1+n2-2). Nuevamente, el rechazo de Ho a un nivel de significancia 𝛼 resulta cuando
el estadístico de prueba tp excede a 𝑡𝛼/2,n1+n2−2 o es menor a −𝑡𝛼/2,n1+n2−2 siempre y cuando
la prueba sea de dos colas. Si la prueba es de una cola se rechazará Ho a un nivel de significancia
𝛼 cuando el estadístico de prueba tp excede a 𝑡𝛼,n1+n2−2 o es menor a −𝑡𝛼,n1+n2−2 , siempre y
cuando la prueba sea de cola superior o inferior, respectivamente.
[ SIMULACIÓN GERENCIAL] 21