Documentos de Académico
Documentos de Profesional
Documentos de Cultura
GERENCIAL
Análisis de datos de entrada
1. Índice
1. Introducción
2. Identificación
gráfica
de
distribuciones
de
probabilidad
adecuadas
2.1. Histogramas
2.2. Q-‐Q
Plot
2.3. P-‐P
Plot
3. Pruebas
de
bondad
de
ajuste
3.1. Prueba
Chi
Cuadrado
3.2. Prueba
Kolmogorov-‐Smirnov
P-‐Value.
2. Introducción
El
propósito
del
presente
documento
es
presentar
a
los
estudiantes
las
herramientas
gráficas
y
analíticas
para
llevar
a
cabo
un
correcto
análisis
de
los
datos
de
entrada,
teniendo
muy
presente
que
son
estos
los
que
alimentarán
el
modelo
de
simulación
que
se
esté
construyendo
y
que,
por
lo
tanto,
tendrán
una
alta
influencia
en
los
resultados
que
se
reporten
después
de
haber
corrido
la
simulación.
También
se
les
presentará
una
serie
de
ejercicios
relacionados
con
el
tema
para
reforzar
los
conocimientos
adquiridos
durante
el
desarrollo
del
módulo.
3. Objetivo
general
Al
finalizar
el
módulo
los
estudiantes
sabrán
cuáles
son
las
herramientas
gráficas
fundamentales
para
llevar
a
cabo
un
análisis
de
datos
de
entrada,
así
como
también
reconocerá
y
sabrá
emplear
de
forma
adecuada
las
pruebas
analíticas
para
realizar
dicho
análisis
y,
de
esta
manera,
alimentar
el
modelo
de
simulación
que
se
esté
construyendo.
Al
finalizar
la
séptima
semana
de
aprendizaje:
1. El
estudiante
entenderá
la
importancia
de
realizar
un
análisis
de
datos
de
entrada.
2. El
estudiante
conocerá
las
distintas
metodologías
para
ejecutar
un
correcto
análisis
de
la
información
de
entrada.
El
estudiante
podrá
realizar
un
análisis
de
entrada
empleando
herramientas
computacionales
adecuadas.
2
[ POLITÉCNICO GRANCOLOMBIANO]
4. Desarrollo
temático
4.1 Recomendaciones
académicas.
Se
recomienda
al
estudiante
realizar
la
lectura
de
la
cartilla,
en
la
cual
se
encuentra
toda
la
información
relevante
que
se
evaluará
en
la
semana,
adicionalmente
se
le
recomienda
revisar
las
teleconferencias
así
como
las
video
diapositivas,
pues
estas
son
un
medio
que
puede
aclarar
las
dudas
generadas
con
la
lectura
o
también
dar
soporte
a
los
temas
expuestos
en
la
misma.
Finalmente,
se
recomienda
al
estudiante
realizar
los
ejercicios
planteados
y
sugeridos
por
el
tutor
ya
que
estos
a
pesar
de
no
tener
un
valor
porcentual
en
la
nota
sí
harán
que
su
formación
sea
completa
y
pueda
ser
reforzada
de
forma
práctica.
4.2
Desarrollo
de
cada
una
de
las
unidades
temáticas.
1.Introducción
El
término
“GIGO”
o
“garbage-‐in-‐garbage-‐out”
(si
entra
basura,
sale
basura)
es
un
concepto
básico
en
ciencias
de
la
computación
y
se
aplica
sin
problema
en
el
área
de
simulación
de
Montecarlo.
Aun
cuando
la
estructura
del
modelo
sea
válida
y
robusta,
si
los
datos
de
entrada
han
sido
recolectados
de
manera
inapropiada,
o
analizados
de
manera
imprecisa,
o
simplemente
no
son
representativos,
los
datos
de
salida
o
resultados
del
modelo
serán
inservibles
para
tomar
buenas
decisiones,
derivándose
en
pérdidas
costosas
para
la
organización.
Para
llevar
a
cabo
un
correcto
análisis
de
datos
de
entrada
y
recolectar
datos
que
no
sean
“basura”,
se
recomienda
lo
siguiente:
[ SIMULACIÓN GERENCIAL ] 3
2.1. Histogramas
4
[ POLITÉCNICO GRANCOLOMBIANO]
2.2. Q-‐Q
Plot
(Diagramas
Cuantil
–
Cuantil)
Al
igual
que
los
histogramas,
los
gráficos
Cuantil
–
Cuantil
o
Q-‐Q
plot,
dan
una
idea
también
gráfica
del
posible
comportamiento
que
pueden
seguir
los
datos
de
entrada
que
se
estén
analizando.
La
diferencia
principal
entre
un
histograma
y
un
Q-‐Q
plot
es
que
los
segundos
no
muestran
propiamente
el
comportamiento
de
la
distribución
si
no
que
muestra
la
relación
de
los
cuantiles
de
la
distribución
que
se
sospecha
siguen
los
datos
con
la
distribución
real
que
siguen
los
datos
y
a
partir
de
dicha
relación
es
posible
realizar
conclusiones.
Estrictamente
hablando,
un
cuantil
se
define
como:
Sea
X
es
una
variable
aleatoria
(VA)
con
función
acumulada
de
probabilidad
Fx(x),
entonces
el
q-‐cuantil
de
X
es
aquel
valor
!
tal
que
! ! = ! ! ≤ ! = !.
Luego,
! = ! !! (!).
Ahora
bien,
partiendo
de
este
concepto
se
presenta
a
continuación
el
algoritmo
(metodología)
a
desarrollar
para
obtener
los
cuantiles
y,
por
lo
tanto,
la
gráfica
que
propone
la
herramienta
debe
realizarse:
[ SIMULACIÓN GERENCIAL ] 5
! − 0.5
!! ≅ ! !!
!
!!!.!
4. Graficar
yj
v.s.
! !! !
Supóngase
que
se
ha
escogido
una
distribución
con
función
F
como
una
posible
representación
de
la
distribución
de
X.
Si
F
es
un
miembro
de
una
familia
apropiada
de
distribuciones,
entonces
la
gráfica
de
yj
versus
F-‐1
será
aproximadamente
una
línea
recta.
Ejemplo
Se
tienen
los
siguientes
diez
datos,
y
se
sospecha
que
siguen
una
distribución
normal
con
media
=
100
y
desviación
estándar
=
13
105
91
103
83
71
120
100
135
123
9
0
Con
base
en
la
metodología
anterior,
el
primer
paso
consiste
en
ordenarlos
de
menor
a
mayor,
así:
j
Yj
1
71
2
83
3
90
4
91
5
100
6
103
7
105
8
120
9
123
10
135
El
segundo
paso
es
asignarle
una
probabilidad
de
acuerdo
con
la
expresión
(j-‐0.5)/n:
j
Yj
Probabilidad
1
71
0,05
2
83
0,15
3
90
0,25
4
91
0,35
6
[ POLITÉCNICO GRANCOLOMBIANO]
5
100
0,45
6
103
0,55
7
105
0,65
8
120
0,75
9
123
0,85
10
135
0,95
El
tercer
paso
es
calcular
la
función
inversa
para
cada
una
de
las
probabilidades
asignadas
en
el
paso
anterior.
Como
en
este
caso
se
sospecha
que
los
datos
siguen
una
distribución
normal
con
media
=
100
y
desviación
estándar
=
13,
debe
calcularse
la
inversa
de
una
distribución
normal.
Probabilid Función
j
Yj
ad
inversa
1
71
0,05
78,616903
2
83
0,15
86,526366
3
90
0,25
91,231633
4
91
0,35
94,990834
5
100
0,45
98,366402
6
103
0,55
101,633598
7
105
0,65
105,009166
8
120
0,75
108,768367
9
123
0,85
113,473634
10
135
0,95
121,383097
Nota:
si
por
ejemplo
se
hubiese
dicho
que
se
sospechaba
que
los
datos
seguían
una
distribución
exponencial,
los
pasos
1
y
2
se
debían
haber
realizado
de
la
misma
forma,
pero
en
el
paso
tres
debería
haberse
calculado
la
inversa
de
una
distribución
exponencial
y
no
de
la
normal,
es
decir,
la
función
inversa
se
calcula
con
base
en
la
distribución
de
probabilidad
que
se
sospecha
siguen
los
datos.
[ SIMULACIÓN GERENCIAL ] 7
140
120
100
80
60
40
20
0
0 20 40 60 80 100 120 140 160
La
columna
denominada
Probabilidad,
corresponde
al
cálculo
del
cuantil
respectivo.
Por
!!!/!
ejemplo,
para
j
=
1,
reemplazando
en
la
expresión
! ,
da
como
resultado
0,05,
para
n
=
10.
La
columna
de
Función
Inversa,
se
puede
calcular
utilizando
Excel,
mediante
la
función
DISTR.NORM.INV,
con
parámetros:
media
=
100;
desviación
estándar
=
13;
probabilidad
=
la
recién
calculada
para
cada
uno
de
los
datos.
Cabe
anotar
que
la
decisión
de
aceptar
o
rechazar
la
hipótesis
es
subjetiva,
por
cuanto
la
apreciación
de
la
gráfica
y
el
ajuste
de
los
puntos
a
una
línea
recta
parten
de
simple
observación.
Al
igual
que
con
el
diagrama
Q-‐Q,
el
diagrama
P-‐P
permite
evaluar
un
conjunto
de
datos
mediante
la
comparación
de
una
distribución
teórica
de
probabilidad.
Su
principal
diferencia
con
respecto
al
diagrama
anteriormente
descrito,
radica
en
que
los
valores
a
contrastar
corresponden
al
cuantil
calculado
versus
la
función
de
distribución
acumulada.
Si
los
datos
corresponden
a
la
distribución
teórica
que
se
está
probando,
la
nube
de
puntos
debe
aproximarse
a
una
línea
recta.
Ahora
bien,
partiendo
de
lo
anterior
se
presenta
a
continuación
el
algoritmo
(metodología)
a
desarrollar
para
obtener
los
percentiles
y,
por
lo
tanto,
la
gráfica
que
propone
la
herramienta
debe
realizarse:
8
[ POLITÉCNICO GRANCOLOMBIANO]
2. Asignar
una
probabilidad
de
ocurrencia
a
cada
uno
de
los
datos
recolectados,
dicha
probabilidad
es
asignada
de
acuerdo
con
la
expresión
(j-‐0.5)/n.
3. Calcular
la
probabilidad
“real”
de
que
se
de
cada
uno
de
los
valores
de
los
datos
que
se
recolectaron.
En
otras
palabras:
!! !!
!!!.!
4. Graficar
!
v.s.
!! !!
Ejemplo:
Se
tienen
los
siguientes
diez
datos,
y
se
sospecha
que
siguen
una
distribución
normal
con
media
=
100
y
desviación
estándar
=
13
105
91
103
83
71
120
100
135
123
90
Con
base
en
la
metodología
anterior,
el
primer
paso
consiste
en
ordenarlos
de
menor
a
mayor,
así:
J
Yj
1
71
2
83
3
90
4
91
5
100
6
103
7
105
8
120
9
123
10
135
El
segundo
paso
es
asignarle
una
probabilidad
de
acuerdo
con
la
expresión
(j-‐0.5)/n:
j
Yj
Probabilidad
1
71
0,05
2
83
0,15
3
90
0,25
4
91
0,35
5
100
0,45
[ SIMULACIÓN GERENCIAL ] 9
6
103
0,55
7
105
0,65
8
120
0,75
9
123
0,85
10
135
0,95
El
tercer
paso
es
calcular
la
probabilidad
real
para
cada
uno
de
los
valores
de
los
datos
ordenados
en
el
paso
1.
Como
en
este
caso
se
sospecha
que
los
datos
siguen
una
distribución
normal
con
media
=
100
y
desviación
estándar
=
13,
debe
calcularse
la
probabilidad
de
los
yj
con
esta
distribución.
j
Yj
Probabilidad
Acumulada
1
71
0,05
0,01284821
2
83
0,15
0,09548885
3
90
0,25
0,22087816
4
91
0,35
0,24437206
5
100
0,45
0,5
6
103
0,55
0,59125296
7
105
0,65
0,6497388
8
120
0,75
0,9380321
9
123
0,85
0,96157231
10
135
0,95
0,99645203
Nota:
si
por
ejemplo
se
hubiese
dicho
que
se
sospechaba
que
los
datos
seguían
una
distribución
exponencial,
los
pasos
1
y
2
se
debían
haber
realizado
de
la
misma
forma,
pero
en
el
paso
tres
debería
haberse
calculado
la
probabilidad
con
una
distribución
exponencial
y
no
de
la
normal,
es
decir,
la
probabilidad
se
calcula
con
base
en
la
distribución
de
probabilidad
que
se
sospecha
siguen
los
datos.
10
[ POLITÉCNICO GRANCOLOMBIANO]
1,2
0,8
0,6
0,4
0,2
0
0 0,2 0,4 0,6 0,8 1
Las
pruebas
de
bondad
de
ajuste
son
pruebas
de
hipótesis
que
permiten
evaluar
la
idoneidad
de
un
conjunto
de
datos,
dada
una
distribución
teórica
de
probabilidad
donde
se
podrían
ajustar.
Como
toda
prueba
de
hipótesis,
este
tipo
de
pruebas
comienza
con
el
enunciado
de
la
hipótesis
nula
y
alternativa.
La
hipótesis
nula
afirma
que
la
variable
aleatoria
que
describe
el
conjunto
de
datos,
se
distribuye
según
la
función
de
probabilidad
propuesta,
mientras
que
la
hipótesis
alternativa
contradice
tal
afirmación.
Nota:
Las
pruebas
de
hipótesis
corresponden
a
procesos
de
toma
de
decisión
estadísticos.
El
modelador
formula
dos
hipótesis
complementarias,
llamadas
la
hipótesis
nula
(denotada
por
H0)
y
la
hipótesis
alternativa
(denotada
por
H1).
Generalmente,
una
decisión
se
asocia
con
la
hipótesis
nula,
la
cual
puede
ser
aceptada
o
rechazada.
Consecuentemente,
se
pueden
generar
dos
tipos
de
error:
El
objetivo
de
las
pruebas
de
hipótesis
es
rechazar
(o
aceptar
H0)
de
tal
manera
que
si
H0
es
en
realidad
verdadera,
entonces
la
probabilidad
de
rechazarla
erróneamente
(error
tipo
I),
no
exceda
un
valor
de
probabilidad
previamente
definido,
α,
el
cual
es
llamado
nivel
de
confianza
o
nivel
de
significancia.
Mientras
más
pequeño
es
α,
más
alta
es
la
confianza
en
la
decisión
de
rechazo
correspondiente.
[ SIMULACIÓN GERENCIAL ] 11
Para
realizar
esta
prueba
se
disponen
los
datos
en
una
tabla
de
frecuencias.
Para
cada
valor
o
intervalo
de
valores
se
indica
la
frecuencia
absoluta
observada
(Oi).
A
continuación,
y
suponiendo
que
la
hipótesis
nula
es
cierta,
se
calculan
para
cada
valor
o
intervalo
de
valores
la
frecuencia
esperada
(Ei=n·∙pi,
donde
n
es
el
tamaño
de
la
muestra
y
pi
la
probabilidad
del
i-‐
ésimo
valor
o
intervalo
de
valores
según
la
hipótesis
nula).
Para
emplear
esta
metodología
que
es
analíticamente
más
confiable
que
los
histogramas
o
gráficos
P-‐P
y
Q-‐Q
es
necesario
calcular
un
estadístico
de
prueba,
dicho
estadístico
se
calcula
con
base
en
la
frecuencia
observada
y
frecuencia
esperada,
así:
!
!! − !! !
!=
!!
!!!
Este
estadístico
tiene
una
distribución
Chi-‐cuadrado
con
k-‐1
grados
de
libertad
si
n
es
suficientemente
grande,
es
decir,
si
todas
las
frecuencias
esperadas
son
mayores
que
5.
Si
existe
concordancia
perfecta
entre
las
frecuencias
observadas
y
las
esperadas,
el
estadístico
tomará
un
valor
igual
a
0;
por
el
contrario,
si
existe
una
gran
discrepancia
entre
estas
frecuencias
el
estadístico
tomará
un
valor
grande
y,
en
consecuencia,
se
rechazará
la
hipótesis
nula.
Así
pues,
la
región
crítica
estará
situada
en
el
extremo
superior
de
la
distribución
Chi-‐cuadrado
con
k-‐1
grados
de
libertad.
Ejemplo:
La
distribución
de
los
ingresos
anuales
en
dólares
de
una
muestra
de
100
familias
que
habitan
en
cierta
población
presentó
los
siguientes
resultados:
Ingresos
anuales
en
miles
de
Frecuencia
Observada
dólares
(Oi)
40
≤
x
≤
60
12
60
<
x
≤
80
8
80
<x
≤
100
25
100
<x
≤
120
30
120
<x
≤
140
25
Puede
admitirse
que
los
ingresos
de
las
familias
que
habitan
en
dicha
población
sigue
una
distribución
uniforme
en
el
intervalo
[40.000
–
140.000]
con
un
nivel
de
significancia
del
5%
Dado
que
ya
se
tienen
las
frecuencias
observadas,
el
siguiente
paso
es
calcular
la
frecuencia
esperada
Ei,
recordando
que
esta
siempre
será
igual
a
pi·∙n,
donde
n
es
el
número
total
de
12
[ POLITÉCNICO GRANCOLOMBIANO]
[ SIMULACIÓN GERENCIAL ] 13
Teniendo
los
valores
de
la
frecuencia
observada
y
de
la
frecuencia
esperada
es
posible
realizar
el
cálculo
del
estadístico
recordando
que
este
es
igual
a:
!
!! − !! !
!=
!!
!!!
Se
obtienen
entonces
los
siguientes
resultados:
Ingresos
anuales
Frecuencia
Probabilida Frecuencia
(Oi-‐Ei)2/Ei
en
miles
de
Observada
d
Esperada
(Ei)
dólares
(Oi)
40
≤
x
≤
60
12
0,2
20
3.2
60
<
x
≤
80
8
0,2
20
7.2
80
<x
≤
100
25
0,2
20
1.25
100
<x
≤
120
30
0,2
20
5
120
<x
≤
140
25
0,2
20
1.25
Y
=
17.9
Una
vez
obtenido
el
estadístico
este
deberá
compararse
con
el
valor
Chi2
de
la
tabla
Chi2,
para
calcular
este
valor
recuerde
que
deben
tenerse
presente
el
nivel
de
significancia
con
que
se
realizó
la
prueba
y
los
grados
de
libertad.
Para
este
ejemplo,
específicamente,
se
sugirió
que
alfa
fuera
igual
a
0.05
y
los
grados
de
libertad
siempre
serán
iguales
al
número
de
clases
menos
1,
es
decir,
que
para
el
ejercicio
los
grados
de
libertad
serían
df
=
5-‐1
=
4.
Observando
la
tabla
de
la
Chi2
obtenemos
entonces
que
el
resultado
es:
Para
concluir,
si
se
rechaza
o
no
la
hipótesis
de
que
la
distribución
de
los
ingresos
anuales
de
dichas
familias
sigue
una
distribución
entre
[40.000
–
140.000]
se
deben
comparar
los
valores
del
estadístico
calculado
Y
y
los
de
la
tabla
Chi2,
así:
14
[ POLITÉCNICO GRANCOLOMBIANO]
Para
este
ejemplo
en
particular
dado
que
Y
=
17.9
no
es
menor
a
9.48,
entonces
se
debe
rechazar
la
hipótesis
nula
y,
por
lo
tanto,
se
concluye
que
el
ingreso
anual
de
las
familias
no
sigue
una
distribución
uniforme
ente
[40.000
–
140.000].
[ SIMULACIÓN GERENCIAL ] 15
De
manera
similar
a
la
elaboración
de
los
diagramas
Q-‐Q
y
P-‐P,
resulta
bastante
útil
la
elaboración
de
una
tabla
para
completar
la
prueba.
D+
=
0,07
D-‐
=
0,33
Entonces,
el
estadístico
de
la
prueba
corresponde
a
0,33.
Se
procede
ahora
a
consultar
la
tabla
de
valores
críticos
de
la
prueba
Kolmogorov-‐Smirnov,
la
cual
se
muestra
a
continuación:
Se
puede
observar
que
el
valor
crítico
equivale
a
0,40925,
para
un
tamaño
de
muestra
n
=
10,
y
un
nivel
de
significancia
del
5%.
Como
este
valor
es
mayor
al
estadístico
de
la
prueba,
no
existe
suficiente
evidencia
estadística
para
rechazar
la
hipótesis
de
que
los
datos
se
distribuyen
uniformemente.
16
[ POLITÉCNICO GRANCOLOMBIANO]
4. P-‐Value
Otra
forma
de
determinar
si
se
rechaza
o
no
una
hipótesis
sin
emplear
directamente
los
estimadores
es
a
través
del
concepto
de
P-‐value
(esta
metodología
es
la
que
suelen
emplear
la
gran
mayoría
de
software
estadísticos
capaces
de
realizar
análisis
de
entrada).
El
P-‐Value
corresponde
al
área
superior
derecha
a
partir
del
estadístico
de
prueba,
es
decir,
es
la
probabilidad
acumulada
que
existe
después
del
estadístico
de
prueba.
Por
ejemplo
para
el
caso
de
la
prueba
Chi2
realizada
en
el
ejemplo
podemos
ver
que
el
p-‐value
corresponde
al
área
amarilla
+
área
azul:
Con
base
en
este
análisis,
las
conclusiones
se
tomarían
así:
Si
el
p-‐value
es
menor
que
el
nivel
de
significancia
entonces
se
debe
rechazar
la
hipótesis
nula,
de
lo
contrario
no
se
rechaza
[ SIMULACIÓN GERENCIAL ] 17