Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Cartilla Semana 3 PDF
Cartilla Semana 3 PDF
Análisis de datos de Entrada
1. Índice
1. Introducción
2. Identificación
gráfica
de
distribuciones
de
probabilidad
adecuadas
2.1. Histogramas
2.2. Q-‐Q
Plot
2.3. P-‐P
Plot
3. Pruebas
de
bondad
de
ajuste
3.1. Prueba
Chi
Cuadrado
3.2. Prueba
Kolmogorov-‐Smirnov
Interpretación
P-‐Value
2. Introducción
El
propósito
del
presente
documento
es
presentar
a
los
estudiantes
las
herramientas
gráficas
y
analíticas
para
llevar
a
cabo
un
correcto
análisis
de
los
datos
de
entrada,
donde
se
tenga
muy
presente
que
son
estos
los
que
alimentarán
el
modelo
de
simulación
a
construir
y,
que
por
lo
tanto,
tendrán
una
alta
influencia
en
los
resultados
que
se
reporten
después
de
haber
corrido
la
simulación.
Por
otra
parte,
teniendo
en
cuenta
que
el
objetivo
general
del
módulo
es
que
los
estudiantes
desarrollen
las
capacidades
necesarias
para
llevar
a
cabo
un
estudio
completo
de
simulación,
en
esta
unidad
se
presentarán
las
herramientas
fundamentales
para
realizar
el
análisis
de
entrada,
así
como
herramientas
computacionales
que
permite
su
realización
casi
de
forma
automática.
Finalmente,
se
presentará
al
estudiante
una
serie
de
ejercicios
relacionados
para
reforzar
los
conocimientos
adquiridos
en
el
desarrollo
del
módulo.
3. Objetivo
general
Al
finalizar
el
módulo,
los
estudiantes
sabrán
cuáles
son
las
herramientas
gráficas
para
llevar
a
cabo
un
análisis
de
datos
de
entrada,
así
como
sabrán
emplear,
de
forma
adecuada,
las
pruebas
analíticas
para
alimentar
el
modelo
de
simulación
que
se
esté
construyendo.
Al
finalizar
la
tercera
semana
de
aprendizaje:
1. El
estudiante
entenderá
la
importancia
de
realizar
un
análisis
de
datos
de
entrada.
2. El
estudiante
conocerá
las
distintas
metodologías
para
ejecutar
un
correcto
análisis
de
la
información
de
entrada.
2
[ POLITÉCNICO GRANCOLOMBIANO]
4. Desarrollo
temático
4.1
Recomendaciones
académicas
Se
recomienda
al
estudiante
realizar
la
lectura
de
la
cartilla,
en
la
que
se
encuentra
toda
la
información
relevante
que
se
evaluará
en
la
semana.
Adicional,
se
recomienda
al
estudiante
revisar
las
teleconferencias,
así
como
las
video
-‐diapositivas,
pues
estas
son
un
medio
para
aclarar
las
dudas
generadas
con
la
lectura
y
dar
soporte
a
los
temas
expuestos
en
la
misma.
Finalmente,
se
recomienda
al
estudiante
realizar
los
ejercicios
planteados
y
sugeridos
por
el
tutor,
ya
que
estos,
a
pesar
de
no
tener
un
valor
porcentual
en
la
nota,
si
harán
que
su
formación
sea
completa
y
pueda
ser
reforzada
de
forma
práctica.
4.2
Desarrollo
de
cada
una
de
las
unidades
temáticas
1. Introducción
[ SIMULACIÓN ] 3
2.1. Histogramas
1. Dividir
el
rango
de
datos
en
intervalos,
generalmente
de
igual
amplitud
2. Marcar
el
eje
horizontal
del
gráfico
para
conformar
los
intervalos
3. Encontrar
la
frecuencia
de
ocurrencias
dentro
de
cada
intervalo
4. Marcar
en
el
eje
vertical
del
gráfico
el
total
de
ocurrencias
de
cada
intervalo
4
[ POLITÉCNICO GRANCOLOMBIANO]
Al
igual
que
los
histogramas,
los
gráficos
Cuantil
–
Cuantil
o
Q-‐Q
plot
dan
una
idea
gráfica
del
posible
comportamiento
que
pueden
seguir
los
datos
de
entrada
que
se
estén
analizando.
La
diferencia
principal
de
un
histograma
y
un
Q-‐Q
plot
es
que
los
segundos
no
muestran
propiamente
el
comportamiento
de
la
distribución,
si
no
que
muestra
la
relación
de
los
cuantiles
de
la
distribución
que
se
sospecha
siguen
los
datos
con
la
distribución
real,
y
a
partir
de
dicha
relación
es
posible
realizar
conclusiones.
Estrictamente
hablando,
un
cuantil
se
define
de
la
siguiente
manera:
Sea
X
es
una
variable
aleatoria
(VA)
con
función
acumulada
de
probabilidad
Fx(x),
entonces
el
q-‐cuantil
de
X
es
aquel
valor
!
tal
que
! ! = ! ! ≤ ! = !.
Luego,
! = ! !! (!).
Ahora
bien,
al
partir
de
este
concepto,
se
presenta
a
continuación
el
algoritmo
(metodología)
a
desarrollar
para
obtener
los
cuantiles
y,
por
lo
tanto,
la
gráfica
que
propone
la
herramienta
debe
realizarse:
[ SIMULACIÓN ] 5
! − 0.5
!! ≅ ! !!
!
!!!.!
4. Graficar
yj
v.s.
! !! !
Supóngase
que
se
ha
escogido
una
distribución
con
función
F
como
una
posible
representación
de
la
distribución
de
X.
Si
F
es
un
miembro
de
una
familia
apropiada
de
distribuciones,
entonces
la
gráfica
de
yj
versus
F-‐1
será
aproximadamente
una
línea
recta.
Ejemplo
Se
tienen
los
siguientes
diez
datos
y
se
sospecha
que
siguen
una
distribución
normal
con
media
=
100
y
desviación
estándar
=
13
105
91
103
83
71
120
100
135
123
9
0
Con
base
en
la
metodología
anterior,
el
primer
paso
consiste
en
ordenarlos
de
menor
a
mayor,
así:
j
Yj
1
71
2
83
3
90
4
91
5
100
6
103
7
105
8
120
9
123
10
135
El
segundo
paso
es
asignarle
una
probabilidad
de
acuerdo
a
la
expresión
(j-‐0.5)/n:
j
Yj
Probabilidad
1
71
0,05
2
83
0,15
3
90
0,25
4
91
0,35
5
100
0,45
6
[ POLITÉCNICO GRANCOLOMBIANO]
6
103
0,55
7
105
0,65
8
120
0,75
9
123
0,85
10
135
0,95
El
tercer
paso
es
calcular
la
función
inversa
para
cada
una
de
las
probabilidades
asignadas
en
el
paso
anterior.
Como
en
este
caso
se
sospecha
que
los
datos
siguen
una
distribución
normal
con
media
=
100
y
desviación
estándar
=
13,
debe
calcularse
la
inversa
de
una
distribución
normal.
Probabilid Función
j
Yj
ad
inversa
1
71
0,05
78,616903
2
83
0,15
86,526366
3
90
0,25
91,231633
4
91
0,35
94,990834
5
100
0,45
98,366402
6
103
0,55
101,633598
7
105
0,65
105,009166
8
120
0,75
108,768367
9
123
0,85
113,473634
10
135
0,95
121,383097
Nota:
si
por
ejemplo,
se
hubiese
dicho
que
se
sospechaba
que
los
datos
seguían
una
distribución
exponencial,
los
pasos
1
y
2
se
debían
haber
realizado
de
la
misma
forma,
pero
en
el
paso
tres
debería
haberse
calculado
la
inversa
de
una
distribución
exponencial
y
no
de
la
normal,
es
decir,
la
función
inversa
se
calcula
con
base
en
la
distribución
de
probabilidad
que
se
sospecha
siguen
los
datos.
[ SIMULACIÓN ] 7
140
120
100
80
60
40
20
0
0 20 40 60 80 100 120 140 160
La
columna
denominada
Probabilidad,
corresponde
al
cálculo
del
cuantil
respectivo.
Por
!!!/!
ejemplo,
para
j
=
1,
al
reemplazar
en
la
expresión
! ,
da
como
resultado
0,05,
para
n
=
10.
La
columna
de
Función
Inversa,
se
puede
calcular
utilizando
Excel,
mediante
la
función
DISTR.NORM.INV,
con
parámetros:
media
=
100;
desviación
estándar
=
13;
probabilidad
=
la
recién
calculada
para
cada
uno
de
los
datos.
Cabe
anotar
que
la
decisión
de
aceptar
o
rechazar
la
hipótesis
es
subjetiva,
por
cuanto
la
apreciación
de
la
gráfica
y
el
ajuste
de
los
puntos
a
una
línea
recta
parten
de
simple
observación.
Al
igual
que
con
el
diagrama
Q-‐Q,
el
diagrama
P-‐P
permite
evaluar
un
conjunto
de
datos
mediante
la
comparación
de
una
distribución
teórica
de
probabilidad.
Su
principal
diferencia
con
respecto
al
diagrama
anteriormente
descrito,
radica
en
que
los
valores
a
contrastar
corresponden
al
cuantil
calculado
versus
la
función
de
distribución
acumulada.
Si
los
datos
corresponden
a
la
distribución
teórica
que
se
está
probando,
la
nube
de
puntos
debe
aproximarse
a
una
línea
recta.
Ahora
bien,
a
partir
de
lo
anterior,
se
presenta,
a
continuación,
el
algoritmo
(metodología)
a
desarrollar
para
obtener
los
percentiles
y,
por
lo
tanto,
la
gráfica
que
propone
la
herramienta
debe
realizarse:
8
[ POLITÉCNICO GRANCOLOMBIANO]
2. Asignar
una
probabilidad
de
ocurrencia
a
cada
uno
de
los
datos
recolectados,
dicha
probabilidad
es
asignada
de
acuerdo
a
la
expresión
(j-‐0.5)/n
3. Calcular
la
probabilidad
“real”
de
que
se
de
cada
uno
de
los
valores
de
los
datos
que
se
recolectaron.
En
otras
palabras:
!! !!
!!!.!
4. Graficar
!
v.s.
!! !!
Ejemplo
Se
tienen
los
siguientes
diez
datos,
y
se
sospecha
que
siguen
una
distribución
normal
con
media
=
100
y
desviación
estándar
=
13
105
91
103
83
71
120
100
135
123
9
0
Con
base
en
la
metodología
anterior,
el
primer
paso
consiste
en
ordenarlos
de
menor
a
mayor,
así:
j
Yj
1
71
2
83
3
90
4
91
5
100
6
103
7
105
8
120
9
123
10
135
El
segundo
paso
es
asignarle
una
probabilidad
de
acuerdo
a
la
expresión
(j-‐0.5)/n:
j
Yj
Probabilidad
1
71
0,05
2
83
0,15
3
90
0,25
4
91
0,35
5
100
0,45
6
103
0,55
[ SIMULACIÓN ] 9
7
105
0,65
8
120
0,75
9
123
0,85
10
135
0,95
El
tercer
paso
es
calcular
la
probabilidad
real
para
cada
uno
de
los
valores
de
los
datos
ordenados
en
el
paso
1.
Como
en
este
caso
se
sospecha
que
los
datos
siguen
una
distribución
normal
con
media
=
100
y
desviación
estándar
=
13,
debe
calcularse
la
probabilidad
de
los
yj
con
esta
distribución.
Probabilida
j
Yj
d
Acumulada
1
71
0,05
0,01284821
0,0954888
2
83
0,15
5
3
90
0,25
0,22087816
0,2443720
4
91
0,35
6
5
100
0,45
0,5
6
103
0,55
0,59125296
7
105
0,65
0,6497388
8
120
0,75
0,9380321
9
123
0,85
0,96157231
0,9964520
10
135
0,95
3
Nota:
si
por
ejemplo
se
hubiese
dicho
que
se
sospechaba
que
los
datos
seguían
una
distribución
exponencial,
los
pasos
1
y
2
se
debían
haber
realizado
de
la
misma
forma,
pero
en
el
paso
tres
debería
haberse
calculado
la
probabilidad
con
una
distribución
exponencial
y
no
de
la
normal,
es
decir,
la
probabilidad
se
calcula
con
base
en
la
distribución
de
probabilidad
que
se
sospecha
siguen
los
datos.
10
[ POLITÉCNICO GRANCOLOMBIANO]
1,2
0,8
0,6
0,4
0,2
0
0 0,2 0,4 0,6 0,8 1
Las
pruebas
de
bondad
de
ajuste
son
pruebas
de
hipótesis
que
permiten
evaluar
la
idoneidad
de
un
conjunto
de
datos,
dada
una
distribución
teórica
de
probabilidad
donde
se
podrían
ajustar.
Como
toda
prueba
de
hipótesis,
esta
comienza
con
el
enunciado
de
la
hipótesis
nula
y
alternativa.
La
hipótesis
nula
afirma
que
la
variable
aleatoria
que
describe
el
conjunto
de
datos,
se
distribuye
según
la
función
de
probabilidad
propuesta,
mientras
que
la
hipótesis
alternativa
contradice
tal
afirmación.
Nota:
Las
pruebas
de
hipótesis
corresponden
a
procesos
de
toma
de
decisión
estadísticos.
El
modelador
formula
dos
hipótesis
complementarias,
llamadas
la
hipótesis
nula
(denotada
por
H0)
y
la
hipótesis
alternativa
(denotada
por
H1).
Generalmente,
una
decisión
se
asocia
a
la
hipótesis
nula,
la
cual
puede
ser
aceptada
o
rechazada.
Consecuentemente,
se
pueden
generar
dos
tipos
de
error:
El
objetivo
de
las
pruebas
de
hipótesis
es
rechazar
(o
aceptar
H0)
de
tal
manera
que
si
H0
es
en
realidad
verdadera,
entonces
la
probabilidad
de
rechazarla
erróneamente
(error
tipo
I),
no
exceda
un
valor
de
probabilidad
previamente
definido,
α,
el
cual
es
llamado
nivel
de
confianza
o
nivel
de
significancia.
Mientras
más
pequeño
es
α,
más
alta
es
la
confianza
en
la
decisión
de
rechazo
correspondiente.
[ SIMULACIÓN ] 11
Para
realizar
esta
prueba
se
disponen
los
datos
en
una
tabla
de
frecuencias.
Para
cada
valor
o
intervalo
de
valores
se
indica
la
frecuencia
absoluta
observada
(Oi).
A
continuación,
y
suponiendo
que
la
hipótesis
nula
es
cierta,
se
calculan
para
cada
valor
o
intervalo
de
valores,
la
frecuencia
esperada
(Ei=n·∙pi,
donde
n
es
el
tamaño
de
la
muestra
y
pi
la
probabilidad
del
i-‐
ésimo
valor
o
intervalo
de
valores
según
la
hipótesis
nula).
Para
emplear
esta
metodología
que
es
analíticamente
más
confiable
que
los
histogramas
o
gráficos
P-‐P
y
Q-‐Q,
es
necesario
calcular
un
estadístico
de
prueba.
Dicho
estadístico
se
calcula
con
base
en
la
frecuencia
observada
y
frecuencia
esperada,
así:
!
!! − !! !
!=
!!
!!!
Este
estadístico
tiene
una
distribución
Chi-‐cuadrado
con
k-‐1
grados
de
libertad
si
n
es
suficientemente
grande,
es
decir,
si
todas
las
frecuencias
esperadas
son
mayores
que
5.
Si
existe
concordancia
perfecta
entre
las
frecuencias
observadas
y
las
esperadas,
el
estadístico
tomará
un
valor
igual
a
0;
por
el
contrario,
si
existe
una
gran
discrepancia
entre
estas
frecuencias,
el
estadístico
tomará
un
valor
grande
y,
en
consecuencia,
se
rechazará
la
hipótesis
nula.
Así
pues,
la
región
crítica
estará
situada
en
el
extremo
superior
de
la
distribución
Chi-‐cuadrado
con
k-‐1
grados
de
libertad.
Ejemplo
La
distribución
de
los
ingresos
anuales
en
dólares
de
una
muestra
de
100
familias,
que
habitan
en
cierta
población
presentó
los
siguientes
resultados:
Ingresos
anuales
en
miles
de
Frecuencia
Observada
dólares
(Oi)
40
≤
x
≤
60
12
60
<
x
≤
80
8
80
<x
≤
100
25
100
<x
≤
120
30
120
<x
≤
140
25
Puede
admitirse
que
los
ingresos
de
las
familias
que
habitan
en
dicha
población
sigue
una
distribución
uniforme
en
el
intervalo
[40.000
–
140.000]
con
un
nivel
de
significancia
del
5%.
Dado
que
ya
se
tienen
las
frecuencias
observadas,
el
siguiente
paso
es
calcular
la
frecuencia
esperada
Ei,
se
debe
que
esta
siempre
será
igual
a
pi·∙n,
donde
n
es
el
número
total
de
12
[ POLITÉCNICO GRANCOLOMBIANO]
[ SIMULACIÓN ] 13
Al
tener
los
valores
de
la
frecuencia
observada
y
de
la
frecuencia
esperada,
es
posible
realizar
el
cálculo
del
estadístico
recordando
que
este
es
igual
a
!
!! − !! !
!=
!!
!!!
Se
obtienen,
entonces,
los
siguientes
resultados:
Ingresos
anuales
Frecuencia
Probabilida Frecuencia
(Oi-‐Ei)2/Ei
en
miles
de
Observada
d
Esperada
(Ei)
dólares
(Oi)
40
≤
x
≤
60
12
0,2
20
3.2
60
<
x
≤
80
8
0,2
20
7.2
80
<x
≤
100
25
0,2
20
1.25
100
<x
≤
120
30
0,2
20
5
120
<x
≤
140
25
0,2
20
1.25
Y
=
17.9
Una
vez
obtenido
el
estadístico,
este
deberá
compararse
con
el
valor
Chi2
de
la
tabla
Chi2.
Para
calcular
este
valor,
recuerde
que
debe
tenerse
presente
el
nivel
de
significancia
con
que
se
realizó
la
prueba
y
los
grados
de
libertad.
Para
este
ejemplo
en
específico
se
sugirió
que
alfa
fuera
igual
a
0.05
y
los
grados
de
libertad
siempre
serán
iguales
al
número
de
clases
menos
1,
es
decir,
que
para
el
ejercicio
los
grados
de
libertad
serían
df
=
5-‐1
=
4
Al
observar
la
tabla
de
la
Chi2
,
apreciamos
que
el
resultado
es:
Finalmente,
para
concluir,
si
se
rechaza
o
no
la
hipótesis
de
que
la
distribución
de
los
ingresos
anuales
de
dichas
familias
siguen
una
distribución
entre
[40.000
–
140.000],
se
deben
comparar
los
valores
del
estadístico
calculado
Y
y
los
de
la
tabla
Chi2,
así:
14
[ POLITÉCNICO GRANCOLOMBIANO]
- Si
el
estadístico
Y
es
menor
al
valor
en
tabla
de
la
Chi2,
entonces
no
se
rechaza
la
hipótesis
nula
de
lo
contrario
se
rechaza
Para
este
ejemplo
en
particular,
dado
que
Y
=
17.9
no
es
menor
a
9.48,
entonces
se
debe
rechazar
la
hipótesis
nula
y,
por
lo
tanto,
se
concluye
que
el
ingreso
anual
de
las
familias
no
sigue
una
distribución
uniforme
ente
[40.000
–
140.000].
[ SIMULACIÓN ] 15
Se
quiere
comprobar
la
hipótesis
de
que
este
tiempo
sigue
una
distribución
uniforme
con
parámetros
(10,
20)
segundos,
con
un
nivel
de
confianza
del
95%.
De
manera
similar
a
la
elaboración
de
los
diagramas
Q-‐Q
y
P-‐P,
resulta
bastante
útil
la
elaboración
de
una
tabla
para
completar
la
prueba.
D+
=
0,07
D-‐
=
0,33
Entonces,
el
estadístico
de
la
prueba
corresponde
a
0,33.
Se
procede
ahora
a
consultar
la
tabla
de
valores
críticos
de
la
prueba
Kolmogorov-‐Smirnov,
la
cual
se
muestra
a
continuación:
Se
puede
observar
que
el
valor
crítico
equivale
a
0,40925,
para
un
tamaño
de
muestra
n
=
10,
y
un
nivel
de
significancia
del
5%.
Como
este
valor
es
mayor
al
estadístico
de
la
prueba,
no
16
[ POLITÉCNICO GRANCOLOMBIANO]
existe
suficiente
evidencia
estadística
para
rechazar
la
hipótesis
de
que
los
datos
se
distribuyen
uniformemente.
4. Interpretación P-‐Value
Otra
forma
de
determinar
si
se
rechaza
o
no
una
hipótesis
sin
emplear
directamente
los
estimadores,
es
a
través
del
concepto
de
P-‐value
(esta
metodología
es
la
que
suelen
emplear
la
gran
mayoría
de
software
estadísticos
capaces
de
realizar
análisis
de
entrada).
El
P-‐Value
corresponde
al
área
superior
derecha
a
partir
del
estadístico
de
prueba,
es
decir,
es
la
probabilidad
acumulada
que
existe
después
del
estadístico
de
prueba.
Por
ejemplo,
para
el
caso
de
la
prueba
Chi2
realizada
en
el
ejemplo,
podemos
ver
que
el
p-‐value
corresponde
al
área
amarilla
+
área
azul:
Con
base
en
este
análisis,
las
conclusiones
se
tomarían
así:
Si
el
p-‐value
es
menor
que
el
nivel
de
significancia,
entonces
se
debe
rechazar
la
hipótesis
nula,
de
lo
contrario
no
se
rechaza.
[ SIMULACIÓN ] 17