Está en la página 1de 17

SIMULACIÓN

GERENCIAL
 

 
 
Análisis de datos de entrada
 

 
 
 
 

 
 
 

 
 
 
 

 
 
 

 
 
 
 

 
 
 
   
 

• ANÁLISIS  DE  DATOS  DE  ENTRADA  


 

1. Índice  
1. Introducción  
2. Identificación  gráfica  de  distribuciones  de  probabilidad  adecuadas  
2.1. Histogramas  
2.2. Q-­‐Q  Plot  
2.3. P-­‐P  Plot  
3. Pruebas  de  bondad  de  ajuste  
3.1. Prueba  Chi  Cuadrado  
3.2. Prueba  Kolmogorov-­‐Smirnov  
P-­‐Value.  
 

2. Introducción  
El  propósito  del  presente  documento  es  presentar  a  los  estudiantes  las  herramientas  gráficas  
y   analíticas   para   llevar   a   cabo   un   correcto   análisis   de   los   datos   de   entrada,   teniendo   muy  
presente   que   son   estos   los   que   alimentarán   el   modelo   de   simulación   que   se   esté  
construyendo   y   que,   por   lo   tanto,   tendrán   una   alta   influencia   en   los   resultados   que   se  
reporten  después  de  haber  corrido  la  simulación.  
 
También  se  les  presentará  una  serie  de  ejercicios  relacionados  con  el  tema  para  reforzar  los  
conocimientos  adquiridos  durante  el  desarrollo  del  módulo.    
 

3. Objetivo  general  
Al   finalizar   el   módulo   los   estudiantes   sabrán   cuáles   son   las   herramientas   gráficas  
fundamentales   para   llevar   a   cabo   un   análisis   de   datos   de   entrada,   así   como   también  
reconocerá   y   sabrá   emplear   de   forma   adecuada   las   pruebas   analíticas   para   realizar   dicho  
análisis  y,  de  esta  manera,  alimentar  el  modelo  de  simulación  que  se  esté  construyendo.  
 
Al  finalizar  la  séptima  semana  de  aprendizaje:  

1. El  estudiante  entenderá  la  importancia  de  realizar  un  análisis  de  datos  de  entrada.  
2. El  estudiante  conocerá  las  distintas  metodologías  para  ejecutar  un  correcto  análisis  de  
la  información  de  entrada.  

El  estudiante  podrá  realizar  un  análisis  de  entrada  empleando  herramientas  computacionales  
adecuadas.  
 
 

 
2   [ POLITÉCNICO GRANCOLOMBIANO]
 

4. Desarrollo  temático  
 
4.1 Recomendaciones  académicas.  
Se  recomienda  al  estudiante  realizar  la  lectura  de  la  cartilla,  en  la  cual  se  encuentra  toda  la  
información  relevante  que  se  evaluará  en  la  semana,  adicionalmente  se  le  recomienda  revisar  
las   teleconferencias   así   como   las   video   diapositivas,   pues   estas   son   un   medio   que   puede  
aclarar  las  dudas  generadas  con  la  lectura  o  también  dar  soporte  a  los  temas  expuestos  en  la  
misma.  
 
Finalmente,  se  recomienda  al  estudiante  realizar  los  ejercicios  planteados  y  sugeridos  por  el  
tutor   ya   que   estos   a   pesar   de   no   tener   un   valor   porcentual   en   la   nota   sí   harán   que   su  
formación  sea  completa  y  pueda  ser  reforzada  de  forma  práctica.  
 
4.2    Desarrollo  de  cada  una  de  las  unidades  temáticas.    
 
1.Introducción  

La   recolección   de   datos   y   el   procesamiento   de   la   información   es   una   de   las   tareas   más  


grandes  y  difíciles  en  los  problemas  reales.  Incluso,  aún  cuando  hay  información  disponible,  
rara   vez   los   datos   vienen   o   están   grabados   en   un   formato   que   sea   útil   y   aplicable  
directamente  en  un  modelo  de  simulación.  

El  término  “GIGO”  o  “garbage-­‐in-­‐garbage-­‐out”  (si  entra  basura,  sale  basura)  es  un  concepto  
básico   en   ciencias   de   la   computación   y   se   aplica   sin   problema   en   el   área   de   simulación   de  
Montecarlo.     Aun   cuando   la   estructura   del   modelo   sea   válida   y   robusta,   si   los   datos   de  
entrada  han  sido  recolectados  de  manera  inapropiada,  o  analizados  de  manera  imprecisa,  o  
simplemente   no   son   representativos,   los   datos   de   salida   o   resultados   del   modelo   serán  
inservibles   para   tomar   buenas   decisiones,   derivándose   en   pérdidas   costosas   para   la  
organización.  
 
Para   llevar   a   cabo   un   correcto   análisis   de   datos   de   entrada   y   recolectar   datos   que   no   sean  
“basura”,  se  recomienda  lo  siguiente:  

• Planeación:  observación  del  sistema  actual  y  situaciones  atípicas,  etc.  


• Análisis  de  los  datos  a  medida  que  son  recolectados.  Revisar  su  pertinencia.  
• Verificar  homogeneidad  en  los  diferentes  grupos  de  datos.  
• Revisar  la  relación  entre  variables.  
• Revisar  autocorrelación.  
• Diferenciar  claramente  entre  datos  de  entrada  y  de  salida.  
 
 
 
 

 
[ SIMULACIÓN GERENCIAL ] 3
 

2. Identificación  gráfica  de  distribuciones  de  probabilidad  adecuadas  

En   esta   sección   se   describirán   métodos   para   seleccionar   familias   de   distribuciones   de  


probabilidad  cuando  los  datos  están  disponibles.  Básicamente  la  identificación  gráfica  como  
su   nombre   lo   indica   permite   visualizar   la   forma   de   una   distribución   como   punto   de   partida  
para  realizar  una  primera  aproximación  de  cuál  es  el  tipo  de  distribución  que  siguen  los  datos  
recolectados  para  la  construcción  del  modelo  de  simulación.  

2.1. Histogramas  

Una   distribución   de   frecuencias   o   un   histograma   es   útil   para   identificar   la   forma   de   una  


distribución.  Un  histograma  se  construye  bajo  la  siguiente  metodología:  
 
  1.  Dividir  el  rango  de  datos  en  intervalos,  generalmente  de  igual  amplitud.  
  2.  Marcar  el  eje  horizontal  del  gráfico  para  conformar  los  intervalos.  
  3.  Encontrar  la  frecuencia  de  ocurrencias  dentro  de  cada  intervalo.  
  4.  Marcar  en  el  eje  vertical  del  gráfico  el  total  de  ocurrencias  de  cada  intervalo.  
 
El   número   de   intervalos   depende   del   número   de   observaciones   y   de   la   dispersión   de   los  
datos.   Generalmente,   en   la   práctica   s   establece   que   el   número   de   intervalos   es  
aproximadamente   igual   a   la   raíz   cuadrada   del   tamaño   de   la   muestra   que   se   utiliza   para   el  
análisis.   Si   los   intervalos   son   muy   anchos,   el   histograma   no   mostrará   claramente   un  
comportamiento  visible  de  la  información.  
 
El  histograma  para  datos  continuos  corresponde  a  la  función  de  densidad  de  la  distribución  
teórica   de   los   datos,   mientras   que   para   datos   discretos,   la   forma   del   histograma   debería  
parecerse  a  la  función  de  masa  de  la  distribución  teórica.  
 
Sin   embargo,   debe   tenerse   en   cuenta   que   un   histograma   tan   sólo   da   una   idea   de   cómo   se  
distribuyen  los  datos,  mas  no  como  única  herramienta  de  identificación  de  los  mismos.  
 

 
4   [ POLITÉCNICO GRANCOLOMBIANO]
 

 
2.2. Q-­‐Q  Plot  (Diagramas  Cuantil  –  Cuantil)  

Al  igual  que  los  histogramas,  los  gráficos  Cuantil  –  Cuantil  o  Q-­‐Q  plot,  dan  una  idea  también  
gráfica   del   posible   comportamiento   que   pueden   seguir   los   datos   de   entrada   que   se   estén  
analizando.    
 
La  diferencia  principal  entre  un  histograma  y  un  Q-­‐Q  plot  es  que  los  segundos  no  muestran  
propiamente   el   comportamiento   de   la   distribución   si   no   que   muestra   la   relación   de   los  
cuantiles   de   la   distribución   que   se   sospecha   siguen   los   datos   con   la   distribución   real   que  
siguen  los  datos  y  a  partir  de  dicha  relación  es  posible  realizar  conclusiones.  
 
Estrictamente  hablando,  un  cuantil  se  define  como:  
 
Sea  X  es  una  variable  aleatoria  (VA)  con  función  acumulada  de  probabilidad  Fx(x),  entonces  
el  q-­‐cuantil  de  X  es  aquel  valor  !    tal  que  ! ! = ! ! ≤ ! = !.    Luego,  ! = ! !! (!).  
 
Ahora   bien,   partiendo   de   este   concepto   se   presenta   a   continuación   el   algoritmo  
(metodología)  a  desarrollar  para  obtener  los  cuantiles  y,  por  lo  tanto,  la  gráfica  que  propone  
la  herramienta  debe  realizarse:  

1. Si   se   tiene   una   muestra   de   n   datos   de   X,   estos   deben   ordenarse   de   menor   a   mayor,   y  


denotarlos   como   yj,   donde   j   es   el   orden   que   tiene   el   dato   dentro   del   conjunto,   es  
decir,  j  =  1  para  el  menor  dato  y  j  =  n  para  el  mayor.    
2. Asignar  una  probabilidad  de  ocurrencia  a  cada  uno  de  los  datos  recolectados,  dicha  
probabilidad  es  asignada  de  acuerdo  con  la  expresión  (j-­‐0.5)/n.  
3. Basado   en   el   hecho   de   que   yj   es   una   estimación   del   cuantil   (j-­‐0.5)/n   de   X   calculado   en  
el  paso  anterior,  debe  calcularse  la  función  inversa  de  la  distribución  que  se  sospecha  
siguen  los  datos.  En  otras  palabras:  

 
[ SIMULACIÓN GERENCIAL ] 5
 

! − 0.5
!! ≅ ! !!  
!
!!!.!
4. Graficar  yj  v.s.  ! !! !
 

 
Supóngase   que   se   ha   escogido   una   distribución   con   función   F   como   una   posible  
representación   de   la   distribución   de   X.   Si   F   es   un   miembro   de   una   familia   apropiada   de  
distribuciones,  entonces  la  gráfica  de  yj  versus  F-­‐1  será  aproximadamente  una  línea  recta.  
 
Ejemplo  
 
Se   tienen   los   siguientes   diez   datos,   y   se   sospecha   que   siguen   una   distribución   normal   con  
media  =  100  y  desviación  estándar  =  13  
 
105   91   103   83   71  
120   100   135   123   9
0  
 
Con   base   en   la   metodología   anterior,   el   primer   paso   consiste   en   ordenarlos   de   menor   a  
mayor,  así:  
 
j   Yj  
1   71  
2   83  
3   90  
4   91  
5   100  
6   103  
7   105  
8   120  
9   123  
10   135  
 
El  segundo  paso  es  asignarle  una  probabilidad  de  acuerdo  con  la  expresión  (j-­‐0.5)/n:  
 
j   Yj   Probabilidad  
1   71   0,05  
2   83   0,15  
3   90   0,25  
4   91   0,35  

 
6   [ POLITÉCNICO GRANCOLOMBIANO]
 

5   100   0,45  
6   103   0,55  
7   105   0,65  
8   120   0,75  
9   123   0,85  
10   135   0,95  
 
El  tercer  paso  es  calcular  la  función  inversa  para  cada  una  de  las  probabilidades  asignadas  en  
el   paso   anterior.   Como   en   este   caso   se   sospecha   que   los   datos   siguen   una   distribución  
normal   con   media   =   100   y   desviación   estándar   =   13,   debe   calcularse   la   inversa   de   una  
distribución  normal.  
 
Probabilid Función  
j   Yj   ad   inversa  
1   71   0,05   78,616903  
2   83   0,15   86,526366  
3   90   0,25   91,231633  
4   91   0,35   94,990834  
5   100   0,45   98,366402  
6   103   0,55   101,633598  
7   105   0,65   105,009166  
8   120   0,75   108,768367  
9   123   0,85   113,473634  
10   135   0,95   121,383097  
 
Nota:   si   por   ejemplo   se   hubiese   dicho   que   se   sospechaba   que   los   datos   seguían   una  
distribución  exponencial,  los  pasos  1  y  2  se  debían  haber  realizado  de  la  misma  forma,  pero  
en  el  paso  tres  debería  haberse  calculado  la  inversa  de  una  distribución  exponencial  y  no  de  
la  normal,  es  decir,  la  función  inversa  se  calcula  con  base  en  la  distribución  de  probabilidad  
que  se  sospecha  siguen  los  datos.  
 

 
[ SIMULACIÓN GERENCIAL ] 7
 

140

120

100

80

60

40

20

0
0 20 40 60 80 100 120 140 160
 
 
La   columna   denominada   Probabilidad,   corresponde   al   cálculo   del   cuantil   respectivo.   Por  
!!!/!
ejemplo,   para   j   =   1,   reemplazando   en   la   expresión   ! ,   da   como   resultado   0,05,   para   n   =   10.  
La   columna   de   Función   Inversa,   se   puede   calcular   utilizando   Excel,   mediante   la   función  
DISTR.NORM.INV,  con  parámetros:  media  =  100;  desviación  estándar  =  13;  probabilidad  =  la  
recién  calculada  para  cada  uno  de  los  datos.  
 
Cabe   anotar   que   la   decisión   de   aceptar   o   rechazar   la   hipótesis   es   subjetiva,   por   cuanto   la  
apreciación   de   la   gráfica   y   el   ajuste   de   los   puntos   a   una   línea   recta   parten   de   simple  
observación.  
 

2.3. P-­‐P  Plot  (Diagramas  Probabilidad  –  Probabilidad)  

Al   igual   que   con   el   diagrama   Q-­‐Q,   el   diagrama   P-­‐P   permite   evaluar   un   conjunto   de   datos  
mediante  la  comparación  de  una  distribución  teórica  de  probabilidad.  Su  principal  diferencia  
con   respecto   al   diagrama   anteriormente   descrito,   radica   en   que   los   valores   a   contrastar  
corresponden   al   cuantil   calculado   versus   la   función   de   distribución   acumulada.   Si   los   datos  
corresponden   a   la   distribución   teórica   que   se   está   probando,   la   nube   de   puntos   debe  
aproximarse  a  una  línea  recta.  
 
Ahora  bien,  partiendo  de  lo  anterior  se  presenta  a  continuación  el  algoritmo  (metodología)  a  
desarrollar  para  obtener  los  percentiles  y,  por  lo  tanto,  la  gráfica  que  propone  la  herramienta  
debe  realizarse:  

1. Si   se   tiene   una   muestra   de   n   datos   de   X,   estos   deben   ordenarse   de   menor   a   mayor,   y  


denotarlos   como   yj,   donde   j   es   el   orden   que   tiene   el   dato   dentro   del   conjunto,   es  
decir,  j  =  1  para  el  menor  dato  y  j  =  n  para  el  mayor.    

 
8   [ POLITÉCNICO GRANCOLOMBIANO]
 

2. Asignar  una  probabilidad  de  ocurrencia  a  cada  uno  de  los  datos  recolectados,  dicha  
probabilidad  es  asignada  de  acuerdo  con  la  expresión  (j-­‐0.5)/n.  
3. Calcular   la   probabilidad   “real”   de   que   se   de   cada   uno   de   los   valores   de   los   datos   que  
se  recolectaron.  En  otras  palabras:  

!! !!  
!!!.!
4. Graficar   !
 v.s.  !! !!  
 

Ejemplo:  
 
Se   tienen   los   siguientes   diez   datos,   y   se   sospecha   que   siguen   una   distribución   normal   con  
media  =  100  y  desviación  estándar  =  13  
 
 
105   91   103   83   71  
120   100   135   123   90  
 
Con   base   en   la   metodología   anterior,   el   primer   paso   consiste   en   ordenarlos   de   menor   a  
mayor,  así:  
 
J   Yj  
1   71  
2   83  
3   90  
4   91  
5   100  
6   103  
7   105  
8   120  
9   123  
10   135  
 
El  segundo  paso  es  asignarle  una  probabilidad  de  acuerdo  con  la  expresión  (j-­‐0.5)/n:  
 
j   Yj   Probabilidad  
1   71   0,05  
2   83   0,15  
3   90   0,25  
4   91   0,35  
5   100   0,45  

 
[ SIMULACIÓN GERENCIAL ] 9
 

6   103   0,55  
7   105   0,65  
8   120   0,75  
9   123   0,85  
10   135   0,95  
 
El   tercer   paso   es   calcular   la   probabilidad   real   para   cada   uno   de   los   valores   de   los   datos  
ordenados  en  el  paso  1.  Como  en  este  caso  se  sospecha  que  los  datos  siguen  una  distribución  
normal  con  media  =  100  y  desviación  estándar  =  13,  debe  calcularse  la  probabilidad  de  los  yj  
con  esta  distribución.  
 
j   Yj   Probabilidad   Acumulada  
1   71   0,05   0,01284821  
2   83   0,15   0,09548885  
3   90   0,25   0,22087816  
4   91   0,35   0,24437206  
5   100   0,45   0,5  
6   103   0,55   0,59125296  
7   105   0,65   0,6497388  
8   120   0,75   0,9380321  
9   123   0,85   0,96157231  
10   135   0,95   0,99645203  
 
Nota:   si   por   ejemplo   se   hubiese   dicho   que   se   sospechaba   que   los   datos   seguían   una  
distribución  exponencial,  los  pasos  1  y  2  se  debían  haber  realizado  de  la  misma  forma,  pero  
en  el  paso  tres  debería  haberse  calculado  la  probabilidad  con  una  distribución  exponencial  y  
no   de   la   normal,   es   decir,   la   probabilidad   se   calcula   con   base   en   la   distribución   de  
probabilidad  que  se  sospecha  siguen  los  datos.  
 

 
10   [ POLITÉCNICO GRANCOLOMBIANO]
 

1,2

0,8

0,6

0,4

0,2

0
0 0,2 0,4 0,6 0,8 1
 
 

3. Pruebas  de  bondad  de  ajuste  

Las  pruebas  de  bondad  de  ajuste  son  pruebas  de  hipótesis  que  permiten  evaluar  la  idoneidad  
de   un   conjunto   de   datos,   dada   una   distribución   teórica   de   probabilidad   donde   se   podrían  
ajustar.  Como  toda  prueba  de  hipótesis,  este  tipo  de  pruebas  comienza  con  el  enunciado  de  
la  hipótesis  nula  y  alternativa.  La  hipótesis  nula  afirma  que  la  variable  aleatoria  que  describe  
el  conjunto  de  datos,  se  distribuye  según  la  función  de  probabilidad  propuesta,  mientras  que  
la  hipótesis  alternativa  contradice  tal  afirmación.  
 
Nota:  Las  pruebas  de  hipótesis  corresponden  a  procesos  de  toma  de  decisión  estadísticos.  El  
modelador  formula  dos  hipótesis  complementarias,  llamadas  la  hipótesis  nula  (denotada  por  
H0)  y  la  hipótesis  alternativa  (denotada  por  H1).  Generalmente,  una  decisión  se  asocia  con  la  
hipótesis  nula,  la  cual  puede  ser  aceptada  o  rechazada.    
 
Consecuentemente,  se  pueden  generar  dos  tipos  de  error:  

- Error  tipo  I:  Rechazar  H0  erróneamente  


- Error  tipo  II  :  Aceptar  H0    erróneamente  

El  objetivo  de  las  pruebas  de  hipótesis  es  rechazar  (o  aceptar  H0)  de  tal  manera  que  si    H0    es  
en  realidad  verdadera,  entonces  la  probabilidad  de  rechazarla  erróneamente  (error  tipo  I),  
no   exceda   un   valor   de   probabilidad   previamente   definido,   α,   el   cual   es   llamado   nivel   de  
confianza  o  nivel  de  significancia.  Mientras  más  pequeño  es  α,    más  alta  es  la  confianza  en  la  
decisión  de  rechazo  correspondiente.    
 
 

 
[ SIMULACIÓN GERENCIAL ] 11
 

3.1. Prueba  Chi  Cuadrado  

Para  realizar  esta  prueba  se  disponen  los  datos  en  una  tabla  de  frecuencias.  Para  cada  valor  o  
intervalo   de   valores   se   indica   la   frecuencia   absoluta   observada   (Oi).   A   continuación,   y  
suponiendo  que  la  hipótesis  nula  es  cierta,  se  calculan  para  cada  valor  o  intervalo  de  valores  
la  frecuencia  esperada  (Ei=n·∙pi,  donde  n  es  el  tamaño  de  la  muestra  y  pi  la  probabilidad  del  i-­‐
ésimo  valor  o  intervalo  de  valores  según  la  hipótesis  nula).    
 
Para  emplear  esta  metodología  que  es  analíticamente  más  confiable  que  los  histogramas  o  
gráficos   P-­‐P   y   Q-­‐Q   es   necesario   calcular   un   estadístico   de   prueba,   dicho   estadístico   se   calcula  
con  base  en  la  frecuencia  observada  y  frecuencia  esperada,  así:  
 
!
!! − !! !
!=  
!!
!!!
 

Este   estadístico   tiene   una   distribución   Chi-­‐cuadrado   con   k-­‐1   grados   de   libertad   si   n   es  
suficientemente  grande,  es  decir,  si  todas  las  frecuencias  esperadas  son  mayores  que  5.    
Si   existe   concordancia   perfecta   entre   las   frecuencias   observadas   y   las   esperadas,   el  
estadístico  tomará  un  valor  igual  a  0;  por  el  contrario,  si  existe  una  gran  discrepancia  entre  
estas  frecuencias  el  estadístico  tomará  un  valor  grande  y,  en  consecuencia,  se  rechazará  la  
hipótesis   nula.   Así   pues,   la   región   crítica   estará   situada   en   el   extremo   superior   de   la  
distribución  Chi-­‐cuadrado  con  k-­‐1  grados  de  libertad.  

Ejemplo:  
 
La  distribución  de  los  ingresos  anuales  en  dólares  de  una  muestra  de  100  familias  que  habitan  
en  cierta  población  presentó  los  siguientes  resultados:  
 
Ingresos   anuales   en   miles   de   Frecuencia   Observada  
dólares   (Oi)  
40  ≤  x  ≤  60   12  
60  <  x  ≤  80   8  
80  <x  ≤  100   25  
100  <x  ≤  120   30  
120  <x  ≤  140   25  
 
Puede   admitirse   que   los   ingresos   de   las   familias   que   habitan   en   dicha   población   sigue   una  
distribución  uniforme  en  el  intervalo  [40.000  –  140.000]  con  un  nivel  de  significancia  del  5%  
 
Dado  que  ya  se  tienen  las  frecuencias  observadas,  el  siguiente  paso  es  calcular  la  frecuencia  
esperada   Ei,   recordando   que   esta   siempre   será   igual   a   pi·∙n,   donde   n   es   el   número   total   de  

 
12   [ POLITÉCNICO GRANCOLOMBIANO]
 

observaciones   y   pi   es   la   probabilidad   de   la   clase   estimada   con   base   en   la   función   de  


distribución  de  probabilidad  que  se  sospecha  tienen  los  datos.  
 
Dado  que  se  sospecha  que  los  datos  siguen  una  distribución  uniforme  [40  –  140],  el  cálculo  
de   la   probabilidad   pi   debería   realizarse   con   la   función   de   densidad   acumulada   de   una  
uniforme  que  como  habíamos  visto  en  la  semana  2  del  curso  es  igual  a:  
 
!−!
!! ! =  
!−!
 
Para  la  primera  clase  pi  sería  entonces:  
 
! 40 < ! ≤ 60 = ! ! ≤ 60 − ! ! ≤ 40  
 
60 − 40 40 − 40
! 40 < ! ≤ 60 = −  
140 − 40 140 − 40
 
! 40 < ! ≤ 60 = 0,2 − 0  
 
! 40 < ! ≤ 60 = 0,2  
 
Entonces  Ei  seria  0,2*100  =20  
 
Nota:   Dado   que   se   sospechaba   que   los   datos   seguían   una   distribución   uniforme,   la  
probabilidad   fue   calculada   con   la   función   de   densidad   acumulada   de   la   uniforme,   si   por   el  
contrario   se   hubiese   sospechado   que   los   datos   seguían   una   distribución   exponencial,   la  
probabilidad   debería   haber   sido   calculada   con   la   función   de   densidad   acumulada   de   la  
exponencial,   si   se   hubiese   sospechado   que   los   datos   seguían   una   distribución   Poisson,  
entonces  debía  haberse  calculado  la  probabilidad  con  la  función  de  densidad  de  una  Poisson,  
etc…  
 
Este   procedimiento   se   repite   para   cada   una   de   las   clases   obteniendo   los   siguientes  
resultados:  
 
Ingresos   anuales   Frecuencia   Probabilida Frecuencia  
en   miles   de   Observada   d   Esperada  (Ei)  
dólares   (Oi)  
40  ≤  x  ≤  60   12   0,2   20  
60  <  x  ≤  80   8   0,2   20  
80  <x  ≤  100   25   0,2   20  
100  <x  ≤  120   30   0,2   20  
120  <x  ≤  140   25   0,2   20  

 
[ SIMULACIÓN GERENCIAL ] 13
 

 
Teniendo   los   valores   de   la   frecuencia   observada   y   de   la   frecuencia   esperada   es   posible  
realizar  el  cálculo  del  estadístico  recordando  que  este  es  igual  a:  
 
!
!! − !! !
!=  
!!
!!!
 
Se  obtienen  entonces  los  siguientes  resultados:  
 
Ingresos   anuales   Frecuencia   Probabilida Frecuencia   (Oi-­‐Ei)2/Ei  
en   miles   de   Observada   d   Esperada  (Ei)  
dólares   (Oi)  
40  ≤  x  ≤  60   12   0,2   20   3.2  
60  <  x  ≤  80   8   0,2   20   7.2  
80  <x  ≤  100   25   0,2   20   1.25  
100  <x  ≤  120   30   0,2   20   5  
120  <x  ≤  140   25   0,2   20   1.25  
  Y  =   17.9  
 
Una   vez   obtenido   el   estadístico   este   deberá   compararse   con   el   valor   Chi2   de   la   tabla   Chi2,  
para   calcular   este   valor   recuerde   que   deben   tenerse   presente   el   nivel   de   significancia   con  
que  se  realizó  la  prueba  y  los  grados  de  libertad.  
 
Para   este   ejemplo,   específicamente,   se   sugirió   que   alfa   fuera   igual   a   0.05   y   los   grados   de  
libertad   siempre   serán   iguales   al   número   de   clases   menos   1,   es   decir,   que   para   el   ejercicio   los  
grados  de  libertad  serían  df  =  5-­‐1  =  4.  
 
Observando  la  tabla  de  la  Chi2  obtenemos  entonces  que  el  resultado  es:  
 

 
 
Para  concluir,  si  se  rechaza  o  no  la  hipótesis  de  que  la  distribución  de  los  ingresos  anuales  de  
dichas   familias   sigue   una   distribución   entre   [40.000   –   140.000]   se   deben   comparar   los  
valores  del  estadístico  calculado  Y  y  los  de  la  tabla  Chi2,  así:  

 
14   [ POLITÉCNICO GRANCOLOMBIANO]
 

- Si   el   estadístico   Y   es   menor   al   valor   en   tabla   de   la   Chi2,   entonces   no   se   rechaza   la  


hipótesis  nula  de  lo  contrario  se  rechaza  

Para   este   ejemplo   en   particular   dado   que   Y   =   17.9   no   es   menor   a   9.48,   entonces   se   debe  
rechazar  la  hipótesis  nula  y,  por  lo  tanto,  se  concluye  que  el  ingreso  anual  de  las  familias  no  
sigue  una  distribución  uniforme  ente  [40.000  –  140.000].  
 

3.2. Prueba  Kolmogorov-­‐Smirnov  

En   esta   prueba   se   pretende   medir   la   mayor   desviación   entre   la   función   de   distribución  


teórica   y   la   empírica.   Esta   desviación   se   compara   con   el   valor   crítico   respectivo,   según   la  
tabla  asociada  a  este  tipo  de  prueba.  Una  ventaja  de  esta  prueba  consiste  en  que  funciona  
muy  bien  para  cualquier  tamaño  de  muestra,  incluso  para  conjuntos  de  datos  muy  pequeños.  
 
El  algoritmo  para  ejecutar  esta  prueba  es  como  sigue:  
 
  1.    Ordenar  los  datos  de  manera  ascendente  
  2.    Calcular  F  (X)  para  cada  uno  de  los  datos  
  3.    Calcular  las  siguientes  desviaciones  
 
!
!! = !"# − ! !  
!
!−1
!! = !"# ! ! −  
!
 
  4.    Estimar  el  estadístico  de  la  prueba  dado  por  ! = max !! , !!  
5.     Determinar   el   valor   crítico  !!  de   la   tabla,   para   un   nivel   de   significancia   α   y   un   tamaño   de  
muestra  N.  
6.     Si   el   estadístico   de   la   prueba   es   mayor   que   el   valor   crítico   de   la   tabla,   entonces   se  
rechaza  la  hipótesis.  
 
Ejemplo:  
 
Se  tomaron  mediciones  de  tiempo  de  un  proceso  crítico  en  una  línea  de  producción,  y  se  
tiene  la  siguiente  información  (en  segundos)  
 
17,3   19,6   10,7   11,3   17,8  
16,1   18,0   17,6   18,7   14,5  
 
Se  quiere  comprobar  la  hipótesis  de  que  este  tiempo  sigue  una  distribución  uniforme  con  
parámetros  (10,  20)  segundos,  con  un  nivel  de  confianza  del  95%.  
 

 
[ SIMULACIÓN GERENCIAL ] 15
 

De   manera   similar   a   la   elaboración   de   los   diagramas   Q-­‐Q   y   P-­‐P,   resulta   bastante   útil   la  
elaboración  de  una  tabla  para  completar  la  prueba.  
 

 
 
D+  =  0,07  
D-­‐    =  0,33  
 
Entonces,   el   estadístico   de   la   prueba   corresponde   a   0,33.   Se   procede   ahora   a   consultar   la  
tabla  de  valores  críticos  de  la  prueba  Kolmogorov-­‐Smirnov,  la  cual  se  muestra  a  continuación:  
 

 
 
Se  puede  observar  que  el  valor  crítico  equivale  a  0,40925,  para  un  tamaño  de  muestra  n  =  10,  
y   un   nivel   de   significancia   del   5%.   Como   este   valor   es   mayor   al   estadístico   de   la   prueba,   no  
existe   suficiente   evidencia   estadística   para   rechazar   la   hipótesis   de   que   los   datos   se  
distribuyen  uniformemente.  
 

 
16   [ POLITÉCNICO GRANCOLOMBIANO]
 

4. P-­‐Value  

Otra   forma   de   determinar   si   se   rechaza   o   no   una   hipótesis   sin   emplear   directamente   los  
estimadores   es   a   través   del   concepto   de   P-­‐value   (esta   metodología   es   la   que   suelen   emplear  
la  gran  mayoría  de  software  estadísticos  capaces  de  realizar  análisis  de  entrada).  
 
El  P-­‐Value  corresponde  al  área  superior  derecha  a  partir  del  estadístico  de  prueba,  es  decir,  
es  la  probabilidad  acumulada  que  existe  después  del  estadístico  de  prueba.  Por  ejemplo  para  
el  caso  de  la  prueba  Chi2  realizada  en  el  ejemplo  podemos  ver  que  el  p-­‐value  corresponde  al  
área  amarilla  +  área  azul:  
 

 
 
Con  base  en  este  análisis,  las  conclusiones  se  tomarían  así:  
 
Si  el  p-­‐value  es  menor  que  el  nivel  de  significancia  entonces  se  debe  rechazar  la  hipótesis  nula,  de  
lo  contrario  no  se  rechaza  

 
[ SIMULACIÓN GERENCIAL ] 17

También podría gustarte