Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Estadistica Productividad Calidad
Estadistica Productividad Calidad
Dr
Dr.. Vctor A. Arredondo lvarez
LAE
Lic. Andrs V
aldivia Ziga
Valdivia
Estadstica,
Productividad
y Calidad
Mario Miguel Ojeda
Roberto Behar
ISBN:
Estadstica, Productividad y Calidad es un texto editado por la Secretara de Educacin de Veracruz del Gobierno
del Estado de Veracruz de Ignacio de la Llave. Toda correspondencia dirigirla al Departamento de Apoyo
Editorial de la Coordinacin de Bibliotecas y Centros de Informacin Documental de la SEV, Av. Araucarias nm. 5,
Edificio Orense II , tercer piso, Col. Esther Badillo, C.P. 91190. Tels. 01 (228) 813-98-61 y 813-99-44 (fax).
Correos electrnicos: apoyoeditorialsec@secver.gob.mx y daesec05@yahoo.com.mx El contenido es
responsabilidad de los autores. Se autoriza la reproduccin parcial o total del contenido, siempre y cuando se cite
la fuente.
CONTENIDO
Preliminar
Introduccin
7
13
Tringulo de la calidad
La espiral de la calidad
Control evolutivo
Contribuciones de Deming
Observaciones finales
19
21
22
23
28
31
32
40
Colectivos estadsticos
Estudios enumerativos y estudios analticos
Muestreo de procesos
Escalas de medicin
Variabilidad y estadstica
53
54
56
57
59
62
64
67
69
70
73
75
77
79
84
95
98
103
103
106
5. Grficos de control
5.1
5.2
5.3
5.4
5.5
109
112
113
120
128
6. Introduccin al muestreo
6.1 Censos y muestras
6.2 Planeacin de una encuesta
6.3 Muestreo aleatorio simple
6.4 Muestreo aleatorio estratificado
6.5 Muestreo por conglomerados
6.6 Muestreo sistemtico
6.7 Otros esquemas aleatorios
6.8 Muestras no aleatorias
6.9 Tamao de la muestra
6.10 Diseo del cuestionario
Anexo
Referencias
130
130
131
131
133
135
136
136
137
142
145
173
PRELIMINAR
agrcola. Las razones son evidentes. Fisher desarroll casi todo su trabajo
estadstico en Rothamsted, una estacin experimental dedicada originalmente a
comparar fertilizantes de origen qumico. Sus estudiantes fundaron escuelas de mtodos estadsticos en Estados Unidos de Amrica (George W.
Snedecor en Iowa; y Gertrude Cox y W. G. Cochran en North Carolina) y,
en la India, P. V. Sukhatme y Mahalanobis. Aunque parezca increble, estamos hablando del primer tercio del siglo XX. Los primeros estadsticos mexicanos fueron ingenieros agrnomos como Emilio Alans Patio, quien fue
becado por otro agrnomo Juan de Dios Bojrquez para estudiar con
Corrado Ginni en Italia, en 1931. Desde all hasta 1959 hay un largo tramo,
pues fue hasta ese ao que tuvimos a nuestro primer doctorado en la disciplina: Basilio Alfonso Rojas Martnez; el segundo fue Jos Nieto de Pascual.
Ambos se graduaron en la Iowa State University.
Basilio Rojas cre en Chapingo el primer programa de maestra en
estadstica en Mxico, hace ms de cuarenta aos. En consecuencia, todava
en 1975 prcticamente todos los estadsticos mexicanos eran profesionales
de la agronoma, al igual que en EE. UU., donde las ms prestigiadas
ctedras de estadstica se ubicaron inicialmente en los Land-Grant
Colleges. Paulatinamente, los mtodos desarrollados por Fisher en el contexto de la experimentacin agrcola se extendieron a la industria y, aunque
ms lentamente, a las ciencias sociales. Seguramente los pases en los que
la industria adopt primero las tcnicas estadsticas fueron Estados Unidos
de Amrica y Reino Unido, por su avanzado desarrollo cientfico e
industrial. A ello habra que aadir que en la industria es muy sencillo
instrumentar arreglos factoriales con dos o ms niveles, sin los problemas
de heterogeneidad del material experimental que ocurren inevitablemente
en la agricultura (y en la biologa en general) cuando se tiene un nmero
grande de tratamientos.
Este texto se ha alargado abusivamente, por lo que debo argumentar
que esta verborrea era necesaria para fundamentar las razones por las que
considero que la publicacin de este libro es una muy buena nueva para la
profesin estadstica. El rezago del pas en materia de control de calidad es
la suma de lo que expuse como razones derivadas del desarrollo histrico
de la estadstica, ms la peculiar circunstancia mexicana, en la que una
poltica de proteccin excesiva a la industria (la sustitucin de importaciones)
favoreci una produccin industrial de baja calidad y alto costo (adems del contrabando, por supuesto). Actualmente, a doce aos de la
firma del Tratado de Libre Comercio de Amrica del Norte, es imposible
que cualquier industria nacional (incluyendo la agricultura de exportacin) subsista sin un control de calidad adecuado. Slo eso bastara para
celebrar la aparicin de esta obra. Pero adems debo destacar la sencillez
de la metodologa presentada, as como la buena factura del texto, ambas
cualidades agradecibles. Desde hace muchos aos sostengo que las
matemticas son necesarias para entender la estadstica, pero no pueden
9
10
11
12
INTRODUCCIN
En este libro hemos ensamblado una serie de temticas que tienen como
propsito dar sentido al pensamiento cientfico y conocer cmo se incorpora
al diagnstico de situaciones, definicin de estrategias de mejora y evaluacin de impactos. Desde esta perspectiva, Estadstica, Productividad y
Calidad presenta esencialmente temticas estadsticas en el mbito de
las tareas de identificacin de problemas, diagnsticos organizacionales
o de procesos y diseo e implantacin de estrategias de mejoramiento de
la calidad y la productividad. Los ejemplos e ilustraciones se refieren a
organizaciones productivas, de servicios y en el mbito de la educacin,
con lo que se demuestra que los conceptos, principios y tcnicas son de
aplicacin general. Por tal motivo, proponemos estos contenidos como
fundamentales para la formacin de un pensamiento estadstico del ciudadano del nuevo mundo.
Con la apertura de las economas, la multiplicacin de los tratados
comerciales, los avances tecnolgicos y del conocimiento en disciplinas
como administracin, ingeniera, psicologa e informtica se ha
incrementado considerablemente la atencin al desarrollo de sistemas,
modelos y nuevos enfoques para abordar las tareas de mejoramiento
productivo y de la calidad. Ya no se habla solamente de esto asociado a los
procesos industriales o de manufactura, sino que tambin se incluye a todo
tipo de organizaciones, como las empresas de servicios, entre las que
podemos mencionar aqullas de carcter pblico como gobiernos, hospitales y escuelas.
Por otro lado, los conceptos, los conocimientos y las habilidades
asociados a este desarrollo no solamente interesan a los mandos superiores o
a los encargados de los niveles intermedios en las empresas u organizaciones, sino que se han convertido en una necesidad para los trabajadores
administrativos y hasta para los operativos. En el sector educativo es
muy importante que maestros y alumnos de la educacin media superior
y superior conozcan y tengan ciertas competencias para identificar y
aplicar este conocimiento en el mbito laboral y en las actividades de la
vida diaria.
En este panorama, las herramientas estadsticas han ganado una
popularidad extraordinaria y cada da son ms aceptadas y valoradas por
su potencial para apoyar de manera significativa los diagnsticos de procesos, en la identificacin de problemas y puntos crticos y, en trminos
generales, en las tareas de mejoramiento continuo. Es una realidad el
hecho de que el conocimiento adecuado de la metodologa estadstica es
ya demandado en el mbito del desarrollo empresarial, y no slo en los
procesos industriales y de manufactura donde la estadstica ha tenido
bastante aplicacin y desarrollo. Hay que destacar que no son slo los
conocimientos sobre herramientas especializadas los que son requeridos a
nivel general, sino tambin aqullos sobre herramientas bsicas y mtodos
cuyo valor prctico ha sido probado en pases con un desarrollo significa15
de la eficiencia en las diversas tareas que se presentan en una organizacin, y como tales hay que conocerlas y dominarlas para saber cundo y
cmo usarlas adecuadamente. La prdica que se repite es que los mtodos
estadsticos no sustituyen a las buenas ideas, ni a los propsitos, ni al buen
conocimiento de los procesos, ni a las actitudes positivas del personal
hacia el mejoramiento, sino que son auxiliares valiosos para conocer
mejor dichos procesos, para sustentar las acciones correctivas y, en general,
para tomar decisiones con respaldo en informacin relevante, oportuna y
confiable. Este texto est organizado de la manera siguiente:
En el primer captulo se presenta una serie de aspectos relacionados
con la importancia de la estadstica en el contexto del mejoramiento de la
calidad, tratado desde una perspectiva sistmica. Adems, se revisan brevemente las contribuciones de Deming y se plantea un punto de vista
sobre la relacin calidad-estadstica. Indudablemente este captulo es el
marco conceptual que envuelve y da sentido a la aplicacin de los principios y las tcnicas estadsticas a lo largo del libro Estadstica, Productividad
y Calidad.
En el segundo captulo se trata una serie de temticas fundamentales
para comprender el proceso de aplicacin de la estadstica; se introducen
conceptos como validez interna y externa de estudios tcnicos o investigaciones estadsticas, y se discute el papel de la representatividad y la
comparabilidad; asimismo, se hace una descripcin general del proceso
de aplicacin de la metodologa estadstica en el contexto de una investigacin o un estudio tcnico. Esperamos que la lectura de este captulo
propicie una visin general sobre para qu, cmo y cundo deben usarse
los principios, los mtodos, las tcnicas y los procedimientos de la metodologa estadstica. Se destaca adems la importancia del diseo estadstico,
aunque tambin se trata lo relativo al anlisis de los datos, sin dejar de
lado la importancia de elaborar un buen informe o reporte, o la simple
presentacin ejecutiva de los resultados.
En el tercer captulo se presenta una serie de conceptos bsicos de la
estadstica. La idea es dar orden e ilustrar cada uno de los aspectos que se
consideran clave como antecedente para un mayor y mejor entendimiento
de lo que se presentar en el siguiente captulo. Se pone nfasis en el entendimiento de la relacin de control y disminucin de la variabilidad, del
concepto de muestreo de procesos y a la caracterizacin de estudios
enumerativos y analticos.
En el cuarto captulo se presentan las herramientas estadsticas que se
clasifican como bsicas; algunas de ellas han sido ampliamente promocionadas en los talleres de capacitacin que se han puesto de moda en
aos recientes y son muy conocidas, al grado que podramos calificarlas
como de conocimiento popular. Entre stas podemos mencionar al diagrama
de flujo, al diagrama de causa y efecto, al grfico de pareto, al diagrama de
17
dispersin, al histograma, la hoja de registro y el grfico de control (llamados a veces Los Siete Magnficos). Tambin son bastante conocidos los
grficos de pastel, de barras y de desarrollo o de serie de tiempo. No es el
caso del diagrama de tallos y hojas, las grficas de cajas y el diagrama de
puntos, los cuales se constituyen en herramientas exploratorias de gran
utilidad pero que an son poco conocidas fuera del gremio acadmico. El
tratamiento que se da de las herramientas bsicas es de manera integrada y
con nfasis en cmo funcionan, cundo se recomienda usarlas y cmo
interpretarlas. En el anexo se incluye un ejemplo ilustrativo integral que
muestra el uso combinado de las herramientas presentadas.
En el captulo quinto se trata en forma especfica las herramientas
ms usadas en el control estadstico de procesos, los llamados grficos o
cartas de control. Su presentacin est precedida del anlisis de conceptos
bsicos de control y de intervencin de procesos, lo que considera-mos
constituye una aportacin para profesores y estudiantes en los niveles
medio y medio superior.
El captulo sexto se dedica a la temtica del diseo de muestras para la
realizacin de encuestas a travs de cuestionarios; se describen los principales
diseos probabilsticos, se incluye una discusin sobre el problema del
tamao de muestra y se aborda su clculo en las situaciones ms elementales.
Estamos seguros de que la estructura de este trabajo es interesante, y
esperamos que su contenido motive a maestros y estudiantes a considerar
una nueva visin de la estadstica, la cual es imprescindible para el ciudadano del siglo XXI.
Finalmente, no podemos dejar de agradecer a quienes han contribuido de
manera importante en la integracin y composicin de la versin final
de este libro: a Rosa Elena Martnez, Guillermo Cruz, Vanessa Arroyo y
Betsab Vzquez de la Universidad Veracruzana, y a Carlos Armando Alvear
y Madeline Melchor de la Universidad del Valle, de Cali. Asimismo,
reconocemos la contribucin de profesores y estudiantes que han usado
versiones preliminares o partes del material que aqu se presenta y
que han hecho observaciones y sugerencias para mejorar la redaccin
y presentacin. De alguna manera Estadstica, Productividad y Calidad
es una obra colectiva, aunque, por supuesto, los autores asumimos toda la
responsabilidad.
Xalapa, Veracruz, 2006.
Los autores
18
esto es, considera que la calidad es dinmica (calidad es cumplir con los
requerimientos del cliente, todo el tiempo); considera que la calidad busca
la optimizacin de costos (...al menor precio); y considera que para lograrla
hay que comprometer a todas y a cada una de las partes que intervienen en
el proceso (... involucrando a todos). En este enfoque hay tres aspectos
que son complementarios para el logro del mejoramiento continuo y se
presentan en el tringulo de la calidad (Grfico 1.1).
Objetivos-Propsitos
Filosofa
ESTADSTICA
Metodologa
Mtodo Cientfico
Psicologa
Factor Humano
Grfico 1.1 Tringulo de la calidad: aspectos fundamentales y necesarios para el mejoramiento continuo
Intervencin
Evaluacin
Diagnstico
24
25
Principio
Complementar
pedido
Cliente
(Comprador)
Remitir pedido
Recibir pedido:
inspeccionarlo
Devolver pedido
al cliente
No
Procesar la
reclamacin
Proveedor de
compras por
correo
Informacin
completa
?
S
Remitir mercancas
al cliente
Recibir mercanca:
inspeccionarla
Mercanca
aceptable
?
No
Reclamar al
proveedor
Cliente
(Comprador)
S
Fin
Mejorar la
calidad
Disminuyen
costos
Mejora la
productividad
Bajan los
precios
Incrementa
el mercado
Se permanece
en el negocio
Se provee
ms empleos
...
29
30
2. PRINCIPIOS DE LA MET
ODOLOGA EST
ADSTICA
METODOLOGA
ESTADSTICA
Motivacin
Conocimiento
Investigacin
Nuevo
conocimiento
Problema
33
enfrentarn la resistencia a reformular las creencias de los que operan directamente el proceso de atencin a los clientes que compran a crdito.
Cuando el resultado de esta valoracin crtica del proceso de construccin
de las conclusiones es positivo, se dice que el estudio tiene validez interna.
Los conceptos de validez externa e interna adoptan formas muy especiales cuando la naturaleza de la investigacin hace que la observacin se
realice con base en muestras de individuos de una poblacin que tiene
variabilidad en cuanto a las caractersticas objeto de la investigacin. En
esta situacin, las conclusiones son obtenidas mediante un proceso inductivo
en el cual estn presentes ingredientes como el azar y la incertidumbre.
Ms adelante abordaremos el proceso de aplicacin de la estadstica, en
cuyo contexto se lograr ampliar estos importantes conceptos.
La muestra probabilstica es diferente del muestreo intencional, en el que es el juicio del investigador el que decide sobre
los elementos a estudiar y por lo tanto las inferencias no se sustentan en las probabilidades de eleccin. En el
captulo dedicado al muestreo se tratar con detalle estos conceptos.
34
Ntese que la representatividad de una muestra se juzga, ms que por s misma, por el mecanismo que le dio origen.
En las llamadas poblaciones finitas, la poblacin est conformada por un nmero conocido de unidades (N).
Todos en un saco y se saca al azar una muestra.
35
36
Una suerte es un lote de terreno que se maneja como una unidad, para la siembra, el arreglo, el corte, etctera.
Normalmente el terreno se va empobreciendo con el nmero de siembras (cortes), hasta el punto de que se hace
necesario arreglar el terreno (remover y abonar) despus de un cierto nmero de cortes, generalmente cuatro.
De ah el famoso nombre del diseo de bloques al azar, el cual es un plan experimental ampliamente usado en agricultura.
37
Rendimiento
medio [ton/ha]
K1
K2
K3
Potasio
38
Rendimiento
medio [ton/ha]
N1
N2
Nitrgeno
En el grfico siguiente se observa que para cada una de las dosis de potasio
el efecto del cambio en la dosis de nitrgeno sobre el rendimiento es
distinto. As, por ejemplo, el mayor efecto del cambio en la dosis de nitrgeno
se produce cuando se aplica una dosis K2 de potasio. Este efecto diferencial
de un factor, de acuerdo con dos niveles de otro factor, se conoce como
interaccin
interaccin..
Nivel N2
Rendimiento
medio [ton/ha]
Nivel N1
K1
Grfico 2.4
K2
Potasio
K3
Realidad que
pretende ser
conocida
VALIDEZ
EXTERNA
VALIDEZ
INTERNA
DISEO DEL
ESTUDIO
Informacin
disponible
Nuevos
datos
Cambio en
el diseo
Hipstesis Hj
Deduccin
Consencuencias
de Hj
Induccin
Hiptesis
modificada
Hj+1
Grfico 2.5 La bsqueda del conocimiento y la estadstica (Adaptado de Box et al., 1993)
40
COLECTIVO
UNIDAD
Medicin
X
Y
Z...
W
42
Una excelente clasificacin de un estudio de acuerdo con distintos factores se realiza en Mndez et al. (1993).
45
Variable X1
Variable Xp
x11
x12
...
x1p
x21
..
.
x22
..
.
...
...
x2p
..
.
xn1
xn2
...
xnp
Medicin unidad 1
Medicin unidad n
48
Al analizar esta matriz hay que tener siempre en mente las preguntas que
originaron el estudio, el objetivo preciso y las ideas clave de la estadstica.
Con los medios modernos de la computacin hacer un anlisis estadstico
requiere del diseo de estrategias muy precisas. En la siguiente seccin se
darn algunas ideas generales y a lo largo del texto, se presenta e ilustra el
uso de herramientas bsicas y procedimientos que estn implementados
en la mayora de los paquetes estadsticos.
distinguir los diferentes tipos de variables que se vayan a estudiar, definiendo si son controlables, explicatorias o variables
respuesta, etctera.
Adems debe hacerse una clasificacin de variables por tipo de
medida o escala, y por la naturaleza: continuas o discretas, cualitativas, binarias, etc. Todo ello porque los anlisis resultantes
dependen crticamente de la estructura que guarden los datos.
4. Posteriormente los datos deben ser examinados en una forma
exploratoria antes de tratar de intentar un anlisis ms sofisticado.
50
Para llevar a efecto este anlisis es necesario el clculo de estadsticas bsicas y el ajustar grficas de funciones a los datos en cualquier
forma que parezca apropiada, haciendo esto separadamente para
cada variable (y en algunos casos para pares de ellas). Se recomienda
el uso de histogramas, diagramas de cajas y alambres, as como
diagramas de dispersin, de tallos y hojas para hacerse una idea de
la distribucin que pueda suponerse para los datos, adems de tratar
de observar los efectos de los valores faltantes o valores extremos y
que puedan, o no, afectar los posibles anlisis.
5. Utilizar el sentido comn todo el tiempo. Aunque los resultados de
aplicar la estadstica pueden contradecir algunas ideas preliminares,
la explicacin que se logra de los resultados es consistente con la
lgica del sentido comn.
6. Reportar los resultados en una forma clara y explicativa por s
mismos. Debemos dejar que las evidencias hablen, que sean el eje
del discurso de las recomendaciones y conclusiones.
52
3. CONCEPT
OS BSICOS DE EST
ADSTICA
CONCEPTOS
ESTADSTICA
53
Poblacin
Objetivo
Inferencia
Juicios
Poblacin
de muestreo
Resultados
Anlisis
Datos
Medicin
Muestra
Grfico 3.1 Esquema general de los colectivos involucrados y las fases en un estudio estadstico
Especificaciones del
proceso
Materiales y
personas
Condiciones
del medio
Proceso en
control
Causas
atribuibles
Proceso fuera
de control
Los grficos de control son una valiosa herramienta para monitorear los
procesos una vez que se tiene informacin suficiente sobre su funcionamiento normal. La vigilancia de los procesos, para que se mantengan bajo
control, es una actividad importante en la administracin de la calidad.
En el captulo quinto se presentan los grficos de control ms populares y
tiles en las etapas preliminares de control estadstico de procesos.
60
4. HERRAMIENT
AS BSICAS P
ARA EL
HERRAMIENTAS
PARA
DIAGNSTICO DE SITUACIONES
Inicio
Pasos del
proceso
Decisin
No
S
Final
Grfico 4.1 Forma general de un diagrama de flujo
Inicio
Seleccione un estudiante
Haga la pregunta
respecto de la edad
D por concluido,
agradeciendo
Corresponde?
No
S
Efecte la entrevista
No
Se cubri
la cuota?
Final
63
Encender
televisor
Aparece la
imagen
No
El TV
est
conectado
No
S
Es buena
la imagen
Conectar TV
Aparece la
imagen
No
Llamar
tcnico
No
Ajustar
controles
Es buena
la imagen
Ver programa
No
Grfico 4.3 Diagrama de flujo para el proceso que se sigue para ver un programa de televisin
Efectos
Causas
Mtodo
Personas
Calidad
Materiales
Maquinaria
Ejemplo 3. Este ejemplo fue desarrollado por los miembros de los departamentos de Control de Calidad y Garanta de Calidad de la Central Nuclear
de Laguna Verde (VeracruzMxico). Se realiz como una prctica con
base en una lluvia de ideas, que fue coordinada por uno de los autores del
presente libro (ver Grfico 4.5).
MA
TERIALES
MATERIALES
PERSONAS
Falta de
Mala
capacitacin supervisin
Falta de
capacitacin
SUPERVISOR
Falta de
capacitacin
Mala
operacin
OPERADOR
Descalibrado
Proveedor
Proveedor
Almacenamiento
BALEROS
INSPECTOR
Proveedor
Uso inadecuado de
procedimientos
TERMINALES
Confusos Obsoletos Proveedor
Almacenamiento
PLANOS
Desgastada Inadecuada
(BARNIZ) AISLAMIENTO
Almacenamiento
Proveedor
TCNICO
Cansancio
ALAMBRES
Mala seleccin
del punto de
ajuste
Ballenazo
Mala
seleccin de
protecciones
FALTA DE PROTECCIN
Atascamiento del
equipo
subordinado
Equipo de
prueba
descalibrado
CONEXIONES INVERTIDAS
Mal diseo
Mala compra
Degradada
Finalizada
Polvo Alta
Falta de
Presentacin
temperatura conocimientos inadecuada
Hmedo
tcnicos
AMBIENTE
BALLENAZO
Balero
Mala
daado cimentacin
Tornillos
flojos
Bandas
flojas
DESALINEAMIENTO
VIDA TIL
MANTENIMIENTO
Falta de
Presentacin
conocimientos inadecuada
tcnicos
PROCEDIMIENTO
ALTAS VIBRACIONES
Inadecuado
LUBRICANTES
Inadecuado mtodo
de inspeccin
Falta de
capacitacin
Almacenamiento
Proveedor
HERRAMIENTA
FALLAS EN
MO
TORES
MOT
Ausencia Inadecuada
COMUNICACIN
Inadecuado
DISEO
Ausencia Inadecuada
SUPERVISIN
Presentacin
inadecuada
ESPECIFICACIONES
DE COMPRA
INSPECCIN
EQUIPO
Falta de conocimientos
tcnicos
MT
ODOS
MTODOS
66
Las hojas de inspeccin son formas fciles de comprender para contestar a la pregunta: Con cunta frecuencia ocurren ciertos eventos? Empieza
entonces el proceso de convertir opciones en hechos. Para la elaboracin de una hoja de inspeccin se requiere lo siguiente:
1. Estar de acuerdo sobre qu evento exactamente est siendo observado.
2. Decidir el periodo durante el cual sern recolectados los datos. Esto
puede variar de horas a semanas.
3. Disear una forma que sea clara y fcil de usar. Asegrese de que
todos los campos estn claramente descritos y de que haya suficiente espacio para registrar los datos.
4. Obtener los datos de una manera consistente y honesta. Asegrese
de que se ha dedicado el tiempo necesario para esta labor.
5. Asegrese de que la muestra de observaciones o el colectivo de casos
sea representativo.
6. Reafirme que el proceso de muestreo sea eficiente y prctico, de
manera que las personas tengan tiempo y todas las indicaciones
necesarias para hacerlo.
7. La poblacin (universo) a ser muestreada debe ser homognea; si
no lo es, el primer paso debe ser la estratificacin (agrupacin).
Los datos agrupados permiten verificar las causas atribuibles que
producen variabilidad, si es que hay diferencias entre los estratos.
Ejemplo 4: En la Tabla 4.1 se presenta la propuesta de una hoja para registrar
los datos de la entrega de desayunos escolares en comunidades apartadas
del estado de Veracruz, Mxico. Se llenara una hoja para cada caso de
entrega, despus se podra hacer un concentrado de los datos en otra hoja
de inspeccin (o de registro) en la que nicamente se registraran los casos de
retraso con su causa principal.
Orden:
Fecha de la orden:
Fecha de recepcin:
Turno de recepcin:
Fecha de despacho:
Turno de despacho:
Fecha de entrega:
Situacin de la entrega:
Monto del pedido:
Observaciones:
Certific:
Tabla 4.1 Forma de registro para un caso de entrega de desayunos escolares
68
Causa de retraso
Retraso en recepcin
Retraso en despacho
Retraso por dificultad de surtido
Retraso por transporte
Otra
Turno
Vespertino
Matutino
17
11
23
6
4
14
19
18
3
2
Total
31
30
41
9
6
69
Estrato econmico
Frecuencia
Porcentaje
Bajo-Bajo
26
26
Bajo-Medio
22
22
Bajo-Alto
15
15
Medio-Alto
7
7
Medio-Bajo
20
20
Medio-Alto
5
5
Alto
5
5
Total
100
100
Tabla 4.3 Distribucin de frecuencias por estratos socioeconmicos
de la muestra de cien estudiantes
ESTRA
TO SOCIOECONMICO
ESTRAT
Alto
Medio-Alto
Medio -Bajo
Bajo-Alto
Bajo-Medio
10
Medio-Medio
20
Bajo-Bajo
Porcentaje
30
70
Pareja
Antigedad Z
Ingreso
-hombre
Ingreso-hombre
X1
Gasto
-alimentaGasto-alimentacin X2
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
2
2
2
2
2
2
2
2
2
231
233
245
231
243
234
240
231
234
224
255
252
245
255
267
213
211
216
220
217
210
209
210
218
169
159
164
160
170
160
158
162
155
153
175
171
178
178
178
145
149
164
152
143
148
145
145
149
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
Gasto
-recreacin
Gasto-recreacin
X3
Ingreso
-mujer
Ingreso-mujer
X4
65
65
69
65
70
62
66
67
62
64
67
54
51
57
57
64
60
61
64
57
60
58
58
60
201
193
206
191
203
190
203
195
195
193
210
211
210
211
223
184
180
184
185
180
179
177
178
182
En el cuadro anterior se presentan las mediciones de matrimonios seleccionados en un sector de clase mediaalta. Con la entrevista se obtuvieron
datos sobre las variables: Z_ antigedad de la pareja, el valor 1 se
asigna a la pareja que tiene 5 aos de casados o menos (baja antigedad)
y de otra forma se asigna el valor 2 (alta antigedad): X1 = Ingreso semanal
del hombre; X 2_gasto semanal de la pareja en alimentacin; X 3 _gasto
semanal en recreacin; X4 _ingreso semanal de la mujer.
208
216
224
232
240
248
256
264
Grfico 4.7 Diagrama de puntos para el ingreso semanal del hombre (X 1), en la pareja
71
Gnero
Este diagrama es tambin til para hacer comparacin de una caracterstica en distintos grupos. En el Grfico 4.8 se presenta la comparacin del
ingreso semanal para hombres y mujeres.
Hombre
Mujer
182
196
210
224
238
252
266
Ingreso semanal
Grfico 4.8 Diagrama de puntos para la comparacin del ingreso semanal para hombres y
mujeres
Antigedad (Z)
Baja
Alta
51
54
57
60
63
66
69
Grfico 4.9 Diagrama de puntos, comparativo de los gastos en recreacin segn antigedad
de la pareja
72
Causa de retraso
Frecuencia
acumulada
Porcentaje
acumulado
Frecuencias
Porcentaje
Falta surtido
41
35.0
41
35.0
Recepcin
31
26.5
72
61.5
Despacho
30
25.6
102
87.2
Transporte
7.7
111
94.9
Otras
5.1
117
100.0
Tabla 4.5 Distribucin de frecuencias de las causas de los retrasos en la entrega de los desayunos
escolares
Se hace evidente que las tres primeras causas son responsables de casi 90%
de los retrasos. Si se eliminaran las dos primeras causas se reducira ms de
la mitad de los retrasos.
120
100
100
80
60
60
40
40
20
20
0
Porcentaje
Frecuencia
80
Falta
surtido
Recepcin
Despacho Transporte
Otras
Grfico 4.10 Diagrama de Pareto para las causas de retraso en los desayunos escolares
Tallos
Hojas
2
3
3
4
4
5 7 8 9 9 9
0 0 1 1 1 2 3 3 4 4
5 5 6 8 8
4
5
Hoja = 1
Clase
Mnimo
Mximo
Total:
6
10
5
1
1
Percentiles
25%
Mediana
75%
25
45
23
Grfico 4.1
1 Diagrama de tallos y hojas de los datos de las edades de los supervisores
4.11
76
Tallos
19
19
20
20
21
21
22
22
23
23
24
24
25
25
Hojas
0
5
1
7
1
5
0
5
1
5
1
5
3
7
2
6
2
7
3
6
1
Clase
7 8 9
7 8 9 9 9
3
8 9
8 8 8 9
7 8 8 8 9 9
2 2 2 3
0 0 1 3
Hoja = 1
Mnimo
Mximo
Total:
1
5
2
7
3
4
2
6
2
8
6
0
4
0
19.0
25.3
50
Percentiles
25%
Mediana
75%
Grfico 4.12 Diagrama de tallos y hojas para el nmero de pedidos por mes
Frecuencia
3
3
10
7
1
17
24
13
12
2
3
3
1
1
Frecuencia
acumulada
3
6
16
23
24
41
65
78
90
92
95
98
99
100
Porcentaje
acumulado
0.03
0.06
0.16
0.23
0.24
0.41
0.65
0.78
0.90
0.92
0.95
0.98
0.99
1.00
Tallos
0
*
1
*
2
Q1 *
Med. 3
Q3 *
4
*
5
*
6
*
Hojas
124
679
0111223344
5567789
4
55556677778888899
000111111112222222334444
5556667778889
000111112222
56
234
558
4
7
Grfico 4.13 Distribucin de frecuencias y diagrama de tallos y hojas de los datos de ventas
de una tienda
4.9 Histograma
Es quiz la representacin grfica para datos continuos que ms se conoce.
En todos los cursos de estadstica se ensea a elaborar una tabla de distribucin de frecuencias y a partir de ella construir un histograma. Para elaborarlo
debemos tomar algunas decisiones: 1) el nmero y tamao de las barras y 2)
las escalas de los ejes; normalmente se recomienda seleccionar entre 8 y 20
barras, pero no hay nada definitivo al respecto. Al igual que en el diagrama
de tallos y hojas, la eleccin de las clases determina la visualizacin de los
aspectos sobresalientes de la forma de la distribucin de los datos.
Al construir un histograma se deben tomar en cuenta los siguientes
aspectos:
1. La escala de valores define la escala de la abscisa.
2. El eje de las ordenadas est definido por la escala de las frecuencias.
3. Se debe guardar la proporcin (3/4) del tamao del eje de la ordenada
con respecto al tamao del eje de la abscisa.
4. Las barras deben ir contiguas, compartiendo los lmites de clase
superior de la primera e inferior de la sucesiva.
5. El histograma debe contener ttulo y una descripcin breve al pie,
indicando fuente y datos relativos.
Ejemplo 9: Para ilustrar considere los datos hipotticos que representan el
nmero de supervisiones realizadas por cada uno de los supervisores
operativos en una fbrica durante el ltimo ao: 63, 88, 79, 92, 86, 87,
83, 78, 41, 67, 68, 76, 46, 81, 92, 77, 84, 76, 70, 66, 77, 75, 98, 81, 82,
81, 87, 78, 70, 60, 94, 79, 52, 82, 77, 81, 77, 70, 74, 61. La distribucin
de frecuencias para clases de tamao cinco es como se muestra en el
Grfico 4.14.
Intervalo
de clase
Lmites
Punto medio
Frecuencia
Frecuencia
acumulada
40-44
45-49
50-54
55-59
60-64
65-69
70-74
75-79
80-84
85-89
90-94
95-99
39.5-44.5
44.5-49.5
49.5-54.5
54.5-59.5
59.5-64.5
64.5-69.5
69.5-74.5
74.5-79.5
79.5-84.5
84.5-89.5
89.5-94.5
94.5-99.5
42
47
52
57
62
67
72
77
82
87
92
97
1
1
1
0
3
3
4
11
8
4
3
1
1
2
3
3
6
9
13
24
32
36
39
40
Porcentaje
acumulado
2.5
5.0
7.5
7.5
15.0
22.0
32.5
60.0
80.0
90.0
97.5
100.0
79
HIST
OGRAMA
HISTOGRAMA
16
14
Frecuencia
12
10
8
6
4
2
0
Intervalos
Grfico 4.14 Histograma para los datos hipotticos considerando seis intervalos
HIST
OGRAMA
HISTOGRAMA
Frecuencia
10
8
6
4
2
0
)
.56
93
.56
3
>
-9 )
8
.18
9.1
(89
-8
.8
)
(84
4.8
-8
2)
.42
0.4
(80
-8
.04
4)
(76
6.0
-7
)
.66
.66
1
(71
-7
.28
)
8
(67
7.2
-6
)
.9
2.9
(62
-6
.52
2)
(58
8.5
- 5 4)
.1
.14
4
(54 - 5
.76
6)
(49
9.7
-4
.38
(45
.38
45
<=
Intervalos
Grfico 4.15 Histograma para los datos hipotticos considerando trece intervalos
80
Frecuencia
HIST
OGRAMA
HISTOGRAMA
24
22
20
18
16
14
12
10
8
6
4
2
0
<= 55.25
(55.25-69.5)
(69.5-83.75)
> 83.75
Intervalos
Grfico 4.16 Histograma para los datos hipotticos considerando cuatro intervalos
HIST
OGRAMA
HISTOGRAMA
Frecuencia
40
30
20
10
3.3
3.4
3.5
3.6
3.7
3.8
3.9
4.0
Grosor
81
Situacin a)
Variabilidad Pequea
Situacin b)
Variabilidad Grande
Grfico 4.18 Histograma para dos posibles estados de un mismo proceso
Situacin c)
Sesgo Positivo
Situacin d)
Sesgo Negativo
83
histograma y quedarse con aqul que mejor represente los datos. Sin embargo, una recomendacin tan reconocida como apropiada (Ryan, 1982),
es tomar un nmero a de intervalos tal que 2a-1 n < 2a. As por ejemplo,
para n = 100, 26 100 < 27, y entonces deberamos usar siete clases.
Mximo
Q3 + 1.5AI
Q3
AI = Q3 - Q1
R = Mximo - Mnimo
= X(n) - X(1)
Mediana = Q2
Q1
Q1 - 1.5AI
Mnimo
50
Punto Atpico
46
Edad
42
38
34
30
26
22
Grfico 4.21 Grfica de caja para los datos de las edades de los supervisores operativos
85
26 29 30 31 33 34 38 39 42 45 45 69
(3) (4) (5) (6) (7) (8) (9) (10) (11) (12) (13) (14)
AI = Q3 Q1 = 42-29 = 13
Longitud mxima = 69
Valor adyacente inferior (VAI) = Q11.5(AI) = 29-1.5(13) = 9.5
Valor adyacente superior (VAS) = Q3+1.5(AI) = 42+1.5(13) = 61.5
Note que en este caso particular, el punto mnimo (8) est por debajo
del VAI, por lo tanto es un posible valor atpico; tambin lo es el mximo
(69) puesto que supera al VAS, por esta razn los puntos interiores ms
cercanos al VAI y al VAS son 25 y 49, respectivamente. Estos dos datos (25
y 49) definen la longitud de los alambres que van pegados a la caja. Se le
pide al lector que considerando estos datos construya el diagrama.
En resumen, puede decirse que los diagramas de caja y alambres son
tiles para los siguientes propsitos:
est el gasto semanal de alimentacin para la familia.El cuadro de frecuencias que se construy con los 500 datos de gasto se presenta acompaado
de su histograma y su diagrama de caja.
Desde (>)
Hasta (=)
Frecuencia
6.00
18.90
31.80
44.70
57.60
70.50
83.40
96.30
109.20
122.10
18.90
31.80
44.70
57.60
70.50
83.40
96.30
109.20
122.10
135.00
Total
52
109
108
128
53
28
7
8
6
1
500
Frecuencia
acumulada
Porcentaje
52
161
269
397
450
478
485
493
499
500
10.4
21.8
21.6
25.6
10.6
5.6
1.4
1.6
1.2
0.2
100.0
Porcentaje
acumulado
10.4
32.2
53.8
79.4
90.0
95.6
97.0
98.6
99.8
100.0
30
Por
centaje
Porcentaje
25
20
15
10
5
0
)
6.3
-9
)
3.4
-8
)
0.5
-7
)
7.6
-5
)
4.7
-4
)
1.8
-3
.0)
35
-1
2.1
.1)
[12
22
-1
9.2
.2)
[10
09
-1
.3
[96
.4
[83
.5
[70
.6
[57
.7
[44
.8
[31
)
8.9
-1
.9
[18
0
[6.
88
140
120
Puntos
Atpicos
Dlares/Semana
100
80
60
40
20
0
G-Ali-Semana
Grfico 4.23 Diagrama de caja y alambres para la distribucin del gasto semanal en alimentacin
Distribuciones
Brix
Cuantil
20
15
Lmite de
especificcin
12
12.5
13
10
5
13.5
14
14.5 15
15.5 16
100.0% mximo
99.5%
97.5%
90.0%
75.0% cuartil
50.0% mediana
25.0% cuartil
10.05
2.5%
0.5%
0.0% mnimo
16.114
16.114
16.059
15.829
15.482
15.123
14.863
14.457
14.208
14.108
14.108
89
Sacarosa
Cuantil
25
20
15
Lmite de
especificcin
10.5
11
11.5
10
0
12
12.5
13
13.5
14
100.0% mximo
99.5%
97.5%
90.0%
75.0% cuartil
50.0% mediana
25.0% cuartil
10.05
2.5%
0.5%
0.0% mnimo
13.808
13.808
13.680
13.381
13.084
12.799
12.409
12.224
11.931
11.735
11.735
Pureza
Cuantil
Lmite de
especificcin
15
10
5
100.0% mximo
99.5%
97.5%
90.0%
75.0% cuartil
50.0% mediana
25.0% cuartil
10.05
2.5%
0.5%
0.0% mnimo
87.687
87.387
87.393
86.459
85.665
85.022
84.449
83.631
82.920
82.364
82.364
Mtodo 1
(tradicional)
Mtodo 2
(nuevo)
895
895
900
915
910
910
915
890
925
915
910
920
890
920
895
905
910
900
920
910
Tabla 4.8 Merma registrada en los almacenes (kg) para cada mtodo de abastecimiento
Mtodo 2
Grfico 4.25 Comparacin de la distribucin de las prdidas de grano en cada uno de los mtodos,
usando diagramas de cajas
140
120
123456789
123456789
123456789
100
123456789012
123456789012
123456789012
123456789012
123456789012
123456789012
123456789012
80
60
40
1
12
12 3
123
1234
Nmero de cortes
Grfico 4.26 Rendimiento de caa de acuerdo con el nmero de cortes en la suerte
92
160
Caa / ha
140
Proveedor
120
100
Ingenio
80
60
40
1
2
3
Nmero de cortes
Grfico 4.27 Diagrama de cajas de la comparacin del rendimiento de acuerdo con el origen de la
caa y el nmero de cortes en la suerte
Puede notarse adems que las distribuciones para los cortes 1, 2 y 3 tienen
variabilidad muy parecida, mientras que la variabilidad de la distribucin
del rendimiento para las de cuatro cortes es mayor. Observe que en esta
situacin se han considerado en forma conjunta la produccin propia del
ingenio y la de los proveedores externos, por eso surge de manera natural la
siguiente pregunta:
Pregunta 2: El comportamiento registrado en la situacin anterior
es vlida independientemente de si el origen de la caa es ingenio o
proveedor?
Observe en la Grfica 4.27 las cajas sombreadas que corresponden a
las distribuciones del rendimiento para caa del ingenio, mientras las
blancas a proveedor externo. Se nota un comportamiento bastante similar;
es decir, no parece existir diferencia en el rendimiento de la caa con
respecto a su origen. Por su parte, los rendimientos medianos son
consistentes, al igual que su variabilidad; no obstante se nota variabilidad
ligeramente menor en la caa del ingenio, para todos los cortes.
93
19
18
Edad (meses)
17
Proveedor
16
15
14
Ingenio
13
12
11
10
0
2
3
Nmero de cortes
Grfico 4.28 Distribucin de la edad de corte, segn nmero de cortes y procedencia de la caa
160
123
123
Edad (meses)
140
1234
1234
120
Joven
1234
1234
100
Madura
80
12
12
1234
1234 12
60
Vieja
40
1
2
3
Nmero de cortes
Grfico 4.2
9 Distribucin del rendimiento de la caa de azcar, segn edad y nmero de cortes
4.29
Observemos que para cada nmero de cortes hay tres grficos que
corresponden a diferentes grados de madurez de la caa al corte, pero
sistemticamente en cada uno de los grupos de tres grficos, la distribucin
de la caa joven tiene un rendimiento mediano ms alto, seguido por la
madura y, por ltimo, por la vieja, presentndose diferencias relativamente
ms grandes en la caa de cuatro cortes. En esta comparacin est claro el
impacto de la edad de corte.
En la seccin correspondiente al anlisis estratificado, en este mismo captulo, se presenta una serie de comentarios para ser considerados cuando se
sospecha que existen diferencias entre subgrupos que se formaran al dividir el
colectivo de datos en las distintas categoras del factor de inters. Este tipo de
anlisis ya fue aplicado en el ejemplo del rendimiento de la caa de azcar.
15.0
14.5
14.0
13.5
13.0
12.5
12.0
1968
1969
1970
1971
1972
1973
1974
1975
1976
96
1977
Mes
Unidades vendidas en
1989 (en miles)
Unidades vendidas en
1990 (en miles)
Enero
23
30
Febrero
20
35
Marzo
15
25
Abril
25
35
Mayo
28
40
Junio
29
45
Julio
26
40
Agosto
23
35
Septiembre
17
32
Octubre
21
33
Noviembre
25
40
Diciembre
30
50
El paralelismo aproximado entre las dos curvas indica que las ventas se
afectaron por un factor constante, aunque la mayor diferencia se aprecia
en el mes de diciembre.
55
50
45
40
35
30
25
20
15
10
Ene
Feb
Mar
Abr
Variable
May
Jun
Jul
Ventas 1989
Ago
Sep
Oct
Nov
Dic
Ventas 1990
Grfico 4.31 Grficas de desarrollo que comparan ventas mensuales en dos aos
existe una relacin de causaefecto entre dos factores. Existen varios mtodos
estadsticos para llevar a cabo tales investigaciones, uno de ellos, sumamente sencillo y que permite hacer una primera evaluacin, es el diagrama
de dispersin o correlograma. ste es una herramienta que posibilita
hacer una inspeccin o anlisis grfico de dos factores que se manifiestan
simultneamente en un proceso concreto.
15
Ventas mensuales
14
13
12
11
10
12
13
14
15
16
Capital de trabajo
17
18
Grfico 4.32 Correlograma entre capital de trabajo y ventas mensuales (en miles de pesos)
0.5
r 0.9
a)
X
r
0.0
c)
r 0.3
d)
b)
r -0.9
Y
e)
X
r 0.0
f)
Grfico 4.33 Diferentes despliegues grficos con los valores aproximados del Coeficiente de
Correlacin de Pearson
100
Supermercado
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
Nmero de
campaas
17
35
12
16
14
8
11
13
9
3
28
31
14
6
19
20
20
14
17
27
29
30
Ventas en miles
33.5
62.1
29.5
35.1
26.4
19.7
25.8
16.5
5.0
38.6
59.5
60.2
14.5
40.6
40.2
29.5
29.7
37.5
58.3
58.5
57.5
41.5
Tabla 4.10 Datos sobre el nmero de campaas y ventas en una cadena de supermercados
101
70
60
Ventas
50
40
30
20
10
0
0
10
15
20
25
30
35
Nmero de campaas
Ventas = 12,612 + 1,4158 (Nmero de campaas); R2 = 0.518
40
Grfico 4.34 Diagrama de dispersin del nmero de campaas publicitarias y las ventas en una
cadena de supermercados
En la parte inferior se observa un modelo que define un patrn de ajuste rectilneo y su coeficiente de determinacin que mide la calidad del ajuste en una escala
de 0 a 1. En este caso result 0.518, valor que denota un ajuste relativamente
pobre. Esto puede indicar que existen otros factores distintos al nmero de campaas que explican parte de la variacin del valor mensual de las ventas.
Hay que tener cuidado, ya que si el rango de observacin de la variable X
es muy estrecho puede deducirse equivocadamente una baja asociacin
entre las variables. Obsrvese que el correlograma, en el Grfico 4.35,
indica una asociacin lineal fuerte entre X y Y; sin embargo, si slo se
consideran los puntos con valores de X en el rango entre a y b, el coeficiente
de correlacin lineal para dicho punto estara prximo a cero, induciendo
una falsa idea de no asociacin.
Y
Grfico 4.35 Ilustracin del efecto sobre la correlacin del rango de la variable
102
ndice
Matemticas
Promedio
CAPEP
identificar dominios de estudio en la muestra. Por ejemplo, si estamos interesados en estudiar la eficiencia de los empleados de los almacenes rurales,
podran definirse grupos de acuerdo a la antigedad o experiencia en la tarea
que se valora. Una vez realizada la estratificacin se genera una muestra de
datos estratificada, y entonces el anlisis se deber llevar a cabo de manera
comparativa. De hecho, el anlisis detallado que se efectu en la seccin
dedicada a los grficos de caja es una muestra de anlisis estratificado. Para
ilustrar este tipo de anlisis podemos realizar un anlisis comparativo de las
fallas en la captura de datos detectadas semanalmente, por turno, en los almacenes regionales durante un ao. Los datos son como se presentan a continuacin.
Semana
Turno
Matutino
13
9 17 14 16 13
Vespertino
17 26 14 13
Semana
Turno
9 10 11 12 13 14 15
8
9 17 14
8 16
8 16 21 28 16 31 27 26 14 15
16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
Matutino
8 13 16 21
Vespertino
13
8 17 12 16 31 20 13 17 14
8 16 20 12 12
8 21 20 13 21 19 17 23 27
31 32 33 34 35 36 37 38 39 40 41 42 43 44 45
Semana
Turno
Matutino
Vespertino
8 17 15 13 16 21 13 18 14 16 19 20 16 18
8 23 29 28 17 19 22 35 30 26 28 17 22 18 10
Tabla 4.1
1 Nmero semanal de fallas de captura de datos por turno en almacenes regionales de la
4.11
cadena Igor te viste
Los anlisis para esta situacin pueden ser varios y arrojarn resultados complementarios. Comenzaremos mostrando cul es la distribucin por turno.
Esto se puede hacer a partir de un diagrama de tallos y hojas comparativo,
el cual aparece en el siguiente grfico.
Tallos
0
0
1
1
2
2
3
Hoja =
104
Hojas
Clase
23
67788888899
23333334444
5666666677777889
0011
Turno matutino
Mnimo
Mximo
2
11
11
16
4
0
1
2
31
Percentiles
25%
Mediana
Tallos
Hojas
0
1
1
2
2
3
3
4
88888
02233344
56667777899
001112233
666778889
01
5
Turno vespertino
Hoja =10
Grfico 4.37
Clase
5
8
11
9
9
2
1
0
8
35
45
Mnimo
Mximo
Total:
Percentiles
25%
Mediana
75%
Diagrama de tallos y hojas para los dos grupos de datos del nmero de
fallas por turno
35
30
Variable
Nmero de fallas
25
Matutino
20
15
Vespertino
10
5
0
4
12
16
20
24
Semana
28
32
36
40
44
105
1
1
(X + X2 + ... + Xn) =
n 1
n
X i
i=1
4.15.2 La mediana
Otra estadstica de resumen de la tendencia es la mediana, que se define
como el valor que divide a la distribucin de frecuencias en dos partes iguales.
Es un indicador de tendencia central no sensible a la presencia de atpicos
o valores extremos. Es el segundo cuantil.
106
4.15.3 La moda
Se define como el valor o dato que se presenta con mayor frecuencia;
cuando el rango de valores es un continuo se debe definir un intervalo
moda. A partir de un diagrama de tallos y hojas es posible identificar el
tallo moda; en un histograma se identifica el intervalo de clase moda.
4.15.4 La varianza
Es una de las medidas de dispersin ms utilizadas en el anlisis estadstico. Se define como el promedio de los cuadrados de las desviaciones,
con respecto a la media; ms exactamente:
S2 =
1
[ (X1 - X)2 + (X2 - X)2 + ... + (Xn - X)2
(n-1)
1
(Xi - X)2
] = (n-1)
i=1
S
x 100%
X
Para datos que tengan media igual a cero este valor no est definido.
Ejemplo 16: Consideremos los porcentajes de eficiencia en el
surtimiento de los 72 proveedores nacionales durante el mes de septiembre
del presente ao, como se presenta en la Tabla 4.12.
107
Proveedores
Eficiencia
Proveedores
Eficiencia
Proveedores
Eficiencia
93.40
25
0.00
49
100.00
100.00
26
99.60
50
91.34
100.00
27
100.00
51
99.94
100.00
28
96.20
52
99.03
97.10
29
82.50
53
0.00
80.90
30
84.70
54
92.50
100.00
31
99.10
55
99.50
35.40
32
47.90
56
100.00
0.00
33
0.00
57
45.45
10
100.00
34
81.70
58
100.00
11
99.90
35
94.10
59
96.44
12
95.90
36
85.70
60
100.00
13
75.20
37
95.10
61
90.80
14
71.30
38
99.60
62
56.50
15
80.10
39
100.00
63
84.10
16
98.80
40
100.00
64
76.40
17
65.60
41
84.76
65
33.30
18
100.00
42
94.85
66
99.80
19
100.00
43
100.00
67
86.70
20
99.80
44
100.00
68
85.70
21
39.30
45
0.00
69
79.60
22
91.70
46
75.44
70
100.00
23
0.00
47
21.28
71
100.00
24
0.00
48
95.05
72
100.00
En este caso existe una gran discrepancia entre la media y la mediana, por
lo que se requiere un estudio detallado de la forma de la distribucin;
por ejemplo, elaborando un histograma y explorando algn modelo
probabilstico que se ajuste al despliegue grfico de los datos.
Es importante destacar que en este ejemplo se pretende ilustrar las
limitaciones de los estadsticos descriptivos para resumir la distribucin de
los datos y, por tanto, llamamos la atencin para que se utilicen siempre
despus de un exhaustivo anlisis grfico.
108
5. GRFICOS DE CONTROL
Grficos de control
Control de salud
Sntomas
Acciones
Grficos de control
presentacin formal de estos conceptos tericos por estar fuera del objetivo
de este libro, pero el lector interesado puede consultar la bibliografa referida.
El Grfico 5.2 muestra la forma tpica de un grfico de control, en el
que el eje horizontal indica el nmero de orden que ocupa la muestra
de turno, la que se est valorando. La aplicacin del grfico puede
interpretarse como la verificacin de la hiptesis de que el promedio, o en
su caso la variabilidad del proceso, corresponde a la de un proceso bajo
control. Cuando la estadstica correspondiente cae dentro de los lmites
de control, interpretamos que la evidencia (la muestra) es compatible con
la hiptesis de un proceso bajo control, en caso contrario, se deber actuar
en consonancia con un proceso fuera de control.
En el grfico de control para la media del proceso aparecen dos lneas
horizontales gruesas (LSC: Lmite Superior de Control y LIC: Lmite Inferior
de Control), que representan los lmites de control para la media. Se seala
un punto que se ha salido de la franja definida por los lmites de control y
que indica que en el momento en que fue tomada la muestra el proceso
pareca estar fuera de control. A la escala de la derecha aparece el valor
13.71, lo cual corresponde a la media histrica del proceso bajo control
y se ha calculado como la media de las medias de muchas muestras en
el pasado, las cuales diagnosticaron un proceso bajo control; es decir,
se excluyeron para el clculo los puntos que sugeran un proceso fuera de
control. El grfico considera 45 puntos que corresponden a las veces que
se ha tomado una muestra para diagnosticar el proceso.
30
LCS = 28.10
25
20
15
LC = 13.71
10
5
0
LIC = 0.67
13
17
21
25
29
33
37
41
45
Muestra
Grfico 5.2 Forma tpica de un grfico de control para la media
114
Grficos de control
LIE
Lmite Inferior
de Especificacin
LSE
Lmite Superior
de Especificacin
Producto no conforme
19.3
Dispersin
= 20
Producto no conforme
20.7
Mediciones
Estadsticas
Media
muestral
Rango
225.0
227
223.4
10
222
222
222.8
229
229
225.4
226
227
227
225.0
223
227
228
228
225.0
228
222
222
223
223
224.2
225
225
227
219
219
225.0
10
Periodo
M1
M2
M3
M4
220
223
228
226
226
219
223
219
227
225
222
218
225
227
226
223
224
222
M5
219
219
219
219
219
219.2
10
220
225
223
228
228
224.6
11
228
228
220
225
225
224.8
12
225
227
227
222
222
225.2
13
225
227
222
221
221
224.4
14
220
229
230
218
218
225.6
13
15
222
225
227
228
228
225.0
16
227
224
224
225
225
224.4
17
227
224
227
225
225
225.0
18
223
224
222
228
228
224.4
19
220
230
225
224
224
225.2
10
20
222
225
227
221
221
224.4
21
221
230
225
226
226
225.6
22
222
223
228
228
228
225.2
23
220
219
222
220
220
221.2
24
223
230
215
218
218
221.2
15
116
Grficos de control
1
X=
n
R=
1
n
i=1
Ri
i=1
8 +10 + 9 + ... + 6 + 15
24
= 224.217
= 7.542
Paso 2:
Obtenemos la lnea central, los lmites de control (3), inferior y superior.
Con el propsito de abreviar clculos se usan, en la prctica, tablas para
definir los lmites inferior y superior de los grficos X y R. Las frmulas bajo
la utilizacin de tablas (ver Tabla 5.2) son:
a) Para la media
LC = X (lnea central) = 224.217
LSC = X + A2 R = 224.217 + 0.58 (7.542) = 228.591
LIC = X - A2 R = 224.217 - 0.58 (7.542) = 219.843
El valor 0.58 se obtuvo buscando A2 de la Tabla 5.2, entrando con el tamao
de muestra n = 5.
b) Para la dispersin
LC = R = 7.542
LSC = D4 R = 2.11 (7.542) = 15.913
LIC = D3 R = 0 (7.542) = 0
Los valores 2.11 y 0 se obtuvieron buscando D4 y D3, respectivamente, de
la Tabla 5.2, entrando con el tamao de muestra n = 5.
117
2
3
4
5
6
7
8
9
10
D3
D4
0.08
0.14
0.18
0.22
3.27
2.57
2.28
2.11
2.00
1.92
1.86
1.82
1.78
A2
d2
1.88
1.02
0.73
0.58
0.48
0.42
0.37
0.34
0.31
1.128
1.693
2.059
2.326
2.534
2.704
2.847
2.970
3.078
B3
B4
A3
3.27
2.57
2.27
2.09
1.97
1.88
1.81
1.76
1.72
0.03
0.12
0.19
0.24
0.28
C4
2.66
1.95
1.63
1.43
1.29
1.18
1.10
1.03
0.98
0.7979
0.8862
0.9213
0.9399
0.9515
0.9594
0.9650
0.9693
0.9723
Paso 3:
Trazamos las lneas de control y las lneas de alerta que se obtienen
simplemente multiplicando por dos en lugar de por tres en los lmites de
control y, posteriormente, ubicamos los puntos. A continuacin, en el Grfico
5.4 se presenta el despliegue correspondiente.
Media muestral
230
228
226
224
222
220
218
A
1
LCS = 228,591
1
3
LC = 224,217
LIC = 219,843
11
13
15
17
19
21
23
Muestra
Grfico 5.4 Grfico de control para X
Observe que el grfico est dividido en franjas que estn rotuladas con las
letras C, B, A, desde el centro hacia el exterior; cada una de estas franjas
tiene un ancho igual a una desviacin estndar de la media; su razn de ser
es poder descubrir otro tipo de patrones de comportamiento sistemtico (no
aleatorio) que podra presentarse por una causa asignable (identificable).
118
Grficos de control
Motivos de alarma
Cdigo
Tabla 5.3
14
15
punto en la zona A
18
LCS = 15,913
16
14
Rango
12
10
R = 7,542
6
4
2
LIC =0
0
1
11
13
15
17
19
21
23
Muestra
Grfico 5.5 Grfico de control de dispersin basado en el rango
5.4.1 El grfico p
Si tenemos que para una muestra de n artculos (o casos), cada uno puede
clasificarse como noconforme (X = 1) o conforme (X = 0), entonces la siguiente
120
Grficos de control
expresin X1 + X2 + ... + Xn = D es el nmero de artculos (casos) noconformes en la muestra. Se sabe que si el porcentaje verdadero de no conformes
es , entonces se espera que el nmero promedio de noconformes, en una
muestra de n, sea n y su varianza (1-)n.
La idea en este caso es elaborar un grfico con base en el porcentaje de
no-conformes de la muestra que se saca en una ocasin, digamos j.
As:
D
pj = n j ; j = 1, 2, ..., m.
p1 + p2 + ... + pm
m
D1
p = i=1
mn
De tal manera que los lmites de control estaran dados por las siguientes
expresiones:
LIC = p-3 p(1-p)
n
LC = p
LSC = p+3
p(1-p)
n
121
Da
Nmero de productos
sobre inventariados
12
pj
0.24
15
0.30
3
4
8
10
0.16
0.20
0.08
6
7
7
16
0.14
0.32
0.18
9
10
14
10
0.28
0.20
11
0.10
12
13
6
17
0.12
0.34
14
12
0.24
15
16
22
8
0.44
0.16
17
10
0.20
18
19
5
13
0.10
0.26
20
11
0.22
21
22
20
18
0.40
0.36
23
24
0.48
24
25
15
9
0.30
0.18
26
12
0.24
27
28
7
13
0.14
0.26
29
0.18
30
0.12
As
p =
347
(50)(30)
= 0.2313
De esta manera:
LIC = p -3
LSC = p+3
122
p(1-p) = 0.2313-3
n
0.2313(1-0.2313) = 0.0524
50
0.2313(1-0.2313) = 0.4102
= 0.2313+3
p(1-p)
n
50
Grficos de control
Propor
cin de no-conformes
Proporcin
en una muestra de 50 unidades
0.6
0.5
LCS = 0.4101
0.4
0.3
0.2
LC = 0.2313
0.1
LIC = 0.5241
0
1
11 13
15 17
19
21
23
25
27
29
Muestra
Grfico 5.6 Grfico de control para la proporcin de no-conformidades en el Inventario de productos
Observe que en el Grfico 5.6 existen dos puntos fuera de control, por lo
tanto es necesario recalcular los lmites excluyendo dichos puntos.
5.4.2 El grfico np
A veces, ms que obtener la grfica de control sobre la fraccin de
noconformes, interesa obtenerla sobre el nmero de noconformes.
A esta grfica de control para atributos se le llama grfica np. Los lmites de
control para esta grfica son determinados por:
np + 3
np (1 - p)
Ejemplo 4: Se trata ahora el mismo caso del Ejemplo 3, pero con inters
en el nmero de noconformidades. En el Grfico 5.7 presentamos el
despliegue correspondiente. El inters ahora es controlar el nmero de
noconformidades en lugar del porcentaje. En esta situacin el funcionario
encargado del control ya no calcula porcentajes, slo cuenta el nmero de
veces que resulta no-conformes en una muestra de tamao fijo, n = 50
unidades.
Observe que la nica diferencia con el caso anterior consiste en la
escala vertical de la grfica, que ahora ha sido multiplicada por n = 50.
De esta manera, la lnea central ahora es la misma de antes multiplicada por
50. De igual forma ocurre con los lmites correspondientes.
123
LIC = np-3
LSC = np-3
np(1-p) = 11.5667-3
np(1-p) =11.5667+3
50*0.2313(1-0.2313)
50*0.2313(1-0.2313)
= 2.6214
= 20.5120
Nmero de no-conformes
en una muestra de 50 unidades
30
25
LCS = 20.5120
20
15
10
LC = 11.5667
5
LIC = 2.6214
0
1
11 13
15 17
19
21
23
25
27
29
Muestra
Grfico 5.7 Grfico de control para el nmero de no-conformidades np. Caso del Inventario de productos
Observe que los dos grficos controlan lo mismo usando estadsticas diferentes; por esa razn en las dos grficas se detectan los mismos puntos fuera
de control. Tambin aqu es necesario recalcular los lmites de control excluyendo dichos puntos.
5.4.3 El grfico c1
Hemos estudiado casos en los que nos interesa conocer el nmero de individuos que se clasifica como noconformes, o su porcentaje; sin embargo, en
algunas situaciones puede suceder que una unidad de observacin puede
tener defectos, sin que se considere noconforme. Por ejemplo, en la
1
Aunque el grfico de control recibe este nombre de noconformes, aqu, en lugar de c nos
referiremos a , que es la letra griega que ms frecuentemente se usa para representar el
parmetro de la distribucin de Poisson.
124
Grficos de control
LSC: + 3
LC:
LCI: - 3
En esta situacin, en la cual es factible conocer por informacin histrica del proceso bajo control saltamos directamente al paso 4. Si no es
posible conocer con x = 0, 1, 2 de esta forma, continuamos con todos
los pasos.
3. Para acercarnos al valor de , procedemos de la siguiente manera:
Tomar k (k>20) piezas de un metro cuadrado de tela de forma consecutiva y a intervalos de tiempo iguales; contar el nmero de defectos
Xi en cada pieza y hacer el promedio de las k piezas, es decir:
k
xi
i=1
126
Grficos de control
Nmero de
observacin
Nmero de
defectos por m2
9
9
Nmero de
observacin
18
13
4
5
14
8
19
20
7
6
21
11
7
8
5
5
22
23
5
8
1
2
16
17
Nmero de
defectos por m2
6
9
24
10
10
11
9
4
25
26
6
5
12
27
10
13
14
4
11
28
29
8
9
15
10
30
Total
235
xi
i=1
defectos
=
i=1
unidades
235
= 7.833
30
LSC = 7.833 + 3
7.833 = 16.23
LIC = 7.833 - 3
7.833 = -0.563
127
18
LSC =16.23
16
14
12
10
LC =7.83
8
6
4
2
LIC =0
0
1
10
13
16
19
22
25
28
31
33
Muestra
Grfico 5.8 Grfico de control para el nmero de no-conformes por unidad C
128
6. INTRODUCCIN AL MUESTREO
Censo
Muestra
Costoso
Un bajo costo
Organizacin compleja
Resultados precisos
Resultados precisos
T
abla 6.1 Comparacin de caractersticas de censo y muestra
Tabla
Introduccin al muestreo
Poblacin finita de
tamao
8
5
N-6
N-2
1
3
N-1
N
N-3
N-5
N-4
Seleccin
aleatoria
irrestricta
5
3
n
6
Nh
N
Cabe hacer notar que hay otras formas de hacer la asignacin, una de las
cuales se trata en la penltima seccin de este captulo dedicada a la
determinacin del tamao de la muestra.
Entonces, una vez determinado nh se procede a realizar un muestreo
aleatorio simple en cada estrato.
Debe destacarse que a partir de una muestra estratificada se ha aumentado la representatividad de la misma, con lo que la precisin de las inferencias
ser mayor. Adems, ahora es posible realizar comparaciones entre los
estratos. En muchas ocasiones el muestreo estratificado eleva sustancialmente
las posibilidades de obtener un conocimiento ms preciso sobre la situacin
de estudio; es quiz por eso uno de los esquemas ms utilizados.
132
Introduccin al muestreo
N = N1 + N2+...+ NL
Estrato 2
o1
rat
Est
2
4
Estrato L
6
7
8
5
2
7
Seleccin
aleatoria
irrestricta
6
8
3
4
5
NL
Seleccin
aleatoria
irrestricta
2
1
2
3
Seleccin
aleatoria
irrestricta
N2
N1
n1
1
n2
nL
Seleccin irrestricta de
conglomerados
Muestra aleatoria
simple de M
comglomerados
Figura 6.3 Esquema de un muestreo por conglomerados con seleccin de unidades en dos etapas
Introduccin al muestreo
Observe que el muestreo aleatorio simple y el estratificado no son alternativas excluyentes con el muestreo por conglomerados o con el sistemtico.
Pueden construirse estratos de conglomerados y en cada uno de ellos realizar muestreo aleatorio de conglomerados y en cada conglomerado llevar a
cabo un muestreo sistemtico. Evidentemente las expresiones para el clculo
de los estimadores se vuelven un poco complejas, pero es perfectamente
factible disear e implementar estrategias combinadas.
Grupo 2
...
...
k
k+1
k+2
...
Grupo k
...
...
2k
...
(n-1)k + 1
...
nk
Figura 6.4 Esquema de una seleccin sistemtica de tamao n de una poblacin ordenada de tamao
N = nk
135
136
Introduccin al muestreo
^
n
137
Tamao
amao de la muestra
200
100
100
200
300
400
500
Tamao de la poblacin
2 Z2(/2)
2
no =
138
(1.3)2 (1.96)2
(0.5)2
26
Introduccin al muestreo
no =
(0.1)2
650
no
1+
no
N
a)
b)
n=
n=
26
25
26
1+
560
650
300
650
1+
560
Ntese que la correccin por finitud afecta a los tamaos de muestra grandes,
pero no cambia sustancialmente los tamaos de muestra pequeos. Las
frmulas presentadas aqu se pueden aplicar para el caso en el que interese
estimar una proporcin de xitos. Es decir, el caso en que la variable de
inters sea dicotmica (pasa, no pasa; xito, fracaso; etctera).
As:
no =
Z2(/2)p(1-p)
2
Z2(/2)
*
no =
42
no =
Z2(/2)p(1-p)
,
2
1
2
nNhh
L
Nk k
k =1
ph(1-ph)
140
Introduccin al muestreo
Nh
Detectados con
demanda baja
ph
200
58
0.29
90.75
66
370
16
0.04
72.50
53
130
38
0.29
58.99
43
Total
700
112
0.16
222.24
162
Tipo
ph(1-ph)Nh
nh
T
abla 6.2 Clculo para tamao de muestra de productos con baja demanda, segn tipo
Tabla
no =
(1.96)2(0.16)(0.84)
(0.05)2
112
n=
206
1+ 206
700
160
h =
ph(1-ph)
nh =
nNh ph(1-ph)
Nh ph(1-ph)
N p (1-p )
h
141
nA =
nA =
22.24
(160)(200)
(0.29)(0.71)
222.24
, es decir,
(160)(90.75)
222.24
65
De manera anloga:
nA 65
nA 43
Cuando slo se conoce el tamao de los estratos la asignacin puede hacerse proporcional a dicho tamao, es decir, usando la expresin:
nh =
Nh
.n
N
nA =
200
NA
.n =
.160 46
700
N
nB =
370
NB
.160 85
.n =
700
N
nC = 29
Introduccin al muestreo
144
ANEXO
Resumen de la situacin
Doa Nelly Uribe, gerente general de la Cooperativa de Alimentos Unin
(CAU), recientemente se dio cuenta que haba perdido contacto con los
patrones de compra de los miembros de la cooperativa. Simplemente
la CAU pareca ms grande ahora que en los primeros aos. La gerente se preguntaba si podra hacer uso de algn tipo de datos que estuviesen a
su alcance con el propsito de ampliar su comprensin acerca de los hbitos de compra de los miembros, que en este caso son los clientes. Esperaba utilizar este conocimiento para planificar mejor la mezcla y el volumen de
artculos que la CAU ofreca.
145
Antecedentes de la CAU
La seora Uribe y un pequeo grupo de voluntarios fundaron la CAU en
1974. Esta cooperativa haba aumentado de 10 miembros iniciales en enero
de 1974 a 2800 miembros en septiembre de 1996. La empresa estaba
localizada en una vieja bodega en la poblacin de Prosperidad, con 100,000
habitantes.
El objetivo de la CAU era proveer productos alimenticios de alta calidad
a un precio por debajo de los que se ofrecan en los supermercados locales. Para lograr ese objetivo, la CAU utilizaba las cajas de empaques como
estanteras; no empleaba bolsas para transportar los productos que ya
venan empacados, el propio cliente resolva este asunto; venda slo las
mejores marcas y en general no inverta en lujos que no redundaran
en un beneficio real para sus clientes.
Para poder comprar en la CAU las personas tenan que ser socios. La
cuota de afiliacin era, en pesos colombianos, el valor equivalente a 25
dlares anuales. Cualquier ganancia obtenida por la CAU durante el ao se
devolva a los clientes en forma de bonos para sus compras. La seora
Uribe estaba convencida de que los socios compraban la mayor parte de
sus alimentos en la CAU.
Datos disponibles
En junio de 1996 se utiliz un cuestionario para recolectar datos sobre los
socios; durante un mes completo se recogi informacin de los clientes que
compraron, dando informacin de una muestra de 500 socios del total de
2,800 que conforman la cooperativa. Los datos consistan en las caractersticas demogrficas de los miembros y sus gastos semanales en alimentos.
Los datos se encontraban en tarjetas que los socios haban llenado en el
momento de la entrevista. La seora Uribe tena stas en un archivero en su
oficina. Las caractersticas incluidas en las tarjetas se presentan a continuacin.
146
Variable
Descripcin
Familia
G-ali-semana
Pers/Fam
Ing-anual
Educacin
Edad
G-ali-sem (C)
Ni<6(no-s)
Ni6-18 (no-s)
Ing-anual (C)
Edad (C)
Preguntas de inters
Quines son los miembros de la CAU?
Estructura de edad y escolaridad
La edad es una caracterstica que est asociada con los estilos de vida y con
las apetencias. Esto podra sugerir a la seora Uribe sobre la adquisicin de
cierto tipo de productos y sobre las cantidades que sera prudente ordenar.
Las personas, a partir de cierta edad, desean procurarse una alimentacin sana, algunos con tendencias naturistas. Las apetencias de los nios
menores de seis aos estn bastante marcadas y estudiadas. Conocer el
147
personas por familia? Es verdad que donde comen dos, comen tres?
(no linealidad del gasto).
El gasto en alimentos est asociado con el nivel de educacin y
ste, a su vez, con el ingreso anual?
El nmero de personas que componen la familia est asociado con
el nivel de educacin?
Podra pensarse en construir un modelo que permita predecir el
gasto en alimentos con base en algunas de las caractersticas observadas?
Observacin
Todas estas preguntas, y seguramente muchas ms, deben surgir de
manera natural de boca de quienes contratan el estudio, con el apoyo,
por supuesto, de los profesionales de la investigacin de mercados. Porque
de lo contrario la profundidad del trabajo depende de la capacidad y el
148
Variable
Educacin
1= Primaria o menos
2= Estudios secundarios (sin terminar)
3= Con ttulo de secundaria
4= Algunos aos de educacin universitaria
5= Ttulo universitario
G-Ali-Sem (C)
1= Menos de 15 USD
2= 15 USD-29.99 USD
3= 30 USD-44.99 USD
4= 45 USD-59.99 USD
5= 60 USD-74.99 USD
6= 75 USD-89.99 USD
7= 90 USD o ms
Ni<6(No-S)
1=No
2= S
Ni6-18(No-S)
1= No
2= S
Ing-Anual (C)
Edad (C)
1= Menos de 25
2= 25-34
3= 35-44
4= 45-54
5= 55-64
6= 65-74
7= 75 o ms
149
Estrategia de anlisis
A estas alturas, con el acuerdo de la CAU en el sentido de que las preguntas
formuladas son pertinentes, la estrategia queda orientada por la manera de
dar respuesta a cada una de las preguntas.
Anlisis
Quines son los miembros de la CAU?
Histograma
20
1234
1234
1234
12341234
1234
1234
12341234
1234
12345
12345
123412341234 Histograma
12345
1234
12345
12341234
12341234
1234
12345
1234
12345
12341234
12341234
1234
12345
1234
12345
12341234
12341234
123412345
12345
12345
1234
1234
1234
123451234
1234
12345
1234
1234
1234
1234
12345
12341234123412345
123451234
1234
12345
123412341234123451234
1234
1234
12345
1234
1234
12345
12341234
12341234
123412345
123451234
1234
1234
12345
1234
1234
1234
12345
1234
1234
12345
1234
1234
1234
12345
1234
12345
123412341234123451234
12341234
1234
12345
1234
12341234
1234
1234
12345
12341234
12341234
123412345
123451234
1234
123412345
12345
1234
1234
12345
1234
1234
1234
12345
1234
1234
1234
12345
12341234123412345123412341234
123412345
12345
18
Por
centaje
Porcentaje
16
14
12
10
8
6
4
2
0
10
20
30
40
50
60
70
Per
centiles
Percentiles
Edad-Jefe
10
26.000
25
31.000
50
39.000
75
19.000
90
58.000
80
Edad-Jefe
100
80
Per
centil
Percentil
75%
60
50%
40
25%
20
0
10
20
30
40
Edad-Jefe
150
50
60
70
80
Valores atpicos
80
70
Aos
60
50
40
30
20
10
0
Edad-Jefe
Educacin
Educacin
Cuadro de frecuencias
Frec.
Por
cent.
Porcent.
104
20.8
206
41.2
386
77.2
456
91.2
500
100.0
Total
500
100.0
Aproximadamente
80% tiene estudios superiores a primaria
Aproximadamente
10% son profesionales
Educacin
1 Primaria o menos
2 Secundaria (sin terminar)
151
Nmero de personas
10
9
8
7
6
5
4
3
2
1
0
Pers-Fam
Por
centaje
Porcentaje
100
80
60
40
20
0
0
10
Distribucin de frecuencias
Por
centaje
Porcentaje
25
22.5
20
17.5
15
12.5
10
7.5
5
2.5
0
152
Nios menores
Nios menores de seis aos?
No
Frec.
Porcent.
320
180
500
64.0
36.0
100.0
1
2
Total
Jvenes de 6 a 18 aos?
Jvenes de 6 a 18 aos?
45% de las familias tienen
jvenes de 6 a 18 aos
No
1
2
Total
Frec.
Porcent
274
226
500
54.8
45.2
100.0
A (<)
6.000
18.900
31.800
44.700
57.600
70.500
83.400
96.300
109.200
122.100
18.900
31.800
44.700
57.600
70.500
83.400
96.300
109.200
122.100
135.000
Total
Frec.
Porcent.
52
161
269
397
450
478
485
493
499
500
500
10.400
32.200
53.800
79.400
90.000
95.600
97.000
98.600
99.800
100.000
100.000
153
120
Puntos
atpicos
Dlares / semana
100
80
La mitad de las
familias tienen
un gasto
semanal en
alimentos
menor de 40
dlares
60
40
75% de las familias
gastan 54 USD
semanales o
menos
20
0
G-Ali-Semana
10% de las familias
gasta 18 dlares
semanales o menos
154
Por
centaje
Porcentaje
20
15
10
5
0
0
20
40
60
80
100
120
140
Grfico de percentiles
Per
centil
Percentil
100
G -AliSemana
Ali-Semana
80
10
18.000
60
25
30.000
50
40.000
75
54.000
90
71.000
40
20
0
0
20
40
60
80
100
120
140
155
120
100
80
60
40
20
0
5
6
7
3
4
Nmero de personas por familia
75
Intervalo de 95%
de confianza
70
65
60
55
50
45
40
35
30
25
Media
Des. Est.
Err
Err.. Est.
50
30.940
16.573
2.344
119
33.231
17.273
1.583
95
40.626
17.951
1.842
99
47.128
18.074
1.817
57
51.404
18.757
2.484
34
57.632
27.030
4.636
24
61.271
27.075
5.527
12
56.250
12.302
3.551
10
55.850
15.596
4.932
60
50
40
30
20
10
0
-10
3
4
5
6
7
Nmero de personas por familia
158
Gastos alimentacin
USD/semana
140
120
100
80
60
40
20
0
3
Escolaridad
Al comparar los distintos grupos de escolaridad se observa que la variabilidad es ahora ms homognea. La mediana del gasto va creciendo con la
escolaridad, pero cada vez ms lentamente hasta lograr cierta estabilidad.
Se aprecia cierta asociacin estadstica entre estas dos caractersticas que
podra ser heredada de la asociacin de esas variables con una tercera: el
ingreso anual. Esto puede ser cierto si se cumpliera la hiptesis de que a
mayor nivel de escolaridad se detectar mayor ingreso, y que a mayores
ingresos correspondern mayores gastos en alimentacin.
Vamos a verificar si estas sospechas son ciertas, y de paso, aprovechamos
para explorar el ingreso anual.
Por
centaje
Porcentaje
25
20
15
10
5
0
-5,000
5,000
15,000
25,000
Ingreso anual/familiar
35,000
45,000
USD
159
De(3)
A(<)
Frec.
Porcent.
500
4650
140
28.0
4650
8800
135
27.0
8800
12950
81
16.2
12950
17100
68
13.6
17100
21250
33
6.6
21250
25400
21
4.2
25400
29550
13
2.6
29550
33700
1.0
33700
37850
.4
37850
42000
.4
Total
500
100.000
45,000
40,000
35,000
30,000
25,000
20,000
15,000
10,000
5,000
0
-5,000
Ing-anual
El ingreso mediano est alrededor de los 7,000 dlares. 25% tiene ingresos
menores de 5,000 dlares al ao.
160
45,000
40,000
35,000
30,000
25,000
20,000
15,000
10,000
5,000
0
-5,000
Educacin
1
2
3
4
5
20,000
Casos
104
102
180
70
44
Educacin
Media
5061.5
7932.3
10780.5
13485.7
16568.1
Des. Est.
4282.0
5336.7
5958.3
8479.7
9794.1
Err. Est.
419.8
528.4
444.1
1013.5
1476.5
18,000
16,000
14,000
12,000
10,000
8,000
6,000
4,000
2,000
Educacin
161
Educacin
Los sujetos de la categora 1 tienen ingresos medios anuales de aproximadamente 5,000 dlares, los de categora 2 de 8,000, los de categora 3
de 11,000, los de 4 aproximadamente de 13,500 dlares y los profesionales alrededor de 16,500 dlares. Observe cmo crece la longitud de los
intervalos de 95% de confianza para la media verdadera en cada categora.
Esto es debido, como veremos ms adelante, a que en las categoras superiores hay mayor varianza del ingreso y tambin hay menos datos.
1
2
3
4
5
Casos
104
102
180
70
44
Media
5061.5
7932.3
10780.5
13485.7
16568.1
Des. Est.
4282.0
5336.7
5958.3
8479.7
9794.1
Err. Est.
419.8
528.4
444.1
1013.5
1476.5
10
9
8
7
6
5
4
3
2
1
0
1
Educacin
162
Educacin
Casos
104
102
180
70
44
Media
2064.178
2721.027
3858.348
3937.704
5395.563
Des. Est.
1.929E3
2.608E3
3.744E3
2.646E3
3.676E3
Err. Est.
189.160
258.205
279.034
316.310
554.173
Ingreso anual/persona
25,000
20,000
15,000
10,000
5,000
0
-5,000
1
Educacin
De nuevo se aprecia que el ingreso por persona aumenta con la escolaridad, tanto en su media como en su dispersin.
El ingreso medio por persona en la categora 1 de nivel de educacin
es de aproximadamente 2,000 dlares, mientras que en los profesionales
(categora 5) es de aproximadamente 5,400 dlares por persona al ao.
163
Evidentemente, cuando la familia es menos numerosa es mejor su situacin en cuanto a recursos econmicos anuales por persona. Sin embargo,
a partir de un cierto nmero de miembros, en este caso cinco personas por
familia, las diferencias parecen no ser sustanciales.
Estn asociados el ingreso anual y la edad del jefe de familia?
Especulando un poco, podra pensarse que la situacin se estanca
o decae?
Para tener la informacin al respecto se construye un diagrama de
cajas del ingreso anual segn la edad del jefe de hogar (categorizada);
sin embargo, el nivel de educacin podra ser un factor de confusin, puesto que si la distribucin del nivel educativo no es la misma en todas las
edades, como parece ser, la comparacin del ingreso por grupos de edad
no sera vlida.
164
Edad-Jefe
60
50
40
30
20
10
3
Educacin
De acuerdo con el grfico no parece haber diferencias en las distribuciones de edad en cada categora. Para tener una mejor visin en la siguiente
figura se presenta un grfico para los intervalos del 95% de confianza para
la edad promedio en cada nivel de educacin.
45
44
43
42
41
40
39
38
37
36
35
3
Educacin
165
Para reforzar la apreciacin anterior note que todos los intervalos de confianza se traslapan, lo cual es indicador de que no hay diferencias significativas
cuando se comparan pares de poblaciones con un nivel de significancia de
5%. Aunque sta es una metodologa de naturaleza inferencial, la usamos para
reforzar la informacin proporcionada por las cajas. El lector podr apreciar
su potencial en los usos que adelante haremos de esta herramienta.
Ahora s intentemos responder la pregunta original acerca de si el
ingreso anual y la edad estn asociados.
Distribucin del ingreso anual segn
edad del jefe de hogar
45,000
40,000
35,000
Ingreso anual
30,000
25,000
20,000
15,000
10,000
5,000
0
-5,000
Edad
14,000
12,000
10,000
8,000
6,000
4,000
2,000
166
Edad
Diagrama de dispersin
140
120
G-Ali-Semana
100
80
60
40
20
0
-5,000
5,000
15,000
25,000
35,000
45,000
Ing-Anual
G-AliSemana= 32.471+.001 (Ing
Ali-Semana=
(Ing--Anual); R^2=.14
167
G-Ali-Semana
140
120
100
80
60
40
20
0
-5,000
10,000
25,000
40,000
Ing-Anual
Gasto en alimentacin/semana
120
100
80
60
40
20
0
Ingreso anual
168
Educacin
Media
Des. Est.
Err. Est.
68
23.250
14.174
1.719
84
38.137
18.225
1.989
144
42.792
16.837
1.403
103
52.073
21.486
2.117
76
53.457
22.379
2.567
25
49.900
16.720
3.344
60
55
50
45
40
35
25
20
15
169
Matriz de correlacin
G-Ali-Semana
Pers-Fam
Edad-Jefe
Ingreso semanal
1.00
.43
.07
.37
Pers
-F
am
ers-F
-Fam
.43
1.00
.02
.16
EdadJefe
Edad-Jefe
.07
.02
1.00
.14
Ingreso semanal
.37
.16
.14
1.00
G-AliSemana
Ali-Semana
Ingreso semanal
Edad-Jefe
Pers-Fam
G-Ali-Semana
G-Ali-Semana
170
Pers-Fam
Edad-Jefe
Ingreso semanal
Modelo
Gasto en alimentacin/semana
140
120
100
80
60
40
20
0
-100
100
300
500
700
900
Ingreso semanal
Y=23.387+.157 x -1.792E
-4
-1.792E-4
172
REFERENCIAS
175
176