Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Douglas A. Lind
Coastal Carolina University and The University of Toledo
William G. Marchal
The University of Toledo
Samuel A. Wathen
Coastal Carolina University
Traducción
Concepción Verania de Parres Cárdenas
Traductora profesional
Revisión técnica
Gilberto Prieto Morín Nadima Simón Domínguez
Profesor Profesor investigador
Facultad de Contaduría y Administración Facultad de Contaduría y Administración
Universidad Nacional Autónoma de México Universidad Nacional Autónoma de México
ESTADÍSTICA APLICADA
A LOS NEGOCIOS Y A LA ECONOMÍA
Decimosegunda edición
ISBN-13: 978-970-104834-4
ISBN-10: 970-104834-2
3456789012 09876432105
vii
viii Prefacio
Índice 795
ix
Distribución de frecuencias relativas 30
Capítulo 1 Ejercicios 30
¿Qué es estadística? 1 _______________ Presentación gráfica de una distribución
de frecuencias 31
Introducción 2
Histograma 32
¿Por qué estudiar estadística? 2
Polígono de frecuencias 33
¿Qué quiere decir estadística? 4
Ejercicios 36
Tipos de estadística 6
Polígono de frecuencias acumuladas 37
Estadística descriptiva 6
Ejercicios 40
Estadística inferencial 7
Otras presentaciones gráficas de datos 41
Tipos de variables 8
Gráficas lineales 41
Niveles de medición 9
Gráficas de barras 42
Datos de nivel nominal 10
Gráficas circulares o de pastel 43
Datos de nivel ordinal 11
Ejercicios 45
Datos de nivel de intervalo 12
Resumen del capítulo 46
Datos de nivel de razón 12
Ejercicios del capítulo 47
Ejercicios 14
exercises.com 51
Estadística, gráficas y ética 14
Ejercicios de la base de datos 52
Estadísticas engañosas 14
Comandos de software 53
La relación no necesariamente implica
Respuestas a las autoevaluaciones 54
causalidad 15
Las gráficas pueden ser engañosas 15
Conviértase en un mejor consumidor y un mejor
productor de información 17
Ética 17 Capítulo 3
Aplicaciones con el uso dé la computadora 17
Resumen del capítulo 19 Descripción de datos: medidas
Ejercicios del capítulo 19 de ubicación 55
exercises.com 20 Introducción 56
Ejercicios de la base de datos 20 La media de la población 57
Respuestas a las autoevaluaciones 22 Media de una muestra 58
Propiedades de la media aritmética 59
Ejercicios 60
Media ponderada: 61
Capítulo 2 Ejercicios 62
Mediana 62
Descripción de datos: distribuciones de Moda 63
frecuencias y su presentación gráfica 23 Ejercicios 65
Introducción 24 Solución con uso de software 66
Creación de una distribución de frecuencias 25 Las posiciones relativas de la media, la mediana y la
Intervalos de clase y puntos medios de clase 29 moda 66
Ejemplo con el uso del software 29 Ejercicios 68
Contenido XI
Capítulo 11
Pruebas de hipótesis para las muestras de dos
poblaciones independientes 355 ________
Introducción 356
Pruebas de hipótesis de las muestras:
de poblaciones independientes 356
Ejercicios 361
Capítulo 10 Prueba de hipótesis para la diferencia entre las
proporciones muéstrales de dos poblaciones
Pruebas de hipótesis de una muestra 316 independientes 362
Introducción 317 Ejercicios 364
¿Qué es una hipótesis? 317 Comparación de las medias de la población
¿Qué es la prueba de hipótesis? 318 con muestras pequeñas 366
Procedimiento de cinco pasos para probar Ejercicios 369
una hipótesis 318 Pruebas de hipótesis de dos muestras:
Paso 1: Establecer la hipótesis nula (H0) y la muestras dependientes 370.
hipótesis alternativa (H1) 319 Comparación de muestras dependientes
Paso 2: Seleccionar un nivel de significancia 320 e independientes 374
Paso 3: Seleccionar el estadístico de prueba 321 Ejercicios 376
Paso 4: Formular la regla de decisión 321 Resumen del capítulo 377
Paso 5: Tomar una decisión 322
Pruebas de significancia de una y dos colas 323
XIV Contenido
Apéndices Apéndice K
Conjunto de datos 2. Major League Baseball
Covarianza 706 (Ligas Mayores de Béisbol) 730
Apéndice A Apéndice L
Distribución de probabilidad binomial 713 Conjunto de datos 3. Wages and Wage Earners
(Salarios y asalariados) 732
Apéndice B
Valores críticos de ji cuadrada 718 Apéndice M
Conjunto de datos 4. CIA International Economic
Apéndice C and Demographic Data (Datos económicos y
Distribución de Poisson 719 demográficos internacionales) 736
Apéndice D Apéndice N
Áreas debajo de la curva normal 720 Conjunto de datos bancarios. Caso 739
Apéndice E Apéndice O
Tabla de números aleatorios 721 Whitner Autoplex 740
Apéndice F Apéndice P
Distribución t de Student 722 Inicio de trabajo con MegaStat 741
Apéndice G Apéndice Q
Valores críticos de la distribución F 723 Visual Statistics 745
Apéndice H
Valores T de Wilcoxon 725 Respuestas a los ejercicios nones de cada
capítulo 751
Apéndice I
Factores de las tablas de control 726 Respuestas a los ejercicios de revisión nones 789
Las bandas de transportación de alta velocidad y la tecnología más avanzada mueven con
eficiencia la mercancía en todos los centros de distribución de Wal-Mart para abastecer a sus
casi 3 000 tiendas.
En 2003, las cuatro compañías estadounidenses más grandes clasificadas por sus ventas
fueron Wal-Mart, Exxon Mobil, General Motors y Ford Motor Company. (Vea la Meta 5 y el
recuadro Estadística en acción, página 4.)
2 Capítulo 1
Introducción
Hace más de 100 años, H. G. Wells, escritor e historiador inglés, sugirió que algún día, el
razonamiento cuantitativo sería tan necesario para la ciudadanía efectiva como la capaci-
dad de leer. No mencionó los negocios porque la Revolución Industrial apenas comenzaba.
El señor Wells tenía toda la razón. Mientras que la "experiencia en negocios", algunos "pro-
nósticos bien pensados" y la "intuición" son atributos clave de los administradores exitosos,
los problemas actuales en los negocios suelen ser demasiado complejos para realizar sólo
este tipo de toma de decisiones.
Por suerte, los administradores de negocios del siglo xxi tienen acceso a grandes can-
tidades de información. Famoso por su habilidad para analizar la información económica,
Alan Greenspan, presidente de la Reserva Federal, conoce la importancia de las herramien-
tas y técnicas estadísticas para proporcionar información precisa y oportuna a fin de hacer
declaraciones públicas que tengan el poder de mover mercados bursátiles globales e influir
en el pensamiento político. Al hablar frente al National Skills Summit, el doctor Greenspan
afirmó: "Los trabajadores deben estar equipados no sólo con conocimientos técnicos, sino
también con la capacidad de crear, analizar y transformar la información y de interactuar de
manera efectiva con otras personas. Es decir, separar los hechos de las opiniones y luego
organizar los primeros en forma apropiada y analizar la información."
Una de las herramientas utilizadas para entender la información es la estadística. Ésta
no sólo se emplea entre hombres y mujeres de negocios; también aplicamos conceptos es-
tadísticos en nuestra vida. Por ejemplo, para empezar el día usted abre la regadera y deja
que el agua corra durante unos momentos. Luego, mete la mano bajo el chorro del agua para
sentir la temperatura y decide abrir más la llave del agua caliente o de la fría, o bien, llega a
la conclusión de que la temperatura es la correcta y entra a la regadera. Como segundo
ejemplo, suponga que está en el supermercado y quiere comprar una pizza congelada. Uno
de los fabricantes de pizzas tiene un quiosco, y ofrece un pequeño trozo de su pizza. Des-
pués de probarla, decide si la va a comprar o no. En ambos ejemplos, usted toma una de-
cisión y elige emprender-una acción con base en una muestra.
Las empresas enfrentan situaciones similares. The Kellogg Company debe tener la cer-
teza de que la cantidad media de Raisin Bran en la caja de 25.5 gramos cumple con las es-
pecificaciones de la etiqueta. Para hacerlo, es probable que establezcan un peso "meta"
ligeramente más alto que la cantidad que se especifica en la etiqueta. Luego, cada caja se
pesa después de llenarla. La báscula reporta una distribución de los pesos del contenido
para cada hora, así como el número de cajas que se rechazan durante esa hora por no
cumplir con las especificaciones de la etiqueta. El Departamento de Inspección de Calidad
también selecciona en forma aleatoria muestras de la línea de producción y verifica la cali-
dad del producto y el peso de la caja. Si el peso medio del producto difiere de manera sig-
nificativa del peso meta o el porcentaje de rechazos es muy elevado, el proceso se ajusta.
En el nivel nacional, un candidato a la presidencia de Estados Unidos quiere saber qué
porcentaje de los votantes en Illinois lo apoyará en las próximas elecciones. Hay distintas
formas en las que podrá responder esta pregunta. Podría pedir a sus empleados que lla-
men a todas las personas en Illinois que planean votar en las próximas elecciones y pre-
guntarles por quién lo harán. Podría salir y caminar por una calle de Chicago, detener a 10
personas que tengan edad de votar y preguntarles por quién votarán en las próximas elec-
ciones. Podría seleccionar una muestra aleatoria de alrededor de 2 000 votantes del esta-
do, llamarles y, con base en esta información, realizar un estimado del porcentaje que va a
votar por él en las próximas elecciones. En este libro le mostraremos por qué la tercera op-
ción es la mejor.
• Las compañías de seguros emplean el análisis estadístico para determinar las tasas de
seguros de casa, automóvil, vida y salud. Están disponibles tablas que resumen la proba-
bilidad de que una mujer de 25 años de edad sobreviva el siguiente año. Con base en es-
tas probabilidades, se pueden establecer las primas de los seguros de vida. Estas tablas
están disponibles en http://www.budgetrates.com/mortality.htm.
4 Capítulo 1
• La Environmental Protection Agency se interesa por la calidad del agua del Lago Erie.
En forma periódica se toman muestras de agua para establecer el nivel de contamina
ción y mantener el nivel de calidad.
• Los investigadores médicos estudian los índices de curación para las enfermedades uti
lizando distintos medicamentos y aplicando diversas formas de tratamiento. Por ejem
plo, ¿cuál es el efecto dé tratar cierto tipo de lesión en la rodilla con cirugía o con terapia
física? Si usted toma una tableta de ácido acetilsalicílico (aspirina) al día, ¿reducirá el
riesgo de sufrir un ataque cardiaco?
Una tercera razón para tomar un curso de estadística es que el conocimiento de los mé-
todos estadísticos le ayudará a entender cómo se toman las decisiones y le ayudará a com-
prender mejor de qué manera le afectan.
Sin importar la línea de trabajo que elija, tendrá que enfrentar decisiones en las que el
entendimiento del análisis de datos será muy útil. A fin de tomar una decisión informada, ne-
cesitará poder:
Los métodos estadísticos que se presentan en este libro proporcionan un marco de tra-
bajo para el proceso de la toma de decisiones.
En resumen, existen por lo menos tres razones para estudiar estadística: (1) la informa-
ción está por todas partes, (2) las técnicas estadísticas se emplean para tomar muchas de-
cisiones que afectan nuestra vida y (3) sin importar cuál sea su profesión, tomará decisiones
más profesionales que comprenden información. La comprensión de los métodos estadísti-
cos le ayudará a tomar estas decisiones en forma más efectiva.
• El automóvil típico en Estados Unidos recorre 11 099 millas al año, el autobús típico
9 353 millas al año y el camión típico 13 942 millas anuales. En Canadá, la información
correspondiente es 10 371 millas para los automóviles, 19 823 para los autobuses y
7 001 para los camiones.
• El tiempo de espera medio para el soporte técnico es de 17 minutos.
• La longitud media del ciclo de negocios es de 61 meses desde 1945.
de libras de papas fritas y que Frito-Lay vendió 64% de ese total. También podemos observar
que Frito-Lay tiene 82% del mercado de frituras de maíz.
GRÁFICA 1-1 Volumen y participación de Frito Lay en las principales categorías de botanas en los super-
mercados estadounidenses
Como veremos en este libro, la materia de estadística tiene un significado mucho más
amplio que la simple recopilación y publicación de información numérica. La estadística se
define como:
maria y el Federal Reserve Board las utiliza para decidir el nivel de control que debe te-
ner sobre el abastecimiento de dinero.
La administración debe tomar decisiones sobre la calidad de la producción. Por ejem-
plo, las prensas de perforación automáticas no producen un orificio perfecto que siem-
pre tenga 1.3 pulgadas de diámetro cada vez que se hace una perforación (debido al
desgaste de la broca, la vibración de la máquina y otros factores). Se permiten ligeras
tolerancias, pero cuando el orificio es demasiado pequeño o demasiado grande, estos
productos son defectuosos y no se pueden usar. El Quality Assurance Department tie-
ne el deber de vigilar la producción en forma continua empleando técnicas de muestreo
para tener la certeza de que se cumple con las normas.
Tipos de estadística
Estadística descriptiva
El estudio de la estadística por lo general se divide en dos categorías: estadística descrip-
tiva y estadística inferencial. La definición de estadística que dimos antes se refiere a "orga-
nizar, presentar, analizar... la información". Esta faceta de la estadística se conoce como
estadística descriptiva.
Por ejemplo, el gobierno de Estados Unidos reporta que la población de Estados Uni-
dos era de 179 323 000 en 1960, 203 302 000 en 1970, 226 542 000 en 1980, 248 709 000
en 1990 y 265 000 000 en 2000. Esta información es resultado de la estadística descripti-
va. Se trata de estadística descriptiva si calculamos el crecimiento porcentual de una déca-
da a la otra. Sin embargo, no lo sería si la utilizáramos para calcular la población de Estados
Unidos en el año 2010 o el crecimiento porcentual de 2000 a 2010. ¿Por qué? Porque es-
tas estadísticas no se emplean para resumir las poblaciones pasadas, sino para calcular las
futuras. Los siguientes son otros ejemplos de estadística descriptiva:
Grandes cantidades de datos sin organizar (como el censo de población, las ganancias
semanales de miles de programadores de computadora y las respuestas individuales de 2 000
votantes registrados en cuanto a su preferencia para el cargo de presidente de Estados Uni-
dos) tienen poco valor. Sin embargo, están disponibles técnicas estadísticas para organizar
este tipo de información de manera significativa. Algunos datos se pueden organizar en una
distribución de frecuencias. (Este procedimiento se cubre en el Capítulo 2.) Para descri-
bir la información, se pueden utilizar distintos tipos de gráficas; en el Capítulo 4 se presen-
tan varias formas de gráficas básicas.
Las medidas específicas de ubicación central, como la media, describen el valor cen-
tral de un grupo de datos numéricos. Distintas medidas estadísticas se utilizan para descri-
¿Qué es estadística? 7
bir la cercanía de un grupo de datos al promedio. Estas medidas de tendencia central y dis-
persión se estudian en el Capítulo 3.
Estadística inferencial
Otra faceta de la estadística es la estadística inferencial, también conocida como inferencia
estadística y análisis inductivo. Nuestra principal preocupación acerca de la estadística in-
ferencial es descubrir algo acerca de la población a partir de una muestra tomada de ella. Por
ejemplo, una encuesta reciente demostró que sólo 46% de los alumnos de último año de se-
cundaria pueden solucionar problemas que comprenden fracciones, decimales y porcentajes.
Y sólo 77% de los alumnos de último año de secundaria sumó correctamente el costo de una
sopa, una hamburguesa, papas fritas y un refresco de cola en el menú de un restaurante. Co-
mo éstas son inferencias acerca de una población (todos los estudiantes de último año de se-
cundaria) basadas en datos de una muestra, se les conoce como estadísticas inferenciales.
Para inferir algo acerca de una población, casi siempre tomamos una muestra de
ésta.
Razones por las que se toma ¿Por qué tomamos una muestra en lugar de estudiar a todos los miembros de la pobla-
una muestra. ción? Una muestra de votantes registrados es necesaria debido al elevado costo que tendría
el hecho de contactar a millones de votantes antes de las elecciones. Las pruebas de hume-
dad en los granos de trigo destruyen el trigo, por tanto, es imprescindible tomar una muestra.
Si los catadores probaran todo el vino, no habría ninguna botella disponible para la venta. Fí-
sicamente, sería imposible que unos cuantos biólogos marinos capturaran y etiquetaran a to-
das las focas en el océano. (Éstas y otras razones del muestreo se estudian en el Capítulo 8.)
Como ya señalamos, el uso de una muestra para aprender algo acerca de una pobla-
ción es muy común en administración, agricultura, política y actividades gubernamentales,
lo que se demuestra en los ejemplos siguientes:
ferencias de los telespectadores. Por ejemplo, en una muestra de 800 personas que ven
la televisión en las horas de mayor audiencia, 320 de ellos, o 40%, indicaron haber visto
CSI (Crime Scene Investigation) en CBS la semana anterior. Estos ratings se utilizan
para establecer las tarifas publicitarias o cancelar programas.
• Gamous and Associates, una empresa de contadores públicos, realiza una auditoría en
Pronto Printing Company. Para empezar, la empresa de contabilidad selecciona una
muestra aleatoria de 100 facturas y las revisa para comprobar su exactitud. En cinco de
las facturas, hay por lo menos un error; por tanto, la compañía de contabilidad calcula
que 5% de la población de facturas contiene por lo menos un error.
• Una muestra aleatoria de 1 260 estudiantes de último año de contabilidad en escuelas que
imparten la carrera en cuatro años indicó que su salario inicial medio era de $42 694. Por
tanto, calculamos que el salario inicial medio para todos los estudiantes de último año de
contabilidad en escuelas que imparten la carrera en cuatro años es de $42 694 dólares.
Le sugerimos de manera enfá- A continuación, presentamos un ejercicio de autoevaluación. En cada uno de los capí-
tica que realice los ejercicios tulos, se incluyen varios de ellos. Ponen a prueba su comprensión del material anterior. La
de autoevaluación. respuesta y el método de solución se encuentran al final del capítulo. La respuesta al si-
guiente problema de autoevaluación se encuentra en la página 22. Le recomendamos re-
solver cada uno de ellos y revisar su respuesta.
Tipos de variables
Existen dos tipos básicos de variables: (1) cualitativas y (2) cuantitativas (véase la Gráfica
1-2). Cuando la característica que se estudia es no numérica, se conoce como variable
Variable cualitativa cualitativa o atributo. Algunos ejemplos de variables cualitativas son género, afiliación re-
¿Qué es estadística? 9
ligiosa, tipo de automóvil, estado de nacimiento y color de ojos. Cuando los datos son cua-
litativos, casi siempre nos interesa saber cuántos o qué proporción pertenece a cada cate-
goría. Por ejemplo, ¿qué porcentaje de la población tiene ojos azules? ¿Cuántos católicos
y cuántos protestantes hay en Estados Unidos? ¿Qué porcentaje del número total de autos
vendidos el mes pasado eran SUV? A menudo, la información cualitativa sé resume en ta-
blas o gráficas de barras (Capítulo 2).
Niveles de medición
Los datos se pueden clasificar de acuerdo con los niveles de medición. El nivel de medición
de la información a menudo indica los cálculos que se pueden realizar para resumir y pre-
sentar los datos. Asimismo, determina las pruebas estadísticas que se deben realizar. Por
ejemplo, hay seis colores de grageas en una bolsa de lunetas M&M. Supongamos que asig-
namos al café el valor 1, al amarillo 2, al azul 3, al naranja 4, al verde 5 y al rojo 6. De una
bolsa de lunetas, sumamos los valores asignados a los colores y dividimos el resultado en-
tre el número de lunetas para reportar que el color medio es 3.56. ¿Esto significa que el co-
lor promedio es el azul o el naranja? ¡Claro que no! Como segundo ejemplo, en la pista de
10 Capítulo 1
carreras de una secundaria hay ocho competidores en la competencia de 400 metros. Re-
portamos el orden en que terminaron y la media es 4.5. ¿Qué nos indica esta media? ¡Na-
da! En estos dos ejemplos, no utilizamos de manera apropiada el nivel de medición.
En realidad, hay cuatro niveles de medición: nominal, ordinal, de intervalo y de razón. La
medición más baja, o más primitiva, es el nivel nominal. La más alta, o el nivel que nos pro-
porciona mayor cantidad de información acerca de la observación, es el nivel de razón de la
medición.
Nota: Puede revisar la información más reciente y encontrar los países que se inclu-
yen en los diversos grupos visitando http://www.eia.doe.gov/emeu/ipsr/appa.html.
Las categorías en la Tabla 1-1 también son exhaustivas, lo que significa que cada uno
de los miembros de la población o muestra deben aparecer en una de las categorías. De
modo que las categorías incluyen a todos los países productores de petróleo.
Superior 6
Bueno 28
Promedio 25
Malo 12
Inferior 3
Otro ejemplo de datos de nivel ordinal es el Homeland Security Advisory System. El De-
partment of Homeland Security publica la información acerca del riesgo de actividad terrorista
para las autoridades federales, estatales y locales, así como al pueblo estadounidense.
Los cinco niveles de riesgo, desde el más bajo hasta el más alto, incluidos una descripción
y códigos de colores son:
12 Capítulo 1
La Tabla 1-3 ilustra el uso de la escala de razón de la medición. Muestra los ingresos
de cuatro parejas de padre e hijo.
TABLA 1-3 Combinaciones de ingresos de padre e hijo
Observe que el señor Lahey gana el doble que su hijo. En la familia Rho, el hijo gana el
doble que su padre.
La Gráfica 1 -3 resume las principales características de los diversos niveles de medición.
35 29 41 34 44 46 42 42 37 47
30 36 41 39 44 39 43 43 44 40
47 37 41 27 33 33 39 38 43 22
44 39 35 35 41 42 37 42 38 43
35 37 38 43 40 48 42 31 51 34
(b) En una encuesta entre 200 dueños de autos de lujo, 100 eran de California, 50 de Nue-
va York, 30 de Illinois y 20 de Ohio.
14 Capítulo 1
Ejercicios
Las respuestas a los ejercicios con números nones se encuentran al final del libro.
1. ¿Cuál es el nivel de medición para cada una de las variables siguientes?
a. Niveles de IQ de los alumnos.
b. Distancias que los alumnos recorren para llegar a clases.
c. Calificaciones de los alumnos en el primer examen de estadística.
d. Una clasificación de los alumnos por estado de origen.
e. Una clasificación de los estudiantes según el grado que cursan.
f. Número de horas que los alumnos dedican a estudiar por semana.
2. ¿Cuál es el nivel de medición para estos elementos relacionados con el negocio de los pe-
riódicos?
a. El número de periódicos vendidos cada domingo durante 2004.
b. Los departamentos, tales como editorial, publicidad, deportes, etcétera.
c. Un resumen del número de periódicos vendidos por ciudad.
d. El número de años que cada empleado ha trabajado en el periódico.
3. Busque en la edición más reciente de USA Today o del periódico de su localidad ejemplos
de cada nivel de medición. Escriba un breve resumen de sus descubrimientos.
4. En cada uno de los ejemplos siguientes, determine si el grupo es una muestra o una pobla-
ción.
a. Los participantes en un estudio sobre un nuevo medicamento para el colesterol.
b. Los conductores que recibieron una multa por exceso de velocidad en la ciudad de Kan-
sas el mes pasado.
c. Aquéllos que pertenecen al programa de bienestar en Cook County (Chicago), Illinois.
d. Las 30 acciones reportadas como una parte del Promedio Industrial Dow Jones.
Estadísticas engañosas
Hace varios años, una serie de anuncios por televisión informaban que "2 de cada 3 dentis-
tas recomendarían a sus pacientes la pasta dental Marca X". La implicación es que 67% de
todos los dentistas recomendarían el producto a sus pacientes. ¿Qué pasaría si sólo hubie-
ran entrevistado a tres dentistas? Desde luego, no sería una representación verdadera de
la situación real. El truco consiste en que el fabricante de la pasta dental podría hacer va-
rias encuestas entre tres dentistas y reportar sólo aquellas en las que dos dentistas indi-
quen que recomendarían la Marca X. Esto es ocultar información para engañar al público.
Además, es necesario realizar una encuesta entre más de tres dentistas, y ésta no debe te-
ner sesgo y debe ser representativa de la población de todos los dentistas. En el Capítulo
8, estudiaremos los métodos de muestreo.
Un promedio puede no ser El término promedio se refiere a diversas medidas de ubicación central que analizamos
representativo de todos los en el Capítulo 3. Para la mayoría de las personas, un promedio se calcula sumando los va-
datos, lores involucrados y dividiendo el resultado entre el número de valores. De modo que, si un
urbanista de bienes raíces le dice a un cliente que la casa promedio en una subdivisión en
¿Qué es estadística? 15
particular se vendió en $150 000, suponemos que esta cifra es un precio de venta represen-
tativo para todas las casas. Pero supongamos que sólo hay cinco casas en la subdivisión y
que se vendieron en $50 000, $50 000, $60 000, $90 000 y $500 000. Podemos decir, en for-
ma correcta que el precio de venta promedio es de $150 000, pero ¿esta cifra realmente pa-
rece un precio de venta "típico"? ¿Le gustaría saber además que la misma cantidad de casas
se vendieron en más de $60 000 como en menos de esa cifra? ¿O que $50 000 es el precio
de venta que se presentó con mayor frecuencia? Entonces, ¿qué precio de venta es real-
mente el más "típico"? Este ejemplo ilustra el hecho de que un promedio reportado puede re-
sultar engañoso, porque puede ser una de varias cifras que se podrían utilizar para
representar la información. En realidad no existe un conjunto de criterios objetivos que esta-
blezca qué promedio se debe reportar en cada ocasión. Queremos educarlo a usted como
consumidor de información acerca de la forma en que una persona o un grupo podría repor-
tar un valor que favorezca su posición y excluir otros valores. En el Capítulo 3, estudiaremos
los promedios o medidas de ubicación central.
En ocasiones, las cifras mismas pueden ser engañosas. El precio medio de las casas
que se vendieron el mes pasado en el área de Tampa, Florida, fue de 134 891.58 dólares.
Éste parece ser un valor muy exacto y puede inspirar un alto grado de confianza en su exac-
titud. Reportar que el precio de venta medio fue $135 000 no transmite la misma precisión
y exactitud. Sin embargo, una estadística que es muy precisa y maneja 5 e incluso 10 luga-
res decimales no necesariamente es exacta.
Ejemplos. Supongamos que los impuestos escolares para la Corry Area Exempted School
District aumentaron de $100 en el año 2000 a $200 en el año 2004 (véase la Gráfica 1-4a).
Es decir, los impuestos se duplicaron durante un periodo de 4 años. Para mostrar este cambio,
el signo de dólares a la derecha mide el doble que el de la izquierda. Sin embargo, ¡también
es dos veces más ancho! Por tanto, el área del signo de dólares a la derecha es 4 veces (no
dos) mayor que el de la izquierda.
16 Capítulo 1
GRÁFICA 1-4
Las gráficas y las tablas de datos, así como los histogramas, las gráficas de líneas y las
gráficas de barras, también pueden ser engañosas si no se elaboran de manera apropiada.
En el próximo capítulo, se estudian con detalle estas gráficas y tablas. Una interpretación
visual engañosa en el contexto de las gráficas se debe a menudo a la presentación sólo de
una parte de los datos o al uso inapropiado de los ejes vertical y/u horizontal.
La Gráfica 1-5 está diseñada para mostrar una relación entre la tasa de desempleo (en
porcentaje) y la tasa de criminalidad (en miles, por año) en Canadá de tres maneras dife-
rentes con base en la misma información. En la Gráfica 1-5a, dividimos el eje vertical en el
2000 y, por tanto, muestra una fuerte relación entre la tasa de desempleo y el crimen. En la
Gráfica 1-5b, dividimos el eje horizontal en una tasa de desempleo de 7%.
En esta gráfica, tenemos la impresión de una relación más débil entre la tasa de de-
sempleo y el crimen. Una ilustración más precisa de la relación se puede obtener utilizan-
do valores cercanos a los valores mínimos de las variables como puntos de partida en cada
eje. Por tanto, una división en el eje vertical en el 2000 y en el eje horizontal en 7% ofrece
una representación más exacta de la relación, como se muestra en la Gráfica 1-5c.
Existen muchas técnicas para elaborar gráficas,'pero no existen reglas establecidas pa-
ra trazar una gráfica. Por tanto, estamos hablando de una ciencia y un arte a la vez. El ob-
jetivo siempre debe ser una representación real de la información. Es preciso tener en
mente los objetivos y suposiciones subyacentes a la información y mencionarlos en forma
breve con las gráficas. Las impresiones visuales que transmiten las gráficas deben corres-
ponder a los datos subyacentes. Las gráficas deben revelar la mayor cantidad de informa-
ción posible con precisión y exactitud. La excelencia gráfica se logra cuando el usuario
observa la representación más exacta y completa de la situación subyacente del conjunto
de datos en el menor tiempo posible. En resumen, una gráfica debe actuar como un espejo
entre la información numérica y el usuario. De acuerdo con un dicho popular: Tos números
hablan por sí mismos." Esto es cierto cuando se trata de conjuntos de datos pequeños, pero
para los conjuntos muy grandes puede ser difícil discernir cualquier patrón con sólo ver los
números. Por tanto, necesitamos una representación exacta de la información a través de
gráficas que hablen por los números, y ofrezcan un panorama general de los datos. En los
Capítulos 2 y 4 estudiaremos con detalle las técnicas para la elaboración de gráficas.
Ética
Dejando de lado los problemas éticos que surgieron en años recientes con los informes fi-
nancieros de compañías como Enron, las prácticas profesionales con la investigación esta-
dística y la elaboración de informes reciben mucho apoyo de la American Statistical
Association (ASA). En 1999, este organismo proporcionó lineamientos y sugerencias por
escrito (visite http://www.amstat.org) acerca del profesionalismo y las responsabilidades
que se aplican a los investigadores y asesores que emplean o realizan análisis estadísticos.
Como establecen los lineamientos: "Clientes, patrones, investigadores, legisladores, perio-
distas y el público en general deben estar conscientes de que la práctica estadística se debe
realizar de acuerdo con estos lineamientos y quejarse cuando no sea así. Mientras
aprenden cómo aplicar la teoría de la estadística a los problemas, es necesario motivar a
los estudiantes a que utilicen estos lineamientos sin importar si su especialidad profesional
será convertirse en 'estadísticos' o no."
El paquete Microsoft Excel viene instalado en muchas computadoras caseras. En este libro,
utilizamos tanto Excel como MINITAB para las aplicaciones. También usamos un complemen-
to de Excel llamado MegaStat. Este complemento da a Excel la capacidad de producir infor-
mes estadísticos adicionales.
El siguiente ejemplo muestra el uso de la computadora en el análisis estadístico. En los
Capítulos 2, 3 y 4 ¡lustramos los métodos para resumir y describir la información. Un ejemplo
utilizado en esos capítulos se refiere al precio reportado en miles de dólares de 80 vehículos
vendidos el mes pasado en Whitner Autoplex. El siguiente trabajo en Excel revela, entre otras
cosas, que (1) el mes pasado se vendieron 80 vehículos, (2) el precio de venta medio (prome-
dio) fue de $23 218 y (3) los precios de venta variaron desde un mínimo de $15 546 hasta un
máximo de $35 925.
El siguiente trabajo se realizó con el software MINITAB y contiene casi la misma infor-
mación.
Si hubiéramos utilizado una calculadora para llegar a estas medidas y otras que se ne-
cesitan para analizar por completo los precios de venta, habrían sido necesarias muchas
horas de trabajo de cálculo. La probabilidad de un error en aritmética es muy elevada cuan-
do se maneja una gran cantidad de valores. Por otra parte, los paquetes de software para
estadística y las hojas de cálculo proporcionan información precisa en segundos.
Según el criterio de su profesor y dependiendo del software disponible, le aconsejamos
aplicar un paquete de computadora a los ejercicios en la sección Ejercicios de la base de
¿Qué es estadística? 19
datos de cada capítulo. Así, se librará de los tediosos cálculos y podrá concentrarse en el
análisis de la información.
exercises.com
Estos ejercicios utilizan ¡a World Wide Web, una fuente cada vez más extensa y completa de in-
formación actualizada. Debido a la naturaleza cambiante y la revisión continua de los sitios web,
es muy probable que encuentre menús diferentes y quizá cambien las direcciones o URL exac-
tas. Cuando visite una página, prepárese para buscar el vínculo.
15. Supongamos que hace poco abrió una cuenta en AmeriTrade, Inc.. un corredor de bolsa en
línea. Decidió comprar acciones de Johnson and Johnson (una compañía farmacéutica) o
de Pepsico (la compañía matriz de Pepsi y Frito Lay). Para una comparación de ambas em-
presas, visite hito:/. finaRce.yahoo.com y, en el espacio donde dice "Get Quote". escriba las
letras JNJ y PER que son los símbolos respectivos para las dos compañías. Haga clic en
GO y recibirá información actualizada acerca del precio de venta de las acciones. A la dere-
cha de esta información, haga dicen More info y luego en Research. Ahí encontrará infor-
mación sobre los analistas accionarios que evaluaron estas acciones. Los corredores
califican las acciones con 1 si se trata de una muy buena compra y con 5 si representan una
muy buena venta. ¿A qué nivel de medición pertenece esta información? ¿Qué acciones re-
comendaría usted?
Introducción
El altamente competitivo negocio de ventas de automóviles al detalle cambió en forma sig-
nificativa durante los últimos 5 años debido, en parte, a la consolidación de numerosos gru-
pos de distribuidoras de propiedad pública. Por tradición, una familia local era dueña y se
encargaba de las operaciones de la distribuidora de la comunidad, que podía incluir uno o
dos fabricantes, como Pontiac y GMC Trucks o Chrysler y la popular
línea Jeep. Sin embargo, recientemente, compañías bien administradas
y financiadas han adquirido las distribuidoras locales en extensas
regiones de Estados Unidos. Al adquirirlas, estos grupos con frecuencia
traen consigo prácticas de ventas estándar, plataformas tecnológicas de
software y hardware comunes y técnicas de elaboración de informes a la
administración. El objetivo es ofrecer al consumidor una mejor
experiencia de compra, al tiempo que incrementan la productividad de la
organización distribuidora más grande. En muchos casos, además de
cosechar los beneficios financieros de vender la distribuidora se pide a
la familia que siga manejándola en forma cotidiana. En la actualidad, es
común que estas megadistribuidoras den empleo a más de 10 000
personas, generando varios miles de millones de dólares en ventas anuales, tengan más
de 100 franquicias y coticen en la Bolsa de Valores de Nueva York o NASDAQ.
La consolidación representa algunos desafíos. Con la adquisición de distribuidoras en
todo el país, AutoUSA, una de las nuevas megadistribuidoras, ahora vende las económicas
marcas coreanas de importación Kia y Hyundai, la línea de sedanes BMW y Mercedes y
una línea completa de autos y camiones Ford y Chevrolet.
La señora Kathryn Ball es miembro del equipo de alta gerencia de AutoUSA. Es res-
ponsable del registro y el análisis de los precios de venta de los vehículos para AutoUSA.
A Kathryn le gustaría resumir los precios de venta de los vehículos con tablas y gráficas que
pudiera revisar cada mes. A partir de estas tablas y gráficas, quiere conocer el precio de
venta típico, así como los precios más bajos y más altos. También le interesa describir los
datos demográficos de los compradores. ¿Qué edad tienen? ¿Cuántos vehículos tienen?
¿Quieren comprar o rentar el vehículo?
Whitner Autoplex, que se localiza en Raytown, Missouri, es una de las distribuidoras de
AutoUSA. Whitner Autoplex incluye franquicias de Pontiac, GMC y Buick, así como una tienda
de BMW. General Motors trabaja en forma activa con su grupo de distribuidoras para combinar
en un solo lugar varias de sus franquicias, como Chevrolet, Pontiac o Cadillac. La
combinación de franquicias mejora el tráfico en piso y una distribuidora tiene productos para
todas las características demográficas. BMW,
con su marca e imagen de primera clase, quiere
dejar de llamar a sus distribuidoras de esta
manera y llamarlas tiendas. Basándose en la
experiencia de "Nordstrom's", BMW quiere que
sus consumidores vivan una experiencia de
compra/propiedad más similar a una visita de
compras de Nordstrom's y que no tengan la
imagen que a menudo crea una visita a la dis-
tribuidora.
La señora Ball decidió recopilar información
sobre tres variables en Whitner Autoplex: precio
de venta ($000), edad de los compradores y tipo
de auto (nacional, con código 1, o extranjero, con
código 0). Una parte del conjunto de datos se
muestra en la hoja de Excel adyacente. Todo el
conjunto de datos está disponible en el CD para
el estudiante (que se incluye con el libro), en el
sitio web de McGraw-Hill y en el Apéndice O, al
final de libro.
Descripción de datos: distribuciones de frecuencias y su presentación gráfica 25
EJEMPLO En la introducción describimos una situación en la que la señora Kathryn Ball de AutoUSA
quería desarrollar algunas tablas y gráficas para mostrar el precio de venta típico en diver-
sas distribuidoras. La Tabla 2-1 reporta sólo el precio de los 80 vehículos vendidos el mes
pasado en Whitner Autoplex. ¿Cuál es el precio de venta típico? ¿Cuál es el precio de venta
más alto? ¿Cuál es el precio de venta más bajo? ¿Alrededor de qué valor tienden a agru-
parse los precios de venta?
A la información sin organizar en la Tabla 2-1 nos referimos como datos en bruto o datos
no agrupados. Con un poco de investigación, podemos encontrar el precio de venta más
bajo ($15 546) y el precio de venta más alto ($35 925), pero eso es todo. Es difícil determi-
nar el precio de venta típico. También es difícil visualizar en qué punto tienden a agruparse
los precios de venta. Los datos en bruto se interpretan con mayor facilidad si están organi-
zados en una distribución de frecuencias.
Pasos para organizar los datos Paso 1: Decidir el número de clases. El objetivo es utilizar suficientes grupos o cla-
en una distribución de ses para revelar la forma de la distribución. Aquí es necesario el sentido co-
frecuencia. mún. Demasiadas clases o muy pocas clases podrían no revelar la forma
básica del conjunto de datos. En el ejemplo del precio de venta de los vehícu-
los, tres clases no ofrecen una amplia perspectiva del patrón de la información
(vea la Tabla 2-2).
Una receta útil para determinar el número de clases (k) es la regla de "2 a
• la k". Esta guía le sugiere elegir el número más bajo (k) para el número de cía-
26 Capítulo 2
ses, de modo que 2* (en palabras, 2 elevado a la k potencia) sea mayor que el
TABLA 2-2 Un ejemplo de muy pocas clases
TABLA 2-3 Ingreso bruto ajustado para los individuos que presentan declaraciones de impuestos
sobre el ingreso
Número de declaraciones
pio, 7 clases de ancho $3 000 en el caso de Whitner Autoplex dan como resul-
tado un rancio de 7($3 000) = $21 000. El rango real es $20 379, que calculamos
al restar $35 925 - $15 546. Al comparar ese valor con $21 000, tenemos un
excedente de $621. Como sólo necesitamos cubrir la distancia (H - L), es natural
colocar cantidades casi iguales del exceso en cada una de las dos colas. Desde
luego, también debemos seleccionar límites de clases convenientes. Un
lineamiento consiste en convertir el límite inferior de la primera clase en un
múltiplo del intervalo de clase. En ocasiones, esto no es posible, pero el límite
inferior se debe redondear. Éstas son las clases que podríamos utilizar para esta
información.
Paso 4: Incluir los precios de venta de los vehículos en las clases. Para empezar, el
precio de venta del primer vehículo en la Tabla 2-1 es $23 197, y se incluye en la
clase de $21 000 a $24 000. El segundo precio de venta en la primera columna
de la Tabla 2-1 es $18 021; y se incluye en la clase de $18 000 a $21 000. Los
otros precios de venta se incluyen de manera similar. Cuando todos los precios
de venta quedan incluidos, la tabla queda así:
28 Capítulo 2
15 a 18 8
18a 21 23
21 a 24 17
24 a 27 18
27 a 30 8
30 a 33 4
33 a 36 2
Total 80
Autoevaluación 2-2 Barry Bonds de los Gigantes de Sari Francisco estableció un nuevo récord de carreras en una
sola temporada al anotar 73 carreras durante la temporada 2001. En la más larga de estas ca-
rreras recorrió 488 pies y, en la más corta, 320 pies. Usted debe elaborar una distribución de
frecuencias de la longitud de estas carreras.
(a) ¿Cuántas clases utilizaría?
(b) ¿Qué intervalo de clase sugeriría?
(c) ¿Qué clases reales sugeriría?
30 Capítulo 2
TABLA 2-5 Distribución de frecuencias relativas de los precios de los vehículos vendidos el mes pasado en
Whitner Autoplex
Autoevaluación 2-3 Consulte la Tabla 2-5, que muestra la distribución de frecuencias relativas para los vehículos
vendidos el mes pasado en Whitner Autoplex.
(a) ¿Cuántos vehículos se vendieron a un precio de $18 000 a $21 000?
(b) ¿Qué porcentaje de vehículos se vendió en un precio entre $18 000 y $21 000?
(c) ¿Qué porcentaje de los vehículos se vendió en $30 000 o más?
Ejercicios
Las respuestas a los ejercicios con números nones se encuentran al final del libro.
65 98 55 62 79 59 51 90 72 56
70 62 66 80 94 79 63 73' 71 85
5 3 3 1 4 4 5 6 4 2 6 6 6 7 1
1 14 1 2 4 4 4 5 6 3 5 3 4 5 6
8 4 7 6 5 9 11 3 12 4 7 6 5 15 1
1 10 8 9 2 12
a. Organice los datos en una distribución de frecuencias, utilizando siete clases y 15 como
el límite inferior de la primera clase. ¿Qué intervalo de clase seleccionó?
b. ¿Dónde tienden a agruparse los datos?
c. Describa la distribución.
d. Determine la distribución de frecuencias relativas.
Presentación gráfica de
una distribución de frecuencias
A menudo, los gerentes de ventas, analistas de bolsa, administradores de hospitales y otros
ejecutivos ocupados necesitan un panorama rápido de las tendencias en las ventas, los pre-
cios accionarios o los costos hospitalarios. Estas tendencias con frecuencia se pueden ilus-
trar mediante el uso de tablas y gráficas. Tres gráficas que ayudan a ilustrar una distribución
de frecuencias en forma gráfica son el histograma, el polígono de frecuencias y el polígo-
no de frecuencias acumuladas.
32 Capítulo 2
Histograma
Una de las formas más comunes de representar una distribución de frecuencias es un his-
tograma
HISTOGRAMA, Gráfica en la que las clases se marcan en el eje horizontal y las fre-
cuencias de clases en el eje vertical. Las frecuencias de clases se representan me-
diante la altura de las barras y estas últimas se dibujan una junto a otra.
De esta manera, un histograma describe una distribución de frecuencias utilizando una se-
ne de rectángulos adyacentes, donde la altura de cada rectángulo es proporcional a la fre-
cuencia de la clase que representa. La elaboración de un histograma se ilustra mejor
volviendo a introducir los precios de los 80 vehículos vendidos el mes anterior en Whitner
Autoplex.
Las frecuencias de clase se presentan en una escala a lo largo del eje vertical (eje V) y los lí-
mites de clase o los puntos medios de clase se colocan a lo largo del eje horizontal. Para ilus-
trar la elaboración del histograma, las primeras tres clases se muestran en la Gráfica 2-1.
Elaboración de un histograma
En la Gráfica 2-1 observamos que hay ocho vehículos en la clase de $15 000 a $18 000.
Por tanto, la altura de la columna para esa clase es 8 Hay 23 vehículos en la clase de
$18 000 a $21 000. De manera que, por lógica, la altura de esa columna es de 23. La altu-
ra de la barra representa la cantidad de observaciones en la clase.
Descripción de datos: distribuciones de frecuencias y su presentación gráfica 33
1. El precio de venta más bajo es de aproximadamente $15 000, y el más alto es de $36 000
más o menos 2 La frecuencia de clase más alta es la clase de $18 000 a $21 000. Un
total de 23 de los
80 vehículos vendidos se encuentran en este rango de precios. 3. 58 de los
vehículos, o 72 5%, tenían un precio de venta de entre $18 000 y $27 000.
De esta manera, el histograma ofrece una representación visual fácil de interpretar acerca
de una distribución de frecuencia Debemos señalar también que habríamos llegado a las
mismas conclusiones y la forma del histograma habría sido la misma si hubiéramos utiliza-
do una distribución de frecuencia relativa en lugar de las frecuencias reales. Es decir, si hu-
biéramos usado las frecuencias relativas de la Tabla 2-5, que se encuentra en la página 30,
tendríamos un histograma de la misma forma que la de la Gráfica 2-2. La única diferencia
es que el eje vertical se habría reportado en el porcentaje de vehículos, en lugar de en el
número de vehículos.
Utilizamos el programa Microsoft Excel para producir el histograma con los datos de
ventas de vehículos de Whitner Autoplex (que se muestra en la página 25). Debemos hacer
notar que los puntos medios de clase se utilizan como las etiquetas para las clases. Los co-
mandos de software para crear este resultado se indican en la sección Comandos de soft-
ware, al final del capítulo.
Polígono de frecuencias
En un polígono de frecuencia, Un polígono de frecuencias es similar a un histograma. Consiste en segmentos de línea
los puntos medios de clase se que conectan los puntos formados por las intersecciones de los puntos medios de clase y
conectan con un segmento de las frecuencias de clase La elaboración de un polígono de frecuencias se ilustra en la Grá-
línea fica 2-3 (en la página 35) Utilizamos los precios de los vehículos para los autos vendidos el
mes pasado en Whitner Autoplex El punto medio de cada clase se representa en una es-
cala en el eje Xy las frecuencias de clase en el eje Y. Recuerde que el punto medio de cla-
se es el valor en el centro de una clase y representa los valores en esa clase. La frecuencia
34 Capítulo 2
GRÁFICA 2-3 Polígono de frecuencia de los precios de venta de los 80 vehículos vendidos
en Whitner Autoplex
Como dijimos antes, la clase de $15 000 a $18 000 está representada en el punto me-
dio de $16 500. Para construir un polígono de frecuencias, muévase en dirección horizon-
tal en la gráfica hasta el punto medio, $16.5 y luego en sentido vertical hasta 8, la frecuencia
de clases, y coloque un punto. Los valores Xy Y de este punto se llaman coordenadas. Las
coordenadas del punto siguiente son X= $19.5 y Y= 23. El proceso se continúa para todas
las clases. Luego, los puntos se conectan en orden. Es decir, el punto que representa la clase
más baja se une a aquel que representa la segunda clase, y así sucesivamente.
En la Gráfica 2-3, observe que para completar el polígono de frecuencias se suman los
puntos medios $13.5 y $37.5 al eje Xpara "anclar" el polígono en cero frecuencias. Estos
dos valores, $13.5 y $37.5, se calcularon al sustraer el intervalo de clase de $3.0 del punto
medio más bajo ($16.5) y sumando $3.0 al punto medio más alto ($34.5) en la distribución
de frecuencias.
Tanto el histograma como el polígono de frecuencia nos permiten tener un panorama
rápido de las principales características de la información (altas, bajas, puntos de concen-
tración, etcétera). Aunque las dos representaciones son similares en su propósito, el histo-
grama tiene la ventaja de que representa cada clase como un rectángulo, en el que la altura
de la barra rectangular representa el número en cada clase. A su vez, el polígono de fre-
cuencias tiene una ventaja sobre el histograma. Nos permite comparar directamente dos o
más distribuciones de la frecuencia. Supongamos que la señora Ball de AutoUSA quiere
comparar el lote Whitner Autoplex en Raytown, Missouri, con un lote similar, Fowler Auto
Malí en Grayling, Michigan. Para hacerlo, se construyen dos polígonos de frecuencias, uno
arriba del otro, como en la Gráfica 2-4. En esta gráfica, es evidente que el precio de venta
típico de los vehículos es más alto en el lote que está en Grayling, Michigan.
El número total de frecuencias en las dos distribuidoras es casi igual, de modo que es
posible una comparación directa. Si la diferencia en el número total de frecuencias es muy
grande, la conversión de las frecuencias en relativas y luego la representación de ambas
distribuciones permitirán una comparación más clara.
Autoevaluación 2-4 En la siguiente distribución de frecuencias se muestran las importaciones anuales de un gru-
po seleccionado de proveedores de aparatos electrónicos.
Importaciones (millones de $) Número de proveedores
2a5 6
5a8 13
8a 11 20
11 a 14 10
14 a 17 1
Ejercicios
9. Molly's Candel Shop tiene varias tiendas detallistas en las áreas costeñas del norte y el sur de
California. Muchos de los clientes de Molly's piden que se les envíen sus compras. La gráfica
siguiente muestra el número de paquetes enviados por día durante los últimos 100 días.
11. La siguiente distribución de frecuencias reporta el número de millas por viajero frecuente,
en miles, para los empleados de Brumley Statistical Consulting, Inc., durante el primer
trimestre de 2004.
12. Ecommerce.com, un importante detallista por Internet, estudia el tiempo que transcurre en-
tre el momento de hacer un pedido y el momento en que se surte de entre una muestra
de pedidos recientes. Los tiempos de espera se reportan en días.
Tiempo de espera
(días) Frecuencia
0a5 6
5 a 10 7
10 a 15 12
15 a 20 8
20 a 25 7
Total 40
a ¿Cuántos pedidos se estudiaron?
b ¿Cuál es el punto medio de la primera clase?
c ¿Cuáles son las coordenadas de la primera clase para un polígono de
frecuencias?
d Elabore un histograma.
e Elabore un polígono de frecuencias.
f Interprete los tiempos de espera utilizando ambas gráficas.
Para encontrar el precio de venta debajo del cual se vendieron la mitad de los autos, traza-
mos una línea horizontal desde la marca de 50% en el eje vertical de la derecha sobre el
polígono y luego la bajamos hasta el eje Xy leemos el precio de venta. El valor en el eje X
es de aproximadamente 22.5, de modo que calculamos que 50% de los vehículos se ven-
dieron en menos de $22 500.
Para encontrar el precio debajo del cual se vendieron 25 de los vehículos, encontramos
el valor de 25 en el eje vertical de la izquierda. A continuación, trazamos una línea horizon-
tal desde el valor de 25 hasta el polígono y luego la bajamos hasta el eje Xy leemos el pre-
cio. Es alrededor de 20.5, de modo que calculamos que 25 de los vehículos se vendieron
en menos de $20 500. También podemos calcular el porcentaje de vehículos que se vendie-
ron en menos de una cantidad en particular. Para explicar lo anterior, supongamos que que-
remos calcular el porcentaje de vehículos que se vendieron en menos de $28 500.
Empezamos por encontrar el valor de 28.5 en el eje X, nos movemos en sentido vertical
hasta el polígono y luego horizontalmente hasta el eje vertical de la derecha. El valor es de
aproximadamente 87%, de modo que llegamos a la conclusión de que 87% de los vehícu-
los se vendieron en menos de $28 500.
Autoevaluación 2-5 En la tabla siguiente se organizó una muestra del salario por hora de 15 empleados de Home
Depot en Brunswick, Georgia.
40 Capítulo 2
Ejercicios
13. La gráfica siguiente muestra los salarios por hora de una muestra de soldadores certificados
en el área de Atlanta, Georgia.
14. La siguiente gráfica muestra el precio de venta ($000) de las casas vendidas en el área de
Bilings, Montana.
15. Se repite la distribución de frecuencias que representa el número de millas de viajero frecuente
acumuladas por los empleados de Brumley Statistical Consulting Company en el Ejercicio 11.
Descripción de datos: distribuciones de frecuencias y su presentación gráfica 41
0a3 5
3a6 12
6a9 23
9a 12 8
12 a 15 2
Total 50
Tiempo de espera
(días) Frecuencia
0a5 6
5 a 10 7
10a 15 12
15 a 20 8
20 a 25 7
Total "40"
Gráficas lineales
Las Gráficas 2-6 y 2-7 son ejemplos de gráficas lineales, que son muy efectivas sobre to-
do para la información de negocios y económica porque muestran el cambio y las tenden-
cias en una variable a través del tiempo. La variable de interés, como el número de unidades
vendidas o el valor total de las ventas, se coloca en escala a lo largo del eje vertical y el
tiempo a lo largo del eje horizontal. La Gráfica 2-6 muestra el Promedio Industrial Dow Jo-
nes y el NASDAQ, las dos medidas de actividad bursátil que se reportan con mayor frecuen-
cia. La hora del día,- empezando con la campanada de apertura a las 9:30 se muestra a lo
largo del-eje horizontal y el valor del Dow en el eje vertical. Para este día, el Dow era de 8
790.44, subió-5.55 puntos, a las 12:08 PM. El NASDAQ era de 1 447.67, bajó 0.05 puntos,
álas 12:08 PM. Las gráficas de líneas se utilizan muy a menudo entre los inversionistas para
apoyar las decisiones de compra y venta de acciones y bonos.
La Gráfica 2-7 es también una gráfica de líneas. Muestra las tasas de desempleo entre
los hombres afroestadounidenses mayores de 16 años durante el periodo comprendido en-
42 Capítulo 2
GRÁFICA 2-6 Gráfica de líneas para el Promedio Industrial Dow Jones y el NASDAQ
GRÁFICA 2-7 índice de desempleo para los hombres afroestadounidenses mayores de 16 años de
1992 a 2002
tre 1992 y 2002. Observe que al principio del periodo la tasa de desempleo era de aproxi-
madamente 15%, y que ésta bajó a alrededor de 8% en 2000, pero aumentó a 12% en la
primera década de 2002. .
Con mucha frecuencia, dos o más series de datos se incluyen en la misma gráfica de
líneas. Por tanto, una gráfica puede mostrar la tendencia de diversas variables diferentes.
Esto permite una comparación de varias series durante el mismo periodo. La Gráfica 2-8
muestra las ventas nacionales e internacionales (en miles de millones de dólares) para
Johnson and Johnson, Inc., durante los años de 1992 a 2002. Podemos ver que las ventas
de ambos segmentos van en aumento, pero las ventas nacionales se incrementan con ma-
yor rapidez.
Gráficas de barras
Una gráfica de barras se puede utilizar para representar cualquiera de los niveles de me-
dición: nominal, ordinal, de intervalo o de razón. (Recuerde que estudiamos los niveles de
medición desde la página 9 en el Capítulo 1.) Según los Current Population Reports (Re-
portes Actuales de la Población) del Census Bureau, en Estados Unidos la ganancia anual
típica de una persona mayor de 18 años es de $22 895, si el certificado de secundaria es
el máximo título obtenido. Con el certificado de bachillerato, las ganancias típicas aumen-
tan a $40 478, y con una licenciatura o una maestría, la cantidad típica se incrementa a
Descripción de datos: distribuciones de frecuencias y su presentación gráfica 43
$73 165. Esta información está resumida en la Gráfica 2-9. Con esta gráfica es fácil ver que
una persona que tiene un certificado de bachillerato puede esperar ganar casi el doble en
un año que otra que tiene un certificado de secundaria. Las ganancias esperadas de una
persona con un grado profesional o de maestría son casi el doble que las de otra con un
certificado de bachillerato y tres veces las de una persona con diploma de secundaria.
GRÁFICA 2-8 Ventas nacionales e internacionales para Johnson and Johnson, Inc., 1992 a 2002
El primer paso consiste en registrar los porcentajes 0, 5, 10, 15, etc. de manera uniforme
en la circunferencia de un círculo. Para representar el 57% destinado a los premios, trace
una línea desde el centro del círculo hasta 0 y otra línea desde el centro del círculo hasta
57%. El área en esta "rebanada" representa las ganancias de la lotería que se entregaron
en premios. A continuación, sume el 57% de los gastos destinados a los premios al 32% en
pagos para educación; el resultado es 89%. Trace una línea del centro del círculo a 89%, de
modo que el área entre 57% y 89% represente los pagos hechos para la educación. Luego,
sume el 6% de bonos y comisiones, con lo que obtenemos un total de 95%. Trace una línea
desde el centro del círculo hasta 95 de modo que la "rebanada" entre 89% y 95% represente
el pago de bonos y comisiones. El 5% restante es para gastos operativos.
Como el área del pastel representa la participación relativa de cada componente, podemos
compararlos con facilidad:
El sistema Excel elabora una gráfica de pastel y captura el resultado. Consulte la gráfica si-
guiente para la información en la Tabla 2-7.
Autoevaluación 2-6 Los Clayton County Commissioners quieren mostrar a los contribuyentes que asistan a la pró-
xima reunión lo que sucede con el dinero que pagan en impuestos. La cantidad total de im-
puestos que se cobró es de 2 millones de dólares. Los gastos son: $440 000 para escuelas,
$1 160 000 para carreteras, $320 000 para administración y $80 000 para provisiones. Una
gráfica de pastel es ideal para mostrar la cantidad destinada a escuelas, carreteras, gastos
administrativos y provisiones. Convierta las cantidades de dólares en porcentajes del total y
represente estos porcentajes en forma de gráfica de pastel.
Descripción de datos: distribuciones de frecuencias y su presentación gráfica 45
Ejercicios
17. Un asesor de negocios pequeños investiga el desempeño de varias compañías. Las ventas
durante 2003 (en miles de dólares) para las compañías seleccionadas fueron:
Corporación (miles de $)
El asesor quiere incluir en su informe una gráfica que compare las ventas de las seis com-
pañías. Utilice una gráfica de barras para comparar las ventas del cuarto trimestre de estas
corporaciones y escriba un breve informe resumiendo la gráfica de barras. 18. The Blair
Corporation, que se localiza en Warren, Pennsylvania, vende ropa de moda para dama y caballero,
además de gran variedad de productos para el hogar (http://www.blair.com). Atiende a sus clientes
por correo. A continuación, presentamos las ventas netas de Blair durante el periodo de 1997 a
2002. Elabore una gráfica de líneas que represente las ventas netas durante ese periodo y
redacte un breve informe.
Ventas netas
Año (millones de $)
1997 486.6
1998 506.8
1999 522.2
2000 574.6
2001 580.7
2002 568.5
19. Un encabezado en un periódico de Toledo, Ohio, informaba que el crimen iba a la baja. A
continuación, presentamos el número de homicidios entre 1986 y 2002. Elabore una gráfica
de líneas para resumir la información y escriba un breve resumen de los índices de homici-
dios durante los últimos 17 años.
46 Capítulo 2
1986 21 1995 35
1987 34 1996 30
1988 26 1997 28
1989 42 1998 25
1990 37 1999 21
1991 37 2000 19
1992 44 2001 23
1993 45 2002 27
1994 40
20. Un informe preparado para el gobernador de un estado del oeste del país indicaba que 56%
de los ingresos fiscales del estado se destinaban a la educación, 23% a los fondos genera-
les, 10% a los condados, 9% a los programas para ancianos y el resto a otros programas
sociales. Elabore una gráfica de pastel para mostrar la división del presupuesto. La tabla
21 siguiente, en millones, muestra la población de Estados Unidos en intervalos de 5 años, de
1950 a 2000. Elabore una gráfica de líneas que ilustre el crecimiento de la población y
escriba un breve informe resumiendo sus descubrimientos.
Población Población
22. A continuación, se muestran los gastos de personal militar y civil de las ocho instalaciones
militares más grandes en Estados Unidos. Elabore una gráfica de barras y resuma los resul-
tados en un breve informe.
B. Un polígono de frecuencias consiste en segmentos de línea que conectan los puntos for-
mados por las intersecciones de los puntos medios de clase y las frecuencias de clase.
C. Un polígono de frecuencias acumuladas "menor que" muestra el número de observaciones
bajo un valor determinado.
IV. En los periódicos y revistas se utilizan diversas gráficas.
A. Una gráfica de líneas es ideal para mostrar la tendencia de una variable como las ventas
o el ingreso a través del tiempo.
B. Las gráficas de barras son similares a las de líneas y resultan útiles para mostrar los cam
bios en los datos de la escala nominal.
C. Las gráficas de pastel son útiles para mostrar el porcentaje que los diversos componentes
representan en un total.
a. Llegue a un intervalo de clase sugerido. Utilice cinco clases y deje que el límite inferior
de la primera clase sea $80.
b. ¿Cuál sería un mejor intervalo de clase?
c. Organice la información en una distribución de frecuencias utilizando un límite inferior
de $80.
d. Interprete sus descubrimientos.
30. Los números de accionistas para un grupo seleccionado de grandes empresas son (en
miles):
Número de accionistas Número de accionistas
Compañía (miles) Compañía (miles)
32. El Midland National Bank seleccionó una muestra de 40 cuentas de cheques de estudiantes.
A continuación, presentamos sus saldos a fin de mes.
$404 $74 $234 $149 $279 $215 $123 $55 $43 $321
87 234 68 489 57 185 141 758 72 863
703 125 350 440 37 252 27 521 302 127
968 712 503 489 327 608 358 425 303 203
a. Agrupe los datos en una distribución de frecuencias usando $100 como un intervalo de
clase y $0 como el punto de inicio.
b. Elabore un polígono de frecuencias acumuladas.
c. El banco considera que cualquier estudiante con un saldo final de $400 o más es un
"cliente preferido". Calcule el porcentaje de clientes preferidos.
d. El banco también considera un cargo por servicio al 10% de los saldos más bajos.
¿Cuál recomendaría como el punto de referencia entre aquéllos que tienen que pagar
un cargo por servicio y los que no deben pagarlo?
33. En 2002, los residentes del estado de Carolina del Sur ganaron un total de 69.5 mil millones
de dólares en ingreso bruto ajustado. Del total, 73% fue de sueldos y salarios; 11% de divi
dendos, intereses y ganancias sobre el capital; 8% de IRA y pensiones gravables; 3% de
pensiones de ingresos por negocios; 2% de seguridad social, y el 3% restante provino de
otras fuentes. Elabore una gráfica de pastel ilustrando la división del ingreso bruto ajustado.
Escriba un párrafo resumiendo la información.
34. Un estudio reciente de tecnologías para el hogar reportó el número de horas de uso de una
computadora personal por semana para una muestra de 60 personas. Del estudio se exclu
yeron a las personas que trabajan fuera de casa y usan la computadora como parte de su
trabajo.
9.3 5.3 6.3 8.8 6.5 0.6 5.2 6.6 9.3 4.3
6.3 2.1 2.7 0.4 3.7 3.3 1.1 2.7 6.7 6.5
4.3 9.7 7.7 5.2 1.7 8.5 4.2 5.5 5.1 5.6
5.4 4.8 2.1 10.1 1.3 5.6 2.4 2.4 4.7 1.7
2.0 6.7 1.1 6.7 2.2 2.6 9.8 6.4 4.9 5.2
4.5 9.3 7.9 4.6 4.3 4.5 9.2 8.5 6.0 8.1
Categoría Porcentaje
Investigación 32.3
Educación de salud pública 23.5
Servicio a la comunidad 12.6
Recaudación de fondos 12.1
Capacitación profesional y educativa 10.9
Administración y general 8.6
1997 1 444
1998 1 756
1999 2110
2000 2 423
2001 1 943
2002 1 974
39. Los ingresos anuales, por tipo de impuesto, para el estado de Georgia son los siguientes.
Elabore una tabla o gráfica apropiada y escriba un breve informe resumiendo la información.
Importaciones anuales
Socio (millones)
Japón $9 550
41. La vida en las granjas ha cambiado desde principios del siglo xx. En los primeros años del si-
glo, las máquinas reemplazaron poco a poco la fuerza de los animales. Por ejemplo, en 1910,
las granjas estadounidenses utilizaban 24.2 millones de caballos y muías y sólo alrededor
de 1 000 tractores. Para 1960, se usaban 4.6 millones de tractores y sólo 3.2 millones de
caballos y muías. En 1920, había más de 6 millones de granjas en Estados Unidos; en la
actualidad, hay menos de 2 millones. A continuación, se encuentra el número de granjas, en
miles, para cada uno de los 50 estados. Escriba un párrafo resumiendo sus
descubrimientos.
47 1 8 46 76 26 4 3 39 45
4 21 80 63 100 65 91 29 7 15
7 52 87 39 106 25 55 2 3 8
14 38 59 33 76 71 37 51 1 24
35 86 185 13 7 43 36 20 79 9
42. Una de las golosinas más populares en Estados Unidos son los M&M, que produce Mars
Company. Al principio, todos los M&M eran de color café; más recientemente, se empezaron
a producir en colores rojo, verde, azul, naranja, café y amarillo. En http://global.mms.com/
us/about/products/milkchocolate.jsp puede leer sobre la historia del producto, encontrar
ideas para hacer pasteles con las golosinas, comprarlas en los colores de su escuela o su
equipo favorito, y aprender cuál es el porcentaje de cada color en las bolsas estándar. Hace
poco, una bolsa de 14 onzas de grageas M&M en su presentación regular tenía 444 dulces
con la siguiente división por color: 130 de color café, 98 amarillos, 96 rojos, 35 naranjas, 52
azules y 33 verdes. Elabore una gráfica que ilustre esta información y escriba un párrafo re
sumiendo los resultados.
43. La gráfica siguiente compara los precios de venta promedio del Ford Taurus y el Toyota
Camry entre 1994 y 2002. Escriba un breve informe resumiendo la información en la gráfi
ca. Asegúrese de incluir el precio de venta de ambos autos, el cambio en el precio de ven
ta y la dirección del cambio en el periodo de 8 años.
exercises.com
44. En el sitio web http://www.pickuptruck.com están disponibles las ventas de camiones men-
suales y anuales. Vaya a este sitio y busque en News para obtener la información más re-
ciente. Elabore una gráfica de pastel o de barras que muestre la información más reciente.
¿Cuál es el camión que se vende más? ¿Cuáles son los cuatro o cinco camiones que se
venden más? ¿Cuál es su participación en el mercado? Tal vez quiera agrupar los camiones
en una categoría llamada "Otros" para tener un mejor panorama de la participación en el
mercado. Comente sobre sus descubrimientos.
52 Capítulo 2
45. La gráfica siguiente muestra los salarios totales pagados por las compañías de software y
aeronaves en el estado de Washington entre 1994 y 2002. Escriba un breve reporte resu-
miendo esta información.
46. Una gráfica de pastel muestra la participación en el mercado de los productos de cola. La
"rebanada" para Pepsi-Cola tiene un ángulo central de 90 grados. ¿Cuál es su participación
en el mercado?
2-1 a. Los datos en bruto o sin agrupar. c. El menor volumen anual de ventas de importaciones
b. por parte de un proveedor es de aproximadamente $2
millones y el mayor de alrededor de $17 millones. La
frecuencia más alta es entre $8 y $11 millones. 2-5 a.
Una distribución de frecuencia.
b.
c. Frecuencias de clase.
d. La mayor concentración de comisiones es de
$1 500 a $1 600. La comisión más baja es de apro-
ximadamente $1 400 y la más alta es de alrededor
de $1 800.
6 7
2-2 a. 2 = 64 < 73 < 128 = 2 . De modo que se recomien-
dan 7 clases.
b. El ancho de intervalo debe ser por lo menos (488 -
320)/7 = 24. Los intervalos de clase de 25 o 30 pies
son razonables.
c. Si utilizamos un intervalo de clase de 25 pies y em-
pezamos con un límite inferior de 300 pies, serían
necesarias ocho clases. Un intervalo de clase de 30
pies empezando con 300 pies también es razona
ble. Esta alternativa sólo requiere de siete clases.
2-3 a. 23.
b. 28.75%, calculado así: (23/80) x 100,
c. 7.5%, calculado así: (6/80) x 100.
2-4 a.
c. Alrededor de siete empleados ganan $11.00 o me-
nos. Aproximadamente la mitad de los empleados
gana $11.25 o más. Alrededor de cuatro emplea-
dos gana $10.25 o menos.
Los trazos son: (3.5, 12), (6.5, 26), (9.5, 40), (12.5, 20)
y (15.5, 2).
Descripción de datos:
medidas de ubicación
Los pesos (en libras) de una muestra de cinco cajas que se van a enviar a Texas por
UPS son: 12, 6, 7, 3 y 10. Calcule la desviación estándar. (Vea la Meta 4 y el Ejercicio
72.)
56 Capítulo 3
Introducción
En el Capítulo 2 empezó nuestro estudio de la estadística descriptiva. Para transformar una
masa de datos en bruto en una forma significativa, la organizamos en una distribución de
frecuencias y la representamos de manera gráfica en un histograma o un polígono de fre-
cuencias. También revisamos otras técnicas gráficas como gráficas de líneas y de pastel.
Este capítulo estudia dos formas numéricas de descripción de datos, las medidas de
ubicación y las medidas de dispersión. Las medidas de ubicación se conocen a menudo
como promedios. El propósito de una medida de ubicación es señalar el centro de un con-
junto de valores.
Usted está familiarizado con el concepto de
un promedio. Se trata de una medida de ubica-
ción que muestra el valor central de la informa-
ción. Los promedios aparecen todos los días en
televisión, periódicos y en revistas de noticias. És-
tos son algunos ejemplos:
se emplea y se reporta con mayor frecuencia. Estudiamos la media así como un parámetro
de población y una estadística de las muestras.
La media de la población
Muchos estudios comprenden todos los valores de una población. Por ejemplo, la carrete-
ra interestatal 75, en su paso por el estado de Kentucky tiene 39 salidas. La distancia me-
dia entre las salidas en este estado es de 4.76 millas. Esto es un ejemplo de un parámetro
de la población porque estudiamos la distancia entre todas las salidas. Hay 12 asociados
de ventas empleados en la tienda de descuentos de Carpets by Otto en Reynolds Road. La
cantidad media de comisiones que ganaron el mes pasado fue de $1 345. Éste es un valor
de la población porque consideramos la comisión de todos los asociados de ventas. Otros
ejemplos de una media de la población serían: el precio de cierre medio de las acciones de
Johnson and Johnson para los últimos cinco días es $48.75; la tasa anual media de recu-
peración de Berger Funds durante los últimos 10 años es de 8.67%, y el número medio de
horas extra que trabajaron por semana los seis soldadores en el departamento de soldadura
de Butts Welding, Inc., es de 6.45 horas.
Para la información en bruto, es decir, los datos que no se han agrupado en una distribu-
ción de frecuencia, la media de la población es la suma de todos los valores en la población
dividida entre el número de valores en la población. Para calcular la media de la población,
utilizamos la fórmula siguiente.
En lugar de escribir con palabras todas las indicaciones para calcular la media de la pobla-
ción (o cualquier otra medida), es más conveniente utilizar los símbolos abreviados de las
matemáticas. La media de la población utilizando símbolos matemáticos es:
donde:
representa la media de la población. Es la letra griega "mu" minúscula.
es el número de valores en la población.
representa cualquier valor particular.
es la letra griega "sigma" mayúscula e indica la operación de suma.
es la suma de los valores Xen la población.
Cualquier característica mensurable de la población se conoce como parámetro. La me-
dia de una población es un parámetro.
¿Esta información es una muestra o una población? ¿Cuál es el número de la media arit-
mética de patentes otorgadas?
¿Cómo interpretamos el valor de 195? El número típico de patentes recibidas por una com-
pañía fabricante de automóviles es 195. Debido a que consideramos todas las compañías
que reciben patentes, este valor es un parámetro poblacional.
donde:
La media de una muestra o cualquiera otra medida basada en los datos de una mues-
tra se conoce como estadístico. Si el diámetro externo medio de una muestra de cinco ro-
damientos de bala es 0.625 pulgadas, se trata del ejemplo de un estadístico.
SunCom estudia el número de minutos que utilizan los clientes con un plan tarifario de te-
léfono celular en particular. Una muestra aleatoria de 12 clientes mostró el siguiente núme-
ro de minutos utilizados el mes pasado.
Descripción de datos: medidas de ubicación 59
El número medio de minutos usados el mes pasado por la muestra de teléfonos celulares
es de 97.5.
1. Cada conjunto de datos de intervalo o de nivel de razón tiene una media. Recor-
demos que en el Capítulo 1 dijimos que los datos de nivel de razón incluyen infor-
mación como edades, ingresos y pesos, y que la distancia entre los números es
constante.
2. Todos los valores se incluyen al calcular la media.
3. Un conjunto de datos sólo tiene una media. La media es única. Más adelante en
este capítulo, descubriremos un promedio que podría aparecer dos veces o más
en un conjunto de datos.
4. La suma de las desviaciones de cada valor de la media siempre será cero. Expre-
sado simbólicamente:
La media es un punto de Por tanto, podemos considerar que la media es un punto de equilibrio para un conjunto
equilibrio de datos. Para ilustrar, tomemos una tabla con los números 1, 2-, 3,..., n separados por espa-
cios iguales. Supongamos que tres barras del mismo peso se colocan sobre la tabla en los
números 3, 4 y 8, y que el punto de equilibrio se establece en 5, la media de los tres números.
¡Descubriríamos que la tabla está perfectamente equilibrada! Las desviaciones debajo de la
media (-3) son iguales a las desviaciones sobre la media (+3). Mostrado en un esquema:
60 Capítulo 3
La media se ve afectada en La media tiene un punto débil. Recuerde que para calcular la media utilizamos el valor
forma notable por valores muy de cada elemento en una muestra o población. Si uno o dos de estos valores son muy altos
altos o muy bajos. o muy bajos comparados con la mayor parte de los datos, es probable que la media no sea
un promedio apropiado para representar la información. Por ejemplo, supongamos que los
ingresos anuales de un pequeño grupo de accionistas de Merrill Lynch son $62 900, $61 600,
$62 500, $60 800 y $1 200 000. El ingreso medio es $289 560. Como es obvio, no es repre-
sentativo de este grupo, porque todos los corredores menos uno tienen un ingreso en el rango
de $60 000 a $63 000. Uno de los ingresos ($1 200 000) afecta la media en forma notable.
Autoevaluación 3-1 1 Los ingresos anuales de una muestra de empleados de la gerencia media de Westing-
house son: $62 900, $69 100, $58 300 y $76 800.
(a) Dé la fórmula de la media de la muestra.
(b) Encuentre la media de la muestra.
(c) ¿La media que calculó en (b) es un estadístico o un parámetro? ¿Por qué?
(d) ¿Cuál es su mejor cálculo de la media de la población?
2. Todos los estudiantes en Ciencias avanzadas de la Computación 411 son una población:
Sus calificaciones en los cursos son 92, 96, 61, 86, 79 y 84.
(a) Dé la fórmula de la media de la población.
(b) Calcule la calificación media.
(c) ¿La media que calculó en (b) es un estadístico o un parámetro? ¿Por qué?
Ejercicios
Las respuestas a los ejercicios con números nones se encuentran al final del libro.
Para los ejercicios 7 a 10, (a) calcule la media aritmética y (b) indique si es un estadístico o un
parámetro.
7. En Midtown Ford trabajan 10 vendedores. Los números de autos nuevos vendidos el mes
pasado por cada uno de los vendedores son: 15, 23, 4, 19, 18, 10, 10, 8, 28, 19.
8. El departamento de contabilidad en una compañía de ventas por correo contó las siguien
tes cantidades de llamadas que entraron por día al número gratuito de la compañía duran
te los primeros 7 días de mayo de 2003: 14, 24, 19, 31, 36, 26, 17.
9. The Cambridge Power and Light Company seleccionó una muestra aleatoria de 20 clientes
residenciales. A continuación, se presentan las cantidades, redondeadas a la unidad más
cercana, que se cobraron a los clientes por el servicio de luz el mes pasado:
10. El director de relaciones humanas de Ford inició un estudio de las horas extra en el depar-
tamento de inspección. Una muestra de 15 empleados demostró que trabajaron las siguien-
tes cantidades de horas extra el mes pasado.
Descripción de datos: medidas de ubicación 61
Media ponderada
La media ponderada es un caso especial de la media aritmética. Ocurre cuando hay varias
observaciones del mismo valor. Para explicar lo anterior, supongamos que una sucursal de
Wendy's Restaurant vende refrescos tamaño mediano, grande y extragrande en $0.90,
$1.25 y $1.50, respectivamente. De los 10 últimos refrescos, 3 eran medianos, 4 eran gran-
des y 3 eran extragrandes. Para calcular el precio medio de los últimos 10 refrescos vendi-
dos, podríamos utilizar la fórmula 3-2.
En este caso, las ponderaciones son conteos de la frecuencia, Sin embargo, cualquier
medida de importancia se podría utilizar como ponderación. En general, la media pondera-
da es un conjunto de números designados con las ponderaciones corres-
pondientes se calcula así:
The Carter Construction Company paga a sus empleados por ñora $16.50, $17.50 o $18.50
por hora. Hay 26 empleados que trabajan por hora, a 14 de ellos se les paga la tarifa de
$16.50, a 10 la de $17.50 y a 2 la de $18.50. ¿Cuál es la tarifa media por hora que se le
paga a los 26 empleados?
Para calcular la tarifa media por hora, multiplicamos cada una de las tarifas por hora por el
número de empleados que ganan esa tarifa. A partir de la fórmula (3-3), la tarifa media por
hora es
Autoevaluación 3-2 Springers vendió 95 trajes para caballero Antonelli a un precio regular de $400. Para la venta
de primavera, los trajes bajaron de precio a $200 y se vendieron 126. En la liquidación final,
el precio bajó a $100 y se vendieron los 79 trajes restantes.
(a) ¿Cuál es el precio medio ponderado de un traje Antonelli?
(b) Springers pagó $200 por cada uno de los 300 trajes. Comente sobre la ganancia de la
tienda por cada traje si un vendedor recibe una comisión de $25 por cada traje vendido.
62 Capítulo 3
Ejercicios
11. En junio, un inversionista compró 300 acciones de Oracle (una compañía de tecnología de
la información) en $20 cada una. En agosto compró 400 acciones más a $25 cada una. En
noviembre volvió a comprar 400 acciones, pero el precio bajó a $23 por acción. ¿Cuál es el
precio medio ponderado por acción?
12. The Bookstall Inc., es una librería especializada que se concentra en libros usados que se ven
den a través de Internet. Los libros de pasta suave cuestan $1.00 cada uno y los de pasta du-
ra, $3.50. De los 50 libros que se vendieron el pasado martes por la mañana, 40 eran de pasta
suave y el resto de pasta dura. ¿Cuál fue el precio de venta medio ponderado de un libro?
13. The Loris Healthcare System tiene 200 empleados en el área de enfermería. De ellos, 50
son auxiliares de enfermería, 50 son enfermeras practicantes y 100 son enfermeras regis-
tradas. Las auxiliares de enfermería reciben $8 por hora, las practicantes $15 la hora y las
registradas $24 por hora. ¿Cuál es el salario medio ponderado por hora?
14. Andrews and Associates se especializa en leyes empresariales. Por investigar un caso co
bra $100 por hora, $75 por hora en el caso de las asesorías y $200 la hora al redactar un
escrito.. La semana pasada, uno de los socios pasó 10 horas dando asesoría a un cliente,
10 horas investigando el caso y 20 horas redactando el escrito. ¿Cuál fue el cargo medio
ponderado por hora por sus servicios legales?
Mediana
Como ya señalamos, en el caso de la información que contiene uno o dos valores muy al-
tos o muy pequeños, la media aritmética puede no ser representativa. El centro de esa in-
formación se describe mejor con una medida de ubicación llamada mediana.
Para ilustrar la necesidad de una medida de ubicación que no sea la media aritmética, su-
pongamos que usted quiere comprar un condominio en Palm Aire. Su agente de bienes raí-
ces dice que el precio promedio actual de las unidades es de $110 000. ¿Aun así quiere
comprarlo? Si usted calculó el precio de compra máximo en $75 000, tal vez considere que
están fuera de su rango de precios. Sin embargo, al revisar los precios individuales de los con-
dominios podría cambiar de parecer. Éstos son $60 000, $65 000, $70 000, $80 000 y un pent-
house de superlujo cuesta $275 000. El precio medio aritmético es $110 000, como le informó
el agente de bienes raíces, pero uno de los precios ($275 000) aumenta la media aritmética
en gran medida, provocando que éste sea un promedio no representativo. Al parecer, un pre-
cio de aproximadamente $70 000 es un promedio más típico o representativo y, de hecho, lo
es. En casos como éste, la mediana ofrece una medida de ubicación más válida.
MEDIANA. El punto medio de los valores después de que se ordenan desde el más
bajo hasta el más alto o desde el más alto hasta el más bajo.
Los datos deben estar por lo menos en el nivel de medición ordinal. El precio mediano de
las unidades disponibles es $70 000. Para determinar lo anterior, ordenamos los precios des-
de el más bajo ($60 000) hasta el más alto ($275 000) y seleccionamos el valor medio ($70 000).
La mediana no se ve afectada Observe que hay la misma cantidad de precios debajo de la mediana de $70 000 que por
por los valores extremos. encima de ella. Hay tantos valores debajo de la mediana como encima de ésta. Por tanto, la
mediana no se ve muy afectada por los precios muy bajos o muy altos. Aun cuando el precio
más alto sea $90 000, $300 000 o incluso un millón, el precio mediano seguiría siendo $70 000.
De modo similar, si el precio más bajo fuera $20 000 o $50 000, el mediano sería $70 000.
Descripción de datos: medidas de ubicación 63
A continuación, mostramos las ganancias anuales totales de cinco años de los seis fondos
mutualistas accionarios con mejor desempeño que enfatizan un crecimiento agresivo. ¿Cuál
es la ganancia anual mediana?
Observe que la mediana no es uno de los valores. Asimismo, la mitad de las ganancias está
por debajo de la mediana y la otra mitad está por encima de ella.
Moda
La moda es otra medida de ubicación.
La moda es muy útil sobre todo al describir niveles de medición nominales y ordinales.
Como un ejemplo de este uso de datos de nivel nominal, una compañía creó cinco aceites
para baño. La Gráfica 3-1 muestra los resultados de una encuesta de mercadotecnia dise-
ñada para encontrar cuál de los aceites de baño prefieren los consumidores. La mayoría de
los entrevistados prefirió Lamoure, como lo muestra la barra más alta. Por tanto, Lamoure
es la moda.
A continuación se muestran los salarios anuales de los gerentes de control de calidad total.
¿Cuál es el salario modal anual?
Una lectura atenta de los salarios revela que el salario anual de $60 000 aparece con ma-
yor frecuencia (seis veces) que cualquier otro. Por tanto, la moda es $60 000.
En resumen, podemos determinar la moda para todos los niveles de datos: nominal, or-
dinal, de intervalo y de razón. La moda también tiene la ventaja de que no se ve afectada
por valores muy altos ni muy bajos.
Desventajas de la moda Sin embargo, la moda tiene algunas desventajas que hacen que se utilice con menos
frecuencia que la media o la mediana. Para muchos conjuntos de datos, no hay moda por-
que ningún valor aparece más de una vez. Por ejemplo, no hay moda para este conjunto
de datos de precios: $19, $21, $23, $20 y $18. No obstante, como todos los valores son di-
ferentes, se podría decir que cada uno de ellos es la moda. Por el contrario, para algunos
conjuntos de datos hay más de una moda. Supongamos que las edades de los individuos
en un club de inversionistas son 22, 26, 27, 27, 31, 35 y 35. Las edades de 27 y 35 son mo-
da. Por tanto, a este grupo de edades se le llama bimodal (que tiene dos modas). Podría-
mos cuestionar el uso de dos modas para representar la ubicación de este conjunto de
datos sobre la edad
Descripción de datos: medidas de ubicación 65
Autoevaluación 3-3 1. Una muestra de personas solteras en Towson, Texas, que reciben pagos del Seguro So
cial reveló estas prestaciones mensuales: $426, $299, $290, $687, $480, $439 y $565.
(a) ¿Cuál es la prestación mensual mediana?
(b) ¿Cuántas observaciones se encuentran debajo de la mediana? ¿Y por encima de
ésta?
2. Los números de interrupciones del trabajo en la industria automotriz en meses seleccio
nados son 6, 0, 10, 14, 8 y 0.
(a) ¿Cuál es el número mediano de interrupciones?
(b) ¿Cuántas observaciones se encuentran por debajo de la mediana? ¿Y por encima
de ésta?
(c) ¿Cuál es el número modal de interrupciones en el trabajo?
Ejercicios
15. ¿Qué valor nodal reportaría para un conjunto de observaciones si encontrara un total de:
a. 10 observaciones y ningún valor igual?
b. 6 observaciones y todos los valores iguales?
c. 6 observaciones y los valores son 1, 2, 3, 3, 4 y 4?
16. Los siguientes son los números de cambios de aceite durante los últimos 7 días en el taller
mecánico Jiffy Lube que se localiza en la esquina de la calle Elm y la avenida Pennsylvania.
17. Los siguientes son los cambios porcentuales en el ingreso neto entre 2002 y 2003 para una
muestra de 12 compañías constructoras en Denver.
18. Las siguientes son las edades de 10 personas que se encuentran en la tienda de video que
está en Southwyck Shopping Malí a las 10 A.M.
19. A continuación, presentamos una lista de varios indicadores del crecimiento económico a
largo plazo en Estados Unidos. Las proyecciones son hasta el año 2008.
La Tabla 2-1 en la página 25 muestra los precios de los 80 vehículos vendidos el mes pasado
en Whitner Autoplex en Raytown, Missouri. Determine el precio de venta medio y mediano.
El precio de venta medio es $23 218 y el mediano es $22 831. Estos dos valores se dife-
rencian por menos de $400. De modo que cualquiera de los dos es razonable. También vemos
en la hoja de Excel que se vendieron 80 vehículos y que su precio total fue de $1 857 453. Más
adelante describiremos el significado de error estándar, desviación estándar y otras medidas.
¿A qué conclusión llegamos? El vehículo típico se vendió en aproximadamente $23 000.
La señora Ball de Auto USA podría utilizar este valor para proyectar sus ganancias. Por ejem-
plo, si el distribuidor pudiera aumentar el número de vehículos vendidos en un mes de 80 a
90, esto daría como resultado alrededor de $230 000 adicionales en las ganancias, que se
calculan así: 10 x $23 000.
menor que el número total que representa menos años, dando como resultado una media
aritmética de 20 años. Como es lógico, cualquiera de las tres medidas sería apropiada para
representar el centro de la distribución.
Una distribución sesgada no es Si una distribución es no simétrica, o sesgada, cambia la relación entre las tres medi-
simétrica. das. En una distribución con sesgo positivo, la media aritmética es la mayor de las tres
medidas. ¿Por qué? Porque la media tiene la influencia de pocos valores muy altos en ma-
yor grado que la mediana o la moda. Por lo general, la mediana es la medida siguiente en
una distribución de la frecuencia con sesgo positivo. La moda es la menor de las tres.
Si la distribución es muy sesgada, como los ingresos semanales en la Gráfica 3-3, la
media no sería una medida adecuada. La mediana y la moda serían más representativas.
Autoevaluación 3-4 Las ventas semanales de una muestra de tiendas de aparatos electrónicos Hi-Tec se organi-
zaron en una distribución de frecuencia. La media de las ventas semanales se calculó en
$105 900, la mediana en $105 000 y la moda en $104 500.
(a) Ordene las ventas en forma de un polígono de frecuencias. Observe la ubicación de la me
dia, la mediana y la moda en el eje X.
(b) ¿La distribución es simétrica, con sesgo positivo o con sesgo negativo? Explique su res
puesta.
Ejercicios
21. La tasa de desempleo en el estado de Alaska durante los 12 meses de 2002 se muestra en
la tabla siguiente:
Media geométrica
La media geométrica nunca es La media geométrica es útil para encontrar el promedio de porcentajes, razones, índices o
mayor que la media aritmética. tasas de crecimiento. Tiene muchas aplicaciones en administración y economía porque a
menudo nos interesa calcular los cambios porcentuales en ventas, salarios o cifras econó-
micas, como el Producto Interno Bruto, que se componen o se fundamentan entre sí. La
media geométrica de un conjunto de n números positivos se define como la n-ésima raíz del
producto de n valores. La fórmula para la media geométrica se escribe:
La media geométrica siempre va a ser igual o menor (nunca mayor) que la media aritméti-
ca. Asimismo, todos los valores de los datos deben ser positivos.
Como un ejemplo de la media geométrica, supongamos que recibe un incremento de
5% sobre su salario este año y un aumento de 15% el año próximo. El porcentaje de au-
mento anual promedio es 9.886, no 10.0. ¿Por qué sucede esto? Empezamos por calcular
la media geométrica. Recuerde, por ejemplo, que un incremento de 5% en el salario es
105%. Lo vamos a expresar como 1.05.
Esto se puede verificar suponiendo que su sueldo mensual fuese de $3 000 en un principio
y que haya recibido dos aumentos de 5% y 15%
El número 1.3 representa una recuperación de la inversión de 30%, que es la inversión "ori-
ginal" de 1.0 más la "recuperación" de 0.3. El número 0.6 representa la pérdida de 40%, que
es la inversión original de 1.0 menos la pérdida de 0.4. Este cálculo supone que la recupe-
ración total en cada periodo se-reinvierte o se convierte en la base para el siguiente perio-
do. En otras palabras, la base para el segundo periodo es 1.3 y la base para el tercer
periodo es (1.3)(1.2) y así sucesivamente.
La tasa media geométrica de la recuperación es 29.4%, que calculamos así:
Durante la década de 1990, Las Vegas, Nevada, fue el área metropolitana de más rápido
crecimiento en Estados Unidos. La población aumentó de 852 737 en 1990 a 1 563 282 en
2000. Éste es un incremento de 710 545 personas o un incremento porcentual de 83% du-
rante el periodo de 10 años. ¿Cuál es el incremento promedio anuaí?
Hay 10 años entre 1990 y 2000, de modo que n = 10. Así, la fórmula (3-5) para la media
geométrica como se aplica a este tipo de problema es:
El valor de 0.0625 indica que el crecimiento promedio anual .durante el periodo de 10 años
fue de 6.25%. En otras palabras, la población de Las Vegas aumentó a una tasa de 6.25%
al año de 1990 a 2000.
Autoevaluación 3-5 1. El incremento porcentual en las ventas durante los últimos 4 años en Combs Cosmetics
fue: 4.91, 5.75, 8.12 y 21.60.
(a) Calcule el incremento porcentual de la media geométrica.
(b) Calcule el aumento porcentual de la media aritmética.
(c) ¿La media aritmética es igual o mayor que la media geométrica?
2. La producción de camiones Cabios aumentó de 23 000 unidades en 1984 a 120 520 uni
dades en 2004. Calcule el incremento porcentual medio geométrico anual.
Ejercicios
23. Calcule la media geométrica de los siguientes aumentos porcentuales: 8, 12, 14, 26 y 5.
24. Calcule la media geométrica de los siguientes incrementos porcentuales: 2, 8, 6, 4,10, 6, 8 y 4.
25. A continuación, se presenta el incremento porcentual en las ventas de MG Corporation du
rante los últimos 5 años. Determine el incremento porcentual medio geométrico en las ven
tas durante el periodo.
26. En 1996, un total de 14 968 000 de contribuyentes fiscales en Estados Unidos presentaron
electrónicamente sus declaraciones individuales. Para el año 2002, la cifra aumentó a
46 282 200. ¿Cuál es el incremento medio geométrico anual para el periodo?
27. El U.S. Bureau of Labor Statistics reporta cada mes el índice de Precios al Consumidor. En
el que incluye el cambio en los precios para una canasta de artículos en el mercado de un
periodo a otro. El índice para 1992 fue de 140.3, para 2002, aumentó a 179.9. ¿Cuál fue el
incremento medio geométrico anual para el periodo?
28. En 1976 el precio promedio en todo el país de un galón de gasolina sin plomo en una bom
ba de autoservicio era de $0.605. Para 2003, el precio promedio se había incrementado a
$1.394. ¿Cuál fue el aumento medio geométrico anual para el periodo?
Descripción de datos: medidas de ubicación 71
29. En 1999 había 42.0 millones de suscriptores a los servicios de localización. Para 2004, el
número de suscriptores aumentó a 70.0 millones. ¿Cuál es el incremento medio geométrico
anual para el periodo?
30. La información que presentamos a continuación muestra el costo de un año de estudios en
universidades públicas y privadas en 1992 y 2003. ¿Cuál es el incremento medio geométrico
anual durante el periodo para los dos tipos de instituciones? Compare las tasas de aumento.
El promedio no es
representativo debido a una
dispersión elevada.
GRÁFICA 3-5 Histograma de los años de trabajo en Hammond Iron Works. Inc.
GRÁFICA 3-6 Producción de computadoras por hora en las plantas de Baton Rouge y Tucson
errática, pues va de 40 a 60 por hora. Por tanto, la producción por hora para Baton Rouge se
agrupa cerca de la media de 50; la producción por hora para Tucson es más dispersa.
Medidas de dispersión
Vamos a considerar diversas medidas de dispersión. El rango se basa en los valores más
altos y más bajos en el conjunto de datos. La desviación media, la varianza y la desviación
estándar se basan en las desviaciones de la media aritmética.
Rango
La medida de dispersión más sencilla es el rango. Éste es la diferencia entre los valores
más alto y más bajo en el conjunto de datos. En la forma de una ecuación:
El rango se utiliza con mucha frecuencia en las aplicaciones de control de procesos esta-
dísticos (CPE) porque es muy fácil de calcular y entender.
(porque un rango de 4 es menor que uno de 20). Por tanto, la producción media en la plan-
ta de Baton Rouge (50 computadoras) es más representativa de la medida de ubicación que
la media de 50 computadoras para la planta de Tucson.
Desviación media
Un defecto del rango es que se basa sólo en dos valores, el más alto y el más bajo; no toma
en cuenta todos los valores. La desviación media sí lo hace. Mide la cantidad media por la
cual los valores en una población o muestra varían de su media. En términos de una definición:
En términos de una fórmula, la desviación media, abreviada MD, se calcula para una
muestra como sigue:
DESVIACIÓN MEDIA
donde:
es el valor de cada observación.
es la media aritmética de los valores.
es el número de observaciones en la muestra.
indica el valor absoluto.
¿Por qué ignoramos los signos de las desviaciones de la media? Si no lo hiciéramos, las des-
viaciones positivas y negativas de la media se compensarían exactamente entre sí, y la des-
viación media siempre sería cero. Esa medida (cero) sería un estadístico sin ninguna utilidad.
La desviación media es la media de las cantidades donde las observaciones individuales di-
fieren de la media aritmética. Para calcular la desviación media de un conjunto de datos,
empezamos por encontrar la media aritmética. El número medio de capuchinos vendidos es
1Ó2, calculado así: (103 + 97-+ 101 + 106 + 103)/5. A continuación, encontramos la canti-
dad en la cual cada observación difiere de la media. Luego, sumamos estas diferencias, ig-
norando los signos y dividimos la suma entre el número de observaciones. El resultado es
la cantidad media en que las observaciones difieren de la media. Un valor bajo para la des-
viación media indica que los datos están agrupados cerca de la media, mientras que un va-
lor alto para la desviación media indica una mayor dispersión en la información. Éstos son
los detalles de los cálculos realizados con la fórmula (3-7).
74 Capitulo 3
Ventajas de la desviación La desviación media tiene dos ventajas. Primero, utiliza en su cálculo todos los valores
media. de la muestra. Recuerde que la amplitud del rango solamente utiliza los valores más altos y
más bajos. Segundo, es fácil comprender, ya que es el promedio de desviación de todos los
valores con respecto a la media. Sin embargo, su principal desventaja es que utiliza los va-
lores absolutos, y éstos son generalmente difíciles de trabajar. Por tanto la desviación media
no es de uso frecuente, como las otras medidas de dispersión como lo es la desviación es-
tándar.
Autoevaluación 3-6 Los pesos de los contenedores enviados a Irlanda son (en miles de libras):
Ejercicios
Para los ejercicios 31 a 36, calcule (a) el rango, (b) la media aritmética y (c) la desviación media,
e interprete el rango y la desviación media.
31. Durante la venta del fin de semana pasado en Electronic Super Store, estuvieron trabajan
do cinco representantes de servicios al cliente. Los números de HDTV que vendieron estos
representantes son: 5, 8, 4, 10 y 3.
32. El Departamento de Estadística de Western State University ofrece ocho secciones de es
tadística básica. Los siguientes son los números de estudiantes inscritos en estas seccio
nes: 34, 46, 52, 29, 41, 38, 36 y 28.
33. Dave's Automatic Door instala puertas automáticas en las cocheras. La siguiente lista indi
ca el número de minutos que se necesitan para instalar una muestra de 10 puertas: 28, 32,
24, 46, 44, 40, 54, 38, 32 y 42.
34. Una muestra de ocho compañías en la industria aeroespacial participaron en una encuesta
sobre la recuperación de la inversión que tuvieron el año pasado. Los resultados son (en
porcentajes): 10.6, 12.6, 14.8, 18.2, 12.0, 14.8, 12.2 y 15.6.
35. Diez expertos calificaron el sabor de una pizza sushi recién creada preparada con atún,
arroz y algas marinas, en una escala de 1 a 50. Las calificaciones fueron: 34, 35, 41, 28, 26,
29, 32, 36, 38 y 40.
36. Una muestra de los archivos de personal de ocho empleados de Acmé Carpet Cleaners,
Inc., reveló que,'durante un periodo de seis meses, perdieron los siguientes días debido a
enfermedades: 2, 0, 6, 3, 10, 4, 1 y 2.
donde:
El número de multas de tránsito durante los últimos cinco meses en Beaufort County, Ca-
rolina del Sur, es: 38, 26, 13, 41 y 22. ¿Cuál es la varianza de la población?
Al igual que el rango y la desviación media, la varianza se puede utilizar para compa-
rar la dispersión en dos o más conjuntos de observaciones. Por ejemplo, si la varianza para
el número de multas levantadas en Marlboro County, Carolina del Sur, es 342.9, llegamos
a la conclusión de que (1) hay menos dispersión en la distribución del número de multas le-
vantadas en Beaufort County que en Marlboro County (porque 106.8 es menor que 342.9),
y (2) el número de multas en Beaufort County está agrupado de manera más estrecha al-
rededor de la media de 28 que para el número de multas levantadas en Marlboro County.
Por tanto, el número medio de multas levantas en Beaufort County es una medida de ubi-
cación más representativa que el número medio de multas en Marlboro County.
76 Capítulo 3
Es difícil interpretar la varianza Desviación estándar de la población. Tanto el rango como la desviación media se inter-
porque las unidades se elevan pretan con facilidad. El rango es la diferencia entre los valores alto y bajo de un conjunto de
al cuadrado. datos, y la desviación media es la media de las desviaciones de la media. Sin embargo, es
difícil interpretar la varianza para un solo conjunto de observaciones. La varianza de 106.8
para las edades de los pacientes en cuarentena no se da en términos de años, sino en
"años al cuadrado".
La desviación estándar está en Hay una forma de salir de este dilema. Calculando la raíz cuadrada de la varianza de
las mismas unidades que los la población, podemos transformarla en la misma unidad de medición que se utilizó para la
datos. información original. La raíz cuadrada de 106.8 es 10.3 años. La raíz cuadrada de la varian-
za de la población se llama desviación estándar de la población.
Autoevaluacíón 3-7 La oficina en Filadelfia de Price Waterhouse Coopers LLP contrató cinco aprendices de contador
en este año. Sus salarios mensuales iniciales fueron: $3 536, $3 173, $3 448, $3 121 y $3 622.
(a) Calcule la media de la población.
(b) Calcule la varianza de la población.
(c) Calcule la desviación estándar de la población.
(d) La oficina en Pittsburgh contrató a seis aprendices. El salario mensual medio fue de $3 550,
y la desviación estándar $250. Compare ambos grupos.
Ejercicios
37. Considere estos cinco valores como una población: 8, 3, 7, 3 y 4.
a. Determine la media de la población.
b. Determine la varianza.
38. Considere estos seis valores como una población: 13, 3, 8, 10, 8 y 6.
• a. Determine la media de la población.
b. Determine la varianza.
39. El informe anual de Dennis Industries menciona estas ganancias primarias por acción co
mún durante los últimos 5 años: $2.68, $1.03, $2.26, $4.30 y $3.58. Si suponemos que és
tos son los valores poblacionales,
a. ¿Cuáles son las ganancias medias aritméticas primarias por acción común?
b. ¿Cuál es la varianza?
40. Haciendo referencia al Ejercicio 39, el informe anual de Denis Industries también presenta
estas ganancias sobre el capital accionario durante el mismo periodo de cinco años (en por
centajes): 13.2, 5.0, 10.2, 17.5 y 12.9.
a. ¿Cuál es la ganancia media aritmética?
b. ¿Cuál es la varianza?
41. Plywood, Inc., reportó estas ganancias sobre el capital accionario durante los últimos 5
años: 4.3, 4.9, 7.2, 6.7 y 11.6. Considere éstos como valores poblacionales.
a. Calcule el rango, la media aritmética, la varianza y la desviación estándar.
b. Compare las ganancias sobre el capital accionario de Plywood, Inc. con aquellas de Den
nis Industries que mencionamos en el Ejercicio 40.
42. Los ingresos anuales de los cinco vicepresidentes de TMV Industries son: $125 000; $128 000;
$122 000; $133 000, y $140 000. Considere este grupo como una población.
a. ¿Cuál es el rango?
b. ¿Cuál es el ingreso medio aritmético?
c. ¿Cuál es la varianza de la población? ¿La desviación estándar?
d. También se estudiaron los ingresos anuales de los funcionarios de otra empresa similar
a TMV Industries. La media fue $129 000 y la desviación estándar $8 612. Compare las
medias y las dispersiones de ambas compañías.
Descripción de datos: medidas de ubicación 77
donde:
es la varianza de la muestra.
es el valor de cada observación en la muestra.
es la media de la muestra.
es el número de observaciones de la muestra.
¿Por qué se realiza este cambio en el denominador? Aunque el uso de n es lógico, suele
subestimar la varianza de la población, El uso de en el denominador ofrece la co-
rrección apropiada para esta tendencia. Como el uso primario de las estadísticas de la
muestra como es calcular los parámetros de la población como se prefiere a
al definir la varianza de la muestra. También lo vamos a utilizar al calcular la desviación
estándar de la muestra.
Los salarios por hora para una muestra de empleados de medio tiempo de Fruit Packers,
Inc., son: $12, $20, $16, $18 y $19. ¿Cuál es la varianza de la muestra?
La varianza de la muestra en el ejemplo anterior que comprende salarios por hora se cal-
culo en 10 ¿Cuál es la desviación estándar de la muestra?
La desviación estándar de la muestra es $3 16, que se calcula por √10 Debemos hacer notar
una vez mas que la vananza de la muestra esta en términos de dólares al cuadrado, pero al
tomar la raíz cuadrada de 10 nos da $3 16, que está en las mismas unidades (dólares) que
los datos originales
Autoevaluacion 3-8 El peso del contenido de vanos frascos pequeños de aspirinas son (en gramos) 4, 2, 5, 4, 5,
9
2 y 6 ¿Cual es la vananza de la muestra Calcule la desviación estándar de la muestra
Ejercicios
Para los Ejercicios 43 a 48, haga lo siguiente
46. La muestra de ocho compañías en la industria aeroespacial, a las que hacemos referencia
en el Ejercicio 34, se estudió en cuanto a su recuperación de la inversión el año pasado. Los
resultados son: 10.6, 12.6, 14.8, 18.2, 12.0, 14.8, 12.2 y 15.6.
47. La Asociación de Propietarios de Moteles de Houston, Texas, realizó una encuesta acerca
de las tarifas de hotel entre semana en esa área. A continuación, presentamos la tarifa pa
ra huéspedes en clase de negocios para una muestra de 10 moteles.
48. Una organización de protección al consumidor se preocupa por las deudas con las tarjetas
de crédito. Una encuesta entre 10 adultos jóvenes que tienen deudas de más de $2 000 con
tarjetas de crédito mostró que pagaban un promedio de poco más de $100 al mes. A conti-
nuación, se presenta una lista de las cantidades que cada adulto joven abonó a su saldo el
mes pasado.
Interpretación, y usos
de la desviación estándar
Por lo general, la desviación estándar se utiliza como una medida para comparar la exten-
sión en dos o más grupos de observaciones. Por ejemplo, la desviación estándar de las
cantidades quincenales invertidas en el plan de reparto de utilidades de Dupree Paint Com-
pany se calcula en $7.51. Supongamos que estos empleados se encuentran en Georgia. Si
la desviación estándar para un grupo de empleados en Texas es $10.47, y las medias son
casi iguales, quiere decir que las cantidades invertidas por los empleados de Georgia no
son tan dispersas como aquellas que se invierten en Texas (porque $7.51 < $10.47). Ya
que las cantidades invertidas por los empleados de Georgia se agrupan de manera más es-
trecha alrededor de la media, la media para los empleados de Georgia es una medida más
confiable que aquella para el grupo de Texas.
Teorema de Chebyshev
Ya señalamos que una desviación estándar baja para un conjunto de valores indica que és-
tos se localizan cerca de la media. Por el contrario, una desviación estándar muy alta reve-
la que las observaciones se encuentran dispersas en relación con la media. El matemático
ruso P. L. Chebyshev (1821 -1894) desarrolló un teorema que nos permite determinar la pro-
porción mínima de los valores que se encuentran en un número específico de desviaciones
estándar de la media. Por ejemplo, según el teorema de Chebyshev, por lo menos tres de
cuatro valores, o 75%, deben estar entre la media más dos desviaciones estándar y la me-
dia menos dos desviaciones estándar. Esta relación se aplica sin importar la forma de la
distribución. Además, por lo menos ocho de nueve valores, u 88.9%, estarán entre más tres
desviaciones estándar y menos tres desviaciones estándar de la media. Por lo menos 24
de 25 valores, o 96%, estarán entre más y menos cinco desviaciones estándar de la media.
El teorema de Chebyshev establece:
La cantidad media aritmética quincenal con la que contribuyen los empleados de Dupree
Paint al plan de participación de utilidades de la compañía fue $51.54 y la desviación están-
dar es $7.51. ¿Qué porcentaje de las contribuciones se encuentra entre más 3.5 desviacio-
nes estándar y menos 3.5 desviaciones estándar de la media?
80 Capítulo 3
La regla empírica
La Regla empírica se aplica El teorema de Chebyshev se ocupa de cualquier grupo de valores; es decir, la distribución
sólo a las distribuciones de los valores puede tener cualquier forma. Sin embargo, para una distribución simétrica en
simétricas en forma de forma de campana como la que se muestra en la Gráfica 3-7, podemos ser más precisos al
campana. explicar la dispersión en relación con la media. La Regla empírica, que en ocasiones se
conoce como la Regla normal, describe aquellas relaciones que comprenden la desviación
estándar y la media.
Estas relaciones se representan visualmente en la Gráfica 3-7 con una distribución en for-
ma de campana con una media de 100 y una desviación estándar de 10.
GRÁFICA 3-7 Una curva simétrica en forma de campana que muestra las relaciones entre la desviación
estándar y las observaciones
Hemos señalado que, si una distribución es simétrica y tiene forma de campana, prácti-
camente todas las observaciones se encuentran entre la media más y menos tres desviacio-
nes estándar. Por tanto, si casi todas las observaciones están entre 100 +
3(10) y 100 - 3(10) o 70 y 130. Por tanto, el rango es 60, que se calcula restando 130 - 70.
Por el contrario, si sabemos que el rango es 60, podemos calcular la desviación estándar
al dividir el rango entre 6. Para ilustrar: rango + 6 = 60 + 6 = 10, la desviación estándar.
Una muestra de las tarifas de renta en los departamentos University Park se asemeja a una
distribución simétrica en forma de campana. La media de la muestra es $500; la desviación
estándar es $20. Utilizando la Regla empírica, responda estas preguntas:
1. ¿Entre qué par de cantidades se encuentra alrededor de 68% de los gastos mensua
les en alimentos?
2. ¿Entre qué par de cantidades está 95% de los gastos mensuales en alimentos?
3. ¿Entre qué par de cantidades están casi todos los gastos mensuales?
Descripción de datos: medidas de ubicación 81
Autoevaluación 3-9 Pitney Pipe Company es uno de varios fabricantes nacionales de tubería PVC. El departa-
mento de control de calidad tomó una muestra de 600 tubos de 10 pies. A la distancia de un
pie del extremo del tubo se midió el diámetro exterior; la media fue 14.0 pulgadas y la desvia-
ción estándar 0.1 pulgadas.
(a) Si la forma de la distribución se desconoce, por lo menos, ¿qué porcentaje de las obser
vaciones estará entre 13.85 pulgadas y 14.15 pulgadas?
(b) Si suponemos que la distribución de los diámetros es simétrica y que tiene forma de cam
pana, ¿entre qué par de valores estarán 95% de las observaciones?
Ejercicios
49. Según el teorema de Chebyshev, por lo menos, ¿qué porcentaje de cualquier grupo de ob
servaciones estará entre 1.8 desviaciones estándar de la media?
50. El ingreso medio de un grupo de observaciones de una muestra es $500; la desviación es
tándar es $40. Según el teorema de Chebyshev, por lo menos ¿qué porcentaje de los ingre
sos estará entre $400 y $600?
51. La distribución de los pesos de una muestra de contenedores de carga es simétrica y en for
ma de campana. Según la Regla empírica, ¿qué porcentaje de los pesos está:
52. La gráfica siguiente ilustra la distribución del número de refrescos extragrandes vendidos en
el restaurante Wendy's de una localidad durante los últimos 141 días. El número medio de
refrescos vendidos al día es 91.9 y la desviación estándar es 4.67.
Si utilizamos la Regla empírica, ¿entre qué par de valores estarán las ventas en 68% de los
días? ¿Entre qué par de valores estarán las ventas en 95% de los días?
La media y la desviación.
estándar para datos agrupados
En la mayor parte de los casos, las medidas de ubicación, como la media, y las medidas de
dispersión, como la desviación estándar, se determinan utilizando los valores individuales.
Los paquetes de software para estadística facilitan el cálculo de estos valores, incluso pa-
ra conjuntos de datos muy numerosos. Sin embargo, en ocasiones, sólo tenemos la distri-
bución de frecuencias y queremos calcular la media o la desviación estándar a partir de la
información organizada en la distribución de frecuencias. Debemos enfatizar que una me-
dia o una desviación estándar para datos agrupados son sólo un estimado de los valores rea-
les correspondientes.
82 Capítulo 3
donde:
es la denominación para la media de la muestra.
es el punto medio de cada clase.
es la frecuencia en cada clase.
es la frecuencia en cada clase por el punto medio de la clase.
es la suma de estos productos.
es el número total de frecuencias.
Los cálculos para la media aritmética para datos agrupados en una distribución de frecuen-
cias se mostrarán con base en la información de Whitner Autoplex. Recuerde que en el Ca-
pítulo 2, en la Tabla 2-4 de la página 28, elaboramos una distribución de frecuencias para
los precios de venta de los vehículos. La información se repite a continuación. Determine el
precio de venta medio aritmético de los vehículos.
El precio de venta medio de los vehículos se puede calcular a partir de los datos agrupa-
dos en una distribución de frecuencias. Para encontrar la media estimada, supongamos que
el punto medio de cada clase es representativo de los valores de los datos en esa clase.
Recuerde que el punto medio de una clase es la mitad entre los límites superior e inferior.
Para encontrar el punto medio de una clase en particular, sumamos los límites superior e
inferior y los dividimos entre 2. Por tanto, el punto medio de la primera clase es $16.5, cal-
culado así: ($15 + $18)/2. Suponemos que el valor de $16.5 es representativo de los ocho
valores en esa clase. En otras palabras, suponemos que la suma de los ocho valores en
esta clase es $132, calculado así: 8($16.5). Continuamos el proceso de multiplicar el pun-
to medio de la clase por la frecuencia de clase para cada una y luego sumamos estos pro-
ductos. Los resultados se resumen en la Tabla 3-1.
TABLA 3-1 Precio de 80 vehículos nuevos vendidos el mes pasado en el lote Whitner Autoplex
Descripción de datos: medidas de ubicación 83
De modo que, llegamos a la conclusión de que el precio de venta medio de los vehículos
es aproximadamente $23 100.
donde:
Consulte la distribución de frecuencia para Whitner Autoplex que se reporta en la Tabla 3-1.
Calcule la desviación estándar de los precios de venta de los vehículos.
Siguiendo la misma práctica que empleamos anteriormente para calcular la media de los da-
tos agrupados en una distribución de frecuencia, fes la frecuencia de clase, Mes el punto me-
dio de clase y n es el número de observaciones.
Paso 1: Reste la media del punto medio de clase. Es decir, calcule Para la prime-
ra clase (16.5 - 23.1 = -6.6), para la segunda clase (19.5 - 23.1 = -3.6), y asi su-
cesivamente.
Paso 2: Eleve al cuadrado la diferencia entre el punto medio de clase y la media. Para la
primera clase, sena 43.56, para la segunda clase (19.5
2
- 23.1 Y = (-3.6) = 12.96, y así sucesivamente.
Paso 3: Multiplique la diferencia al cuadrado entre el punto medio de clase y la media por
2
la frecuencia de clase. Para la primera clase el valor es 8(16.5 - 23.1 ) = 348.48;
2
para la segunda, 23(19.5 - 21.3) = 298.08, y asi sucesivamente.
2
Paso 4: Sume f(M- X} . El total es 1 531.8.
84 Capítulo 3
La media y la desviación estándar calculadas a partir de los datos agrupados en una distri-
bución de frecuencia casi siempre están cerca de los valores calculados a partir de los da-
tos en bruto. Los datos agrupados dan como resultado cierta pérdida de información. Para
el problema del precio de venta de los vehículos, el precio de venta medio reportado en la
hoja de Excel en la página 66 es $23 218 y la desviación estándar es $4 354. Los valores
respectivos estimados a partir de los datos agrupados en una distribución de frecuencia son
$23 100 y $4 403. La diferencia en las medias es $118 o alrededor de 0.58%. Las desvia-
ciones estándar difieren por $49, o 1.1%. Con base en la diferencia porcentual, los estimados
están muy cerca de los valores reales.
Autoevaluación 3-10 Los ingresos netos de una muestra de grandes importadores de antigüedades se organiza-
ron en la tabla siguiente:
Ejercicios
53. Cuando calculamos la media de una distribución de frecuencias, ¿por qué nos referimos a
ella como una media estimada?
54. Determine la media y la desviación estándar de la siguiente distribución de frecuencias.
56. SCCoast, un proveedor de Internet del sureste de Estados Unidos, desarrolló la siguiente
distribución de frecuencias sobre la edad de los usuarios de Internet. Encuentre la media y
la desviación estándar.
57. El IRS estaba interesado en el número de formas fiscales individuales que preparan las em-
presas de contabilidad pequeñas. El IRS tomó una muestra aleatoria de 50 empresas de
contabilidad públicas con 10 o menos empleados en el área de Dallas-Fort Worth. La si-
guiente tabla de frecuencias reporta los resultados del estudio. Calcule la media y la desvia-
ción estándar.
58. Los gastos publicitarios son un componente importante del costo de los productos vendidos.
A continuación, se encuentra una distribución de frecuencias que muestra los gastos publi-
citarios de 60 compañías de fabricación del suroeste de Estados Unidos. Calcule la media
y la desviación estándar de los gastos publicitarios.
Clave de pronunciación
62. La Citizens Banking Company estudia la cantidad de veces que se usa al día el cajero au-
tomático ubicado en Loblaws Supermarket sobre Market Street. A continuación, presenta-
mos la cantidad de veces que la máquina se utilizó durante cada uno de los últimos 30 días.
Determine el número medio de veces que el cajero se usó cada día.
83 64 84 76 84 54 75 59 70 61
63 80 84 73 68 52 65 90 52 77
95 36 78 61 59 84 95 47 87 60
63. A continuación, presentamos una lista del número de pantallas para lámpara producidas durante
los últimos 50 días en la American Lampshade Company en Rockville, GA. Calcule la media.
348 371 360 369 376 397 368 361 374
410 374 377 335 356 322 344 399 362
384 365 380 349 358 343 432 376 347
385 399 400 359 329 370 398 352 396
366 392 375 379 389 390 386 341 351
354 395 338 390 333
64. Trudy Green trabaja en True-Green Lawn Company. Su trabajo consiste en contactar nego-
cios por teléfono para el cuidado del césped. A continuación se presentan los números de
las citas que concertó en cada una de las últimas 265 horas en las que llamó. ¿Cuál es el
número medio aritmético de citas que concertó por hora? ¿Cuál es el número mediano de
citas por hora? Escriba un breve reporte resumiendo sus descubrimientos.
65. La Split-A-Rail Fence Company vende tres tipos de rejas a los dueños de casas en los su
burbios de Seattle, Washington. Las rejas Grado A cuestan $5.00 por cada pie instalado, las
Grado B cuestan $6.50 por pie instalado y las Grado C, las de primera calidad, cuestan
$8.00 por cada pie. Ayer, Split-A-Rail instaló 270 pies de la reja Grado A, 300 pies de la Gra-
do B y 100 pies de la Grado C. ¿Cuál fue el costo medio por pie de reja instalado?
66. Rolland Poust es alumno de primer grado en la Facultad de Administración de Scandia
Tech. El último semestre tomó clases de estadística y contabilidad de 3 horas cada una, y
obtuvo una calificación de A en las dos. Obtuvo una B en un curso de historia que duró cin-
co horas y una B en un curso de historia del jazz que duró dos horas. Además, tomó un cur-
so de una hora para conocer las reglas del básquetbol a fin de obtener su licencia para ser
juez en los partidos de una secundaria. En este curso, obtuvo una A. ¿Cuál fue su prome-
dio para el semestre? Supongamos que recibe 4 puntos por una A. 3 por una B, etcétera.
¿Qué medida de ubicación acaba de calcular?
67. La tabla siguiente muestra el porcentaje de la fuerza laboral que está desempleada y el ta-
maño de la fuerza laboral para tres condados en el noroeste de Ohio. Jon Elsas es el Direc-
tor Regional de Desarrollo Económico y debe presentar un informe ante varias empresas
que consideran su reubicación en el noroeste de Ohio. ¿Cuál sería un índice de desempleo
apropiado para toda la región?
68. La American Automobile Association verifica los precios de la gasolina antes de muchos fi-
nes de semana feriados. A continuación, presentamos una lista de los precios de autoservi-
cio para una muestra de 15 gasolineras al detalle durante un fin de semana feriado de mayo
de 2003 en el área de Detroit, Michigan.
Descripción de datos: medidas de ubicación 89
De 0 a 5 14
de 6 a 12 42
de 12 a 18 58
de 18 a 24 28
de 24 a 30 8
75. El programa espacial Apollo duró de 1967 hasta 1972 e incluyó 13 misiones. Las misiones
duraron desde 7 horas hasta 301 horas. La duración de cada vuelo se encuentra en la lista
que presentamos a continuación.
28 39 23 67 37 28 56 40 28 50
51 45 44 65 61 27 24 61 34 44
64 25 24 27 29
90 Capítulo 3
15 8 6 9 9 4 18 10 10 12
12 4 7 8 12 10 10 11 9 13
5 6 11 14 5 6 6 5 13 5
de $ 80 a $100 3
de 100 a 120 8
de 120 a 140 12
de 140 a 160 16
de 160 a 180 7
de 180 a 200 4
Total 50
De 0 a 5 4 2.5
de 5 a 10 15 7.5
de 10 a 15 27 12.5
de 15 a 20 18 17.5
de 20 a 25 6 22.5
exercises.com
80. El National Center for Health Statistics tiene un sitio web en: http://www.cdc.gov/nchs. En la
sección titulada Tabulated State Data, haga clic en Births. Vaya a esa página y busque la
tabla "Uve Births by Race and Hispanic Origin of Mother: U.S., Each State, Puerto Rico, Vir
gin Islands, and Guam". Suponga que está interesado en las tasas de nacimiento para los
50 estados. Calcule la media, la mediana y la desviación estándar. Escriba un breve repor
te resumiendo los datos.
81. Hay muchos sitios web de finanzas que proporcionan información sobre acciones por indus
tria. Por ejemplo, vaya a http://biz.yahoo.com y seleccione Stock Research; en Analyst Re-
Descripción de datos: medidas de ubicación 91
search, seleccione Sector/lndustry. Hay muchas opciones disponibles, como Energy, Fi-
nancial y Healthcare. Elija uno de esos sectores, como Healthcare. Se va a abrir otra lista de
opciones; seleccione una, como Major Drug. Aparecerá una lista de las compañías en esa
industria. Seleccione una de las variables disponibles, como la razón entre precios y ganan-
cias, que aparece como P/E. Esta variable es la razón del precio de venta de una acción de la
compañía con las ganancias correspondientes. Descargue esta información en Excel y en-
cuentre la media, la mediana y la desviación estándar. Regrese a Sector/Industria y elija otro
Sector e Industria. Tal vez quiera seleccionar Energía y luego Carbón. Aparecerá una lista
de compañías. Elija la misma variable que antes. Descargue la información en Excel y en-
cuentre la media, la mediana y la desviación estándar para esta industria. Compare la infor-
mación de ambos sectores. Escriba un breve reporte resumiendo sus descubrimientos. ¿Las
medias son diferentes? ¿Hay mayor variabilidad en una industria que en la otra? 82. Uno de
los promedios más famosos, el Promedio Industrial Dow Jones (DJIA, por sus siglas en inglés),
en realidad no es un promedio. La siguiente es una lista de las 30 compañías cuyos precios
accionarios forman el DJIA, su símbolo, su peso actual y el valor de cierre el 24 de abril de
2003. Utilice un paquete de software para encontrar la media de las 30 acciones. El DJIA cerró
en 8 440.04. ¿Es éste el valor que encontró para el promedio de las 30 acciones?
Puede leer la historia del DJIA visitando http://www.djindexes.com y haciendo clic en About
the Dow. Aquí encontrará la explicación sobre por qué éste no es realmente un promedio.
Hay muchos sitios que puede visitar para verificar el valor actual del DJIA, http://www.cnnfn.
com, http://www.foxnews.com/news/features/dow y http://www.usatoday.com son tres de las
numerosas fuentes. Para encontrar una lista de las acciones reates que constituyen el pro-
medio, visite http://www.bloomberg.com. En la barra de herramientas, haga clic en Market
92 Capítulo 3
Data, luego baje por el lado izquierdo de la pantalla, seleccione Stocks y después Dow. Se
abrirá una lista con los precios de venta actuales de las 30 acciones que forman el DJIA.
Comandos de software
1. Los comandos de Excel para la estadística descriptiva
en la página 86 son:
a. Del CD recupere el archivo de datos Whitner, que
se llama Table2-1.
b. De la barra de menú, seleccione Tools y luego Da
ta Analysis. Seleccione Descriptive Statistics y
haga clic en OK.
c. Para el Input Range, escriba A1:A81, indique que
los datos están agrupados por columna y que las
etiquetas están en la primera fila. Haga clic en Out-
put Range, indique que la salida deberá ir en D1 (o
cualquier lugar que usted quiera), haga c//cen Su-
mary Statistics y luego en OK.
4, Cuando obtenga los resultados, revise dos veces la
lista para estar seguro de que contiene el número
correcto de elementos.
Descripción de datos: medidas de ubicación 93
Una importante línea aérea quería información sobre los participantes en el programa "via-
jero frecuente". Una muestra de 48 miembros dio como resultado información que ilustra las
millas que cada uno recorrió el año pasado. Revise los datos y elabore un diagrama de caja
con ellos. (Vea la Meta 4 y el Ejercicio 41.)
Descripción de datos: presentación y exploración de datos 97
Introducción
En el Capítulo 2 empezó nuestro estudio de la estadística descriptiva. A fin de transformar
datos en bruto o no agrupados en una forma significativa, organizamos la información en
una distribución de frecuencias. Presentamos la distribución de frecuencias en forma gráfi-
ca como un histograma o un polígono de frecuencias. Esto nos permitió visualizar el punto
en el que los datos tienden á agruparse, los valores más altos y los más bajos y la forma
general de la información. -
En el Capítulo 3 primero calculamos diversas medidas de ubicación, como la medía y
la mediana. Éstas nos permite reportar un valor típico en el conjunto de observaciones. Asi-
mismo, calculamos varias medidas de dispersión, como el rango y la desviación estándar.
Éstas nos permiten describir la variación o extensión en un conjunto de observaciones.
En este capítulo, continuamos nuestro estudio de la estadística descriptiva. Empezamos
con los diagramas de puntos y los diagramas de caja. Ambos nos ofrecen una perspectiva
adicional del lugar donde los valores están concentrados y dispersos, así como la forma ge-
neral de la información. Después, presentamos algunas otras medidas de dispersión, como
cuartiles, deciles y percentiles. Por último, consideramos los datos bivariables, en los que
observamos dos variables para cada observación seleccionada. Algunos ejemplos incluyen:
la edad de un estudiante y el lugar que tiene en la clase, si un producto que participó en una
muestra es aceptable o no y el turno en el que se fabricó, y la cantidad de electricidad que con-
sumió en un mes el dueño de una casa y la temperatura alta media diaria en la región
durante ese mes.
Diagramas de puntos
Un histograma agrupa los datos en clases. Recuerde que en los datos sobre Whitner Autoplex,
de la Tabla 2-1, las 80 observaciones se condensaron en siete clases. Al organizar los datos
en estas siete clases perdimos el valor exacto de las observaciones. Por otro lado, un dia-
grama de puntos agrupa los datos lo menos posible y no perdemos la identidad de una
observación individual. Para desarrollar un diagrama de puntos simplemente desplegamos
un punto para cada observación a lo largo de una línea numérica horizontal indicando los
posibles valores de la información. Si hay observaciones idénticas o tan parecidas que no
se pueden mostrar en forma individual, los puntos se "apilan" uno encima de otro. Esto nos
permite ver la forma de la distribución, el valor alrededor del cual los datos tienden a agru-
parse y las observaciones más alta y más baja. Los diagramas de puntos son más útiles
para conjuntos de datos pequeños, mientras que los histogramas suelen ser más útiles para
conjuntos más grandes de datos. Un ejemplo le mostrará cómo elaborar e interpretar los
diagramas de puntos.
El programa MINITAB ofrece un diagrama de puntos y calcula la media, la mediana, los valo-
res máximo y mínimo, y la desviación estándar para el número de autos vendidos en cada
una de las agencias durante los últimos 24 meses.
embargo, la organización de los datos de esta manera tiene dos desventajas: (1) perdemos
la identidad exacta de cada valor y (2) no sabemos con seguridad cómo están distribuidos
los valores en cada una de las clases. Para explicar, la siguiente distribución de frecuencias
muestra el número de espacios publicitarios que compraron los 45 miembros de la Greater
Buffalo Automobile Dealers Association en el año 2003. Observamos que 7 de las 45 agen-
cias compraron de 90 a 100 espacios. Sin embargo, no podemos saber si el número de
espacios comprados en esta clase se agrupan cerca de 90, se extiende de manera uniforme
por toda la clase o se agrupan cerca de 99.
Una de las técnicas que se emplean para mostrar la información cuantitativa de manera
condensada es el diagrama de tallo y hojas. Una ventaja de este diagrama sobre la dis-
tribución de frecuencias es que no perdemos la identidad de cada observación. En el ejem-
plo anterior, no conocíamos la identidad de los valores en la clase de 90 a 100. Para ilustrar
la elaboración de un diagrama de tallo y hojas utilizando el número de espacios publicitarios
comprados, supongamos que siete observaciones en la clase de 90 a 100 son: 96, 94, 93,
94, 95, 96 y 97. El valor de tallo es el dígito líder, en este caso, 9. Las hojas son los dígi-
tos secundarios. El tallo se coloca a la izquierda de una línea vertical y los valores de las
hojas a la derecha.
Los valores en la clase de 90 a 100 aparecerían como sigue:
Por último, clasificamos los valores en cada tallo del más bajo al más alto. Por tanto, la segun-
da fila del diagrama de tallo y hojas aparecería como sigue:
Con el diagrama de tallo y hojas podemos observar con rapidez que hay dos agencias que
compraron 94 espacios y que el número de espacios comprados varía de 93 a 97. Un dia-
grama de tallo y hojas es similar a una distribución de frecuencias con más información; es
decir, se conserva la identidad de las observaciones.
En la información de la Tabla 4-1 observamos que el número más bajo de espacios com-
prados es 88. De modo que el primer valor de tallo es 8. El número más alto es 156, de
modo que los valores de tallo empezarán en el 8 y continuarán hasta el 15. El primer
número en la Tabla 4-1 es 96, que tiene un valor de tallo de 9 y un valor de hoja de 6.
Siguiendo en la primera fila, el segundo valor es 93 y el tercero es 88. Después de conside-
rar los tres primeros valores de datos, el diagrama queda como sigue.
El procedimiento normal consiste en clasificar los valores de las hojas desde el más bajo
hasta el más alto. La última fila, que es la que se refiere a los valores cercanos a 150, apare-
cería como sigue:
La tabla final, donde clasificamos todos los valores de las hojas, quedaría así:
Descripción de datos: presentación y exploración de datos 101
Podemos obtener varias conclusiones a partir del diagrama de tallo y hojas. En primer
lugar, el número mínimo de espacios comprados es 88 y el máximo es 156. Dos agencias
compraron menos de 90 espacios, y tres 150 o más. Por ejemplo, podemos observar que
las tres agencias que adquirieron más de 150 espacios, en realidad compraron 155, 155 y
156. La concentración del número de espacios es entre 110 y 130. Nueve agencias com-
praron entre 110 y 119 espacios y ocho adquirieron entre 120 y 129. También podemos
decir que, en el grupo de 120 a 129, el número real de espacios comprados se encuentra
esparcido de manera uniforme. Es decir, dos agencias compraron 120 espacios, una adqui-
rió 124, tres compraron 125 y dos 127 espacios.
También podemos generar esta información con el software MINITAB. A la variable, le
ponemos el nombre de Spots. A continuación, presentamos la pantalla de MINITAB. Al final
del capítulo encontrará los comandos de MINITAB que producen estos resultados.
observación; su valor es 118. Después de la mediana, los valores empiezan a bajar. Éstos
representan los totales acumulados "más que". Hay 21 observaciones de 120 o más, 13 de
130 o más, etcétera. El número 9 entre paréntesis también señala que hay 9 observaciones
en la fila intermedia.
(a) ¿Cuáles son los números máximo y mínimo de empleados por tienda?
(b) ¿Cuántas tiendas dan empleo a 91 personas?
(c) ¿Alrededor de qué valores tiende a agruparse el número de empleados por tienda?
Ejercicios
1. Describa las diferencias entre un histograma y un diagrama de puntos. ¿En qué casos es
mejor utilizar un diagrama de puntos que un histograma?
2. Describa las diferencias entre un histograma y un diagrama de tallo y hojas.
3. Considere el diagrama siguiente.
9. En una encuesta sobre el número de llamadas recibidas la semana pasada por una muestra
de suscriptores de la Southern Phone Company reveló la siguiente información. Elabore un
diagrama de tallo y hojas. ¿Cuántas llamadas recibió un suscriptor típico? ¿Cuál es el nú-
mero máximo y mínimo de llamadas recibidas?
10. Aloha Banking Co., estudia el uso de cajeros automáticos en los suburbios de Honolulú. Una
muestra de 30 cajeros automáticos mostró que se utilizaron los siguientes números de veces
el día de ayer. Elabore un diagrama de tallo y hojas. Resuma el número de veces que se usó
cada cajero: ¿Cuál fue el número de veces típico, mínimo y máximo que se utilizó cada
cajero automático?
Los cuartiles dividen un grupo de observaciones en cuatro partes ¡guales. Para expli-
carlo mejor, piense en cualquier conjunto de valores ordenados del más bajo al más alto.
En el Capítulo 3, dijimos que el valor medio de un conjunto de datos ordenados del más
bajo al más alto se llama mediana. Es decir, 50% de las observaciones son más altas que
la mediana y 50% son más bajas. La mediana es una medida de ubicación porque indica el
centro de los datos. De manera similar, los cuartiles dividen un grupo de observaciones en
cuatro partes iguales. El primer cuartil, indicado casi siempre como Q1 es el valor debajo
del cual ocurren 25% de las observaciones, y el tercer cuartil, que por lo general se indica
como Q3, es el valor debajo del cual ocurren 75% de las observaciones. Por lógica, Q2 es la
mediana. Los valores que corresponden a Q1 Q2 y Q3 dividen un conjunto de datos en cuatro
partes iguales. Podemos considerar que Q, es la "mediana" de la mitad inferior de los
datos y Q3 es la "mediana" de la mitad superior.
De modo similar, los deciles dividen un grupo de observaciones en 10 partes iguales y
los percentiles en 100 partes ¡guales. De modo que si su promedio general en su universi-
o
dad se encuentra en el 8 decil, podríamos llegar a la conclusión de que 80% de los estu-
diantes tuvo un promedio general más bajo que el suyo y 20% obtuvo un promedio más alto.
Un promedio general en el 33° percentil significa que 33% de los estudiantes tienen un
promedio más bajo y 67% un promedio más alto. Las calificaciones en percentiles se uti-
lizan con frecuencia para reportar los resultados en pruebas nacionales estandarizadas
como SAT, ACT, GMAT (que se usa para determinar si un estudiante puede participar en los
programas de Maestría en Administración de Empresas) y LSAT (que se utiliza para deter-
minar la entrada a las facultades de derecho).
A continuación, presentamos las comisiones ganadas el mes pasado por una muestra de
15 corredores en la oficina de Salomón Smith Barney situada en Oakland, California.
Salomón Smith Barney es una compañía de inversiones con oficinas en todo Estados
Unidos.
Encuentre la mediana, el primer cuartil y el tercer cuartil para las comisiones ganadas.
El primer paso consiste en organizar los datos de la comisión más baja hasta la más alta.
106 Capítulo 4
Por tanto, los valores del primero y tercer cuartiles se encuentran en las posiciones 4 y 12.
El cuarto valor en la serie ordenada es $1 721 y el decimosegundo es $2 205. Éstos son el
primero y el tercer cuartil, respectivamente.
La fórmula de posición nos indica que el primer cuartil se encuentra entre el primero y el
segundo valor, y que está a 0.75 de la distancia entre ambos valores. El primer valor es 43
y el segundo es 61. De modo que la distancia entre estos dos valores es 18. Para encon-
trar el primer cuartil necesitamos moverlo 0.75 de la distancia entre el primero y el segun-
do valor, de modo que 0.75(18) = 13.5. Para terminar el procedimiento, sumamos 13.5 al
primer valor y reportamos que el primer cuartil es 56.5.
Podemos ampliar esta idea para incluir tanto los deciles como los percentiles. Si quisié-
ramos encontrar el percentil 23 en una muestra de 80 observaciones, tendríamos que bus-
car la posición 18.63.
Descripción de datos: presentación y exploración de datos 107
Para encontrar el valor que corresponde al percentil 23, tendríamos que buscar los valores
18 y 19 y determinar la distancia entre ambos. A continuación, tendríamos que multiplicar
esta diferencia por 0.63 y sumar el resultado al valor más bajo. El resultado sería el percentil
23.
Con un paquete de software de estadística es muy fácil ordenar los datos del más bajo
al más alto y buscar los percentiles y deciles. Tanto MINITAB como Excel producen estadís-
ticas resumidas. A continuación, presentamos los resultados de MINITAB. Los datos se
reportan en $000. Se incluyen el primer y el tercer cuartil, así como la media, la mediana y
la desviación estándar para los datos de Whitner Autoplex (vea la Tabla 2-1). Llegamos a la
conclusión de que 25% de los vehículos se vendieron en menos de $20 074 y 75% en
menos de $25 795.
Los siguientes resultados obtenidos con Excel incluyen la misma información acerca de
la media, la mediana y la desviación estándar. También calculamos los cuartiles, pero el
método de cálculo no es muy preciso. Para encontrar los cuartiles, multiplicamos el tamaño
de la muestra por el percentil deseado y reportamos el entero de ese valor. Para explicarlo
mejor, en los datos de Whitner Autoplex hay 80 observaciones y queremos localizar el per-
centil 25. Multiplicamos (n + 1) = (80 + 1) = 81 por 0.25; el resultado es 20.25. Excel no nos
permite capturar una fracción, de modo que utilizamos 20 y pedimos la ubicación de los 20
valores más altos y los 20 valores más bajos. El resultado es una buena aproximación de
los percentiles 25 y 75.
108 Capítulo 4
Autoevaluación 4-2 El departamento de control de calidad de Plainsville Peanut Company es responsable de veri-
ficar el peso de los frascos de 8 onzas de mantequilla de maní. Los pesos de una muestra de
nueve frascos producidos en la última hora son:
Ejercicios
11. Determine la mediana y los valores que corresponden al primero y tercer cuartiles en los
datos siguientes.
12. Determine la mediana y los valores que corresponden al primer y tercer cuartiles en los
datos siguientes.
13. The Thomas Supply Company, Inc., es un distribuidor de motores eléctricos pequeños.
Como sucede en cualquier negocio, el tiempo que los clientes tardan en pagar sus facturas
es importante. A continuación, presentamos los tiempos de pago, en días, y ordenados del
más bajo al más alto para una muestra de facturas de The Thomas Supply Company, Inc.
Diagramas de caja
Un diagrama de caja es una representación gráfica, basada en cuartiles, que nos ayuda a
ilustrar un conjunto de datos. Para elaborar un diagrama de caja sólo necesitamos cinco
estadísticas: el valor mínimo, O, (el primer cuartil), la mediana, O3 (el tercer cuartil) y el valor
máximo. Un ejemplo nos ayudará a explicarlo mejor.
Descripción de datos: presentación y exploración de datos 109
Alexander's Pizza ofrece la entrega gratuita de sus pizzas en un área de 15 millas. Alex, el
dueño, quiere información sobre el tiempo de entrega. ¿Cuánto tarda una entrega típica?
¿En qué rango de tiempo se realiza la mayor parte de las entregas? Para una muestra de
20 entregas, se determinó la información siguiente:
Elabore un diagrama de caja para los tiempos de entrega. ¿A qué conclusiones llega acer-
ca de los tiempos de entrega?
El diagrama de caja muestra que el valor medio de las entregas, 50%, tarda entre 15 y
22 minutos. La distancia entre los extremos del cuadro, 7 minutos, es el rango intercuartil.
Esto es la distancia entre el primero y el tercer cuartiles, y muestra la extensión o disper-
sión de la mayor parte de las entregas.
El diagrama de caja también revela que la distribución de los tiempos de entrega tiene ,
un sesgo positivo. ¿Cómo lo sabemos? En este caso, en realidad, existen dos piezas de
información que sugieren que la distribución tiene un sesgo positivo. En primer lugar, la
línea punteada a la derecha del cuadro desde 22 minutos (Q 3) hasta el tiempo máximo de
30 minutos es más larga que la línea punteada a la izquierda que va desde 15 minutos (Q1)
hasta el valor mínimo de 13 minutos. En otras palabras, el 25% de los datos mayores al ter-
cer cuartil están más dispersos que el 25% menor al primer cuartil. Una segunda señal del
sesgo positivo es que la mediana no está en el centro del cuadro. La distancia desde el
primer cuartil hasta la mediana es menor que la distancia desde la mediana hasta el tercer
cuartil. Sabemos que el número de tiempos de entrega entre 15 y 18 minutos es igual al
número de tiempos de entrega entre 18 y 22 minutos.
Consulte los datos de Whitner Autoplex en la Tabla 2-1. Elabore un diagrama de caja con la
información. ¿A qué conclusión llegamos acerca de la distribución de los precios de venta
de los vehículos?
110 Capítulo 4
Llegamos a la conclusión de que el precio mediano de los autos es alrededor de $23 000,
de que aproximadamente 25% de los vehículos se vendieron en menos de $20 000 y que
casi 25% se vendió en más de $26 000. Alrededor de 50% de los autos se vendieron a un
precio entre $20 000 y $26 000. La distribución tiene un sesgo positivo porque la línea arri-
ba de $26 000 es ligeramente más larga que aquella que está debajo de $26 000.
Hay un asterisco (*) sobre el precio de venta de $35 000, y éste indica un externo. Un
externo es un valor inconsistente con el resto de los datos. La definición estándar de un
externo es un valor que, en el rango intercuartil, es más de 1.5 veces menor que Q1 o mayor
que Q3. En este ejemplo, un externo sería un valor mayor que $35 000, calculado mediante
El diagrama con MINITAB indica que sólo hay un valor mayor que $35 000. Sin embargo, si
observa los datos reales en la Tabla 2-1 de la página 25, se dará cuenta de que en realidad
hay dos valores ($35 851 y $35 925). El software no pudo incluir en la gráfica los dos pun-
tos de datos, pues se encuentran muy cerca, de modo que sólo muestra un asterisco.
¿Cuál es la mediana, el valor más alto y el más bajo, y el primero y tercer cuartiles? ¿Está de
acuerdo en que la distribución es simétrica?
Descripción de datos: presentación y exploración de datos 111
Ejercicios
15. Consulte el siguiente diagrama de caja.
a. Calcule la mediana.
b. Calcule el primer y tercer cuartiles.
c. Determine el rango intercuartil.
d. ¿Más allá de qué punto un valor se considera incongruente?
e. Identifique todos los incongruentes y calcule su valor.
f. ¿La distribución es simétrica, con sesgo positivo o con sesgo negativo?
16. Consulte el siguiente diagrama de caja.
a. Calcule la mediana.
b. Calcule el primer y tercer cuartiles.
c. Determine el rango intercuartil.
d. ¿Más allá de qué punto un valor se considera incongruente?
e. Identifique todos los incongruentes y calcule su valor.
f. ¿La distribución es simétrica, con sesgo positivo o con sesgo negativo?
17. En un estudio de las millas por galón de gasolina de los automóviles modelo 2004, la media
de las millas por galón fue 27.5 y la mediana de 26.8. El valor más bajo en el estudio
fue
12.70 millas por galón y el más alto fue 50.20. El primer y tercer cuartil fueron 17.95 y 35.45
millas por galón, respectivamente. Elabore un diagrama de caja y comente sobre su dis-
tribución. ¿Es simétrica?
18. Una muestra de 28 departamentos de tiempo compartido en Florida reveló las siguientes ta-
rifas diarias por una suite de una recámara. Por conveniencia, los datos se ordenan desde
el más bajo hasta el más alto. Elabore un diagrama de caja que represente la información.
Comente sobre la distribución. Asegúrese de identificar el primer y el tercer cuartiles, así
como la mediana.
Dispersión relativa
Es imposible una comparación directa de dos o más medidas de dispersión (digamos, la
desviación estándar para una distribución de ingresos
anuales y la desviación estándar de una distribución
de ausentismo en un mismo grupo de empleados).
¿Podemos decir que la desviación estándar de $1 200
para la distribución de los ingresos es mayor que la
desviación estándar de 4.5 días para la distribución de
ausentismo? Obviamente no, porque no podemos com-
parar en forma directa dólares y días de ausencia del
trabajo. A fin de hacer una comparación significativa de
la dispersión en ingresos y ausentismo, necesitamos
convertir cada una de estas medidas en un valor rela-
tivo; es decir, un porcentaje. Karl Pearson (1857-1936),
en la fotografía, quien contribuyó de manera muy im-
portante a la ciencia de la estadística, desarrolló una
medida relativa llamada coeficiente de variación (CV).
Es una medida muy útil cuando:
Cuándo usar CV 1. Los datos están en unidades diferentes (como dólares y días de ausencia).
2. Los datos están en las mismas unidades, pero las medias son muy diferentes (como
los ingresos de los altos ejecutivos y los ingresos de los empleados de menor nivel).
COEFICIENTE DE VARIACIÓN
Un estudio de la cantidad de bonos pagados al año y los años de servicio de los emplea-
dos de Sea Pro Marine, Inc., de Newberry, Carolina del Sur, dio como resultado estas estadís-
ticas: el bono medio pagado fue $2 000; la desviación estándar fue $400. El número medio
de años de servicio fue 20 años; la desviación estándar fue 2 años. Compare la dispersión
relativa en ambas distribuciones utilizando el coeficiente de variación.
Las distribuciones están en unidades diferentes (dólares y años de servicio). Por tanto, se
convierten en coeficientes de variación.
Descripción de datos: presentación y exploración de datos 113
El mismo procedimiento se utiliza cuando los datos están en las mismas unidades pero
las medias son muy diferentes. Vea el ejemplo siguiente.
Ejercicios
19. Para una muestra de estudiantes en la Facultad de Administración de Mid-Atlantic University,
el promedio medio es 3.10 con una desviación estándar de 0.25. Calcule el coeficiente de
variación.
20. Southwest Airlines estudia el peso del equipaje por cada pasajero. Para un grupo numeroso
de pasajeros nacionales, la media es 47 libras con una desviación estándar de 10 libras. Pa
ra un grupo numeroso de pasajeros internacionales, la media es 78 libras y la desviación es
tándar es 15 libras. Calcule la dispersión relativa de cada grupo. Comente sobre la diferencia
en la dispersión relativa.
21. Un analista investigador de la empresa de corretaje de bolsa Sidde Financial quiere com
parar la dispersión en las razones de precio-ganancia para un grupo de acciones comunes,
con la dispersión de su recuperación de la inversión. Para las razones de precio-ganancia,
la media es 10.9 y la desviación estándar es 1.8. La recuperación de la inversión media es
25% y la desviación estándar es 5.2%.
a. ¿Por qué se debe utilizar el coeficiente de variación para comparar la dispersión? b:
Compare la dispersión relativa para las razones de precio-ganancia y la recuperación de la
inversión.
22. Debemos comparar la extensión de los precios anuales de las acciones que se venden en
menos de $10 y la extensión en los precios de aquellas que se venden en más de $60. El
114 Capítulo 4
precio medio de las acciones que se venden en menos de $10 es $5.25 y la desviación
estándar es $1.52. El precio medio de las acciones que se venden en más de $60 es $92.50
y la desviación estándar es $5.28.
a. ¿Por qué se debe utilizar el coeficiente de variación para comparar la dispersión en los
precios?
b. Calcule los coeficientes de variación. ¿A qué conclusión llegó?
Sesgo
En el Capítulo 3, describimos las medidas de ubicación central para un grupo de observa-
ciones reportando la media, la mediana y la moda. También describimos las medidas que
muestran la cantidad de extensión o variación en un conjunto de datos, como el rango y la
desviación estándar.
Otra característica de un conjunto de datos es la forma. Por lo regular, se observan cua-
tro formas: simétrica, con sesgo positivo, con sesgo negativo y bimodal. En un grupo de
observaciones simétrico, la media y la mediana son iguales y los valores de los datos se
encuentran dispersos de manera uniforme alrededor de estos valores. Los valores que
están por debajo de la media y la mediana son un reflejo de aquellos que están por encima
de ellos. Un conjunto de valores tiene un sesgo a la derecha o un sesgo positivo si hay
un solo pico y los valores se extienden más hacia la derecha del pico que hacia la izquier-
da. En este caso, la media es más alta que la mediana. En una distribución con sesgo ne-
gativo hay un solo pico, pero las observaciones se extienden más hacia la izquierda, en la
dirección negativa, que a la derecha. En una distribución con sesgo negativo, la media es
menor que la mediana. Las distribuciones con sesgo positivo son más comunes. A menudo,
los salarios siguen este patrón. Piense en los salarios de aquellos que trabajan en una com-
pañía pequeña con 100 empleados más o menos. El presidente y algunos altos ejecutivos
tienen salarios muy elevados en relación con los demás empleados y, por tanto, la distribu-
ción de los salarios muestra un sesgo positivo. Una distribución bimodal tiene dos o más
picos. A menudo, ésta se presenta cuando los valores son de dos o más poblaciones. La
Gráfica 4-1 resume esta información.
En la literatura sobre estadística hay varias fórmulas que se utilizan para calcular el
sesgo. La más sencilla, desarrollada por el profesor Karl Pearson, se basa en la diferencia
entre la media y la mediana.
Descripción de datos: presentación y exploración de datos 115
Utilizando esta relación, el coeficiente de sesgo puede variar entre -3 y 3. Un valor cercano
a -3, como -2.57, indica un sesgo negativo considerable. Un valor como 1.63 indica un
sesgo positivo moderado. Un valor de 0, que ocurre cuando la media y la mediana son
iguales, indica que la distribución es simétrica y no presenta ningún sesgo.
En este libro, presentamos resultados obtenidos con los paquetes de software para
estadística MINITAB y Excel. Ambos paquetes calculan un valor para el coeficiente de sesgo
que se basa en las desviaciones de la media elevadas al cubo. La fórmula es:
La fórmula (4-4) ofrece una idea del sesgo. El lado derecho de la fórmula es la diferen-
cia entre cada valor y la media, dividida entre la desviación estándar. Ésta es la parte (X-
de la fórmula. La idea se conoce como estandarización. Estudiaremos la idea de la
estandarización de un valor con mayor detalle en el Capítulo 7, al describir la distribución
de la probabilidad normal. En este punto, observe que el resultado debe reportar la diferen-
cia entre cada valor y la media en las unidades de la desviación estándar. Si esta diferencia
es positiva, el valor en particular es más alto que la media; si es negativa, es más bajo que
la media. Al elevar al cubo estos valores, conservamos la información sobre la dirección de la
diferencia. Recuerde que en la fórmula para la desviación estándar [vea la fórmula (3-11)],
elevamos al cuadrado la diferencia entre cada valor y la media, de modo que el resultado
fueron sólo valores no negativos.
Si el conjunto de valores de datos en consideración es simétrico, al elevar al cubo los
valores estandarizados y sumar todos los valores, el resultado será cercano a cero. Si hay
diversos valores altos, separados con claridad de los demás, la suma de las diferencias al
cubo será un valor positivo alto. Diversos valores mucho más bajos dan como resultado una
suma negativa al cubo.
Un ejemplo ¡lustra la idea del sesgo.
A continuación, presentamos las ganancias por acción para una muestra de 15 compañías
de software para el año 2003. Las ganancias por acción se ordenan de la más baja a la más
alta.
Éstos son los datos de una muestra de modo que usamos la fórmula (3-2) para determinar
la media
La mediana es el valor medio en un conjunto de datos, ordenados del más bajo al más alto.
En este caso, el valor medio es $3.18, de modo que la ganancia mediana por acción es
$3.18.
Usamos la fórmula (3-11) de la página 77 para determinar la desviación estándar de la
muestra.
116 Capítulo 4
Esto indica que hay un sesgo positivo moderado en las ganancias por acción.
Con el uso del software, obtenemos un valor similar, pero no idéntico. Los detalles de
los cálculos se muestran en la Tabla 4-2. Para empezar, encontramos la diferencia entre
cada uno de los valores de las ganancias por acción y la media, y dividimos este resultado
entre la desviación estándar. Recuerde que esto se conoce como estandarización. A con-
tinuación, elevamos al cubo, es decir, elevamos a la tercera potencia, el resultado del primer
paso. Por último, sumamos los valores al cubo. Los detalles de la primera fila, es decir, la
compañía con una ganancia por acción de $0.09, son:
Llegamos a la conclusión de que los valores de las ganancias por acción tienen un
sesgo positivo. La gráfica siguiente, de MINITAB, reporta las medidas descriptivas, como la
media, la mediana y la desviación estándar de las ganancias por acción. También se
incluyen el coeficiente de sesgo y un histograma con una curva en forma de campana
superpuesta.
Descripción de datos: presentación y exploración de datos 117
Una muestra de cinco capturistas de datos que trabajan en la Oficina de Impuestos de Horry
County revisó el siguiente número de expedientes fiscales durante la última hora: 73, 98, 60,
92 y 84.
(a) Encuentre la media, la mediana y la desviación estándar.
(b) Calcule el coeficiente de sesgo utilizando el método de Pearson.
(c) Calcule el coeficiente de sesgo utilizando el método del software.
(d) ¿Á qué conclusión llegó en cuanto al sesgo de los datos?
Ejercicios
Para los Ejercicios 23 a 26, haga lo siguiente:
23. Los valores siguientes son los salarios iniciales, en miles de dólares, para una muestra de cinco
contadores recién graduados que aceptaron puestos de contadores públicos el año pasado:
24. A continuación, presentamos una lista de los salarios, en miles de dólares, para una muestra
de 15 directores financieros en la industria electrónica.
25. A continuación, presentamos una lista de las comisiones que ganaron (miles de dólares) los
representantes de ventas de Furniture Patch, Inc., el año pasado.
26. A continuación, presentamos una lista de los salarios de los Yankees de Nueva York durante
el año 2000. La información se reporta en millones de dólares.
118 Capítulo 4
Tybo and Associates es una empresa que se anuncia con mucha frecuencia en la tele-
visión local, por lo que los socios consideran la posibilidad de aumentar su presupuesto
publicitario. Antes de hacerlo, quieren conocer la relación entre la cantidad que gastan
al mes en publicidad y la cantidad total de cuentas por pagar. En otras palabras, quie-
ren saber si el incremento en la cantidad total invertida en publicidad dará como resul-
tado un aumento en las cuentas por pagar.
Coastal Realty estudia los precios de venta de las casas. ¿Qué variables parecen estar
relacionadas con el precio de venta de las casas? Por ejemplo, ¿las casas grandes se
venden a mayor precio que las pequeñas? Tal vez no. De modo que Coastal debe estu-
diar la relación entre el área en pies cuadrados y el precio de venta. El doctor Stephen
Givens es^un experto en desarrollo humano y estudia la relación entre la estatura de los
padres y la estatura de sus hijos. Es decir, ¿los padres que son altos suelen tener hijos
altos? ¿Podríamos esperar que Shaquille O'Neal, el jugador de basquetbol profesional
que mide 7'1" y pesa 335 libras, tenga hijos relativamente altos?
Una técnica gráfica que empleamos para mostrar la relación entre las variables se conoce
como diagrama de dispersión.
Para elaborar un diagrama de dispersión necesitamos dos variables. Una de las varia-
bles queda en una escala a lo largo del eje horizontal (eje X} de una gráfica y la otra, a lo lar-
go del eje vertical (eje Y). Por lo general, una de ellas depende hasta cierto grado de la otra.
En el tercer ejemplo, la altura del hijo depende de la altura del padre. De modo que se repre-
senta a escala la altura del padre sobre el eje horizontal y la del hijo sobre el eje vertical.
Podemos usar software para estadística, como Excel, para realizar la función de trazo.
Precaución: siempre debe tener cuidado con la escala. Al cambiar la escala de cualquiera
de los dos ejes, puede afectar la fuerza visual de la relación.
En la introducción del Capítulo 2, presentamos los datos de AutoUSA. En este caso, la infor-
mación se ocupa de los precios de los 80 vehículos que se vendieron el mes pasado en el lote
Whitner Autoplex de Raytown, Missouri. Los datos que se muestran en la página 119 incluyen
el precio de venta del vehículo, así como la edad del comprador. ¿Existe una relación entre el
precio de venta del vehículo y la edad del comprador? ¿Sería razonable llegar a la conclusión
de que cuanto más costosos sean los vehículos, los compran clientes de mayor edad?
Descripción de datos: presentación y exploración de datos 119
Podemos investigar la relación entre el precio de venta de los vehículos y la edad del com-
prador con un diagrama de dispersión. Escalamos la edad en el eje horizontal, o X, y el pre-
cio de venta en el eje vertical, o Y. Utilizamos Microsoft Excel para elaborar el diagrama de
dispersión. Los comandos de Excel necesarios se muestran en la sección Comandos de
software, al final del capítulo.
El diagrama de dispersión muestra una relación positiva entre las variables. De hecho,
los compradores de mayor edad tienden a adquirir autos más costosos. En el Capítulo 13,
estudiaremos con más detalle la relación entre las variables, calculando incluso varias medi-
das numéricas para expresar estas relaciones.
En el ejemplo de Whitner Autoplex existe una relación positiva o directa entre las varia-
bles. Es decir, conforme aumentó la edad, también se incrementó el precio del vehículo. Sin
embargo, hay muchos casos en los que hay una relación entre las variables, pero ésta es
inversa o negativa. Por ejemplo:
Una tabla de contingencia es una tabulación cruzada que resume al mismo tiempo dos va-
riables de interés. Por ejemplo:
• Los estudiantes de una universidad se clasifican según el género y el lugar que ocupan
en su grupo.
• Un producto se clasifica como aceptable o no aceptable y por el turno (diurno, vesper
tino o nocturno) en el que se fabricó.
• Un votante en una elección escolar para refrendar becas se clasifica por su afiliación a
un partido (demócrata, republicano u otro) y el número de hijos que asisten a la escuela
(0, 1,2, etcétera).
El nivel de medición para las dos variables es nominal. Es decir, las variables turno y cali-
dad sólo permiten que una unidad en particular se clasifique o asigne a grupos. Al organi-
zar la información en una tabla de contingencia, podemos comparar la calidad en los tres
turnos. Por ejemplo, en el turno diurno, 3 de cada 20 ventanas, o 15%, son defectuosas. En
el turno vespertino, 2 de cada 15, o 13%, son defectuosas, y en el turno nocturno, una de
cada 15, o 7%, son defectuosas. En general, 12% de las ventanas tienen algún defecto.
Observe también que 40% de las ventanas se producen en el turno de día, cifra que calcu-
lamos así: (20/50)(100). Volveremos a estudiar las tablas de contingencia en el Capítulo 5,
al estudiar la probabilidad, y en el Capítulo 15, cuando estudiemos los métodos de análisis
no paramétricos.
Ejercicios
27. Elabore un diagrama de dispersión para los datos de la muestra siguiente. ¿Cómo describi-
ría la relación entre los valores?
28. Silver Springs Moving and Storage, Inc. estudia la relación entre el número de habitaciones
en una mudanza y el número de horas de trabajo que se requieren. Como parte del análi-
sis, el director de finanzas de Silver Springs elaboró el siguiente diagrama de dispersión.
VI. Un diagrama de dispersión es una herramienta gráfica para representar la relación entre dos
variables.
A. Ambas variables se miden con escalas de intervalo o razón.
B. Si la dispersión de los puntos se mueve de la esquina inferior izquierda a la superior
derecha, las variables se relacionan en forma directa o positiva.
C. Si la dispersión de los puntos se mueve de la esquina superior izquierda a la inferior
derecha, las variables tienen una relación inversa o negativa.
VII. Una tabla de contingencia se utiliza para clasificar observaciones de escala nominal de
acuerdo con dos características.
Clave de pronunciación
Describa el número de pacientes a los que se atendió en las tres clínicas cada día. ¿Cuál es
el número máximo y mínimo de pacientes a los que se atendió en cada una de las sucursales?
124 Capítulo 4
33. El siguiente diagrama de tallo y hojas presenta el número de minutos al día que ve televisión
una muestra de estudiantes universitarios.
34. El siguiente diagrama de tallo y hojas reporta el número de pedidos recibidos al día por una
empresa de ventas por correo.
35. A principio de la década de 2000, las tasas de interés eran bajas, de modo que muchos
propietarios de casas refinanciaron sus hipotecas. Linda Lahey es una funcionaría hipote-
caria de Down River Federal Savings and Loan. A continuación, presentamos las cantidades
Descripción de datos: presentación y exploración de datos 125
a. Encuentre la mediana y el primer y tercer cuartiles para el número de CO que tienen las
personas de la tercera edad. Dibuje un diagrama de puntos para la información.
b. Encuentre la mediana y el primero y tercer cuartiles para el número de CD que tienen
los adultos jóvenes. Elabore un diagrama de puntos para la información.
c. Compare el número de CD que tienen ambos grupos.
37. La sede corporativa de Bank.com, una nueva compañía de Internet que realiza todas las
operaciones bancarias a través de la Red, se localiza en el centro de Filadetfia. El director
de recursos humanos lleva a cabo un estudio sobre el tiempo que los empleados tardan en
llegar a su trabajo. El gobierno de la ciudad planea ofrecer incentivos a todas las empresas
que se encuentran en el centro si motivan a sus empleados a utilizar el transporte público.
A continuación, presentamos una lista del tiempo que tardaron los empleados en llegar a su
trabajo esta mañana utilizando el transporte público y sus autos.
a. Encuentre la mediana y el primer y tercer cuartiles del tiempo que tardaron los emplea
dos utilizando el transporte público. Elabore un diagrama de puntos para la información.
b. Encuentre la mediana y el primer y tercer cuartiles del tiempo que tardaron los emplea
dos que utilizaron su automóvil. Dibuje un diagrama de puntos para la información.
c. Compare los tiempos de ambos grupos.
38. El diagrama de puntos siguiente muestra el número de periódicos diarios que se publican en
cada estado y en el Distrito de Columbia. Escriba un breve reporte sobre la cantidad de perió-
126 Capitulo 4
39. The Walter Gogel Company es un proveedor industrial de cinturones de seguridad, herra-
dicos publicados. No olvide incluir información sobre los valores del primer y tercer cuartiles,
la mediana y si existe algún sesgo. En caso de haber datos incongruentes, calcule su valor.
mientas y resortes. Las cantidades de sus facturas varían en gran medida, desde menos de
$20.00 hasta más de $400.00. Durante el mes de enero, enviaron 80 facturas. Éste es un
diagrama de puntos con estas facturas. Escriba un breve reporte sobre las cantidades de
sus facturas. No olvide incluir información sobre los valores del primer y tercer cuartiles, la
mediana y si hay algún sesgo. En caso de haber datos incongruentes, calcule su valor.
40. La National Muffler Company afirma que puede cambiar el mofle de su auto en menos de 30
minutos. Un reportero de investigación de WTOL Channel 11 supervisó 30 cambios de mo-
fle consecutivos en el taller de National que se encuentra en la calle Liberty. El número de
minutos para realizar los cambios se reporta a continuación.
44 12 22 31 26 22 30 26 18 28 12
40 17 13 14 17 25 29 15 30 10 28
16 33 24 20 29 34 23 13
22 29 32 38 39 41 42 43 43 43 44 44
45 45 46 46 46 47 50 51 52 54 54 55
56 57 58 59 60 61 61 63 63 64 64 67
69 70 70 70 71 71 72 73 74 76 78 88
43. A continuación, presentamos el número de robos de autos en una ciudad grande durante la
semana pasada. Calcule el coeficiente de sesgo utilizando ambos métodos. Nota: Utilice una
hoja de cálculo para hacer más rápidas sus operaciones.
45. Una compañía de seguros automotrices reportó la siguiente información sobre la edad de
un conductor y el número de accidentes reportados el año pasado. Elabore un diagrama de
dispersión a partir de los datos y escriba un resumen.
46. Wendy's ofrece ocho condimentos diferentes (mostaza, salsa de tomate, cebolla, mayone-
sa, pepinillos, lechuga, tomate y aderezo) en sus hamburguesas. El gerente de una de las
tiendas recopiló la siguiente información sobre el número de condimentos ordenados y el
grupo de edad al que pertenece cada cliente. ¿A qué conclusiones llega usted acerca de la
información? ¿Quién suele pedir la mayor y menor cantidad de condimentos?
47. Una encuesta realizada entre personas adultas de todo el país preguntaba si estaban a favor
del control de las armas, se oponían a éste o no tenían ninguna opinión al respecto; así
como cuál era su partido político preferido. Los resultados se reportan en la tabla siguiente.
128 Capítulo 4
Analice la información en la tabla. ¿Quién es más probable que esté a favor del control de
las armas?
exercises.com
48, Consulte el Ejercicio 82 en la página 91, que sugiere algunos sitios web donde encontrará
información sobre el Promedio Industrial Dow Jones. Uno de éstos es Bloomberg, que es
una excelente fuente de datos de negocios. El sitio de Bloomberg es: http://bloomberg.com.
Haga clic en Markets en la barra de herramientas y seleccione Stocks in the Dow. Se abrirá
una lista de los precios de venta actuales de las 30 acciones que forman el Promedio Indus
trial Dow Jones. Encuentre el cambio porcentual de ayer para cada una de las 30 acciones.
Elabore diagramas para ilustrar el cambio porcentual.
49. El siguiente sitio web proporciona los resultados del Super Tazón desde que se jugó por prime
ra vez en 1967: http://www.superbowl.com/history/recaps. Descargue el marcador de cada
Super Tazón y determine el margen por el que ganó cada equipo campeón. ¿Cuál es el mar
gen típico? ¿Cuáles son el primer y el tercer cuartil? ¿Hay algún juego cuyo valor sea externo?
Comandos de software
1. Los comandos de MINITAB para el diagrama de puntos
en la página 98 son:
a. Introduzca los vehículos que se vendieron en Smith
Ford Mercury Jeep en la columna C1 y en Brophy
Honda Volkswagen en C2. Ponga nombre a las varia
bles.
b. Seleccione Graph y Dot Plot, En el primer cuadro de
diálogo, seleccione Simple en la esquina superior
izquierda y haga clic en OK. En el siguiente cuadro
de diálogo, seleccione Smith y Brophy como las
variables para Graph, haga clic en Labels y escriba
un titulo apropiado, haga clic en Múltiple Graphs,
seleccione Options y elija la opción In sepárate
panels on the same page y haga clic en OK en los
distintos cuadros de diálogo.
c. Para calcular las estadísticas descriptivas que se
muestran en la pantalla, seleccione Stat, Basic
statistics y luego Display Descriptive statistics.
En el cuadro de diálogo, seleccione Smith and
Brophy como las Variables, haga clic en Statistics
y elija las estadísticas que desea obtener; por últi
mo, haga clic dos veces en OK.
3. Los comandos de MINITAB para el resumen descriptivo a. Importe los datos de Whitner Autoplex del CD. El
de la página 107 son: nombre del archivo es Table2-1. Seleccione la va
riable Price.
b. De la barra de herramientas, seleccione Stat,
Basic Statistics y Display Descriptive Statistics.
En el cuadro de diálogo seleccione Price como la
Variable, en la esquina inferior derecha, haga clic
en Graphs. En este cuadro, seleccione Graphs,
haga clic en Histogram of data, with normal
curve y luego dos veces en OK.
130 Capitulo 4
Glosario
Capítulo 1 Medida ordinal. Los datos que se pueden ordenar en forma
lógica se conocen como medidas ordinales. Por ejemplo, la
Estadística. La ciencia de recopilar, organizar, analizar e
respuesta del consumidor al sonido de una nueva bocina
interpretar información numérica con el propósito de tomar
puede ser excelente, muy buena, aceptable o mala.
decisiones más efectivas.
Muestra. Una porción o subconjunto representativo, de la po-
Estadística descriptiva. Técnicas usadas para describir las
blación que se estudia.
características importantes de un conjunto de datos. Éstas
Mutuamente excluyente. Una propiedad de un conjunto de
pueden incluir la organización de los valores en una dis-
categorías de modo que un individuo, objeto o medida sólo
tribución de frecuencia y el cálculo de las medidas de ubi-
se incluye en una categoría.
cación y las medidas de dispersión y sesgo. Estadística
Población. El grupo o conjunto de todos los individuos,
inferencial, también conocida como inferencia estadística
objetos o medidas cuyas propiedades se estudian.
o estadística inductiva. Esta faceta de la estadística se
ocupa del cálculo de un parámetro de población basado en
la estadística de una muestra. Por ejemplo, si 2 de cada 10
calculadoras de bolsillo en una muestra están defectuosas, Capítulo 2
podríamos deducir que 20% de la producción está
defectuosa. Clase. Intervalo en el que se recopilan los datos. Por ejem-
Exhaustivo. Cada una de las observaciones debe pertene- plo, de $4 a $7 es una clase; de $7 a $11 es otra clase.
cer a una de las categorías. Distribución de frecuencias. Agrupación de los datos en
Medida de intervalo. Si una observación es mayor que otra clases mostrando el número de observaciones en cada una
por determinada cantidad, y el punto cero es arbitrario, la de las clases mutuamente excluyentes. Por ejemplo, la infor-
medida no es una escala de intervalo. Por ejemplo, la dife- mación se organiza en clases como de $1 000 a $2 000, de
rencia entre las temperaturas de 70 y 80 grados son 10 gra- $2 000 a $3 000, etcétera, para resumirla. Distribución de
dos. De modo similar, una temperatura de 90 grados es 10 frecuencias relativas. Distribución de frecuencias que
grados más alta que una temperatura de 80, y así sucesiva- muestra la fracción o proporción de las observaciones
mente. totales en cada clase.
Medida de razón. Si las distancias entre los números son Frecuencia de clase. Número de observaciones en cada
de un tamaño constante conocido y hay un punto cero real, clase. Si en la clase de $4 a $7 hay 16 observaciones, 16 es
y la razón de dos valores es significativa, la medida es una la frecuencia de clase.
escala de razón. Por ejemplo, la distancia entre $200 y $300 Gráficas. Formatos gráficos especiales que se utilizan para
es $100, y en el caso del dinero, hay un punto cero real. Si representar una distribución de frecuencias, entre los que se
usted tiene cero dólares, hay un ausencia de dinero (no tiene incluyen histogramas, polígonos de frecuencias y polígonos
nada). También la razón entre $200 y $300 es significativa. de frecuencias acumuladas. Otros dispositivos gráficos usa-
Medida nominal. El nivel de medición "más bajo". Si los dos para representar datos son gráficas de líneas, gráficas
datos están clasificados en categorías y el orden de estas de barras y gráficas de pastel. Son muy útiles, por ejemplo,
categorías no es importante, se trata del nivel nominal de para ilustrar la tendencia en una deuda a largo plazo o los
medición. Algunos ejemplos son género (masculino, femeni- cambios porcentuales en las utilidades de un año a otro.
no) y afiliación política (demócrata, republicano, indepen- Histograma. Representación gráfica de una frecuencia o
diente, todos los demás). Si no cambia nada por el hecho de distribución de frecuencias relativas. El eje horizontal mues-
que en la lista estén primero los hombres o las mujeres, los tra las clases. La altura vertical de las barras adyacentes
datos son del nivel nominal. muestra la frecuencia o frecuencia relativa de cada clase.
Revisión de los capítulos 1 al 4 133
Punto medio. Valor que divide la clase en dos partes Varianza. Medida de dispersión basada en las diferencias
iguales. Para las clases de $10 a $20 y de $20 a $30, los promedio al cuadrado de la media aritmética.
puntos medios son $15 y $25, respectivamente.
Capítulo 4
Capítulo 3
Coeficiente de sesgo. Medida de la falta de simetría en una
distribución. En una distribución simétrica, no hay sesgo, de
Desviación estándar. Raíz cuadrada de la varianza. modo que el coeficiente de sesgo es cero. De lo contrario,
Desviación media. La media de las desviaciones de la puede ser positivo o negativo, con los límites de ±3.0.
media, sin importar los signos. Se abrevia MD. Coeficiente de variación. La desviación estándar dividida
Dispersión o extensión. Una medida de ubicación central entre la media, expresada como un porcentaje. Es muy útil
indica un solo valor que es típico de los datos. Una medida de sobre todo para comparar la dispersión relativa en dos o
dispersión indica lo cerca o lejos que los valores se encuen- más conjuntos de datos, donde (1) están en unidades dife-
tran de la media o alguna otra medida de tendencia central. rentes o (2) una media es mucho más alta que la otra.
Media aritmética. Suma de los valores dividida entre el Cuartiles. Valores de un conjunto de datos ordenado (míni-
número de valores. El símbolo para la media de una mues- mo a máximo) que dividen los datos en cuatro intervalos de
tra es X y el símbolo para la media poblacional es μ frecuencias casi iguales.
Media geométrica. La n-ésima raíz del producto de todos los Deciles. Valores de un conjunto de datos ordenado (mínimo
valores. Es muy útil sobre todo para calcular el promedio de a máximo) que dividen los datos en diez intervalos de fre-
las tasas de cambio y los números indicadores. Minimiza la cuencias prácticamente iguales.
importancia de los valores extremos. Un segundo uso de la Diagrama de caja. Representación gráfica que muestra la
media geométrica es para encontrar el cambio porcentual forma general de la distribución de una variable. Se basa en
medio anual durante un periodo. Por ejemplo, si las ventas en cinco estadísticas descriptivas: los valores máximo y míni-
bruto fueron de $245 millones en 1985 y de $692 millones en mo, el primer y tercer cuartiles y la mediana.
2000, ¿cuál es el incremento porcentual promedio anual? Diagrama de dispersión. Técnica gráfica que se utiliza para
Mediana. Valor de la observación intermedia después de mostrar la relación entre dos variables medidas con escalas
que todas las observaciones se ordenaron de la más baja a de intervalo o razón.
Diagrama de tallo y hojas. Método para representar la dis-
la más alta. Por ejemplo, si las observaciones 6, 9, 4 se vuel-
tribución de una variable usando todos los valores. Estos últi-
ven a ordenar para que queden 4, 6, 9, el valor intermedio
mos se clasifican de acuerdo con el dígito principal de los
es 6, la mediana.
datos. Por ejemplo, si un conjunto de datos contiene valores
Media ponderada. Cada valor se considera según su impor-
entre 13 y 84, para los tallos, se usarían ocho clases con base
tancia relativa. Por ejemplo, si 5 camisas cuestan $10 cada
en los dígitos de 10 en 10. Las unidades serían las hojas.
una y 20 camisas cuestan $8 cada una, el precio medio pon-
Diagrama de puntos. Un diagrama de puntos resume la
derado es $8.40: [(5 x $10) + (20 x $8)]/25 = $210/25 = $8.40.
distribución de una variable apilando los puntos sobre una
Medida de dispersión. Número que muestra la extensión línea de números que muestra el valor de las variables. Un
de un conjunto de datos. El rango, la varianza y la desviación diagrama de puntos utiliza todos los valores.
estándar son medidas de dispersión. Percentiles. Valores de un conjunto de datos ordenado
Medida de ubicación. Número que indica un solo valor que (mínimo a máximo) que dividen los datos en cien intervalos
es típico de los datos. Señala el centro de una distribución. La de frecuencias casi iguales.
media aritmética, la media ponderada, la mediana, la moda y Rango intercuartil. Diferencia numérica absoluta entre el
la media geométrica son medidas de ubicación central. primer y el tercer cuartiles. Del total de los valores de una
Moda. Valor que aparece con mayor frecuencia en un con- distribución, 50% ocurren en este rango.
junto de datos. Para los datos agrupados, es el punto central Tabla de contingencias. Tabla que se utiliza para clasificar
de la clase que contiene el mayor número de valores. las observaciones de acuerdo con dos o más características
Rango. Medida de dispersión calculada como el valor máxi- nominales.
mo menos el valor mínimo.
Ejercicios
Parte 1. Opción múltiple
1. A los empleados que terminaron un curso de capacitación se les pidió que lo calificaran
como sobresaliente, muy bueno, bueno, aceptable o malo. El nivel de medición es
a. Nominal
b. Ordinal
c. De intervalo
d. De razón
2. Una muestra de universitarios recién graduados indica que su salario inicial medio es $29 000.
Esta cifra representa
134 Sección 1
a. La media poblacional
b. La mediana de la muestra
c. La media de la muestra
d. La moda poblacional
3. Una muestra de universitarios recién graduados indica que la desviación estándar de su
salario inicial es $5 000. Esta cifra representa
a. El rango de los salarios iniciales
b. La varianza
c. 95% de todos los salarios iniciales
d. La dispersión del salario inicial alrededor de la media
4. Una medida útil para comparar la dispersión relativa de dos o más distribuciones, si están
en unidades diferentes, es
a. Coeficiente de sesgo
b. Coeficiente de variación
c. Rango
d. Desviación estándar
5. Para un conjunto de observaciones tenemos la información siguiente: media = 100, mediana
= 100, moda = 100 y desviación estándar = 4. La distribución es
a. Simétrica
b. Con sesgo positivo
c. Con sesgo negativo
d. Nominal
6. Para un conjunto de observaciones, tenemos la siguiente información: media = 100, mediana
= 100, moda = 100 y desviación estándar = 4. Alrededor de 95% de los valores están entre
a. 92 y 108
b. 96 y 104
c. ±4
d. 95 y 105
7. Fine Furniture Products, Inc. produjo 2 460 escritorios en 1993 y 6 520 en 2003. ¿Qué estadís
tica debemos utilizar para calcular el incremento porcentual promedio anual en la producción?
a. Media aritmética
b. Mediana
c. Moda
d. Media geométrica
Consulte la gráfica siguiente para responder las preguntas 8 a la 10.
8. La gráfica se llama
a. Distribución de frecuencia
b. Distribución de frecuencia acumulada
c. Polígono de frecuencia
d. Histograma
9. El rango intercuartil es
a. 5
b. 10
c. 15
d. 35 10. ¿Cuál de las afirmaciones siguientes es
verdadera?
a. Alrededor de 300 empleados son menores de 30.
b. 25% de los empleados son mayores de 45.
Revisión de los capítulos 1 al 4 135
13. Un pequeño número de empleados fueron seleccionados del personal de NED Electronics y
se registraron sus salarios por hora. Los salarios son: $9.50, $9.00, $11.70, $14.80 y $13.00.
a. ¿Los salarios por hora representan una muestra o una población?
b. ¿Cuál es el nivel de medición?
c. ¿Cuál es el salario medio aritmético por hora?
d. ¿Cuál es el salario por hora mediano? Interprete el resultado.
e. ¿Cuál es la varianza?
f. ¿Cuál es el coeficiente de sesgo? Interprete el resultado.
14. Las horas extras semanales que trabajaron todos los empleados de Publix Market son: 1, 4,
6, 12, 5 y 2.
a. ¿Ésta es una muestra o una población?
b. ¿Cuál es el número medio de horas extra trabajadas?
c. ¿Cuál es la mediana? Interprete el resultado.
d. ¿Cuál es la moda?
e. ¿Cuál es la desviación media?
f. ¿Cuál es la desviación estándar?
g. ¿Cuál es el coeficiente de variación?
15. La Oficina de Turismo de St.Thomas entrevistó a una muestra de turistas al salir de Estados
Unidos. Una de las preguntas fue: ¿Cuántos rollos de película utilizó mientras visitaba nues
tra isla? Las respuestas fueron:
a. Utilizando las cinco clases, organice los datos de la muestra en una distribución de fre
cuencia.
b. Represente la distribución en forma de un polígono de frecuencia.
c. ¿Cuál es el número medio de rollos usados? Use los datos en bruto reales.
d. ¿Cuál es la mediana? Use los datos en bruto reales.
e. ¿Cuál es la moda? Utilice los datos en bruto reales.
f. ¿Cuál es el rango? Utilice los datos en bruto reales.
g. ¿Cuál es la varianza de la muestra? Use los datos en bruto reales.
h. ¿Cuál es la desviación estándar de la muestra? Utilice los datos en bruto reales.
i. Suponiendo que la distribución es simétrica y en forma de campana, alrededor de 95%
de los turistas usaron entre _____ y _____rollos.
16. Las cantidades anuales invertidas en investigación y desarrollo, en una muestra de fabri-
cantes de componentes electrónicos, son (en millones de $):
23. Entre 1789 y 2003, 89 jueces prestaron sus servicios en la Suprema Corte de Estados
Unidos. A continuación, presentamos el tiempo que duró cada uno en el puesto. Analice la
información.
a. ¿Cuál es el tiempo típico de servicio?
b. ¿Cuál es la variación en el tiempo de servicio?
c. ¿La distribución presenta algún sesgo?
d. Elabore un diagrama de tallo y hojas.
24. El ingreso personal per cápita por estado (incluido el Distrito de Columbia), en miles de
dólares, es el siguiente.
a. Organice estos datos en una distribución de frecuencias.
b. ¿Cuál es el ingreso per cápita "típico" en un estado?
c. ¿Cuánta variación hay en la información sobre los ingresos?
d. ¿La distribución es simétrica?
e. Resuma sus descubrimientos.
25. A continuación presentamos la edad a la que los 43 presidentes de Estados Unidos tomaron
posesión. Organice los datos en un diagrama de tallo y hojas. Elabore también un diagrama
de puntos. Determine la edad típica en el momento de tomar posesión. Comente sobre la
variación en la edad.
Casos
A Century National Bank señor Dan Selig, presidente y director ejecutivo, quiere cono-
cer las características de las cuentas de cheques de sus
El caso siguiente aparecerá en las secciones de repaso. Su- clientes. ¿Cuál es el saldo de un cliente típico? ¿Cuántos
ponga que usted trabaja en el Departamento de Planeación otros servicios bancarios utilizan los clientes que tienen una
del Century National Bank y que se reporta con la señora cuenta de cheques? ¿Los clientes usan el servicio de
Lamberg. Tendrá que llevar a cabo un análisis de los datos y cajeros automáticos y, si es así, con qué frecuencia? ¿Qué
preparar un breve informe por escrito. Recuerde que el se- sucede con las tarjetas de crédito? ¿Quién las utiliza y con
ñor Selig es el presidente del banco, de modo que usted qué frecuencia?
querrá tener la seguridad de que su informe está completo y Para entender mejor a sus clientes, el señor Selig pidió
de que es exacto. Una copia de la información se encuentra a la señorita Wendy Lamberg, directora de Planeación; que
en el Apéndice N. seleccionara una muestra de clientes y elaborara un informe.
El Century National Bank tiene oficinas en varias ciu- Para empezar, Lamberg formó un equipo entre su personal.
dades del medio oeste y el sureste de Estados Unidos. El Usted es el jefe del equipo y tiene la responsabilidad de
138 Sección 1
preparar el informe, de modo que elige una muestra aleato- Para iniciar el proyecto, el señor Cory St. Julián organizó
ria de 60 clientes. Además del saldo en cada cuenta a fines una junta con su personal y lo invitó a usted. En esta junta,
del mes pasado, usted determina: (1) el número de opera- le sugirieron calcular diversas medidas de ubicación, elabo-
ciones realizadas en el cajero automático el mes pasado; (2) rar gráficas, como una distribución de frecuencia acumulada,
el número de otros servicios bancarios (cuenta de ahorro, y determinar los cuartiles para hombres y mujeres. Elabore
certificados de depósito, etc.) que el cliente utiliza; (3) si el las gráficas y redacte el informe resumiendo los salarios
cliente tiene una tarjeta de débito (éste es un servicio ban- anuales de los empleados de Wildcat Plumbing Supply. ¿Al
cario relativamente nuevo en el cual los cargos se hacen parecer hay alguna diferencia en el pago con base en el
directamente a la cuenta del cliente), y (4) si paga intereses género?
o no en su cuenta de cheques. La muestra incluye clientes
de las sucursales en Cincinnati, Ohio; Atlanta, Georgia; C. Kimble Products: ¿Hay alguna diferencia
Lousville, Kentucky y Erie, Pennsylvania. en las comisiones?
1. Elabore una gráfica o tabla que represente los saldos en
En la junta nacional de ventas que se realizó en enero, al di-
las cuentas de cheques. ¿Cuál es el saldo de un cliente
rector ejecutivo de Kimble Products le hicieron muchas pre-
típico? ¿Muchos clientes tienen más de $2 000 en sus
guntas acerca de la política de la empresa para pagar las
cuentas? ¿Al parecer hay alguna diferencia en la dis-
comisiones a sus representantes de ventas. La compañía
tribución de las cuentas entre las cuatro sucursales?
vende artículos deportivos en dos mercados importantes.
¿Alrededor de qué valor tienden a agruparse los saldos
Hay 40 representantes de ventas que visitan directamente a
de las cuentas?
un gran volumen de clientes, como los departamentos de
2. Determine la media y la mediana de los saldos en las
educación física de las principales universidades y franqui-
cuentas de cheques. Compare la media y la mediana de
cias de artículos deportivos para profesionales. Hay 30 re-
los saldos para las cuatro sucursales. ¿Hay alguna
presentantes de ventas que promueven la compañía ante
diferencia entre las sucursales? No olvide explicar la di
las tiendas detallistas ubicadas en centros comerciales y
ferencia entre la media y la mediana en su reporte.
grandes almacenes de descuento como Kmart y Target.
3. Determine el rango y la desviación estándar de los sal
Al regresar a las oficinas de la empresa, el director ejecu-
dos en las cuentas de cheques. ¿Qué muestran el
tivo pidió al gerente de ventas un informe comparando las
primero y el tercer cuartiles? Determine el coeficiente
comisiones ganadas el año pasado por las dos partes del
de sesgo e indique qué muestra. Como el señor Selig
equipo de ventas. La información se reporta en las siguientes
no maneja estadísticas todos los días, incluya una breve
tablas. Escriba un breve informe. ¿Podría llegar a la conclu-
descripción e interpretación de la desviación estándar y
sión de que hay una diferencia? No olvide incluir información
otras medidas.
sobre la tendencia central y la dispersión de ambos grupos.
B. Wildcat Plumbing Supply, Inc.: ¿Hacemos diferencia
entre los géneros?
Wildcat Plumbing Supply ha cubierto las necesidades de
plomería del suroeste de Arizona durante más de 40 años.
La compañía fue fundada por el señor Terrence St. Julián y
en la actualidad funciona bajo la dirección de su hijo Cory. La
empresa ha crecido, de tener unos cuantos empleados a
más de 500 en la actualidad. A Cory le preocupan varios
puestos en la compañía en los que hombres y mujeres
hacen el mismo trabajo, pero con un pago diferente. Para
investigar, recopiló la información siguiente. Suponga que
usted es un estudiante que hace su servicio social en el
Departamento de Contabilidad y que le asignaron la tarea
de escribir un informe resumiendo la situación.
Estudio de los
conceptos de
probabilidad
Wendy's ofrece una variedad de ocho condimentos en sus hamburguesas. ¿Cuántas maneras
diferentes hay de disfrutar su hamburguesa? (Vea la Meta 3 y el Ejercicio 73.)
140 Capítulo 5
Introducción
Los Capítulos 2,3 y 4 enfatizan la estadística descriptiva. En el Capítulo 2, organizamos en una
distribución de frecuencias los precios de los 80 vehículos vendidos el mes pasado en el lote
Whitner Autoplex de AutoUSA. Esta distribución de frecuencias muestra los precios de venta
más bajo y más alto y el lugar donde ocurre la mayor concentración de datos. En el Capítulo
3, utilizamos las medidas de ubicación y dispersión para encontrar un precio de venta típico y
estudiar la extensión de los datos. Describimos la extensión de los precios de venta con medi-
das de dispersión como el rango y la desviación estándar. En el Capítulo 4, elaboramos dia-
gramas y gráficas, como el diagrama de dispersión, para describir mejor la información.
La estadística descriptiva se ocupa de resumir los datos recopilados de eventos pasa-
dos. Por ejemplo, describimos los precios de venta de los vehículos durante el mes pasa-
do en Whitner Autoplex. Ahora, nos concentraremos en la segunda etapa de la estadística,
el cálculo de la probabilidad de que algo ocurra en el futuro. Esta etapa de la estadística se
llama inferencia estadística o estadística inferencial.
En raras ocasiones, la persona que toma las decisiones tiene la información completa
para hacerlo. Por ejemplo:
¿Qué es probabilidad?
Sin duda, está familiarizado con términos como probabilidad, posibilidad)/ viabilidad, que a
menudo se emplean de manera indistinta. El pronóstico del tiempo anuncia que hay 70%
de probabilidades de lluvia para el domingo del Super Tazón. Con base en una encuesta
entre los consumidores que probaron un nuevo pepinillo con sabor a plátano, la probabili-
dad de que, si se comercializa, sea un éxito financiero es de 0.03. (Esto significa que la po-
sibilidad de que el público acepte un pepinillo con sabor a plátano es muy remota.) ¿Qué
es una probabilidad? En general, es la medida que describe la posibilidad de que algo su-
ceda.
PROBABILIDAD. Valor entre cero y uno, inclusive, que describe la posibilidad (probabi-
lidad o viabilidad) relativa de que ocurra un evento.
Con frecuencia, una probabilidad se expresa con un decimal, como 0.70, 0.27 o 0.50.
Sin embargo, se puede dar como una fracción, como 7/10, 27/100 o 1/2. Puede asumir cual-
quier número de 0 a 1, inclusive. Si una compañía tiene sólo cinco regiones de ventas, y el
nombre o número de cada una está escrito en un pedazo de papel y los papeles se colo-
can en un sombrero, la probabilidad de seleccionar una de las cinco regiones es 1. La pro-
babilidad de seleccionar un pedazo de papel que diga "Acereros de Pittsburgh" es 0. Por
tanto, la probabilidad de 1 representa algo que seguramente va a ocurrir, y la probabilidad
de 0 representa algo que no puede ocurrir.
Cuanto más cerca de 0 esté una probabilidad, más improbable es que el evento suceda.
Cuanto más cerca esté de 1, es más seguro que ocurra. La relación se muestra en el diagra-
ma siguiente, con algunas de nuestras creencias personales. Sin embargo, usted podría se-
leccionar una probabilidad diferente en cuanto a las oportunidades que Slo Poke tiene de
ganar el Derby de Kentucky o en cuanto al aumento de los impuestos federales.
EXPERIMENTO. Proceso que lleva a la ocurrencia de una y sólo una de varias obser-
vaciones posibles.
Esta definición es más general que la que se utiliza en las ciencias físicas, donde ima-
ginamos a alguien manejando tubos de ensaye y microscopios. En relación con la probabi-
lidad, un experimento tiene dos o más resultados posibles, y no sabemos cuál va a ocurrir.
Por ejemplo, lanzar una moneda al aire es un experimento. Puede observar cómo se
lanza, pero no sabe si caerá en "cara" o "cruz". De manera similar, preguntar a 500 estu-
diantes universitarios si comprarían un nuevo sistema de cómputo de Dell a un precio en par-
ticular es un experimento. Si se lanza la moneda, un resultado particular es "cara". El
resultado alternativo es "cruz". En el experimento sobre la compra de una computadora, un
resultado posible es que 273 estudiantes indiquen que comprarían la computadora. Otro re-
sultado es que 317 estudiantes la compren. Otro resultado más sería que 423 estudiantes
dijeran que la van a comprar. La observación de .uno o más de los resultados de un expe-
rimento, se conoce como evento.
En la ilustración siguiente, presentamos algunos ejemplos para explicar mejor las defi-
niciones de los términos experimento, resultado y evento.
En el experimento en el que se tira un dado hay seis resultados posibles, pero existen
muchos eventos posibles. Al contar el número de miembros de la junta de directores de las
compañías Fortune 500 que tienen más de 60 años de edad, el número posible de resulta-
dos puede ser desde cero hasta el número total de miembros. En este experimento, hay un
número posible de eventos todavía más elevado.
Autoevaluación 5-1 Hace poco, Video Games, Inc. desarrolló un nuevo juego de video. Ochenta jugadores vete-
ranos van a probar su potencial en el mercado.
(a) ¿Cuál es el experimento?
(b) ¿Cuál es un resultado posible?
(c) Supongamos que 65 jugadores probaron el nuevo juego y dijeron que les gustaba. ¿Se
senta y cinco es una probabilidad?
(d) La probabilidad de que el nuevo juego sea un éxito se calcula en -1. Comente al respecto.
(e) Especifique un evento posible.
Estudio de los conceptos de probabilidad 143
Probabilidad clásica
La probabilidad clásica se basa en la suposición de que los resultados de un experimento
son igualmente viables. Desde el punto de vista clásico, la probabilidad de que un evento
suceda se calcula dividiendo el número de resultados favorables entre el número de
resultados posibles:
Considere un experimento de tirar un dado con seis lados. ¿Cuál es la probabilidad de que
el evento "la cara en la que hay un número par de puntos quede hacia arriba"?
En el grupo de seis resultados posibles que son igualmente probables hay tres resultados
"favorables" (un dos,, un cuatro y un seis). Por tanto:
Si un experimento tiene un conjunto de eventos que incluye todos los resultados posi-
bles, como los eventos de "un número par" y "un número non" en el experimento al tirar el
dado, el grupo de eventos es colectivamente exhaustivo. En el experimento de tirar el da-
do todos los resultados serán pares o nones. De modo que el conjunto es colectivamente
exhaustivo.
COLECTIVAMENTE EXHAUSTIVO, Por lo menos uno de los eventos debe ocurrir al reali-
zar un experimento.
Suma de probabilidades = 1 Si el conjunto de eventos es colectivamente exhaustivo y los eventos son mutuamente
excluyentes, la suma de las probabilidades es 1. La estrategia clásica para la probabilidad
se desarrolló y aplicó durante los siglos XVII y xvIII en los juegos de azar, como los juegos
de naipes y dados. Es innecesario realizar un experimento para determinar la probabilidad de
que un evento ocurra utilizando la estrategia clásica, debido a que el número total de resul-
tados se conoce antes de hacerlo. Lanzar una moneda tiene dos resultados posibles; tirar
un dado tiene seis resultados posibles. Mediante la lógica, podemos llegar a la probabilidad
de obtener una cruz al lanzar la moneda o tres caras al lanzar tres monedas.
La estrategia clásica para la probabilidad también se puede aplicar en la lotería. En Ca-
rolina del Sur, uno de los juegos de la Lotería Educativa es "Pick 3" (Elige 3). Una persona
compra un billete de lotería y selecciona tres números entre 0 y 9. Una vez a la semana, los
tres números se eligen al azar de una máquina que da vueltas a tres contenedores en los que
hay bolas numeradas del 0 al 9. Una forma de ganar es haber elegido los mismos números
que salen premiados, así como el orden en que están. Debido a que existen 1 000 resulta-
dos posibles (000 a 999), la probabilidad de ganar con cualquier número de tres dígitos es
0.001, o una en 1 000.
Probabilidad empírica
Otra forma de definir la probabilidad se basa en las frecuencias relativas. La probabilidad
de que un evento suceda se determina al observar en qué fracción de tiempo sucedieron
eventos similares en el pasado. En términos de una fórmula:
Para simplificar, podemos utilizar letras o números. P significa probabilidad y, en este caso,
P(A) representa la probabilidad de que una misión futura se lleve a cabo con éxito.
Podemos usar lo anterior como un estimado de la probabilidad. En otras palabras, con ba-
se en la experiencia pasada, la probabilidad de que una misión del transbordador espacial
en el futuro se realice con éxito es 0.98.
Estudio de los conceptos de probabilidad 145
Probabilidad subjetiva
Si existe poca o ninguna experiencia anterior o información sobre la cual basar la probabi-
lidad, podemos llegar a ella en forma subjetiva. En esencia, esto significa que un individuo
evalúa las opiniones disponibles y otra información y después estima o asigna la probabili-
dad. Esta probabilidad se conoce como probabilidad subjetiva.
Autoevaluación 5-2 1. Se va a seleccionar al azar una carta de una baraja estándar de 52 piezas. ¿Cuál es la
probabilidad de que la carta sea una reina? ¿Qué estrategia de probabilidad empleó pa
ra responder esta pregunta?
2. El Centro para el Cuidado del Niño reporta el estado civil de los padres de 539 niños. Hay
333 parejas casadas, 182 divorciadas y 24 padres viudos. ¿Cuál es la probabilidad de que
un niño en particular elegido al azar tenga un padre divorciado? ¿Qué estrategia empleó?
3. ¿Cuál es la probabilidad de que el Promedio Industrial Dow Jones sea mayor de 12 000
en los próximos 12 meses? ¿Qué estrategia de probabilidad utilizó para responder esta
pregunta?
Ejercicios
1. Algunas personas están a favor de reducir los impuestos federales para aumentar los gas
tos del consumidor, y otras están en contra. Se seleccionan dos personas y se registran sus
opiniones. Mencione los resultados posibles.
2. Un inspector de control de calidad selecciona una parte para probarla. La parte se marca co
mo aceptable, susceptible a repararse o desecho. Luego, se prueba otra parte. Mencione
los posibles resultados de este experimento con dos partes.
3. Una encuesta entre 34 estudiantes de Wall College of Business mostró que tienen las si
guientes especializaciones:
a. ¿Cuál es el experimento?
b. Mencione un evento posible.
c. ¿Cuál es la probabilidad de que un conductor en particular haya cometido exactamente
dos violaciones al límite de velocidad?
d. ¿Qué concepto de probabilidad ilustra lo anterior?
9. Los clientes del Bank of America eligen su número de identificación personal (PIN) de tres
dígitos para utilizar los cajeros automáticos.
a. Considere éste un experimentó y mencione cuatro resultados posibles.
b. ¿Cuál es la probabilidad de que el señor Jones y la señora Smith elijan el mismo PIN?
c. ¿Qué concepto de probabilidad utilizó para la respuesta b?
10. Un inversionista compra 100 acciones de AT&T y registra los cambios de precio todos los días.
a. Mencione varios eventos posibles para este experimento.
b. Calcule la probabilidad para cada uno de los eventos que describió en a.
c. ¿Qué concepto de probabilidad empleó en b?
Reglas de adición
Los eventos mutuamente Regla especial de la adición. Para aplicar la regla especial de la adición, los eventos de-
excluyentes no pueden suceder ben ser mutuamente excluyentes. Recuerde que mutuamente excluyente significa que, cuan-
al mismo tiempo. do un evento ocurre, ninguno de los otros puede ocurrir al mismo tiempo. Un ejemplo de
eventos mutuamente excluyentes en el experimento en el que tiramos un dado son "un núme-
ro 4 o mayor" y "un número 2 o menor". Si el resultado se encuentra en el primer grupo [4, 5 y
6], no puede estar también en el segundo [1 y 2]. Otro ejemplo es que un producto que sale de
la línea de ensamblaje no puede estar defectuoso y ser aceptable al mismo tiempo.
Si dos eventos A y B son mutuamente excluyentes, la regla especial de la adición es-
tablece que la probabilidad de que ocurra uno u otro es igual a la suma de sus probabilidades.
La regla se expresa en la fórmula siguiente:
Una máquina Shaw automática llena bolsas de plástico con una mezcla de frijoles, brócoli
y otras verduras. La mayor parte de las bolsas contienen el peso correcto, pero debido a la
variación en el tamaño de los frijoles y otras verduras, un paquete puede
tener mayor o menor peso. Una revisión de 4 000 paquetes que se llena-
ron el mes pasado reveló:
¿Cuál es la probabilidad de que un paquete en particular esté pasado de peso o le falte peso?
Observe que los eventos son mutuamente excluyentes, lo que significa que un paquete de
mezcla de verduras no puede estar pasado de peso, ser satisfactorio y pesar menos al mis-
mo tiempo. Asimismo, son colectivamente exhaustivos; es decir, un paquete seleccionado
sólo puede estar pasado de peso, ser satisfactorio o pesar menos.
Por lógica, la probabilidad de que una bolsa de mezcla de verduras seleccionada pese
menos de lo que debe, P(A), más la probabilidad de que no pese menos, que se escribe
(P(~A) y se lee "no A", debe ser igual a 1. Lo anterior se escribe:
nando la posibilidad de que no suceda y restando a 1 el resultado. Observe que los even-
tos A y -A son mutuamente excluyentes y colectivamente exhaustivos. Por tanto, las pro-
babilidades de A y -A se suman a 1. Un diagrama de Venn que ¡lustra la regla del comple-
mento se muestra así:
Recuerde que la probabilidad de que una bolsa de mezcla de verduras pese menos es
0.025 y que la probabilidad de que pese más es 0.075. Use la regla del complemento para
mostrar que la probabilidad de una bolsa satisfactoria es 0.900. Represente la solución con
un diagrama de Venn.
Autoevaluación 5-3 Una muestra de empleados de Worldwide Enterprises participa en una encuesta sobre un nue-
vo plan de pensión. Los empleados se clasifican como sigue:
leccionó una muestra de 200 turistas que visitaron el estado durante este año. La encues-
ta reveló que 120 turistas fueron a Disney World y 100 a Busch Gardens, cerca de Tampa.
¿Cuál es la probabilidad de que una persona seleccionada haya visitado Disney World o
Busch Gardens? Si se emplea la regla especial de la adición la probabilidad de elegir a un
turista que haya visitado Disney World es 0.60, calculada así: 120/200. De manera similar,
la probabilidad de que un turista visite Busch Gardens es 0.50. La suma de estas dos pro-
babilidades es 1.10. Sin embargo, sabemos que esta probabilidad no puede ser mayor
de 1. La explicación es que muchos turistas visitaron ambas atracciones y se cuentan dos
veces. Una revisión de las respuestas de la encuesta reveló que 60 de cada 200
participantes en la muestra lo hicieron.
Para responder a nuestra pregunta: "¿Cuál es la probabilidad de que una persona se-
leccionada haya visitado Disney World o Busch Gardens?" (1) sume la probabilidad de que
un turista haya visitado Disney World y la posibilidad que haya visitado Busch Gardens y (2)
reste la probabilidad de que haya visitado ambos parques. De esta manera:
P(Disney o Busch) = P(Disney) + P(Busch) - P(Disney y Busch) =
0.60 + 0.50 - 0.30 = 0.80
Cuando ocurren dos eventos, la probabilidad se llama probabilidad conjunta. La po-
sibilidad de que un turista visite las dos atracciones (0.30) es un ejemplo de probabilidad
conjunta.
El siguiente diagrama de Venn muestra dos eventos que no son mutuamente exclu-
yentes. Ambos se superponen para ilustrar el evento conjunto de que algunas personas vi-
sitaron los dos parques.
Estudio de los conceptos de probabilidad 151
Para la expresión P(A o 6), el conectivo o sugiere que puede ocurrir A o puede ocurrir B.
Esto también incluye la posibilidad de que ocurran A y B. El uso del conectivo o en ocasio-
nes se conoce como inclusivo. También podríamos escribir P(A o 6 o ambos) para enfati-
zar el hecho de que la unión de los eventos incluye la intersección de A y B.
Si comparamos las reglas de la adición general y especial, la diferencia que importa es
determinar si los eventos son mutuamente excluyentes. Si lo son, la probabilidad conjunta
P{A y 6) es O y utilizaríamos la regla especial de la adición. De lo contrario, debemos tomar
en cuenta la probabilidad conjunta y usar la regla general de la adición.
¿Cuál es la probabilidad de que una carta elegida de una baraja estándar sea un rey o un
corazón?
Autoevaluación 5-4 Cada año se realizan exámenes físicos de rutina como parte de un programa de servicios de
salud para los empleados de General Concrete, Inc. Se descubrió que 8% de los empleados
necesitan zapatos ortopédicos, 15% requieren de un tratamiento dental y 3% necesitan tanto
zapatos ortopédicos como un tratamiento dental.
(a) ¿Cuál es la probabilidad de que un empleado seleccionado en forma aleatoria necesite
zapatos ortopédicos o tratamiento dental?
(b) Represente esta situación en forma de un diagrama de Venn.
Ejercicios
11. Los eventos A y B son mutuamente excluyentes. Supongamos que P(A) = 0.30 y P(B) =
0.20. ¿Cuál es la probabilidad de que ocurra Ao Bl ¿Cuál es la probabilidad de que no ocu
rran ni A ni 6?
12. Los eventos Xy Y son mutuamente excluyentes. Supongamos que P(X) = 0.05 y P(Y) =
0.02. ¿Cuál es la probabilidad de que ocurra X o Y? ¿Cuál es la probabilidad de que no ocu
rran ni X ni y?
13. Un estudio de 200 cadenas de supermercados reveló estos ingresos después de impuestos:
a. ¿Cuál es la probabilidad de que una cadena en particular tenga menos de 1 000 000 de
dólares en ingresos después de impuestos?
b. ¿Cuál es la probabilidad de que una cadena seleccionada en forma aleatoria tenga un in
greso entre $1 000 000 y $20 000 000, o un ingreso de $20 000 000 o más? ¿Qué regla
de probabilidad se aplicó?
14. El presidente de la junta de directores dice: "Hay una probabilidad de 50% de que esta com
pañía obtenga una ganancia, de 30% de que quede igual y de 20% de que pierda dinero du-
rante el próximo trimestre."
a. Utilice la regla de la adición para calcular la probabilidad de que no pierdan dinero el pró-
ximo trimestre.
b. Use la regla del complemento para calcular la probabilidad de que no pierdan dinero el
próximo trimestre.
15. Suponga que la probabilidad de que obtenga una calificación A en esta clase es de 0.25 y
la probabilidad de que obtenga una B es de 0.50. ¿Cuál es la probabilidad de que su califi
cación sea superior a C?
16. Se lanzan al aire dos monedas. Si A es el evento "dos caras" y B es el evento "dos cruces",
¿A y 8 son mutuamente excluyentes? ¿Son complementarios?
17. Las probabilidades de los eventos A y 6 son 0.20 y 0.30, respectivamente. La probabilidad
de que ocurran A y B es 0.15. ¿Cuál es la probabilidad de que ocurra A o S?
18. Supongamos que P(X) = 0.55 y P(Y) = 0.35, y que la probabilidad de que ambos ocurran es
0.20. ¿Cuál es la probabilidad de que ocurra Xo Y?
19. Suponga que dos eventos, A y B, son mutuamente excluyentes. ¿Cuál es la probabilidad de
su ocurrencia conjunta?
20. Un estudiante toma dos cursos, historia y matemáticas. La probabilidad de que el estudian
te pase el curso de historia es 0.60, y que la probabilidad de que apruebe el curso de mate
máticas es 0.70. La posibilidad de que apruebe ambos es 0.50. ¿Cuál es la probabilidad de
que pase por lo menos uno?
21. Una encuesta entre altos ejecutivos reveló que 35% de ellos leen la revista Time en forma
regular, 20% leen Newsweek y 40% leen U.S. News and World Repon. Además, 10% leen
tanto Time como U.S. News and World Report.
a. ¿Cuál es la probabilidad de que un alto ejecutivo en particular lea Time o U.S. News and
World Report en forma regular?
Estudio de los conceptos de probabilidad 153
Reglas de la multiplicación
Cuando utilizamos las reglas de la adición, encontramos la probabilidad de combinar dos even-
tos. Los diagramas de Venn ilustran esto como la "unión" de dos eventos. En esta sección, en-
contramos la posibilidad de que dos eventos sucedan. Por ejemplo, tal vez una empresa de
mercadotecnia quiera calcular la probabilidad de que una persona de 21 años o más compre
un Hummer. Los diagramas de Venn ilustran lo anterior como la intersección de dos eventos.
Para encontrar la probabilidad de que sucedan dos eventos, utilizamos las reglas de la multi-
plicación. Hay dos reglas de este tipo: la Regla especial y la Regla general de la multiplicación.
Regla especial de la multiplicación. Esta regla requiere de que dos eventos A y B sean
independientes. Dos eventos son independientes si la ocurrencia de uno de ellos no altera
la probabilidad de la ocurrencia del otro.
P{Ay By C) = P(A)P{B)P(C)
Una encuesta realizada por la American Automobile Association (AAA) reveló que 60% de
sus miembros hicieron alguna reservación en una línea aérea el año pasado. Se seleccio-
naron dos miembros en forma aleatoria. ¿Cuál es la probabilidad de que ambos hayan he-
cho una reservación en una línea aérea el año pasado?
La probabilidad de que el primer miembro haya hecho una reservación en una línea aérea
el año pasado es 0.60, que se expresa P(R,) = 0.60, donde R, se refiere al hecho de que el
primer miembro hizo una reservación. La probabilidad de que el segundo miembro selec-
cionado haya hecho una reservación también es 0.60, de modo que P{R2) = 0.60. Como el
número de miembros en AAA es muy elevado, podemos suponer que ñ, y ñ2 son indepen-
154 Capítulo 5
dientes. Como consecuencia, utilizando la fórmula (5-5), la probabilidad de que ambos hi-
cieran una reservación es 0.36, que calculamos así:
Todos los resultados posibles se pueden mostrar como sigue. R significa que se hizo una
reservación, y NR significa que no se hizo ninguna reservación.
Con las probabilidades y la regla del complemento, podemos calcular la probabilidad
conjunta de cada resultado. Por ejemplo, la probabilidad de que ninguno "de los miembros
haga una reservación es 0.16. Además, la probabilidad de que el primero o segundo miem-
bro (regla especial de la adición) haga una reservación es 0.48 (0.24 + 0.24). También pue-
de observar que los resultados son mutuamente excluyentes y colectivamente exhaustivos.
Por tanto, las probabilidades suman 1.00.
Autoevaluación 5-5 Por sus experiencias, Tetón Tire sabe que la probabilidad de que su llanta XB-70 dure 60 000
millas antes de que quede lisa o falle es de 0.80. A cualquier llanta que no dura 60 000 millas
se le realiza un ajuste. Usted compra cuatro llantas XB-70. ¿Cuál es la probabilidad de que
las cuatro duren por lo menos 60 000 millas?
PROBABILIDAD. Valor entre cero y uno, inclusive, que describe la posibilidad (probabi-
lidad o viabilidad) relativa de que ocurra un evento.
Para ¡lustrar la fórmula, regresemos al problema de los 10 rollos en una caja, 3 de los cua-
les están defectuosos. Se van a seleccionar dos rollos, uno después de otro. ¿Cuál es la
probabilidad de elegir un rollo defectuoso y después otro rollo defectuoso?
Se supone que este experimento se realizó sin reemplazo; es decir, el primer rollo de-
fectuoso de película no se regresó a la caja antes de seleccionar el siguiente. También de-
bemos hacer notar que la regla general de la multiplicación se puede ampliar a más de dos
eventos. Para tres eventos, A, B y C, la fórmula sería:
Para ilustrar, la probabilidad de que los tres primeros rollos seleccionados de la caja sean
defectuosos es 0.00833, que se calculó así:
Autoevaluación 5-6 La junta de directores de Tarbell Industries consiste en ocho hombres y cuatro mujeres. De
entre ellos, se debe elegir al azar un comité de búsqueda de cuatro miembros para buscar en
todo el país un nuevo presidente para la compañía.
(a) ¿Cuál es la probabilidad de que los cuatro miembros del comité de búsqueda sean mujeres?
(b) ¿Cuál es la probabilidad de que los cuatro miembros sean hombres?
(c) ¿La suma de las probabilidades de los eventos descritos en las partes (a) y (b) es igual
a 1? Explique su respuesta.
156 Capítulo 5
Tablas de contingencias
A menudo, los resultados de una encuesta se ordenan en una tabla de dos direcciones y
utilizamos los resultados para determinar las diversas probabilidades. Describimos esta
idea a partir de la página 119 en el Capítulo 4. Para revisar, consultamos una tabla en dos
direcciones como tabla de contingencias.
Una tabla de contingencias es una tabulación cruzada que resume al mismo tiempo dos va-
riables de interés y su relación. El nivel de medición puede ser nominal. A continuación, pre-
sentamos varios ejemplos.
• Una encuesta entre 150 adultos clasificados de acuerdo con su género y por el número
de películas que vieron en el cine la semana pasada. Cada entrevistado sé clasifica
tomando en cuenta dos criterios: el número de películas y el género.
De acuerdo con esta tabla, cada uno de los 3000 entrevistados se clasifica según dos cri-
terios: (1) edad y (2) cantidad de café consumido.
El ejemplo siguiente muestra la forma en que se aplican las reglas de la adición y la
multiplicación al utilizar tablas de contingencias.
Observe que los dos eventos ocurren al mismo tiempo: el ejecutivo seguirá con la empre-
sa y tiene más de 10 años de servicio.
Estudio de los conceptos de probabilidad 157
Para encontrar la probabilidad de seleccionar un ejecutivo que siga con la compañía o ten-
ga menos de un año de experiencia, usamos la regla general de la adición, fórmula (5-4).
Autoevaluación 5-7 Consulte la Tabla 5-1 para encontrar las probabilidades siguientes.
(a) ¿Cuál es la probabilidad de seleccionar un ejecutivo con más de 10 años de servicio?
(b) ¿Cuál es la probabilidad de seleccionar a un ejecutivo que no permanecería en la empre
sa, debido a que tiene más de 10 años de servicio?
(c) ¿Cuál es la probabilidad de seleccionar a un ejecutivo con más de 10 años de servicio o
a uno que no permanecería en la empresa?
158 Capítulo 5
Diagramas de árbol
El diagrama de árbol es una gráfica que resulta útil para organizar los cálculos que com-
prenden varias etapas. Cada segmento en el árbol es una etapa del problema. Las ramas
de un diagrama de árbol se ponderan por medio de probabilidades. Todavía usaremos los
datos de la Tabla 5-1 para mostrar la elaboración de un diagrama de árbol.
Pasos en la elaboración de un 1. Para construir un diagrama de árbol, empezamos por dibujar un punto grueso del lado
diagrama de árbol. izquierdo para representar la raíz del árbol (véase el Diagrama 5-2).
2. Para este problema, dos ramas principales salen de la raíz, la superior representa "per
manecería" y la inferior "no permanecería". Sus probabilidades están escritas en las ra
mas: 120/200 y 80/200. Éstas también se podrían expresar: P(A) y P(~A).
3. Cuatro ramas "crecen" de cada una de las dos ramas principales. Éstas representan el
tiempo de servicio: menos de un año, 1 a 5 años, 6 a 10 años y más de 10 años. Las
probabilidades condicionales para la rama superior del árbol, 10/120, 30/120, 5/120, et
cétera, están escritas en las ramas apropiadas. Éstas son P(B1|A1), P{B2|A1), P(B3 |A1)
y P(B4|A1), donde 61 se refiere a menos de un año de servicio, B2 de 1 a 5 años, B3 de
6 a 10 años y B4 a más de 10 años. A continuación, escribimos las probabilidades con
dicionales para la rama inferior.
Estudio de los conceptos de probabilidad 159
4. Por último, las probabilidades conjuntas, de que los eventos A1 y B! o los eventos ~A y
B¡ ocurran juntos, se muestran del lado derecho. Por ejemplo, la probabilidad conjunta
de seleccionar al azar a un ejecutivo que permanecería en la compañía y que tiene me-
nos de un año de servicio, a partir de la fórmula (5-6), es:
Como las probabilidades conjuntas representan todos los resultados posibles (per-
manecería, 6 a 10 años de servicio; no permanecería, más de 10 años de servicio,
etc.), deben sumar 1 (véase la Gráfica 5-2).
Autoevaluación 5-8 Se entrevistó a algunos consumidores sobre el número relativo de visitas a una tienda Circuit
City (a menudo, en forma ocasional y nunca) y si la tienda tenía una ubicación conveniente
(sí y no). Cuando las variables se miden en forma nominal, como la ubicación conveniente; u
ordinal, como la frecuencia de visitas, los datos se pueden presentar y resumir en una fre-
cuencia en dos direcciones o una tabla de contingencia.
Ejercicios
23. Suponga que P(A) = 0.40 y P(B|A) = 0.30. ¿Cuál es la probabilidad conjunta de A y B?
24. Suponga que P(X1) = 0.75 y P(Y2|X1) = 0.40. ¿Cuál es la probabilidad conjunta de X1 y Y2?
25. Un banco local reporta que 80% de sus clientes tienen una cuenta de cheques, 60% tienen
una cuenta de ahorros y 50% tienen ambos tipos de cuenta. Si elegimos un cliente al azar,
¿cuál es la probabilidad de que tenga una cuenta de cheques o de ahorro? ¿Cuál es la pro
babilidad de que el cliente no tenga ni cuenta de cheques ni de ahorro?
26. All Seasons Plumbing tiene dos camiones de servicio que se descomponen con frecuencia.
Si la probabilidad de que el primer camión esté disponible es 0.75, la probabilidad de que el
segundo esté disponible es 0.50 y la probabilidad de que ambos estén disponibles es 0.30,
¿cuál es la probabilidad de que ninguno esté disponible?
27. Consulte la tabla siguiente.
160 Capítulo 5
a. Determine P(A1).
b. Determine P(B1 | A1).
c. Determine P(B2 y A3).
28. Cleanbrush Products envió por accidente tres cepillos de dientes eléctricos defectuosos a
una farmacia, con 17 cepillos que no estaban defectuosos.
a. ¿Cuál es la probabilidad de que la farmacia devuelva los primeros dos cepillos que se
vendan por estar defectuosos?
b. ¿Cuál es la probabilidad de que los dos primeros cepillos de dientes vendidos no estén
defectuosos?
29. Cada uno de los vendedores de Stiles-Compton obtiene una calificación de superior al pro
medio, promedio o inferior al promedio en cuanto a su habilidad para las ventas. Cada uno
obtiene también una calificación por su potencial para avanzar: aceptable, bueno o excelen-
te. Estas calificaciones para los 500 vendedores se clasificaron en la tabla siguiente.
Teorema de Bayes
En el siglo XVIII, el reverendo Thomas Bayes, ministro inglés de la iglesia presbiteriana, pon-
deró esta situación: ¿En verdad existe Dios? Como se interesaba por las matemáticas, desa-
rrolló una fórmula para llegar a la probabilidad de que Dios existe, con base en las evidencias
a su alcance en la tierra. Posteriormente, Laplace detalló el trabajo de Bayes y le dio el nom-
bre de "Teorema de Bayes". En forma práctica, el teorema de Bayes es:
Estudio de los conceptos de probabilidad 161
Por tanto, la probabilidad anterior de que una persona no padezca la enfermedad es 0.95,
o P(A2) = 0.95, calculada así: 1 - 0.05.
Hay una técnica de diagnóstico para detectar la enfermedad, pero no es muy precisa.
Supongamos que B indica el evento "las pruebas demuestran que la enfermedad está pre-
sente". Supongamos también que las evidencias históricas demuestran que si una persona
tiene la enfermedad, la probabilidad de que la prueba indique su presencia es de 0.90. Uti-
lizando las definiciones de la probabilidad condicional que manejamos antes en este capí-
tulo, esta afirmación se expresa como:
Suponga que la probabilidad es 0.15 de que una persona que en realidad no tiene la enfer-
medad la prueba indicará la presencia de ésta.
Con la ayuda del teorema de Bayes, la fórmula (5-7), es posible determinar la probabi-
lidad a posteriori.
De modo que la probabilidad de que una persona tenga la enfermedad, debido a que la
prueba dio positivo, es 0.24. ¿Cómo se interpreta el resultado? Si se selecciona una perso-
na al azar entre la población, la probabilidad de que padezca la enfermedad es 0.05. Si la
persona se somete a la prueba y el resultado es positivo, la probabilidad de que realmente
esté enferma aumenta cinco veces, de 0.05 a 0.24.
162 Capítulo 5
Con el cambio anterior, los cálculos para el problema de Umen se resumen en la tabla
siguiente.
Un fabricante de videorre-
productoras de cásete (VCR)
compra un microchip en
particular, llamado LS-24, a
tres proveedores: Hall Elec-
tronics, Schuller Sales y
Crawford Components. 30% de
los chips LS-24 se compran a
Hall Electronics, 20% a Schuller
Sales y el 50% restante a
Crawford Components. El
fabricante tiene registros de los
tres fabricantes y sabe que 3%
de los chips de Hall Electronics
están defectuosos, 5% de los
chips de Schuller Sales tienen
defectos y 4% de los chips
Como primer paso, vamos a resumir parte de la información que proporciona el plantea-
miento del problema.
Se selecciona un chip del depósito. Como el proveedor no identifica los chips, no esta-
mos seguros de qué proveedor lo fabricó. Queremos determinar la probabilidad de que
el chip defectuoso sea de Schuller Sales. La probabilidad se expresa
Éste es el mismo resultado obtenido con el Diagrama 5-3 y con la tabla de la probabilidad
condicional.
Ejercicios
Utilice el teorema de Bayes
para determinar
Estudio de los conceptos de probabilidad 165
34. P(A1) = 0.20, P(A2) = 0.40 y P(A3) = 0.40. P(B1 |A1) = 0.25, P(B1| A2) = 0.05 y P(B1 |A3) = 0.10.
Utilice el teorema de Bayes para determinar P(A3 | B1).
35. El equipo de béisbol Gatos Salvajes de Ludlow, un equipo de liga menor de la organización de
los Indios de Cleveland, juega 70% de sus partidos por la noche y 30% durante el día. El equi-
po gana 50% de sus partidos nocturnos y 90% de los que juega en el día. Según el periódico
de hoy, ganaron ayer. ¿Qué probabilidad hay de que el partido se haya jugado por la noche?
36. La doctora Stallter ha enseñado estadística básica durante varios años. Sabe que 80% de
los estudiantes terminan los problemas asignados. También determinó que entre aquéllos
que hacen las tareas, 90% aprueban el curso. Entre los alumnos que no hacen su tarea,
60% aprueban..El semestre pasado, Mike Fishbaugh tomó clases de estadística con la doc-
tora Stallter y obtuvo una calificación aprobatoria. ¿Qué probabilidad hay de que haya ter-
minado sus tareas?
37. El departamento de crédito de Lion's Department Store en Anaheim, California, reportó que
30% de sus ventas se pagan en efectivo, 30% con cheque en el momento de la compra y
40% con cargo a la tarjeta de crédito. Veinte por ciento de las compras en efectivo, 90% de
las que se pagan con cheque y 60% de las que se cargan a la tarjeta son por más de $50.
La señorita Tina Stevens sólo compró un vestido nuevo que cuesta $120. ¿Cuál es la pro
babilidad de que haya pagado en efectivo?
38. Una cuarta parte de los residentes de Burning Ridge Estates dejan abierta la puerta de la
cochera cuando no están en casa. El jefe de policía calcula que en 5% de las cocheras con
la puerta abierta habrá algún robo, pero en sólo 1% de las cocheras que tienen la puerta
abierta habrá algún robo. Si hay un robo en una cochera, ¿qué probabilidad hay de que las
puertas hayan estado abiertas?
Principios de conteo
Si el número de resultados posibles en un experimento es bajo, contarlos será relativamente
fácil. Hay seis resultados posibles, por ejemplo, que se presentan al tirar un dado: .
No obstante, si hay gran cantidad de resultados posibles, como el número de caras y cruces
para un experimento en que una moneda se lanza 10 veces, sería tedioso contar todas las
posibilidades. Podrían ser sólo caras, una cara y nueve cruces, dos caras y ocho cruces, etc.
Para facilitar el conteo, vamos a analizar tres fórmulas: la fórmula de la multiplicación (que
no debemos confundir con la regla de la multiplicación que describimos anteriormente en es-
te capítulo), la fórmula de la permutación y la fórmula de la combinación.
La fórmula de la multiplicación
Un distribuidor automotriz quiere anunciar que con $29 999 es posible comprar un modelo
convertible, de dos puertas o de cuatro puertas y elegir si desea riñes de rayos o planos.
¿Cuántos arreglos diferentes de modelos y riñes puede ofrecer el distribuidor?
166 Capítulo 5
En este ejemplo no fue difícil contar todos los arreglos de modelos y riñes. Sin embargo,
pensemos que el distribuidor decidió ofrecer ocho modelos y seis tipos de riñes. Sería tedioso
ilustrar y contar todas las alternativas posibles. En vez de ello, se puede usar la fórmula de la
multiplicación. En este caso, hay (m)(n) = (8)(6) = 48 arreglos posibles.
En las aplicaciones anteriores de la fórmula de la multiplicación, observe que hay dos
o más agrupaciones de las cuales se hicieron selecciones. El distribuidor automotriz, por
ejemplo, ofreció un arreglo de modelos y un arreglo de riñes. Si un constructor de casas le
ofreciera cuatro estilos exteriores de donde elegir y tres planos de interiores, la fórmula de
la multiplicación se usaría para encontrar cuántos arreglos son posibles. La respuesta es
que hay 12 posibilidades.
Autoevaluacíón 5-10 1. Un detallista de ropa en Internet ofrece suéteres y pantalones para dama. Los suéteres
y pantalones se ofrecen en colores coordinados. Si hubiera suéteres en cinco colores y
pantalones en cuatro, ¿cuántos arreglos diferentes se podrían anunciar?
2. Pioneer fabrica tres modelos de aparatos estéreo, dos reproductores de cintas, cuatro
bocinas y tres carruseles de CD. Cuando los cuatro tipos de componentes se venden jun
tos, forman un "sistema". ¿Cuántos sistemas diferentes puede ofrecer la empresa de
electrónica?
La fórmula de la permutación
Como dijimos antes, la fórmula de la multiplicación se aplica para calcular el número de
arreglos posibles para dos o más grupos. La fórmula de la permutación se aplica para en-
contrar el número posible de arreglos cuando sólo hay un grupo de objetos. Para ilustrar es-
te tipo de problema:
Estudio de los conceptos de probabilidad 167
• Tres partes electrónicas se van a armar en una unidad complementaria para un televi-
sor. Las partes se pueden armar en cualquier orden. La duda es: ¿de cuántas mane
ras diferentes se pueden armar las tres partes?
• El operador de una máquina debe realizar cuatro revisiones de seguridad antes de en-
cenderla. No importa en qué orden las haga. ¿En cuántas formas el operador puede
hacer las revisiones?
El orden para la primera ilustración podría ser: primero el transistor, en segundo lugar las
LED y en tercero el sintetizador. A esta distribución se le conoce como permutación.
donde:
p es el número de permutaciones.
n es el número total de objetos.
r es el número de objetos seleccionados.
Antes de resolver los dos problemas que ilustramos, observe que las permutaciones y
combinaciones (que estudiaremos en breve) utilizan una notación llamada n factorial. Se
expresa como n! y significa el producto de n(n - 1)(n -2)(n -3)...(1). Por ejemplo, 5! = 5 ▪
4 ▪ 3 ▪ 2 ▪1 = 120.
Como se muestra a continuación, los números se pueden cancelar cuando los mismos
números se incluyen en el numerador y el denominador.
Refiriéndonos al grupo de tres partes electrónicas que se van a armar en cualquier orden,
¿de cuántas formas diferentes se pueden armar?
Hay tres partes electrónicas que se tienen que armar, de modo que n = 3. Como las tres se tie-
nen que insertar en la unidad complementaria, r= 3. La solución utilizando la fórmula (5-9) da:
Las seis maneras de distribuir las tres partes electrónicas, con las letras A, B, C, son:
168 Capítulo 5
The Betts Machine Shop, Inc., tiene ocho tornos, pero sólo tres espacios en el área de pro-
ducción disponibles para las máquinas. ¿De cuántas maneras diferentes se pueden distri-
buir los ocho tornos en los tres espacios disponibles?
Hay ocho posibilidades para el primer espacio disponible en el área de producción, siete pa-
ra el segundo (una ya se utilizó) y seis para el tercero. Por tanto:
es decir, hay un total de 336 combinaciones posibles. Este resultado también se podría cal-
cular utilizando la fórmula (5-9). Si n = 8 tornos y r= 3 espacios disponibles, la fórmula nos
lleva a
Fórmula de la combinación
Si el orden de los objetos seleccionados no es importante, a cualquier selección se le llama
combinación. La fórmula para contar el número de r combinaciones de objetos en un con-
junto de n objetos es:
Por ejemplo, si los ejecutivos Able, Baker y Chauncy se van a elegir como un comité para
negociar una fusión, sólo hay una combinación posible con estos tres; el comité de Able,
Baker y Chauncy es el mismo que el comité de Baker, Chauncy y Able. Utilizando la fórmu-
la de la combinación:
El departamento de mercadotecnia tiene la tarea de designar los códigos de color para las
42 distintas líneas de discos compactos que vende Goody Records. En cada CD se van a
usar tres colores, pero una combinación que se utilizó para un CD no se puede reordenar
y usarse para identificar un CD diferente. Esto significa que los colores verde, amarillo y vio-
leta se utilizaron para identificar una línea, el amarillo, el verde y el violeta (o cualquier com-
binación de estos tres colores) no se pueden usar para identificar otra línea. ¿Siete colores
en combinaciones de tres serían adecuados para marcar con código de color las 42 líneas?
Los siete colores tomados en combinaciones de tres (es decir, tres colores para una línea)
no serían adecuados para marcar con código de colores las 42 líneas diferentes porque sólo
ofrecen 35 combinaciones. Ocho colores en combinaciones de tres darían 56 combina-
ciones diferentes, y serían más adecuados para marcar las 42 líneas.
Estudio de los conceptos de probabilidad 169
A continuación, se muestra el resultado para los códigos de color en Goody Records, Inc.
Se eligieron tres colores entre los siete posibles. El número de combinaciones posibles es 35.
Autoevaluación 5-1-1 1. Un músico quiere escribir una escala basada en sólo cinco acordes: B plano, C, D, E y
G. Sin embargo, sólo tres de los cinco acordes se van a usar en sucesión, como C, B pla
no y E. No se permiten las repeticiones como B plano, B plano y E.
(a) ¿Cuántas permutaciones de los cinco acordes, tomados en combinaciones de tres,
son posibles?
(b) Utilizando la fórmula (5-9), ¿cuántas permutaciones son posibles?
2. El operador de una máquina debe realizar cuatro revisiones de seguridad antes de em
pezar a utilizarla. No importa en qué orden se lleven a cabo las revisiones. ¿En cuántas
formas diferentes el operador puede hacer las revisiones?
3. Los 10 números del 0 al 9 se van a utilizar en grupos de códigos de cuatro para identifi
car una prenda de vestir. El código 1083 podría identificar una blusa azul, talla mediana;
el código 2031 podría identificar a. un par de pantalones, talla 18; y así sucesivamente.
No se permiten las repeticiones de los números. Es decir, no se puede usar el mismo nú
mero dos veces (o más) en una secuencia total. Por ejemplo, no se permiten cifras co
mo 2256, 2562 o 5559. ¿Cuántos grupos de código diferentes se pueden asignar?
4. En el ejemplo anterior sobre Goody Records, dijimos que ocho colores en combinaciones
de tres darían 56 combinaciones diferentes.
(a) Utilice la fórmula (5-10) para mostrar que es cierto.
(b) Como un plan alternativo para codificar con color las 42 líneas diferentes, se sugirió
que sólo se usen dos colores en un disco. ¿Diez colores serían adecuados para co
dificar las 42 líneas diferentes? (Una vez más, una combinación de dos colores se
podría usar una sola vez; es decir, si el rosa y el azul son los códigos para una línea,
el azul y el rosa no se podrían utilizar para identificar una línea diferente.)
5. En un juego de lotería, se seleccionan tres números en forma aleatoria de una tómbola
con bolas numeradas del 1 al 50.
(a) ¿Cuántas permutaciones son posibles?
(b) ¿Cuántas combinaciones son posibles?
170 Capítulo 5
Ejercicios
B. La regla general de la adición se usa cuando los eventos no son mutuamente excluyentes.
C. Una probabilidad conjunta es la posibilidad de que dos o más eventos ocurran al mismo
tiempo.
Estudio de los conceptos de probabilidad 171
VIl. Hay tres reglas para contar que son útiles al determinar el número de resultados en un ex-
perimento.
A. La regla de la multiplicación establece que si hay m formas en que un evento puede su-
ceder y n formas en las que otro evento puede ocurrir, hay mn formas en las que dos
eventos pueden suceder.
Clave de pronunciación
58. Barry Bonete, de los Gigantes de San Francisco, tuvo el promedio de bateo más alto en la tem
porada 2002 de la Liga Mayor de Béisbol. Su promedio fue 0.370. Suponga que la probabilidad
de lograr un hit es de 0.370 cada vez que batea, y en un juego en particular bateó tres veces.
a. ¿A qué tipo de probabilidad se refiere este ejemplo?
b. ¿Cuál es la probabilidad de lograr tres hits en un juego en particular?
c. ¿Cuál es la probabilidad de que no logre ningún hit en un juego?
d. ¿Cuál es la probabilidad de que logre por lo menos un hit?
59. La probabilidad de que un bombardero dé en el blanco en una misión en particular es 0.80.
Se envían cuatro bombarderos contra el mismo blanco. ¿Cuál es la probabilidad
a. de que todos den en el blanco?
b. de que ninguno dé en el blanco?
c. de que por lo menos uno dé en el blanco?
60. Se van a graduar 90 estudiantes en el Lima Shawnee High School esta primavera. De los
90 estudiantes, 50 planean asistir a la universidad. Se van a escoger dos estudiantes al azar
para que porten las banderas en la graduación.
a. ¿Cuál es la probabilidad de que ambos planeen asistir a la universidad?
b. ¿Cuál es la probabilidad de que uno de los dos estudiantes planee asistir a la universidad?
61. Brooks Insurance, Inc. quiere ofrecer seguros de vida a los hombres de 60 años a través de
Internet. Las tablas de mortalidad indican que la probabilidad de que un hombre de 60 años
sobreviva otro año es de 0.98. Si la póliza se ofrece a cinco hombres de 60 años:
a. ¿Cuál es la probabilidad de que los cinco hombres sobrevivan un año?
b. ¿Cuál es la probabilidad de que por lo menos uno de ellos sobreviva?
62. De las casas construidas en el área de Quail Creek, 40% incluyen un sistema de seguridad.
Se seleccionan tres casas en forma aleatoria:
a. ¿Cuál es la probabilidad de que las tres casas seleccionadas tengan un sistema de se
guridad?
b. ¿Cuál es la probabilidad de que ninguna de las tres casas tenga un sistema de seguridad?
c. ¿Cuál es la probabilidad de que por lo menos una de las tres casas tenga un sistema
de seguridad?
d. ¿Supone que los eventos sean dependientes o independientes?
63. Vea el ejercicio 62, pero suponga que hay 10 casas en el área de Quail Creek y cuatro de
ellas tienen un sistema de seguridad. Se seleccionan tres casas al azar:
a. ¿Cuál es la probabilidad de que las tres casas tengan un sistema de seguridad?
b. ¿Cuál es la probabilidad de que ninguna de las tres tenga un sistema de seguridad?
c. ¿Cuál es la probabilidad de que por lo menos una de ellas tenga un sistema de seguridad?
d. ¿Supone que los eventos son dependientes o independientes?
64. Un malabarista tiene una bolsa que contiene cuatro bolas azules, tres bolas verdes, dos bo
las amarillas y una bola roja. El malabarista elige una bola al azar. Luego, sin devolver la an
terior, elige una segunda bola. ¿Cuál es la probabilidad de que el malabarista tome primero
una bola amarilla y luego una azul?
65. La junta de directores de Saner Automatic Door Company consiste en 12 miembros, 3 de
los cuales son mujeres. Se van a escribir una nueva política y un manual de procedimientos
para la compañía. Un comité de 3 de la junta se seleccionó al azar para realizar estos tra
bajos.
a. ¿Cuál es la probabilidad de que todos los miembros del comité sean hombres?
b. ¿Cuál es la probabilidad de que por lo menos uno de los miembros sea mujer?
66. Una encuesta entre los estudiantes del último año de la Facultad de Administración de North
ern University reveló lo siguiente en cuanto al género y el área de estudio de los alumnos:
nentes, A y 6.) Suponga que los dos componentes son independientes. ¿Cuál es la proba-
bilidad de que el sistema funcione en estas condiciones? La probabilidad de que A funcio-
ne es 0.90 y la probabilidad de que B funcione también es 0.90.
85. Horwege Electronics, Inc. compra tubos de televisión a cuatro proveedores diferentes. Ty
son Wholesale proporciona 20% de los tubos, Fuji Importers 30%. Kirkpatricks 25% y Parts,
Inc. 25%. Tyson Wholesale suele ofrecer la mejor calidad, ya que sólo 3% de sus tubos es
tán defectuosos. El 4% de los tubos de Fuji Importers tienen algún defecto, el 7% los de Kirk-
patrick y 6.5% los de Parts, Inc.
a. ¿Cuál es el porcentaje general de tubos defectuosos?
b. En el último envío se encontró un tubo defectuoso. ¿Cuál es la probabilidad de que sea
de Tyson Wholesale?
86. ABC Auto Insurance clasifica a los conductores como buenos, intermedios y malos. Los con
ductores que solicitan un seguro pertenecen a uno de estos tres grupos en las siguientes
proporciones: 30%, 50% y 20%, respectivamente. La probabilidad de que un "buen" conduc
tor tenga un accidente es de 0.01, de un conductor "intermedio" es 0.03 y de un conductor
"malo" es 0.10. La compañía le vende al señor Brophy una póliza de seguros y éste tiene un
accidente. ¿Cuál es la probabilidad de que el señor Brophy sea:
a. un "buen" conductor? b. un conductor "intermedio"? c. un "mal" conductor?
exercises.com
87. Durante la década de 1970, el programa de juegos Let's Make a Deal tuvo mucho éxito en la
televisión. En el programa, a un concursante se le daban a elegir tres puertas, detrás de una
de las cuales había un premio. Las otras dos contenían un regalo de broma. Después de que
el concursante elegía una puerta, el conductor del programa revelaba el contenido de una de
las puertas que no había elegido, y preguntaba al concursante si quería cambiar de opinión.
¿El concursante debía cambiar? ¿Al cambiar de puerta, aumentaban las probabilidades de
ganar?
Visite el siguiente sitio Web, que está administrado por el Departamento de Estadística de
la Universidad de Carolina del Sur, y ponga a prueba su estrategia: http://www.stat.sc.edu/ -
west/applets/LetsMakeaDeal.html; visite el siguiente sitio Web y lea sobre las probabilidades
para el juego: http://www.stat.sc.edu/-Avest/javahtml/LetsMakeaDeal.html. ¿Su estrategia fue
correcta?
más, y aquellos que ganaron 80 o menos. A continuación, cree una nueva variable para la
asistencia, utilizando tres categorías; asistencia de menos de 2.0 millones, asistencia de 2.0
a 3.0 millones y asistencia de 3.0 millones o más.
a. Elabore una tabla que muestre el número de equipos con una temporada ganadora en
comparación con aquéllos que perdieron la temporada, según las tres categorías de
asistencia. Si selecciona un equipo al azar, calcule las probabilidades siguientes:
(1) Que tenga una temporada ganadora.
(2) Que tenga una temporada ganadora o una asistencia de más de 3.0 millones.
(3) Dada una asistencia de más de 3.0 millones, que tenga una temporada ganadora.
(4) Que tenga una temporada perdedora y una asistencia de menos de 2.0 millones.
b. Elabore una tabla que muestre el número de equipos que juegan en superficies artifi-
ciales y naturales según los récords de ganadores y perdedores. Si se selecciona un
equipo al azar, calcule las probabilidades siguientes:
(1) De seleccionar un equipo cuyo campo tenga una superficie natural.
(2) ¿La probabilidad de elegir un equipo con un récord ganador es más alta para los
equipos con superficies naturales o artificiales?
(3) De tener un récord ganador o jugar en una superficie artificial.
90. Consulte el conjunto de datos Wage, que proporciona información sobre los sueldos anua-
les para una muestra de 100 trabajadores. También se incluyen las variables relacionadas
con la industria, los años de educación y el género de cada trabajador. Elabore una tabla
que muestre la industria de empleo por género. Se selecciona un trabajador al azar; calcule
la probabilidad de que la persona elegida sea:
a. Mujer.
b. Mujer o trabaje en la manufactura.
c. Mujer dado que la persona seleccionada trabaja en la fabricación.
d. Mujer y trabaja en la manufactura.
Comandos de software
1. Los comandos de Excel para determinar el número de
permutaciones que se muestran en la página 169 son:
a. Haga clic en Insert en la barra de herramientas, se
leccione la fx Function y haga clic en OK.
b. En el cuadro de Paste Function, seleccione Sta-
tistical, y en la columna Function name despláce
se hacia abajo hasta Permut y haga clic en OK.
c. En el cuadro Permut escriba 8 después de Num-
ber y escriba 3 en el cuadro Number_chosen. La
respuesta correcta de 336 aparece dos veces en el
cuadro.
Introducción
Los capítulos del 2 al 4 están dedicados a la estadística descriptiva. Describimos los datos
en bruto al organizarlos en una distribución de frecuencia y representar la distribución en
tablas y gráficas. También, calculamos una medida de ubicación, como la media aritmética,
la mediana o la moda, para ubicar un valor típico cerca del centro de la distribución. El rango
y la desviación estándar se utilizan para describir la extensión en la información. Estos capí-
tulos se concentran en describir algo que ya sucedió.
A partir del capítulo 5, el énfasis cambia, empezamos por estudiar algo que probable-
mente pasará y hacemos notar que esta faceta de la estadística se llama inferencia estadís-
tica. El objetivo es hacer inferencias (afirmaciones) sobre una población basadas en un
conjunto de observaciones, llamada muestra de una población. En el capítulo 5, afirmamos
que una probabilidad es un valor entre 0 y 1 inclusive, y estudiamos la manera en que se
pueden combinar las probabilidades utilizando las reglas de la adición y la multiplicación.
En este capítulo comenzará el estudio de las distribuciones de probabilidad. Una dis-
tribución de probabilidad proporciona toda la variedad de valores que se pueden presentar en
un experimento. Una distribución de probabilidad es similar a una distribución de frecuencias
relativas. Sin embargo, en lugar de describir el pasado, ésta describe la posibilidad de que se
presente un evento futuro. Por ejemplo, un fabricante de medicamentos puede solicitar un tra-
tamiento que provoque una pérdida de peso en el 80% de la población. Una agencia de pro-
tección al consumidor puede probar el tratamiento en una muestra de seis personas. Si la
afirmación del fabricante es verdadera, es casi imposible tener un resultado donde nadie pier-
da peso en la muestra y es más probable que 5 de 6 personas pierdan peso.
En este capítulo se estudian la media, la varianza y la desviación estándar de una dis-
tribución de probabilidad. También se estudian tres distribuciones de probabilidad que se
presentan con frecuencia: la binomial, la hipergeométrica y la de Poisson.
Suponga que estamos interesados en el número de caras que caen al lanzar tres veces una
moneda. Éste es el experimento. Los resultados posibles son: cero caras, una cara, dos
caras y tres caras. ¿Cuál es la distribución de probabilidad para el número de caras?
Existen ocho resultados posibles. Puede salir una cruz en el primer lanzamiento, otra cruz
en el segundo lanzamiento y otra cruz en el tercer lanzamiento de la moneda. O podríamos
obtener una cruz, una cruz y una cara, en ese orden. Utilizamos la fórmula de la multipli-
cación para los resultados de conteo (5-8). Existen (2)(2)(2) u ocho posibles resultados.
Éstos se presentan a continuación:
82 Capítulo 6
Observe que el resultado "cero caras" se presentó solo una vez, "una cara" se presen-
tó tres veces, "dos caras" se presentó tres veces y el resultado "tres caras"-se presentó sólo
una vez. Es decir, el resultado "cero caras" se presentó una de ocho veces. Por tanto, la
probabilidad de cero caras es un octavo, la probabilidad de una cara es de tres octavos y
así sucesivamente. La distribución de la probabilidad se ilustra en la Tabla 6-1. Observe
que, debido a que se puede presentar uno de estos resultados, el total de probabilidades
de todos los eventos posibles es de 1. Esto siempre es verdad. La misma información se
muestra en la Gráfica 6-1.
Distribución de probabilidad para los eventos de cero, una, dos y tres caras en tres
lanzamientos de una moneda
Presentación gráfica del número de caías que resulta al lanzar tres veces una moneda
y la probabilidad correspondiente
Características de una distribución Antes de continuar, debemos hacer notar dos características importantes de una dis-
de probabilidad tribución de probabilidad:
Autoevaluación 6-1 Los resultados posibles de un experimento que comprende el lanzamiento de un dado de seis
lados son: un uno, un dos, un tres, un cuatro, un cinco y un seis.
Variables aleatorias
En un experimento de azar, los resultados se presentan de manera aleatoria. Por tanto, casi
siempre se le llama variable aleatoria. Por ejemplo, al lanzar un solo dado en un experi-
mento: se pueden presentar uno de seis resultados. Algunos experimentos obtienen resul-
tados cuantitativos (como dólares, peso o cantidad de hijos), y otros obtienen resultados
cualitativos (como el color o las preferencias religiosas). Otros ejemplos ¡lustrarán más ade-
lante lo que significa el término variable aleatoria.
VARIABLE ALEATORIA DISCRETA, Variable aleatoria que sólo puede asumir ciertos valo-
res claramente contables.
En algunos casos, una variable aleatoria discreta puede asumir valores fracciónales o
decimales. Estos valores se deben contar; es decir, debe haber distancia entre ellos. Por
ejemplo, las calificaciones que otorgan los jueces por las habilidades técnicas y las formas
artísticas en el patinaje artístico son valores decimales, como 7.2, 8.9 y 9.7. Dichos valores
son discretos ya que existe distancia entre las calificaciones 8i3 y 8.4. Por ejemplo, una cali-
ficación no puede ser 8.34 o 8.347.
• Los tiempos de los vuelos comerciales entre Atlanta y Los Ángeles son de 4.67 horas,
5.13 horas y así sucesivamente. La variable aleatoria es el número de horas.
• La presión de las llantas, medida en libras por pulgada cuadrada (psi, por sus siglas en
inglés), para una Chevy Trail-blazer podría ser 32.78 psi, 33.07 psi y así sucesivamente.
En otras palabras, se podrían presentar valores entre 28 y 35. La variable aleatoria es la
presión de las llantas.
Media
La media es un valor típico que se utiliza para representar la ubicación central de una distri-
bución de probabilidad. También es el valor promedio prevaleciente de la variable aleatoria.
La media de una distribución de probabilidad también se describe como su valor espera-
do. Es un promedio calculado en el que los valores posibles de la variable aleatoria se miden
a través de las probabilidades correspondientes de ocurrencia.
Distribuciones discretas de probabilidad 185
¿Cómo interpretamos una media de 2.1? Este valor indica que, durante muchos sábados,
John Ragsdale espera vender una media de 2.1 automóviles por día. Por supuesto, no
puede vender exactamente 2.1 automóviles todos los sábados. Sin embargo, el valor
esperado puede utilizarse para pronosticar la media aritmética del número de automóviles
vendidos los sábados. Por ejemplo, si John trabaja 50 sábados al año, puede esperar
vender (50)(2.1) .o 105 automóviles sólo los sábados. Por tanto, en ocasiones la media
se llama valor esperado. 3. De nuevo, una tabla es útil para los cálculos de la varianza,
que es 1.290.
Autoevaluación 6-2 Pizza Palace ofrece tres tamaños de refresco de cola: chico, mediano y grande, para acompañar
las pizzas. Los refrescos de cola se venden a $0.80, $0.90 y $1.20, respectivamente. De los
pedidos, 30% son para el tamaño chico, 50% para el mediano y 20% para el grande. Organice
el tamaño de los refrescos de cola y la probabilidad de venta en una distribución de probabilidad.
(a) ¿Es una distribución de probabilidad discreta? Indique por qué sí o por qué no.
(b) Calcule la cantidad media cobrada por un refresco de cola.
(c) ¿Cuál es la varianza de la cantidad cobrada por un refresco de cola? ¿Cuál es la desvia
ción estándar?
Distribuciones discretas de probabilidad 187
Ejercicios
1. Calcule la media y la varianza de la siguiente distribución de probabilidad discreta:
3. Las tres tablas siguientes muestran las "variables aleatorias" y sus "probabilidades". Sin
embargo, sólo una de éstas es en realidad una distribución de probabilidad. a. ¿Cuál es?
donde:
Podemos utilizar la Fórmula (6-3). La probabilidad de que un vuelo en particular llegue tarde
es de 0.20, de manera que Existen cinco vuelos, por tanto la variable
190 Capítulo 6
aleatoria, se refiere al número de éxitos. En este caso, un "éxito" es un avión que llega
tarde. Ya que no hay llegadas demoradas x = 0.
La probabilidad de que exactamente uno de los cinco vuelos llegue tarde hoy es de 0.4096,
calculada así:
La variable aleatoria en la Tabla 6-2 se representa en la Gráfica 6-2. Observe que la dis-
tribución del número de vuelos demorados tiene un sesgo positivo.
La media de 1.0 y la varianza de 0.80 se pueden verificar con las Fórmulas (6-1) y (6-2).
A continuación, presentamos la distribución de probabilidad en la Tabla 6-2 y los cálculos
detallados.
Del total de los engranajes de tornillo producidos por una fresadora Carter-Bell automática
de alta velocidad, 5% están defectuosos. ¿Cuál es la probabilidad de que ninguno de seis
engranajes seleccionados al azar estén defectuosos? ¿Exactamente uno? ¿Exactamente
dos? ¿Exactamente tres? ¿Exactamente cuatro? ¿Exactamente cinco? ¿Exactamente seis
de seis?
Se cumplen las condiciones binomiales: (a) existen sólo dos resultados posibles (un engra-
naje en particular está defectuoso o no lo está), (b) existe un número fijo de pruebas (6), (c)
Existe una probabilidad constante de éxito (0.05) y (d) las pruebas son independientes.
192 Capítulo 6
Autoevaluación 6-3 De los empleados de la planta General Mills en Laskey Rd., 8% reciben sus salarios en forma
bimestral a través de transferencias de fondos electrónicos, conocidas también como depósi-
tos directos. Suponga que se selecciona una muestra al azar de siete personas.
(a) ¿Esta situación cumple con las suposiciones de la distribución binomial?
(b) ¿Cuál es la probabilidad de que los siete empleados utilicen el depósito directo?
(c) Utilice la fórmula (6-3) para determinar la probabilidad exacta de que cuatro de siete em
pleados de la muestra utilicen el depósito directo.
(d) Utilice el Apéndice A para verificar sus respuestas a los incisos (b) y (c).
TABLA 6-4 Probabilidad de 0, I, 2,... éxitos para una 7rde 0.05, 0.10, 0.20. 0.50 y 0.70, y una n de 10
194 Capítulo 6
GRÁFICA 6-3 Representación gráfica de la distribución de la probabilidad binomial para una de 0.05, 0.10,
0.20, 0.50 y 0.70, y una n de 10
GRÁFICA 6-4 Gráfica que representa la distribución de la probabilidad binomial para una de 0.10 y una n
de 7. 12, 20 y 40.
Ejercicios
9. En una situación binomial n - 4 y = 0.25. Determine las probabilidades de los siguientes
eventos utilizando la fórmula binomial.
a. x=2. b. x= 3.
10. En una situación binomial n = 5 y = 0.40. Determine las probabilidades de los siguientes
eventos utilizando la fórmula binomial.
a. x= 1. b. x= 2.
Distribuciones discretas de probabilidad 195
Un estudio reciente de la American Highway Patrolman's Association reveló que 60% de los
conductores estadounidenses utilizan sus cinturones de seguridad. Se seleccionó una
muestra de 10 conductores en la autopista de peaje de Florida.
1. ¿Cuál es la probabilidad de que exactamente 7 conductores utilicen cinturón de seguri
dad?
2. ¿Cuál es la probabilidad de que 7 conductores o menos utilicen cinturón de seguridad?
Ejercicios
19. En una distribución binomial n = 8 y = 0.30. Encuentre las probabilidades de los siguien-
tes eventos.
a. x = 2.
b. x < 2 (la probabilidad de que x sea igual o menor que 2).
c. x > 2 (la probabilidad de que x sea igual o mayor que 3).
20. En una distribución binomial n - 12 y = 0.60. Encuentre las siguientes probabilidades.
a. x= 5.
b. x< 5 .
c. x> 6.
21. En un estudio reciente se encontró que 90% de las familias en Estados Unidos tienen televi-
sores con pantalla grande. En una muestra de nueve familias, ¿cuál es la probabilidad de que:
a. las nueve tengan televisores con pantalla grande?
b. menos de cinco tengan televisores con pantalla grande?
c. más de cinco tengan televisores con pantalla grande?
d. al menos siete familias tengan televisores con pantalla grande?
22. Un fabricante de marcos para ventanas sabe por experiencia que el 5% de la producción
presentará un tipo de defecto mínimo que requerirá un ajuste. ¿Cuál es la probabilidad de
que en una muestra de 20 marcos para ventanas:
a. ninguno necesite ajuste?
b. por lo menos uno necesite ajuste?
c. más de dos necesiten ajuste?
23. La velocidad a la que las compañías de servicios pueden resolver problemas es muy impor-
tante. Georgetown Telephone Company, informa que puede resolver los problemas del cliente
el mismo día que éstos se reportan en 70% de los casos. Suponga que 15 casos reporta
dos hoy son representativos todas las quejas.
a. ¿Cuántos problemas esperaría.que se resolvieran el día de hoy? ¿Cuál es la desviación
estándar?
b. ¿Cuál es la probabilidad de que 10 de los problemas se resuelvan hoy?
c. ¿Cuál es la probabilidad de que 10 u 11 de los problemas se resuelvan hoy?
d. ¿Cuál es la probabilidad de que más de 10 de los problemas se resuelvan hoy?
24. Steele Electronics, Inc. vende marcas costosas de equipo estereofónico en varios centros
comerciales en toda la zona del noroeste de Estados Unidos. El departamento de Investiga
ción de Mercadotecnia reporta que 30% de los clientes que visitan las tiendas e indican que
están curioseando, al final, realizarán una compra. Suponga que los últimos 20 clientes que vi
sitaron la tienda son una muestra.
a. ¿Cuántos de estos clientes se podría esperar que realizarán una compra?
b. ¿Cuál es la probabilidad de que exactamente cinco de estos clientes realicen una compra?
c. ¿Cuál es la probabilidad de que diez o más de estos clientes realicen una compra?
d. ¿Es posible que al menos uno de estos clientes realice una compra?
así sucesivamente. Esto supone que la población es finita, es decir, se conoce el número
de elementos de la población y es relativamente pequeño en cantidad. Ejemplos de pobla-
ción finita son 2 842 republicanos en un distrito electoral, 9 421 solicitudes para la escuela
de medicina y 18 Pontiac Vibes actualmente en existencia en North Charleston Pontiac.
Recuerde que uno de los criterios para la distribución binomial es que la probabilidad
de éxito permanezca igual en todas las pruebas. Ya que la probabilidad de éxito no es la
misma en todas las pruebas cuando se realiza un muestreo en una población relativamente
pequeña sin reemplazos, la distribución binomial no deberá utilizarse. En lugar de esto se
deberá aplicar la distribución hipergeométrica. Por tanto, (1) si se selecciona una muestra
de una población finita sin reemplazos y (2) si el tamaño de la muestra n es mayor de 5%
del tamaño de la población N, entonces la distribución hipergeométrica se utiliza para
determinar la probabilidad de un número específico de éxitos o fracasos. Esto es muy ade-
cuado cuando el tamaño de la población es pequeño.
La fórmula para la distribución de probabilidad hipergeométrica es la siguiente:
donde:
N es el tamaño de la población.
S es el número de éxitos en la población.
x es el número de éxitos en la muestra. Éste puede ser 0, 1, 2, 3...
n es el tamaño de la muestra o el número de pruebas.
C es el símbolo para una combinación.
En resumen, la distribución de probabilidad hipergeométrica tiene las siguientes carac-
terísticas:
El siguiente ejemplo ilustra los detalles al determinar una probabilidad utilizando la dis-
tribución de probabilidad hipergeométrica.
Deseamos encontrar la probabilidad de que 4 de los 5 miembros del comité sean sindi-
calizados.
Al insertar estos valores en la Fórmula (6-6):
A fin de poder comparar las dos distribuciones de probabilidad, la Tabla 6-6 muestra las
probabilidades hipergeométricas y binomiales para el ejemplo de PlayTime Toys, Inc. Ya
que 40 de 50 empleados del Departamento de Ensamblaje pertenecen al sindicato, supon-
ga que π= 0.80 para la distribución binomial. Las probabilidades binomiales para la Tabla
6-6 provienen de la distribución binomial de n = 5 y = 0.80.
Autoevaluación 6-5 Horwege Discount Brokers planea contratar a 5 nuevos analistas financieros este año. Existe
un conjunto de 12 solicitantes aprobados y George Horwege, el propietario, decide selec-
cionar al azar a los que se va a contratar. Hay 8 hombres y 4 mujeres entre los solicitantes
aprobados. ¿Cuál es la probabilidad de que 3 de los 5 que contrate sean hombres?
Ejercicios
25. Una población consta de diez elementos, de los cuales seis están defectuosos. En una
muestra de tres elementos, ¿cuál es la probabilidad de que exactamente dos estén defec-
tuosos? Suponga que las muestras no se reponen.
26. Una población consta de 15 elementos, de los cuales 4 son aceptables. En una muestra de
4 elementos, ¿cuál es la probabilidad de que exactamente 3 sean aceptables? Suponga que
las muestras se obtienen sin reemplazo.
27. Kolzak Appliance Outlet acaba de recibir un cargamento de diez reproductores de DVD. Poco
después de recibirlo, el fabricante llamó para reportar que por error enviaron tres unidades
defectuosas. La Srita. Kolzac, propietaria de la tienda, decidió probar dos de los diez repro-
ductores de DVD que recibió. ¿Cuál es la probabilidad de que ninguno de los dos reproduc-
tores de DVD probados estén defectuosos? Suponga que las muestras son sin reemplazo.
28. El Departamento de Sistemas de Computación tiene ocho profesores, de las cuales seis
están ocupados. La doctora Vonder, la presidenta, desea establecer un comité de tres profe-
soresdel departamento para que revisen el plan de estudio. Si selecciona el comité al azar:
a. ¿Cuál es la probabilidad de que todos los miembros del comité estén ocupados?
b. ¿Cuál es la probabilidad de que al menos un miembro no esté ocupado? (Nota: Para esta
pregunta, utilice la regla complementaria.)
29. Keith's Florists tiene 15 camiones de entrega, que utiliza sobre todo para entregar flores y
arreglos florales en la zona de Greenville, Carolina del Sur. De estos 15 camiones, 6 tienen
problemas con los frenos. Se seleccionó al azar una muestra de 5 camiones. ¿Cuál es la
probabilidad de que 2 de esos camiones probados tengan frenos defectuosos?
30. El profesor Jon Hammer tiene un conjunto de 15 preguntas de opción múltiple relacionadas
con las distribuciones de probabilidad. Cuatro de estas preguntas se relacionan con la dis
tribución hipergeométrica. ¿Cuál es la probabilidad de que por lo menos una de estas pre
guntas sobre hipergeometría aparezca en un examen de cinco preguntas el lunes?
Distribuciones discretas de probabilidad 201
Esta distribución tiene muchas aplicaciones. Se utiliza como un modelo para describir la dis-
tribución de errores en la entrada de la información, el número de rayones y otras imperfec-
ciones de las cabinas de los automóviles recién pintados, el número de partes defectuosas
en los envíos, el número de clientes que esperan ser atendidos en un restaurante o que es-
peran entrar en un juego de Disney World y el número de accidentes en la carretera I-75
durante un periodo de tres meses.
La distribución de Poisson se puede describir matemáticamente con la siguiente fór-
mula:
donde:
se pierden maletas; en algunos se pierde una maleta; en unos cuantos se pierden dos ma-
letas; pocas veces en un vuelo se pierden tres maletas; y así sucesivamente. Suponga que
una muestra aleatoria de 1 000 vuelos presenta un total de 300 maletas perdidas. Por tan-
to, la media aritmética de maletas perdidas por vuelo es de 0.3, calculado así: 300/1 000.
Si el número de maletas perdidas sigue una distribución de Poisson con = 0.3, podemos
calcular las diferentes probabilidades utilizando la fórmula (6-7):
En otras palabras, 74% de los vuelos no tendrán maletas perdidas. La probabilidad de que
exactamente una maleta se pierda es de:
Por tanto, se esperaría encontrar exactamente una maleta perdida en 22% de los vuelos..
Las probabilidades de Poisson también se pueden encontrar en la tabla del Apéndice C.
Recuerde que en la ilustración anterior el número de maletas perdidas sigue una distribu-
ción de Poisson con un media de 0.3. Utilice el Apéndice C para encontrar la probabilidad
de que no se pierda ninguna maleta en un vuelo en particular. ¿Cuál es la probabilidad de
que exactamente una maleta se pierda en un vuelo en particular? ¿En qué momento el
supervisor determina que un vuelo presenta muchas maletas perdidas?
Una parte del Apéndice C se repite en la Tabla 6-7. Para encontrar la probabilidad de que
no haya maletas perdidas, localice la columna que tiene el encabezado "0.3" y recorra la
columna hasta encontrar la fila que tiene un "0" marcado. La probabilidad es de 0.7408.
Ésta es la probabilidad de no perder maletas. La probabilidad de que se pierda una maleta
es de 0.2222, que está en el siguiente renglón de la tabla en la misma columna. La proba-
bilidad de que se pierdan dos maletas es de 0.0333, en la fila de abajo; la de tres maletas
perdidas es de 0.0033; y de cuatro maletas es de 0.0003. Por tanto, el supervisor no
debería sorprenderse de encontrar una maleta perdida, pero rara vez debería esperar que
se pierda más de una maleta.
ción de Poisson para la ilustración de las maletas perdidas, donde μ = 0.3, se representa
muy bien. Mientras más alta sea μ la distribución de Poisson se vuelve más simétrica. Por
ejemplo, la Gráfica 6-5 muestra las distribuciones del número de servicios de transmisión,
los reemplazos de mofle y los cambios de aceite por día en Avellino's Auto Shop. Éstos si-
guen una distribución de Poisson con medias de 0.7, 2.0 y 6.0, respectivamente.
GRÁFICA 6-5 Distribución de la probabilidad de Poisson para medias de 0.7, 2.0 y 6.0
Sólo se necesita ¡i para En resumen, la distribución de Poisson es en realidad una familia de distribuciones
construir Poisson discretas. Lo único que se necesita para construir una distribución de probabilidad de Poisson
es el número medio de defectos, errores, etcétera, designados como ¡x.
Autoevaluación 6-6 A partir de las tablas de actuaría, Washington Insurance Company determinó que la probabi-
lidad de que un hombre de 25 años muera en el transcurso del próximo año es de 0.0002. Si
Washington Insurance vende 4 000 pólizas a hombres de 25 años durante este año, ¿cuál es
la probabilidad de que paguen una póliza exactamente?
B. La varianza es igual a:
G. La varianza es la siguiente:
42. Una inversión producirá $1 000, $2 000 o $5 000 al final del año. Las probabilidades de
estos valores son 0.25, 0.60 y 0.15, respectivamente. Determine la media y la varianza del
valor de la inversión.
43. El gerente de personal de Cumberland Pig Iron Company estudia el número de los acci-
dentes laborales durante un mes y desarrolló la siguiente distribución de probabilidad.
Calcule la medía, la varianza y la desviación estándar del número de accidentes en un mes.
44. Croissant Bakery Inc. ofrece pasteles con decorados especiales para cumpleaños, bodas y
otras ocasiones. La pastelería también tiene pasteles regulares. La siguiente tabla propor-
ciona el número total de pasteles vendidos por día y la probabilidad correspondiente. Calcule
la media, la varianza y la desviación estándar del número de pasteles vendidos por día.
45. Una máquina de esquila Tamiami produce 10% de piezas defectuosas, porcentaje que
resulta demasiado alto. El ingeniero de control de calidad revisa los resultados en casi todas
las muestras desde que detectó esta condición anormal. ¿Cuál es la probabilidad de que,
en una muestra de 10 piezas,
206 Capítulo 6
ron para participar en una entrevista ¿Cual es la probabilidad de que de los seleccionados
7
para la entrevista dos aprueben el nuevo sabor y dos no lo aprueben
54. La doctora Richmond, una psicóloga estudia los hábitos de los estudiantes de preparatoria de
ver la televisión durante el día Ella cree que 45% de los estudiantes de preparatoria ve tele
novelas durante la tarde Para investigar mas a profundidad, selecciono una muestra de 10
a. Desarrolle una distribución de probabilidad para el numero de estudiantes de la mues-
tra que ve telenovelas
b. Encuentre la media y la desviación estándar de esta distribución
c ¿Cual es la probabilidad de encontrar exactamente cuatro estudiantes que ven teleno-
ve las?
d. ¿Cual es la probabilidad de que menos de la mitad de los estudiantes seleccionados
7
vean telenovelas
55. Un estudio reciente realizado por Penn, Shone y Borland, para LastMmute com, reveló que
52% de los viajeros de negocios planea su viaje en menos de dos semanas antes de su sa
lida El estudio se repitió en una zona de tres estados con una muestra de 12 viajeros de
negocios frecuentes
a. Desarrolle una distribución de probabilidad para el numero de viajeros que planea sus
viajes durante las dos semanas previas a su salida
b. Encuentre la media y la desviación estándar de esta distribución
c ¿Cual es la probabilidad de que exactamente 5 de los 12 viajeros de negocios selec-
7
cionados planeen sus viajes durante las dos semanas previas a su salida
d. ¿Cual es la probabilidad de que exactamente 5 o menos de los 12 viajeros de negocios
7
seleccionados planeen sus viajes durante las dos semanas previas a su salida
56. Suponga que 5 de 25 automóviles subcompactos de Ford requieren de un ajuste Se selec-
cionaron al azar cuatro subcampactos y queremos saber la probabilidad de que exacta-
mente uno requiera de un ajuste
a. Resuelva el problema suponiendo que las muestras se obtuvieron de los 25 subcom-
pactos sin reemplazos
b. Resuelva el problema suponiendo que el muestreo se realizo sin reemplazos
c. Suponiendo que hubo reemplazos, resuelva el problema utilizando la distribución de
Poisson
d. Compare los resultados de los incisos a, b y c Comente sus descubrimientos
57. El despacho de abogados de Hagel and Hagel se localiza en el centro de Cincinnati Existen
10 socios en la compañía siete viven en Ohio y tres en el norte de Kentucky La señorita
Wendy Hagel, socia administradora, desea reunir un comité de tres socios para conocer las
probabilidades de mudar el despacho al norte de Kentucky Si el comité se selecciona al
azar entre los diez socios ¿cual es la probabilidad de que
7
a. un miembro del comité viva en el norte de Kentucky y los otros vivan en Ohio
7
b. por lo menos un miembro del comité viva en el norte de Kentucky
58 Una información reciente publicada por la Agencia de Protección Ambiental de Estados Uni-
dos indica que Honda es el fabricante de cuatro de los nueve vehículos que mas ahorran
gasolina
a Determine la distribución de probabilidad para el numero de autos Honda en una mues-
tra de tres automóviles elegidos de la lista de los nueve
b ¿Cual es la probabilidad de que en una muestra de tres por lo menos se incluya un
7
Honda
59. El puesto de jefe de policía en la ciudad de Corry, Pennsylvama, esta vacante Un comité
de búsqueda formado por los residentes de Corry tiene la responsabilidad de recomendar al
alcalde de la ciudad a un nuevo jefe de policía Existen 12 candidatos, 4 de los cuales son
mujeres o miembros de una minoría El comité de búsqueda decide entrevistara los 12 can-
didatos Primero seleccionaron al azar a cuatro candidatos para entrevistarlos el primer día,
y ninguno de los cuatro resulto ser mujer ni miembro de una minoría El periódico local,
Corry Press sugiere la discriminación en una de sus columnas editoriales ¿Cuál es la
probabilidad de que la haya?
60. Una caja de seis tubos eléctricos para el cabello incluye dos que no funcionan correcta
mente Se seleccionaron 3 tubos de la caja
a. ¿Cual es la probabilidad de que uno no funcione correctamente?
b. ¿Cual es la probabilidad de que dos de los tres tubos seleccionados no funcionen
7
correctamente
208 Capitulo 6
61. Las ventas de los automóviles Lexus en la zona de Detroit siguen una distribución de
Poisson con una media de 3 por día.
a. ¿Cuál es la probabilidad de que ningún Lexus se venda en un día en particular?
b. ¿Cuál es la probabilidad de que durante 5 días consecutivos se venda por lo menos un
Lexus?
62. Suponga que 1.5% de las antenas de los nuevos teléfonos Nokia están defectuosas. Para
una muestra aleatoria de 200 antenas, encuentre la probabilidad de que:
a. Ninguna de las antenas esté defectuosa.
b. Tres antenas o más estén defectuosas.
63. Un estudio de las filas en las cajas registradoras de Safeway Supermarket en la zona de
South Strand reveló que entre 4 y 7 P.M., los fines de semana existe un promedio de cua-
tro clientes formados. ¿Cuál es la probabilidad de que usted visite Safeway a esa hora
durante este semestre y encuentre que:
a. no hay clientes esperando?
b. hay cuatro clientes esperando?
c. cuatro clientes o menos están esperando?
d. cuatro clientes o más están esperando?
64. Un estudio interno de Lahey Electronics, una compañía grande de desarrollo de software, reve-
ló que el tiempo promedio que tarda un correo electrónico en llegar a su destinatario fue de 2
segundos. Además, la distribución de los tiempos de llegada siguió la distribución de Poisson.
a. ¿Cuál es la probabilidad de que un mensaje tarde exactamente un segundo en llegar a
su destinatario?
b. ¿Cuál es la probabilidad de que un mensaje tarde más de cuatro segundos en llegar a
su destinatario?
c. ¿Cuál es la probabilidad de que un mensaje no tarde casi nada, por ejemplo "cero"
segundos, en llegar a su destinatario?
65. Los reportes de crímenes recientes indican que 3.1 de los robos de vehículos motorizados
ocurren cada minuto en Estados Unidos. Suponga que la distribución de los robos por mi-
nuto puede calcularse con la distribución de probabilidad de Poisson.
a. Calcule la probabilidad de que ocurran cuatro robos exactamente en un minuto.
b. ¿Cuál es la probabilidad de que no ocurran robos en un minuto?
c. ¿Cuál es la probabilidad de que por lo menos ocurra un robo en un minuto?
66. New Process Inc., un proveedor grande de ropa para dama que ofrece ventas por correo,
anuncia servicios de entrega inmediata en todos sus pedidos. Recientemente el surtido de
pedidos no ha funcionado como se había planeado, y se presentó un gran número de quejas.
Bud Owens, director del servicio a clientes, rediseñó por completo el método para manejar
los pedidos. La meta es tener menos de cinco pedidos sin surtir al final de 95% de los días
hábiles. Las revisiones frecuentes de los pedidos sin surtir al final del día revelaron que la dis-
tribución de éstos seguía una distribución de Poisson con una media de dos pedidos.
a. ¿New Process, Inc. alcanzó las metas internas deseadas? Mencione las pruebas.
b. Dibuje un histograma que represente la distribución de la probabilidad de Poisson de
los pedidos sin surtir.
67. La NASA ha experimentado dos desastres. El Challenger explotó sobre el Océano Atlántico
en 1986 y el Columbia explotó sobre el este de Texas en 2003. Se han realizado un total de
113 misiones espaciales. Utilice la distribución de Poisson para calcular la probabilidad de
exactamente dos fallas. ¿Cuál es la probabilidad de que no existan fallas?
68. De acuerdo con la "teoría de enero", si el mercado accionario sube durante el mes de enero,
entonces seguirá aumentando todo el año. Si no sube en enero, no lo hará durante el año. De
acuerdo con un artículo de The Wall Street Journal, esta teoría aplicó para 29 de los últimos
34 años. Suponga que esta teoría es falsa. ¿Cuál es la probabilidad de que esto suceda por
casualidad? (Probablemente va a necesitar un paquete de software como Excel o MINITAB.)
69. Durante la segunda ronda del torneo abierto de golf en Estados Unidos de 1989, cuatro
jugadores registraron un hoyo en uno al jugar el sexto hoyo. Se calcula que la probabilidad de
que un jugador profesional de golf registre un hoyo en uno es de 3 708 a 1, por tanto la proba
bilidad es de 1/3 709. Ese día, 155 jugadores de golf participaron en la segunda ronda. Calcule
la probabilidad de que cuatro jugadores de golf registren un hoyo en uno al jugar el sexto hoyo.
70. El 18 de septiembre del 2003, el huracán Isabel azotó la costa de Carolina del Norte provo-
cando muchos daños. Varios días antes de tocar tierra, el Centro Nacional de Huracanes
pronosticó que el huracán llegaría a las costas que se encuentran entre Cape Fear, Carolina
Distribuciones discretas de probabilidad 209
del Norte y la frontera de Carolina del Norte con Virginia. Se calculó que la probabilidad de
que el huracán azotara esta zona era de 0.95. De hecho, el huracán llegó a la orilla casi
exactamente como se pronosticó y estuvo en el centro de la zona afectada. Suponga que
el Centro Nacional de Huracanes pronostica que los huracanes azotarán la zona afectada
con un 0.95 de probabilidad. Responda las siguientes preguntas:
a. ¿Qué distribución de la probabilidad se aplica en este caso?
b. ¿Cuál es la probabilidad de que 10 huracanes toquen tierra en la zona afectada?
c. ¿Cuál es la probabilidad de que por lo menos 10 huracanes toquen tierra fuera de la
zona afectada?
71. Un estudio reciente de CBS News reportó que 67% de los adultos cree que el Departamento
del Tesoro de Estados Unidos debería seguir acuñando monedas de un centavo.
Comandos de software
1. Los comandos de MegaStat para crear la distribución
de la probabilidad binomial de la página 192 son:
a. Seleccione la opción MegaStat en la barra de he
rramientas, haga clic en Probability y en Discrete
Probability Distributions
b. En el cuadro de diálogo, seleccione Binomial, el
número de pruebas es 6, la probabilidad de un éxi
to es de 0.05. Si desea ver una gráfica, haga clic en
display graph.
210 Capítulo 6
2. Los comandos de Excel necesarios para determinar la d. En el segundo cuadro de diálogo seleccione los
distribución de probabilidad binomial de la página 193 cuatro elementos necesarios para calcular una pro-
son: babilidad hipergeométrica.
a. En una hoja de cálculo en blanco de Excel escriba 1. Introduzca 0 para el número de éxitos.
la palabra Éxito en la celda A1 y la palabra Proba- 2. Introduzca 5 para el número de pruebas.
bilidad en la celda B1. En la celdas A2 a A14 escri- 3. Introduzca 40 para la probabilidad de éxitos en
ba los números enteros del 0 al 12. Mantenga B2 una población.
como la celda activa. 4. Introduzca 50 para el tamaño de la población y
b. De la barra de herramientas seleccione Insert y haga clic en OK.
Functlon Wizard. 5. Excel calculará la probabilidad de 0 éxitos en 5
c. En el primer cuadro de texto seleccione Statistical pruebas (0.000118937) y almacenará el resulta
en la categoría de función y BINOMDIST en la cat- do en la celda B2.
egoría del nombre de la función, luego haga clic en e. Para encontrar la distribución de probabilidad com-
OK. pleta vaya a la barra de fórmulas y reemplace el 0
d. En el segundo cuadro de texto introduzca los cua- que está a la derecha del paréntesis abierto con
tro elementos necesarios para calcular una proba D6.D11.
bilidad binomial. f. Mueva el ratón hacia la esquina inferior derecha de
1. Introduzca 0 para el número de éxitos. la celda E6 y seleccione la columna B para la celda
2. Introduzca 40 para el número de pruebas. E11. Aparecerá la probabilidad de un éxito para los
3. Introduzca .09 para la probabilidad de un éxito. diferentes resultados.
4. Introduzca la palabra falso o el número 0 para
las probabilidades individuales y haga clic en
OK
5. Excel calculará la probabilidad de 0 éxitos en 40
pruebas, con una probabilidad de 0.09 de éxitos.
El resultado 0.02299618 se almacena en la cel
da B2.
e. Para encontrar la distribución de probabilidad com-
pleta vaya a la barra de fórmulas y reemplace el 0
que está a la derecha del paréntesis abierto con
A2;A14.
f. Mueva el ratón hacia la esquina inferior derecha de
la celda B2 y seleccione la columna B para la celda
4. Los comandos de MINITAB para generar la distribución
B14. Aparecerá la probabilidad de un éxito para los
de Poisson, de la página 202, son:
diferentes valores de la variable aleatoria.
a. Escriba la palabra Éxito en la columna C1 y la pa-
labra Probabilidad en la C2. En la primera columna
escriba los números enteros del 0 al 5.
b. Seleccione Cale, después Probability Distribu-
tions y Poisson.
c. En el cuadro de diálogo, haga clic en Probability,
establezca la media igual a .3 y seleccione C1 co-
mo la columna de entrada. Designe a C2 como la
columna de almacenamiento opcional, luego haga
clic en OK.
La mayor parte de las tiendas detallistas ofrecen sus propias tarjetas de crédito. En el
momento en que se solicita el crédito, el cliente se hace acreedor a un descuento de 10%
sobre su compra. El tiempo que toma llenar la solicitud de crédito sigue una distribución uni-
forme cuya duración varía entre 4 y 10 minutos. ¿Cuál es la desviación estándar para el
tiempo que dura el proceso? (Vea la Meta 2 y el Ejercicio 35.)
Distribuciones de probabilidad continua 213
Introducción
En el Capítulo 6 se inició el estudio de las distribuciones de probabilidad. Consideramos tres
distribuciones de probabilidad discreta: binomial, hipergeométrica y de Poisson. Estas distri-
buciones se basan en variables aleatorias discretas, que pueden suponer sólo valores clara-
mente separados. Por ejemplo, para un estudio, seleccionamos 10 pequeñas empresas que
iniciaron operaciones durante el año 2000. El número de las que aún están operando en el
2004 puede ser 0, 1, 2,.... 10. No puede haber 3.7, 12 ni -7 operando todavía en 2004. En es-
te ejemplo, sólo son posibles algunos resultados y están representados por valores claramen-
te separados. Además, por lo regular, el resultado se encuentra contando el número de éxitos.
Contamos el número de empresas incluidas en el estudio que todavía operan en 2004.
En este capítulo, continuamos con nuestro estudio de distribuciones de probabilidad ana-
lizando distribuciones de probabilidad continua, que por lo regular, resulta de medir algo; por
ejemplo, la distancia del dormitorio al salón de clases, el peso de una persona o la cantidad
de bonos que perciben los directores generales de empresas. Supongamos que selecciona-
mos cinco estudiantes y encontramos que la distancia que viajan, en millas, para asistir a cla-
ses es 12.2, 8.9, 6.7, 3.6 y 14.6. Cuando analizamos una distribución continua, casi siempre
nos interesa encontrar información como el porcentaje de estudiantes que viajan menos de
10 millas o el porcentaje de aquellos que viajan más de 8. En otras palabras, para una distri-
bución continua tal vez queremos conocer el número de observaciones que tienen lugar den-
tro de cierto rango. Por tanto, pensamos en la probabilidad de que una variable tenga un valor
dentro de un rango específico, más que en la probabilidad de un valor específico.
Consideramos dos familias de distribuciones de la probabilidad continua; la distribu-
ción de probabilidad uniforme y la distribución de probabilidad normal. Estas distribu-
ciones describen la posibilidad de que una variable aleatoria continua que tiene un número
infinito de valores posibles se encuentre dentro de un rango específico. Suponga, por ejem-
plo, que el tiempo para entrar a la página de McGraw-Hill en la red (www.mhhe.com) tiene
una distribución uniforme con un tiempo mínimo de 20 milésimas de segundo y un tiempo
máximo de sesenta milésimas de segundo. Entonces podemos determinar la probabilidad
de poder entrar en la página en 30 milésimas de segundo o menos. El tiempo de acceso se
mide en una escala continua.
La segunda distribución continua que analizamos en este capítulo es la distribución de
la probabilidad normal. La distribución normal se describe por su media y su desviación es-
tándar. Suponga, por ejemplo, que la vida útil de una batería Energizer tamaño C sigue una
distribución normal con una media de 45 horas y una desviación estándar de 10 horas cuan-
do se utiliza en un juguete en particular. Podemos determinar la posibilidad de que la bate-
ría dure más de 50 horas, entre 35 y 62 horas, o menos de 39 horas. La vida útil de la
batería se mide en una escala continua.
La media de una distribución uniforme se localiza en la mitad del intervalo entre los va-
lores mínimo y máximo. Se calcula como:
La altura de la distribución, P(x), es igual para todos los valores de la variable aleatoria, x. La
altura de la distribución de probabilidad uniforme se puede calcular como:
Como se mostró en el Capítulo 6, las distribuciones de probabilidad son útiles para ha-
cer afirmaciones de probabilidad concernientes a los valores de una variable aleatoria. Pa-
ra distribuciones que describen una variable aleatoria continua, las áreas dentro de la
distribución representan probabilidades. En la distribución uniforme, su forma rectangular
nos permite aplicar la fórmula de área para un rectángulo. Recuerde que el área de un rec-
tángulo la encontramos al multiplicar su longitud por su altura. Para la distribución uniforme,
la altura del rectángulo es P(x), es decir, 1/(b - a). La longitud o base de la distribución es b-
a. Observe que si multiplicamos la altura de la distribución por la totalidad de su rango con
objeto de encontrar el área, el resultado siempre es 1.00. En otras palabras, el área total
dentro de una distribución de probabilidad continua es igual a 1.00. En términos generales:
Distribuciones de probabilidad continua 215
Por consiguiente, si una distribución uniforme varía entre 10 y 15, la altura es 0.20, que calcu-
lamos así: 1/(15 - 10). La base es 5, que se encuentra por medio de 15 - 10. El área total es:
Un ejemplo ilustra las características de una distribución uniforme y cómo calculamos pro-
babilidades utilizándola.
Southwest Arizona State University proporciona servicio de transporte en autobús a los es-
tudiantes mientras se encuentran en el campus. Durante los días hábiles, un autobús llega
a la parada ubicada en la esquina de la calle North Main y College Drive cada 30 minutos
entre las 6 A.M. y las 11 P.M. Los estudiantes llegan a la parada del autobús a horas alea-
torias. El tiempo que espera un estudiante tiene una distribución uniforme de 0 a 30 minutos.
En este caso, la variable aleatoria es el tiempo que un estudiante tiene que esperar. El tiem-
po se mide en una escala continua,,y los tiempos de espera pueden vahar de 0 hasta 30
minutos.
2. Las veces que un estudiante tiene que esperar el autobús es uniforme a lo largo del in-
tervalo de 0 a 30 minutos, por tanto en este caso a es 0 y b es 30.
Autoevaluación 7-1 Los perros pastores australianos tienen una vida relativamente corta. La duración de su vida
sigue una distribución uniforme entre 8 y 14 años.
(a) Elabore esta distribución uniforme. ¿Cuáles son los valores de altura y base?
(b) Demuestre que el área total debajo de la curva es 1.00.
(c) Calcule la media y la desviación estándar de esta distribución.
(d) ¿Cuál es la probabilidad de que un perro en particular viva entre 10 y 14 años?
(e) ¿Cuál es la probabilidad de que un perro viva menos de 9 años?
Ejercicios
1. Una distribución uniforme se define sobre el intervalo de 6 a 10.
a. ¿Cuáles son los valores para a y b?
b. ¿Cuál es la media de esta distribución uniforme?
c. ¿Cuál es la desviación estándar?
d. Demuestre que el área total es 1.00.
Distribuciones de probabilidad continua 217
Sin embargo, no se moleste en discernir qué tan compleja es esta fórmula. Usted ya conoce
muchos de los valores. Los símbolos se refieren, como suele ocurrir, a la media y a la
desviación estándar. El valor de es la constante matemática de 3.1416, que conoció en
el álgebra del bachillerato. La letra e también es una constante matemática. Es la base del
sistema de logaritmos naturales y equivale a 2.718. X es el valor de una variable aleatoria
continua. Por consiguiente, una distribución normal está basada en su media y su des-
viación estándar; es decir, se define a través de ellas.
No necesitará realizar ningún cálculo a partir de la fórmula (7-4). En lugar de ello, utili-
zará una tabla, que se proporciona en el Apéndice D, para buscar las diversas probabilida-
des.
La distribución de la probabilidad normal presenta las características principales si-
guientes:
1. Tiene forma de campana y tiene una sola cima en el centro de la distribución. La me-
dia aritmética, la mediana y la moda son iguales y están ubicadas en el centro de la dis-
tribución. Como consecuencia, la mitad del área por debajo de la curva normal está a
la derecha de su punto central y la otra mitad se encuentra a la derecha de éste.
2. Es simétrica con respecto a la media. Si cortamos en sentido vertical la curva normal
en el valor central, las dos mitades serán imágenes espejo.
3. Cae ligeramente fuera en cualquier sentido con respecto al valor central. Es decir la dis-
tribución es asintótica: la curva se acerca más y más al eje de las X pero nunca lo to-
218 Capítulo 7
No hay sólo una distribución de probabilidad normal, sino más bien una "familia" de
ellas. En la Gráfica 7-4, por ejemplo, pueden compararse las distribuciones de probabilidad
del tiempo de servicio de los empleados en tres plantas distintas. En la planta de Camden,
la media es de 20 años y la desviación estándar es 3.1 años. Hay otra distribución de pro-
babilidad normal para el tiempo de servicio en la planta de Dunkirk, donde 20 años
y = 3.9 años. En la planta de Elmira, 20 años y 5.0. Observe que las medias
son las mismas pero las desviaciones estándar son distintas.
GRÁFICA 7-4 Distribuciones de la probabilidad normales con medias iguales pero desviaciones
estándar diferentes
La Gráfica 7-5 ilustra la distribución de los pesos de las cajas de tres cereales diferen-
tes. Los pesos siguen una distribución normal con medias distintas pero desviaciones es-
tándar idénticas.
Por último, la Gráfica 7-6 muestra tres distribuciones normales que tienen medias y
desviación estándar diferentes. Ilustran la distribución de fuerzas de tensión, medidas en li-
bras por pulgada cuadrada (psi, por sus siglas en inglés), para tres tipos de cables.
Del Capítulo 6, recuerde que las distribuciones de probabilidad discreta muestran la po-
sibilidad específica de que se presente un valor discreto. En la página 189, por ejemplo, la
distribución binomial se utiliza para calcular la probabilidad de que ninguno de los cinco vue-
los que llegan al aeropuerto regional Bradford de Pennsylvania se retrase.
Distribuciones de probabilidad continua 219
GRÁFICA 7-5 Distribuciones de probabilidad normal que tienen medias diferentes pero desviaciones
estándar iguales
Medias diferentes,
desviaciones estándar
diferentes
GRÁFICA 7-6 Distribuciones de probabilidad normales con medias y desviaciones estándar diferentes
Con una distribución de probabilidad continua, las áreas por debajo de la curva definen
probabilidades. El área total por debajo de la curva normal es 1.0. Esto corresponde a to-
dos los resultados posibles. Como una distribución de probabilidad normal es simétrica, el
área por debajo de la curva a la izquierda de la media es 0.5 y el área por debajo de la cur-
va a la derecha de la media es 0.5. Aplique esto último a la distribución de Sugar Yummies
en la Gráfica 7-5. Tiene una distribución normal con una media de 283 gramos. Por tanto,
la probabilidad de llenar una caja con más de 283 gramos es 0.5 y la probabilidad de llenar
una caja con menos de 283 gramos es 0.5. También es posible determinar la probabilidad
de que una caja pese entre 280 y 286 gramos. No obstante, para determinar esta probabi-
lidad necesitamos saber acerca de la distribución de probabilidad normal estándar.
donde:
es el valor de cualquier observación o medición en particular.
es la media de la distribución.
es la desviación estándar de la distribución.
por debajo de la curva entre 0.00 y 1.50 es 0.4332. Es la probabilidad de que una caja de
Sugar Yummies seleccionada al azar pese entre 283 y 285.4 gramos. Esto se ilustra en la
gráfica siguiente:
Los ingresos semanales de supervisores de turno en la industria del vidrio tienen una dis-
tribución normal con una media de $1 000 y una desviación estándar de $100. ¿Cuál es el
valor de z para el ingreso X de un supervisor que percibe $1 100 a la semana? ¿Para un
supervisor que gana $900 por semana?
Utilizando la fórmula (7-5), los valores de z para los dos valores X ($1 100 y $900) son:
El valor z de 1.00 indica que un ingreso semanal de $1 100 es una desviación están-
dar por arriba de la media, y el valor z de -1.00 muestra que una percepción de $900 está
una desviación estándar por debajo de la media. Observe que ambos ingresos ($1 100 y
$900) son la misma distancia ($100) respecto de la media.
222 Capítulo 7
La regla empírica
Antes de analizar más aplicaciones de la distribución de probabilidad normal estándar con-
sideraremos tres áreas por debajo de la curva normal que se utilizarán con mucha frecuen-
cia en los capítulos subsecuentes. En el Capítulo 3 estos hechos se denominaron como la
Regla Empírica, vea la página 80.
1. Alrededor del 68% del área por debajo de la curva normal se encuentra dentro de una
desviación estándar de la media. Esto puede escribirse como
2. Aproximadamente 95% del área por debajo de la curva normal se encuentra dentro de
dos desviaciones estándar de la media, escrito como
3. Prácticamente la totalidad del área por debajo de la curva normal está dentro de tres
desviaciones estándar de la media, escrita como
Para responder estas preguntas es posible utilizar los resultados de la Regla Empírica.
1. Alrededor de 68% de las baterías tienen una vida útil entre 17.8 y 20.2 horas, dato que
se encuentra por medio de 19.0 + 1(1.2) horas.
Distribuciones de probabilidad continua 223
2. Cerca de 95% de las baterías tienen una vida útil entre 16.6 y 21.4 horas, dato que se
encuentra por medio de 19.0 + 2(1.2) horas.
3. Virtualmente todas las baterías tienen una vida útil entre 15.4 y 22.6 horas, dato que se
encontró a través de 19.0 + 3(1.2) horas.
Autoevaluación 7-3 La distribución de los ingresos anuales de un grupo de empleados de la gerencia media en
Compton Plastics se aproxima a una distribución normal con una media de $47 200 y una
desviación estándar de $800.
(a) ¿Entre qué par de valores se encuentran alrededor de 68% de los ingresos?
(b) ¿Entre qué par de valores se encuentran aproximadamente 95% de los ingresos?
(c) ¿Entre qué par de valores están casi todos los ingresos?
(d) ¿Cuáles son los ingresos medio y modal?
(e) ¿La distribución de los ingresos es simétrica?
Ejercicios
5. Explique lo que significa el siguiente enunciado: "No existe sólo una distribución de proba-
bilidad normal sino una 'familia' de ellas."
6. Enumere las características más importantes de una distribución de probabilidad normal.
7. La media de una distribución de probabilidad normal es 500; la desviación estándar es 10.
a. ¿Entre qué par de valores se encuentra alrededor del 68% de las observaciones?
b. ¿Entre qué par de valores se encuentra alrededor del 95% de las observaciones?
c. ¿Entre qué par de valores se encuentra prácticamente la totalidad de las observaciones?
8. La media de una distribución de probabilidad normal es 60; la desviación estándar es 5.
a. ¿Alrededor de qué porcentaje de las observaciones se encuentran entre 55 y 65?
b. ¿Alrededor de qué porcentaje de las observaciones se encuentran entre 50 y 70?
c. ¿Alrededor de qué porcentaje de las observaciones se encuentran entre 45 y 75?
9. La familia Kamp tiene gemelos, Rob y Rachel. Tanto Rob como Rachel se graduaron en la
universidad hace dos años, y cada uno gana ahora $50 000 al año. Rachel trabaja en la in
dustria de ventas al detalle donde el salario medio para ejecutivos con menos de cinco años
de experiencia es de 35 000 dólares con una desviación estándar de $8 000. Rob es inge-
niero. El salario medio para ingenieros con menos de cinco años de experiencia es de
$60 000 con una desviación estándar de $5 000. Calcule los valores z tanto para Rob como
para Rachel y comente sus hallazgos.
10. Un artículo reciente que apareció en el Cincinnati Enquirer informó que el costo medio de la
mano de obra para reparar un bomba de calefacción es de $90 con una desviación están-
dar de $22. Monte's Plumbing y Heating Services terminaron de reparar dos bombas de ca-
lefacción esta mañana. El costo de mano de obra para la primera fue de $75 y para la
segunda fue de $100. Calcule los valores de z para cada caso y comente sus hallazgos.
224 Capítulo 7
Recuerde que en un ejemplo anterior (véase página 221) informamos que el ingreso medio
semanal de un supervisor de turno en la industria del vidrio está normalmente distribuido con
una media de $1 000 y una desviación estándar de $100. Esto es,
¿Cuál es la posibilidad de seleccionar un supervisor cuyo ingreso semanal está entre $1 000
y $1 100? Utilizando simbología de probabilidad escribimos esta pregunta como:
El área por debajo de la curva normal entre $1 000 y $1 100 es 0.3413. Podríamos decir
también que un porcentaje de 34.13 de los supervisores de turno en la industria del vidrio
perciben entre $1 000 y $1 100 a la semana, o que la probabilidad de seleccionar un super-
visor y encontrar que su ingreso está entre $1 000 y $1 100 es de 0.3413. Esta
información se resume en el diagrama siguiente:
Distribuciones de probabilidad continua 225
En el ejemplo anterior, nos interesa la probabilidad entre la media y un valor dado. Cam-
biemos la pregunta. En lugar de querer conocer la probabilidad de seleccionar al azar un su-
pervisor que ganó entre $1 000 y $1 100 suponga que deseamos averiguar la probabilidad
de seleccionar un supervisor que ganó menos de $1 100. Utilizando simbología de probabi-
lidad escribimos este enunciado como P(ingreso semanal < $1 100). El método de solución
es el mismo. Encontramos la probabilidad de seleccionar un supervisor que percibe entre
$1 000, la media y $1 100. Esta probabilidad es 0.3413. Luego, recuerde que la mitad del
área, o probabilidad, está por arriba de la media y la mitad se encuentra por debajo. Por tan-
to, la probabilidad de seleccionar un supervisor que gane menos de $1 000 es 0.5000. Por
último, sumamos las dos probabilidades, por consiguiente 0.3413 + 0.5000 = 0.8413. Alrede-
dor de 84% de los supervisores en la industria del vidrio gana menos de $1 100 al mes. Vea
el diagrama siguiente.
Excel calculará esta probabilidad. Los comandos necesarios aparecen en la sección Coman-
dos de software al final del capítulo. La respuesta es 0.8413, la misma que calculamos.
Vea el Apéndice D. Desplácese hacia abajo del margen izquierdo hasta la hilera 2.1 y a lo
largo de esa hilera hasta la columna denominada como 0.00. El valor es 0.4821. Por tanto,
el área por debajo de la curva estándar normal correspondiente a un valor z de 2.10 es 0.4821.
No obstante, debido a que la distribución normal es simétrica, el área entre 0 y un valor de
z negativo es el mismo que el que se encuentra entre 0 y el valor de z positivo correspon-
diente. La probabilidad de encontrar un supervisor que gane entre $790 y $1 000 es 0.4821.
En simbología de probabilidad escribimos P($790 < ingreso semanal < $1 000) = 0.4821.
La media divide la curva normal en dos mitades idénticas. El área por debajo de la mi-
tad a la izquierda de la media es 0.5000, y el área hacia la derecha también es 0.5000. De-
bido a que el área por debajo de la curva entre $790 y $1 000 es 0.4821, el área por debajo
de $790 es 0.0179, que se encuentra mediante 0.5000 - 0.4821. Utilizando simbología de
probabilidad escribimos P(ingreso semanal < $790) = 0.0179.
Esto significa que un porcentaje de 48.21 de los supervisores tienen ingresos semana-
les entre $790 y $1 000. Además, podemos anticipar que un porcentaje de 1.79 perciben
menos de $790 por semana. Esta información se resume en el diagrama siguiente.
Autoevaluación 7-4 Los empleados de Cartwright Manufacturing obtienen calificaciones por su eficiencia. La dis-
tribución de las calificaciones sigue una distribución normal. La media es 400, la desviación
estándar es 50.
(a) ¿Cuál es el área debajo de la curva normal entre 400 y 482? Exprese esta área en una
anotación de probabilidad.
(b) ¿Cuál es el área debajo de la curva normal para las calificaciones superiores a 482? Ex-
prese esta área con notación de probabilidad.
(c) Ilustre las facetas de este problema en una gráfica.
Ejercicios
11. Una población normal tiene una media de 20.0 y una desviación estándar de 4.0.
a. Calcule el valor de z asociado con 25.0.
b. ¿Qué proporción de la población está entre 20.0 y 25.0?
Distribuciones de probabilidad continua 227
El problema se puede dividir en dos partes. Para el área entre $840 y la media de $1 000.
El área por debajo de la curva de un valor de z igual a -1.60 es 0.4452 (del Apéndice D). El
área por debajo de la curva para un valor de z igual a 2.00 es 0.4772. Sumando las dos áreas:
0.4452 + 0.4772 = 0.9224. Por consiguiente, la probabilidad de seleccionar un ingreso entre
$840 y $1 200 es 0.9224. En simbología de probabilidad escribimos P($840) < ingreso sema-
nal < $1 200 = 0.4452 + 0.4772 = 0.9224. Para resumir, un porcentaje de 92.24 de los super-
visores tienen ingresos semanales entre $840 y $1 200. Esto se ilustra en un diagrama:
Otra aplicación de la distribución normal implica determinar el área entre valores sobre
el mismo lado de la media.
228 Capítulo 7
La situación se divide de nuevo en dos partes,, y se utiliza la fórmula (7-5). Primero encon-
tramos el valor z asociado con un salario semanal de $1 250.
Del Apéndice D, el área asociada con un valor de z igual a 2.50 es 0.4938. Por tanto,
la probabilidad de un salario semanal de entre $1 000 y $ 1 250 es 0.4938. De manera aná-
loga, el área asociada con un valor z de 1.50 es 0.4332, por consiguiente la probabilidad de
un salario semanal de entre $1 000 y $1 150 es 0.4332. La probabilidad de un salario se-
manal de entre $1 150 y $1 250 se encuentra restando el área asociada con un valor de
1.50 (0.4332) de aquella asociada con un z de 2.50 (0.4938). Por consecuencia, la proba-
bilidad de un salario entre $1 150 y $1 250 es 0.0606. En simbología de probabilidad escri-
bimos P($1 150 < ingreso semanal < $1 250) = 0.4938 - 0.4332 = 0.0606.
En resumen, existen cuatro situaciones para encontrar el área por debajo de la distri-
bución normal estándar.
Autoevaluación 7-5 Consulte el ejemplo anterior, donde la distribución de los ingresos semanales sigue la distri-
bución normal con una media de $1 000 y la desviación estándar es $100.
(a) ¿Qué porcentaje de los supervisores de turno perciben un ingreso semanal de entre $750
y $1 225? Trace una curva normal y sombree el área deseada en su diagrama.
(b) ¿Qué porcentaje de los supervisores de turno perciben un ingreso semanal de entre
$1 100 y $1 225? Trace una curva normal y sombree el área deseada en su diagrama.
Distribuciones de probabilidad continua 229
Ejercicios
15. Una distribución normal tiene una media de 50 y una desviación estándar de 4.
a. Calcule la probabilidad de un valor entre 44.0 y 55.0.
b. Calcule la probabilidad de un valor mayor que 55.0.
c. ^Calcule la probabilidad de un valor entre 52.0 y 55.
16. Una población normal tiene una media de 80.0 y una desviación estándar de 14.0.
a. Calcule la probabilidad de un valor entre 75.0 y 90.0.
b. Calcule la probabilidad de un valor de 75.0 o menos.
c. Calcule la probabilidad de un valor entre 55.0 y 70.0.
17. Una máquina expendedora de bebidas de cola está ajustada para servir un promedio de
7.00 onzas por vaso. La desviación estándar es 0.10 onzas. La distribución de cantidades
servidas sigue una distribución normal.
a. ¿Cuál es la probabilidad de que la máquina sirva entre 7.10 y 7.25 onzas de bebida de cola?
b. ¿Cuál es la probabilidad de que la máquina sirva 7.25 onzas o más?
c. ¿Cuál es la probabilidad de que la máquina sirva entre 6.80 y 7.25 onzas de bebida de cola?
18. Los montos de dinero que se piden en las solicitudes de préstamos caseros en Down River Fe-
deral Savings siguen la distribución normal con una media de $70 000 y una desviación están
dar de $20 000. Esta mañana se recibió una solicitud de préstamo. ¿Cuál es la probabilidad:
a. de que el monto solicitado sea $80 000 o más?
b. de que el monto solicitado esté entre $65 000 y $80 000?
c. de que él monto solicitado sea $65 000 o más?
19. WNAE, una estación de AM totalmente dedicada a transmitir noticias, encuentra que la dis-
tribución de tiempo que los radioescuchas sintonizan la estación sigue la distribución nor-
mal. La media de la distribución es 15.0 minutos y la desviación estándar es de 3.5. ¿Cuál
es la probabilidad de que un radioescucha en 'particular sintonice la estación en:
a. más de 20 minutos?
b. por 20 minutos o menos?
c. entre 10 y 12 minutos?
20. El salario inicial medio para graduados de la universidad en la primavera del año 2004 era
de 36 280 dólares. Suponga que la distribución de los salarios iniciales sigue la distribución
normal con una desviación estándar de $3 300. ¿Qué porcentaje de los graduados tienen
salario inicial de:
a. entre $35 000 y $40 000?
b. de más de $45 000?
c. entre $40 000 y $45 000?
Los ejemplos anteriores exigen encontrar el porcentaje de las observaciones ubicadas
entre dos observaciones o el porcentaje de las observaciones por arriba, o por abajo, de
una observación en particular X. Una aplicación más profunda de la distribución normal im-
plica encontrar el valor de la observación X cuando está dado el porcentaje por arriba o por
debajo de la observación.
Observe que hay dos incógnitas, X y z. Para encontrar X, primero encontramos z, y des-
pués despejamos X. Observe que el área por debajo de la curva normal a la izquierda de μ
es 0.5000. El área entre μ y X se encuentra mediante 0.5000 - 0.0400. Ahora consulte el
Apéndice D. Busque en el cuerpo de la tabla para el área más cercana a 0.4600. El área
más cercana es 0.4599. Desplácese a los márgenes de este valor y lea el valor z de 1.75.
Debido a que el valor está a la izquierda de la media, en realidad es -1.75. Estos pasos se
ilustran en la Tabla 7-2.
Areas seleccionadas por debajo de la curva normal
Por tanto, Layton puede anunciar que reemplazará en forma gratuita cualquier neumático
que se desgaste antes de que llegue a 64 312 millas, y la empresa sabrá que sólo 4% de
los neumáticos se van a sustituir de acuerdo con este plan.
Excel también encontrará el valor del millaje. Véase la siguiente ventana en Excel. Los
comandos necesarios se proporcionan en la sección de Comandos de sofware que apa-
rece al final del capítulo.
Distribuciones de probabilidad continua 231
Autoevaluación 7-6 Un análisis de las calificaciones del examen final de Introducción a los negocios, revela que
las calificaciones siguen la distribución normal. La media de la distribución es 75 y la desvia-
ción estándar es 8. El profesor quiere recompensar con una A a los estudiantes cuyas califi-
caciones se encuentran dentro del 10% más alto. ¿Cuál es el punto de división para aquellos
estudiantes que merecen una A y los que merecen una B?
Ejercicios
21. Una distribución normal tiene una media de 50 y una desviación estándar de 4. Determine
el valor por debajo del cual ocurrirán 95% de las observaciones.
22. Una distribución normal tiene una media de 80 y una desviación estándar de 14. Determine
el valor por arriba del cual tendrán lugar 80% de las observaciones.
23. Las cantidades que sirve una máquina expendedora de bebida de cola siguen la distribución
normal con una media de 7 onzas y una desviación estándar de 0.10 onzas por vaso.
¿Cuánta bebida de cola se sirven con más del 1%en los vasos?
24. Remítase al Ejercicio 18, donde la cantidad solicitada para préstamos caseros siguió la dis-
tribución normal con una media de $70 000 y una desviación estándar de $20 000.
25. Suponga que el costo medio por hora de operar un avión comercial sigue la distribución nor-
mal con una media de $2 100 por hora y una desviación estándar de $250. ¿Cuál es el cos-
to de operación más bajo para el 3% de los aviones?
26. Las ventas mensuales de mofles en el área de Richmond, Virginia, siguen la distribución
normal con una media de 1 200 y una desviación estándar de 225. Al fabricante le gustaría
establecer niveles de inventario tales que exista una posibilidad de sólo 5% de que se ago
ten las existencias. ¿Dónde debería establecer el fabricante los niveles de inventario?
La aproximación de la
distribución normal a la binomial
El Capítulo 6 describe la distribución de probabilidad binomial, que es una distribución dis-
creta. La tabla de probabilidades binomiales que aparece en el Apéndice A se desplaza su-
cesivamente de una n igual a 1 a una n de valor 15. Si un problema implicó tomar una
muestra de 60, generar una distribución normal para un número tan considerable requeriría
de mucho tiempo. Un enfoque más eficaz consiste en aplicar una aproximación de la dis-
tribución normal a la binomial.
232 Capítulo 7
Utilizar la distribución normal (una distribución continua) como un sustituto para una dis-
tribución binomial (una distribución discreta) para valores considerables de n parece razo-
nable debido a que conforme se incrementa n, una distribución binomial se acerca cada vez
más a una distribución normal. La Gráfica 7-7 ilustra el cambio en la forma de una distribu-
ción binomial con 0.50 a partir de una n igual a 1, a una n de valor 3, a una n de
tamaño 20. Observe como el caso cuando n = 20 se aproxima a la forma de la distribución
normal. Esto es, compare el caso donde n = 20 con la curva normal que aparece en la
Gráfica 7-3 en la página 218.
Cuándo utilizar la ¿Cuándo podemos utilizar la aproximación normal a la binomial? La distribución de pro-
aproximación normal babilidad normal es una buena aproximación a la distribución de probabilidad binomial cuando
tiene valores mínimos de 5. Sin embargo, antes que apliquemos la distribución
normal, tenemos que asegurarnos de que nuestra distribución de interés es efectivamente
una distribución binomial. Recuerde del Capítulo 6 que tienen que cumplirse cuatro criterios:
Para encontrar la probabilidad de que 60 o más clientes regresen para consumir otra
pizza, primero necesitamos encontrar la probabilidad de que regresen 60 clientes exacta-
mente. Esto es:
Continuamos este proceso hasta que tengamos la probabilidad de que regresen los 80
clientes en su totalidad. Por último, sumamos las probabilidades de 60 a 80. Resolver el pro-
blema anterior de esta manera resulta tedioso. También podemos utilizar un programa de
cómputo como por ejemplo MINITAB o Excel para encontrar las diversas probabilidades. A
continuación aparecen enumeradas las probabilidades binomiales para
x, el número de clientes que regresan entre 43 y 68. La probabilidad de que cualquier nú-
mero de clientes menor que 43 o mayor de 68 regresen es menor que 0.001. Podemos su-
poner que estas probabilidades son 0.000.
Sin duda alguna, estará usted de acuerdo en que utilizar la aproximación normal a la
binomial es un método más eficaz para estimar la probabilidad de que 60 o más de los clien-
tes que acuden por primera vez regresen. El resultado se compara en términos favorables
con el que se calculó en la página 233, utilizando la distribución binomial. La probabilidad
utilizando la distribución binomial es 0.197, en tanto que utilizando la aproximación normal
la probabilidad es 0.1977.
Autoevaluación 7-7
Un estudio que realizó la compañía Great Home Insurance reveló que ninguno de los bienes
robados fueron recuperados por sus dueños en 80% de los robos que se reportaron.
(a) Durante un periodo en el que ocurrieron 200 robos, ¿cuál es la probabilidad de que los
bienes robados no se recuperaran en 170 o más de los casos?
(b) Durante un periodo en el que se cometieron 200 robos, ¿cuál es la probabilidad de que
no se recuperaran los bienes robados en 150 o más de los casos?
Ejercicios
27. Suponga una distribución de probabilidad binomial con Calcule lo siguiente:
a. La desviación media y la desviación estándar de la variable aleatoria.
b. La probabilidad de que X sea 15 o menor.
c. La probabilidad de que X sea 10 o menor.
28. Suponga una distribución de probabilidad binomial con Calcule lo siguiente:
a. La desviación media y la desviación estándar de la variable aleatoria.
b. La probabilidad de que X sea 25 o mayor.
c. La probabilidad de que X sea 15 o menor.
d. La probabilidad de que X esté entre 15 y 25 inclusive.
29. Dottie's Tax Service se especializa en declaraciones de impuesto sobre la renta de clientes
profesionistas, como médicos, dentistas, contadores y abogados. Una auditoría reciente de
las declaraciones que elaboraba que llevó a cabo el IRS (Sistema de Administración Tribu
taria de Estados Unidos) indicó que en 5% de las declaraciones que había elaborado duran
te el último año tenían errores. Suponiendo que este índice continúe hacia el año en curso
y que Dottie's elabora 60 declaraciones, ¿cuál es la probabilidad de que cometa errores en:
a. más de seis declaraciones?
b. seis declaraciones cuando menos?
c. seis declaraciones exactamente?
30. Shorty's Muffler anuncia que pueden instalar un mofle nuevo en 30 minutos o menos. Sin em
bargo, hace poco el departamento de estándares laborales de las oficinas corporativas reali
zó un estudio y encontró que 20% de los mofles no se instalaban en 30 minutos o menos. La
división Maumee instaló 50 mofles en el último mes. Si el informe corporativo es correcto:
a. ¿Cuántas de las instalaciones en la división Maumee se esperaría que tardaran más de
30 minutos?
b. ¿Cuál es la probabilidad de que menos de ocho instalaciones requieran de más de 30 mi-
nutos?
c. ¿Cuál es la probabilidad de que ocho o menos instalaciones tomen 30 minutos?
d. ¿Cuál es la probabilidad de que exactamente ocho de las 50 instalaciones tarden más de
30 minutos?
31. Un estudio realizado por Taurus Health Club, famoso a nivel nacional, reveló que 30% de
sus nuevos miembros están muy pasados de peso. Una campaña de promoción de mem-
bresías en un área metropolitana dio por resultado 500 nuevos miembros.
a. Se ha sugerido utilizar la aproximación normal a la binomial para determinar la probabili-
dad de que 175 o más de los nuevos miembros estén muy pasados de peso. ¿Este pro-
blema es de tipo binomial? Explique.
b. ¿Cuál es la probabilidad de que 175 o más de los miembros estén muy pasados de peso?
c. ¿Cuál es la probabilidad de que 140 o más de los nuevos miembros estén muy pasados
de peso?
32. Un número reciente de Bride Magazine sugirió que las parejas que están planeando su bo-
da deben esperar que dos terceras partes de las personas a las que se les envía una invi-
tación respondan que sí asistirán. Rich y Stacy tienen planeado casarse más adelante en
este año y piensan enviar 197 invitaciones.
236 Capítulo 7
II. La distribución normal es una distribución continua con las siguientes características.
A. Tiene forma de campana y tiene una sola cima en el centro de la distribución.
B. La distribución es simétrica
C. Es asintótica, lo cual significa que la curva se acerca al eje X, peto nunca lo toca.
D. La describen totalmente la media y te desviación estándar.
E. Hay una familia de distribuciones normales.
1. Cuando se cambia te desviación media o la estándar se genera otra distribución
normal.
2. La fórmula siguiente describe una distribución normal.
33. La cantidad de bebida de cola en una lata de 12 onzas está uniformemente distribuida en
tre 11.96 y 12.05 onzas.
a. ¿Cuál es la cantidad media por tata?
b. ¿Cuál es la cantidad de desviación estándar por (ata?
c. ¿Cuál es la probabilidad de seleccionar una lata de bebida de cola y encontrar que tiene
menos de 12 onzas?
d. ¿Cuál es la probabilidad de seleccionar una lata de bebida de cola y encontrar que tiene
más de 11.98 onzas?
e. ¿Cuál es la probabilidad de seleccionar una lata de bebida de cola y encontrar que tiene
más de 11.00 onzas?
34. Un tubo de pasta dentrífica para el control del sarro contiene 4.2 onzas. A medida que la gen-
te utiliza la pasta, la cantidad restante en cualquier tubo es aleatoria. Suponga que la cantidad
de pasta que queda en el tubo sigue una distribución uniforme. A partir de esta información,
podemos determinar la información siguiente acerca de la cantidad remanente en un tubo de
pasta dental sin invadir la privacidad de ninguna persona.
a. ¿Cuánta pasta esperaría que quede en el tubo?
b. ¿Cuál es la desviación estándar de la pasta que resta en el tubo?
c. ¿Cuál es la posibilidad de que en el tubo resten menos de 3.0 onzas?
á. ¿Cuál es la probabilidad de que en el tubo queden más de 1.5 onzas?
35. Muchas tiendas minoristas ofrecen sus propias tarjetas de crédito. En el momento en que
hace la solicitud de crédito, el cliente recibe un descuento de 10% sobre la compra. El tiem-
po que se requiere para el proceso de la solicitud de crédito sigue una distribución normal
con una variación entre los tiempos de entre 4 y 10 minutos.
a. ¿Cuál es el tiempo medio para el proceso de la solicitud?
b. ¿Cuál es la desviación estándar del tiempo de proceso?
c. ¿Cuál es la probabilidad de que una solicitud en particular tome menos de 6 minutos?
d. ¿Cuál es la probabilidad de que una aplicación se demore más de 5 minutos?
36. El tiempo que los huéspedes del hotel Grande Dunes en Bahamas pasan esperando el as
censor sigue una distribución uniforme de entre 0 y 3.5 minutos.
a. Demuestre que el área por debajo de la curva es 1.00.
b. ¿Cuánto espera el cliente típico por el servicio de ascensor?
0. ¿Cuál es la desviación estándar del tiempo de espera?
d. ¿Qué porcentaje de los huéspedes espera menos de un minuto?
e. ¿Qué porcentaje de (os huéspedes espera más de dos minutos?
37. Las ventas netas y el numero de empleados para fabricantes de aluminio con característi-
cas similares están organizados dentro de frecuencias de distribución. Ambos estén nueva-
mente distribuidos. La media para las ventas netas es $180 millones y la desviación estándar
es $25 millones. Para el número d© empleados, la media es 1 500 y la desviación estándar es
120. Clarion Fabricators tuvo ventas por $170 millones y 1 850 empleados.
a. Convierta las ventas y el número de empleados de Clarion a valores de z.
b. Localice los dos valores de z.
c. Compare las ventas de Clarion y su número de empleados con las de otros fabricantes,
38. El departamento de contabilidad de Weston Materials Inc., un fabricante nacional de coche
ras desmontables, informa que a dos trabajadores de la construcción les lleva una medía
«te
32 horas y una desviación estándar de dos horas armar el modelo Red Barrí. Suponga qu®
los tiempos de montaje siguen ta distribución normal.
a. Determine los valores de z para 29 y 34 horas. ¿Qué porcentaje de las cocheras requie-
re entre 32 y 34 horas para armarse?
238 Capítulo 7
de la preparatoria le informó que sólo 2% de los estudiantes que hicieron el examen recibie-
ron una calificación más alta. La calificación media para todos los estudiantes que hacen el
examen es 18.3. Los amigos de Jon, Karrie y George, también hicieron el examen pero el di-
rector no les dio ninguna información aparte de sus calificaciones. Karrie obtuvo 25 y George
18. Con base en esta información, ¿cuáles fueron las clasificaciones en percentiles de Karrie
y George? Suponga que la distribución de calificaciones sigue la distribución normal.
55. Los pesos de los jamones enlatados que se procesan en la compañía Henline Ham siguen
la distribución normal, con una media de 9.20 libras y una desviación estándar de 0.25 li-
bras. En la etiqueta se especifica un peso de 9.00 libras.
a. ¿Qué proporción de los jamones pesan en realidad menos que lo especificado en la eti-
queta?
b. El dueño, Glen Henline está considerando dos propuestas para reducir la proporción de
jamones por abajo del especificado en la etiqueta. Puede incrementar el peso medio a
9.25 y dejar igual la desviación estándar, o puede dejar el peso medio en 9.20 y redu-
cir la desviación estándar de 0.25 a 0.15 libras. ¿Qué cambio recomendaría usted?
56. Como parte de su suplemento dominical de negocios, el periódico Cincinnati Enquirer, infor-
mó que el número medio de horas trabajadas a la semana por aquellos que trabajan tiem-
po completo es de 43.9. El artículo informó además que alrededor de una tercera parte de
aquellos que trabajan de tiempo completo laboran menos de 40 horas a la semana.
a. Dada esta información, y suponiendo que el numero de horas trabajadas sigue la dis-
tribución normal, ¿cuál es la desviación estándar del número de horas trabajadas?
b. El artículo indicó a su vez que 20 de los que trabajan tiempo completo trabajan más de
49 horas a la semana. Con esta información, determine la desviación estándar. ¿Son
similares los dos estimados de la desviación estándar? ¿Cuál sería su conclusión?
57. La mayor parte de los arrendamientos de automóviles a cuatro años permiten hasta 60 000
millas. Si el arrendador rebasa esa cantidad, se agrega una sanción de 20 centavos por mi-
lla al costo del arrendamiento. Suponga que la distribución de millas manejadas en arrenda-
mientos a cuatro años sigue la distribución normal. La media es 52 000 millas y la desviación
estándar es 5 000 millas.
a. ¿Qué porcentaje de los arrendamientos generará una sanción debido a un exceso en
el millaje?
b. Si la compañía automotriz quisiera cambiar los términos del arrendamiento de manera
tal que 25 de los arrendamientos rebasaran el límite, ¿dónde debería establecerse el
nuevo límite superior?
c. Una definición de un automóvil de bajo millaje es uno con cuatro años de antigüedad y
ha sido manejado a lo largo de menos de 45 000 millas. ¿Qué porcentaje de los carros
devueltos son considerados como de bajo millaje?
58. El precio de las acciones del Banco de Florida al final de cada jornada de comercialización
del año pasado siguió la distribución normal. Suponga que durante el año hubo 240 jorna-
das de comercialización. El precio medio fue de 42 dólares y la desviación estándar $2.25
por acción.
a. ¿Qué porcentaje de jornadas estuvo el precio por arriba de $45? ¿Cuántas jornadas es
timaría usted?
b. ¿Qué porcentaje de jornadas estuvo el precio entre $38 y $40?
c. ¿Cuál fue el precio de las acciones en el 15% más alto de los días?
59. Las ventas anuales de novelas románticas siguen la distribución normal. Sin embargo, no
se conocen la media ni la desviación estándar. Cuarenta por ciento del tiempo las ventas son
mayores que 470 000 y 10% del tiempo son mayores que $500 000. ¿Cuáles son la media
y la desviación estándar?
60. Al establecer garantías sobre aparatos HDTV, el fabricante quiere establecer los límites de
tal manera que pocos aparatos necesitarán reparación con cargo al fabricante. Por otra parte,
el periodo de garantía debe ser los suficientemente prolongado para hacer atractiva la com-
pra para el comprador. El número medio de meses hasta el cual se requieren reparaciones
para un HDTV es 36.84 con una desviación estándar es de 3.34 meses. ¿Dónde deben es-
tablecerse los límites de la garantía de manera que sólo 10% de los televisores necesiten
reparaciones con cargo al fabricante?
61. DeKorte Tele-Marketing, Inc., considera comprar una máquina que selecciona de manera alea-
toria y marca en forma automática números telefónicos. Dekorte Tele-Marketing hace la mayor
parte de sus llamadas durante la noche, por consiguiente las llamadas a teléfonos de empre-
sas se desperdician. El fabricante de la máquina afirma que su programación reduce las llama-
Distribuciones de probabilidad continua 241
das a números de empresas a 15% del total de las llamadas. Para probar esta afirmación, el di-
rector de Compras de Dekorte programó la máquina para que seleccionara una muestra de 150
números telefónicos. ¿Cuál es la probabilidad de que 30% de los números telefónicos seleccio-
nados sean de empresas, suponiendo que la afirmación del fabricante es correcta?
Comandos de software
1. Los comandos de Excel que se necesitan para generar a. Seleccionar Insert y Function, en el recuadro se-
la pantalla de la página 225 son: leccione Statistical y NORMINV y haga c//cen OK.
a. Seleccione Insert y Function, luego en el recuadro b. En el cuadro de diálogo escriba en Probability en
seleccione Statistical y NORMDIST y haga clic en 0.04, en Mean en 67 900, y en Standard__dev en
OK. 2 050.
b. En el cuadro de diálogo escriba 1100 en el recua- c. Los resultados aparecerán en el cuadro de diálogo.
dro correspondiente a X, 1000 para la Mean, 100 Observe que la respuesta es diferente a la que
para la Standard_dev, Verdadero en el recuadro aparece en la página 230 debido al redondeo. Si
Cumulative y haga clic en OK. hace clic en OK, también aparece la respuesta en
c. El resultado aparecerá en el cuadro de diálogo. Si su hoja de cálculo.
hace clic en OK, la respuesta aparecerá en la hoja d. Trate de insertar 0.04 en Probability, de cero en
de cálculo. Mean y en uno Standard_dev. Se calculará el va-
2. Los comandos de Excel necesarios para generar la lor z.
pantalla de la página 231 son:
242 Capítulo 7
Glosario
Capitulo 5.
Fórmula para las combinación Fórmula para contar el nú-
Evento Conjunto de uno o más resultados de un experimen- mero de resultados posibles. Si el orden a, b, c se conside-
to. Un evento, por ejemplo, puede ser tres válvulas defectuo- ra igual que b, a, c, o c, b, a, y así sucesivamente, el número
sas en un embarque para un motor Ford de 3.8 litros. de arreglos se encuentra por medio de:
Experimento Actividad que se observa o se mide. Un ex-
perimento puede ser, por ejemplo, contar el número de res-
puestas correctas a una pregunta.
244 Revisión de los capítulos 5 al 7
Independiente La ocurrencia de un objeto no surte impacto Donde P(B\A) es la probabilidad condicional y significa "la
alguno sobre la probabilidad de que ocurra otro evento. probabilidad de que ocurra B dado que A ya sucedió".
Probabilidad Valor entre 0 y 1, inclusive, que informa la pro- Resultado Observación o medición particular de un experi-
babilidad de que ocurra un evento específico. mento.
Probabilidad clásica Probabilidad basada en el supuesto Teorema de Bayes Desarrollado por el reverendo Bayes
de que cada uno de los resultados es igualmente probable. en el siglo XVIII, está diseñado para encontrar la probabilidad
Según este concepto de probabilidad, si hay n resultados de algún evento, A, que se presenta, dado que otro evento,
posibles, la probabilidad de un resultado en particular es 1/n. B, ya ocurrió.
Por tanto, al lanzar una moneda al aire, la probabilidad de
que caiga cara es 1/n = 1/2. Capitulo 6
Probabilidad condicional Posibilidad de que ocurra un
evento dado que otro ha sucedido.
Distribución de Poisson Distribución que se utiliza con
Probabilidad empírica Concepto de probabilidad basado
frecuencia para aproximar probabilidades binomiales cuan-
en la experiencia previa. La compañía Metropolitan Life In-
surance, por ejemplo, informó que durante el año, 100.2 de do n es grande y ;res pequeño. Qué se entiende por "gran-
cada 100 000 personas en el estado de Wyoming murieron de" o "pequeño" no está definido con precisión, pero una
de causas accidentales (accidentes de vehículos automotri- norma general es que n debe ser igual a o mayor que 20 y
ces, caídas, ahogados, armas de fuego, etc.). Con base en igual a o menor que 0.05. Distribución de probabilidad
esta experiencia, Metropolitan puede estimar la probabilidad Relación de los posibles resultados de un experimento y la
de una muerte accidental para una persona en particular en probabilidad asociada con cada resultado.
Wyoming: 100.2/100 000 = 0.001002. Distribución de probabilidad hipergeométrica Distribu-
Probabilidad subjetiva La posibilidad de que ocurra un ción de probabilidad que se basa en una variable aleatoria
evento con base en cualquier información que esté disponi- discreta. Sus características más importantes son:
ble, presentimientos, opinión personal, opiniones de otras
personas, etcétera. 1. Hay un número fijo de intentos.
Regla especial de la adición Para que esta regla pueda 2. La probabilidad de éxito no es la misma de una prueba
aplicarse, los eventos tienen que ser mutuamente excluyen- a otra.
tes. Para dos eventos, las probabilidad de que ocurra A o B 3. Sólo hay dos resultados posibles.
se encuentra mediante: Probabilidad de distribución binomial Variable aleatoria
discreta con las siguientes características:
1. Cada resultado se puede clasificar en una de dos cate-
Por ejemplo: la probabilidad de que al lanzar un dado caiga gorías mutuamente excluyentes.
uno o dos.
2. La distribución es el resultado de contar el número de
éxitos.
3. Cada intento es independiente, lo cual significa que la
respuesta del intento 1 (correcta o errónea) no afecta en
Regla especial de la multiplicación Si dos eventos no es- forma alguna a la respuesta del intento 2.
tán relacionados entre sí (es decir, son independientes) esta 4. La probabilidad de un éxito permanece igual de un in
regla puede aplicarse para determinar la probabilidad de tento a otro.
que ocurran en forma conjunta.
Variable aleatoria Valor que se obtiene de un experimento
que puede, por casualidad, resultar en diferentes valores.
Por ejemplo: la probabilidad de que caiga dos veces cara al Por ejemplo, un conteo del número de accidentes (el expe-
lanzar una moneda al aire en dos ocasiones es:
Sección 2 245
rimento) en la carretera 1-75 durante una semana puede ser se extiende en forma indefinida en cualquier sentido; y, nun-
10, 11 o 12, o bien, algún otro número. ca toca el eje de las X.
Variable aleatoria continua Variable aleatoria que puede Distribución de probabilidad uniforme Distribución conti-
suponer un número infinito de valores dentro de un rango nua de forma' rectangular. Es descrita en su totalidad utili-
dado. zando los valores mínimo y máximo de la distribución para
Variable aleatoria discreta Variable aleatoria que puede calcular la media y la desviación estándar. A su vez, los va-
suponer sólo ciertos valores independientes. lores mínimo y máximo se utilizan para calcular la probabili-
.dad de cualquier evento.
Factor de corrección de continuidad Se utiliza para me-
Capítulo 7 jorar la exactitud de la aproximación de una distribución dis-
creta por medio de una distribución continua. Valor de z
Distribución de probabilidad normal Distribución conti- Distancia entre un valor seleccionado y la media de la
nua que tiene forma de campana, con la media dividiendo la población medida en unidades de la desviación estándar en
distribución en dos partes iguales. Además, la curva normal una distribución de probabilidad normal estándar.
Ejercicios
Parte I. Opción múltiple
1. Con base en su evaluación del mercado accionario, usted determina que la probabilidad de
que los precios de las acciones empiecen a bajar dentro de dos meses son 50-50. A este
concepto de probabilidad con base en su criterio se le llama:
a. Probabilidad clásica
b. Probabilidad empírica
c. Probabilidad subjetiva
d. Independencia
2. Se está llevando a cabo, un estudio acerca del ausentismo en el salón de clases. En térmi-
nos de estadística, al estudio se le denomina como:
a. Un experimento
b. Un evento
c. Un resultado
d. Una probabilidad conjunta
3. En un estudio sobre el ausentismo los resultados mostraron que el lunes por la mañana se
ausentaron 126 estudiantes. A este número (126) se le denomina como:
a. Un experimento
b. Un evento
c. Un resultado
d. Una probabilidad conjunta
4. Para aplicar la regla de la adición, P(A o Bo C) = P{A) + P(B) + P(C), los eventos tienen que
ser
a. Eventos conjuntos
b. Eventos condicionales
c. Eventos mutuamente excluyentes
d. Eventos independientes
5. La administración afirma que la probabilidad de un relevador defectuoso es de sólo 0.001, la re-
gla que se utiliza para encontrar la probabilidad de que el relevador no esté defectuoso es la
a. Regla de la adición
b. Regla de la multiplicación
c. Regla complementaria
d. Regla especial de la probabilidad
6. La administración afirma que la probabilidad de un relevador defectuoso es de sólo 0.001. La
probabilidad de que el relevador no esté defectuoso es
a. 0.002
b. 0.000001
c. 0.999
d. 1.0
7. Para una distribución de probabilidad, la suma de las probabilidades de todos los resultados
posibles tiene que ser igual a
a. 0.5
b. 1.0
246 Revisión de los capítulos 5 al 7
c. 1.5
d. 1.0
8. Las distribuciones de probabilidad binomial y de Poisson son
a. Continuas
b. Ya sea discretas o continuas
c. Discretas
d. Normales
9. Una distribución de probabilidad normal es
a. Simétrica alrededor de la media.
b. En forma de campana
c. Asintótica con respecto al eje X.
d. Todo lo anterior.
10. Una distribución de probabilidad normal es
a. Simétrica alrededor de la media
b. En forma de campana
c. Asintótica con respecto al eje X
d. Todo lo anterior
11. Para la distribución de probabilidad uniforme y la distribución de probabilidad normal,
a. Las áreas dentro de la distribución son iguales a 1.0
b. Las modas están ubicadas en el centro de la distribución
c. Los rangos de una variable aleatoria son infinitos
d. Es posible utilizar calificaciones z para convertir cada distribución a una distribución nor-
mal estándar
12. Si utilizamos valores de z para convertir cualquier distribución normal, la nueva distribución
es
a. Una distribución normal con una media de 0 y una desviación estándar
b. Una distribución normal estándar con una media igual a 0 y una desviación estándar de 1
c. Una distribución normal estándar con una media de
d. Una distribución de Poisson con media 0
Problemas de la parte II
13. A todos los empleados de TMC Electronics se les ofreció un curso de autoestudio sobre prin-
cipios de administración. Al final del periodo, los empleados hicieron un examen, con los re-
sultados siguientes:
a. ¿Cuál es el monto esperado que tendrá que pagar Daniel-James a Mobil por concepto
de demandas?
b. ¿Cuál es la probabilidad de que Daniel-James en realidad pierda menos del monto es-
perado?
c. Daniel-James sufre una pérdida, así que ¿cuál es la probabilidad de que sea de $300
millones?
d. Daniel-James fijó la prima anual en 2.0 millones de dólares. ¿Ésa parece ser una prima
equitativa? ¿Cubrirá su riesgo?
20. La distribución del número de niños en edad escolar por familia en el área de Whitehall Es-
tates de Boise, Idaho, es:
248 Revisión de los capítulos 5 al 7
Casos
A. Century National Bank Utilice los datos para evaluar las dos propuestas de Sa-
ra. Calcule la probabilidad de rechazar una página al ampa-
Consulte los datos relativos a Century National Bank. ¿Es ra- ro de cada uno de los enfoques. ¿Obtendría casi los mismos
zonable que la distribución para verificar los balances de las resultados analizando cada firma en lo individual? Proponga
cuentas se aproxime a una distribución, normal? Determine la su propio plan y analice por qué sería mejor o peor que los
media y la desviación estándar para la muestra de 60 clientes. dos planes que sugiere Sara.
Compare la distribución real con la distribución teórica. Men-
cione algunos ejemplos específicos y comente sus hallazgos.
Divida los balances de las cuentas en tres grupos, de 20
cada uno, con la tercera parte más pequeña de los balances
en el primer grupo, el tercio medio en el segundo grupo y
aquellas que tienen el balance más considerable en el tercer
grupo. Después, formule una tabla en la que muestre el nú-
mero de cada una de las categorías de los balances de las
cuentas por división. ¿Parece ser que las cuentas estén re-
lacionadas con la división correspondiente? Enumere algu-
nos ejemplos y comente lo que encontró.
B. Auditor de elecciones
Un asunto como el aumento de los impuestos, la revocación
de funcionarios electos, o una expansión de los servicios pú-
blicos pueden someterse a un referéndum si se recaban las
firmas válidas suficientes para respaldar la petición. Desa-
fortunadamente, muchas personas firmarán la petición aun-
que no estén registrados en ese distrito en particular, o fir-
marán la petición más de una vez.
Sara Ferguson, la auditora de elecciones en el condado C. Geoff "aplica" su educación
de Venango tiene que certificar la validez de estas firmas an- Geoff Brown es el gerente de una pequeña empresa de te-
tes que la petición se presente oficialmente. No es de sor- lemarketing y está evaluando la tasa de ventas de sus tra-
prender que su personal tenga una excesiva carga de traba- bajadores experimentados a fin de establecer estándares
jo, por consecuencia está considerando la posibilidad de mínimos para nuevas contrataciones. A lo largo de las últi-
utilizar métodos estadísticos para validar los documentos mas semanas, ha registrado el número de llamadas exitosas
que contienen 200 firmas, en lugar de validar cada firma en por hora del personal. Estos datos aparecen enseguida jun-
lo individual. Durante una reunión profesional reciente, des- to con algunas estadísticas resumidas que formuló con ayu-
cubrió que en algunas comunidades del estado, los funcio-
da de un programa de computación de estadística. Geoff es-
narios electorales estaban verificando sólo cinco firmas de
tudió en la universidad de la comunidad y ha escuchado
cada página, rechazando la página completa si dos o más
acerca de distintos tipos de distribuciones de probabilidad
firmas eran invalidadas. A algunas personas les preocupa
(binomial, normal, hipergeométrica, de Poisson etc.). ¿Po-
que cinco firmas no sean suficientes para tomar una buena
dría usted dar algunos consejos a Geoff en cuanto a cuál
decisión. Ellos sugieren que usted debe verificar 10 firmas y
distribución utilizar para adaptarse a estos datos lo mejor po-
rechazar la página si se invalidan tres o más firmas.
sible y cómo decidir cuándo aceptar a un empleado que está
Con el objeto de investigar estos métodos, Sara le pide
a prueba una vez que alcanza el mayor grado de produc-
a su personal que extraiga los resultados de la última elec-
tividad? Esto es importante porque significa un incremento
ción y tome una muestra de 30 páginas. Sucede que el per-
salarial para el empleado y, en el pasado, algunos trabaja-
sonal escogió 14 páginas, del distrito Avondale, nueve de
Midway y siete de Kingston. Cada página contenía 200 fir- dores a prueba abandonaron el empleo debido a que se de-
mas, y los datos que aparecen a continuación muestran el salentaron porque no cumplieron con el estándar.
número de firmas invalidadas en cada una. Llamadas de ventas exitosas por hora durante la sema-
na del 14 de agosto:
Sección 2 249
En la oficina del centro de la ciudad del First National City Bank hay cinco cajeros automáticos.
¿Cuántas muestras diferentes de dos cajeros son posibles? (Vea la Meta 3 y el Ejercicio 28.)
Métodos de muestreo y el teorema del límite central 251
Introducción
Los Capítulos 1 al 4 enfatizaron las técnicas para describir datos. A fin de ilustrar estas téc-
nicas, organizamos los precios de los 80 vehículos que se vendieron durante el mes pasado
en Whitner Autoplex en una distribución de frecuencia y calculamos diversas medidas de ubi-
cación y dispersión. Medidas como la media y la desviación estándar describen el precio tí-
pico de venta y la dispersión en los precios de venta. En estos capítulos el énfasis se centró
en describir la condición de la información. Es decir, describimos algo que ya sucedió.
El Capítulo 5 empieza por definir los fundamentos de la inferencia estadística con el estu-
dio de la probabilidad. Recuerde que nuestro objetivo en la inferencia estadística es determinar
algo acerca de una población con base sólo en una muestra. La población es la totalidad del
grupo de individuos u objetos que se someten a consideración, y la muestra es una parte o un
subconjunto representativo de esa población. El Capítulo 6 amplía los conceptos de probabili-
dad al describir tres distribuciones de probabilidad discreta: la binomial, la hipergeométrica y la
de Poisson. El Capítulo 7 describe la distribución de probabilidad uniforme y la distribución de
probabilidad normal. Estas dos son distribuciones continuas. Las distribuciones de probabilidad
abarcan todos los resultados posibles de un experimento y la probabilidad relacionada con ca-
da resultado. Utilizamos las distribuciones de probabilidad para evaluar la posibilidad de que al-
go ocurra en el futuro.
En este capítulo empezamos a estudiar el muestreo. Una muestra es una herramienta
para inferir algo acerca de una población. Iniciamos el presente capítulo con un análisis de
los métodos de selección de una muestra de una población. Luego, construimos una distri-
bución muestral de medias para entender la manera en que las medias de la muestra sue-
len hacinarse alrededor de la media de la población. Por último, demostramos que para
cualquier población la forma de esta distribución de muestreo tiende a seguir la distribución
de probabilidad normal.
Métodos de muestreo
En el Capítulo 1 dijimos que el propósito de la estadística inferencial es averiguar algo acer-
ca de una población con base en una muestra. Una muestra es una porción o parte repre-
sentativa de la población de interés. En muchos casos, el muestreo es más viable que estudiar
a la población en su totalidad. En esta sección demostramos los motivos principales para rea-
lizar un muestreo, y después diversos métodos para seleccionar una muestra.
Para ilustrar el muestreo aleatorio simple y la selección, supongamos que una pobla-
Una tabla de números ción consiste en 845 empleados de Nitra Industries. Se va a seleccionar una muestra de 52
aleatorios es una forma empleados de esa población. Una forma de asegurar que todos los empleados en la pobla-
eficiente de seleccionar a los ción tienen la misma posibilidad de ser electos consiste en escribir el nombre de cada em-
miembros de una muestra. pleado en un trozo de papel pequeño y depositar todos los trozos en una caja. Una vez que
Métodos de muestreo y el teorema del límite central 253
los pedazos de papel se han mezclado bien, se hace la primera selección extrayendo una
papeleta de la caja sin verla. Este proceso se repite hasta terminar de elegir el tamaño de
la muestra de 52.
Un método más conveniente para seleccionar una muestra aleatoria simple consiste en
utilizar el número de identificación de cada uno de los empleados y una tabla de números
aleatorios como la que aparece en el Apéndice E. Como su nombre lo dice, estos núme-
ros se generaron a través de un proceso aleatorio (en este caso por medio de una compu-
tadora). La probabilidad de 0, 1, 2, ..., 9 es la misma para cada dígito de un número. Por
consecuencia, la probabilidad de que se seleccione el empleado 011 es la misma que la del
empleado 722 o el 382. Al utilizar números aleatorios para seleccionar empleados, se eli-
mina la influencia o sesgo del proceso de selección.
En la ilustración siguiente aparece una porción de una tabla de números aleatorios. Para
seleccionar una muestra de empleados, elija primero un punto de partida en la tabla;
cualquier punto es adecuado. Suponga que la hora que marca nuestro reloj es 3:04. Pue-
de observar la tercera columna y luego desplazarse hacia abajo hasta el cuarto conjunto de
números. El número es 03759. Como sólo hay 845 empleados, utilizaremos los tres prime-
ros dígitos de un número aleatorio de cinco dígitos. Por tanto, 037 es el número del primer
empleado que será miembro de la muestra. Otra manera de elegir el punto de partida con-
siste en cerrar los ojos y señalar un número en la tabla. Para seguir escogiendo emplea-
dos, podría desplazarse en cualquier sentido. Suponga que lo hace hacia la derecha. Los
primeros tres dígitos del número a la derecha de 03759 son 447, el número del empleado
seleccionado en segundo término para integrar la muestra. El siguiente número de tres dí-
gitos a la derecha es 961. Omita 961 porque sólo hay 845 empleados. Continúe hacia la de-
recha y seleccione el empleado 784, después 189 y así sucesivamente.
Autoevaluación 8-1 La siguiente lista de alumnos presenta los estudiantes que se inscribieron a una clase de induc-
ción a la estadística administrativa. Se van a seleccionar tres estudiantes al azar a los que se les
van a hacer varias preguntas acerca del contenido del curso y el método de enseñanza.
(a) Los números 00 a 45 se escriben a mano en papeletas y se colocan en un recipiente. Los tres
números seleccionados son 31, 7 y 25. ¿Qué estudiantes se van a incluir en la muestra?
(b) Ahora utilice la tabla de dígitos aleatorios, Apéndice E, para seleccionar su propia muestra.
(c) ¿Qué haría si encontrara el número 59 en la tabla de números aleatorios? (Ver tabla de
la página siguiente.)
Por ejemplo, podríamos estudiar los gastos en publicidad de las 352 empresas más
grandes de Estados Unidos. Suponga que el objetivo del estudio es determinar si las com-
pañías con altos rendimientos sobre el capital (una medida de la productividad) gastan una
mayor parte del dinero ganado en las ventas en propaganda que aquellas empresas que
registran un bajo rendimiento o un déficit. Para asegurarse de que la muestra es una repre-
sentación imparcial de las 352 empresas, las compañías se agrupan de acuerdo con su ren-
dimiento porcentual sobre el capital. La Tabla 8-1 incluye los estratos y las frecuencias
relativas. Si se utilizara el muestreo aleatorio simple, observe que las compañías que se en-
° °
cuentran en los estratos 3 y 4 tienen una alta probabilidad de ser seleccionadas (una pro-
babilidad de 0.87), mientras que aquellas que aparecen en los otros estratos tienen pocas
probabilidades de resultar seleccionadas (probabilidad de 0.13). Podríamos no elegir ningu-
na de las empresas que aparecen en los estratos 1 o 5 simplemente por casualidad. Sin
embargo, el muestreo aleatorio estratificado garantizará que por lo menos una empresa de
los estratos 1 y 5 estén representadas en la muestra. Digamos que se seleccionan 50 com-
pañías para efectuar un estudio minucioso. Entonces se seleccionará 1 (0.02 x 50) empresa
del estrato 1 en forma aleatoria, 5 (0.10 x 50) del estrato 2 y así sucesivamente. En este
caso, el número de empresas de cada estrato es proporcional a la frecuencia relativa del
estrato en la población. El muestreo estratificado ofrece la ventaja de que, en algunos ca-
sos, refleja con mayor precisión las características de la población que el muestreo aleato-
rio simple o el muestreo aleatorio sistemático.
Suponga que desea determinar las opiniones de los residentes en algún estado en par-
ticular acerca de las políticas federales y estatales de protección del ambiente. Seleccionar
una muestra aleatoria de residentes en el estado y contactar personalmente a cada persona
requeriría demasiado tiempo y resultaría muy costoso. En lugar de ello, podría utilizar el
muestreo por conglomerado subdividiendo el estado en unidades pequeñas, ya sea conda-
dos o regiones, que con frecuencia se conocen como unidades primarias.
Suponga que dividió el estado en 12 unidades primarias, luego seleccionó al azar cua-
tro regiones, 2, 7, 4 y 12, y posteriormente centrar sus esfuerzos en estas unidades prima-
rias. Podría tomar una muestra aleatoria de los residentes en cada una de estas regiones y
entrevistarlos. (Observe que ésta es una combinación de muestreo por aglomerado y mues-
treo aleatorio simple.)
256 Capítulo 8
Muchos otros métodos de El análisis de los métodos de muestreo en las secciones anteriores no incluyó todos los
muestreo. métodos de muestreo que tiene a su disposición un investigador. Si usted participara en un
importante proyecto de investigación sobre mercadotecnia, finanzas, contabilidad u otras
áreas, necesitaría consultar libros dedicados a la teoría del muestreo y al diseño de muestras.
Autoevaluación 8-2 Consulte la Autoevaluación 8-1 (página 253) y la lista de alumnos en la página 254. Suponga
que un muestreo aleatorio sistemático va a seleccionar a cada noveno estudiante inscrito en
el curso. En un principio, se eligió al azar al cuarto alumno de la lista, y se le da el número 03.
Sin olvidar que los números aleatorios empiezan con el 00, ¿qué estudiantes se van a elegir
como miembros de la muestra? . ,
Ejercicios
1. La siguiente es una lista de las tiendas de Marco's Pizza en el condado de Lucas. También
indica si la tienda es de propiedad corporativa (C) o propiedad del administrador (A). Se va
a seleccionar y a inspeccionar una muestra de cuatro establecimientos en cuanto a la con-
veniencia para el cliente, seguridad, higiene y otras características.
a. Los números aleatorios seleccionados son 08, 18, 11, 54, 02, 41 y 54. ¿Qué tiendas se
seleccionaron?
b. Utilice la tabla de números aleatorios para seleccionar su propia muestra de estableci-
mientos.
c. Una muestra debe consistir de cada 7- establecimiento. El número 03 es el punto de par-
tida. ¿Qué establecimientos se incluirán en la muestra?
d. Suponga que una muestra debe consistir de tres establecimientos, de los cuáles dos son
de propiedad corporativa y uno es propiedad del administrador. Seleccione una muestra
apropiada.
2. La siguiente es una lista de hospitales en las regiones de Cincinnati (Ohio) y de la región
norte de Kentucky. También, indica si el hospital es general médico/quirúrgico (M/Q) o de es-
pecialidades (E). Nos interesa calcular el número promedio de enfermeras que trabajan me-
dio tiempo y tiempo completo en los hospitales del área.
a. Se va a seleccionar una muestra de cinco hospitales en forma aleatoria. Los números
aleatorios son 09, 16, 00, 49, 54, 12 y 04. ¿Qué hospitales se incluyen en la muestra?
Métodos de muestreo y el teorema del límite central 257
b. Utilice una tabla de números aleatorios para desarrollar su propia muestra de cinco hos-
pitales.
c. Una muestra debe incluir cada 5- establecimiento. Seleccionamos 02 como el punto de
partida. ¿Qué hospitales se incluirán en la muestra?
d. Una muestra debe consistir en cuatro hospitales médico/quirúrgicos y un hospital de es-
pecialidades. Seleccione una muestra adecuada.
3. A continuación, presentamos una lista de los 35 miembros de la Metro Toledo Automobile Dea-
lers Association. Quisiéramos estimar el ingreso medio de los departamentos de servicios
de los distribuidores.
258 Capítulo 8
a. Queremos seleccionar una muestra aleatoria de cinco distribuidores. Los números alea
torios son: 05, 20, 59, 21, 31, 28, 49, 38, 66, 08, 29 y 02. ¿Qué distribuidores se van a
incluir en la muestra?
b. Utilice la tabla de números aleatorios para seleccionar su propia muestra de cinco distri-
buidores.
c. Una muestra debe consistir en cada 7- distribuidor. Se selecciona como punto de parti-
da el número 04. ¿Qué distribuidores se incluyen en la muestra?
4. A continuación se enumeran los 27 agentes de seguros de Nationwide Insurance en el área
metropolitana de Toledo, Ohio. Queremos calcular el número medio de años que han traba-
jado en Nationwide.
a. Deseamos seleccionar una muestra aleatoria de cuatro agentes. Los números aleatorios
son: 02, 59, 51, 25,145, 29, 77, 69 y 18. ¿Qué distribuidores se van a incluir en la muestra?
b. Utilice la tabla de números aleatorios para seleccionar su propia muestra de cuatro agentes.
°
c. Una muestra consiste de cada 7 distribuidor. El número 04 se selecciona como punto de
partida. ¿Qué agentes se van a incluir en la muestra?
"Error" de muestreo
En la sección anterior se analizaron métodos de muestreo que pueden utilizarse para se-
leccionar una muestra que es una representación imparcial o sin sesgos de la población.
En cada método es importante señalar que la selección de cualquier muestra posible de un
tamaño específico de una población tiene una posibilidad o probabilidad conocida. Ésta es
otra forma de describir un método de muestreo sin sesgo.
Las muestras se utilizan para estimar características de la población. Por ejemplo, la
media de una muestra se utiliza para estimar la media de la población. Sin embargo, como
la muestra es una parte o porción representativa de la población, es poco probable que la me-
dia de la muestra sea exactamente igual a la media de la población. De manera análoga,
es poco probable que la desviación estándar de la muestra sea exactamente iguala la des-
viación estándar de la población. Por tanto, podemos esperar una diferencia entre el esta-
dístico de una muestra y el parámetro de la población correspondiente. A la diferencia se le
llama error de muestreo.
Tome la población formada por cinco empleados de Kiser Industries. La semana pasa-
da, la producción de cada empleado fue 97, 103, 96, 99 y 105 unidades. Suponga que se-
leccionamos una muestra de dos empleados y que la producción de los dos fue 97 y 105,
respectivamente. La media de esta muestra es 101, que se encuentra por medio de (97 +
105)/2. Otra muestra de dos empleados dio como resultado producciones de 103 y 96; por
tanto, la media de esta muestra es 99.5. No obstante, la media de todas las producciones
(la media de la población) es 100, que se calcula así
Métodos de muestreo y el teorema del límite central 259
El error de muestreo para la primera muestra es 1.0, calculado =101 - 100. El error de
muestreo para la segunda muestra es -0.5, calculado Cada una de estas
diferencias, 1.0 y -0.5, es el error de muestreo que se cometió al estimar la media de la pobla-
ción con base en la media de la muestra. Estos errores de muestreo se deben a la casualidad.
En este ejemplo, cada una de las 10 muestras posibles de tamaño 2 [véase la fórmula
(5-10)], correspondiente a la regla de la combinación, que aparece en la página 168) tiene
la misma posibilidad de ser seleccionada. Cada muestra puede tener una media de la
muestra distinta y un error de muestreo diferente. El valor del error de muestreo se basa en
la selección aleatoria de una muestra. Por tanto, los errores de muestreo son aleatorios y
ocurren por casualidad.
Ahora que hemos descubierto la posibilidad de que ocurra un error de muestreo cuan-
do los resultados de un muestreo se utilizan para estimar un parámetro de una población,
¿cómo podemos hacer una proyección precisa acerca del posible éxito de una pasta den-
tífrica o de otro producto recién desarrollado con base en los resultados de la muestra úni-
camente? ¿Cómo puede el departamento de aseguramiento de la calidad de una empresa
de producción en serie liberar un embarque basándose sólo en una muestra de 10 chips?
¿Cómo pueden las organizaciones que levantan encuestas de CNN/USA Today o ABC
News/Washington Post hacer un pronóstico exacto acerca de una elección presidencial con
base en una muestra de 2 000 votantes registrados de una población de casi 90 millones
de votantes? Para responder estas preguntas, primero desarrollamos una distribución de
muestral de medias.
Distribución
muestral de medias
Las medias de la muestra El resultado de producción en el ejemplo anterior demostró que las medias para muestras
varían en cada muestra. de un tamaño específico varían de una muestra a otra. La producción media de la primera
muestra de dos empleados fue 101, y la media de la segunda muestra fue 99.5. Es proba-
ble que una tercera muestra dé como resultado una media distinta. La media de la pobla-
ción fue 100. Si organizamos las medias de todas las muestras posibles de dos empleados
en una distribución de probabilidad, obtendremos la distribución muestral de medias.
Tartus Industries cuenta con siete empleados de producción (se considera como la pobla-
ción). En la Tabla 8-2 se proporcionan los ingresos por hora de cada empleado.
Medias de las muestras de todas las muestras de tamaño 2 de los empleados posibles
La media de la población es
igual a la media de las medias
de las muestras.
Consulte la Gráfica 8-1, que ilustra tanto la distribución de la población como la distri-
bución de las medias de las muestras. Estas observaciones se pueden hacer en: a.
La media de la distribución de las medias de las muestras ($7.71) es igual a la me-
En resumen, tomamos todas las muestras aleatorias posibles de una población y pa-
ra cada una calculamos su media (el ingreso medio recibido). Este ejemplo ilustra rela-
ciones importantes entre la distribución de la población y la distribución muestral de
medias.
1. La media de las medias de las muestras es exactamente igual a la media de la población.
2. La dispersión de la distribución muestral de medias es más estrecha que la distribución
de la población.
3. La distribución muestral de medias suele tener forma de campana y se aproxima a la
distribución de probabilidad normal.
Dada una distribución de probabilidad con forma de campana o normal, estaremos en
posibilidad de aplicar conceptos del Capítulo 7 para determinar la probabilidad de seleccio-
nar una muestra con una media específica. En la sección siguiente, demostraremos la im-
portancia del tamaño de la muestra según se relaciona con la distribución muestral de
medias.
Ejercicios
5. Una población esta formada por los cuatro valores siguientes: 12, 12, 14 y 16.
a. Enumere todas las muestras de tamaño 2 y calcule la media de cada muestra.
b. Calcule la media de la distribución muestral de medias y la media de la población. Com-
pare los dos valores.
262 Capítulo 8
Autoevaluación 8-3 Los tiempos de servicio de todos los ejecutivos que trabajan en Standard Chemicals son:
(g) ¿La distribución muestral de medias que se calculó en la parte (c) empieza a indicar cierta
tendencia hacia una forma de campana?
analizaremos este ejemplo con mayor detalle, pero la Gráfica 8-3 es una gráfica de una dis-
tribución de probabilidad discreta que tiene un sesgo positivo. Existen muchas muestras po-
sibles de 5 que se pueden seleccionar de esta población. Suponga que seleccionamos al
azar 25 muestras de tamaño 5 cada una y calculamos la media de cada muestra. Estos re-
sultados se ilustran en la Gráfica 8-4. Observe que la forma de la distribución de las medias
de las muestras ha cambiado de la forma de la población original aunque seleccionamos
sólo 25 de las muchas muestras posibles. En otras palabras, seleccionamos 25 muestras
aleatorias de tamaño 5 de una población que tiene un sesgo positivo y encontramos que la
distribución de las medias de las muestras cambió en cuanto a la forma de la población. A
medida que tomamos muestras más grandes, es decir, n = 20 en lugar de n = 5, encontra-
mos que la distribución de las medias de las muestras se aproxima a la distribución normal.
La Gráfica 8-5 ilustra los resultados de 25 muestras aleatorias de 20 observaciones cada
una de la misma población. Observe la clara tendencia hacia la distribución de probabilidad
normal. Éste es el punto del teorema del límite central. El ejemplo siguiente subraya esta
condición.
definitiva sobre el programa de atención médica que va a comprar, Ed decide formar un co-
mité de cinco empleados representativos y pedirle que estudie con detenimiento el asunto
de la atención médica y haga recomendaciones en cuanto a qué plan se adapta mejor a las
necesidades de los empleados. Ed siente que las opiniones de aquellos empleados que lle-
van menos tiempo trabajando en su empresa puede diferir de aquellas de los empleados
con más experiencia. Si Ed selecciona al azar este comité, ¿qué puede esperar en térmi-
nos de la media de años que los empleados que integran el comité han trabajado en Spen-
ce Sprockets? ¿Cómo se compara la forma de la distribución de años de experiencia de
todos los empleados (la población) con la forma de la distribución muestral de medias? Los
periodos de servicio (redondeados al año más cercano) de los 40 empleados que en la ac-
tualidad forman parte de la nómina de Spence Sprockets, Inc., son los siguientes:
También podemos comparar la media de las medias de las muestras con la media de
la población. La media de las 25 muestras que se reportan en la Tabla 8-6 es 4.676 años.
¿A qué conclusión debemos llegar con base en este ejemplo? El teorema del límite
central indica que, independientemente de la forma de la distribución de población, la dis-
tribución muestral medias se aproximará a la distribución de probabilidad normal. Cuanto
mayor sea el número de observaciones en cada muestra, más sólida será la convergencia.
El ejemplo de Spence Sprockets, Inc. demuestra la manera en que funciona el teorema del
límite central. Empezamos con una población que tiene un sesgo positivo (Gráfica 8-3).
Después, seleccionamos 25 muestras aleatorias de 5 observaciones, calculamos la media
de cada muestra y, por último, organizamos estas 25 medias de muestra en una gráfica
(Gráfica 8-4). Observamos un cambio en la forma de la distribución muestral de medias de
la muestra con respecto a aquella de la población. El desplazamiento es de una distribución
con sesgo positivo a otra que tiene la forma de la distribución de probabilidad normal.
Para ilustrar con más detalle los efectos del teorema del límite central, aumentamos el
número de observaciones en cada muestra de 5 a 20. Seleccionamos 25 muestras de 20 ob-
servaciones cada una y calculamos la media de cada muestra. Por último, organizamos es-
tas medias de muestra en una gráfica (Gráfica 8-5). Es evidente que la forma del histograma
que aparece en la Gráfica 8-5 se desplaza hacia la distribución de probabilidad nominal.
Si volvemos al Capítulo 6 donde, en la Gráfica 6-4, se muestran varias distribuciones
nominales con una proporción de "éxito" de 0.10, observará una demostración más del teo-
rema del límite central. Observe que a medida que n aumenta de 7 a 12 y de 20 hasta 40,
el perfil de las distribuciones de probabilidad se desplaza acercándose cada vez más a una
distribución de probabilidad normal. La Gráfica 7-5, que se encuentra en la página 263, ilus-
tra también la convergencia hacia la normalidad a medida que n se incrementa. Esto refuer-
za el hecho de que conforme se incluyen más observaciones en la muestra de cualquier
distribución de población, la forma de la distribución de probabilidad de la media de la mues-
tra se acercará cada vez más a una distribución normal.
El teorema del límite central en sí (lea otra vez la definición que se encuentra en la pá-
gina 263) no dice nada acerca de la dispersión de la distribución muestral de medias o acer-
ca de la comparación de la muestra de la distribución muestral de medias con respecto a la
media de la población. Sin embargo, en nuestro ejemplo, observamos que había menos dis-
persión en la distribución muestral de medias que en la distribución de la población al se-
ñalar la diferencia en el rango en la población y en el rango de las medias de las muestras.
Observamos que la medias de las medias de las muestras está cerca de la media de la po-
blación. Es posible demostrar que la media de la distribución muestral de medias de la po-
blación, es decir, y si la desviación estándar en la población es la desviación
estándar de las medias dé las muestras es donde n es el número de observaciones
Métodos de muestreo y el teorema del límite central 269
Aunque no seleccionemos todas las muestras, podemos esperar que la media de la dis-
tribución muestral de medias se aproxime a la media de la población. 2. Habrá menos
dispersión en la distribución muestral de medias que en la población. Si la desviación
estándar de la población es o, la desviación estándar de la distribución muestral de
medias es Observe que cuando aumentamos el tamaño de la muestra disminuye
el error estándar de la media.
Autoevaluación 8-4 Consulte los datos de Spence Sprockets, Inc. en la página 265. Seleccione 10 muestras alea-
torias de 5 empleados cada una. Utilice los métodos que se describen anteriormente en este
capítulo y la Tabla de números aleatorios (Apéndice E) para encontrar los empleados que va
a incluir en la muestra. Calcule la media de cada muestra e ilustre cada una en una gráfica
similar a la Gráfica 8-3. ¿Cuál es la media de las medias de sus diez muestras?
Ejercicios
11. El Apéndice E es una tabla de números aleatorios. Por consecuencia, cada dígito de 0 a 9
tiene la misma posibilidad de ocurrencia.
a. Dibuje una gráfica en la que ilustre la distribución de población. ¿Cuál es la media de la
población? ¿Éste es un ejemplo de distribución uniforme?
b. A continuación, presentamos las 10 primeras hileras de cinco dígitos del Apéndice E. Su
ponga que estos son 10 ejemplos aleatorios de cinco valores cada uno. Determine la me
dia de cada muestra e ilustre las medias en una gráfica similar a la Gráfica 8-3. Compare
la media de la distribución de probabilidad de las medias de la muestra con la media de
la población.
12. La compañía Scrapper Elevator tiene 20 representantes de ventas que venden su producto
en Estados Unidos y Canadá. A continuación presentamos el número de unidades vendidas
por cada representante. Suponga que estás cifras de ventas son los valores de la población.
270 Capítulo 8
Uso de la distribución
muestral de medias
El análisis anterior es importante debido a que la mayor parte de las decisiones de nego-
cios se toman con base en los resultados de un muestreo. A continuación presentamos al-
gunos ejemplos.
1. Arm and Hammer Company desea asegurarse de que su detergente para lavandería
en realidad contiene 100 onzas líquidas, como se indica en la etiqueta. Los re-
súmenes históricos de los procesos de llenado indican que la cantidad media
por recipiente es de 100 onzas líquidas y que la desviación estándar es 2 on-
zas líquidas. Durante la verificación de las 10 A.M. que realiza el técnico de ca-
lidad en 40 recipientes, encuentra que la cantidad media por recipiente es 99.8
onzas líquidas. ¿El técnico debe interrumpir el proceso de llenado o el error de
muestreo es razonable?
2. A.C. Nielsen Company proporciona información a aquellas empresas que se
anuncian en la televisión. Las investigaciones previas indican que en promedio
los adultos estadounidenses ven televisión 6.0 horas al día. La desviación es
tándar es 1.5 horas. Para una muestra de 50 adultos que viven en el área
Greater de Boston, ¿sería razonable que pudiéramos seleccionar una muestra
al azar y encontrar que en promedio ven televisión 6.5 horas al día?
3. Haughton Elevator Company desea formular especificaciones con respecto al
número de personas que pueden desplazarse en un elevador nuevo de gran
capacidad. Suponga que el peso medio para un adulto es 160 libras y que la
desviación estándar es 15 libras: Sin embargo, la distribución de los pesos no
sigue la distribución de probabilidad normal. Tiene un sesgo positivo. ¿Cuál es
Métodos de muestreo y el teorema del límite central 271
la probabilidad de que para una muestra de 30 adultos su peso medio sea 170
libras o más?
En cada una de estas situaciones tenemos una población de la que contamos con cierta infor-
mación. Tomamos una muestra de esa población y queremos saber si el error de muestreo,
es decir, la diferencia entre el parámetro de población y la muestra estadística, obedece a
la casualidad.
Utilizando los conceptos que se analizaron en la sección anterior, podemos calcular la
probabilidad de que la media de una muestra se encuentre dentro de cierto rango. Sabe-
mos que la distribución de muestreo seguirá la distribución de probabilidad normal en dos
condiciones:
1. Cuando las muestras se toman de poblaciones que se sabe siguen la distribución nor-
mal. En este caso el tamaño de la muestra no es un factor.
2. Cuando no se conoce la forma de la distribución de población o se sabe que es anor-
mal, pero la muestra contiene por lo menos 30 observaciones.
Podemos utilizar la fórmula (7-5), del capítulo anterior, para convertir cualquier distribu-
ción normal en una distribución estándar normal. A esto también se le denomina como un
valor z. Entonces podemos utilizar la tabla estándar normal, del Apéndice D, para encontrar
la probabilidad de seleccionar una observación que caerá dentro de un rango específico. La
fórmula para encontrar un valor z es: '
Podemos utilizar los resultados de la sección anterior para encontrar la probabilidad de po-
der seleccionar una muestra de 16 (n) botellas de una población normal con una media de
31.2 onzas y una desviación estándar de la población de 0.4 onzas y encontrar que
la media de la muestra es Utilizamos la fórmula (8-2) para encontrar el valor de z.
Autoevaluación 8-5 Consulte la información sobre Cola, Inc. Suponga que el técnico de calidad seleccionó una
muestra de 16 botellas Jumbo que tenían un promedio de 31.08 onzas. ¿A qué conclusión lle-
ga acerca del proceso de llenado?
Hay muchas situaciones de muestreo en las que deseamos hacer una inferencia acer-
ca de la población, pero no sabemos mucho acerca de ésta. En este caso, resulta útil el teo-
rema del límite central. Sabemos que, para cualquier forma de la distribución de la
población, si seleccionamos una muestra lo suficientemente grande, la distribución de
muestreo de la media de la muestra seguirá la distribución normal. La teoría estadística ha
señalado que las muestras de por lo menos 30 elementos son lo suficientemente grandes
como para permitirnos suponer que la distribución de muestreo sigue la distribución normal.
A menudo no conocemos el valor de la desviación estándar de la población, o. De nue-
vo, como la muestra es por lo menos de 30, calculamos la desviación estándar de la pobla-
ción, con la desviación estándar de la muestra. La distribución real de la estadística es la
Métodos de muestreo y el teorema del límite central 273
Distribución de muestreo para la media de la muestra del número de galones vendidos poi
día
274 Capítulo 8
Autoevaluación 8-6 El salario medio por hora para los plomeros en la región de Atlanta, Georgia, es $28.00. ¿Cuál
es la probabilidad de que podamos seleccionar una muestra de 50 plomeros con un salario
medio de $28.50 o más? La desviación estándar de la muestra es $2.00 por hora.
Ejercicios
15. Una población normal tiene una media de 60 y una desviación estándar de 12. Usted selec-
cionó una muestra aleatoria de tamaño 9. Calcule la probabilidad de que las medias mués-
trales sea:
a. Mayor que 63.
b. Menor que 56.
c. Entre 56 y 63.
16. Una población cuya forma no se conoce tiene una media de 75. Usted selecciona una mues-
tra de 40. La desviación estándar de la media es 5. Calcule la probabilidad de que la media
de las medias muéstrales sea:
a. Menor que 74.
b. Entre 74 y 76.
c. Entre 76 y 77.
d. Mayor que 77.
17. La renta media de un departamento de dos recámaras en el sur de California es de 2 200
dólares al mes. La distribución de los costos mensuales no sigue la distribución normal. De
hecho, tiene un sesgo positivo. ¿Cuál es la probabilidad de seleccionar una muestra de 50
departamentos de una recámara y encontrar que la media es por lo menos $1 950 al mes?
La desviación estándar de la media es $250.
18. Según un estudio que hizo el IRS, los contribuyentes tardan 330 minutos en promedio en
preparar, copiar y archivar en un medio electrónico la forma fiscal número 1040. Una orga-
nización que vigila a los consumidores selecciona una muestra aleatoria de 40 contribuyen-
tes y encuentra que el tiempo requerido para preparar, copiar y archivar la forma número
1040 es de 80 minutos.
a. ¿Cuál es el error estándar de la media en este ejemplo?
b. ¿Cuál es la probabilidad de que la media de las medias muéstrales sea mayor que 320
minutos?
c. ¿Cuál es la probabilidad de que la media de las medias muéstrales se encuentre entre
320 y 350 minutos?
d. Cuál es la probabilidad de que la media de la muestra sea mayor que 350 minutos?
Clave de pronunciación
a. Los números aleatorios que se obtuvieron del Apéndice E son: 31, 94, 43, 36, 03, 24,
17 y 09. ¿Con qué médicos se debe establecer contacto?
b. Seleccione una muestra aleatoria utilizando los números aleatorios del Apéndice E.
c. Una muestra debe incluir a cada quinto médico. El número 04 se selecciona como pun-
to de partida. ¿Con qué médicos se debe establecer contacto?
d. Una muestra debe consistir en dos médicos que tienen consultorio propio (P), dos que
tienen un socio (S) y uno que tiene un consultorio en grupo (G). Seleccione la muestra
correspondiente. Explique su procedimiento.
21. ¿Qué es el error de muestreo? ¿El valor de una muestra puede ser cero? Si fuera cero,
¿qué significaría?
22. Mencione las razones del muestreo y dé un ejemplo de cada una.
23. Se va a realizar una encuesta entre los bancos comerciales en la Región III. Algunos de
ellos son muy grandes, con activos superiores a $500 millones; otros son medianos, con ac-
tivos entre $100 millones y S500 millones; y los bancos restantes tienen activos menores de
$100 millones. Explique cómo seleccionaría una muestra de estos bancos.
24. Urban Plastic Products, Inc., se preocupa por el diámetro interno de la tubería de plástico
que produce. Una máquina extruye la tubería que después se corta en tramos de 10 pies de
largo. Durante un lapso de dos horas, se producen alrededor de 720 tuberías por máquina.
¿Cómo procedería para tomar una muestra del periodo de producción de dos horas?
25. Un estudio acerca de las instalaciones en los moteles de Rock Hills, Carolina del Sur, de
mostró que hay 25 instalaciones. La oficina de convenciones y visitantes de la ciudad está
estudiando el número de habitaciones con que cuenta cada instalación. A continuación apa
recen los resultados:
Métodos de muestreo y el teorema del límite central 277
a. Utilizando una labia de números aleatorios (Apéndice E), seleccione una muestra alea
toria de cinco motetes de esta población.
b. Obtenga una muestra aleatoria seleccionando al azar un punto de partida entre tos pri-
meros cinco moteles y después seleccione cada quinto motel.
c. Suponga que los últimos cinco motetes son establecimientos con "tarifas rebajadas”.
Describa cómo seteeclonarfa uria muestra aleatoria de tres moteles con tarifas conven
cionales y dos motetes con tarifas rebajadas.
26. Como parte de su programa de servicio a clientes, United Airlines seleccionó en forma alea-
toria 10 pasajeros de vuelo del día de hoy Chicago-Tampa de las nueve de la mañana. A
cada pasajero en la muestra se te hará una entrevista a fondo con respecto a instalaciones,
servicios, alimentos, etcétera, en tos aeropuertos. Para identificar la muestra, a cada pasa-
jera se le proporciono un número al abordar la aeronave. Los números comenzaron por el
001 y terminaron con el 250.
a. Seleccione al azar 10 números utilizando el Apéndice E.
b. La muestra de 10 podría Haberse seleccionado utilizando una muestra sistemática. Es-
coja el primer número usando el Apéndice E, y luego mencione los números a los que
se va a entrevistar.
c. Evalúe los dos métodos mencionando (as ventajas y las posibles desventajas.
d. ¿De qué otra manera se podría seleccionar una muestra aleatoria de los 250 pasajeros?
27. Suponga que m profesor de estadística le hizo seis exámenes a lo largo del semestre. Us-
ted recibió las siguientes calificaciones (porcentaje corregido): 79, 64,84, 82, 92 y 77. En lu-
gar de promediar las seis calificaciones, el profesor le indicó que escogería dos de ellas al
azar y reportaría esa catitearon a la oficina de registro de calificaciones de los estudiantes.
a. ¿Cuántas muestras distintas de dos calificaciones son posibles?
b. Mencione todas las muestras posibles de tamaño dos y calcule la media de cada una.
c. Calcule la media de las medias de la muestra y compárela con la media de la población.
e. Si usted fuera estudiante, ¿le gustaría éste arreglo? ¿Sería diferente el resultado al eli-
minar la calificación más baja? Redacte un informe breve.
28. En la oficina del centro de la ciudad del First National Bank hay cinco cajeros automáticos,
La semana pasada cada uno de los cajeros cometieron el siguiente número de errores: 2,
3,5,
a. ¿Cuántas muestras distintas de dos cajeros son posibles?
b. Escriba todas las muestras posibles de tamaño 2 y calcule la media de cada una.
c. Calcule te media de las medias de las muestras y compárela con la media de la población
21. El departamento de control de calidad emplea a cinco técnicos durante el turno matutino. A
continuación presentamos el número de veces que cada técnico le ordenó al supervisor
de producción que interrumpiera el proceso de producción durante la última semana.
a. ¿Cuál es la probabilidad de que la media de las muestras esté entre $17 y $20?
b. ¿Qué debe suponer para hacer el cálculo anterior?
37. Crossett Trucking Company afirma que el peso medio de sus camiones cuando están total
mente cargados es 6 000 libras, y la desviación estándar es 150 libras. Suponga que la po-
blación sigue la distribución normal. Se seleccionan al azar 40 camiones y se pesan.
¿Dentro de qué límites ocurrirá 95% de las medias de la muestra?
38. La cantidad media de abarrotes que compra cada cliente en Churchill Grocery Store es
$23.50. La población tiene un sesgo positivo y no se conoce la desviación estándar. Res
ponda las siguientes preguntas para una muestra de 50 clientes.
a. Si la desviación estándar de la muestra es $5.00, ¿cuál es la probabilidad de que la me
dia de las muestras sea por lo menos $25.00?
b. Una vez más, suponga que la desviación estándar de la media es $5. ¿Cuál es la pro-
babilidad de que la media de la muestra sea mayor que $22.50 pero menor que $25.00?
c. Otra vez. suponga que la desviación estándar de la media es $5. ¿Dentro de qué lími-
tes ocurrirá 90% de las medias de las muestras?
39. La calificación SAT media para estudiantes atletas es 947 con una desviación estándar de
205. Sí selecciona una muestra aleatoria de 60 de estos estudiantes, ¿cuál es la probabili-
dad de que la media esté por debajo de 900?
40. Suponga que lanzamos un dado en dos ocasiones.
a. ¿Cuántas muestras posibles hay?
b. Escriba cada una de las muestras posibles y calcule la media.
c. En una gráfica similar a la Gráfica 8-1. compare la distribución de las medias de las
muestras con la distribución de la población.
d. Calcule la media y la desviación estándar de cada distribución y compárelas.
41. La siguiente tabla menciona los datos más recientes disponibles acerca de los ingresos per-
sonales per cápita (en dólares) para cada uno de los 50 estados.
a. Quiere seleccionar un rango de 8 de esta lista. Los números aleatorios seleccionados son
45. 15, 81. 09. 39, 43, 90, 26, 06, 45, 01 y 42. ¿Qué estados se incluyen en la muestra?
b. Quiere utilizar una muestra sistemática de cada sexto elemento y el dígito 02 se esco
ge como punto de partida. ¿Qué estados se incluyen?
c. Se va a seleccionar una muestra con un estado de cada región. Describa con detalle
cómo efectuaría el proceso de muestreo. Es decir, mencione los números aleatorios
que seleccionó y los estados correspondientes que incluye en su muestra.
280 Capítulo 8
exercises.com
42. Necesita encontrar el dividendo anual "típico" o medio por acción para bancos de gran ta-
maño. Usted decidió manejar una muestra de 6 bancos que aparecen en la Bolsa de Valo-
res de Nueva York. A continuación se presentan estos bancos y su símbolo comercial.
a. Después de numerar los bancos de 01 a 26, ¿qué bancos se incluirían en la muestra si los
números aleatorios fueran 14, 08, 24, 25, 05, 44, 02 y 227? Visite el siguiente sitio en la
Web: http://www.quicken.com. Ingrese el símbolo comercial correspondiente a cada uno
de los bancos de la muestra y registre el Dividendo Anual por acción (dividendo anual/par-
ticipación). Determine el dividendo anual medio por acción para la muestra de bancos.
b. ¿Qué bancos se seleccionan si utiliza una muestra sistemática de cada cuarto banco
empezando por el número aleatorio 03?
43. Existen varios sitios web que reportan las 30 acciones que componen el índice Industrial Dow
Jones (DJIA, por sus siglas en inglés). Uno de éstos es www.dbc.com/dbcfiles/dowt.html. Cal-
cule la media de las 30 acciones.
a. Utilice una tabla de números aleatorios, como el Apéndice E, para seleccionar una
muestra aleatoria de cinco compañías que componen el DJIA. Calcule la media de la
muestra. Compare la media de la muestra con la media de la población. ¿Qué encon
tró? ¿Qué esperaba encontrar?
b. No debe esperar encontrar que la media de estas 30 acciones sea la misma que el DJIA
actual. Visite el sitio web del Dow Jones en http://averages.dowjones.com/j-p/index.jsp
y lea los motivos.
44. Consulte los datos Real Estáte, que proporcionan información acerca de las casas que se
vendieron en el área de Denver durante el último año.
a. Calcule la media y la desviación estándar de la distribución de los precios de venta de
las casas. Suponga que ésta es la población. Desarrolle un histograma de los datos.
Con base en este histograma, ¿parecería razonable llegar a la conclusión de que la po-
blación de precios de venta sigue la distribución normal?
b. Supongamos una población normal. Seleccione una muestra de 10 casas. Calcule la
media y la desviación estándar de la muestra. Determine la posibilidad de encontrar una
media de la muestra de este tamaño o más grande con respecto a la población.
45. Consulte los datos CÍA, que reportan información demográfica y económica acerca de 46
países. Seleccione una muestra aleatoria de 10 países. Calcule para esta muestra el pro-
ducto interno bruto (PIB) per cápita. Repita este proceso de muestreo y cálculo cinco veces
más. Luego, encuentre la media y la desviación estándar de sus seis medias de la muestra.
a. Compare esta media y esta desviación estándar con la media y la desviación estándar
de la "población" original de 46 países
b. Elabore un histograma de las seis medias y analice si la distribución es normal.
c. Suponga que la distribución de la población es normal. Para la primera media de la
muestra que calculó, determine la posibilidad de encontrar una media de la muestra de
este tamaño o más grande con respecto a la población.
Métodos de muestreo y el teorema del límite central 281
Introducción
En el capítulo anterior empezamos a estudiar la inferencia estadística; en él se introdujeron
las razones y métodos del muestreo. Las razones del muestreo son:
• Estudiar toda la población tomaría mucho tiempo.
• El costo de estudiar todos los elementos de la población a menudo es muy alto.
• Casi siempre, los resultados de la muestra son adecuados.
• La naturaleza destructiva de ciertas pruebas.
• La imposibilidad física de revisar todos los elementos.
Hay varios métodos de muestreo. El muestreo aleatorio simple es el que se utiliza con
mayor frecuencia. Con éste, cada miembro de la población tiene la misma oportunidad de
que se le seleccione como parte de la muestra. Otros métodos de muestreo incluyen mues-
treo sistemático, muestreo estratificado y muestreo por conglomerados.
El Capítulo 8 supone información acerca de la población, como la media, la desviación
estándar o la forma de la población. En la mayor parte de las situaciones de negocios, esta
información no está disponible. De hecho, el propósito del muestreo puede ser calcular
algunos de estos valores. Por ejemplo, usted selecciona una muestra de una población y
usa la media de la muestra para calcular la media poblacional.
Este capítulo considera varios aspectos importantes del muestreo. Empezamos por estu-
diar los estimadores puntuales. Un estimador puntual es un valor en particular que se utiliza
para calcular el valor de una población. Por ejemplo, suponga que seleccionamos una mues-
tra de 50 ejecutivos y preguntamos a cada uno el número de horas que trabajó la semana pa-
sada. Calcule la media de esta muestra de 50 y use su valor como estimador puntual de la
media poblacional desconocida. Sin embargo, un estimador puntual es un solo valor. Una ma-
nera más práctica es presentar un rango de valores en los que esperamos que ocurra el pa-
rámetro de la población. Este rango de valores se conoce como intervalo de confianza.
Con frecuencia, en los negocios, necesitamos determinar el tamaño de una muestra.
¿Cuántos votantes debe contactar una compañía de encuestas para proyectar los resulta-
dos de las elecciones? ¿Cuántos productos necesitamos examinar para garantizar nuestro
nivel de calidad? Este capítulo también desarrolla una estrategia para determinar el tama-
ño apropiado de la muestra.
1. El turismo es una fuente importante de ingresos para muchos países del Caribe, como
Barbados. Supongamos que la Oficina de Turismo de Barbados quiere un estimado de
la cantidad media que gastan los turistas que visitan el país. Por tanto, 500 turistas se
seleccionan al azar en el momento en que salen del país y se les preguntan los deta-
lles de los gastos que hicieron durante su visita a la isla. La cantidad media que gasta
la muestra de 500 turistas es un estimado del parámetro poblacional desconocido. Es
decir, la media de la muestra, sirve como estimado de la media poblacional,
2. Centex Home Builders, Inc., construye casas de calidad en la región sureste de Esta
dos Unidos. Una de las principales preocupaciones de los compradores es la fecha en
que las casas se van a terminar de construir. En fechas recientes, Centex ha dicho a
sus clientes: "Su casa estará lista 45 días hábiles a partir de la fecha en que empece-
284 Capítulo 9
Por ejemplo, calculamos que el ingreso anual promedio para los trabajadores de la
construcción en el área de Nueva York y Nueva Jersey es $65 000. El rango de este esti-
mador puede ser de $61 000 a $69 000. Podemos describir la confianza que tenemos en
que el parámetro de la población se encuentre en el intervalo haciendo una declaración de
probabilidad. Podemos decir, por ejemplo, que estamos 90% seguros de que el ingreso
anual medio de los trabajadores de la construcción en Nueva York y Nueva Jersey es en-
tre $61 000 y $69 000.
La información desarrollada acerca de la forma de la distribución muestral de medias,
es decir, la distribución de muestreo de nos permite ubicar un intervalo que tiene una
probabilidad específica de contener la media poblacional, Para muestras
razonablemente grandes, los resultados del teorema del límite central nos permiten
afirmar lo siguiente:
1. Del total de las medias de las muestras de una población 95% estarán a ± 1.96 desvia-
ciones estándar de la media poblacional
2. Del total de las medias de las muestras 99% se encontrarán a ± 2.58 desviaciones es-
tándar de la media poblacional.
La desviación estándar a la que aquí nos referimos es la desviación estándar de la dis-
tribución muestral de medias. Por lo regular, se conoce como "error estándar". A los inter-
valos calculados de esta manera se les llama intervalo de confianza de 95% e intervalo
Estimación e intervalos de confianza 285
de confianza de 99%. ¿Cómo se obtienen los valores de 1.96 y 2.58? Los valores 95% y 99%
se refieren a intervalos creados en forma similar que incluyen el parámetro que se va a calcular.
Por ejemplo, 95% se refiere al 95% intermedio de las observaciones. Por tanto, el 5% restante
se divide en dos partes iguales entre las dos colas. Vea el diagrama siguiente.
El teorema del límite central, que estudiamos en el capítulo anterior, establece que la
distribución muestral de medias es aproximadamente normal cuando la muestra contiene
por lo menos 30 observaciones. Por tanto, podemos utilizar el Apéndice D para encontrar
los valores de z apropiados. Localice 0.4750 en el cuerpo de la tabla. Lea los valores de hi-
lera y columna correspondientes. El valor es 1.96. Por tanto, la probabilidad de encontrar
un valor de z entre 0 y 1.96 es 0.4750. De modo similar, la probabilidad de que esté en el
intervalo entre -1.96 y 0 también es 0.4750. Al combinar estas dos, la probabilidad de que
esté en el intervalo -1.96 a 1.96 es 0.9500. En la página siguiente, se encuentra una parte
del Apéndice D. El valor de z para el nivel de confianza del 90% se determina en forma si-
milar y es 1.65. Para un nivel de confianza de 99%, el valor de z es 2.58.
¿Cómo calcula usted un intervalo de confianza del 95%? Suponga que su investigación
comprende el salario inicial anual de los estudiantes de contabilidad con licenciatura. Cal-
cule que la media de la muestra es $39 000 y la desviación estándar (es decir, el "error es-
tándar") de la media de la muestra es $200. Supongamos que su muestra contiene por lo
menos 30 observaciones. El intervalo de confianza de 95% está entre $38 608 y $39 392,
calculado así: $39 000 ± 1.96($200). Si se seleccionaran 100 muestras del mismo tamaño
de la población de interés y se determinaran los 100 intervalos de confianza determinados,
podremos encontrar la media de la población en 95 de los 100 intervalos de confianza.
En el ejemplo anterior, el error estándar de la distribución muestral de medias es $200.
Desde luego, éste es el error estándar de las medias de la muestra, que estudiamos en el
capítulo anterior. Vea la fórmula (8-1) para los casos en los que está disponible la desvia-
ción estándar de la población. En la mayor parte de las situaciones aplicadas, la desviación
estándar de la población no está disponible, de modo que la calculamos como sigue:
El tamaño del error estándar se ve afectado por dos valores. El primero es la desviación es-
tándar. Si ésta es grande, el error estándar también lo será. Sin embargo, el error estándar
también se ve afectado por el tamaño de la muestra. Conforme aumenta este último, el error
estándar disminuye, indicando que hay menos variabilidad en la distribución de la muestra
de la media de la muestra. Esta conclusión es lógica, porque un estimado que se hace con
una muestra grande debe ser más preciso que aquel que se hace a partir de una muestra
pequeña.
286 Capítulo 9
De manera similar, el intervalo de confianza del 99% se calcula como sigue. Una vez más,
suponemos que el tamaño de la muestra es por lo menos de 30.
Como dijimos antes, los valores 1.96 y 2.58 son los valores de z que corresponden al 95%
intermedio y al 99% intermedio de las observaciones, respectivamente.
Podemos utilizar otros niveles de confianza. Para esos casos, el valor de z cambia en
forma correspondiente. En general, un intervalo de confianza para la media de la población
se calcula así:
donde z depende del nivel de confianza. Por tanto, para un nivel de confianza de 92%, el
valor de zen la fórmula (9-1) es 1.75. El valor de zse toma del Apéndice D. Esta tabla se
Estimación e intervalos de confianza 287
basa en la mitad de la distribución normal, de modo que 0.9200/2 = 0.4600. El valor más
cercano en el cuerpo de la tabla es 0.4599 y el valor z correspondiente es 1.75.
Con frecuencia, también utilizamos el nivel de confianza de 90%. En este caso, quere-
mos que el área entre 0 y z sea 0.4500, que se calcula así: 0.9000/2. A fin de encontrar el
valor z para este nivel de confianza, muévase hacia abajo en la columna de la izquierda del
Apéndice D hasta 1.6 y luego por las columnas con los encabezados 0.04 y 0.05. El área
que corresponde a un valor z de 1.64 es 0.4495, y para 1.65 es 0.4505. Para ser conserva-
dores, utilizamos 1.65. Trate de buscar los niveles de confianza siguientes y verifique sus
respuestas con los valores z correspondientes que se dan del lado derecho.
El ejemplo siguiente muestra los detalles para calcular un intervalo de confianza e in-
terpretar el resultado.
En general, las distribuciones de los salarios e ingresos tienen un sesgo positivo, ya que po-
cos individuos ganan mucho más que otros, por lo que la distribución tiene un sesgo en di-
rección positiva. Por suerte, el teorema del límite central señala que si seleccionamos una
muestra grande, la distribución de las medias de ésta seguirá la distribución normal. En este
ejemplo, con una muestra de 256 gerentes intermedios (recuerde que, por lo general, 30
son suficientes), podemos tener la seguridad de que la distribución de la muestra seguirá la
distribución normal.
Otro aspecto es que la desviación estándar poblacional no se conoce. Una vez más, es
práctica común utilizar la desviación estándar de la muestra cuando tenemos una muestra
grande. Ahora, para responder a las preguntas que se formulan en el problema:
La práctica común consiste en redondear estos puntos extremos a $45 169 y $45 671.
Estos puntos se conocen como límites de confianza. El grado de confianza o el nivel de
confianza es 95% y el intervalo de confianza es de $45 169 a $45 671. 3.
¿Qué significan estos resultados? Supongamos que seleccionamos varias muestras de
256 gerentes, quizá varios cientos. Para cada muestra, calculamos la media y la
288 Capítulo 9
desviación estándar y luego creamos un intervalo de confianza del 95%, como lo hici-
mos en la sección anterior. Podríamos esperar que alrededor del 95% de estos inter-
valos de confianza contengan el ingreso anual medio de la población. Alrededor de 5%
de los intervalos contendrán el ingreso anual medio poblacional, que es μ. Sin embar-
go, un intervalo de confianza en particular contiene o no el parámetro poblacional. El
diagrama siguiente ilustra los resultados de seleccionar muestras de la población de
gerentes intermedios en la industria detallista, calculando la media de la desviación es-
tándar de cada una y utilizando la fórmula (9-1) para determinar un intervalo de con-
fianza del 95% para la media poblacional. Los dos puntos extremos de la quinta
muestra son menores que la media de la población. Lo anterior lo atribuimos al error de
muestreo, y es el riesgo que corremos al seleccionar el nivel de confianza.
Tras varios años de participar en el negocio de renta de autos, Town Bank sabe que la
distancia media recorrida en una renta durante cuatro años es de 50 000 millas y la desvia-
ción estándar es 5 000. Supongamos que, con el uso del software estadístico MINITAB,
queremos encontrar la proporción de los intervalos de confianza de 95% que va a incluir la
media de la población de 50. Para facilitar los cálculos, realizaremos el estudio en miles de
millas, en lugar de millas. Seleccionamos 60 muestras aleatorias de 30 de una población
con una media de 50 y una desviación estándar de 5.
no incluían la media poblacional de 50. Los intervalos (C3 y C59) que no incluyen la media de
la población están marcados. El porcentaje de 3.33 se aproxima al estimado de que 5% de
los intervalos no incluyen la media de la población, y 58 de 60, o 96.67%, se aproximan a 95%.
Para explicar el primer cálculo con mayor detalle: MINITAB empezó por seleccionar una
muestra aleatoria de 30 observaciones de una población con una media de 50 y una des-
viación estándar de 5. La media de estas observaciones es 50.053. El error de muestreo es
0.053, calculado asi: Los puntos extremos del intervalo de con-
fianza son 48.264 y 51.842. Estos puntos extremos se determinan utilizando la formula (9-1),
pero utilizando σ en lugar de s.
290 Capítulo 9
Autoevaíuación 9-1 Las ventas diarias medias en Bun-and-Run, un restaurante de comida rápida, son de $20 000
para una muestra de 40 días. La desviación estándar de la muestra es $3 000.
(a) ¿Cuáles son las ventas diarias medias estimadas de la población? ¿Cómo se llama el es
timador?
(b) ¿Cuál es el intervalo de confianza de 99%?
(c) Interprete sus resultados.
Ejercicios
1. Una muestra de 49 observaciones se toma de una población normal. La media de la muestra
es 55, y la desviación estándar de la muestra es 10. Determine el intervalo de confianza de
99% para la media de la población.
2. Una muestra de 10 observaciones se selecciona de una población normal para la que se sa-
be que la desviación estándar poblacional es 5. La media de la muestra es 20.
a. Determine el error estándar de la media.
b. Explique por qué podemos utilizar la fórmula (9-1) para determinar el intervalo de con
fianza de 99% aun cuando la muestra sea menor que 30.
c. Determine el intervalo de confianza de 95% para la media de la población.
4. Suponga que quiere un nivel de confianza de 85%. ¿Qué valor de z utilizaría para multipli-
car el error estándar de la media?
5. Una empresa de investigación realizó una encuesta para determinar la cantidad media que
los fumadores gastan en cigarrillos durante una semana. Una muestra de 49 fumadores re-
veló que $20 y s = $5.
a. ¿Cuál es el estimador puntual de la media de la población? Explique qué indica.
b. Utilizando el nivel de confianza de 95%, determine el intervalo de confianza para μ. Ex-
plique qué indica.
6. Refiérase al ejercicio anterior. Suponga que la muestra es de 64 fumadores (en lugar de 49),
y que la media y la desviación estándar de la muestra siguen siendo las mismas ($20 y $5,
respectivamente).
a. ¿Cuál es el estimador de ¡i que corresponde al intervalo de confianza de 95%?
b. Explique por qué este intervalo de confianza es más angosto que el que determinamos
en el ejercicio anterior.
7. Bob Nale es el propietario de Nale's Texaco GasTown. Bob quiere estimar el número medio
de galones de gasolina vendidos a sus clientes. De sus registros, selecciona una muestra
aleatoria de 60 ventas y encuentra que el número medio de galones vendidos es 8.60 y la
desviación estándar es 2.30 galones.
Estimación e intervalos de confianza 291
Debido a que la distribución t de Student tiene mayor extensión que la distribución normal,
el valor para t en un nivel de confianza determinado es mayor que los valores de z corres-
pondientes. La Gráfica 9-2 muestra los valores de z para un nivel de confianza del 95% y
de t para el mismo nivel de confianza cuando el tamaño de la muestra es n = 5. En breve
explicaremos cómo obtuvimos el valor real de t. Por el momento, observe que, para el mis-
mo nivel de confianza, la distribución t es más plana y extendida que la distribución normal
estándar.
El ejemplo siguiente ilustra un intervalo de confianza para una media de la población cuan-
do se conoce la desviación estándar poblacional y cómo encontrar el valor de t en una tabla.
Los puntos extremos del intervalo de confianza son 0.256 y 0.384. ¿Cómo interpretamos
este resultado? Es razonable llegar a la conclusión de que la media de la población está en
este intervalo. El fabricante puede estar seguro (confianza de 95%) de que la profundidad
media de las cuerdas es entre 0.256 y 0.384 pulgadas. Debido a que el valor de 0.30 se en-
cuentra en este intervalo, es posible que la media de la población sea 0.30.
Éste es otro ejemplo para explicar el uso de los intervalos de confianza. Suponga que
un artículo publicado en el periódico de su localidad informa que el tiempo medio para ven-
der una propiedad residencial en el área es de 60 días. Usted selecciona una muestra alea-
toria de 20 casas vendidas durante el último año y encuentra que el tiempo de venta medio
es de 65 días. Con base en los datos de la muestra, usted desarrolla un intervalo de con-
Estimación e intervalos de confianza 295
fianza del 95% para la media de la población, y encuentra que los puntos extremos son 62
y 68 días. ¿Cómo interpreta este resultado? Puede tener la confianza de que la media de la
población se encuentra en este rango. El valor propuesto para la media de la población, es
decir 60 días, no se incluye en el intervalo. No es probable que la media de la población sea
60 días. Las evidencias indican que la afirmación del periódico local puede no ser correcta.
En otras palabras, parece poco razonable obtener la muestra de una población que tenía
un tiempo de venta medio de 60 días.
El ejemplo siguiente ilustra detalles adicionales para determinar e interpretar un inter-
valo de confianza. Utilizamos MINITAB para realizar los cálculos.
El gerente del centro comercial supone que la población de las cantidades gastadas por los
clientes sigue la distribución normal. En este caso ésta es una suposición razonable. Además,
la técnica del intervalo de confianza es muy poderosa y tiende a incluir cualquier error en el
lado conservador si la población no es normal. No debemos suponer una condición normal
cuando la población presenta un sesgo muy pronunciado o cuando la distribución tiene "colas
gruesas". En el Capítulo 16, presentamos los métodos para manejar este problema en caso
de no poder suponer una condición normal. En este caso, esta suposición es razonable.
La desviación estándar de la población no se conoce y el tamaño de la muestra es me-
nor que 30. De ahí que sea apropiado usar la distribución t y la fórmula (9-2) para encon-
trar el intervalo de confianza. Utilizamos el sistema MINITAB para encontrar la media y la
desviación estándar de esta muestra. Los resultados se muestran a continuación.
296 Capítulo 9
Los puntos extremos del intervalo de confianza son $45.13 y $53.57. Es razonable llegar a
la conclusión de que la media de la población se encuentra en ese intervalo.
El gerente de Inlet Square se preguntaba si la media de la población podría ser $50 o
$60. El valor de $50 se encuentra en el intervalo de confianza; por lo que es razonable que
la media de la población sea $50. El valor de $60 no está en el intervalo de confianza. Por
tanto, llegamos a la conclusión de que no es probable que la media de la población sea $60.
Autoevaluación 9-2 Dottie Kleman es la "Cookie Lady". Hornea y vende galletas en 50 lugares diferentes del área
de Filadelfia. La señora Kleman se preocupa por el ausentismo entre sus trabajadores. La in-
formación siguiente reporta el número de ausencias para una muestra de 10 empleados du-
rante el último periodo de pago de dos semanas.
Ejercicios
9. Use el Apéndice F para localizar el valor de t en las siguientes condiciones.
a. El tamaño de la muestra es 12 y el nivel de confianza es 95%.
b. El tamaño de la muestra es 20 y el nivel de confianza es 90%.
c. El tamaño de la muestra es 8 y el nivel de confianza es 99%.
10. Utilice el Apéndice F para localizar el valor de t en las condiciones siguientes.
a. El tamaño de la muestra es 15 y el nivel de confianza es 95%.
b. El tamaño de la muestra es 24 y el nivel de confianza es 98%.
c. El tamaño de la muestra es 12 y el nivel de confianza es 90%.
11. El dueño de Brittne's Egg Farm quiere calcular el número medio de huevos que pone una
gallina. Una muestra de 20 gallinas indica que ponen un promedio de 20 huevos al mes con
una desviación estándar de 2 huevos por mes.
a. ¿Cuál es el valor de la media de la población? ¿Cuál es el mejor estimador de este valor?
b. Explique por qué necesitamos usar la distribución t ¿Qué suposición debe hacer?
c. Para un intervalo de confianza del 95%, ¿cuál es el valor de t?
d. Desarrolle el intervalo de confianza del 95% para la media de la población.
e. ¿Sería razonable llegar a la conclusión de que la media de la población es 21 huevos?
¿Qué tal 25 huevos?
12. La American Sugar Producers Association quiere calcular el consumo de azúcar medio
anual. Una muestra de 16 personas revela que el consumo medio anual es de 60 libras con
una desviación estándar de 20 libras.
Estimación e intervalos de confianza 297
Desarrolle un intervalo de confianza del 90% para la media de la población. Interprete el re-
sultado.
14. The Greater Pittsburgh Área Chamber of Commerce quiere estimar el tiempo medio que los
empleados que trabajan en el centro de la ciudad tardan en llegar a su trabajo. Una mues-
tra en 15 empleados reveló los siguientes minutos.
Desarrolle un intervalo de confianza del 98% para la media de la población. Interprete el re-
sultado.
Estos ejemplos ilustran la escala de medición nominal. En ésta, una observación se clasifi-
ca en uno de dos o más grupos mutuamente excluyentes. Por ejemplo, un alumno gradua-
do de Southern Tech puede entrar en el mercado en un puesto relacionado con su área de
estudio o no. Un cliente de Burger King en particular puede hacer una compra en la venta-
na de servicio en el auto o no. Sólo hay dos posibilidades y el resultado se debe clasificar
en uno de los dos grupos.
Como ejemplo de una proporción, una encuesta reciente indicó que 92 de cada 100 en-
trevistados estuvieron a favor del uso continuo de la hora de verano para ahorrar energía.
La proporción de la muestra es 92/100, o 0.92, o 92%. Si p representa la proporción de la
muestra, X el número de "éxitos" y n el número de elementos en la muestra, podemos de-
terminar la proporción de la muestra como sigue.
Primero, calcule la proporción de la muestra a partir de la fórmula (9-3). Es 0.80, que se calculó
como sique:
Por tanto, calculamos que 80% de la población está a favor de la propuesta de fusión. De-
terminamos el intervalo de confianza del 95% utilizando la fórmula (9-6). El valor de z que
corresponde al nivel de confianza del 95% es 1.96.
Los puntos extremos del intervalo de confianza son 0.782 y 0.818. El punto extremo más
bajo es mayor que 0.75. De modo que llegamos a la conclusión de que es probable que se
apruebe la propuesta de la fusión porque el estimador del intervalo incluye valores mayo-
res al 75% de los miembros del sindicato.
Autoevaluación 9-3 Se realizó una encuesta de mercado para calcular la proporción de amas de casa que reco-
nocen la marca de un limpiador con base en la forma y el color del envase. De las 1 400 amas
de casa en la muestra, 420 identificaron la marca por su nombre.
(a) Calcule el valor de la proporción de la población.
(b) Calcule el error estándar de la proporción.
(c) Desarrolle un intervalo de confianza del 99% para la proporción de la población.
(d) Interprete sus resultados.
Ejercicios
15. El dueño de West End Kwick Fill Gas Station quería determinar la proporción de clientes que
usan tarjeta de crédito o débito para pagar la gasolina en el área de bombas. Entrevistó a
100 clientes y descubrió que 80% pagaron en el área de bombas.
a. Calcule el valor de la proporción de la población.
b. Calcule el error estándar de la proporción.
c. Desarrolle un intervalo de confianza del 95% para la proporción de la población.
d. Interprete sus resultados.
16. La señorita Maria Wilson considera la posibilidad de postularse para alcalde de la ciudad de
Bear Gulch, Montana. Antes de solicitar la postulación, decide realizar una encuesta entre
los votantes de Bear Gulch. Una muestra de 400 votantes revela que 300 la apoyarían en
las elecciones de noviembre.
a. Calcule el valor de la proporción de la población.
b. Calcule el error estándar de la proporción.
c. Desarrolle un intervalo de confianza del 99% para la proporción de la población.
d. Interprete sus resultados.
17. La red Fox TV considera el reemplazo de uno de sus programas de investigación criminal
que pasa en las horas de mayor rating con un programa de comedia nuevo orientado hacia
la familia. Antes de tomar una decisión definitiva, los ejecutivos de la red estudian una mues-
tra de 400 televidentes. Después de ver el programa de comedia, 250 señalaron que lo ve-
rían y sugirieron reemplazar el programa de investigación criminal.
a. Calcule el valor de la proporción de la población.
b. Calcule el error estándar de la proporción.
300 Capítulo 9
Este ajuste se conoce como factor de corrección para poblaciones finitas. ¿Por qué es
necesario aplicar un factor y qué efecto tiene? Lógicamente, si la muestra es un porcentaje
significativo de la población, el estimador es más preciso. Observe el efecto del término (N
- n)l(N- 1). Suponga que la población es 1 000 y la muestra es 100. Entonces, esta razón
es (1 000 - 100)/(1 000 - 1), o 900/999. La raíz cuadrada da el factor de corrección,
0.9492. Si multiplicamos este factor de corrección por el error estándar este último se redu-
ce alrededor de 5% (1 - 0.9492 = 0.0508). Esta reducción en el tamaño del error estándar
produce un rango de valores más pequeño al estimar la media de la población o la propor-
ción de la población. Si la muestra es 200, el factor de corrección es 0.8949, que significa
que el error estándar se redujo más de 10%. La tabla 9-1 muestra los efectos de los distin-
TABLA 9-1 Factor de corrección de la población finita para muestras seleccionadas cuando la población
es 1 000
Estimación e intervalos de confianza 301
En Scandia, Pennsylvania, hay 250 familias. Una encuesta entre 40 familias revela que la
contribución media anual a la iglesia es de $450, con una desviación estándar de $75. Ela-
bore un intervalo de confianza del 90% para la contribución media anual.
Primero, observe que la población es finita. Es decir, hay un límite para el número de per-
sonas en Scandia. En segundo lugar, observe que la muestra constituye más de 5% de la
población; es decir, n/N - 40/250 = 0.16. Por consiguiente, utilizamos el factor de correc-
ción de población finita. El intervalo de confianza del 90% se construye como sigue, utili-
zando la fórmula (9-7).
Los puntos extremos del intervalo de confianza son $432.03 y $467.97. Es probable que la
media de la población se encuentre en este intervalo.
Autoevaluación 9-4 El mismo estudio de las contribuciones a la iglesia en Scandia reveló que 15 de las 40 fami-
lias de la muestra asisten a la iglesia en forma regular. Elabore un intervalo de confianza del
95% para la proporción de familias que asisten a la iglesia regularmente. ¿Se debe usar el
factor de corrección de población finita? ¿Por qué sí o por qué no?
Ejercicios
19. De una población de 300 se selecciona una muestra al azar de tamaño 36. La media de la
muestra es 35 y la desviación estándar de la muestra es 5. Desarrolle un intervalo de con
fianza del 95% para la media de la población.
20. De una población de 550 se selecciona una muestra al azar de tamaño 45. La media de la
muestra es 40 y la desviación estándar de la muestra es 9. Desarrolle un intervalo de con
fianza del 99% para la media de la población.
21. Anoche la asistencia al juego de la liga menor de béisbol de los Savannah Colts fue de 400.
Una muestra aleatoria de 50 personas que asistieron reveló que el número medio de refres-
cos consumidos por cada una fue 1.86, con una desviación estándar de 0.50. Desarrolle un
intervalo de confianza del 99% para el número medio de refrescos consumidos por persona.
22. Hay 300 soldadores empleados en Maine Shipyards Corporation. Una muestra de 30 solda-
dores reveló que 18 se graduaron en un curso de soldadura. Elabore el intervalo de confian-
za del 95% para la proporción de soldadores que se graduaron en el curso de soldadura.
donde:
n es el tamaño de la muestra.
z es el valor normal estándar correspondiente al nivel de confianza deseado.
s es un estimado de la desviación estándar de la población.
E es el error máximo admisible.
Estimación e intervalos de confianza 303
Un estudiante de administración pública quiere determinar la cantidad media que los miem-
bros de los consejos ciudadanos de las grandes ciudades ganan al mes como remunera-
ción. El error al estimar la media debe ser menor de $100, con un intervalo de confianza del
95%. El estudiante encontró un informe del Departamento del Trabajo en el que la desvia-
ción estándar se calcula en $1 000. ¿Cuál es el tamaño de la muestra requerido?
El error máximo admisible, E, es $100. El valor de z para un nivel de confianza del 95% es
1.96 y el estimador de la desviación estándar es $1 000. Si sustituimos estos valores en la
fórmula (9-9) el tamaño de la muestra requerido es:
El valor calculado de 384.16 se redondea a 385. Para cubrir las especificaciones, se requiere
de una muestra de 385. Si el estudiante quiere aumentar el nivel de confianza, por ejemplo
al 99%, necesitará una muestra más grande. El valor de z que corresponde al nivel de
confianza del 99% es 2.58.
Recomendamos una muestra de 666. Observe el grado en que el cambio en el nivel de con-
fianza afectó el tamaño de la muestra. Un incremento del 95% a 99% en el nivel de confian-
za dio como resultado un aumento de 281 observaciones. Esto podría aumentar en gran
medida el costo del estudio, tanto en términos de tiempo como de dinero. De ahí que el ni-
vel de confianza se deba considerar con detenimiento.
El estudio en el ejemplo anterior también calcula la proporción de las ciudades que tienen
recolectores de basura privados. El estudiante quiere que el estimador esté en 0.10 de la
proporción de la población, que el nivel de confianza sea del 90% y no tomar ninguna esti-
mación disponible para la proporción de la población. ¿Cuál es el tamaño de la muestra que
se requiere?
304 Capítulo 9
Autoevaluación 9-5 ¿Le ayudaría usted al secretario académico de la universidad a determinar cuántas boletas
tiene que estudiar? El secretario quiere calcular el promedio medio aritmético de todos los es-
tudiantes que se graduaron durante los 10 años pasados. Los promedios varían entre 2.0 y
4.0. El promedio medio se va a calcular en 0.05 más o menos de la media de la población. La
desviación estándar se calcula en 0.279. Utilice el nivel de confianza del 99%.
Ejercicios
23. Se calcula que una población tiene una desviación estándar de 10. Queremos estimar la media
de la población en 2 unidades de error máximo admisible, con un nivel de confianza del 95%.
¿Qué tan grande debe ser la muestra?
24. Queremos calcular la media de la población en 5 unidades, con un nivel de confianza del
99%. Se estima que la desviación estándar de la población es 0.05 más o menos, con un
nivel de confianza del 95%. El mejor estimador para la proporción de la población es 0.45.
¿Qué tan grande debe ser la muestra?
25. El estimador de la proporción de la población debe estar entre 0.05 más o menos, con un
nivel de confianza del 95%. El mejor estimador de la proporción de la población es 0.15.
¿Qué tan grande debe ser la muestra?
26. El estimador de la proporción de la población debe estar entre 0.10 más o menos, con un
nivel de confianza del 99%. El mejor estimador de la proporción de la población es 0.45.
¿Qué tan grande debe ser la muestra?
27. Se planea realizar una encuesta para determinar la cantidad media de tiempo que los eje
cutivos corporativos ven televisión. Una encuesta piloto indicó que el tiempo medio por se
mana es de 12 horas, con una desviación estándar de 3 horas. Queremos calcular la media
del tiempo en un cuarto de hora como error máximo admisible. Se va a utilizar un nivel de
confianza del 95%. ¿A cuántos ejecutivos tenemos que entrevistar?
28. Un procesador de zanahorias corta las hojas de cada una, lava las zanahorias y las inserta en
un paquete. En una caja se guardan veinte paquetes para su envío. Para controlar el peso de
las cajas, se revisaron unas cuantas. El peso medio fue de 20.4 libras, la desviación estándar
de 0.5 libras. ¿Cuántas cajas debe incluir la muestra para tener una confianza del 95% de que
la media de la muestra no difiere de la media de la población en más de 0.2 libras?
29. Suponga que el presidente quiere un cálculo de la proporción de la población que apoyan
su política actual acerca del control de armas. El presidente quiere que el cálculo esté a 0.04
unidades de la proporción real. Suponga un nivel de confianza del 95%. Los consejeros po-
líticos del presidente calculan que la proporción que apoya la política actual es de 0.60.
a. ¿Qué tamaño de muestra se requiere?
b. ¿Qué tan grande debe ser una muestra si no hay un estimador de la proporción que apo-
ya la política actual?
30. Las encuestas anteriores revelan que 30% de los turistas que van a Las Vegas a jugar du-
rante un fin de semana gastan más de $1 000. La administración quiere actualizar este por-
centaje.
a. El nuevo estudio va a utilizar el nivel de confianza del 90%. El estimador debe estar en
1% de la proporción de la población. ¿Cuál es el tamaño de la muestra necesario?
b. La administración dijo que el tamaño de la muestra que se determinó anteriormente es
muy grande. ¿Qué podemos hacer para reducir la muestra? Con base en su sugerencia,
vuelva a calcular el tamaño de la muestra.
Estimación e intervalos de confianza 305
V. Podemos determinar un tamaño de muestra apropiado para estimar tanto las medias como
las proporciones.
A. Hay tres factores que determinan el tamaño de la muestra cuando queremos estimar la
media.
1. El nivel de confianza deseado, que casi siempre se expresa como z.
2. El máximo error admisible, E.
3. La variación en la población, que se expresa con s.
4. La fórmula para determinar el tamaño de la muestra para la media es
B. Hay tres factores que determinan el tamaño de la muestra cuando queremos estimar
una proporción.
1. El nivel de confianza deseado, que casi siempre se expresa con z.
2. El máximo error admisible, E.
3. Un estimador de la proporción de la población. Si no hay estimador disponible, utilice 0.50.
4. La fórmula para determinar el tamaño de la muestra para una proporción es
VI. Para una población finita, el error estándar se ajusta por el factor
306 Capítulo 9
Clave de pronunciación.
39. Un estudiante dirigió un estudio y reportó que el intervalo de confianza del 95% para la me-
dia varía entre 46 y 54. Estaba seguro de que la media de la muestra es 50, que la desvia-
ción estándar de la muestra es 16 y que la muestra es de por lo menos 30, pero no recordó
el número exacto. ¿Puede ayudarle a calcularlo?
40. Un estudio reciente que llevó a cabo la American Automobile Dealers Association reveló que
la cantidad media de ganancias por auto vendido para una muestra de 20 distribuidores es
$290, con una desviación estándar de $125. Desarrolle un intervalo de confianza del 95%
para la media de la población.
41. Un estudio de 25 graduados de carreras de 4 años que llevó a cabo la American Banker's
Association reveló que la cantidad media que un estudiante tenía en préstamos era $14 381.
La desviación estándar de la muestra es de $1 892. Construya un intervalo de confianza del
90% para la media de la población. ¿Sería razonable llegar a la conclusión de que la media
de la población es en realidad $15 000? Indique por qué sí o por qué no.
42. Un importante factor en la venta de propiedades residenciales es el número de personas
que conocen las casas. Una muestra de 15 casas vendidas recientemente en el área de Buf-
falo, Nueva York, reveló que el número medio de personas que ve cada casa es 24 y la des-
viación estándar de la muestra es 5 personas. Desarrolle un intervalo de confianza del 98%
para la media de la población.
43. En su informe anual, The Warren County Telephone Company afirma que "el cliente típico
gasta $60 al mes en el servicio local y de larga distancia". Una muestra de 12 suscriptores
reveló las cantidades siguientes gastadas el mes pasado.
a. Encuentre el nivel medio de estrés para esta muestra. ¿Cuál es el estimador puntual de
la media de la población?
b. Construya un nivel de confianza del 95% para la media de la población.
c. ¿Sería razonable concluir que los ejecutivos de Internet tienen un nivel medio de estrés
peligroso, según la prueba de la doctora Benner?
46. Furniture Land South entrevistó a 600 consumidores y descubrió que 414 mostraban entu-
siasmo por la decoración de una casa que planea exhibir en su tienda de High Point, Caroli-
na del Norte. Construya un intervalo de confianza del 99% para la proporción de la población.
47. En York County, Carolina del Sur, hay 20 000 votantes. Una muestra aleatoria de 500 vo-
tantes de York County reveló que 350 planean votar por el regreso de Louella Miller al se
nado. Construya un intervalo de confianza del 99% para la proporción de votantes en el
condado que planean votar por la señorita Miller. A partir de la información de esta muestra,
¿es posible confirmar que se va a reelegir?
48. En una encuesta para medir la popularidad del presidente, a cada persona en una muestra
aleatoria de 1 000 votantes se le pidió que marcara una de las afirmaciones siguientes:
1. El presidente hace un buen trabajo.
2. El presidente hace un trabajo deficiente,
3. Prefiero no opinar.
308 Capítulo 9
Un total de 560 entrevistados eligieron la primera afirmación, indicando que consideran que
el presidente hace un buen trabajo.
a. Construya un intervalo de confianza del 95% para la proporción de entrevistados que
piensan que el presidente hace un buen trabajo.
b. Con base en su intervalo en la parte (a), ¿sería razonable llegar a la conclusión de que la
mayoría (más de la mitad) de la población cree que el presidente hace un buen trabajo?
49. Aaron Ard, jefe de policía de River City reporta que el mes pasado se levantaron 500 infrac-
ciones de tránsito. Una muestra de estas 35 infracciones indicaron que la cantidad media de
las multas fue de $54f con una desviación estándar de $4.50. Construya un intervalo de con
fianza del 95% para la cantidad de media de una multa en River City.
50. The First National Bank of Wilson tiene 650 clientes con cuentas de cheques. Una muestra
reciente de 50 de estos clientes indicó que 26 tienen una tarjeta Visa con el banco. Cons-
truya el intervalo de confianza del 99% para la proporción de clientes con cuentas de che-
ques que tienen una tarjeta Visa con el banco.
51. Se calcula que 60% de los hogares estadounidenses están suscritos a un servicio de tele-
visión por cable. Usted quiere verificar esta afirmación para su clase de comunicación ma-
siva. Sí desea que su estimador sea de 5 puntos porcentuales, con un nivel de confianza del
95%, ¿qué tan grande debe ser la muestra?
52. Tiene que estimar el número medio de días al año que están de viaje los vendedores exter-
nos. La media de un estudio piloto menor fue 150 días, con una desviación estándar de 14
días. Si debe estimar la media de la población en 2 días, ¿cuántos vendedores debe incluir
su muestra? Utilice el nivel de confianza del 90%.
53. Va a estudiar una muestra para determinar el ingreso familiar medio en un área rural del
centro de Florida. La pregunta es: ¿cuántas familias se deben incluir en la muestra? En una
muestra piloto de 10 familias, la desviación estándar de la muestra fue $500. El patrocina-
dor de la encuesta quiere utilizar un nivel de confianza del 95%. El estimador deberá ser de
$100. ¿A cuántas familias deberán entrevistar?
54. Planea realizar una encuesta para saber qué proporción de la fuerza laboral tiene dos o más
empleos. Usted decide un nivel de confianza del 95% y afirma que la proporción estimada
debe ser 2% de la proporción de la población. Una encuesta piloto revela que 5 de los 50
participantes en la muestra tienen dos o más empleos. ¿A cuántos miembros de la fuerza
laboral debe entrevistar para cubrir sus requerimientos?
55. La proporción de contadores públicos que han cambiado de empresa en los últimos tres
años se debe calcular en 3%. Es preciso usar el nivel de confianza del 95%. Un estudio rea-
lizado hace varios años reveló que el porcentaje de contadores públicos que cambió de
compañías en tres años fue 21.
a. Para actualizar este estudio, ¿cuál es el número de expedientes de contadores públi-
cos que se deben estudiar?
b. ¿A cuántos contadores públicos se debe contactar si no están disponibles estimadores
anteriores de la proporción de la población?
56. The Huntington National Bank, como la mayoría de los bancos grandes, descubrió que el
uso de los cajeros automáticos reduce el costo de las operaciones bancarias de rutina. Hun-
tington instaló un cajero automático en la oficinas corporativas de Fun Toy Company. Este
cajero es para uso exclusivo de los 605 empleados de Fun. Después de varios meses de
funcionar, una muestra de 100 empleados reveló el siguiente uso del cajero por parte de los
empleados de Fun en un mes.
d. Desarrolle un intervalo de confianza del 95% para el número medio de transacciones a! mes.
e. ¿Es posible que la media de la población sea 0? Explique su respuesta.
57. En una encuesta reciente de Zogby entre 1 000 adultos en todo el país, 613 dijeron que creen
en la existencia de otras formas de vida en alguna otra parte del universo. Construya el inter-
valo de confianza del 99% para la proporción de la población de aquellos que creen en la
existencia de vida en otro lugar del universo. ¿El resultado que obtuvo significa que la mayo-
ría de los estadounidenses creen en la existencia de otra forma de vida fuera de la Tierra?
58. Como parte de una revisión anual de sus cuentas, un corredor selecciona una muestra alea
toria de 36 clientes. Sus cuentas se revisan y se calculó una media de $32 000, con una
desviación estándar de la muestra de $8 200. ¿Cuál es el intervalo de confianza de! 90%
para el valor medio de las cuentas de la población de clientes?
59. Una muestra de 352 suscriptores a la revista Wíred indicó que el tiempo medio invertido en
e! uso de Internet es 13.4 horas por semana, con una desviación estándar de 6.8 horas. En
cuentre el intervalo de confianza del 95% para el tiempo medio que los suscriptores pasan
en Internet.
60. El Tennessee Tourism Institute (TTI) planea manejar la información que proporcione una
muestra de los visitantes que entran al estado para saber cuántos de ellos van a acampar
en el estado. Los cálculos actuales son que 35% de los visitantes acampan. ¿Qué tan gran
de debe ser una muestra para calcular la proporción de la población con un nivel de confian-
za del 95% y un error admisible de 2%?
exercises.com
61. Hoover es una excelente fuente de información de negocios. Incluye resúmenes diarios, así
como datos sobre diversas industrias y compañías específicas. Visite el sitio en
vers.com. Haga cite en Companies and Industries. Luego en Industries en e! siguiente
menú y vaya a Sector y seleccione un Industry Sector, como químicos o ventas al detalle.
Después, elija una industria en el sector Químico. Se abrirá una lista de compañías. Utilice
una tabla de números aleatorios, como en el Apéndice E, para seleccionar al azar de 5 a 10
compañías en la lista. Haga clic en Capsule, y luego en el separador Financiáis para obte-
ner información acerca de las compañías seleccionadas. Una sugerencia es encontrar las
ganancias por acción. Calcule la media de cada muestra, y luego desarrolle un intervalo de
confianza para las ganancias medias por acción. Como la media es una parte importante de la
población, querrá incluir el factor de corrección. Interprete los resultados.
62. La edición en línea del Information Please Almanac es una valiosa fuente de información de
negocios. Vaya al sitio Web en www.infoplease.com. Haga clic en Business. Luego en Al
manac Section, en Taxes y en State Taxes on Individuáis. El resultado es una lista de los
50 estados y el Distrito de Columbia. Utilice una tabla de números aleatorios para seleccio-
nar al azar de 5 a 10 estados. Calcule la tasa fiscal estatal media. Desarrolle un intervalo de
confianza para la cantidad media. Como la muestra es una parte importante de la población,
querrá incluir el factor de corrección de la población finita. Interprete su resultado. Como ejer-
cicio adicional podría descargar toda la información y usar Excel o MINITAB para calcular la
media de la población. Compare ese valor con los resultados de su intervalo de confianza.
65. Consulte los datos Wage, que proporcionan información sobre los salarios anuales para una
muestra de 100 trabajadores. También se incluyen las variables relacionadas con la indus-
tria, los años de educación y el género de cada trabajador.
a. Desarrolle un intervalo de confianza del 95% para el salario medio de los trabajadores.
¿Sería razonable llegar a la conclusión de que la media de la población es $35 000?
b. Desarrolle un intervalo de confianza del 95% para el número medio de años de educa-
ción. ¿Sería razonable pensar que la media de la población es 13 años?
c. Desarrolle un intervalo de confianza del 95% para la edad media de los trabajadores.
¿Podría ser de 40 años?
66. Consulte los datos CÍA, que proporcionan información demográfica y económica sobre 46
países.
a. Desarrolle un intervalo de confianza del 90% para el porcentaje medio de la población
que tiene más de 65 años.
b. Desarrolle un intervalo de confianza del 90% para el Producto Interno Bruto (PIB) per-
cápita.
c. Desarrolle un intervalo de confianza del 90% para la media de las importaciones.
Comandos de software
1. Los comandos de MINITAB para las 60 columnas de 30
números aleatorios utilizados en el Ejemplo/Solución de
la página 289 son:
a. Seleccione Cale, Random Data y luego haga clic
en Normal.
b. En el cuadro de diálogo, haga clic en Generate y
escriba 30 para el número de hileras de datos.
Guarde en C1-C60, la media es 50, la desviación
estándar es 5.0 y por último haga clic en OK.
Glosario
Distribución muestral de medias Distribución de probabi- ción. Ejemplo: si la media de la muestra es 1 020 psi, es el
lidad que consiste en todas las medias posibles de las mejor estimado de la fuerza de tensión media de la población.
muestras de un tamaño determinado seleccionadas de la Muestra probabilística Una muestra de elemento o indivi-
población. duos elegidos de modo que cada miembro de la población
Error de muestreo Diferencia entre un estadístico de mues- tiene la oportunidad de que se le incluya en la muestra.
tra y el parámetro de la población correspondiente. Ejemplo: el Muestreo aleatorio estratificado Una población se divide
ingreso medio de la muestra es $22 100; la media de la pobla- primero en subgrupos llamados estratos. Luego, se seleccio-
ción es $22 000. El error de muestreo es $22 100 - $22 000 na un elemento de cada estrato para formar la muestra. Si,
= $100. Este error se puede atribuir al muestreo, es decir, al por ejemplo, la población de interés consistía en estudiantes
azar de último año, el diseño de la muestra quizá necesite 62 es-
Estimador de intervalo Intervalo en el cual es probable tudiantes de primer año, 51 de segundo, 40 de tercero y 39
que se encuentre el parámetro de la población, con base en de último año.
la información de la muestra. Ejemplo: de acuerdo con los Muestreo aleatorio simple Esquema de muestreo en el
datos de la muestra, la media de la población está en el in- que cada miembro de la población tiene la misma oportuni-
tervalo entre 1.9 y 2.0 libras. dad de que se le seleccione como parte de la muestra.
Estimador puntual Un solo valor calculado a partir de una Muestreo aleatorio sistemático Suponiendo que la pobla-
muestra y utilizado para estimar el parámetro de una pobla- ción esté ordenada de alguna manera, como por orden alfa-
Revisión de los capítulos 8 y 9 313
bético, por estatura o en el cajón de un archivero, se selec- manzanas, etc.) llamadas unidades primarias. Luego, se se-
ciona un punto de inicio aleatorio y cada k elemento se con- leccionan unas cuantas unidades primarias y un elemento
vierte en un miembro de la muestra. Si el diseño de la aleatorio de cada grupo.
muestra requiere de entrevistar cada novena familia en la ca- Sesgo Una posible consecuencia si a ciertos miembros de
lle Main empezando en el número 932, la muestra consistirá una población se les niega la posibilidad de resultar selec-
en las casas con los números 932, 941, 950 y demás de la cionados para la muestra. Como resultado de ello, es proba-
calle Main. ble que la muestra no sea representativa de la población.
Muestreo por conglomerados Método que con frecuencia Teorema del límite central Si el tamaño de la muestra es
se utiliza para bajar el costo del muestreo si la población se suficientemente grande, la distribución muestral de medias
encuentra dispersa en una extensa área geográfica. El área se aproximará a la distribución normal sin importar la forma
se divide en unidades más pequeñas (condados, distritos, de la población.
Ejercicios
Parte I. Opción múltiple
Desarrolle un intervalo de confianza del 95% para el número medio de copias por máquina. 16.
John Kleman es el anfitrión del programa de noticias KXYZ Radio 55 AM en Chicago. Durante
su programa matutino, John pide a los radioescuchas que llamen y comenten sobre las noticias
nacionales y locales. Esta mañana, John quiso saber el número de horas al día que los niños
de menos de 12 años de edad ven televisión. Las cinco últimas personas que llamaron
reportaron que, la noche anterior, sus hijos vieron televisión el número siguiente de horas.
¿Sería razonable desarrollar un intervalo de confianza a partir de estos datos para indicar el
número medio de horas que vieron televisión? Si su respuesta es afirmativa, ¿por qué no
sería apropiado un intervalo de confianza?
17. Widgets Manufacturing, Inc. produce 250 partes al día. Hace poco, el nuevo dueño compró
una máquina nueva para fabricar más partes por día. Un muestra de la producción de 16
días reveló unas medias de 240 unidades con una desviación estándar de 35. Elabore un
intervalo de confianza para el número medio de partes producidas por día. ¿Parecería razo-
Revisión de los capítulos 8 y 9 315
nable llegar a la conclusión de que la producción media diaria ha aumentado? Justifique sus
conclusiones.
18. El fabricante de un chip que se utiliza en aparatos estéreo costosos quiere estimar la vida
útil del chip (en miles de horas). El estimador debe ser 0.10 (100) horas. Suponga un nivel
de confianza del 95% y que la desviación estándar de la vida útil del chip es 0.90 (900 ho-
ras). Determine el tamaño de la muestra requerido.
19. El gerente de una tienda de artículos para el arreglo de la casa quiere calcular la cantidad
media de dinero que se gasta en la tienda. El estimador debe ser $4.00 con un nivel de con
fianza del 95%. El gerente no conoce la desviación estándar de las cantidades gastadas. Sin
embargo, si calcula que el rango es de $5.00 a $155.00, ¿qué tan grande es la muestra que
necesita?
20. En una muestra de 200 residentes de Georgetown Country, 120 reportaron que creen que
el impuesto predial en el condado es muy alto. Desarrolle un intervalo de confianza del 95%
para la proporción de residentes que creen que el impuesto es muy elevado. ¿Sería razo-
nable llegar a la conclusión de que la mayoría de los contribuyentes consideran que el im-
puesto predial es muy alto?
21. En fechas recientes, el porcentaje de consumidores que adquieren un vehículo nuevo a tra-
vés de Internet ha sido tan alto que a los distribuidores automotrices locales les preocupa el
impacto de esta situación en su negocio. La información necesaria es un estimador de la
proporción de compras a través de Internet. ¿Qué tan grande debe ser la muestra de com-
pradores para que el estimador se encuentre a 2 puntos porcentuales con un nivel de con-
fianza del 98%? La suposición actual es que alrededor de 8% de los vehículos se compran
a través de Internet.
22. La proporción de adultos mayores de 24 años de edad que fuman ha sido de 0.30. En años
recientes, se ha publicado y transmitido por radio y televisión gran cantidad de información
acerca de que el tabaquismo no es bueno para la salud. Una muestra de 500 adultos reve-
ló que sólo 25% de los entrevistados fumaban. Desarrolle un intervalo de confianza del 98%
para la proporción de adultos que fuman actualmente. ¿Estaría de acuerdo en que la pro-
porción es menos de 30%?
23. El auditor del Estado de Ohio necesita un estimador de la proporción de residentes que jue-
gan regularmente a la lotería estatal. De acuerdo con registros anteriores, alrededor de 40%
juegan en forma regular, pero el auditor quiere conocer información actualizada. ¿Qué tan
grande debe ser la muestra para que el estimador se encuentre a 3 puntos porcentuales,
con un nivel de confianza del 98%?
Caso
Century National Bank zaba. Al señor Selig le gustaría actualizarse sobre el uso de
estas tarjetas. Desarrolle un intervalo de confianza del 95%
Consulte la descripción del Century National Bank al final del para la proporción de clientes que las utilizan. Con base en
repaso de los capítulos 1 al 4, en la página 137. Cuando el el intervalo de confianza, ¿sería razonable llegar a la conclu-
señor Selig tomó el cargo como presidente de Century hace sión de que más de la mitad de los clientes usan una tarjeta
varios años, el uso de las tarjetas de débito apenas empe- de débito? Interprete los resultados.
Pruebas de hipótesis
de una muestra
Muchos supermercados y grandes tiendas detallistas, como Wal-Mart y K-Mart, han instalado
sistemas de autopago a fin de que los clientes puedan registrar sus artículos y pagarlos. Una
muestra de los clientes que utilizan el servicio se tomó durante 15 días en la tienda Wal-Mart que
está en la carretera 544 en Surfside Beach, Carolina del Sur, para saber con qué frecuencia se
usa. Utilizando el nivel de significancia 0.05, ¿sería razonable llegar a la conclusión de que el
número medio de clientes que usa el sistema es más de 100 al día? (Vea la Meta 4 y el Ejercicio
51.)
Pruebas de hipótesis de una muestra 317
Introducción
En el Capítulo 8 empezó nuestro estudio de la inferencia estadística. Describimos cómo
podemos seleccionar una muestra aleatoria y, a partir de ésta, calcular el valor de un
parámetro de la población. Por ejemplo, seleccionamos una muestra de 5 empleados de
Spence Sprockets, encontramos el número de años de servicio para cada empleado en la
muestra, calculados la media de los años de servicio y utilizamos esta media muestral para
calcular la media de los años de servicio para todos los empleados. En otras palabras, esti-
mamos un parámetro de la población a partir de un estadístico de muestra.
En el Capítulo 9 continuamos nuestro estudio de la inferencia estadística al desarrollar
un intervalo de confianza. Éste es un rango de valores en el cual esperamos que ocurra el
parámetro de la población. En este capítulo, en lugar de desarrollar ese rango de valores,
desarrollamos un procedimiento para probar la validez de una afirmación acerca de un
parámetro de la población. Algunos ejemplos de las afirmaciones que tal vez queremos pro-
bar son:
• La velocidad media de los automóviles que pasan la marca en la milla 150 de la carre-
tera West Virginia Turnpike es de 68 millas por hora.
• El número medio de millas recorridas por aquellas personas
que rentan una camioneta Chevy Trail Blazer durante tres
días es 32 000 millas.
• El tiempo medio que una familia estadounidense vive en una
vivienda en particular es 11.8 años.
• El salario inicial medio para los graduados en las carreras
administrativas es de $3 200 al mes.
• Los jubilados en el medio oeste de Estados Unidos, 35%
vende su casa y se muda a un clima cálido a un año de
haberse jubilado.
• Las personas que juegan en loterías estatales, 80% nunca
gana más de $100 en un sorteo determinado.
En la mayor parte de los casos la población es tan grande que no es factible estudiar todos
los elementos, objetos o personas en ella. Por ejemplo, no sería posible contactar a todos
los analistas de sistemas en Estados Unidos para investigar cuál es su ingreso mensual. De
modo similar, el departamento de aseguramiento de la calidad de Cooper Tire no puede
revisar cada llanta producida para determinar si va a durar más de 60 000 millas.
Como señalamos en el Capítulo 8, una alternativa para medir o entrevistar a toda la
población consiste en tomar una muestra de ésta. Por tanto, es posible poner a prueba una
afirmación para determinar si la muestra apoya o no lo que decimos acerca de la población.
El ejemplo siguiente ayuda a aclarar lo que queremos decir con hipótesis nula y alter-
nativa. Un artículo reciente indica que la edad media de los aviones comerciales esta-
dounidenses es de 15 años. Para realizar una prueba estadística acerca de esta afirmación,
el primer paso es determinar las hipótesis nula y la alternativa. La hipótesis nula represen-
ta la condición actual o reportada, y se expresa , La hipótesis alternativa es la afir-
mación que no es cierta, es decir, Es necesario recordar que no
importa cómo se plantee el problema, la hipótesis nula siempre va a contener el signo de
igual. Este signo (=) nunca va a aparecer en la hipótesis alternativa. ¿Por qué? Porque ésta
es la afirmación que se va a probar, y necesitamos un valor específico para incluirlo en
nuestros cálculos. Recurrimos a la hipótesis alternativa sólo si la información sugiere que la
hipótesis nula no es cierta.
320 Capítulo 10
La probabilidad de cometer otro tipo de error, conocido como error Tipo II, se expresa
con la letra griega beta (β).
La empresa que fabrica computadoras personales cometería un error Tipo II si, con
desconocimiento del fabricante, un envío de tarjetas de Allied Electronics contiene 15% de
tarjetas que no cumplen con las normas, y sin embargo, lo aceptara. ¿Cómo podría suced-
er esto? Suponga que 2 de las 50 tarjetas en la muestra (4%) probada no cumplen con las
normas, y 48 de las 50 son aceptables. Según el procedimiento mencionado, como la
muestra contiene menos de 6% de tarjetas que no cumplen con las normas, el envío se
acepta. ¡Podría ser que, por casualidad, las 48 tarjetas aceptables seleccionadas en la
muestra son las únicas en todo el cargamento, que consta de miles de tarjetas!
En retrospectiva, el investigador no puede estudiar cada elemento o individuo en la
población. Por tanto, existe la posibilidad de dos tipos de error: un error Tipo I, en el que la
hipótesis nula se rechaza cuando en realidad debería aceptarse, y un error Tipo II, en el que
la hipótesis nula se acepta cuando en realidad se debería rechazar.
A menudo nos referimos a la probabilidad de estos dos errores posibles como alfa, α,
y beta, β. Alfa (α) es la probabilidad de cometer un error Tipo I y beta (β) es la probabilidad
de cometer un error Tipo II.
La tabla siguiente resume las decisiones que el investigador podría tomar y sus posi-
bles consecuencias.
La Gráfica 10-1 ilustra la región de rechazo para una prueba de significancia que se
realizará más adelante en este capítulo.
GRÁFICA 10-1 Distribución de muestreo del valor estadístico z, prueba de una cola a la derecha, nivel de
significancia 0.05
1. El área en que la hipótesis nula se acepta está a la izquierda de 1.65. En breve expli-
caremos cómo se obtiene el valor 1.65.
2. El área de rechazo se encuentra a la derecha de 1.65.
3. Se aplica una prueba de una cola. (Esto también se explicará más adelante.)
4. Se eligió el nivel de significancia 0.05.
5. La distribución muestral del valor estadístico z tiene una distribución normal.
6. El valor 1.65 separa las regiones donde la hipótesis nula se rechaza y donde se acepta.
7. El valor 1.65 es el valor crítico.
investigadores prefieren expresar la decisión como: "no rechazar H0", "decidimos no recha-
zar H0" o "los resultados de la muestra no nos permiten rechazar H0".
Debemos enfatizar el hecho de que siempre hay una posibilidad de que la hipótesis
nula se rechace cuando en realidad no se debería rechazar (un error Tipo I). Asimismo, hay
una probabilidad de que la hipótesis nula se acepte cuando en realidad se debería recha-
zar (un error Tipo II).
Antes de realizar una prueba de hipótesis, vamos a diferenciar entre una prueba de sig-
nificancia de una cola y una prueba de dos colas.
GRÁFICA 10-2 Distribución de muestreo para el estadístico z, prueba de cola izquierda, nivel
de significancia 0.05
324 Capítulo 10
el ingreso medio de las corredoras de bolsa es menor o igual a $65 000 al año.
el ingreso medio de las corredoras de bolsa es mayor a $65 000 al año.
Si se rechaza la hipótesis nula y H, se acepta en el caso de las dos colas, el ingreso medio
podría ser mucho mayor a $65 000 anuales, o mucho menor a $65 000 por año. Para abar-
car estas dos posibilidades, el área de rechazo de 5% se divide en dos colas iguales de la
distribución de la muestra (2.5% cada una). La Gráfica 10-3 ilustra las dos áreas y los valo-
res críticos. Observe que el área total en la distribución normal es 1.000, que se calcula
0.9500 + 0.0250 + 0.0250.
GRÁFICA 10-3 Regiones de aceptación y rechazo para una prueba de dos colas,
con nivel de significancia 0.05
Paso 1: Establezca las hipótesis nula y alternativa. La hipótesis nula es "La media
de la población es 200". La hipótesis alternativa es "La media es diferente de
200" o "La media no es 200". Estas dos hipótesis se expresan:
¿Probamos que la tasa de producción sigue siendo 200 a la semana? En realidad, no.
Técnicamente, lo que hicimos fue no desaprobar la hipótesis nula. No desaprobar la hipóte-
sis de que la media de la población es 200 no quiere decir que sea cierta. Como sugerimos
en la introducción del capítulo, la conclusión es análoga al sistema judicial estadounidense.
Para explicar, suponga que a una persona se le acusa de un crimen, pero que el jurado la
exonera. Si a una persona se le exonera de un crimen, la conclusión es que no hay evi-
dencias suficientes para probar su culpabilidad. El juicio no probó que el individuo sea
inocente, sólo que no hay evidencias suficientes para probar su culpabilidad. Eso es lo que
hacemos en la prueba de hipótesis estadística cuando no rechazamos la hipótesis nula. La
interpretación correcta es que no desaprobamos la hipótesis nula.
En este caso, elegimos el nivel de significancia 0.01, antes de establecer la regla de
decisión y el muestreo de la población. Ésta es la estrategia apropiada. El investigador debe
establecer el nivel de significancia, pero éste se debe determinar antes de recopilar las evi-
dencias de la muestra y no cambiar con base en esas evidencias.
¿En qué se parece el procedimiento de prueba de hipótesis que acabamos de describir
a aquel de los intervalos de confianza que estudiamos en el capítulo anterior? Cuando reali-
zamos la prueba de hipótesis acerca de la producción de escritorios cambiamos las uni-
dades de escritorios por semana a un valor z. Luego, comparamos el valor calculado del
estadístico de prueba (1.55) con el de los valores críticos (-2.58 y 2.58). Como el valor
calculado se encontraba en la región en que la hipótesis nula se acepta, llegamos a la con-
clusión de que la media de la población podría ser 200. Por otra parte, para utilizar el
enfoque del intervalo de confianza, desarrollaríamos un intervalo de confianza, con base en
la fórmula (9-1). Vea la página 286. El intervalo sería de 197.66 a 209.34, que se calcula
Observe que el valor propuesto de la población, 200, se encuentra en
este intervalo. De ahí que lleguemos a la conclusión de que la media de la población puede
ser 200.
En general, H0 se rechaza si el intervalo de confianza no incluye el valor hipotético. Si
el intervalo de confianza comprende este valor, H0 se acepta. De modo que la "región de
aceptación" para una prueba de hipótesis equivale al valor propuesto de la población que
ocurre en el intervalo de confianza. La diferencia principal entre un intervalo de confianza y
la región de "aceptación" para una prueba de hipótesis es si el intervalo se centra en el
estadístico de la muestra, tal como en el intervalo de confianza, o alrededor de 0,
como en la prueba de la hipótesis.
Autoevaluación 10-1 La tasa media anual de resurtido del frasco de 200 aspirinas de Bayer es 6.0 con una
desviación estándar de 0.50. (Esto indica que las existencias de Bayer cambian en los
anaqueles de las farmacias alrededor de 6 veces por año.) Se cree que el resurtido medio
cambió y ya no es 6.0. Utilice el nivel de significancia 0.05.
(a) Establezca la hipótesis nula y la hipótesis alternativa.
(b) ¿Cuál es la probabilidad de un error Tipo I?
(c) Dé la fórmula para el estadístico de prueba.
(d) Establezca la regla de decisión.
(e) Una muestra aleatoria de 64 frascos de 200 aspirinas de Bayer indicó una tasa de
resurtido medio de 5.84. ¿Debemos rechazar la hipótesis de que la media de la población
es 6.0? Interprete el resultado.
conclusión de que el número medio de escritorios armados en las últimas 50 semanas fue
más de 200? Observe la forma diferente de plantear el problema. En el primer caso,
queríamos saber si había una diferencia en el número medio de escritorios armados, pero
ahora queremos saber si hay un incremento. Como investigamos diferentes aspectos,
debemos formular las hipótesis de manera diferente. La mayor diferencia ocurre en la
hipótesis alternativa. Antes, formulamos la hipótesis alternativa como "diferente de"; ahora
queremos establecer que es "mayor que". En símbolos:
Los valores críticos para una prueba de una cola son diferentes de los de una prueba de
dos colas en el mismo nivel de significancia. En el ejemplo anterior, dividimos a la mitad el
nivel de significancia y colocamos una mitad en la cola inferior y la otra en la superior. En una
prueba de una cola, colocamos toda la región de rechazo en una cola. Vea la Gráfica 10-5.
GRÁFICA 10-5 Regiones de rechazo para pruebas de dos y una colas, a = 0.01
Para la prueba de una cola, el valor crítico es 2.33, que se calcula así: (1) restando 0.01 de
0.5000 y (2) encontrando el valor z que corresponde a 0.4900.
Determinar el valor p no sólo da como resultado una decisión en cuanto a H0, sino que
además nos ofrece una perspectiva adicional de la fuerza de la decisión. Un valor p muy
pequeño, como 0.0001, indica que hay pocas probabilidades de que H0 sea verdadera. Por
Pruebas de hipótesis de una muestra 329
otra parte, un valor p de 0.2033 significa que H0 se acepta y hay pocas probabilidades de
que sea falsa.
¿Cómo calculamos el valor p? Para ilustrar vamos a utilizar el ejemplo en el que
probamos la hipótesis nula de que el número medio de escritorios producidos por semana
en Fredonia es 200. No rechazamos la hipótesis nula, porque el valor z de 1.55 se encuen-
tra en la región entre -2.58 y 2.58. Acordamos aceptar la hipótesis nula si el valor z calcu-
lado quedaba en esta región. La probabilidad de encontrar un valor z de 1.55 o más es
0.0606, calculada por 0.5000 - 0.4394. En otras palabras, la probabilidad de obtener una
mayor que 203.5 si Para calcular el valor p, necesitamos preocuparnos
por la región menor a -1.55, así como los valores mayores que 1.55 (porque la región de
rechazo está en ambas colas). El valor p de dos colas es 0.1212, que se calcula así:
2(0.0606). El valor de p es 0.1212 es mayor que el nivel de significancia de 0.01 que se
decidió en un principio, de modo que Ho se acepta. Los detalles se muestran en la gráfica
siguiente. En general, el área se duplica como en una prueba de dos colas. El valor p se
puede comparar fácilmente con el nivel de significancia. Se utiliza la misma regla de
decisión que en la prueba de una cola.
Un valor p es una forma de expresar la probabilidad de que H0 sea falsa. Pero ¿cómo
interpretamos un valor p? Ya dijimos que si el valor p es menor que el nivel de significancia,
rechazamos H0; si es mayor que el nivel de significancia, aceptamos H0. Asimismo, si el valor
p es muy alto, es probable que Ho no sea verdadera. Si el valor p es pequeño, es probable
que H0 no sea verdadera. El recuadro siguiente le ayudará a interpretar los valores p.
The Thompson's Discount Appliance Store emite una tarjeta de crédito propia. El gerente de
crédito quiere saber si el saldo medio insoluto mensual es mayor de $400. El nivel de signi-
ficancia se establece en 0.05. Una revisión aleatoria de 172 saldos insolutos reveló que la
media de la muestra es $407 y la desviación estándar de la muestra es $38. ¿El gerente de
crédito debe llegar a la conclusión de que la media de la población es mayor de $400, o sería
razonable pensar que la diferencia de $7 ($407 - $400 = $7) se debe a la casualidad?
Como la hipótesis alternativa establece una dirección, se aplica la prueba de una cola. El
valor crítico de z es 1.65. El valor calculado de z es 2.42, que se encuentra utilizando la fór-
mula (10-2):
Como el valor calculado de la estadística de prueba (2.42) es mayor que el valor críti-
co (1.65), la hipótesis nula se rechaza. El gerente de crédito puede llegar a la conclusión de
que el saldo insoluto medio es mayor de $400.
El valor p ofrece una perspectiva adicional de la decisión. Recuerde que el valor p es
la probabilidad de encontrar un estadístico de prueba tan alto o más que el que se obtuvo,
cuando la hipótesis nula es verdadera. De modo que encontramos la probabilidad de un
valor z mayor a 2.42. Según el Apéndice D, la probabilidad de un valor z entre 0 y 2.42 es
0.4922. Queremos determinar la probabilidad de un valor mayor a 2.42, de modo que
0.5000 - 0.4922 = 0.0078. Llegamos a la conclusión de que la posibilidad de encontrar un
valor z de 2.42 o mayor, cuando la hipótesis nula es verdadera, es 0.78%. Por tanto, es
poco probable que la hipótesis nula sea verdadera.
Ejercicios
Para los ejercicios 1 a 4 responda las preguntas: (a) ¿Es una prueba de una o de dos colas?
(b) ¿Cuál es la regla de decisión? (c) ¿Qué valor tiene el estadístico de prueba? (d) ¿Cuál es su
decisión acerca de H0? (e) ¿Cuál es el valor p? Interprete sus respuestas.
Para los ejercicios 5 a 8: (a) Formule la hipótesis nula y la hipótesis alternativa, (b) Esta-
blezca la regla de decisión, (c) Calcule el valor del estadístico de prueba, (d) ¿Cuál es su
decisión acerca de H0? (e) ¿Cuál es el valor p? Interprete sus respuestas.
5. El fabricante de las llantas radiales con cinturón de acero X-15 para camiones afirma que el
millaje medio que la llanta recorre antes de que se desgasten las cuerdas es 60 000 millas.
La desviación estándar del millaje son 5 000 millas. La Crosset Truck Company compró 48
llantas y encontró que el millaje medio para sus camiones es 59 500 millas. ¿La experien
cia de Crosset es diferente de lo que afirma el fabricante en el nivel de significancia 0.05?
6. La cadena de restaurantes MacBurger afirma que el tiempo de espera para el servicio tiene
una distribución normal, con una media de 3 minutos y una desviación estándar de 1 minu
to. El departamento de aseguramiento de la calidad descubrió en una muestra de 50 clientes
en el MacBurger de Warren Road que el tiempo medio de espera es de 2.75 minutos. En el
nivel de significancia de 0.05 ¿podemos llegar a la conclusión de que el tiempo de espera
medio es menos de 3 minutos?
7. Una encuesta reciente en todo el país reveló que los estudiantes de secundaria ven un
promedio (media) de 6.8 películas en DVD al mes. Una muestra aleatoria de 36 estudiantes
universitarios reveló que el número medio de DVD que vieron el mes pasado es 6.2, con una
desviación estándar de 0.05. En el nivel de significancia 0.05, ¿podemos llegar a la con
clusión de que los universitarios ven menos DVD al mes que los estudiantes de secundaria?
8. En el momento en que la contrataron como mesera en el Grumney Family Restaurant, a Beth
Bridgen le dijeron: "Puedes ganar un promedio de más de $20 al día en propinas." Durante los
primeros 35 días que trabajó en el restaurante, la cantidad media diaria de sus propinas fue
$24.85, con una desviación estándar de $3.24. En el nivel de significancia 0.01, ¿la señorita
Brigden puede llegar a la conclusión de que gana un promedio de más de $20 en propinas?
Suponga que las elecciones anteriores en un estado indicaron que es necesario que un can-
didato a gobernador reciba por lo menos 80% de los votos en la sección norte del estado a
fin de que resulte electo. El gobernador actual está interesado en evaluar sus posibilidades
de regresar a su cargo y planea realizar una encuesta entre 2 000 votantes registrados en la
sección norte del estado
Utilizando el procedimiento de prueba de hipótesis, evalué las probabilidades de reelec-
ción para el gobernador.
es la proporción de la población,
es la proporción de la muestra,
es el tamaño de la muestra.
es el error estándar de la proporción. Se calcula mediante
de modo que la fórmula para z se vuelve:
Encontrar el valor crítico. Paso 4: Formular la regla de decisión. El valor o valores críticos de z forman el punto
divisorio entre las regiones donde Ho se rechaza y donde se acepta. Como la
hipótesis alternativa establece una dirección, ésta es una prueba de una cola.
El signo de desigualdad señala hacia la izquierda, de modo que sólo se utiliza
el lado izquierdo de la curva. (Vea la Gráfica 10-6.) El nivel de significancia se
dio como 0.05 en el paso 2. Esta probabilidad se encuentra en la cola izquier-
da y determina la región de rechazo. El área entre cero y el valor crítico es
0.4500, que se encuentra así: 0.5000 - 0.0500. Si vemos el Apéndice D y bus-
camos 0.4500, encontramos que el valor crítico de z es 1.65. Por tanto, la
regla de decisión es: rechazar la hipótesis nula y aceptar la alternativa si el
valor calculado de z se encuentra a la izquierda de -1.65; de lo contrario,
aceptar Ho.
GRÁFICA 10-6 Región de rechazo para el nivel de significancia 0.5, prueba de una cola
Autoevaluación 10-3 Un reporte reciente de la industria de los seguros indicó que 40% de las personas que
participaron en accidentes de tránsito menores este año sufrieron por lo menos otro accidente
de tránsito en los últimos cinco años. Un grupo de asesores decidió investigar esta afirmación,
pues considera que no es exacta. Una muestra de 200 accidentes de tránsito en este año
reveló que 74 personas también participaron en otro accidente en los últimos cinco años.
Utilice el nivel de significancia 0.01.
(a) ¿Podemos usar z como el estadístico de prueba? Indique por qué sí o por qué no.
(b) Formule la hipótesis nula y la hipótesis alternativa.
(c) Ilustre la regla de decisión en forma gráfica.
(d) Calcule el valor de z y establezca su decisión en cuanto a la hipótesis nula.
(e) Determine e interprete el valor p.
Ejercicios
Se formulan las hipótesis siguientes.
Una muestra de 100 observaciones reveló que p = 0.75. En el nivel de significancia 0.05, ¿la
hipótesis nula se puede rechazar?
a. Establezca la regla de decisión.
b. Calcule el valor del estadístico de prueba.
c. ¿Cuál es su decisión en cuanto a la hipótesis nula?
Se dan las hipótesis siguientes.
Pruebas de hipótesis de una muestra 335
Una muestra de 120 observaciones reveló que p = 0.30. En el nivel de significancia 0.05, ¿la
hipótesis nula se puede rechazar?
a. Establezca la regla de decisión.
b. Calcule el valor del estadístico de prueba.
c. ¿Cuál es su decisión en cuanto a la hipótesis nula?
Nota: Se recomienda utilizar el procedimiento de prueba de hipótesis en cinco pasos para solu-
cionar los problemas siguientes.
11. El National Safety Council reportó que 52% de los conductores en las carreteras esta
dounidenses son hombres. Una muestra de 300 autos que ayer viajaron hacia el sur por la
New Jersey Turnpike reveló que 170 iban conducidos por un hombre. En el nivel de signifi-
cancia 0.01, ¿podemos llegar a la conclusión de que por la New Jersey Turnpike conducía
una proporción de hombres mayor que la indicada por las estadísticas nacionales?
12. Un artículo reciente que se publicó en USA Today reportó que sólo hay un empleo para uno
de cada tres graduados de la universidad. Según el artículo, las razones principales son la
abundancia de graduados de las universidades y una economía débil. Una encuesta entre
200 graduados de su escuela reveló que 80 estudiantes tenían empleo. En el nivel de sig-
nificancia 0.02, ¿podemos llegar a la conclusión de que una proporción mayor de estudian
tes de su escuela tienen trabajo?
13. Chicken Delight afirma que 90% de sus pedidos se entregan 10 minutos después de que se
hacen. Una muestra de 100 pedidos reveló que 82 se entregaron en el tiempo prometido.
En el nivel de significancia 0.10, ¿podemos llegar a la conclusión de que menos de 90% de
los pedidos se entregan en menos de 10 minutos?
14. Las investigaciones en la Universidad de Toledo indican que 50% de los estudiantes cam-
bian de carrera después de un año en el programa. Una muestra aleatoria de 100 estudian
tes en la Facultad de Administración reveló que 48 habían cambiado de carrera después de
su primer año en el programa. ¿Se ha presentado una reducción significativa en la propor-
ción de estudiantes que cambian de carrera después de su primer año en el programa?
Realice la prueba en el nivel de significancia 0.05.
Para realizar una prueba de la hipótesis utilizando la distribución t ajustamos la fórmula (10-2)
como sigue.
es la media de la muestra.
es la media hipotética de la población.
es la desviación estándar de la muestra.
es el número de observaciones en la muestra.
La hipótesis alternativa no establece una dirección, de modo que es una prueba de dos
colas. Hay 11 grados de libertad, que se encuentran mediante n—1 =12 — 1 = 11. El valor
de f es 2.718, que encontramos al consultar el Apéndice F para una prueba de dos colas,
utilizando el nivel de significancia 0.02, con 11 grados de libertad. La regla de decisión es:
rechazar la hipótesis nula si la t calculada se encuentra a la izquierda de -2.718 o a la
derecha de 2.718. Esta información se resume en la Gráfica 10-8.
Autoevaluación 10-4 La duración media de la batería de un reloj digital es de 305 días. La duración de las baterías
sigue una distribución normal. Hace poco, las baterías se modificaron para que duren más.
Una muestra de 20 baterías modificadas tuvo una duración media de 311 días con una
desviación estándar de 12 días. ¿La modificación aumentó la duración media de la batería?
(a) Formule la hipótesis nula y la hipótesis alternativa.
(b) Ilustre gráficamente la regla de decisión. Utilice el nivel de significancia de 0.05.
(c) Calcule el valor de t. ¿Cuál es su decisión acerca de la hipótesis nula? Resuma los resul-
tados.
Ejercicios
15. Dadas las hipótesis siguientes:
sario hacer alguna conexión y cambiar de línea. Para investigar el problema, una agencia
de investigación independiente tomó una muestra aleatoria de 20 aeropuertos y recopiló
información sobre el número de quejas que tuvieron debidas a los boletos electrónicos
durante el mes de marzo. La información se reporta a continuación.
Con un nivel de significancia 0.05, ¿la agencia de investigación puede llegar a la conclusión
de que el número medio de quejas por aeropuerto es menor de 15 al mes?
Una característica adicional que ofrecen los paquetes de software de estadística es que
reportan el valor p, que proporciona información adicional sobre la hipótesis nula. El valor p
es la probabilidad de que un valor f tan extremo como el que se calculó, dado que la hipóte-
sis nula es verdadera. En este caso, el valor p es de 0.014 por lo que la probabilidad de un
valor t de -2.91 o menor, o la probabilidad de un valor íde 2.91 o más alto, dada una media
poblacional de 43. Por tanto, la comparación del valor p con el nivel de significancia nos
indica si la hipótesis nula estuvo a punto de ser rechazada, apenas se rechazó, etcétera.
Para una explicación más detallada, consulte el diagrama siguiente, en que el valor p
de 0.14 se muestra en negro y el nivel de significancia es el área gris más la negra. Como
el valor p de 0.14 es menor que el nivel de significancia de 0.02, la hipótesis nula se re-
342 Capítulo 10
chaza. Si el valor p fuera más alto que el nivel de significancia, digamos, 0.06, 0.19 o 0.57,
la hipótesis nula se aceptaría. Si el nivel de significancia se hubiera seleccionado desde un
principio en 0.01, la hipótesis nula se aceptaría.
En el ejemplo anterior, la hipótesis alternativa tiene dos lados, de modo que había
áreas de rechazo en las colas superior e inferior. Para determinar el valor p, fue necesario
determinar el área a la izquierda de -2.91 para una distribución t con 11 grados de libertad.
¿Qué sucedería si realizáramos una prueba de una cola, de modo que toda la región
de rechazo esté en la cola superior o inferior? En ese caso, reportaríamos el área de la
única cola. En el ejemplo de las barras de contrapeso, si H1 se formulara como la
desigualdad apuntaría hacia la izquierda. Por tanto, habríamos reportado el valor p como el
área a la izquierda de -2.91. Este valor es 0.007, calculado por 0.014/2. Así, el valor p para
una prueba de una cola sería 0.007.
¿Cómo podemos calcular un valor p sin una computadora? Para ilustrar, recuerde que,
en el ejemplo acerca de la longitud de un barra de contrapeso, rechazamos la hipótesis nula
de que , y aceptamos la hipótesis alternativa de que El nivel de significancia
fue 0.02, de modo que, por lógica, el valor p es menor a 0.02. Para calcular con mayor pre-
cisión el valor p, vaya al Apéndice F y busque la fila con 11 grados de libertad. El valor t cal-
culado de 2.91 se encuentra entre 2.718 y 3.106. (Una parte del Apéndice F se reproduce
en la Tabla 10-3.) El nivel de significancia de dos colas que corresponde a 2.718 es 0.02, y
para 3.106 es 0.01. Por tanto, el valor p se encuentra entre 0.01 y 0.02. La práctica común
consiste en reportar que el valor p es menor que el más alto de los dos niveles de signifi-
cancia. De modo que reportaríamos, "el valor p es menor a 0.02".
Autoevaluación 10-5 Una máquina se programa para llenar un frasco pequeño con 9.0 gramos de medicamento.
Una muestra de ocho frascos reveló las cantidades siguientes (en gramos) en cada botella.
Ejercicios
Dadas las hipótesis siguientes:
Una muestra aleatoria de cinco dio como resultado los valores siguientes: 18, 15, 12, 19 y
21. Utilizando el nivel de significancia 0.01, ¿podemos llegar a la conclusión de que la media
de la población es menor de 20?
a. Establezca la regla de decisión.
b. Calcule el valor del estadístico de prueba.
c. ¿Cuál es su decisión en cuanto a la hipótesis nula?
d. Calcule el valor p.
Dadas las hipótesis siguientes:
Una muestra aleatoria de seis dio como resultado los valores siguientes: 118,105,112,119,
105 y 111. Utilizando el nivel de significancia de 0.05, ¿podemos llegar a la conclusión de
que la media es diferente a 100?
a. Establezca la regla de decisión.
b. Calcule el valor del estadístico de prueba.
c. ¿Cuál es su decisión acerca de la hipótesis nula?
d. Calcule el valor p.
La experiencia en la cría de pollos New Jersey Red reveló que el peso medio de los pollos
a los cinco meses es de 4.35 libras. Los pesos siguen una distribución normal. En un esfuer-
zo por aumentar su peso, se agrega un aditivo especial al alimento de los pollos. Los pesos
subsecuentes de una muestra de pollos de cinco meses de edad fueron (en libras):
Con un nivel 0.01, ¿el aditivo especial ha aumentado el peso medio de los pollos? Calcule
el valor p.
El cloro líquido que se agrega a las albercas para combatir las algas tiene una duración en
las tiendas relativamente corta antes de perder su efectividad. Los registros indican que la
duración media de un frasco de cloro es de 2 160 horas (90 días). Como experimento, se
agregó Holdlonger al cloro para saber si éste aumentaba su duración en las tiendas. Una
muestra de nueve frascos de cloro tuvieron estos tiempos de duración en tiendas (en horas):
En el nivel de 0.025, ¿el Holdlonger aumentó la duración en tiendas del cloro? Calcule el
valor p.
344 Capítulo 10
25. Las pescaderías de Wyoming afirman que el número medio de truchas pescadas durante
todo un día de pesca en Snake, Buffalo, y otros ríos y arroyos en el área de Jackson Hole
es 4.0. Para una actualización anual, el personal de las pescaderías pidió a una muestra de
pescadores que llevaran la cuenta del número de truchas pescadas en un día. Los números
fueron: 4, 4, 3, 2, 6, 8, 7, 1, 9, 3, 1 y 6. En el nivel 0.05, ¿podemos llegar a la conclusión de
que el número medio de truchas pescadas es mayor de 4.0? Calcule el valor p.
26. Hugger Polis afirma que un agente realiza una media de 53 encuestas a fondo por semana.
Se introdujo una forma de encuesta nueva y Hugger quiere evaluar su efectividad. El
número de encuestas a fondo realizadas durante una semana por una muestra aleatoria de
agentes es:
Error tipo II
Recuerde que el nivel de significancia, que se identifica con el símbolo a, es la probabilidad
de que la hipótesis nula se rechace cuando es verdadera. Éste se conoce como un error
Tipo I. Los niveles de significancia más comunes son 0.05 y 0.01, y el investigador los
establece al principio de la prueba.
En una situación de prueba de hipótesis, también existe la posibilidad de que una
hipótesis nula se acepte cuando en realidad es falsa. Es decir, aceptamos una hipótesis
nula falsa. Éste se conoce como error Tipo II. La probabilidad de un error Tipo II se identi-
fica con la letra griega beta Los ejemplos siguientes ilustran los detalles al
determinar el valor de
Un fabricante compra barras de acero para hacer clavijas. Las experiencias pasadas indi-
can que la fuerza tensora media de todos los cargamentos que llegan es 10 000 psi y que
la desviación estándar,
A fin de tomar una decisión acerca de los cargamentos de barras de acero que llegan,
el fabricante establece esta regla para que el inspector de control de calidad se apegue a
ella: "Tome una muestra de 100 barras de acero. En el nivel de significancia 0.05, si la fuerza
media se encuentra entre 9 922 y 10 078 psi, acepte el lote. De lo contrario, el lote se debe
rechazar." Consulte la Gráfica 10-9, Región A, que ¡lustra la región donde cada lote se recha-
za y en la que no se rechaza. La media de esta distribución se designa como Las colas
de curva representan la probabilidad de cometer un error Tipo I; es decir, rechazar el lote de
barras de acero cuando en realidad es aceptable, con una media de 10 000 psi.
Suponga que la media de la población desconocida de un lote, representada por
realidad es 9 900 psi. ¿Cuál es la probabilidad de que el inspector de control de calidad
acepte el embarque (un error Tipo II)?
La probabilidad de cometer un error Tipo II, como representa el área negra en la Gráfica
10-9, Región B, se puede calcular al determinar el área debajo de la curva normal que se
encuentra arriba de 9 922 libras. El cálculo de las áreas bajo la curva normal se estudió en
el Capítulo 7. Haciendo un breve repaso, primero es necesario determinar la probabilidad
de que la media de la muestra se encuentre entre 9 900 y 9 922. Luego, esta probabilidad se
resta de 0.5000 (que representa toda el área más allá de la media de 9 900) para llegar a
la probabilidad de cometer un error Tipo II.
El número de unidades estándar (valor z) entre la media del embarque que llega
(9 900), expresada con que representa el valor crítico para 9 922, se calcula así:
Pruebas de hipótesis de una muestra 345
El área debajo de la curva entre 9 900 y 9 922 (un valor z de 0.55) es 0.2088. El área debajo
de la curva más allá de 9 922 libras es 0.5000 - 0.2088, o 0.2912; ésta es la probabilidad
de cometer un error Tipo II; es decir, aceptar un lote de barras de acero cuando la media
de la población es 9 900 psi.
Otra ilustración en la Gráfica 10-10, Región C, representa la probabilidad de aceptar un
lote cuando la media de población es 10 120. Para encontrar la probabilidad:
La probabilidad de que z sea mejor que -1.05 es 0.1469, calculada mediante 0.5000 -
0.3531. Portante o la probabilidad de un error Tipo II, es 0.1469.
Utilizando los métodos que ilustran las Gráficas 10-9B y 10-10C, la probabilidad de
aceptar una hipótesis como verdadera cuando en realidad es falsa se puede determinar
para cualquier valor
Las probabilidades de un error Tipo II se ilustran en el centro de la columna de la Tabla
10-4 para valores seleccionados dados en la columna izquierda. La columna derecha
da la probabilidad de no cometer un error Tipo II, que también se conoce como la fuerza de
una prueba.
346 Capítulo 10
Autoevaluación 10-6 Suponga que la media real de un lote de barras de acero es 10 180 psi. ¿Cuál es la probabili-
dad de que el inspector de control de calidad acepte las barras como si tuvieran una media de
10 000 psi? (Parece poco probable que las barras de acero se rechacen si la fuerza tensora
es más alta que la que se especifica. Sin embargo, puede ser que la clavija tenga una doble
función en un motor fuera de borda. Tal vez está diseñada para que no se desprenda si el
motor golpea un objeto pequeño, pero sí se desprende si golpea una roca. Por tanto, el acero
no debe ser demasiado fuerte.)
El área clara en la Gráfica 10-10, Región C, representa la probabilidad de aceptar
erróneamente una hipótesis de que la fuerza tensora media de las barras de acero que llegan
es 10 000 psi. ¿Cuál es la probabilidad de cometer un error Tipo II?
Pruebas de hipótesis de una muestra 347
Ejercicios
27. Consulte la Tabla 10-4 y el ejemplo anterior. Con
verifique que la probabilidad de un error Tipo II es 0.1469.
28. Consulte la Tabla 10-4 y el ejemplo anterior. Con
verifique que la probabilidad de un error Tipo II es 0.6736.
VI. Hay dos tipos de errores que pueden ocurrir en una prueba de hipótesis.
Un error Tipo 1 ocurre cuando una hipótesis nula verdadera se rechaza.
1. La probabilidad de cometer un error Tipo t es igual al nivel de significancia.
2. Esta probabilidad se designa con la letra griega
Un error Tipo II ocurre cuando una hipótesis nula falsa se acepta.
1, La probabilidad de cometer un error Tipo II se designa con la letra griega
2. La probabilidad de un error Tipo II se encuentra mediante
Una curva de poder muestra la probabilidad de rechazar la hipótesis nula para cada valor
de un parámetro.
Clave de pronunciación
po de venta medio es mayor de 90 días. Una encuesta realizada hace poco en 100 granjas
de todo el estado reveló que el tiempo de venta medio fue de 94 días, con una desviación
estándar de 22 días. En el nivel de significancia 0.10, ¿ha aumentado el tiempo de venta?
33. Según el presidente del sindicato local, el ingreso bruto medio de los plomeros en el área
de Salt Lake City tiene una distribución normal, con una media de $45 000 y una desviación
estándar de $3 000. Un reportaje de investigación reciente para la KYAK TV descubrió que,
para una muestra de 120 plomeros, el ingreso bruto medio era de $45 500. En el nivel de
significancia 0.10, ¿sería razonable llegar a la conclusión de que el ingreso medio no es
igual a $45 000? Determine el valor p.
34. Un artículo reciente en la revista Vitality reportó que la cantidad media de tiempo de des
canso a la semana para los hombres estadounidenses es 40.0 horas. Usted piensa que esta
cifra es muy alta y decide realizar sus propias pruebas. En una muestra aleatoria de 60 hom-
bres, encuentra que la media es 37.8 horas de descanso a la semana, y que la desviación
estándar de la muestra es 12.2 horas. ¿Puede llegar a la conclusión de que la información
en el artículo no es cierta? Utilice el nivel de significancia 0.05. Determine el valor p y
explique su significado.
35. Anoche, el noticiero de NBC TV, en un segmento sobre el precio de la gasolina, reportó que
el precio medio en todo el país es $1.50 por galón de gasolina regular sin plomo en las islas
de autoservicio. Una muestra aleatoria de 35 gasolineras en el área de Milwaukee,
Wisconsin, reveló que el precio medio era de $1.52 por galón y que la desviación estándar
era $0.05 por galón. En el nivel de significancia 0.05, ¿podemos llegar a la conclusión de
que el precio de la gasolina es más alto en el área de Milwaukee? Determine el valor p.
36. The Rutter Nursery Company empaca su aserrín de pino en bolsas de 50 libras. Desde hace
mucho tiempo, el departamento de producción reporta que la distribución de los pesos de
las bolsas siguen una distribución normal y que la desviación estándar de este proceso es
3 libras por bolsa. Al final de cada día, Jeff Rutter, el gerente de producción, pesa 10 bolsas y
calcula el peso medio de la muestra. A continuación presentamos los pesos de 10 bolsas de
la producción de hoy.
a. ¿El señor Rutter puede llegar a la conclusión de que el peso medio de las bolsas es
menor de 50 libras? Utilice el nivel de significancia 0.01.
b. En un breve reporte, indique por qué el señor Rutter puede usar la distribución z como
estadístico de prueba.
c. Calcule el valor p.
37. Tina Dennis es contralora de Meek Industries, y cree que el problema actual con el flujo de
efectivo en Meek se debe a la tardanza para cobrar las cuentas por cobrar. Dennis cree que
más de 60% de las cuentas se tardan en cubrir más de tres meses. Una muestra aleatoria
de 200 cuentas reveló que 140 tenían más de tres meses de antigüedad. En el nivel de sig-
nificancia 0.01, ¿puede llegar a la conclusión de que más de 60% de las cuentas per-
manecen sin cobrarse tres meses?
38. La política de la Suburban Transit Authority es agregar una ruta de autobús si más de 55%
de los pasajeros potenciales indican que utilizarían esa ruta en particular. Una muestra de
70 pasajeros reveló que 42 usarían una ruta propuesta de Bowman Park al área del centro
de la ciudad. ¿La ruta Bowman-centro cumple con el criterio de la STA? Utilice el nivel de
significancia 0.05.
39. Las experiencias pasadas en Crowder Travel Agency indicaron que 44% de las personas que
querían que la agencia planeara unas vacaciones para ellas querían ir a Europa. Durante la
temporada de vacaciones más reciente, se seleccionó al azar una muestra de 1 000 planes
vacacionates que estaban archivados. Se descubrió que 480 personas querían ir a Europa
de vacaciones. ¿Ha habido un aumento significativo en el porcentaje de personas que
quieren ir a Europa? Realice la prueba en el nivel de significancia 0.05.
40. Según sus experiencias pasadas, un fabricante de televisores descubrió que 10% o menos
de sus aparatos necesitaron algún tipo de reparación en los primeros dos años de opera-
ción. En una muestra de 50 televisores fabricados hace dos años, nueve necesitaron repa-
ración. En el nivel de significancia 0.05, ¿aumentó el porcentaje de televisores que
necesitaron reparación? Determine el valor p.
41. Un planeador urbano afirma que, en todo el país, 20% de todas las familias que rentan con-
dominios se mudan durante un año determinado. Una muestra aleatoria de 200 familias que
350 Capítulo 10
rentan condominios en Dallas Metroplex reveló que 56 se mudaron el año pasado, Con un
nivel de significancia 0.01, ¿estas evidencias sugieren que una proporción mayor de propie-
tarios de condominios se mudaron en el área de Dallas? Determine el valor p.
42. El fabricante de motocicletas Osoki anuncia que su motocicleta recorrerá un promedio de 87
millas por galón. Una muestra de ocho vehículos reveló el millaje siguiente.
Con un nivel de significancia 0.05, ¿el millaje medio es menor al que se anunció de 87 mil-
te por galón?
43. The Myers Summer Casual Furniture Store dice a sus clientes que un pedido especial tar-
dará seis semanas (42 días). En los meses recientes, el dueño ha recibido varias quejas de
que los pedidos especiales tardan más de 42 días. Una muestra de 12 pedidos especiales
entregados en el último mes mostró que el tiempo de espera medio fue de 51 días, con una
desviación estándar de 8 días. En el nivel de significancia 0.05, ¿los clientes esperan un
promedio de más de 42 días? Estime el valor p.
44. Un artículo reciente publicado en The Wall Street Journal reportó que la tasa hipotecaria a
30 días para los bancos pequeños es menor de 6%. Una muestra de ocho bancos pequeños
en el medio oeste de Estados Unidos reveló las siguientes tasas a 30 años (en porcentajes):
Con un nivel de significancia 0.01, ¿podemos llegar a la conclusión de que la tasa hipote-
caria a 30 años para bancos pequeños es menor a 6%? Calcule el valor p.
45. Según la Coffee Research Organization (http://www.coffeeresearch.org) los consumidores
de café estadounidenses típicos toman un promedio de 3.1 tazas al día. Una muestra de
personas de la tercera edad reveló que ayer consumieron las cantidades siguientes, repor-
tadas en tazas de café.
Con un nivel de significancia 0.05, ¿los datos de esta muestra sugieren que hay una diferencia
entre el promedio nacional y la media de la muestra para los adultos de la tercera edad?
46- El área de recuperación del St. Luke's Hospital en Maumee, Ohio, se amplió hace poco. Con
esta ampliación, se esperaba que el número medio de pacientes por día fuera de más de
25. Una muestra aleatoria de 15 días reveló las siguientes cantidades de pacientes.
Con nivel de significancia 0.01, ¿podemos llegar a la conclusión de que el número medio de
pacientes al día es más de 25? Calcule el valor p e interprete su resultado.
47. egolf.com recibe un promedio de 6.5 devoluciones al día por parte de los compradores en
línea. Para una muestra de 12 días, recibieron las siguientes cantidades de devoluciones.
Con un nivel de significancia 0.01, ¿podemos llegar a la conclusión de que el número medio
de devoluciones es menor a 6,5?
48. Durante las temporadas recientes, la Major League Baseball ha sido objeto de críticas por
el tiempo que duran los juegos. Un reporte indica que el juego promedio dura 3 horas 30
minutos. Una muestra de 17 juegos reveló los siguientes tiempos de duración. (Observe que
(os minutos se convirtieron a fracciones de horas, de modo que si un juego duró 2 horas 24
minutos, se reportó en 2.40 horas.)
¿Podemos llegar a la conclusión de que et tiempo medio para un juego es menor a 3.50
horas? Utilice el nivel de significancia 0.05.
Pruebas de hipótesis de una muestra 351
¿Sería razonable llegar a la conclusión de que los adelantos o atrasos medios para los relo-
jes son 0? Utilice el nivel de significancia 0.05. Calcule el valor p.
49. The Watch Corporation de Suiza afirma que el promedio de sus relojes no se adelantan ni
se atrasan durante una semana. Una muestra de 18 relojes presentó los siguientes adelan-
tos (+) o atrasos (-) en segundos por semana.
50. A continuación presentamos los índices de recuperación durante un año (reportados en por-
centajes) para una muestra de 12 fondos mutualistas que se clasifican como fondos grava-
bles del mercado de dinero.
¿Sería razonable llegar a la conclusión de que el número medio de clientes que utilizan el
sistema de autopago es más de 100 al día? Utilice el nivel de significancia 0.05. 52. En 2003, la
tarifa media para viajar por avión de Charlotte, Carolina del Norte, a Seattle, Washington, con
un boleto de descuento es $267. Una muestra aleatoria de las tarifas de descuento para viajes
redondos en esta ruta el mes pasado nos da:
b. ¿Cuál es el valor más alto para la media de la muestra para la que H0 no se rechace?
c. Suponga que la media de la población cambia a 25 000 millas. ¿Cuál es la probabilidad
de que este cambio no se detecte?
55. Una máquina expendedora de refresco de cola está programada para servir 9.00 onzas de
refresco por vaso, con una desviación estándar de 1.00 onza. El fabricante de la máquina
quiere establecer el límite de control de manera que para la muestra de 36, 5% de las
medias de la muestra sean mayores que el límite de control superior y 5% de las medias de
la muestra sean menores al límite de control inferior.
a. ¿En qué valor se debe programar el límite de control?
b. ¿Cuál es la probabilidad de que si la media de la población cambia a 8.9, este cambio
no se detecte?
352 Capítulo 10
exercises.com
60. Los sitios web de USA Today (http://www.usatoday.com/sports/baseball/front.html) y
Major League Baseball (http://www.majorleaguebaseball.com) proporcionan información
sobre los salarios de cada jugador. Visite uno de estos sitios y encuentre los salarios Indi-
viduales de su equipo favorito. Calcule la media y la desviación estándar. ¿Seria razonable
llegar a la conclusión de que el salario medio de su equipo favorito es diferente de $1.80 mi-
llones? Si prefiere el fútbol, el basquetbol o el hockey, también encontrará esa información
sobre los salarios de esos equipos.
61. La Organización Gallup en Princeton, Nueva Jersey, es una de las organizaciones de encues-
tas más conocidas en Estados Unidos. A menudo, se asocia con USA Today o CNN para
realizar encuestas de interés actual. También tiene un sitio web en: http://wvw.faliyp.com/.
Consulte este sitio para encontrar los resultados de la encuesta más reciente sobre las cali-
ficaciones de aprobación para el presidente. Tal vez sea necesario hacer clic en Fast Faets.
Pruebe si la mayoría (más de 50%) aprobó el desempeño del presidente. Si el artículo no
reporta el número de entrevistados incluidos en la encuesta, suponga que es de 1 000, cifra
que se emplea con frecuencia.
a. Un artículo reciente en el Denver Post indicó que el precio de venta medio de las casas
en el área es más de $220 000. ¿Podemos llegar a la conclusión de que el precio de
venta medio en el área de Denver es más de $220 000? Utilice el nivel de significancia
0.01. ¿Cuál es el valor p?
b. El mismo artículo reportó que el tamaño medio es de más de 2 100 píes cuadrados.
¿Podemos llegar a la conclusión de que el tamaño medio de las casas vendidas en el
área de Denver es más de 2 100 pies cuadrados? Use el nivel de significancia 0.01,
¿Cuál es el valor p?
c. Determine la proporción de casas que tienen cochera. Con un nivel de significancia 0.05
¿podemos llegar a la conclusión de que más de 60% de las casas vendidas en el área
de Denver tienen cochera? ¿Cuál es el valor p?
d. Determine la proporción de casas que tienen alberca. Con un nivel de significancia 0.05,
¿podemos llegar a la conclusión de que menos de 40% de las casas vendida® en ©I
área de Denver tienen alberca? ¿Cuál es el valor p?
63. Consulte los datos Baseball 2002, que proporcionan información sobre los 30 equipos de las
Ligas Mayores de Béisbol para la temporada 2002.
a. Realice una prueba de hipótesis para determinar si el salario medio de los equipos fue
diferente de $80.0 millones. Use el nivel de significancia 0,05.
b. Realice una prueba de hipótesis para determinar si la asistencia media fue mayor de
2 000 000 por equipo.
64. Consulte los datos Wage, que proporcionan información sobre los sueldos anuales para una
muestra de 100 trabajadores. También se incluyen las variables relacionadas con la indus-
tria, los años de educación y el género de cada trabajador.
a. Realice una prueba de hipótesis para determinar si el sueldo medio anual es mayor de
$30 000. Use el nivel de significancia 0.05. Determine el valor p e interprete el resultado.
b. Realice una prueba de hipótesis para determinar si los años de experiencia medios son
diferentes de 20. Utilice el nivel de significancia 0.05. Calcule el valor p e interprete el
resultado.
c. Realice una prueba de hipótesis para determinar si la proporción de trabajadores sindí-
calizados es mayor a 15%. Utilice el nivel de significancia 0.05 y reporte el valor p.
65. Consulte los datos CÍA, que proporcionan información demográfica y económica sobre 48
países diferentes.
a. Realice una prueba de hipótesis para determinar si el número medio de teléfonos celu-
lares es mayor de 4.0. Use el nivel de significancia 0.05. ¿Cuál es el valor p?
b. Realice una prueba de hipótesis para determinar si el tamaño medio de la fuerza labo-
ral es menor de 50. Use el nivel de significancia 0.05. ¿Cuál es el valor p?
Comandos de software
1. Los comandos de MINITAB para el histograma y la
estadística descriptiva de la página 337 son:
a. Escriba las 26 observaciones de la muestra en la
columna C1 y ponga el nombre de Cost a la varia-
ble.
b. En la barra de menú, seleccione Stat, Basic
Statistics y Graphical Summary. En el cuadro de
diálogo, seleccione Cost como la variable y haga
clic en OK.
Se recopiló información sobre las tasas de recuperación anuales de cinco tipos de acciones
incluidos en la Bolsa de Valores de Nueva York y cinco que se incluyen en NASDAQ. En el
nivel de significancia 0.10, ¿podemos llegar a la conclusión de que las tasas de recuperación
anuales son mayores en el gran tablero? (Vea la Meta 1 y el Ejercicio 46.)
356 Capítulo 11
1. ¿Hay alguna diferencia en el valor medio de los bienes raíces residenciales vendidos
por los agentes hombres y las agentes mujeres en el sur de Florida?
2. ¿Hay alguna diferencia en el número medio de defectos producidos durante los turnos
de día y de noche en Kimble Products?
3. Hay alguna diferencia en el número medio de días ausentes entre los trabajadores jó-
venes (menos de 21 años de edad) y los trabajadores mayores (más de 60 años) en la
industria de comida rápida?
4. ¿Hay alguna diferencia en la pro-
porción de graduados de la Ohio
State University y de la University
of Cincinnati que aprobaron el
Certified Public Accounting Exa-
mination en el primer intento?
5. ¿Hay un incremento en la tasa
de producción al escuchar músi-
ca en el área de producción?
es cero? ¿Esa diferencia se debe a la casualidad o a que existe una verdadera diferencia
en los salarios por hora? Una prueba de las medias de dos muestras nos ayudará a res-
ponder la pregunta.
Es necesario que volvamos a los resultados obtenidos en el Capítulo 8. Recuerde que
demostramos que la distribución de las medias de la muestra suelen aproximarse a la distri-
bución normal cuando el tamaño de la muestra es de por lo menos 30. Una vez más, nece-
sitamos suponer que la distribución de las medias de las muestras seguirá una distribución
normal. Es posible demostrar matemáticamente que la distribución de la diferencia entre las
medias de las muestras para dos distribuciones normales también es normal.
Podemos ilustrar esta teoría en términos del especialista en planeación de ciudades de
Tampa, Florida. Para empezar, supongamos cierta información que no siempre está dispo-
nible. Supongamos que la población de plomeros tiene una media de $30.00 por hora y una
desviación estándar de $5.00 por hora. La población de electricistas tiene una media de
$29.00 y una desviación estándar de $4.50. Ahora, a partir de esta información, es eviden-
te que las dos medias poblacionales no son iguales. En realidad, los plomeros ganan $1.00
más por hora que los electricistas. Pero no podemos esperar esta diferencia cada vez que
tomemos una muestra de dos poblaciones.
Supongamos que seleccionamos una muestra aleatoria de 40 plomeros y una muestra
aleatoria de 35 electricistas y calculamos la media de cada una. Luego, determinamos la di-
ferencia entre las medias de las muestras, es esta diferencia la que llama nuestra atención.
Si las poblaciones tienen la misma media, podríamos esperar que la diferencia entre las
medias de las dos muestras fuera cero. Si existe alguna diferencia entre las medias pobla-
cionales, podríamos esperar encontrar una diferencia entre las medias muéstrales.
Para entender la teoría, necesitamos tomar varios pares de muestras, calcular la me-
dia de cada una, determinar la diferencia entre las medias muéstrales y estudiar la distribu-
ción de las diferencias en las medias de las muestras. Debido a nuestro estudio de la
distribución de las medias muéstrales en el Capítulo 8, sabemos que la distribución de las
medias de las muestras sigue la distribución normal (supongamos que n = 30, por lo menos).
Si las dos distribuciones de las medias muéstrales siguen la distribución normal, podemos
pensar que la distribución de sus diferencias siempre va a seguir también la distribución
normal. Ésta es la primera dificultad.
La segunda se refiere a la media de esta distribución de las diferencias. Si encontra-
mos que la media de esta distribución es cero, esto implica que no hay ninguna diferencia
en las dos poblaciones. Por otra parte, si la media de la distribución de las diferencias es
igual a algún valor que no sea cero, ya sea positivo o negativo, llegamos a la conclusión de
que las dos poblaciones no tienen la misma media.
Para reportar resultados concretos, volvamos al especialista en planeación urbana de
Tampa, Florida. La Tabla 11-1 ilustra el resultado de seleccionar 20 muestras diferentes de
40 plomeros y 35 electricistas, calcular la media de cada una y encontrar la diferencia en-
tre las dos medias muéstrales. En el primer caso, la muestra de 40 plomeros tiene una me-
dia de $29.80, y para los 35 electricistas la media es $28.76. La diferencia entre las medias
de las muestras es $1.04. Este proceso se repitió 19 veces más. Observe que en 17 de los
20 casos la media de los plomeros es mayor que la media de los electricistas.
Nuestra última dificultad es que necesitamos saber algo acerca de la variabilidad de la
distribución de las diferencias. En otras palabras, ¿cuál es la desviación estándar de esta dis-
tribución de las diferencias? La teoría estadística demuestra que cuando tenemos poblacio-
nes independientes, como en este caso, la distribución de las diferencias tiene una varianza
(desviación estándar al cuadrado) igual a la suma de las dos varianzas individuales. Esto
quiere decir que podemos sumar las varianzas de las dos distribuciones muestrales.
358 Capítulo 11
Podemos expresar esta ecuación en forma más práctica tomando la raíz cuadrada, a
fin de tener la desviación estándar de la distribución de las diferencias. Por último, estanda-
rizamos la distribución de las diferencias. El resultado es la ecuación siguiente.
Antes de presentar un ejemplo, vamos a repasar las suposiciones necesarias para uti-
lizar la fórmula (11-2).
Suposiciones para una prueba 1. Las dos muestras no deben estar relacionadas, es decir, deben ser independientes.
con muestra grande. 2. Las muestras deben ser suficientemente grandes para que la distribución de las me-
dias muéstrales siga la distribución normal. La práctica común consiste en pedir que
ambas muestras tengan por lo menos 30 observaciones.
Los clientes de Foodtown Super Markets tienen una opción al pagar sus compras. Pueden
registrarlas y pagar utilizando una caja normal operada por un cajero, o emplear el nuevo
procedimiento U-Scan. En el procedimiento estándar, un empleado de FoodTown registra
cada artículo, lo coloca en una banda de donde otro empleado lo toma y lo guarda en una
bolsa y luego en el carrito. En el procedimiento U-Scan, el cliente registra cada artículo, lo
embolsa y coloca las bolsas en el carrito. Este procedimiento está diseñado para reducir el
tiempo que un cliente pasa en la fila de la caja.
El procedimiento U-Scan se instaló hace poco en la sucursal de FoodTown que está en
Byrne Road. La gerente de la tienda quiere saber si el tiempo de pago medio utilizando el
método tradicional es más largo que con U-Scan, de modo que recopiló la siguiente infor-
mación sobre la muestra. El tiempo se mide a partir del momento en que el cliente llega a
Pruebas de hipótesis para las muestras de dos poblaciones independientes 359
la fila hasta que sus bolsas están en el carrito. Por tanto, incluye tanto la espera en la fila
como el registro y pago de los artículos. ¿Cuál es el valor p?
El valor calculado es 3.13, que es mayor que el valor crítico de 2.33. Nuestra de-
cisión es rechazar la hipótesis nula y aceptar la hipótesis alternativa. La diferen-
cia de 0.20 minutos entre el tiempo medio de pago usando el método tradicional
es demasiado grande para que ocurra por casualidad. En otras palabras, llega-
mos a la conclusión de que el método U-Scan es más rápido.
360 Capítulo 11
GRÁFICA 11-1 Regla de decisión para una prueba de una cola en el nivel de significancia 0.01
En resumen, los criterios para utilizar la prueba de las medias de una muestra grande son:
1. Las muestras son de poblaciones independientes. Esto significa, por ejemplo, que el
tiempo de pago de la muestra para los clientes que usan U-Scan no está relacionado
con el tiempo de pago para los demás clientes. Si el señor Smith es cliente de Food-
Town y su tiempo de respuesta se incluye en la muestra, esto no afecta el tiempo de
pago para los otros clientes.
2. Los tamaños de ambas muestras son de 30 por lo menos. En el ejemplo de FoodTown,
una muestra era de 50 y la otra de 100. Como ambas muestras se consideran grandes,
podemos sustituir las desviaciones estándar muéstrales por las desviaciones estándar po-
blacionales y utilizar la fórmula (11-2) para encontrar el valor del estadístico de prueba.
Autoevaluación 11-1 Tom Sevits es propietario de Appliance Patch. Hace poco, Tom observó una diferencia en el
valor de las ventas en dólares entre los hombres y las mujeres que trabajan con él como aso-
ciados de ventas. Una muestra de 40 días reveló que los hombres vendieron una media de
$1 400 en aparatos al día con una desviación estándar de $200. Para una muestra de 50 días,
las mujeres vendieron una media de $1 500 en aparatos al día con una desviación estándar
de $250. Con un nivel de significancia 0.05, ¿el señor Sevits puede llegar a la conclusión de
que la cantidad media vendida al día es más grande para las mujeres?
(a) Formule las hipótesis nula y alternativa.
(b) ¿Cuál es la regla de decisión?
(c) ¿Cuál es el valor del estadístico de prueba?
(d) ¿Cuál es su decisión acerca de la hipótesis nula?
(e) ¿Cuál es el valor p?
(f) Interprete el resultado.
Ejercicios
1. Se selecciona una muestra de 40 observaciones de una población. La media de la muestra
es 102 y la desviación estándar es 5; y se selecciona una muestra de 50 observaciones de
una segunda población. La media de esta muestra es 99 y su desviación estándar es 6.
Realice la siguiente prueba de hipótesis utilizando el nivel de significancia 0.04.
Pruebas de hipótesis para las muestras de dos poblaciones independientes 361
3. The Gibbs Baby Food Company quiere comparar el aumento de peso en los niños que con
sumen su marca en comparación con aquellos que consumen la marca de sus competidores.
Una muestra de 40 bebés que consumen productos Gibbs reveló un aumento de peso medio
de 7.6 libras en los primeros tres meses después de nacidos. La desviación estándar de la
muestra fue 2.3 libras. Una muestra de 55 bebés que utilizan marcas de la competencia reve-
ló un aumento de peso medio de 8.1 libras, con una desviación estándar de 2.9 libras. Con un
nivel de significancia 0.05, ¿podemos llegar a la conclusión de que los bebés que consumen
la marca Gibbs subieron menos de peso? Calcule el valor p e interprete el resultado.
4. Como parte de un estudio de empleados corporativos, el director de Recursos humanos de
PNC, Inc. quiere comparar la distancia que recorren para llegar a trabajar los empleados de
la oficina que está en el centro de Cincinnati con la distancia recorrida por los que trabajan
en el centro de Pittsburgh. Una muestra de 35 empleados de Cincinnati reveló que recorren
una distancia media de 370 millas al mes, con una desviación estándar de 30 millas al mes.
Una muestra de 40 empleados de Pittsburgh reveló que recorren una media de 380 millas
al mes, con una desviación estándar de 26 millas al mes. Con un nivel de significancia 0.05,
¿hay alguna diferencia en el número medio de millas recorridas al mes entre los empleados
de Cincinnati y Pittsburgh? Utilice el procedimiento de prueba de hipótesis en cinco pasos.
5. Un analista financiero quiere comparar las tasas de recuperación de acciones relacionadas
con el petróleo con otro tipo de acciones, como las de GE e IBM. El analista seleccionó 32
acciones relacionadas con el petróleo y 49 de otro tipo. La tasa de recuperación media de
las acciones relacionadas con el petróleo es 31.4% y la desviación estándar 5.1%. Para
otras acciones, la tasa media se calculó en 34.9% y la desviación estándar de 6.7%. ¿Exis-
te alguna diferencia significativa en las tasas de recuperación de ambos tipos de acciones?
Utilice el nivel de significancia 0.01.
6. Mary Jo Fitzpatrick es vicepresidente de Servicios de Enfermería de St. Luke's Memorial
Hospital. Hace poco, se dio cuenta de que las ofertas de empleo para enfermeras sindicali-
zadas parecen ofrecer sueldos más altos. Decidió investigar y recopiló la siguiente informa
ción de la muestra.
¿Sería razonable llegar a la conclusión de que las enfermeras sindicalizadas ganan más?
Utilice el nivel de significancia 0.03. ¿Cuál es el valor p?
362 Capítulo 11
La fórmula 11-3 es la 11-2 con las proporciones de muestra respectivas reemplazando las
medias muéstrales reemplazando las desviación estándar de ambas muestras.
Además:
es el número de observaciones en la primera muestra, es el número de
observaciones en la segunda muestra, es la proporción en la primera muestra
al procesar la característica, es la proporción en la segunda muestra al
procesar la característica, es la proporción agrupada al procesar la
característica en las muestras combinadas. Se conoce como estimado
agrupado de la proporción poblacional y se calcula a partir de la fórmula
siguiente.
donde:
es el número al procesar la característica en la primera muestra,
es el número al procesar la característica en la segunda muestra.
El ejemplo siguiente ilustra la prueba de dos proporciones muéstrales.
Pruebas de hipótesis para las muestras de dos poblaciones independientes 363
Formule H0 y H1. En este caso, la hipótesis nula es: "No hay diferencia en la
proporción de mujeres jóvenes y mayores que prefieren Heavenly." Designa-
mos como la proporción de mujeres jóvenes que comprarían Heavenly y
como la proporción de mujeres mayores que lo comprarían. La hipótesis alter-
nativa es que las dos proporciones no son iguales.
GRÁFICA 11-2 Reglas de decisión para la prueba de la fragancia Heavenly, nivel de significancia 0.05
364 Capítulo 11
Observe que la proporción conjunta se aproxima más a 0.50 que a 0.20, por-
que en las muestras se incluyeron más mujeres mayores que jóvenes.
Utilizamos la fórmula (11-3) para encontrar el valor del estadístico de
prueba.
Autoevaluación 11-2 De 150 adultos que probaron un nuevo pastel sabor durazno, 87 lo calificaron como excelente.
De 200 niños en una muestra, 123 lo calificaron como excelente. Utilizando el nivel de signifi-
cancia 0.01, ¿podemos llegar a la conclusión de que hay una diferencia significativa en la pro-
porción de adultos y la proporción de niños que calificaron el nuevo sabor como excelente?
(a) Formule las hipótesis nula y alternativa.
(b) ¿Cuál es la probabilidad de un error Tipo I?
(c) ¿Se trata de una prueba de una o dos colas?
(d) ¿Cuál es la regla de decisión?
(e) ¿Cuál es el valor del estadístico de prueba?
(f) ¿Cuál es su decisión acerca de la hipótesis nula?
(g) ¿Cuál es el valor p? Explique lo que significa en términos de este problema.
Ejercicios
Las hipótesis nula y alternativa son:
Una muestra de 100 observaciones de la primera población indicó que Una mues-
tra de 150 observaciones de la segunda población reveló que 90. Utilice el nivel de
significancia 0.05 para probar las hipótesis.
a. Establezca la regla de decisión.
b. Calcule la proporción conjunta.
Pruebas de hipótesis para las muestras de dos poblaciones independientes 365
Una muestra de 200 observaciones de la primera población indicó que X, es 170. Una mues-
tra de 150 observaciones de la segunda población reveló que X2 es 110. Utilice el nivel de
significancia 0.05 para probar las hipótesis.
a. Establezca la regla de decisión.
b. Calcule la proporción agrupada.
c. Calcule el valor del estadístico de prueba.
d. ¿Cuál es su decisión acerca de la hipótesis nula?
Nota: Para resolver los ejercicios siguientes use el procedimiento de prueba de hipótesis en cin-
co pasos.
9. La familia Damon es dueña de un gran viñedo al oeste del estado de Nueva York a orillas del
lago Erie. Los viñedos se deben fumigar a principios de la temporada de cultivo para proteger-
los contra diversos insectos y enfermedades. Acaban de salir al mercado dos nuevos insecti-
cidas: Pernod 5 y Action. Para probar su efectividad, se seleccionaron tres hileras de cultivo y
se fumigaron con Pernod 5, y otras tres se fumigaron con Action. Cuando las uvas maduraron,
400 de las viñas tratadas con Pernod 5 se revisaron para saber si no estaban infectadas. De
modo similar, se revisó una muestra de 400 viñas fumigadas con Action. Los resultados son:
Con un nivel de significancia 0.02, ¿podemos llegar a la conclusión de que existe una diferencia
en la proporción de viñas infectadas fumigadas con Pernod 5 en comparación con las fumigadas
con Action?
10. The Roper Organizaron realizó encuestas idénticas en 1990 y 2000. Una pregunta hecha a
las mujeres fue: "¿La mayoría de los hombres son amables, gentiles y considerados?" La
encuesta realizada en 1990 reveló que, de las 3 000 mujeres entrevistadas, 2 010 dijeron
que sí. En 2000, 1 530 de las 3 000 mujeres entrevistadas creían que los hombres eran
amables, gentiles y considerados. Con un nivel 0.05, ¿podemos llegar a la conclusión de
que en 2000 menos mujeres creen que los hombres son amables, gentiles y considerados
en comparación con lo que pensaban en 1990?
11. A una muestra nacional de republicanos y demócratas con influencia se le preguntó, como
parte de una encuesta muy extensa, si estaban a favor de hacer más flexibles las normas
del ambiente a fin de permitir quemar carbón con alto contenido de azufre en las plantas que
funcionan a base de carbón. Los resultados fueron:
Con un nivel de significancia 0.02, ¿podemos llegar a la conclusión de que hay mayor pro-
porción de demócratas a favor de hacer más flexibles las normas?
12. El departamento de investigación en la oficina matriz de New Hampshire Insurance realiza
investigaciones continuas sobre las causas de los accidentes automovilísticos, las caracte-
rísticas de los conductores, etcétera. Una muestra aleatoria de 400 policías reveló que 120
de las personas solteras tuvieron por lo menos un accidente en el periodo de tres años an-
terior. De modo similar, una muestra de 600 policías reveló que 150 personas casadas ha-
bían sufrido por lo menos un accidente. Con un nivel de significancia 0.05, ¿existe una
diferencia significativa en las proporciones de personas solteras y casadas que sufrieron un
accidente durante un periodo de tres años?
366 Capítulo 11
Suposiciones para la prueba de 1. Las poblaciones de las que se toman las muestras siguen una distribución normal.
las medias con muestras 2. Las dos muestras son de poblaciones independientes.
pequeñas. 3. Las desviaciones estándar de ambas poblaciones son iguales.
En este caso, la distribución f se utiliza para comparar las medias de dos poblaciones. La
fórmula para calcular el estadístico de prueba t es similar a la (11-2), pero es necesario un
cálculo adicional. La tercera de las suposiciones anteriores indica que las desviaciones están-
dar poblacionales deben ser iguales. Las desviaciones estándar de las dos muestras se agru-
pan para formar un solo estimado de la desviación estándar poblacional desconocida. En
esencia, calculamos una media ponderada de las desviaciones estándar de las dos muestras
y la usamos como un estimado de la desviación estándar poblacional. Las ponderaciones son
los grados de libertad que ofrece cada muestra. ¿Por qué necesitamos agrupar las desviacio-
nes estándar? En la mayor parte de los casos, cuando cada una de las muestras tiene me-
nos de 30 observaciones, las desviaciones estándar poblacionales se desconocen. Por tanto,
calculamos s, la desviación estándar muestral, y la sustituimos por σ, la desviación estándar
poblacional. Como suponemos que las dos poblaciones tienen desviaciones estándar iguales,
el mejor estimado que podemos hacer de este valor es combinar o agrupar toda la informa-
ción que tenemos acerca del valor de la desviación estándar poblacional.
La fórmula siguiente se utiliza para agrupar las desviaciones estándar muéstrales. Ob-
serve que participan dos valores: el número de observaciones en cada muestra y las des-
viaciones estándar muéstrales.
Owens Lawn Care, Inc. fabrica y ensambla podadoras de césped que envía a distribuido-
res en Estados Unidos y Canadá. Se han propuesto dos procedimientos diferentes para
montar el motor sobre la estructura de la podadora. La pregunta es: ¿existe alguna diferen-
cia en el tiempo medio para ensamblar los motores en la estructura de las podadoras? El
primer procedimiento fue diseñado por Herb Welles, empleado de Owens desde hace mu-
chos años (designado como procedimiento 1) y el otro fue desarrollado por William Atkins,
vicepresidente de ingeniería de Owens (designado como procedimiento 2). Para evaluar
ambos métodos, se decidió realizar un estudio de tiempo y movimiento. A una muestra de
cinco empleados se le midió el tiempo utilizando el método de Welles y a otra de seis usan-
do el método de Atkins. A continuación, se presentan los resultados en minutos. ¿Hay al-
guna diferencia en los tiempos de montado medios? Utilice el nivel de significancia 0.10.
Siguiendo los cinco pasos para probar una hipótesis, la hipótesis nula establece que no hay
ninguna diferencia en los tiempos medios de montado entre ambas poblaciones. La hipóte-
sis alternativa indica que sí hay diferencia.
¿Existe alguna diferencia entre los tiempos de ensamblado medios utilizando los métodos
de Welles y Atkins? Los grados de libertad son ¡guales al número total de elementos en las
muestras menos el número de muestras. En ese caso, es n, + n2 - 2. Cinco trabajadores
utilizanon el método de Welles y seis el de Atkins. Por tanto, hay 9 grados de libertad, calcu-
lados así: 5 + 6-2. Los valores críticos de í, del Apéndice F para gl= 9, una prueba de dos
colas y el nivel de significancia 0.10 son -1.833 y 1.833. La regla de decisión se ilustra en
la Gráfica 11-3. No rechazamos la hipótesis nula si el valor f calculado se encuentra entre -
1.833 y 1.833.
GRÁFICA 11-3 Regiones de rechazo, prueba de dos colas, gl = 9 y nivel de significancia 0.10
368 Capítulo 11
Calcular las desviaciones estándar de las muestras. Vea los detalles a con-
tinuación.
Excel tiene un procedimiento llamado "Prueba t: para dos muestras que asumen varian-
zas iguales" que realiza el cálculo de las fórmulas (11-5) y (11-6) y encuentra las medias y
varianzas muéstrales. Los datos se capturan en las primeras dos columnas de la hoja de
cálculo de Excel, y se les da el nombre de "Welles" y "Atkins". A continuación presentamos
la pantalla. El valor de t, llamado "t Stat", es -0.662, y el valor p de dos colas es 0.525. Co-
mo podríamos esperar, el valor p es mayor que el nivel de significancia de 0.10. La conclu-
sión es que no debemos rechazar la hipótesis nula.
Pruebas de hipótesis para las muestras de dos poblaciones independientes 369
Autoevaluación 11-3 El gerente de producción de Bellevue Steel, fabricante de sillas de ruedas, quiere comparar
el número de sillas de ruedas defectuosas producidas en el turno diurno con el del turno ves-
pertino. Una muestra de la producción de 6 turnos diurnos y 8 vespertinos reveló los siguien-
tes números de defectos.
Con un nivel de significancia 0.05, ¿hay alguna diferencia en el número medio de defectos
por turno?
(a) Formule las hipótesis nula y alternativa.
(b) ¿Cuál es la regla de decisión?
(c) ¿Cuál es el valor del estadístico de prueba?
(d) ¿Cuál es su decisión en cuanto a la hipótesis nula?
(e) ¿Cuál es el valor p?
(f) Interprete el resultado.
(g) ¿Cuáles son las suposiciones necesarias para esta prueba?
Ejercicios
Para los ejercicios 13 y 14: (a) formule la regla de decisión, (b) calcule el estimado conjunto de
la varianza poblacional, (c) calcule el estadístico de prueba, (d) tome una decisión acerca de la
hipótesis nula y (e) calcule el valor p.
Una muestra aleatoria de 10 observaciones de una población reveló una media muestral de
23 y una desviación estándar de 4. Una muestra aleatoria de 8 observaciones de otra po-
blación reveló una media muestral de 26 y una desviación estándar muestral de 5. Con un
nivel de significancia 0.05, ¿hay alguna diferencia entre las medias poblacionales? Las
hipótesis nula y alternativa son:
370 Capítulo 11
Una muestra aleatoria de 15 observaciones de la primera población reveló una media mues-
tral de 350 y una desviación estándar muestral de 12. Una muestra aleatoria de 17 obser-
vaciones de la segunda población reveló una media muestral de 342 y una desviación
estándar de 15. Con un nivel de significancia 0.10, ¿existe alguna diferencia en las medias
poblacionales?
Nota: Utilice el procedimiento de prueba de hipótesis en cinco pasos para los ejercicios siguientes.
15. Una muestra de las calificaciones obtenidas en un examen en Estadística 201 es:
Con un nivel de significancia 0.01, ¿la calificación media de las mujeres es más alta que
aquella de los hombres?
16. Un estudio reciente comparó el tiempo que pasan juntas las parejas en las que sólo trabaja
uno de los cónyuges con las parejas en las que ambos trabajan. Según los registros que lle-
varon las esposas durante el estudio, la cantidad media de tiempo que pasan viendo televi-
sión entre las parejas en las que sólo trabaja uno de los cónyuges fue de 61 minutos por día,
con una desviación estándar de 15.5 minutos. Para el otro grupo de parejas, el número me
dio de minutos viendo televisión fue de 48.4, con una desviación estándar de 18.1 minutos.
Con un nivel de significancia 0.01, ¿podemos llegar a la conclusión de que, en promedio, las
parejas en las que sólo uno de los cónyuges trabaja pasan más tiempo juntos viendo tele-
visión? En el estudio participaron 15 parejas en las que sólo uno trabaja y 12 pertenecien-
tes al otro grupo.
17. Lisa Monnin es directora de presupuesto de Nexus Media Inc. y quiere comparar los gastos
en viáticos diarios para el personal de ventas y para el personal de auditoría. Lisa recopiló
la siguiente información sobre las muestras.
Con un nivel de significancia 0.10, ¿podemos llegar a la conclusión de que los gastos diarios
medios son mayores para el personal de ventas que para el de auditoria? ¿Cuál es el valor p? 18.
La Cámara de Comercio del Área de Tampa Bay (Florida) quería saber si el salario medio
semanal de las enfermeras era mayor que el de los maestros de escuela. Para investigarlo,
recopilaron la siguiente información sobre las cantidades ganadas la semana pasada por una
muestra de maestros de escuela y enfermeras.
¿Sería razonable llegar a la conclusión de que el salario semanal medio para las enferme-
ras es más alto? Utilice el nivel de significancia 0.01. ¿Cuál es el valor p?
Pruebas de hipótesis
de dos muestras: muestras dependientes
En la página 367, probamos la diferencia entre las medias de dos muestras independien-
tes. Comparamos el tiempo medio que se requiere para montar un motor utilizando los mé-
todos de Welles y Atkins. Las muestras eran independientes, lo que significa que la muestra
de tiempos de armado utilizando el método de Welles no estaba relacionada en ningún as-
pecto con la muestra de tiempos de armado con el método de Atkins.
Sin embargo, Hay situaciones en las que las muestras no son independientes. En otras
palabras, las muestras son dependientes o están relacionadas. Por ejemplo, Nickel Sa-
vings and Loan recurre a dos empresas, Shadek Appraisals y Bowyer Real Estáte, para va-
luar las propiedades de bienes raíces sobre las que hace los préstamos. Es importante que
estas dos compañías utilicen métodos similares para valuar. A fin de revisar la consistencia
de las dos empresas, Nickel Savings selecciona 10 casas y pide a Schadek Appraisals y a
Pruebas de hipótesis para las muestras de dos poblaciones independientes 371
Bowyer Real Estate que valúen las propiedades seleccionadas. Para cada
una, se harán dos valuaciones. Es decir, para cada casa existirá una valuación
de Schadek Appraisals y otra de Bowyer Real Estate. Las valuaciones
dependen de la casa seleccionada, o se relacionan con ésta. Lo anterior se
conoce también como muestra por pares.
Para la prueba de hipótesis, nos interesa la distribución de las diferencias
en las valuaciones de cada casa. Por tanto, sólo hay una muestra. En otras
palabras, investigamos si la media de la distribución de las diferencias en las
valoraciones es 0. La muestra está formada por las diferencias entre las va-
luaciones determinadas por Schadek Appraisals y las valuaciones de Bowyer
Real Estate. Si las dos empresas reportan estimados similares, en ocasiones,
Schadek Appraisals será el valor más alto y en otras será Bowyer Real Estate. Sin embar-
go, la media de la distribución de las diferencias será 0. Por otra parte, si una de las empre-
sas reporta en forma consistente las valuaciones más altas, la media de la distribución de
las diferencias no será 0.
Utilizamos el símbolo fiá para indicar la media poblacional de la distribución de las dife-
rencias. Suponemos que la distribución de las diferencias de la población sigue la distribu-
ción normal. El estadístico de prueba sigue la distribución t y calculamos su valor a partir de
la siguiente fórmula:
Entonces,
es la media de la diferencia entre las observaciones por pares o relacionadas,
es la desviación estándar de las diferencias entre las observaciones por pares
o relacionadas, es el número de observaciones por pares.
Recuerde que Nickel Savings and Loan quiere comparar las dos compañías que utiliza pa-
ra valuar las casas. Nickel Savings seleccionó una muestra de 10 propiedades y programa
las valuaciones de ambas empresas. Los resultados, reportados en miles de dólares, son:
372 Capítulo 11
Con un nivel de significancia 0.05, ¿podemos llegar a la conclusión de que hay una diferen-
cia en las valuaciones medias de las casas?
El primer paso consiste en formular las hipótesis nula y alternativa. En este caso, es apro-
piada una prueba de dos colas porque nos interesa determinar si hay una diferencia en las
valuaciones. No nos interesa indicar si una compañía en particular valúa las propiedades
en un valor más alto que la otra. La pregunta es si las diferencias de la muestra provienen
de una población con una media de 0. Si la media de las diferencias de la población es 0,
llegamos a la conclusión de que no hay diferencia en las valuaciones. Las hipótesis nula y
alternativa son:
Cada empresa valúa las 10 casas, de modo que n=10 y gl=n-1 =10-1 =9. Tene-
mos una prueba de dos colas y el nivel de significancia es 0.05. Para determinar el valor
crítico, vaya al Apéndice F, desplácese por la fila con 9 grados de libertad hasta la colum-
na para una prueba de dos colas y el nivel de significancia 0.05. El valor en la intersección
es 2.262. El valor aparece en el cuadro de la Tabla 11-2. La regla de decisión es rechazar
la hipótesis nula, si el valor calculado de t es menor a -2.262 o mayor a 2.262. Éstos son
los detalles del cálculo.
Para encontrar el valor p, utilizamos el Apéndice F y la sección para una prueba de dos
colas. Desplácese a lo largo de la fila con 9 grados de libertad y busque los valores de f que
se aproximan más a nuestro valor calculado. Para un nivel de significancia 0.01, el valor de t
es 3.250. El valor calculado es más alto que éste, pero más bajo que el valor de 4.781 que
corresponde al nivel de significancia 0.001. Por tanto, el valor p es menor a 0.01. Esta in-
formación se resalta en la Tabla 11 -2.
Excel tiene un procedimiento llamado "Prueba í: Que muestra por pares las medias"
realizando los cálculos de la fórmula (11-7). A continuación, presentamos la pantalla de es-
te procedimiento.
El valor calculado de t es 3.3045, y el valor de dos colas es 0.00916. Como el valor p
es menor a 0.05, rechazamos la hipótesis de que la media de la distribución de las diferen-
cias entre las valuaciones es cero. De hecho, este valor p es menor a 1.0%. Hay una pe-
queña probabilidad de que la hipótesis nula sea verdadera.
374 Capítulo 11
Comparación de muestras
dependientes e independientes
Los estudiantes principiantes a menudo se confunden con la diferencia entre las pruebas
para muestras independientes [fórmula (11-6)] y las pruebas para muestras dependientes
[fórmula (11-7)]. ¿Cómo distinguimos la diferencia entre las muestras dependientes e inde-
pendientes? Hay dos tipos de muestras dependientes: (1) aquellas que se caracterizan por
una medición, una intervención de algún tipo y luego otra medición; y (2) una comparación
o agrupación por partes de las observaciones. Para explicarlo con mayor detalle:
1. El primer tipo de muestra dependiente se caracteriza por una medición seguida por una
intervención de algún tipo y luego otra medición. Éste se podría considerar un estudio
de "antes" y "después". Dos ejemplos nos van a ayudar a explicarlo mejor. Suponga
que queremos demostrar que al colocar bocinas en el área de producción y tocar mú-
sica relajante, aumentaremos la producción. Empezamos por seleccionar una muestra
de trabajadores y medir sus resultados en las condiciones actuales. A continuación, se
instalan las bocinas en el área de producción y medimos otra vez los resultados de los
trabajadores. Hay dos mediciones, una antes de instalar las bocinas y otra después. La
intervención consiste en la instalación de las bocinas en el área de producción.
Un segundo ejemplo comprende una empresa educativa que ofrece cursos diseña-
dos para aumentar las calificaciones en los exámenes y la capacidad de leer. Supon-
ga que la compañía quiere ofrecer un curso que ayudará a los alumnos del primer año
de secundaria a aumentar sus calificaciones en el SAT. Para empezar, cada estudian-
te presenta el SAT en el primer año de secundaria. Durante las vacaciones de verano
entre el primero y el segundo años, participan en el curso donde se les dan consejos
para presentar los exámenes. Por último, durante el otoño del segundo año de secun-
daria, vuelven a presentar el examen. Una vez más, el procedimiento se caracteriza por
una medición (presentar el SAT en el primer año), una intervención (los talleres de ve-
rano) y otra medición (presentar el SAT en el segundo año).
2. El segundo tipo de muestra dependiente se caracteriza por una comparación o combi
nación de las observaciones por pares. En el ejemplo anterior, Nickel Savings es una
muestra dependiente de este tipo. Seleccionaron una propiedad para su valuación y
luego realizaron dos valuaciones de la misma casa. Como un segundo ejemplo, supon-
gamos que un psicólogo industrial quiere estudiar las similitudes intelectuales de las pa-
rejas recién casadas, por lo que selecciona una muestra de recién casados. Luego,
aplica una prueba de inteligencia estándar tanto al hombre como a la mujer para deter-
minar la diferencia en las calificaciones. Observe la comparación que ocurre: se com-
paran las calificaciones que obtiene un matrimonio.
¿Por qué preferimos las muestras dependientes a las independientes? Al utilizar muestras
dependientes, podemos reducir la variación en la distribución de muestreo. Para ilustrar, va-
mos a usar el ejemplo de Nickel Savings and Loan. Suponga que tenemos dos muestras in-
dependientes de propiedades de bienes raíces para su valuación y realizamos la siguiente
prueba de hipótesis, utilizando la fórmula (11-6). Las hipótesis nula y alternativa son:
Hay dos muestras independientes de 10 elementos cada una. De modo que el número de
grados de libertad es 10 + 10 - 2 = 18. Según el Apéndice D, para el nivel de significancia
0.05, la hipótesis nula se rechaza si t es menor a -2.101 o mayor a 2.101.
Usamos los mismos comandos de Excel que en la página 66 en el Capítulo 3 para en-
contrar la media y la desviación estándar de las dos muestras independientes. Utilizamos
los comandos de Excel de la página 384 de este capítulo para encontrar la varianza agru-
pada y el valor de "t-Stat". Estos valores están resaltados en amarillo.
La media de las valuaciones para las 10 propiedades que realizó Schadek es $126 800,
y la desviación estándar es $14 500. La media de las valuaciones de Bowyer Real Estate es
Pruebas de hipótesis para las muestras de dos poblaciones independientes 375
$122 200, y la desviación estándar es $14 300. Para facilitar los cálculos, usamos $000, en
lugar de $. El valor del estimado agrupado de la varianza a partir de la fórmula (11-5) es
El valor calculado de t (0.716) es menor a 2.101, de modo que la hipótesis nula no se re-
chaza. No podemos demostrar que hay una diferencia en la valuación media. ¡No es la mis-
ma conclusión que a la que llegamos anteriormente! ¿Por qué pasa esto? El numerador es
el mismo en la prueba de observaciones por pares (4.6). Sin embargo, el denominador es
más bajo. En la prueba por pares, el denominador es 1.3920 (vea los cálculos en la página
372). En el caso de las muestras independientes, el denominador es 6.4403. Hay mayor va-
riación o incertidumbre. Esto representa la diferencia en los valores t y la diferencia en las
decisiones estadísticas. El denominador mide el error estándar de la estadística. Cuando
las muestras no se combinan en pares, surgen dos tipos de variación: las diferencias entre
dos empresas valuadoras y la diferencia en la valuación de las propiedades. Las casas de
la 4 a la 10 tienen valores relativamente altos, mientras que el valor de la número 5 es re-
lativamente bajo. Estos datos demuestran lo diferentes que son las valuaciones de las pro-
piedades, pero lo que nos interesa es la diferencia entre las dos empresas valuadoras.
El truco consiste en dividir las valuaciones en pares para reducir la variación entre las
propiedades. La prueba por pares utiliza sólo la diferencia entre las dos compañías valua-
doras para la misma propiedad. Por tanto, la estadística por pares o dependiente se enfo-
ca en la variación entre Schadek Appraisals y Bowyer Real Estate. Por tanto, su error
estándar siempre es menor. Esto, a su vez, da lugar a una estadística de prueba mayor y
una mayor probabilidad de rechazar la hipótesis nula. De modo que siempre que sea posi-
ble debemos dividir la información por pares.
Aquí hay una mala noticia. En la prueba de observaciones por pares, los grados de li-
bertad son la mitad de aquellos que hay en las muestras que no están divididas por pares.
Para el ejemplo de bienes raíces, los grados de libertad bajaron de 18 a 9 al dividir las ob-
servaciones por pares. Sin embargo, en casi todos los casos, hay que pagar un precio por
una mejor prueba.
376 Capítulo 11
Autoevaluación 11-4 La publicidad realizada por Sylph Fitness Center afirma que al terminar su curso las personas
bajarán de peso. Una muestra aleatoria de ocho participantes recientes reveló los pesos
siguientes antes y después del curso. En el nivel de significancia 0.01, ¿podemos llegar a la
conclusión de que los estudiantes bajan de peso?
Ejercicios
Las hipótesis nula y alternativa son:
Con un nivel de significancia 0.05, ¿podemos llegar a la conclusión de que hay más defec-
tos en el turno vespertino? Las hipótesis nulas y alternativas son:
Las siguientes observaciones por pares indican el número de multas de tránsito que han le-
vantado el Oficial Dhondt y el Oficial Meredith de la South Carolina Highway Patrol durante
los últimos cinco meses.
Con un nivel de significancia 0.05, ¿existe alguna diferencia en el número medio de multas
levantadas por los dos oficiales?
Nota: Para resolver los ejercicios siguientes, utilice el procedimiento de prueba de hipótesis en
cinco pasos.
La administración de Discount Fumiture, una cadena de mueblerías de descuento en el no-
reste de Estados Unidos, diseñó un plan de incentivos para sus vendedores. Para evaluar
Pruebas de hipótesis para las muestras de dos poblaciones independientes 377
¿Hubo algún incremento significativo en el ingreso semanal de un vendedor típico debido al
innovador plan de incentivos? Utilice el nivel de significancia 0.05. Calcule el valor p e inter-
este innovador plan, 12 vendedores se seleccionan al azar y se registran sus ingresos se-
manales antes y después del plan.
prete el resultado.
22. Hace poco, el gobierno federal otorgó fondos para un programa especial diseñado para re-
ducir el crimen en áreas de alto riesgo. Un estudio de los resultados del programa en ocho
áreas de alto riesgo de Miami, Florida, produjo los siguientes resultados.
¿Ha habido alguna reducción en el número de crímenes desde el inicio del programa? Utilice
el nivel de significancia 0.01. Calcule el valor p.
II. También podemos probar si dos muestras provienen de poblaciones con la misma proporción
de éxitos. A. Las proporciones de ambas muestras se agrupan utilizando la fórmula siguiente:
III. El estadístico de prueba para comparar dos medias es la distribución t, si una o ambas
muestras contienen menos de 30 observaciones.
A. Ambas poblaciones deben seguir la distribución normal.
B. Las poblaciones deben tener desviaciones estándar iguales.
C. Las muestras son independientes.
378 Capítulo 11
IV. Para muestras dependientes, suponemos que la distribución de las diferencias por pares
entre las poblaciones tiene una media de 0.
A. Primero calculamos la media y la desviación estándar de las diferencias muéstrales.
B. El valor de la estadística de prueba se calcula a partir de la fórmula siguiente:
Clave de pronunciación
Con un nivel de significancia 00.01, ¿hay alguna diferencia en el número medio de veces
que hombres y mujeres piden comida para llevar en un mes? ¿Cuál es el valor p? Clark
Heter es ingeniero industrial en Lyons Products y quiere determinar si se producen más
unidades en el turno vespertino que en el diurno. Una muestra de 54 trabajadores del
turno diurno reveló que el número medio de unidades producidas fue 345, con una desvia-
ción estándar de 21. Una muestra de 60 trabajadores del turno vespertino indicó que el nú-
mero medio de unidades producidas fue 351, con una desviación estándar de 28 unidades.
En el nivel de significancia 0.05, ¿el número de unidades producidas en el turno vespertino
es más alto?
Fry Brothers Heating and Air Conditioning, Inc. emplea a Larry Clark y George Murnen pa-
ra que hagan llamadas para ofrecer el servicio de reparación de unidades de calefacción y
aire acondicionado a domicilio. Tom Fry, el dueño, quiere saber si hay alguna diferencia en
el número medio de llamadas de servicio al día. Una muestra aleatoria de 40 días del año
pasado reveló que Larry Clark hizo un promedio de 4.77 llamadas por día, con una desvia-
ción estándar de 1.5 llamadas diarias. Para una muestra de 50 días, George Murnen hizo
un promedio de 5.02 llamadas al día, con una desviación estándar de 1.23 llamadas diarias.
Pruebas de hipótesis para las muestras de dos poblaciones independientes 379
Con un nivel de significancia 0.05, ¿hay alguna diferencia en el número medio de llamadas
por día entre los dos empleados? ¿Cuál es el valor p?
26. A un fabricante de café le interesa saber si el consumo diario de las personas que beben ca-
fé regular es menor que el de las personas que toman café descafeinado. Una muestra alea-
toria de 50 bebedores de café regular reveló una media de 4.35 tazas por día, con una
desviación estándar de 1.20 tazas por día. Una muestra de 40 bebedores de café descafei-
nado indicó una media de 5.84 tazas diarias, con una desviación estándar de 1.36 tazas al
día. Utilice el nivel de significancia 0.01. Calcule el valor p.
27. Una compañía de teléfonos celulares ofrece dos planes a sus suscriptores. En el momento
en que los suscriptores se registran, se les pide cierta información demográfica. El ingreso
anual medio para una muestra de 40 suscriptores al Plan A es $57 000, con una desviación
estándar de S9 200. Esta distribución tiene un sesgo positivo; el coeficiente de sesgo real
es 2.11. Para una muestra de 30 suscriptores al Plan B, el ingreso medio es $61 000, con
una desviación estándar de $7 100. La distribución de los suscriptores al Plan B también tie-
ne un sesgo positivo, pero no tan marcado. El coeficiente de sesgo es 1.54. Con un nivel de
significancia 0.05, ¿sería razonable llegar a la conclusión de que el ingreso medio para los
que eligen el Plan B es más alto? ¿Cuál es el valor p? ¿Los coeficientes de sesgo afectan
los resultados de la hipótesis de la prueba? ¿Por qué?
28. Un fabricante de computadoras ofrece una línea de ayuda a la que los compradores pueden
llamar las 24 horas los 7 días de la semana. Responder estas llamadas en forma oportuna
es importante para la imagen de la empresa. Después de decir al cliente que la solución de
su problema es importante, se le pregunta si éste está relacionado con "software" o "hard-
ware". El tiempo medio que un técnico tarda en solucionar un problema de software es de
18 minutos con una desviación estándar de 4.2 minutos. Esta información se obtuvo de una
muestra de 35 llamadas supervisadas. Para un estudio de 45 problemas de hardware, el
tiempo medio que el técnico tardó en solucionar el problema fue 15.5 minutos con una des
viación estándar de 3.9 minutos. Esta información también se obtuvo de llamadas supervi-
sadas. Con un nivel de significancia 0.05, ¿sería razonable llegar a la conclusión de que es
más tardado resolver problemas de software? ¿Cuál es el valor p?
29. Hace poco, el fabricante de Advil, un remedio común para el dolor de cabeza, desarrolló una
nueva fórmula del medicamento que, según afirma, es más efectiva. Para evaluar el nuevo
medicamento, a una muestra de 200 usuarios se le pidió que lo probaran. Después de una
prueba de un mes, 180 indicaron que el nuevo medicamento es más efectivo para aliviar el
dolor de cabeza. Al mismo tiempo, a una muestra de 300 usuarios de Advil se les dio el me-
dicamento que ya existía, pero se les dijo que era una nueva fórmula. De este grupo, 261
dijeron que había mejorado. Con un nivel de significancia 0.05, ¿podemos llegar a la con
clusión de que el nuevo medicamento es más efectivo?
30. Cada mes, la National Association of Purchasing Managers publica el índice NAPM. Una de
las preguntas que se hacen en la encuesta a los agentes de compra es: ¿Usted cree que la
economía está en expansión? El mes pasado, de los 300 entrevistados, 160 dieron una res-
puesta afirmativa. Este mes, 170 de 290 indicaron que creían que la economía está en ex
pansión. Con un nivel de significancia 0.05, ¿podemos llegar a la conclusión de que, en este
mes, una mayor proporción de agentes cree que la economía está en expansión?
31. Como parte de una encuesta reciente entre parejas en las que ambos cónyuges trabajan,
un psicólogo industrial descubrió que 990 hombres de los 1 500 entrevistados creen que la
división de las tareas domésticas es justa. Una muestra de 1 600 mujeres reveló que 970
creen que la división de las tareas domésticas es justa. Con un nivel de significancia 0.01,
¿sería razonable llegar a la conclusión de que la proporción de hombres que creen que la
división de las labores domésticas es justa es más alta? ¿Cuál es el valor p?
32. En el área de Colorado Springs, Colorado, hay dos proveedores de Internet importantes,
uno se llama HTC y el otro Mountain Communications. Queremos investigar si hay alguna
diferencia en la proporción de veces que un cliente se puede conectar a Internet. Durante
un periodo de una semana, se hicieron 500 llamadas a HTC en horas aleatorias del día y la
noche. En 450 de las veces se logró la conexión a Internet. Un estudio similar de una sema
na con Mountain Communications demostró que la conexión se logró en 352 de 400 inten
tos. Con un nivel de significancia 0.01, ¿hay alguna diferencia en el porcentaje de veces que
se logró la conexión a Internet?
33. El dueño de Bun 'N' Run Hamburguer quiere comparar las ventas por día en dos tiendas. El
número medio de ventas para 10 días seleccionados al azar en la tienda de Northside fue
83.55, y la desviación estándar de 10.50. Para una muestra aleatoria de 12 días en la tien-
da de Southside, el número medio de ventas fue 78.80 con una desviación estándar de
380 Capítulo 11
14.25. Con un nivel de significancia 0.05, ¿hay alguna diferencia en el número medio de
hamburguesas vendidas en las dos tiendas? ¿Cuál es el valor p?
34. Hace poco, el Departamento de Ingeniería de Sims Software, Inc. desarrolló dos soluciones
químicas diseñadas para aumentar la vida útil de los discos para computadora. Una mues-
tra de discos tratados con la primera solución duraron 86, 78, 66, 83, 81, 84, 109, 65 y 102
horas. Aquellos tratados con la segunda solución duraron 91,71, 75, 76, 87, 79, 73, 76, 79,
78, 87, 90, 76 y 72 horas. Con un nivel de significancia 0.10, ¿podemos llegar a la conclu-
sión de que hay una diferencia en la duración que ofrecen ambos tratamientos?
35. El Willow Run Outlet Malí tiene dos Haggar Outlet Stores, una en Peach Street y la otra en
Plum Street. Las dos tiendas tienen una distribución diferente, pero sus gerentes afirman
que su distribución maximiza la cantidad de artículos que los clientes compran por impulso.
Una muestra de 10 clientes en la tienda de Peach Street reveló que gastaron las siguientes
cantidades excedentes de lo planeado: $17.58, $19.73, $12.61, $17.79, $16.22, $15.82,
$15.40, $15.86, $11.82 y $15.85. Una muestra de 14 clientes de la tienda de Plum Street re-
veló que gastaron las siguientes cantidades fuera de lo planeado: $18.19, $20.22, $17.38,
$17.96, $23.92, $15.87, $16.47, $15.96, $16.79, $16.74, $21.40, $20.57, $19.79 y $14.83.
Con un nivel de significancia 0.01, ¿hay alguna diferencia en las cantidades medias com-
pradas por impulso en ambas tiendas?
36. El Grand Strand Family Medical Center se construyó de manera específica para atender
emergencias menores de los visitantes en el área de Myrtle Beach. Hay dos instalaciones,
una en Littte River Área y otra en Murrells Inlet. El Departamento de Aseguramiento de la
Calidad quiere comparar el tiempo de espera medio de los pacientes en ambas clínicas. A
continuación, presentamos las muestras de los tiempos de espera, reportados en minutos:
Con un nivel de significancia 0.05, ¿existe alguna diferencia en el tiempo de espera medio?
37. The Commercial Bank and Trust Company estudia el uso de sus cajeros automáticos. Lo
que más les interesa saber es si los adultos jóvenes (menos de 25 años) utilizan los cajeros
más que los adultos de la tercera edad. Para investigar más, se seleccionaron muestras de
clientes menores de 25 años y de clientes mayores de 60 años. Se determinó el número de
transacciones en cajero automático durante el mes pasado para cada individuo selecciona-
do, y los resultados se ilustran a continuación. Con un nivel de significancia 0.01, ¿la geren-
cia del banco puede llegar a la conclusión de que los clientes más jóvenes utilizan más los
cajeros automáticos?
38. Dos barcos, el Prada (Italia) y el Oracle (Estados Unidos), compiten por la clasificación en
la próxima carrera de la Copa América. Recorren varias veces una parte de la ruta. A con-
tinuación, presentamos los tiempos medios en minutos. Con un nivel de significancia 0.05,
¿podemos llegar a la conclusión de que hay una diferencia en sus tiempos medios?
39. El fabricante de un reproductor MP3 quería saber si una reducción de 10% en el precio es
suficiente para aumentar las ventas de su producto. Para investigar, el dueño seleccionó al
azar ocho tiendas y vendió el reproductor MP3 al precio reducido. En siete tiendas seleccio-
nadas también al azar, el reproductor MP3 se vendió al precio regular. A continuación, se
reportan los números de las unidades vendidas el mes pasado en las tiendas que participa-
ron en la muestra. Con un nivel de significancia 0.01, ¿el fabricante puede llegar a la con-
clusión de que la reducción en el precio dio como resultado un incremento en las ventas?
Pruebas de hipótesis para las muestras de dos poblaciones independientes 381
40. Muchos accidentes automovilísticos ocurren en diversos cruceros de alto riesgo en Teton
County, a pesar de los semáforos. El Departamento de Tránsito afirma que una modifica-
ción en el tipo de semáforos reducirá estos accidentes. Los comisionados del condado acor-
daron probar el experimento propuesto. Se eligieron ocho cruceros al azar, y se modificaron
los semáforos en esos cruceros. Los números de accidentes menores durante un periodo
de seis meses antes y después de las modificaciones son:
Con uní nivel de significancia 0.01, ¿sería razonable llegar a la conclusión de que la modifi-
cación redujo el número de accidentes de tránsito?
41. Lester Hollar es vicepresidente de recursos humanos de una compañía manufacturera gran-
de. En años recientes, ha notado un aumento en el ausentismo que, según cree, está relacio-
nado con la salud general de los empleados. Hace cuatro años, en un intento por mejorar la
situación, inició un programa de acondicionamiento físico en el que los empleados hacen ejer-
cicio durante la hora del almuerzo. Para evaluar el programa, seleccionó a una muestra alea-
toria de ocho participantes y encontró el número de días en los que cada uno estuvo ausente
durante los seis meses anteriores al inicio del programa de ejercicio y en los últimos seis me-
ses. A continuación presentamos los resultados. Con un nivel de significancia 0.05, ¿podemos
llegar a la conclusión de que el número de ausencias se redujo? Calcule el valor p.
42. El presidente del American Insurance Institute quiere comparar los costos anuales de los se-
guros para auto que ofrecen dos de las compañías principales, por lo que selecciona una
muestra de 15 familias, algunas con un solo conductor asegurado, otras con varios conduc-
tores adolescentes y paga a cada familia para que llame a las otras dos compañías y pre-
gunten el precio de los seguros. A fin de poder comparar los datos, se estandarizaron ciertas
características, como la cantidad del deducible y los límites de responsabilidad. A continua-
ción, se reporta la información de la muestra. Con un nivel de significancia 0.10, ¿podemos
llegar a la conclusión de que hay una diferencia en las cantidades citadas?
43. Fairfield Homes desarrolla dos parcelas cerca de Pigeon Fork, Tennessee. A fin de probar
distintas estrategias publicitarias, utilizan medios diferentes para llegar a los compradores
potenciales. El ingreso familiar anual medio para 75 personas que investigan sobre el pri-
mer desarrollo es $150 000, con una desviación estándar de $40 000. Una muestra corres-
pondiente de 120 personas en el segundo desarrollo tuvo una media de $180 000, con una
desviación estándar de $30 000. Con un nivel de significancia 0.05, ¿Fairfield puede llegar
a la conclusión de que las medias poblacionales son diferentes?
382 Capítulo 11
44. Los datos siguientes resultaron de una prueba de degustación de dos barras de chocolate
diferentes. El primer número es una calificación del sabor, que puede ser de 0 a 5, y 5 indi-
ca que a la persona le gustó el sabor. El segundo número indica si estaba presente algún
"ingrediente secreto". Si el ingrediente estaba presente se utilizaba un código de "1" y de "0"
si no lo estaba. Con un nivel de significancia 0.05, ¿esta información revela alguna diferen-
cia en las calificaciones de sabor?
Con un nivel de significancia 0.05, ¿podemos llegar a la conclusión de que los niveles de
contaminación se reducen después de usar el nuevo jabón?
46. Los datos siguientes sobre las tasas de recuperación anuales se recopilaron de cinco tipos
de acciones que aparecen en la Bolsa de Valores de Nueva York ("el gran tablero") y cinco
que aparecen en NASDAQ. Con un nivel de significancia 0.01, ¿podemos llegar a la conclu-
sión de que las tasas de recuperación anuales son más altas en el gran tablero?
47. La ciudad de Laguna Beach maneja dos estacionamientos públicos. En el que está en
Ocean Drive se pueden estacionar hasta 125 autos y en el de Río Rancho se estacionan
hasta 130 autos. Los especialistas en planeación urbana consideran aumentar el tamaño de
los estacionamientos y cambiar la estructura de tarifas. Para empezar, la oficina de planea-
ción quiere recopilar cierta información sobre el número de autos en los estacionamientos a
distintas horas del día. Un funcionario de planeación tiene la tarea de visitar ambos estacio-
namientos a horas aleatorias del día y la noche y contar el número de autos en cada uno.
El estudio se realizó durante un periodo de un mes. A continuación presentamos el número
de autos en los estacionamientos para 25 visitas al estacionamiento de Ocean Drive y 28 vi-
sitas al estacionamiento de Río Rancho.
¿Sería razonable llegar a la conclusión de que hay una diferencia en el número medio de
autos en los dos estacionamientos? Utilice el nivel de significancia 0.05. 48. La cantidad de
dinero de los ingresos que se gasta en vivienda es un componente importante del costo de la
vida. Los costos de vivienda totales para los propietarios de casas incluyen pagos hipotecarios,
impuesto predial y costos de servicios (agua, calefacción, electricidad).
Pruebas de hipótesis para las muestras de dos poblaciones independientes 383
49. A continuación presentamos varias compañías importantes y sus precios accionarios en fe-
brero de 2003. Busque los precios actuales en la web. Hay muchas fuentes para investigar
los precios accionarios, como Yahoo y CNNFI. La dirección de Yahoo es http://www.quote.
yahoo.com. Escriba la identificación para encontrar el precio correcto. Con un nivel de sig-
nificancia 0.05, ¿podemos llegar a la conclusión de que los precios han cambiado?
b. Con un nivel de significancia 0.05, ¿podernos llegar a la conclusión de que hay una di-
ferencia en la asistencia media de los equipos de la Liga Americana en comparación
con los equipos de la Liga Nacional?
c. Con un nivel de significancia 0.05, ¿podemos llegar a la conclusión de que hay una di-
ferencia en el número medio de victorias para los equipos que tienen campos de pasto
artificial contra los que tienen canchas de césped natural?
d. Con un nivel de significancia 0.05, ¿podemos llegar a la conclusión de que hay una di-
ferencia en el número medio de jonrones para los equipos que tienen canchas de pas-
to artificial y aquellos con canchas de césped natural?
53. Consulte los datos Wage, que proporcionan información sobre los salarios anuales para una
muestra de 100 trabajadores. También se incluyen las variables relacionadas con la indus-
tria, los años de educación y el género para cada trabajador.
a. Realice una prueba de hipótesis para determinar si hay una diferencia en los salarios
anuales medios de los residentes del sur en comparación con aquellas de las personas
que no viven en el sur.
b. Realice una prueba de hipótesis para determinar sí hay alguna diferencia en los sala-
rios anuales medios de los trabajadores sajones y no sajones.
c. Realice una prueba de hipótesis para determinar si hay alguna diferencia en los sala-
rios anuales medios de los trabajadores hispanos y no hispanos.
d. Realice una prueba de hipótesis para determinar si hay alguna diferencia en los sala-
rios anuales medios de los trabajadores hombres y mujeres.
e. Realice una prueba de hipótesis para determinar si existe alguna diferencia en los sa-
larios anuales medios de los trabajadores casados y solteros.
54. Consulte los datos CÍA, que proporcionan información demográfica y económica sobre 46
países. Realice una prueba de hipótesis para determinar si el porcentaje medio de la pobla-
ción mayor de 65 años de edad en los países del G20 es diferente de aquellos que no son
miembros del G20.
Comandos de software
1. Los comandos de Excel para la prueba t de dos muestras en
la página 369 son;
a. Capture los datos en las columnas A y B (o cualquier otra
columna) en la hoja de cálculo. Utilice la primera fila de
cada columna para escribir el nombre de la variable.
b. En la barra de menú seleccione Tools y Data Analysis.
Seleccione t-Test: Two-Sample Assumíng Equal Va-
riances y haga clic en OK.
c. En el cuadro de diálogo, indique que el rango de la Va
riable 1 es de A1 a A6 y de la Variable 2 de B1 a B7,
la Hypothesized Mean Differrence es 0, las Labels
están en la primera fila, Alpha es 0.05 y Output Range
es D2. Haga clic en OK.
Introducción
En este capítulo continuamos con nuestro estudio de las pruebas de hipótesis. Recuerde que
en los Capítulos 10 y 11 revisamos la teoría general de la prueba de hipótesis. Describimos
el caso en el que se seleccionó una muestra grande de la población. Utilizamos la distribu-
ción z(la distribución normal estándar) para determinar si era razonable llegar a la conclusión
de que la media de la población era igual a un valor especifico. Realizamos pruebas para
saber si dos medias poblacionales eran iguales. También manejamos pruebas de una y dos
muestras para las proporciones de la población, utilizando una vez más la distribución nor-
mal estándar como la distribución del estadístico de prueba. Describimos los métodos para
realizar pruebas de las medias en donde las poblaciones eran normales pero las muestras
eran pequeñas (contenían menos de 30 observaciones). En ese caso la distribución t se uti-
lizó como la distribución de la prueba. En este capítulo ampliamos nuestro concepto de las
pruebas de hipótesis. Describimos una prueba para varianzas y luego una prueba que com-
para al mismo tiempo diversas medias para determinar si éstas provienen de poblaciones
iguales.
La distribución F
La distribución de probabilidad que utilizamos en este capítulo es la distribución F, que debe
su nombre a Sir Ronald Fisher, uno de los pioneros de la estadística actual. Esta distribución
de probabilidad se utiliza como la distribución del estadístico de pruebas para diferentes
situaciones, a fin de probar si dos muestras provienen de poblaciones que tienen varianzas
iguales, y también se aplica cuando se desea comparar de manera simultánea varias medias
poblacionales. La comparación simultánea de varias medias poblacionales se llama análisis
de la varianza (ANOVA). En ambos casos, las poblaciones deben seguir una distribución
normal y la información debe presentar por lo menos una escala de intervalos. ¿Cuáles son
las características de la distribución F?
Los términos s^ y s¡ son las varianzas respectivas de la muestra. Si la hipótesis nula es ver-
dadera, la estadística de la prueba sigue la distribución F con n: - 1 y n2 - 1 grados de liber-
tad. Para reducir el tamaño de la tabla de valores críticos, la varianza más grande de la
muestra se coloca en el numerador; de ahí que la razón F que se menciona en la tabla
siempre es mayor de 1.00. Por tanto, sólo se requiere el valor crítico de la cola derecha. El
valor crítico de F para una prueba de dos colas se obtiene al dividir a la mitad el nivel de
significancia y luego consultar los grados de libertad apropiados en el Apéndice G.
Un ejemplo servirá de ilustración.
Los tiempos de manejo medios por las dos rutas son casi iguales. El tiempo medio es de
58.29 minutos por la U. S. 25 y de 59.0 minutos para la 1-75. Sin embargo, al evaluar los
tiempos del recorrido, el señor Lammers también está preocupado por la variación de los tiem-
pos del recorrido. El primer paso es calcular las varianzas de las muestras. Se utilizará la
fórmula (3-11) para calcular las desviaciones estándar de la muestra. Para obtener las var-
ianzas de las muestras, las desviaciones estándar se elevan al cuadrado.
Paso 5: El paso final es tomar la razón de las dos varianzas muéstrales, determinar el
valor de la estadística de prueba y tomar una decisión acerca de la hipótesis
nula. Observe que la fórmula (12-1) se refiere a las varianzas muéstrales,
pero se calcularon las desviaciones estándar de la muestra. Es necesario ele-
var al cuadrado las desviaciones estándar para determinar las varianzas.
En este punto, surge una duda lógica acerca de las pruebas de una cola. Por ejemplo,
suponga que en el ejemplo anterior sospecha que la varianza del número de veces que se
utiliza la carretera U.S. 25 es mayor que la varianza del número de veces que se utiliza la
1-75. Las hipótesis nula y alterna se formularían de la siguiente manera:
Autoevaluación 12-1 Steele Electric Products, Inc. ensambla componentes eléctricos para celulares. Durante los
últimos 10 días Mark Nagy ha acumulado 10 devoluciones, con una desviación estándar de
2 devoluciones por día. Debbie Richmond acumuló 8.5 devoluciones, con una desviación
estándar de 1.5 devoluciones durante el mismo periodo. Con un nivel de significancia 0.05,
¿podemos llegar a la conclusión de que existe una mayor variación en el número de devolu-
ciones por día de Mark?
Ejercicios
1. ¿Cuál es valor crítico de F para una muestra de 6 observaciones en el numerador y 4 obser-
vaciones en el denominador? Utilice una prueba de dos colas y un nivel de significancia de
0.10.
2. ¿Cuál es el valor crítico de F para una muestra de 4 observaciones en el numerador y 7
observaciones en el denominador? Utilice una prueba de dos colas y un nivel de significan-
cia de 0.01.
392 Capítulo 12
Una muestra aleatoria de 8 observaciones de la primera población resultó con una desviación
estándar de 10. Una muestra aleatoria de 6 observaciones de la segunda población resultó
con una desviación estándar de 7. Con un nivel de significancia 0.02, ¿existe una diferencia
en la variación de las dos poblaciones?
4. Dadas las siguientes hipótesis:
Una muestra aleatoria de cinco observaciones de la primera población resultó con una
desviación estándar de 12. Una muestra aleatoria de 6 observaciones de la segunda
población resultó con una desviación estándar de 7. Con un nivel de significancia 0.01,
¿existe una diferencia en la variación en la primera población?
5. Arbitran Media Research, Inc. realizó un estudio de los hábitos de escuchar la radio de hom
bres y mujeres. Una parte del estudio incluyó el tiempo de escucha promedio. Se descubrió
que el tiempo de escucha promedio para los hombres fue de 35 minutos por día. La des
viación estándar de la muestra de los hombres estudiados fue de 10 minutos por día. El
tiempo de escucha promedio para las 12 mujeres estudiadas fue también de 35 minutos,
pero la desviación estándar de la muestra fue de 12 minutos. En un nivel de significancia de
0.10, ¿podemos llegar a la conclusión de que existe una diferencia en la variación de los
tiempos de escucha para hombres y mujeres?
6. Un corredor de bolsa de Critical Securities reportó que la tasa promedio de recuperación de
una muestra de 10 acciones en la industria petrolera fue de 12.6% con una desviación
estándar de 3.9%. La tasa promedio de recuperación de una muestra de 8 acciones en la
industria de los servicios públicos fue de 10.9% con una desviación estándar de 3.5%. Con
un nivel de significancia de 0.05, ¿podemos llegar a la conclusión de que existe una mayor
variación en las acciones de la industria petrolera?
Suposiciones de ANO VA
Otro uso de la distribución F es el análisis de la técnica de la varianza (ANOVA) en donde
se comparan tres o más medias muéstrales para determinar si provienen de poblaciones
iguales. Para utilizar ANOVA, se supone lo siguiente:
Joyce Kuhlman dirige un centro financiero regional. Ella desea comparar la productividad,
medida por el número de clientes atendidos, por tres empleados. Se seleccionaron al azar
cuatro días y se registró el número de clientes atendidos por cada empleado. Los resulta-
dos son los siguientes:
Suponga que las poblaciones son las mismas. Es decir, que no existe ninguna diferen-
cia en las medias (tratamiento), como se muestra en la Gráfica 12-1. Esto indicaría que las
medias de la población son iguales. Observe de nuevo que las poblaciones siguen la dis-
tribución normal y que la variación en cada una de las poblaciones es la misma.
394 Capítulo 12
La prueba de ANOVA
¿Cómo funciona la prueba de ANOVA? Recuerde que se desea determinar si las diferen-
tes medias de las muestras provienen de una sola población o de poblaciones con diferentes
medias. En realidad, estas medias de las muestras se comparan a través de sus varianzas.
Para explicarlo, recuerde que en la página 392 mencionamos las suposiciones necesarias
para ANOVA. Una de esas suposiciones era que las desviaciones estándar de las diferen-
tes poblaciones normales tenían que ser las mismas. Este requerimiento se utiliza en la
prueba de ANOVA. La estrategia subyacente es calcular la varianza de la población
(desviación estándar al cuadrado) a través de dos formas y luego encontrar la razón de
estos dos cálculos. Si esta razón es aproximadamente 1, por lógica los dos cálculos son
iguales, y podemos llegar a la conclusión de que las medias de la población son las mis-
mas. Si la razón es muy diferente a 1, entonces llegamos a la conclusión de que las medias
de la población no son iguales. La distribución F sirve de arbitro al indicar en qué momento
la razón de las varianzas de las muestras es mucho mayor a 1 y, por tanto, no se haya
presentado por casualidad.
Consulte el ejemplo del centro financiero de la sección anterior. El gerente desea deter-
minar si existe una diferencia en el número de la media de clientes atendidos. Para comen-
zar, encuentre la media total de las 12 observaciones. Ésta es 58, encontrada mediante (55
+ 54 + ... + 48)/12. Luego, para cada una de las 12 observaciones encuentre la diferencia
que existe entre el valor particular y la media total. Cada una de estas diferencias se eleva
al cuadrado y estos cuadrados se suman. Este término se llama variación total.
VARIACIÓN TOTAL, Suma de las diferencias elevadas al cuadrado entre cada obser-
vación y la media total.
En nuestro ejemplo la variación total es 1 082, encontrada así: (55 - 58)2 + (54 - 58)a+ ... +
2
(48 - 58) .
Luego, divida esta variación total en dos componentes: los que se deben a los trata-
mientos y los que son aleatorios. Para encontrar estos dos componentes, determine la
media de cada uno de los tratamientos. La primera fuente de variación se debe a los
tratamientos.
Si existe una variación considerable entre las medias de los tratamientos, es lógico que este
término sea extenso. Si las medias de los tratamientos son similares, este término será un
valor bajo. El valor más bajo posible sería cero. Esto sucederá cuando todas las medias de
tratamiento sean las mismas.
La otra fuente de variación se refiere al componente aleatorio, o componente de error.
VARIACIÓN ALEATORIA. Suma de las diferencias elevadas al cuadrado entre las obser-
vaciones y sus medias de tratamiento.
En el ejemplo, este término es la suma de las diferencias elevadas al cuadrado que existen
entre los valores y la media de un empleado en particular. La variación de error es 90.
Ya que esta razón es muy diferente a 1, podemos llegar a la conclusión de que las medias
de tratamiento no son las mismas. Existe una diferencia en el número de la media de
clientes atendidos por los tres empleados.
El siguiente ejemplo utiliza muestras de diferentes tamaños.
396 Capítulo 12
El profesor James Brunner pidió a los estudiantes en su clase de mercadotecnia que cali-
ficaran su desempeño como Excelente, Bueno, Aceptable o Deficiente. Un estudiante de
último año reunió las calificaciones y aseguró a los estudiantes que el profesor Brunner no
las recibiría sino hasta después de enviar las calificaciones del curso a la oficina de registro.
La calificación (es decir, el tratamiento) que un estudiante dio al profesor se cotejó con su
calificación del curso, que podía variar de 0 a 100. La información de la muestra se repor-
ta a continuación. ¿Existe alguna diferencia en la calificación media de los estudiantes en
cada una de las cuatro categorías de calificación? Utilice el nivel de significancia 0.01.
libertad del numerador. Luego descienda en esa columna hasta llegar a la fila
que presenta 18 grados de libertad. El valor en esta intersección es 5.09. Por
tanto la regla de decisión es rechazar Ho si el valor calculado de Fes mayor a
5.09.
Seleccionar la muestra, realizar los cálculos y tomar una decisión. Es
conveniente resumir los cálculos del estadístico F en una tabla ANOVA. El
formato para una tabla ANOVA es el siguiente. Los paquetes de software para
estadística también utilizan este formato.
donde:
es cada observación de la muestra,
es la media total o principal.
Después determine SSE o la suma de los errores al cuadrado. Ésta es la suma de las
diferencias al cuadrado que existen entre cada observación y su respectiva media de
tratamiento. La fórmula para encontrar SSE es:
donde:
es la media de la muestra para el tratamiento c.
A continuación presentamos los cálculos detallados del total de SS y SSE para este
ejemplo. Para determinar los valores del total de SS y SSE se comienza por calcular la
media total o general. Existen 22 observaciones y el total es 1 664, por tanto, la media gene-
ral es de 75.64.
398 Capítulo 12
Luego, eleve al cuadrado cada una de estas desviaciones y sume todos los valores. Por
tanto, para el primer estudiante:
Por último, sume todas las diferencias elevadas al cuadrado según lo indica la fórmula (12-2).
El valor del total de SS es 1 485.09.
Para calcular el término SSE, encuentre la desviación que existe entre cada observación y
su media de tratamiento. En el ejemplo, la media del primer tratamiento (es decir, los alum-
nos que dieron al profesor Brunner una calificación de "Excelente") es 87.25. El primer
estudiante obtuvo una calificación de 94, por tanto, Para el
primer estudiante en el grupo de calificación "Bueno" A con-
tinuación presentamos los detalles de cada uno de estos cálculos.
Cada uno de estos valores se eleva al cuadrado y luego se suma para las 22 observa-
ciones. Los valores se incluyen en la siguiente tabla.
Análisis de la varianza 399
Por último, determinamos SST, la suma de los cuadrados debidos a los tratamientos,
por medio de la resta.
Para encontrar el valor calculado de F, trabaje con la tabla ANOVA. Los grados de libertad
para el numerador y el denominador son los mismos que mencionamos en el paso 4 al bus-
car el valor crítico de F. El término cuadrado de la media es otra expresión que se utiliza
para un cálculo de la varianza. El cuadrado de la media para los tratamientos es SST divi-
dido entre sus grados de libertad. El resultado es el cuadrado de la media para los
tratamientos y se escribe MST. Calcule el error del cuadrado de la media de una manera
similar. Para ser precisos, divida SSE entre sus grados de libertad. Para completar el pro-
ceso y obtener F, divida MST entre MSE.
Inserte los valores particulares de F en una tabla ANOVA y calcule el valor de Fde la
siguiente manera:
El valor calculado de F es 8.99, que es mayor al valor crítico de 5.09; por tanto, la
hipótesis nula se rechaza. Llegamos a la conclusión de que las medias de la población no
son iguales. Los registros de la media no son los mismos en cada uno de los cuatro grupos
calificados. Es probable que las calificaciones que los estudiantes obtuvieron en el curso se
relacionen con la opinión que tuvieron de la capacidad general del maestro y de su desen-
volvimiento en el salón de clases. En este punto sólo podemos llegar a la conclusión de que
existe una diferencia en las medias de tratamiento. No podemos determinar qué grupos de
tratamiento difieren ni cuántos grupos de tratamiento difieren.
Observe que Excel utiliza el término "Betwen Groups" (Entre grupos) para "Tratamientos" y
"Within Groups" (Dentro de grupos) para "Error". Sin embargo, tienen los mismos significa-
dos. El valor p es 0.0007. Ésta es la probabilidad de obtener un valor alto o mayor del
estadístico de la prueba cuando la hipótesis nula es verdadera. En otras palabras, es la pro-
babilidad de calcular un valor F mayor a 8.99 con 3 grados de libertad en el numerador y
18 grados de libertad en el denominador. Por tanto, al rechazar la hipótesis nula en este
ejemplo existe una pequeña probabilidad de cometer un error tipo I.
A continuación se presenta la pantalla de MINITAB para el ejemplo de las calificaciones
de los estudiantes, que es similar a la pantalla de Excel. La pantalla también tiene la forma de
una tabla ANOVA. Además, MINITAB proporciona información sobre las diferencias que exis-
ten entre las medias. Esto se comenta en la siguiente sección.
El programa MINITAB utiliza el término factor en lugar de tratamiento, con el mismo sig-
nificado.
Análisis de la varianza 401
Autoevaluación 12-2 Citrus Clean es un limpiador nuevo multiusos que se está probando colocando exhibidores en
tres lugares diferentes dentro de varios supermercados. El número de botellas de 12 onzas
vendidas en cada lugar dentro del supermercado se reporta de la siguiente manera:
Ejercicios
7. La siguiente es información de una muestra. Pruebe la hipótesis de que las medias de
tratamiento son iguales. Utilice el nivel de significancia 0.05.
puede concluir que existe una diferencia en los ingresos de la media? Utilice el procedi-
miento usual de prueba de hipótesis en cinco pasos.
número de horas que los directivos pasan frente a sus computadoras de escritorio. El geren-
te seleccionó una muestra de cinco ejecutivos de cada una de las tres industrias. Con un
nivel de significancia de 0.05, ¿podemos llegar a la conclusión de que existe alguna diferen-
cia en el número medio de horas invertidas a la semana por industria?
Observe que el cero se incluye en este intervalo. Por tanto, llegamos a la conclusión de que
no existe una diferencia importante en las medias de tratamiento seleccionadas.
Por otro lado, si los extremos del intervalo de confianza tienen el mismo signo, esto
indica que las medias de tratamiento difieren. Por ejemplo, si
que -0.60 y -0.10 tienen el mismo signo, ambos negativos, cero no se encuentra en el inter-
valo y llegamos a la conclusión de que estas medias de tratamiento difieren.
Utilizando el ejemplo anterior sobre la opinión de los estudiantes, vamos a calcular el
intervalo de confianza para la diferencia que existe entre las calificaciones medias de todos
los estudiantes que dieron calificaciones de "Excelente" y "Deficiente". Suponga que las
poblaciones se numeraron del 1 al 4. Con un nivel de confianza de 95%, los extremos del
intervalo de confianza son 10.46 y 26.04.
El intervalo de confianza de 95% varía de 10.46 hasta 26.04. Ambos extremos son positivos,
de ahí que se pueda concluir que estas medias de tratamiento difieren en gran medida. Es
decir, los estudiantes que calificaron al profesor como Excelente presentan calificaciones
mucho más elevadas que aquellos que calificaron al profesor como deficiente.
También se pueden obtener resultados similares directamente de la pantalla de
MINITAB. En la página siguiente presentamos la parte inferior de la pantalla de la página
400. En el lado izquierdo se encuentra el número de observaciones, la media y la
desviación estándar para cada tratamiento. Por ejemplo, 7 estudiantes calificaron al profe-
404 Capítulo 12
sor como Aceptable. La calificación promedio del curso es de 72.857. La desviación están-
dar de sus calificaciones es 5.490.
Autoevaluación 12-3 Los datos siguientes corresponden a las colegiaturas semestrales (en miles de dólares) para
una muestra de colegios privados en varias regiones de Estados Unidos. Con un nivel de sig-
nificancia de 0.05, ¿podemos llegar a la conclusión de que existe alguna diferencia en las
colegiaturas medias para las diferentes regiones?
Ejercicios
Con la siguiente información de muestra, pruebe la hipótesis de que las medias de trata-
miento son iguales con un nivel de significancia de 0.05.
Análisis de la varianza 405
Con un nivel de significancia de 0.05, ¿existe alguna diferencia en el número medio de meses
antes de que se otorgara un aumento en las cuatro empresas de contabilidad? 14. Un analista de
acciones desea determinar si existe alguna diferencia en la tasa de recuperación media para los
tres tipos de acciones: compañías de servicios públicos, detallistas y bancarias. Obtenemos los
siguientes resultados:
406 Capítulo 12
WARTA (Warren Área Regional Transit Authority) amplía el servicio de autobuses del
suburbio de Starbrick hasta el distrito comercial central de Warren. Se consideran cuatro
rutas de Starbrick al centro de Warren: (1) la carretera U.S. 6, (2) la ruta West End, (3) el
puente de la calle Hickory y (4) la ruta 59. WARTA realizó varias pruebas para determinar
si existía alguna diferencia en los tiempos medios de recorrido por las cuatro rutas. Ya que
habrá diferentes conductores, la prueba se diseñó de modo que cada conductor manejó por
Análisis de la varianza 407
cada una de las cuatro rutas. A continuación, presentamos el tiempo del recorrido, en minu-
tos, para cada combinación de ruta y conductor.
Con un nivel de significancia de 0.05, ¿existe alguna diferencia en el tiempo medio de
recorrido a lo largo de las cuatro rutas? Si eliminamos el efecto de los conductores, ¿existe
alguna diferencia en el tiempo medio de recorrido?
Para empezar, realizamos una prueba de hipótesis con el uso de ANOVA en una dirección.
Es decir, consideramos sólo las cuatro rutas. En esta condición, la variación en los tiempos
del recorrido se debe a los tratamientos o al azar. La hipótesis nula y la hipótesis alternati-
va para comparar el tiempo medio de recorrido en las cuatro rutas es la siguiente:
Existen cuatro rutas, por tanto, los grados de libertad para el numerador son k - 1 = 4 - 1
= 3. Existen 20 observaciones, por tanto, los grados de libertad en el denominador son n -
k= 20 - 4 = 16. Del Apéndice G, con el grado de importancia de 0.05, el valor crítico de F
es 3.24. La regla de decisión es rechazar la hipótesis nula si el valor calculado de F es
mayor a 3.24.
Utilizamos Excel para realizar los cálculos. El valor calculado de F es 1.618, por tanto,
nuestra decisión es aceptar la hipótesis nula. Llegamos a la conclusión de que no existen
diferencias en el tiempo medio de recorrido por las cuatro rutas. No hay razón para selec-
cionar una de las rutas antes que otra.
En este caso, suponemos que los conductores constituyen la variable de bloqueo, y al elimi-
nar el efecto de los conductores del término SSE la razón F cambiará por la variable de
tratamiento. Primero, necesitamos determinar la suma de los cuadrados debidos a los bloques.
En una tabla ANOVA de dos direcciones, la suma de los cuadrados debidos a los bloques
se obtiene a través de la siguiente fórmula:
donde:
es el número de tratamientos.
es el número de bloques.
es la media de la muestra del bloque b.
es la media total o general.
A partir de los cálculos siguientes, las medias de los conductores son de 20 minutos, 22.75
minutos, 22.75 minutos, 24.75 minutos y 25.75 minutos. La media total es de 23.2 minutos,
que obtenemos al sumar el tiempo de recorrido de los 20 conductores (464 minutos) y
dividirlo entre 20.
Al sustituir esta información en la fórmula (12-6) determinamos SSB, la suma de los cuadra-
dos que se debe a los conductores (la variable de bloqueo) es de 78.2.
Los valores para los distintos componentes de la tabla ANOVA se calculan de la siguiente
manera:
Autoevaluación 12-4 Rudduck Shampoo vende tres tipos de champú, para cabello seco, normal y graso. La si-
guiente tabla incluye las ventas, en millones de dólares, durante los últimos cinco meses.
Utilizando el nivel de significancia 0.05, pruebe si las ventas medias difieren para los tres tipos
de champú o según el mes.
Ejercicios
Para los ejercicios 15 y 16, realice una prueba de hipótesis para determinar si difieren las medias
de bloqueo o de tratamiento. Utilizando el nivel de significancia 0.05: (a) formule las hipótesis
nula y alternativa para los tratamientos; (b) establezca la regla de decisión para los tratamientos;
(c) formule las hipótesis nula y alternativa para los bloques. También establezca la regla de
decisión para los bloques, luego: (d) calcule SST, SSB, el total de SS y SSE; (e) elabore una
tabla ANOVA, y (f) comente su decisión acerca de los dos conjuntos de hipótesis.
jadores se rotan los turnos cada semana. La gerencia quiere saber si existe alguna diferen-
cia en el número de unidades producidas cuando el empleado trabaja en varios turnos, por
lo que seleccionó una muestra de cinco trabajadores y registró los resultados de cada turno.
Con un nivel de significancia de 0.05, ¿podemos llegar a la conclusión de que existe alguna
diferencia en la tasa de producción media por turno o por empleado?
18. En el área de Tulsa, Oklahoma, hay tres hospitales. La siguiente información muestra el
número de cirugías realizadas a pacientes externos en cada hospital durante la última sema-
na. Con un nivel de significancia 0.05, ¿podemos llegar a la conclusión de que existe alguna
diferencia en el número medio de cirugías realizadas según el hospital o el día de la semana?
III. Una ANOVA en una dirección se utiliza para comparar varias medias de tratamiento.
A. Un tratamiento es una fuente de variación.
B. Las suposiciones subyacentes a la ANOVA son las siguientes:
1, Las muestras se toman de poblaciones que siguen la distribución normal.
2, Las poblaciones tienen desviaciones estándar iguales.
3, Las muestras son independientes.
C. La Información para obtener el valor de F se resume en una tabla ANOVA.
1. La fórmula para el total de SS, el total de la suma de los cuadrados, es:
IV. Si se rechaza la hipótesis nula de que las medias de tratamiento son iguales, podemos iden-
tificar los pares de medias que difieren a partir del siguiente intervalo de confianza.
Clave de pronunciación
Análisis de la varianza 413
22. Se seleccionaron cinco muestras aleatorias de cada una de tres poblaciones. La suma del
total de cuadrados fue de 100. La suma de cuadrados debida a los tratamientos fue de 40.
a. Formule las hipótesis nula y alternativa.
b. ¿Cuál es la regla de decisión? Utilice el nivel de significancia 0.05.
c. Elabore la tabla ANOVA. ¿Cuál es el valor de F?
d. ¿Cuál es su decisión acerca de la hipótesis nula?
23. En una tabla ANOVA, MSE fue igual a 10. Se seleccionaron seis muestras aleatorias de
cada una de cuatro poblaciones, donde la suma del total de cuadrados fue 250.
a. Formule las hipótesis nula y alternativa.
b. ¿Cuál es la regla de decisión? Utilice el nivel de significancia 0.05.
c. Elabore la tabla ANOVA. ¿Cuál es el valor de F?
d. ¿Cuál es su decisión acerca de la hipótesis nula?
24. La siguiente es una tabla ANOVA parcial:
Complete la tabla y responda las siguientes preguntas. Utilice el nivel de significancia 0.05.
a. ¿Cuántos tratamientos hay?
b. ¿Cuál es el tamaño total de la muestra?
c. ¿Cuál es el valor crítico de F?
d. Formule las hipótesis nula y alternativa.
e. ¿A qué conclusión llegó en cuanto a la hipótesis nula?
25. Una organización de consumidores quiere saber si existe alguna diferencia en el costo de
un juguete en particular en tres tipos de tiendas diferentes. El precio del juguete se revisó
en una muestra de cinco tiendas de descuento, cinco tiendas de artículos diversos y cinco
tiendas departamentales. Los resultados se presentan a continuación. Utilice el nivel de sig-
nificancia 0.05.
414 Capítulo 12
26. Un médico especialista en control de peso tiene tres dietas diferentes. Como experimento,
selecciona al azar 15 pacientes y luego asigna una dieta a 5 de ellos. Después de tres sema-
nas observa la reducción de peso en libras. Con un nivel de significancia 0.05, ¿puede lle-
gar a la conclusión de que existe alguna diferencia en el peso medio bajado con cada una
de las tres dietas?
27. La ciudad de Maumee comprende cuatro distritos. Andy North, jefe de policía, quiere deter-
minar si existe alguna diferencia en el número medio de crímenes cometidos entre los cua-
tro distritos. North registró el número de crímenes reportados en cada distrito para una
muestra de seis días. Con un nivel de significancia 0.05, ¿el jefe de policía llega a la con-
clusión de que existe alguna diferencia en el número medio de crímenes?
a. Con un nivel de 0.05, ¿podemos llegar a la conclusión de que existe alguna diferencia en
la media de los tres registros?
b. Si se rechaza la hipótesis nula, ¿se puede afirmar que la calificación media de los emplea
dos con antecedentes rurales es diferente a aquella de quienes tienen antecedentes de
una ciudad grande?
Análisis de la varianza 415
29. Cuando sólo existen dos tratamientos, la ANOVA y la prueba t de Student (Capítulo 10) dan
2
como resultado las mismas conclusiones. También t = F. Como ejemplo, suponga que 14
estudiantes seleccionados al azar se dividen en dos grupos, uno de 6 estudiantes y el otro
de 8. A un grupo se le enseñó a utilizar una combinación de cátedra e instrucción progra-
mada y al otro a utilizar la combinación de cátedra y televisión. Al final del curso, a cada
grupo se le aplicó una prueba de 50 elementos. A continuación, se presenta una lista del
número correcto para cada uno de los dos grupos.
¿Existen evidencias que sugieran alguna diferencia en los tiempos de espera medios en los
cuatro talleres de hojalatería? Utilice el nivel de significancia 0.05.
31. En un paquete de software de estadística se capturó el rendimiento de gasolina para una
muestra de 27 automóviles compactos, de tamaño mediano y grande. Se utiliza el análisis
de la varianza para investigar si existe alguna diferencia en el kilometraje de la media de los
tres automóviles. ¿Cuál es su conclusión? Utilice el nivel de significancia 0.01.
a. Utilice el nivel de significancia 0.01 para probar si existe alguna diferencia en la produc-
ción media de las tres líneas de ensamblaje.
b. Desarrolle un intervalo de confianza de 99% para la diferencia de las medias entre la
Línea B y la Línea C.
33. Un supermercado quiere registrar la cantidad de retiros que sus clientes realizan de los
cajeros automáticos que se localizan dentro de sus tiendas. Se tomaron como muestra 10
retiros de cada ubicación y los resultados del paquete de software de estadística son los
siguientes:
a. Utilice un nivel de significancia 0.01 para probar si existe alguna diferencia en la cantidad
media de dinero retirado.
b. Desarrolle un intervalo de confianza de 90% para la diferencia de las medias entre la
Ubicación X y la Ubicación Z.
34. Hemos leído que una persona graduada de la facultad de administración con una licen-
ciatura gana más que una persona que terminó la secundaria y no tuvo una educación adi-
cional y que una persona que tiene una maestría o un doctorado percibe un salario aún
mayor. Para investigar esto se seleccionó una muestra de 25 gerentes de nivel medio de
Análisis de la varianza 417
Con un nivel de significancia 0.05, pruebe que no existen diferencias en los salarios medios
compañías con menos de 200 empleados. Sus ingresos, clasificados de acuerdo con el nivel
más alto de educación, son los siguientes:
aritméticos de los tres grupos. Si rechaza la hipótesis nula, realice otras pruebas para deter-
minar qué grupos difieren.
35. Shrank's Inc., una empresa publicitaria nacional, desea saber si el tamaño del anuncio publi-
citario y sus colores influyen en la respuesta de los lectores de revistas. A una muestra
aleatoria de lectores se les enseñan anuncios publicitarios de cuatro colores y tres tamaños
diferentes. A cada lector se le pide que califique una combinación particular de tamaño y
color en una escala de 1 a 10. Suponga que las calificaciones siguen la distribución normal.
Las calificaciones para cada combinación aparecen en la siguiente tabla (por ejemplo, la ca-
lificación para un anuncio publicitario pequeño en color rojo es 2).
40. Tres cadenas de supermercados en el área de Denver dicen tener los precios más bajos en
general. Como parte de un estudio de investigación sobre la publicidad de los supermerca-
dos, Denver Daily News realizó un estudio. Primero, seleccionó una muestra aleatoria de
nueve artículos. Luego, verificó el precio da cada artículo seleccionado en cada una de las
tres cadenas el mismo día. Con un nivel de significancia 0.05, ¿existe alguna diferencia en
los precios medios del supermercado o para los artículos?
Análisis de la varianza 419
41. A continuación se mencionan los pesos (en gramos) de una muestra de grageas M&M, clasi-
ficados según su color. Utilice el software de estadística para determinar si existe alguna
diferencia en los pesos medios de los dulces de diferentes colores. Utilice un nivel de signifi-
cancia 0.05.
42. Existen cuatro estaciones de radio en Midland. Las estaciones tienen diferentes formatos
(rock pesado, música clásica, música western/country y música instrumental); sin embargo,
cada estación quiere conocer el número de minutos que transmite música cada hora. De una
muestra de 10 horas de cada estación, se proporcionan las siguientes medias de la muestra.
a. Determine SST.
b. Determine SSE.
c. Elabore una tabla ANOVA.
d. Con un nivel de significancia 0.05, ¿existe alguna diferencia en las medias de tratamiento?
e. ¿Existe alguna diferencia en la cantidad media del tiempo de música entre la estación 1
y la estación 4? Utilice el nivel de significancia 0.05.
exercises.com
43. En la actualidad, muchas compañías de bienes raíces y agencias de arrendamiento publican
sus listas en el Web. Un ejemplo es Dunes Realty Company, ubicada en Garden City Beach,
Carolina del Sur. Visite su página, hup://www.dunes.com, seleccione Beach House Search,
luego indique 5 habitaciones, lugar para 14 personas, segunda fila (esto significa que el mar
está al otro lado de la calle), sin alberca, seleccione un periodo de julio y agosto, indique que
desea gastar $8 000 por semana y luego haga clic en Search the Beach Houses. El resul
tado deberá incluir los detalles de las casas en la playa que cubren sus necesidades. Con un
nivel de significancia 0.05, ¿existe alguna diferencia en los costos de renta medios para dis
tintos números de habitaciones? (Tal vez quiera combinar algunas de las casas más grandes,
como las que tienen 8 habitaciones o más.) ¿Qué pares de las medias difieren?
44. Los porcentajes de cambios trimestrales del producto interno bruto para 20 países se
encuentran en la página siguiente: http://www.oecd.org, seleccione Statistics, National
Accounts y Quarterly Growth Rates in GDP. Copie la información sobre Alemania, Japón
y Estados Unidos en tres columnas en MINITAB o Excel. Realice una ANOVA para saber si
existen diferencias de las medias. ¿Cuáles son sus conclusiones?
a. Con un nivel de significancia 0.02, ¿existe alguna diferencia en la variabilidad de los pre-
cios de venta de las casas con alberca en comparación con las que no tienen alberca?
b. Con un nivel de significancia 0.02, ¿existe alguna diferencia en la variabilidad de los pre-
cios de venta de las casas que tienen cochera en comparación con las que no tienen
cochera?
c. Con un nivel de significancia 0.05, ¿existe alguna diferencia en el precio de venta medio
de las casas de los cinco municipios?
46. Consulte los datos Baseball 2002, que reportan información sobre los 30 equipos de béis-
bol de las Grandes Ligas para la temporada 2002.
a. Con un nivel de significancia 0.10, ¿existe alguna diferencia en la variación del número
de bases robadas entre ios equipos que juegan en pasto natural en comparación con los
que juegan en pasto artificial?
b. Establezca una variable que clasifique la asistencia total de equipo en tres grupos: menos
de 2.0 (millones), de 2.00 a 3.0, y de 3.0 en adelante. En un nivel de significancia de 0.05,
¿existe alguna diferencia en el número de juegos promedio ganados entre los tres gru-
pos? Utilice un nivel de significancia 0.01.
c. Utilizando la misma variable de asistencia desarrollada en el inciso (b), ¿existe alguna
diferencia en el promedio de bateo del equipo? Utilice un nivel de significancia 0.01.
d. Empleando la misma variable de asistencia desarrollada en el inciso (b), ¿existe alguna
diferencia en el salario de la media de los tres grupos? Use un nivel de significancia 0.01.
47. Consulte los datos Wage, que proporcionan información sobre los salarios anuales para una
muestra de 100 trabajadores. También se incluyen variables relacionadas con la industria,
años de educación y género de cada trabajador.
a. Realice una prueba de hipótesis para determinar si existe alguna diferencia en el salario
anual medio para los trabajadores de las tres industrias. Si existe alguna diferencia en las
medias, ¿qué pares de medias difieren? Utilice un nivel de significancia 0.05.
b. Realice una prueba de hipótesis para determinar si existe alguna diferencia en el salario
anual medio para los trabajadores de las seis diferentes ocupaciones. Si existe alguna di
ferencia en las medias, ¿qué pares de medias difieren? Utilice el nivel de significancia 0.05.
Comandos de software
1. Los comandos de Excel para la prueba de varianzas de
la página 391 son:
a. Inserte la información para la carretera U.S. 25 en la
columna A y para la I-75 en la columna B. Identifique
las dos columnas.
b. Haga clic en Tools, Data Analysis, seleccione F-
Test: Two-Sample for Variances y haga clic en OK.
c. El rango de la primera variable es A1:A8 y B1:B9
para la segunda, haga clic en Labels, seleccione
D1 para el rango de salida y haga clic en OK.
GLOSARIO
Grados de libertad Número de elementos de una muestra Es similar a la distribución estándar normal presentada en el
que no varía. Suponga que existen dos elementos en una Capítulo 7. Las características principales de f son:
muestra, y conocemos la media. Tenemos la libertad de 1. Es una distribución continua.
especificar sólo uno de los dos valores, ya que el otro valor 2. Puede asumir valores entre menos infinito y más infinito.
se determina de manera automática (ya que el total de los 3. Es simétrica en cuanto a la media de cero. Sin embar-
dos valores es el doble de la media). Ejemplo: si la media es go, es más dispersa y plana en su vértice que la dis-
$6, tenemos la elección de escoger sólo un valor. El hecho tribución normal estándar.
de escoger $4 hace que el otro valor sea de $8 ya que $4 + 4. Se aproxima a la distribución normal estándar cuando n
$8 = 2($6). Por tanto hay un grado de libertad en esta ilus- es mayor.
tración. Podemos determinar los grados de libertad a través 5. Existe una familia de distribuciones f. Hay una distribu-
de n - 1 = 2 - 1 = 1. Si n es 4, entonces existen 3 grados de ción f para una muestra de 15 observaciones, otra para
libertad, lo cual se obtiene a través de n - 1 = 4 - 1 =3. 5, y así sucesivamente.
Hipótesis Afirmación sobre el valor de un parámetro de la Muestras dependientes Las muestras dependientes se
población. Ejemplos: 40.7% de todas las personas de 65 caracterizan por una medida, luego un tipo de intervención,
años de edad en adelante viven solas. El número de la seguido de otra medida. Las muestras por pares también
media de las personas que tienen automóvil es de 1.33. son dependientes ya que el mismo individuo o elemento es
Hipótesis alternativa Conclusión que se acepta cuando se un miembro de ambas muestras. Ejemplo: diez participantes
demuestra que la hipótesis nula es falsa. También se llama en una maratón se pesaron antes y después de la compe-
hipótesis de investigación. tencia de carreras. Queremos estudiar la cantidad media de
Proporción Fracción o porcentaje de una muestra o una pérdida de peso.
población que presenta una característica particular. Si a 5 Muestras independientes Muestras que se seleccionan al
personas de 50 en una muestra les gusta el nuevo cereal, la azar y que no se relacionan entre sí. Queremos estudiar la
proporción es de 5/50 o de 0.10. edad media de los presos en las prisiones de Auburn y
Prueba de dos colas Se utiliza cuando la hipótesis alterna Allegheny. Seleccionamos una muestra aleatoria de 28 pre-
no establece una dirección, como que se inter- sos de la prisión de Auburn y una muestra de 19 presos de
preta como "la media de la población no es igual a 75". la prisión de Allegheny. Una persona no puede estar pri-
Existe una región de rechazo en cada cola. Prueba de sionera en ambas cárceles. Las muestras son independien-
hipótesis Es un procedimiento estadístico, basado en tes, es decir, no se relacionan.
evidencias de la muestra y en la teoría de la probabilidad, que
se utiliza para determinar si la afirmación sobre el Capítulo 12
parámetro de la población es una afirmación razonable.
Análisis de la varianza (ANOVA) Técnica utilizada para
Prueba de una cola Se utiliza cuando la hipótesis alterna
probar de manera simultánea si las medias de poblaciones
establece una dirección como que se interpreta
como "la media de la población es mayor que 40". Aquí la diferentes son iguales. Usa la distribución F como la dis-
tribución de la estadística de prueba. Bloque Una segunda
zona de rechazo se encuentra sólo en una cola (la derecha).
fuente de variación, además de los tratamientos.
Valor crítico Valor que constituye el punto divisorio entre
la región en la que se acepta la hipótesis nula y la región en la Distribución F Se utiliza como el estadístico de prueba pa-
que se rechaza. ra los problemas ANOVA, y de otro tipo. Las características
principales de la distribución F son:
Valor p Probabilidad de calcular un valor de la estadística
1. Nunca es negativa.
de la prueba por lo menos tan extremo como el que se
encuentra en la información de la muestra cuando la hipóte- 2. Es una distribución continua que se aproxima al eje X
sis nula es verdadera. pero nunca lo toca.
3. Se representa de manera positiva.
Capítulo 11 4. Se basa en dos conjuntos de grados de libertad.
5. Como en el caso de la distribución t, también existe una
Cálculo conjunto de la varianza de la población Prome- "familia" de distribuciones F. Existe una distribución para
dio ponderado de que se utiliza para calcular la vari- 17 grados de libertad en el numerador y 9 grados de
anza común, cuando se manejan muestras libertad en el denominador, existe otra distribución F
pequeñas para probar la diferencia entre dos medias para 7 grados de libertad en el numerador y para 12 gra
poblacionales. Distribución f Término que William S. dos de libertad en el denominador, y así sucesivamente.
Gossett investigó y reportó en 1908 y que publicó bajo el
seudónimo de Student.
Ejercicios
Parte I - Opción múltiple
1. En una prueba de una cola que utiliza la distribución z como el estadístico de prueba y un
nivel de significancia 0.01, ¿cuál de los siguientes es su valor crítico?
a. -1.96 0+1.96. d. 0 o 1 .
b. -1.65 o +1.65. e. Ninguno de los anteriores.
c. -2.58 o +2.58.
Sección 4 425
6. Queremos probar una hipótesis sobre la diferencia entre dos medias de la población. La
hipótesis alternativa v la hipótesis nula se establecen como:
11. Una máquina se programa para producir pelotas de tenis de modo que el rebote de la media
sea de 36 pulgadas cuando la pelota caiga desde una plataforma de una altura determina
da. El supervisor sospecha que la media del rebote cambió y es menor a 36 pulgadas. Como
un experimento se dejaron caer 42 pelotas desde la plataforma y la altura de la media del
rebote fue de 35.5 pulgadas, con una desviación estándar de 0.9 pulgadas. Con un nivel de
significancia 0.05, ¿el supervisor puede llegar a la conclusión de que la altura del rebote de la
media es menor de 36 pulgadas?
12. Investigaciones realizadas por Illinois Banking Company reportaron que sólo 8% de sus
clientes esperan más de cinco minutos para realizar sus transacciones bancarias cuando no
utilizan las instalaciones de acceso rápido. La gerencia considera que esto es razonable y
no añadirá más cajeros a menos de que la proporción sea mayor de 8%. El gerente de la
sucursal en Litchfield considera que, en su sucursal, la espera es mayor al estándar y solicitó
cajeros de medio tiempo. Para respaldar su solicitud reportó que en una muestra de 100
clientes, 10 esperaron más de cinco minutos. Con un nivel de significancia 0.01, ¿sería
razonable llegar a la conclusión de que más de 8% de los clientes esperan más de cinco
minutos?
13. Se creía que los trabajadores de construcción de caminos no realizan un trabajo productivo
durante un promedio de 20 minutos de cada hora. Algunos afirmaban que el tiempo no pro
ductivo es mayor a 20 minutos. Se realizó un estudio reciente en el lugar de construcción,
utilizando un cronómetro y otras formas de revisar los hábitos laborales. Una revisión aleato
ria de los trabajadores reveló los siguientes tiempos no productivos, en minutos, durante un
periodo de una hora (sin tomar en cuenta los descansos programados en forma regular):
Con un nivel de significancia 0.01, ¿existe alguna diferencia entre el poder de soporte medio de
Epox y el de Holdtite?
15. Pittsburg Paints quiere probar un aditivo formulado para incrementar la vida de las pinturas
utilizadas en el suroeste de Estados Unidos. La parte media superior de una pieza de
madera se pintó utilizando pintura regular. La parte media inferior se pintó con pintura que
incluía aditivo. Se siguió el mismo procedimiento para un total de 10 piezas. Después, cada
pieza se sometió a alta presión hidráulica y a la luz brillante. A continuación, presentamos
la información, el número de horas que cada pieza duró antes de desaparecer más allá de
un punto determinado:
Utilizando un nivel de significancia 0.05, determine si el aditivo es efectivo para prolongar la vida
de la pintura.
16. El distribuidor de refresco de cola de Búfalo, Nueva York, presenta una oferta especial en
empaques de 12, y se pregunta en qué parte de los supermercados se deben colocar los
refrescos para captar más la atención. ¿Debe ser cerca de la puerta principal de los super-
Sección 4 427
El distribuidor de Búfalo desea averiguar si existe alguna diferencia en las ventas medias de
los refrescos que se colocaron en los cuatro lugares de la tienda. Utilice el nivel de signifi-
cancia 0.05.
Casos
A. Century National Bank B. Bell Grove Medical Center
Consulte la descripción del Century National Bank al final del La señorita Gene Dempsey dirige la sala de urgencias de Bell
Repaso de los Capítulos 1 a 4 en la página 137. Grove Medical Center. Una de sus responsabilidades es
Con la existencia de otras opciones disponibles, los tener enfermeras suficientes para que a los pacientes que
clientes ya no permiten que su dinero permanezca estático ingresan solicitando el servicio se les atienda lo más rápido
en una cuenta de cheques. Durante muchos años el saldo posible. Aun cuando su condición no ponga en peligro su
medio en las cuentas de cheques ha sido de $1 600. ¿La vida, resulta estresante para los pacientes esperar mucho
información de la muestra indica que el saldo medio de las tiempo para recibir atención en la sala de urgencias. La
cuentas ha bajado? señorita Dempsey recopiló la siguiente información acerca
En años recientes también se ha presentado un incre- del número de pacientes durante las últimas semanas. La
mento en el uso de los cajeros automáticos. Cuando el clínica no está abierta los fines de semana. ¿Existen diferen-
señor Selig tomó la administración del banco, el número cias en el número de pacientes atendidos por día de la sema-
medio de transacciones por cliente al mes era 8; ahora con- na? Si es así, ¿qué días parecen ser los más ocupados?
sidera que ha aumentado a más de 10. De hecho, la agen-
cia de publicidad que hace los comerciales de TV para
Century quiere incluir esta información en un nuevo comer-
cial. ¿Existen pruebas suficientes para llegar a la conclusión
de que el número medio de transacciones por cliente es más
de 10 por mes? ¿La agencia de publicidad podría decir que
la media es mayor de 9 al mes?
El banco tiene sucursales en cuatro ciudades diferen-
tes: Cincinnati, Ohio; Atlanta, Georgia; Louisville, Kentucky,
y Erie, Pennsylvania. El Sr. Selig quiere saber si existe algu-
na diferencia en los saldos medios de las cuentas de
cheques entre las cuatro sucursales. Si las hay, ¿entre qué
sucursales se presentan estas diferencias?
El señor Selig también se interesa en los cajeros auto-
máticos. ¿Existe alguna diferencia en el uso de los cajeros
entre las sucursales? ¿Los clientes que tienen tarjetas de
débito suelen utilizar los cajeros automáticos de diferente
manera a los que no las tienen? ¿Existe alguna diferencia en
el uso de los cajeros por parte de los que tienen cuentas de
cheques y que pagan intereses en comparación con aquellos
que no tienen cuentas de cheques? Prepare un informe para
el señor Seling respondiendo a estas preguntas.
Regresión lineal
y correlación
Una tienda de aparatos electrónicos con sucursales en Nueva Inglaterra planea transmitir un
comercial para una cámara digital en estaciones de televisión seleccionadas antes de una
venta de fin de semana. El gerente general de ventas planea registrar la información de
ventas para sábado y domingo en las distintas tiendas y compararla con el número de veces
que el anuncio apareció en la estación de televisión local. Espera saber si hay una relación
entre el número de veces que se transmitió el comercial y las ventas de cámaras digitales.
Calcule el coeficiente de determinación. (Vea la Meta 3 y el Ejercicio 3.)
Regresión lineal y correlación 429
Introducción
Los Capítulos 2 a 4 manejan la estadística descriptiva. Organizamos los datos en bruto en
una distribución de la frecuencia, y calculamos varias medidas de ubicación y de dispersión
para describir las principales características de la
información. El Capítulo 5 empezó el estudio de la
inferencia estadística. Enfatizamos sobre todo el
hecho de inferir algo acerca de un parámetro de
la población, como la media pobla-cional, con
base en una muestra. Probamos lo razonable de
la media de una población o de la proporción de
una población, la diferencia entre dos medias
poblacionales o si varias medias poblacionales
eran iguales. Todas estas pruebas comprendían
sólo una variable de intervalo o de nivel de razón,
como el peso de una botella de plástico con
refresco, el ingreso de los presidentes de un banco o el número de pacientes admitidos en
un hospital en particular.
En este capítulo, enfatizamos el estudio de dos variables. Recuerde que en el Capítulo
4 presentamos la ¡dea de mostrar la relación entre dos variables con un diagrama de dis-
persión. Trazamos los precios de los vehículos vendidos en Whitner Autoplex sobre el eje
vertical y la edad del comprador sobre el horizontal. Vea la pantalla del software estadísti-
co en la página 119. En ese caso observamos que, conforme aumenta la edad del com-
prador, la cantidad gastada en el vehículo también se incrementa. En este capítulo llevamos
esa idea más allá de esos conceptos; es decir, desarrollamos las medidas numéricas para
expresar la relación entre dos variables. ¿La relación es fuerte o débil, es directa o inver-
sa? Además, desarrollamos una ecuación para expresar la relación entre variables. Esto
nos permitirá calcular una varible con base en otra. Éstos son algunos ejemplos.
• ¿Existe alguna relación entre la cantidad que Healthtex gasta al mes en publicidad y las
ventas mensuales?
• ¿Podemos basar un estimado del costo de la calefacción de una casa en enero en el
número de pies cuadrados que mide la casa?
• ¿Hay alguna relación entre las millas por galón que alcanzan las grandes camionetas
pickup y el tamaño del motor?
• ¿Existe alguna relación entre el número de horas que los alumnos estudiaron para el
examen y la calificación que obtuvieron?
Debemos hacer notar que en cada uno de estos casos hay dos variables observadas para
cada observación de la muestra. Para el último ejemplo, encontramos las horas estudiadas
y la calificación obtenida por cada estudiante seleccionado en la muestra.
Empezamos este capítulo estudiando el significado y el propósito del análisis de co-
rrelación. Continuamos nuestro estudio al desarrollar una ecuación matemática que nos
permita calcular el valor de una variable con base en el valor de otra. Esto se conoce como
análisis de regresión. Vamos a (1) determinar la ecuación de la recta que se adapte me-
jor a los datos, (2) utilizar la ecuación para calcular el valor de una variable con base en
otra, (3) medir el error estándar de estimación y (4) establecer los intervalos de confianza y
predicción para nuestra estimación.
Al revisar los datos, observamos que sí parece existir una relación entre el número de
llamadas de ventas y el número de unidades vendidas. Es decir, los vendedores que
hicieron mayor cantidad de llamadas vendieron más unidades. Sin embargo, la relación no
es "perfecta" o exacta. Por ejemplo, Soni Jones hizo menos llamadas que Jeff Hall, pero
vendió más unidades.
En lugar de hablar en términos generales, como lo hicimos en el Capítulo 4 y como lo
hemos hecho hasta el momento, vamos a desarrollar algunas medidas estadísticas para
representar con mayor precisión la relación entre las dos variables, las llamadas de ventas
y las copiadoras vendidas. Este grupo de técnicas estadísticas se conoce como análisis de
correlación.
La idea básica del análisis de correlación es reportar la asociación entre dos variables.
Por lo general, el primer paso consiste en incluir los datos en un diagrama de dispersión.
Un ejemplo nos ayudará a ¡lustrar cómo se usa un diagrama de dispersión.
Con base en la información de la Tabla 13-1, la señorita Bancer sospecha que hay una
relación entre el número de llamadas realizadas en un mes y el número de copiadoras ven-
didas. Soni Jones vendió la mayor cantidad de copiadoras el mes pasado y fue una de los
tres representantes que hicieron 30 llamadas o más. Por otra parte, Susan Welch y Carlos
Regresión lineal y correlación 431
Ramírez sólo hicieron 10 llamadas de ventas durante el mes pasado. La señorita Welch fue
la que vendió menos copiadoras entre los representantes de la muestra.
La conclusión es que el número de copiadoras vendidas tiene una relación con el
número de llamadas de ventas realizadas. Conforme aumenta el número de llamadas, al
parecer, también se incrementa el número de copiadoras vendidas. Nos referimos al
número de llamadas de ventas como la variable independiente y al número de copiado-
ras vendidas como la variable dependiente.
Es práctica común incluir la variable dependiente (copiadoras vendidas) sobre el eje verti-
cal o Y, y la variable independiente (número de llamadas de ventas) sobre el eje horizontal
o X. Para elaborar un diagrama de dispersión de la información de ventas de Copier Sales
of America, empezamos con el primer representante de ventas, Tom Keller. Tom hizo 20
llamadas de ventas el mes pasado y vendió 30 copiadoras, de modo que X = 20 y Y= 30.
Para trazar esta información, desplácese a lo largo del eje horizontal hasta X= 20, y luego
en dirección vertical hasta Y= 30 y coloque un punto en la intersección. Este proceso con-
tinúa hasta incluir todos los pares de datos, como se muestra en la Gráfica 13-1.
GRÁFICA 13-1 Diagrama de dispersión que ilustra las llamadas de ventas y las copiadoras vendidas
Características de r ras vendidas tienen una relación perfecta en un sentido lineal positivo. Un valor calculado
de -1.00 revela que las llamadas de ventas y las copiadoras vendidas se relacionan en
forma perfecta en un sentido lineal inverso. La Gráfica 13-2 ilustra cómo se vería el diagra-
ma de dispersión si la relación entre ambos grupos de datos fuera lineal y perfecta.
GRÁFICA 13-2 Diagramas de dispersión que ilustran una correlación negativa perfecta y una correlación
positiva perfecta
Ejemplos de grados de
correlación
GRÁFICA 13-3 Diagramas de dispersión que ilustran una correlación de cero, débil y fuerte
Regresión lineal y correlación 433
Dos variables tienen una relación positiva cuando el número de copiadoras vendidas
está por encima de la media y el número de llamadas de ventas también lo está. Estos pun-
tos aparecen en el cuadrante superior derecho de la Gráfica 13-4. De modo similar, cuan-
do el número de copiadoras vendidas es inferior a la media, también lo es el número de
llamadas de ventas. Estos puntos se encuentran en la esquina inferior izquierda del cua-
drante de la Gráfica 13-4. Por ejemplo, la última persona en la lista de la Tabla 13-2, Soni
Jones, hizo 30 llamadas de ventas y vendió 70 copiadoras. Estos valores se encuentran por
encima de sus medias respectivas, de modo que este punto se localiza en el cuadrante
superior derecho. Hizo 8 más llamadas de ventas que la media y vendió
más copiadoras que la media. Tom Keller, el primer nombre en la lista
de la Tabla 13-2, hizo 20 llamadas y vendió 30 copiadoras. Ambos valores son menores que
434 Capítulo 13
la media respectiva; por tanto, este punto se encuentra en el cuadrante inferior izquierdo.
Tom hizo 2 llamadas menos y vendió 15 copiadoras menos que las medias respectivas. Las
desviaciones del número medio de llamadas de ventas y el número medio de copiadoras
vendidas se resumen en la Tabla 13-3 para los 10 representantes de ventas. La suma de
los productos de las desviaciones de las medias respectivas es 900. Es decir, el término
El coeficiente de determinación
En el ejemplo anterior acerca de la relación entre el número de llamadas de ventas y las
unidades vendidas, el coeficiente de correlación, 0.759, se interpretó como "fuerte". Sin
embargo, los términos débil, moderado y fuerte no tienen un significado preciso. Una medida
que tiene un significado que se interpreta con mayor facilidad es el coeficiente de determi-
nación. Éste se calcula elevando al cuadrado el coeficiente de correlación. En el ejemplo, el
coeficiente de determinación, r2, es 0.576, que se calculó así: (0.759)2. Se trata de una pro-
porción o porcentaje, podemos decir que 57.6% de la variación en el número de copiadoras
vendidas se explica, o contabiliza, por la variación en el número de llamadas de ventas.
436 Capítulo 13
Más adelante en este capítulo estudiamos con mayor detalle el coeficiente de determinación.
Autoevaluación 13-1 Haverty's Furniture es un negocio familiar que vende a clientes detallistas en el área de
Chicago desde hace varios años. Se anuncia mucho en radío, televisión e Internet, enfati-
zando sus bajos precios y sus términos de crédito fáciles. El dueño quiere revisar la relación
entre las ventas y la cantidad que invierte en publicidad. A continuación se presenta informa-
ción sobre las ventas y los gastos en publicidad para los últimos cuatro meses.
(a) El dueño quiere proyectar las ventas con base en los gastos publicitarios. ¿Qué variable
es la dependiente? ¿Cuál es la variable independiente?
(b) Elabore un diagrama de dispersión.
(c) Determine el coeficiente de correlación.
(d) Interprete la fuerza del coeficiente de correlación.
(e) Determine el coeficiente de determinación. Interprete su resultado.
Ejercicios
1. Las siguientes observaciones en una muestra se seleccionaron al azar.
3. Bi-lo Appliance Stores tiene tiendas en varias áreas metropolitanas importantes en Nueva
Inglaterra. El gerente general de ventas planea transmitir un comercial para una cámara di-
gital en estaciones de televisión locales antes de una venta que empezará el sábado y ter-
minará el domingo. Planea obtener la información de la venta de cámaras digitales en las
diversas tiendas durante sábado y domingo y compararla con el número de veces que el
comercial se transmitió en las estaciones de televisión locales. El propósito es saber si hay
alguna relación entre el número de veces que se transmitió el comercial y las ventas de
cámaras digitales. Los pares son:
a. Si queremos calcular los crímenes con base en el número de policías, ¿qué variables es
la dependiente y cuál la independiente?
b. Elabore un diagrama de dispersión.
c. Determine el coeficiente de correlación.
d. Establezca el coeficiente de determinación.
e. Interprete estas medidas estadísticas. ¿Le sorprende que la relación sea inversa?
6. El dueño de Maumee Ford-Mercury quiere estudiar la relación entre la edad de un auto y su
precio de venta. A continuación presentamos una muestra aleatoria de 12 autos usados ven-
didos por los distribuidores el año pasado.
a. Si queremos calcular el precio de venta con base en la edad del auto, ¿qué variable es
la dependiente y cuál es la independiente?
b. Elabore un diagrama de dispersión.
c. Determine el coeficiente de correlación.
d. Establezca el coeficiente de determinación.
e. Interprete estas medidas estadísticas. ¿Le sorprende que la relación sea inversa?
Prueba de la significancia
del coeficiente de correlación
Recuerde que la gerente de ventas de Copier Sales of America encontró que la correlación
entre el número de llamadas de ventas y el número de copiadoras vendidas era 0.759. Esto
indicó una fuerte asociación entre ambas variables. Sin embargo, en la muestra sólo se
incluyeron 10 vendedores. ¿Es posible que la correlación en la población sea realmente 0?
Esto significaría que la correlación de 0.759 se debe a la casualidad. La población en este
ejemplo son todos los vendedores que trabajan en la empresa.
¿La correlación en la población Resolver este dilema requiere de una prueba para responder la pregunta obvia: ¿puede
podría ser cero? haber una correlación cero en la población de la que se seleccionó la muestra? En otras
palabras, ¿la r calculada proviene de la población de observaciones por pares con corre-
lación cero? Para continuar nuestra regla de utilizar letras griegas para representar los
parámetros de la población, p representará la correlación en la población, y se pronuncia
"rho".
Continuaremos con el ejemplo que comprende las llamadas de ventas y las copiadoras
vendidas. Utilizamos los mismos cinco pasos de la prueba de hipótesis que describimos en
el Capítulo 10. La hipótesis nula y la hipótesis alternativa son:
GRÁFICA 13-5 Regla de decisión para la prueba de hipótesis con un nivel de significancia 0.05 y 8 gl
Aplicando la fórmula (13-2) al ejemplo acerca del número de llamadas de ventas y las
unidades vendidas:
Autoevaluación 13-2 Una muestra de 25 campañas para la alcaldía en ciudades con poblaciones mayores de 50 000
reveló que la correlación entre el porcentaje de votos recibidos y la cantidad que invirtieron
los candidatos en la campaña fue 0.43. En el nivel de significancia 0.05, ¿existe una posible
relación entre las variables?
Ejercicios
Se dan las hipótesis siguientes.
Una muestra aleatoria de 12 observaciones por pares indicó una correlación de 0.32.
¿Podemos llegar a la conclusión de que la correlación en la población es mayor que cero?
Utilice el nivel de significancia 0.05. Se dan las hipótesis siguientes.
Una muestra aleatoria de 15 observaciones por pares indicó una correlación de -0.46.
¿Podemos llegar a la conclusión de que la correlación en la población es mayor que cero?
Utilice el nivel de significancia 0.05.
Pennsylvania Refining Company estudia la relación entre el precio de la gasolina en las
bombas y el número de galones vendidos. Para una muestra de 20 gasolineras, el martes
pasado la correlación fue de 0.78. Con un nivel de significancia 0.01, ¿la correlación en la
población es mayor que cero?
Un estudio de 20 instituciones financieras en todo el mundo reveló que la correlación entre
sus activos y las utilidades antes de impuestos es 0.86. Con un nivel de significancia 0.05,
¿podemos llegar a la conclusión de que hay una relación positiva en la población?
Análisis de regresión
En la sección anterior, desarrollamos medidas
para expresar la fuerza y la dirección de la
relación entre dos variables. En esta sección,
queremos desarrollar una ecuación para expre-
sar la relación lineal (en línea recta) entre dos
variables. Además, queremos estimar el valor
de la variable dependiente Y con base en un
valor seleccionado de la variable independiente
X. La técnica que se utiliza para desarrollar la
ecuación y proporcionar los estimados es lla-
mada análisis de regresión.
En la Tabla 13-1 reportamos el número de
llamadas de ventas y de unidades vendidas
para una muestra de 10 vendedores que traba-
jan en Copier Sales of America. La Tabla 13-1
presenta esta información en un diagrama de
dispersión. Ahora, queremos desarrollar una
ecuación lineal que exprese la relación entre el número de llamadas de ventas y el número
de unidades vendidas. La ecuación para la línea utilizada para estimar Y con base en Xse
conoce como una ecuación de regresión.
GRÁFICA 13-6 Llamadas de ventas y copiadoras GRÁFICA 13-7 Cuatro rectas superpuestas en
vendidas para 10 representantes de el diagrama de dispersión.
ventas.
La línea de mínimos El juicio subjetivo se elimina al determinar la recta de regresión utilizando un método mate-
cuadrados da el "mejor" mático llamado método de los mínimos cuadrados. Este método calcula lo que común-
ajuste; el método mente se conoce como la recta del "mejor ajuste".
subjetivo no es confiable.
Para ¡lustrar este concepto, los mismos datos se trazan en las tres gráficas siguientes.
La recta de regresión en la Gráfica 13-8 se determinó utilizando el método de los mínimos
cuadrados. La recta es el mejor ajuste porque la suma de los cuadrados de las desviaciones
verticales a su alrededor es mínima. El primer trazo (X= 3, Y = 8) se desvía por 2 de la
recta, calculado: 10 - 8. La desviación cuadrada es 4. La desviación cuadrada del trazo X
= 4, Y = 18 es 16. La desviación cuadrada del trazo X = 5, Y= 16 es 4. La suma de las
desviaciones cuadradas es 24, calculada mediante 4 + 16 + 4.
Suponga que las líneas en las Gráficas 13-9 y 13-10 se trazaron con una escuadra. La
suma de las desviaciones verticales cuadradas en la Gráfica 13-9 es 44. Para la Gráfica 13-10
es 132. Ambas sumas son mayores que la suma para la línea en la Gráfica 13-8, que se
encuentra utilizando el método de los mínimos cuadrados.
La ecuación de una línea recta tiene la forma:
donde:
Y" que se lee Y prima, es el valor que se predijo de la variable y para un valor X selec-
cionado.
a es la intersección Y. Es el valor estimado de Y cuando X= 0. En otras palabras, a es
el valor estimado de Y donde la línea de regresión cruza el eje Y cuando X es cero.
442 Capítulo 13
La línea de mínimos Línea dibujada con una Línea trazada con una
cuadrados regla regla
es el coeficiente de correlación.
es la desviación estándar de Y(la variable dependiente).
es la desviación estándar de X(la variable independiente).
donde:
es la media de Y(la variable dependiente),
es la media de X(la variable independiente).
Todos los otros puntos se conectan para formar la línea. Vea la Gráfica 13-11.
Esta recta tiene algunas características interesantes. Como ya dijimos, no hay ninguna
otra recta a través de los datos para la cual la suma de las desviaciones cuadradas sean
mínimas. Además, esta recta va a pasar a través de los puntos representados por la media
444 Capítulo 13
Autoevaluación 13-3 Consulte la Autoevaluación 13-1, donde el dueño de Haverty's Furniture Company estudiaba
la relación entre las ventas y la cantidad invertida en publicidad. La información de ventas
para los últimos cuatro meses se repite a continuación.
Ejercicios
11. Se seleccionó al azar la siguiente muestra de observaciones.
Predicción perfecta irreal en los La proyección perfecta en economía y administración es casi imposible. Por ejemplo,
negocios los ingresos del año provenientes de las ventas de gasolina (Y) con base en el número de
registros de automóviles (X) hasta una fecha, determinada, sin duda, se pueden calcular con
cierta precisión, pero la predicción no sería exacta hasta el dólar más cercano, quizá ni
siquiera hasta los miles de dólares más cercanos. Ni siquiera las predicciones de la fuerza
tensora de los cables de acero basadas en su diámetro exterior son siempre exactas debido
a las pequeñas diferencias en la composición del acero.
Entonces, lo que necesitamos es una medida que describa la precisión de la predicción
de V con base en X o, por el contrario, la inexactitud del estimado. Esta medida se conoce
como error estándar de estimación. Éste, cuyo símbolo es s , es el mismo concepto que
la desviación estándar que estudiamos en el Capítulo 3. La desviación estándar mide la dis-
persión alrededor de la media. El error estándar de estimación mide la dispersión en cuanto
a la recta de regresión.
Recuerde el ejemplo que habla de Copier Sales of America. La gerente de ventas deter-
minó que la ecuación de la recta de regresión de los mínimos cuadrados era Y'= 18.9476
+ 1.1842X, donde Y se refiere al número de copiadoras vendidas y Xal número de llamadas
de ventas realizadas. Determine el error estándar de estimación como una medida de lo bien
que los valores se ajustan en la línea de regresión.
Para encontrar el error estándar, empezamos por buscar la diferencia entre el valor, V, y el
valor estimado a partir de la ecuación de regresión, A continuación, elevamos esta
diferencia al cuadrado, es decir Hacemos lo mismo para cada una de las n obser-
vaciones y sumamos los resultados. Es decir, calculamos que es el numerador
de la fórmula (13-6). Por último, dividimos entre el número de observaciones menos 2. ¿Por
qué menos 2? Perdemos un grado de libertad por estimar el valor de la intersección, a, y el
valor de la pendiente, b. Los detalles de los cálculos se resumen en la Tabla 13-4.
El software facilita los cálculos cuando buscamos la recta de regresión de los mínimos
cuadrados, calculamos los valores de ajuste o buscamos el error estándar. La pantalla de
Excel del ejemplo de Copier Sales of America se incluye a continuación. La pendiente y la
intersección están en la columna "Coeficientes" (celdas G17 y G18). Los valores ajustados
para cada representante de ventas están en la columna "Ventas proyectadas" (celdas
D2:D11). Los "Residuales" o diferencias entre los valores reales y estimados se encuentran
en la siguiente columna (celdas E2:E11). El error estándar del estimado está en la celda
G7. Todos estos valores se encuentran resaltados a continuación.
Hasta el momento hemos presentado la regresión lineal sólo como una herramienta
descriptiva. En otras palabras, es un simple resumen de la relación entre la
variable dependiente Y y la variable independiente X. Cuando nuestros datos son una
muestra tomada de una población, realizamos estadística inferencial. Luego, necesitamos
recordar la distinción entre los parámetros de la población y los estadísticos de prueba. En
este caso, "modelamos" la relación lineal en la población mediante la ecuación:
Donde:
Consideraciones necesarias
para aplicar la regresión lineal
Para aplicar la regresión lineal en forma apropiada, son necesarias varias suposiciones. La
Gráfica 13-14 ilustra estas suposiciones.
1. Para cada valor de X, hay un grupo de valores Y. Éstos últimos siguen la distribución
normal.
2. Las medias de estas distribuciones normales se encuentran en la recta de regresión.
3. Todas las desviaciones estándar de estas distribuciones normales son iguales. El mejor
estimado que tenemos de esta desviación estándar común es el error estándar de
estimación
4. Los valores Y son estadísticamente independientes. Esto significa que al seleccionar
una muestra en particular X no depende de ningún otro valor de X. Esta suposición es
importante sobre todo cuando los datos se recopilan durante un periodo prolongado. En
esas situaciones, los errores de un periodo en particular a menudo se relacionan con
los de otros periodos.
Recuerde que en el Capítulo 7 se mencionó que si los valores siguen una distribución
normal, la media más o menos una desviación estándar comprenderán 68% de las observa-
ciones, la media más o menos dos desviaciones estándar comprenderá 95% de las obser-
vaciones y la media más o menos tres desviaciones estándar abarcará casi todas las
observaciones. La misma relación existe entre los valores proyectados V" y el error están-
dar de estimación
Ahora, podemos relacionar estas suposiciones con Copier Sales of America, donde
estudiamos la relación entre el número de llamadas de ventas y el número de copiadoras
vendidas. Suponga que tomamos una muestra mucho más grande que n= 10, pero que el
error estándar de estimación sigue siendo 9.901. Si dibujáramos una línea recta paralela
9.901 unidades sobre la recta de regresión y otra a 9.901 unidades debajo de la línea de
regresión, alrededor de 68% de los puntos quedarían entre ambas líneas. De modo similar,
una línea a unidades encima de la línea de regresión y otra a
19.802 unidades debajo de la línea de regresión deben incluir alrededor de 95% de los valo-
res de la información.
Para revisar lo anterior, consulte la segunda columna de la derecha en la Tabla 13-4 en
la página 447, es decir, la columna con el encabezado "Desviación". Tres de las 10 desvia-
ciones exceden un error estándar del estimado. Es decir, la desviación de -12.6316 para
Tom Keller, -12.6316 para Mark Reynolds y +15.5264 para Soni Jones exceden el valor de
9.901, que está a un error estándar del estimado de la línea de regresión. Todos los valores
se encuentran a 19.802 unidades de la línea de regresión. En otras palabras, 7 de las 10
observaciones en la muestra están a un error estándar de la línea de regresión y todos
están a dos, un buen resultado para una muestra relativamente pequeña.
Autoevaluación 13-4 Consulte las autoevaluaciones 13-1 y 13-3, donde el propietario de Haverty's Furniture estu-
diaba la relación entre las ventas y la cantidad invertida en publicidad. Determine el error
estándar de estimación.
Ejercicios
19. Consulte el Ejercicio 11.
a. Determine el error estándar de estimación.
b. Suponga que se selecciona una muestra grande (en lugar de una de cinco solamente).
¿Entre qué par de valores se harían alrededor de 68% de las proyecciones?
20. Consulte el Ejercicio 12.
a. Determine el error estándar de estimación.
b. Suponga que se selecciona una muestra grande (en lugar de una de ocho solamente).
¿Entre qué par de valores se harían alrededor de 95% de las proyecciones?
21. Consulte el Ejercicio 13.
a. Determine el error estándar de estimación.
b. Suponga que se selecciona una muestra grande (en lugar de sólo 10). ¿Entre qué par de
valores ocurrirían alrededor de 95% de las proyecciones acerca de los kilowatts-hora?
22. Consulte el Ejercicio 14.
a. Determine el error estándar de estimación.
b. Suponga que se selecciona una muestra grande (en lugar de sólo 10). ¿Entre qué par de
valores ocurrirían aproximadamente 95% de las predicciones sobre las ventas?
23. Consulte el Ejercicio 5. Determine el error estándar de estimación.
24. Consulte el Ejercicio 6. Determine el error estándar de estimación.
Regresión lineal y correlación 451
donde:
Es lógico. Cuanto menor es el tamaño de la muestra, mayor será el posible error. El incremento
en el valor t compensa esta posibilidad.
452 Capítulo 13
TABLA 13-5 Cálculos necesarios para determinar el intervalo de confianza y el intervalo de predicción
El primer paso para determinar el número de copiadoras que esperamos que los vende-
dores vendan si hacen 25 llamadas. Es 48.5526, calculados mediante
760. Al insertar estos valores en la fórmula (13-7), podemos determinar el intervalo de con
fianza. ___________
Por tanto, el intervalo de confianza de 95% para todos los representantes de ventas
que hacen 25 llamadas es de 40.9170 hasta 56.1882. Para interpretar lo anterior, vamos a
redondear los valores. Si un vendedor hace 25 llamadas, puede esperar vender 48.6 copia-
doras. Es probable que esas ventas sean entre 40.9 y 56.2 copiadoras.
A fin de determinar el intervalo de predicción para un valor particular de V para una X
dada, la fórmula (13-7) se modifica ligeramente: se agrega un 1 debajo del radical. La
fórmula queda:
Regresión lineal y correlación 453
Suponga que queremos estimar el número de copiadoras vendidas por Sheila Baker,
quien hizo 25 llamadas de ventas. El intervalo de predicción se determina como sigue:
Autoevaluación 13-5 Consulte los datos de la muestra en las Autoevaluaciones 13-1, 13-3 y 13-4, donde el pro-
pietario de Haverty's Furniture estudiaba la relación entre las ventas y la cantidad invertida en
publicidad. La información de ventas para los últimos cuatro meses se repite a continuación.
Ejercicios
Consulte el Ejercicio 11.
a. Determine el intervalo de confianza de 0.95 para la media proyectada cuando X= 7.
b. Determine el intervalo de predicción de 0.95 para un individuo cuando X= 7.
Consulte el Ejercicio 12.
a. Determine el intervalo de confianza de 0.95 para la media proyectada cuando X = 7.
b. Determine el intervalo de predicción de 0.95 para un individuo cuando X= 7.
Consulte el Ejercicio 13.
a. Determine el intervalo de confianza de 0.95, en miles de kilowatts-hora, para la media de
toda las casas con seis habitaciones.
b. Determine el intervalo de predicción de 0.95, en miles de kilowatts-horas para una casa
con seis habitaciones en particular.
Consulte el Ejercicio 14.
a. Determine el intervalo de confianza de 0.95, en miles de dólares, para la media de todo
el personal de ventas que contacta a 40 clientes.
b. Determine el intervalo de predicción de 0.95, en miles de dólares, para un vendedor en
particular que contacta a 40 clientes.
exacta. Es decir, habría cierto error en cada una de nuestras predicciones. Como ejemplo,
para Gordon, que ha trabajado en la compañía durante 14 años, proyectaríamos una pro-
ducción semanal de 7.6 unidades; sin embargo, produce sólo 6.
Para medir el error total en nuestra predicción, cada desviación de la recta se eleva al cua-
drado y se suman los cuadrados. El punto proyectado sobre la línea se expresa Y", que se lee
2 2 2
Y prima, y el punto observado se expresa Y. Para Gordon, (Y- Y') = (6 - 7.6) = (-1.6) = 2.56.
Variación sin explicar Como es lógico, esta variación no se puede explicar con la variable independiente, de modo
que se conoce como variación sin explicar. De manera específica, no podemos explicar por
qué la producción de Gordon de 6 unidades es 1.6 unidades menor que su producción
proyectada de 7.6, con base en el número de años que lleva en el trabajo.
2
La suma de las desviaciones cuadradas, ∑( Y- Y') , es 4.00. (Vea la Tabla 13-6.) El tér-
2
mino ∑ (Y- Y') = 4.00 es la variación en Y(producción) que no se puede proyectar a
partir de X. Es la variación "sin explicar" de Y.
Ahora supongamos que sólo se conocen los valores Y (producción semanal, en este
problema) y queremos proyectar la producción por cada empleado. Las cifras reales de pro-
ducción para los empleados son 6, 5, 3, 9 y 7 (de la Tabla 13-6). Para hacer estas predic-
ciones, podríamos asignar la producción semanal media (6 unidades, calculada así:
30/5 = 6) para cada empleado. Esto conservaría la suma de los errores de predicción
cuadrados en un mínimo. (Recuerde que en el Capítulo 3 estudiamos que la suma de las
desviaciones cuadradas de la media aritmética para un conjunto de números es menor a la
suma de las desviaciones cuadradas de cualquier otro valor, como la mediana.) La Tabla
Variación total en Y
13-7 muestra los cálculos necesarios. La suma de las desviaciones cuadradas es 20, como
se muestra en la Tabla 13-7. El valor 20 se conoce como la variación total en Y.
456 Capítulo 13
Lo que hicimos para llevar a la variación total en Y se ilustra con un diagrama en la Gráfica
13-16.
En este problema:
Regresión lineal y correlación 457
Ejercicios
29. Utilizando el problema anterior, que comprende los años en el trabajo y la producción sema-
nal, verifique que el coeficiente de determinación sea realmente 0.80.
30. El número de acciones de Icom, Inc., que cambiaron durante un mes y su precio al final de
éste se muestran en la tabla siguiente. También damos los valores Y".
Relación entre
el coeficiente de correlación,
el coeficiente de determinación
y el error estándar de estimación
En la sección anterior, estudiamos el error estándar de estimación, que mide la proximidad
de los valores actuales a la recta de regresión. Cuando el error estándar es pequeño, indi-
ca que las dos variables están muy relacionadas. En el cálculo del error estándar, el térmi-
no clave es Si el valor de este término es bajo, el error estándar también lo es.
El coeficiente de correlación mide la fuerza de la relación lineal entre dos variables.
Cuando los puntos en el diagrama de dispersión aparecen cerca de la recta, observamos
que el coeficiente de correlación suele ser alto. Por tanto, el error estándar de estimación y
el coeficiente de correlación se relacionan con la misma información pero utilizan una
escala diferente para reportar la fuerza de la relación. Sin embargo, ambas medidas com-
prenden el término
También observamos que el cuadrado del coeficiente de correlación es el coeficiente
de determinación. Éste último mide el porcentaje de la variación en Y que explica la varia-
ción en X.
Un medio conveniente de mostrar la relación entre estas tres medidas es una tabla
ANOVA. Esta tabla es similar a la tabla del análisis de la varianza que creamos en el
Capítulo 12. En ese capítulo, la variación total se dividió en dos componentes: el que se
debe a los tratamientos y el que se debe al error aleatorio. En el análisis de regresión, el
concepto es similar. La variación total, se divide en dos componentes: (1) aquel
que explica la regresión (que explica la variable independiente) y (2) el error, o variación no
explicada. Estas dos categorías se identifican en la primera columna de la tabla ANOVA
458 Capítulo 13
siguiente. La columna con el encabezado "gl" se refiere a los grados de libertad relaciona-
dos con cada categoría. El número total de grados de libertad es n - 1. El número de grados
de libertad en la regresión es 1, ya que sólo hay una variable independiente. El número de
grados de libertad asociado con el término de error es n - 2. El término "SS", que se locali-
za a la mitad de la tabla ANOVA, se refiere a la suma de los cuadrados de la variación. Los
términos se calculan como sigue:
El ejemplo de Copier Sales of America se usa para ilustrar los cálculos del coeficiente
de determinación y el error estándar de estimación a partir de una tabla ANOVA.
Éste es el mismo valor que calculamos antes en este capítulo, cuando encontramos el coe-
ficiente de determinación al elevar al cuadrado el coeficiente de correlación. Una vez más,
la interpretación es que la variable independiente, Llamadas, explica 57.6% de la variación
en el número de copiadoras vendidas. Si necesitáramos el coeficiente de correlación, lo
podríamos encontrar calculando la raíz cuadrada del coeficiente de determinación:
Una vez más, éste es el mismo valor que calculamos anteriormente en este capítulo. Estos
valores se identifican en la pantalla de Excel.
Para la información en el ejemplo anterior sobre el golf, la correlación entre las variables,
ganancias y calificaciones, muestra una relación negativa muy fuerte. La correlación es -
0.782, pero cuando utilizamos un diagrama de dispersión para representar los datos, la
relación parece no ser lineal. Es decir, la relación no sigue una línea recta.
¿Qué podemos hacer para explorar otras relaciones (no lineales)? Una posibilidad es
transformar una de las variables. Por ejemplo, en lugar de usar X como la variable inde-
pendiente, podríamos utilizar su cuadrado como la variable dependiente. Otra posibilidad es
transformar la variable dependiente.
En el ejemplo de las ganancias en el golf, el cambio de la escala de la variable depen-
diente es efectivo. Utilizamos MINITAB para determinar el registro de las ganancias de cada
jugador de golf y luego encontrar la correlación entre el registro de las ganancias y la cali-
ficación. El coeficiente de correlación aumenta a -0.943, que significa 88.9% de la variación
en el registro de las ganancias, y se toma en cuenta en la calificación de la variable inde-
pendiente. Es evidente que, conforme aumenta la calificación media de un jugador, puede
esperar que sus ganancias se reduzcan.
No existe ningún procedimiento generalmente aceptado para determinar qué variable
se va a transformar o qué transformación emplear. De modo que la experiencia y las técni-
cas de ensayo y error son nuestras guías. Los tipos de transformaciones más comunes son:
• Llevar el registro de una de las variables.
• Elevar al cuadrado una de las variables.
• Calcular la raíz cuadrada de una de las variables.
• Calcular el recíproco de una de las variables.
Regresión lineal y correlación 461
Ejercicios
31. Dada la tabla ANOVA siguiente:
34. De acuerdo con la economía básica, conforme aumenta la demanda de un producto, su pre-
cio se reduce. A continuación, presentamos el número de unidades en la demanda y el precio.
462 Capítulo 13
[13-7]
2. El ancho del intervalo se ve afectado por el nivel de confianza, el tamaño del error
estándar de estimación y el tamaño de la muestra, así como el valor de la variable
dependiente.
En un intervalo de predicción, el valor individual de Y se calcula para un valor dado de X.
1. Se calcula a partir de la fórmula siguiente.
Clave de pronunciación
significancia 0.01, ¿podemos llegar a la conclusión de que hay una correlación positiva entre
estas variables? ¿Cuál es el valor p? Interprete sus respuestas.
38. Un estudio sobre los juegos de fútbol soccer a nivel universitario reveló que la correlación
entre el número de tiros y el número de goles anotados es 0.21 para una muestra de 20 par
tidos. ¿Sería razonable llegar a la conclusión de que existe una correlación positiva entre las
dos variables? Utilice el nivel de significancia 0.05. Determine el valor p.
39. Una muestra de 30 autos usados vendidos en Northcut Motors en 2003 reveló que la corre
lación entre el precio de venta y el número de millas recorridas era -0.45. Con un nivel de
significancia 0.05, ¿podemos llegar a la conclusión de que existe una correlación negativa
en la población entre ambas variables?
40. Para una muestra de 32 ciudades grandes en Estados Unidos, la correlación entre el número
medio de pies cuadrados por empleado de oficina y la renta mensual media en el distrito
comercial del centro de la ciudad es -0.363. Con un nivel de significancia 0.05, ¿podemos lle-
gar a la conclusión de que existe una correlación negativa en la población entre ambas variables?
41. ¿Cuál es la relación entre la cantidad que se gasta en comida a la semana y el tamaño de
la familia? Una muestra de 10 familias en el área de Chicago reveló las cifras siguientes para
el tamaño de la familia y la cantidad gastada en comida a la semana.
a. Elabore un diagrama de dispersión. Con base en estos datos ¿parece haber una
relación entre la cantidad de millas que el embarque tiene que recorrer y el tiempo que
tarda en llegar a su destino?
b. Determine el coeficiente de correlación. ¿Podemos llegar a la conclusión de que hay
una correlación positiva entre la distancia y el tiempo? Utilice el nivel de significancia
0.05.
c. Calcule e interprete el coeficiente de determinación.
d. Determine el error estándar de estimación.
50. Super Markets, Inc., considera ampliarse hasta e) área de Scottsdale, Arizona. La señorita
Luann Miller, directora de planeación, debe presentar un análisis de la expansión propuesta
ante el comité operativo de la junta de directores. Como parte de su propuesta, Miller
necesita incluir información sobre la cantidad que las personas en la región gastan al mes
en abarrotes. También le gustaría incluir información sobre la relación entre la cantidad gas-
tada en abarrotes y el ingreso; por lo que recopiló la siguiente información de muestra.
Regresión lineal y correlación 467
a. Calcule la ecuación de la recta de regresión utilizando el precio de venta con base en los
dividendos anuales. Interprete el valor de la pendiente.
b. Calcule el coeficiente de determinación. Interprete su valor.
c. Determine el coeficiente de correlación. ¿Puede llegar a la conclusión de que es mayor a 0
utilizando el nivel de significancia 0.05?
52. Un empleado de carreteras realizó un análisis de regresión entre el número de accidentes
fatales en zonas de construcción y el número de personas desempleadas en un estado. La
ecuación de la recta de regresión es Accidentes fatales = 12.7 + 0.000114 (desempleados).
Algunos resultados adicionales son:
468 Capítulo 13
55. Los datos siguientes revelan el precio detallista para 12 computadoras laptop seleccionadas al
azar, además de las velocidades de su procesador.
a. Desarrolle una ecuación lineal que se pueda usar para describir el grado en el que el
precio depende de la velocidad del procesador.
b. Con base en la ecuación de la recta de regresión, ¿existe alguna máquina que parezca
tener un precio más bajo del que le corresponde?
c. Calcule el coeficiente de correlación entre las dos variables. Con un nivel de significancia
0.05, realice una prueba de hipótesis para determinar si la correlación en la población
puede ser mayor a cero.
56. Una cooperativa de compras para el consumidor probó el área de calefacción efectiva de 20
calentadores eléctricos diferentes con distintos niveles de consumo (en watts). Éstos son los
resultados.
exercises.com
58. Suponga que quiere estudiar la relación entre el índice de analfabetismo en un país, la
población y el producto interno bruto {PIB) del país. Visite el sitio web de Information Piease
Atmanac (http://www.infoplease.com). Seleccione la categoría World y tuego Countries.
Se abrirá una lista de 195 países empezando por Afganistán y terminando en Zimbabwe.
Seleccione al azar una muestra de 20 países aproximadamente. Tal vez sea conveniente
utilizar una muestra sistemática. En otras palabras, seleccione al azar 1 de la lista de 10
países y luego seleccione cada décimo país a partir de éste. Haga dicen el nombre de cada
país y busque en la información el índice de analfabetismo, la población y el PIB. Calcule la
correlación entre las variables. En otras palabras, encuentre la correlación entre: analfa
betismo y población, analfabetismo y PIB, y población y PIB. Precaución. Tenga cuidado con
las unidades. En ocasiones, la población se reporta en millones, pero otras veces está en
miles. Con un nivel de significancia 0.05, ¿podemos llegar a la conclusión de que la corre
lación es diferente a cero para cada par de variables?
59. Muchas compañías de bienes ratees y agencias de arrendamiento ahora publican sus listas
en la web. Un ejemplo es Dunes Realty Company, que se localiza en Garden City y Surfside
Beaches, Carolina del Sur. Visite el sitio web http://www.dunes.com y seleccione Cottages
Search. Luego, indique 5 recámaras, espacio para 14 personas, segunda fila (esto significa
que está en la acera de enfrente de la playa) y sin alberca ni chapoteadero; seleccione un
periodo de julio o agosto; indique que está dispuesto a gastar $5 000 a la semana; y luego
haga clic en Search the Cottages. Los resultados deben incluir los detalles de las cabañas
que cumplen con sus criterios.
a. Determine la correlación entre el número de cuartos de baño en cada cabaña y el pre-
cio de renta semanal. ¿Podemos llegar a la conclusión de que la correlación es mayor
a cero en el nivel de significancia 0.05? Calcule el coeficiente de determinación.
b. Determine la ecuación de la recta de regresión utilizando el número de cuartos de baño
como la variable independiente y el precio por semana como la variable dependiente.
Interprete la ecuación de regresión,
c. Calcule la correlación entre el número de personas que pueden acomodarse en la cabaña
y el precio de renta semanal. Con un nivel de significancia 0.05, ¿puede llegar a la
conclusión de que es diferente de cero?
Regresión lineal y correlación 471
Comandos de software
1. Los comandos de MINITAB para los resultados que
muestran el coeficiente de correlación en la página 439
son:
a. Escriba el nombre del representante de ventas en
C1, el número de llamadas en C2 y las ventas en C3.
b. Seleccione Stat, Basic Statistics y Correlation.
c. Seleccione Llamadas y Ventas como las variables,
haga clic en Display p-values y luego en OK.
Thompson Photo Works compró varias máquinas nuevas de procesamiento altamente com-
plejas. El departamento de producción necesitó ayuda en cuanto a las cualidades necesarias
de un operador. Con el fin de explorar los factores necesarios para calcular el desarrollo de
las máquinas nuevas de procesamiento se mencionaron cuatro variables: tiempo que un
empleado lleva en la industria, su calificación en la prueba de aptitudes mecánicas, la edad y
su calificación anterior obtenida en el trabajo. ¿Cuántas variables dependientes existen? (Vea
la Meta 1 y el Ejercicio 2.)
Regresión lineal múltiple y análisis de correlación lineal múltiple 475
Introducción
En el Capítulo 13, describimos la relación que existe entre un par de medidas de escala de
intervalos o de razón. Empezamos este capítulo con el estudio del coeficiente de corre-
lación, que mide la fuerza de la relación. Un coeficiente cercano a más o menos 1.00 (por
ejemplo, de -0.88 o de 0.78) indica una relación lineal muy fuerte, mientras que un valor
cercano a 0 (por ejemplo, de -0.12 o de 0.18) significa que esa relación es débil. Después
se desarrolló un procedimiento a fin de determinar una ecuación lineal para expresar la
relación entre las dos variables. A esto se le llamó recta de regresión. Esta recta describe
la relación entre las variables. También describe el patrón general de una variable depen-
diente (Y) para una variable independiente o de explicación (X).
En la correlación lineal múltiple y la regresión utilizamos variables independientes linea-
les adicionales (denotadas como y así sucesivamente) que nos ayudan a explicar
mejor o predecir la variable dependiente (Y). Casi todos los conceptos que se observaron
en una correlación lineal simple y en una regresión aplican en esta situación más general.
Sin embargo, las variables independientes adicionales dan lugar a algunas consideraciones
nuevas. El análisis de regresión múltiple se puede utilizar ya sea como una técnica descrip-
tiva o como una técnica de inferencia.
donde:
Cuando sólo existen dos variables independientes, esta ecuación se puede representar grá-
ficamente como un plano. La Gráfica 14-1 es una gráfica de la relación
que utiliza para resumir o "cumplir" con 10 observaciones.
en 6.3 cuando X 1 y X 2 son iguales a cero. Por supuesto, no tiene sentido poseer un
automóvil que no tenga peso (cero) y que utilice gasolina sin octanaje. Es importante tener
presente que una ecuación de regresión casi nunca se utiliza fuera del rango de los valores
de la muestra.
La b1 de 0.2 indica que por cada incremento de 1 en el promedio de octanaje de gasoli-
na, el automóvil recorrería 2/10 de milla más por galón, sin considerar el peso del vehículo.
Es decir, el peso del vehículo se mantiene constante. El valor b2 de -0.001 revela que por
cada incremento de una libra en el peso del vehículo, el número de millas recorridas por galón
disminuye a 0.001, sin considerar el octanaje de la gasolina que se utiliza.
Como ejemplo, un automóvil con gasolina de octanaje 92 en el tanque y con un peso
de 2 000 libras recorrería un promedio de 22.7 millas por galón, calculado así:
Esta ecuación es análoga a la fórmula (14-1), sólo que los coeficientes ahora se reportan
con letras griegas. Utilizamos letras griegas para denotar los parámetros de la población.
Entonces, de acuerdo con ciertas suposiciones, que estudiaremos en breve, los valores
calculados de a y b son estadísticos de muestra. Estos estadísticos de muestra son esti-
madores puntuales de los parámetros de la población correspondientes Estos
estimadores puntuales tienen distribuciones normales de muestreo. Cada una de estas dis-
tribuciones de muestreo se centran en sus respectivos valores del parámetro. En otras pala-
bras, las medias de las distribuciones de muestreo son iguales a los valores del parámetro
que se van a estimar. Por tanto, a través del uso de las propiedades de las distribuciones
de muestreo de estos estadísticos se pueden realizar inferencias sobre los parámetros de
la población.
Regresión lineal múltiple y análisis de correlación lineal múltiple 477
TABLA 14-1 Factores en el costo de calefacción en enero para una muestra de 20 casas
Los sistemas de software para estadística Excel y MINITAB generan los resultados que se
muestran a continuación:
La variable "aislamiento del ático" también muestra una relación inversa: entre más ais-
lamiento presente el ático, menor es el costo de la calefacción para la casa. De modo que
resulta lógico utilizar el signo negativo para este coeficiente. Por cada pulgada adicional de
aislamiento, esperamos que el costo de la calefacción de la casa descienda a $14.80 men-
suales, sin importar la temperatura externa ni la antigüedad del calentador.
La variable de la antigüedad del calentador muestra una relación directa. Con un calen-
tador más antiguo, el costo para calentar la casa aumenta. De manera específica, por cada
año de antigüedad del calentador, esperamos que el costo aumente $6.10 por mes.
El costo calculado de calefacción por mes es de $276.60, si la temperatura externa
media por mes es de 30 grados, existen 5 pulgadas de aislamiento en el ático y la anti-
güedad del calentador es de 10 años.
Autoevaluación 14-1
El ingeniero de control de calidad (CC) de Palmer Industries está interesado en calcular la
fuerza de tensión del cable de acero en su diámetro externo y la cantidad de molibdeno en el
acero. Como un experimento, se seleccionaron 25 piezas de cable, se midieron los diámetros
externos y se determinó el contenido de molibdeno. Luego se midió la fuerza de tensión de
cada pieza. Los resultados de las primeras cuatro fueron los siguientes:
Ejercicios
El director de mercadotecnia de Reeves Wholesale Products estudia las ventas mensuales.
Se seleccionaron tres variables independientes como los estimadores de las ventas: la
población regional, el ingreso per cápita y la tasa de desempleo regional. La ecuación de
regresión se calculó (en dólares) de la siguiente manera:
La ecuación es:
a. ¿Cuál es el índice de satisfacción calculado para una persona que se casó por primera
vez a los 18, que tiene ingresos anuales de $26 500, que tiene 3 hijos vivos, bienes por
$156 000, un índice de estado de salud de 141 y un promedio de 2.5 de actividades
sociales por semana?
b. ¿Qué daría más satisfacción, un ingreso adicional de $10 000 por año o dos actividades
sociales más por semana?
4. Cellulon, un fabricante de aislamientos para casas, quiere desarrollar lineamientos para
constructores y consumidores en lo que respecta a los efectos (1) del grosor del aislamien-
to en el ático de las casas y (2) de la temperatura externa con respecto al consumo de gas
natural. En el laboratorio se manejaron variaciones en el espesor del aislamiento y la tem-
peratura. Algunos descubrimientos son:
a. ¿Cuanto gas natural pueden utilizar los propietarios de las casas por mes si instalan 6
pulgadas de aislamiento y la temperatura externa es de 40 °F?
b. ¿Que efecto tendría instalar 7 pulgadas de aislamiento en lugar de 6 en un consumo
mensual de gas natural (suponiendo que la temperatura externa sigue siendo de 40 °F)?
c. ¿Por qué son negativos los coeficientes de regresión b1 y b2? ¿Resulta lógico?
es la observación.
es el valor estimado con la ecuación de regresión,
es el número de observaciones en la muestra, es
el número de variables independientes.
En el ejemplo de Salsberry Realty, k- 3.
Una vez más, utilizamos el problema de Salsberry Realty para ¡lustrar. La primera casa
tenía una temperatura externa media de 35 grados, 3 pulgadas de aislamiento en el ático y
un calentador de 6 años de antigüedad. Al sustituir estos valores en la ecuación de regre-
sión, el costo calculado de calefacción es de $258.90, determinado por 427 - 4.58(35) -
14.80(3) + 6.10(6). Los valores Y´ para las otras casas se obtienen de manera similar y se
reportan en la Tabla 14-2.
El costo real de la calefacción para la primera casa es de $250, en comparación con el
costo calculado de $258.90. Es decir, el error en la predicción es -$8.90, que se obtiene a
través de ($250 - $258.90). Esta diferencia entre el costo real de calefacción y el costo cal-
culado de calefacción recibe el nombre de varianza residual. Para encontrar el error están-
dar de estimación múltiple, determinamos la varianza residual para cada una de las casas
de la muestra, elevamos al cuadrado el residual y obtenemos el total de varianzas residua-
les cuadradas. El total se reporta en la esquina inferior derecha de la Tabla 14-2.
En este ejemplo n = 20 y k = 3 (tres variables independientes), por tanto, el error están-
dar de estimación múltiple es:
482 Capítulo 14
¿Cómo interpretamos 51.05? Es el "error" típico que se comete al utilizar esta ecuación
para proyectar el costo. Primero, las unidades son las mismas de la variable dependiente,
por tanto, el error estándar está en dólares. En segundo lugar, si los errores tienen una dis-
tribución normal, aproximadamente 68% de las varianzas residuales deberían ser menores
de ± 51.05 y aproximadamente 95% debería ser menor que ± 2(51.05) o ± 102.10. Observe
la segunda columna de la derecha de la Tabla 14-2, la columna definida como (Y-Y'). De
las 20 varianzas residuales reportadas en esta columna, 14 son menores que ± 51.05 y todas
son menores que + 102.10, lo cual se apega en gran medida a los lineamientos del 68 y 95%.
En el Capítulo 13 utilizamos el error estándar de estimación para crear intervalos de
confianza e intervalos de predicción. No vamos a explicar estos procedimientos con detalle
para la regresión múltiple; pero están disponibles en los programas de software de estadís-
tica, como MINITAB.
las siguientes suposiciones en los problemas de regresión múltiple y correlación que se pre-
sentan en el ambiente de negocios en constante cambio. Pero las técnicas estadísticas
mencionadas en este capítulo parecen funcionar bien incluso cuando se violan dos o más
suposiciones. Aun cuando los valores de la ecuación de la regresión múltiple no sean los
adecuados, nuestros cálculos basados en la ecuación serán más aproximados que
cualquier otro cálculo que se pueda realizar.
Más adelante en este capítulo comentaremos con mayor detalle cada una de las si-
guientes suposiciones.
1. Las variables independientes y la variable dependiente tienen una relación lineal.
2. La variable dependiente es continua y por lo menos está definida en escala de intervalo.
3. La variación en la diferencia entre los valores reales y los proyectados es la misma para
todos los valores calculados de Y. Es decir, (Y- Y´) debe ser casi igual para todos los
Homoscedasticidad valores de Y'. Cuando éste es el caso, las diferencias presentan homoscedasticidad.
4. Todas las varianzas residuales, calculadas a través de Y – Y´ tienen una distribución
normal con una media de 0.
5. Las observaciones sucesivas de la variable dependiente no están correlacionadas. La
Autocorrelación violación de esta suposición recibe el nombre de autocorrelación, y, por lo general, se
presenta cuando la información se reúne sucesivamente durante varios periodos.
Hay pruebas estadísticas para detectar la homoscedasticidad y la autocorrelación. Para
quienes estén interesados, estas pruebas se incluyen en textos más avanzados como
Applied Linear Regression Models de Kutner, Nachtscheim y Neter (4a. ed. 2004, publica-
do por McGraw-Hill/lrwin).
Tabla ANOVA
Como ya dijimos, los cálculos para la regresión múltiple son muy largos. Por fortuna, hay
diferentes programas de software para realizarlos; de los cuales la mayor parte reportan los
resultados en un formato estándar. La pantalla del sistema MINITAB que se muestra en la
página 478 es típica. Ésta incluye la ecuación de regresión, el error estándar de estimación,
el coeficiente de determinación y un análisis de la tabla de la varianza. Ya describimos el sig-
nificado de los coeficientes de regresión de la ecuación
Posteriormente, en este capítulo, estudiaremos las columnas del "Coef", "StDev" y "T" (por
ejemplo, la razón t). A continuación, retomamos una parte de la pantalla de MINITAB.
Ejercicios
5. Consulte la siguiente tabla ANOVA
De las tres variables independientes, la relación más fuerte se presenta entre el costo
de calefacción y la temperatura externa media. Las relaciones entre el costo y la tempera-
tura, y el costo y el aislamiento son inversas. Es decir, cuando la variable independiente
aumenta, la variable dependiente disminuye. La relación entre el costo de la calefacción y la
antigüedad del calentador es directa. Mientras más antiguo sea el calentador, el costo de
la calefacción para una casa es mayor.
Matriz de correlación
Una matriz de correlación es también de gran utilidad para analizar los factores involucra-
dos en el costo de la calefacción de una casa.
El costo es la variable dependiente, Y. Nos interesan sobre todo las variables indepen-
dientes que presentan una fuerte correlación con la variable dependiente. Si queremos
desarrollar una ecuación de regresión múltiple más sencilla utilizando menos variables inde-
pendientes, la matriz de correlación nos ayuda a identificar qué variables podrían ser relati-
vamente más importantes. Según lo indica la pantalla, la temperatura presenta la correlación
más fuerte con un costo de -0.81151. El signo negativo indica la relación inversa esperada.
La antigüedad presenta la correlación más fuerte con el costo que con el asilamiento y, de
nuevo como se esperaba, la correlación entre el costo y la antigüedad del calentador es
directa. Es de 0.53673.
Si la hipótesis nula es verdadera, esto significa que todos los coeficientes de regresión son
cero y lógicamente, no se necesita calcular la variable dependiente (costo de la calefac-
ción). Si ese fuera el caso, tendríamos que buscar otras variables independientes, o mane-
jar otro enfoque, para predecir los costos de calefacción.
Para probar la hipótesis nula de que todos los coeficientes de regresión múltiple son
cero, utilizamos la distribución F mencionada en el Capítulo 12. Usaremos el nivel de sig-
nificancia 0.05. Recuerde estas características de la distribución F:
SSR es la suma de los cuadrados "explicados a través de" la regresión, SSE es la suma del
error de los cuadrados, n es el número de observaciones y k es el número de variables inde-
pendientes. Al insertar estos valores en la fórmula (14-4) obtenemos:
Al continuar con la prueba global, la regla de decisión es: aceptar la hipótesis nula de que
todos los coeficientes de regresión son cero si el valor calculado de F es menor o igual que
3.24. Si el F calculado es mayor que 3.24, rechace H0 y acepte la hipótesis alternativa H1
Regresión lineal múltiple y análisis de correlación lineal múltiple 489
La columna que tiene el encabezado "Coef" muestra los coeficientes de regresión para
la ecuación de regresión múltiple:
Interpretación del término -4.5827X, en la ecuación: por cada grado que la temperatura se
incrementa, se espera que el costo de calefacción disminuirá aproximadamente a $4.58,
manteniendo constantes las otras dos variables.
La columna de la pantalla de MINITAB titulada como "SE Coef" indica el error estándar
del coeficiente de regresión de la muestra. Recuerde que Salsberry Realty seleccionó una
muestra de 20 casas de la costa este de Estados Unidos. Si seleccionaran una segunda mues-
tra al azar y calcularan los coeficientes de regresión de esa muestra, los valores no serían
exactamente los mismos. Sin embargo, si se repitiera el proceso de muestreo varias veces,
se podría diseñar una distribución de muestreo de estos coeficientes de regresión. La
columna que tiene el encabezado "SE Coef" calcula la variabilidad de estos coeficientes de
regresión. La distribución de muestreo de Coef/SE Coef sigue la distribución f con n-(k +
1) grados de libertad. De ahí que las variables independientes se puedan probar de manera
individual para determinar si los coeficientes de regresión difieren de cero. El valor f cal-
culado es -5.93 para la temperatura y -3.12 para el aislamiento. Estos dos valores de í se
encuentran en la región de rechazo a la izquierda de -2.120. Por tanto, llegamos a la con-
clusión de que los coeficientes de regresión para las variables de temperatura y asilamiento
no son cero. La í calculada para la antigüedad del calentador es 1.52, por tanto, llegamos
a la conclusión de que b3 podría ser igual a 0. La variable independiente "antigüedad del
calentador" no es un factor de predicción importante del costo de calefacción, por lo que se
puede eliminar del análisis. Podemos probar coeficientes de regresión individuales utilizan-
do la distribución t. La fórmula es:
Para explicarlo, suponga que desarrollamos una ecuación de regresión múltiple basa-
da en cinco variables independientes. Realizamos la prueba global y encontramos que
algunos coeficientes de regresión fueron diferentes de cero. Luego, probamos los coefi-
cientes de regresión de manera individual y encontramos que tres eran significativos y dos
no lo eran. El procedimiento preferido es eliminar la variable independiente con el valor t
absoluto más pequeño o el valor p más grande y efectuar de nuevo la ecuación de regre-
sión con las cuatro variables restantes. Luego, realizamos pruebas individuales en la nueva
ecuación de regresión con cuatro variables independientes. Si todavía existen coeficientes
de regresión que no son significativos, volvemos a eliminar la variable con el valor t abso-
luto más pequeño. Para describir el proceso de otra manera, deberíamos eliminar sólo una
variable a la vez. Cada vez que eliminamos una variable, debemos volver a efectuar la
ecuación de regresión y revisar las variables restantes.
Este procedimiento de seleccionar variables para incluirlas en un modelo de regresión
se puede automatizar utilizando Excel, MINITAB, Megastat u otro software estadístico. La
mayor parte de los sistemas de software incluyen métodos para eliminar de manera secuen-
cial y/o añadir variables independientes, y a la vez proporcionar cálculos del porcentaje de
la variación explicada (el término de cuadrados de R). Dos métodos comunes son la regre-
sión de paso y la regresión del mejor subconjunto. Puede llevar mucho tiempo, pero es
posible calcular cada regresión entre las variables dependientes y los posibles subconjun-
tos de las variables independientes.
En ocasiones, el software puede ser "muy complicado" para encontrar una ecuación
que cumpla con las singularidades de su conjunto de datos. La ecuación resultante quizá
no represente la relación en la población. Deberá recurrir al sentido común para elegir las
ecuaciones entre las que se presentan. Considere si los resultados son lógicos. Estos
deberían tener una interpretación sencilla y ser consistentes con su conocimiento de la apli-
cación que se estudia.
Autoevaluación 14-3 La regresión múltiple y la información de correlación para el ejemplo anterior del costo de
calefacción se utilizaron otra vez considerando sólo las dos primeras variables independientes
significativas (temperatura y aislamiento). (Consulte la siguiente pantalla de MINITAB.)
(a) ¿Cuál es la nueva ecuación de regresión múltiple? (La temperatura es X, y el aislamiento
es X2.)
(b) ¿Cuál es el coeficiente de determinación múltiple? Interprételo.
(c) ¿En qué se basa para decir que estas dos variables independientes son importantes al
proyectar los costos de calefacción?
(d) ¿Cuál es el valor p del aislamiento? Interprételo.
492 Capítulo 14
VARIABLE TONTA Es una variable en la que sólo existen dos resultados posibles. Para
el análisis, uno de los resultados recibe un código de 1 y el otro de 0.
Por ejemplo, podríamos calcular el salario de un ejecutivo con base en sus años de
experiencia laboral y si se graduó o no de la universidad. El concepto "graduación de la uni-
versidad" puede tener sólo dos condiciones: sí o no. Por tanto, se considera una variable
cualitativa.
Suponga que en el ejemplo de Salsberry Realty se agrega la variable "cochera". Para
las casas sin cochera, utilizamos 0; para las que sí la tienen usamos 1. Nos referiremos a
la variable "cochera" como X4. La información de la Tabla 14-3 se introduce en el sistema
MINITAB.
TABLA 14-3 Costos de calefacción de las casas, temperatura, aislamiento y cochera para una muestra de
20 casas
¿Se puede utilizar una variable cualitativa con más de dos resultados posibles? Sí, pero
el esquema de codificación se vuelve más complejo y requiere de una serie de variables
tontas. Para explicarlo, suponga que una compañía está estudiando sus ventas en cuanto
a su relación con una cuarta parte de los gastos de publicidad durante los últimos 5 años.
Suponga que las ventas son la variable dependiente y los gastos de publicidad son la
primera variable independiente, X1 Para incluir la información cualitativa en lo que se refiere
a la cuarta parte, se utilizan tres variables independientes adicionales. Para la variable X2,
las cinco observaciones que se refieren a la primera cuarta parte de cada uno de los 5 años
tienen el código de 1 y las otras cuartas partes de 0. De manera similar, para la variable X3
las cinco observaciones que se refieren a la segunda cuarta parte tienen el código de 1 y las
otras cuartas partes de 0. Para la variable X4 las cinco observaciones que se refieren a la
tercera cuarta parte tienen el código de 1 y las otras cuartas partes de 0. Una observación
que no se refiere a ninguna de las primeras tres cuartas partes se debe referir a la cuarta
parte, por tanto, no es necesaria una variable independiente diferente que se refiera a esta
cuarta parte.
Ejercicios
7. Consulte la siguiente información:
1. Existe una relación lineal entre la variable dependiente y las variables independientes.
2. La variable dependiente se mide como una variable de intervalo o de escala de razón.
3. Las observaciones sucesivas de una variable dependiente no están correlacionadas.
4. Las diferencias entre los valores reales y los valores calculados; es decir, las varianzas
residuales, por lo general están distribuidas.
5. La variación en las varianzas residuales es la misma para todos los valores de Y´. Es
decir, la distribución de (Y- Y´) es la misma para todos los valores de Y´.
Las últimas dos suposiciones se pueden verificar al representar las varianzas residua-
les. Es decir, queremos confirmar que las varianzas residuales siguen una distribución nor-
mal y que las varianzas residuales tienen la misma variación independientemente de si el
valor de Y' es alto o bajo. La Tabla 14-4 presenta la información necesaria. La columna que
tiene el encabezado "Costo real" es el costo original de calefacción, que presentamos antes
en la Tabla 14-1. La columna siguiente, con el encabezado "Costo calculado", es el costo
de calefacción de la casa calculado a través de la ecuación de regresión. Esto también
recibe el nombre de valor ajustado y es Y´. El valor para la primera casa se obtiene al susti-
tuir los valores reales de las tres variables en la ecuación de regresión. Por ejemplo, en la
Tabla 14-3, la temperatura externa de la media de la primera casa fue de 35 grados, pre-
sentó 3 pulgadas de aislamiento en el ático y no incluía cochera. El costo real de calefac-
ción fue de $250, y el costo calculado de calefacción fue de $221.08, calculado con:
TABLA 14-4 Resumen de costos reales, costos calculados y varianzas residuales para el problema de
Salsberry Realty
496 Capítulo 14
Podemos utilizar la última columna, las varianzas residuales, para verificar la suposi-
ción de normalidad. La siguiente pantalla de MINITAB presenta un diagrama de tallo y hojas
y un histograma de las varianzas residuales. Ambas gráficas indican que la distribución de
las varianzas residuales es de alguna manera normal, según lo requerido en las suposi-
ciones. Para interpretar la pantalla, observe que las varianzas residuales se clasifican con
un intervalo de clase de 20: -70 hasta -50, con un punto intermedio de -60; -50 hasta -30,
con un punto intermedio de -40; y así sucesivamente. Los detalles de las primeras tres
clases son:
Las suposiciones para el análisis de regresión también requieren de que las varianzas
residuales permanezcan constantes para todos los valores de Y´. Recuerde que esta condi-
Homoscedasticidad ción recibe el nombre de homoscedasticidad. Para verificarla, las varianzas residuales se
representan en los valores ajustados de Y´. Es decir, elaboramos un diagrama de disper-
sión con los valores de la columna del Costo calculado de la Tabla 14-1 representados en
el eje horizontal y las varianzas residuales en el eje vertical. El primer trazo es 221.08 para
X y 28.92 para Y. Ya que la dispersión de las varianzas residuales es la misma para todas
las Y', llegamos a la conclusión de que no se violó la suposición.
Regresión lineal múltiple y análisis de correlación lineal múltiple 497
Paul Roseboro es un analista de Bar Nun Trucking y estudia el efecto de la presión de las llan-
tas en el ahorro de gasolina (Mpg) para una flotilla de 24 sedanes que usan los supervisores
regionales. Roseboro convenció a la gerencia de que se condujeran cuatro automóviles
diferentes con una presión en las llantas de 30 libras por pulgada cuadrada, cuatro con 31,
cuatro con 32, y así sucesivamente, y obtuvo la siguiente información de la muestra.
498 Capítulo 14
Desarrolle un modelo adecuado de regresión para relacionar la presión de las llantas con la
efectividad de la gasolina. ¿Cuál parece ser el mejor nivel para la presión de las llantas?
Paul utilizó un paquete estadístico de software para desarrollar una ecuación de regresión,
utilizando la presión de las llantas como la variable independiente y Mpg como la variable
dependiente. De esta ecuación de regresión él obtuvo las varianzas residuales y los valores
correspondientes. Por último, trazó estos valores en el diagrama de dispersión. Paul com-
para el diagrama siguiente de varianzas residuales contra los valores ajustados. ¿Qué indi-
ca el diagrama? ¿Existe algún problema con las suposiciones de regresión?
Las varianzas residuales (Y- Y') se encuentran en el eje vertical y los valores de Y´ están
en el eje horizontal. Resulta que los errores o varianzas residuales no son aleatorios. En
lugar de ello, existe un patrón definitivo para las varianzas residuales. Éstas son negativas
para los valores altos y bajos de la presión de las llantas y son positivas en la parte media
del rango.
Un diagrama de datos con la ecuación de regresión lineal ayuda a comprender mejor
lo anterior. Aquí, la variable dependiente Mpg está en el eje vertical y la presión de las llan-
tas en el eje horizontal.
sidera para la diferencia de la presión de las llantas. En el diagrama se puede observar que
la relación entre las variables no es lineal.
Este patrón indica que la relación puede ser polinomial. Por tanto, Paul decide utilizar
una ecuación cuadrada o de segundo grado para la información. Su nueva ecuación tiene
la forma general:
A fin de crear una segunda variable independiente para este análisis, Paul eleva al cuadra-
do la presión de las llantas. Generalmente, una variable y su cuadrado tienden a comportar-
se de manera independiente una de la otra. Luego, puede utilizar la regresión múltiple para
determinar la ecuación de segundo grado. En otras palabras, Paul ajusta la presión de las
llantas y la presión de las llantas al cuadrado con Mpg. Consulte la información que se
encuentra en la parte izquierda de la siguiente pantalla de MINITAB.
2
El valor de R se incrementó a 77.7%. Es decir, las variables independientes de la presión
de las llantas y de la presión de las llantas al cuadrado ahora equivalen a casi 78% de la
variación del millaje. Ésta es una mejora sustancial.
500 Capítulo 14
¿Qué sucede con el problema de que las varianzas residuales no siguen un patrón
aleatorio? Paul traza las varianzas residuales obtenidas de la ecuación cuadrada con la
variable de la presión de las llantas y parece no haber un patrón. Las varianzas residuales
ahora parecen ser "más aleatorias".
¿Cuál sería el valor óptimo para la presión de las llantas? Si observamos el trazo dis-
perso con la ecuación de regresión correspondiente, veremos que el millaje se incrementó
a cerca de 33 libras y luego empezó a disminuir.
Este trazo también sugiere que la presión de las llantas óptima debe ser de 33 libras
por pulgada cuadrada. En resumen, al utilizar una ecuación cuadrada pudimos incrementar
la variación explicada de 17 a 78%, eliminar el problema con las varianzas residuales y des-
cubrir que la presión de las llantas más favorable es 33 libras.
VIl. La prueba para las variables individuales determina qué variables independientes presentan
coeficientes de regresión significativos.
A. Por lo general, las variables que presientan valor cero como coeficientes de regresión
se eliminan del análisis.
B. La estadística de la prueba es la distribución fcon n - (k+ 1) grados de libertad.
C. La fórmula para calcular el valor del estadístico de la prueba para la prueba individual es:
Regresión lineal múltiple y análisis de correlación lineal múltiple 501
VIII. Las variables tontas se utilizan para representar variables cualitativas y pueden asumir sólo
una de las dos condiciones posibles.
IX. Una varianza residual es la diferencia entre el valor real de Vy el valor estimado de V.
A. Las varianzas residuales deben tener una distribución normal. Las gráficas detalladas
y los histogramas son de gran utilidad al revisar que se cumpla con este requisito.
B. Un diagrama de las varianzas residuales y de sus valores correspondientes de Y" es de
gran utilidad para demostrar que no existen patrones o tendencias en las varianzas
residuales.
Clave de pronunciación
Realice una prueba de hipótesis para determinar si las variables independientes tienen un
coeficiente igual a cero. ¿Consideraría la posibilidad de eliminar alguna variable de la
ecuación de regresión? Utilice un nivel de significancia 0.05.
11. Se obtuvo el siguiente resultado:
502 Capítulo 14
a. ¿Cuáles son las ventas calculadas para la tienda Bryne, misma que tiene cuatro com
petidores, una población de 0.4 (400 000) y un gasto de publicidad de 30 ($30 000)?
2
b. Calcule el valor de R .
c. Calcule el error estándar múltiple de estimación.
d. Realice una prueba global de hipótesis para determinar si los coeficientes de regresión
son importantes. Utilice el nivel de significancia 0.05.
e. Realice pruebas de hipótesis para determinar qué variables independientes presentan
coeficientes de regresión importantes. ¿Consideraría la posibilidad de omitir alguna
variable? De ser así, ¿cuál(es) omitiría? Utilice el nivel de significancia 0.05.
14. Suponga que el gerente de ventas de una gran distribuidora de partes de automóvil desea
calcular las ventas totales anuales de una región en el mes de abril. Con base en las ven-
tas regionales, también se pueden calcular las ventas totales para una compañía. Si, con
base en las experiencias pasadas, se encuentra que los cálculos de las ventas anuales en
abril son precisos, entonces en los años futuros el pronóstico para abril se podría utilizar
para revisar los programas de producción y mantener el inventario correcto en las tiendas
de descuento detallistas.
Varios factores están relacionados con las ventas, incluyendo el número de tiendas de
descuento detallistas en la región que manejan las partes de la compañía, el número de au-
tomóviles en la región registrados al 1 de abril y el ingreso total personal para los primeros
cuatro meses del año. Se seleccionaron cinco variables independientes como las más
importantes (de acuerdo con el gerente de ventas). Después se reunió la información para el
último año. También se registraron las ventas anuales totales durante ese año en esa región.
Observe en la siguiente tabla que en la región 1, 1 739 tiendas de descuento detallistas
Regresión lineal múltiple y análisis de correlación lineal múltiple 503
c. Realice una prueba global de hipótesis para determinar si alguno de los coeficientes de
regresión no es cero. Utilice el nivel de significancia 0.05.
d. Realice una prueba de hipótesis en cada una de las variables independientes. ¿Con-
sideraría la posibilidad de eliminar "tiendas de descuento" y "jefes"? Utilice el nivel de
significancia 0.05.
e. La regresión se vuelve a efectuar sin "tiendas de descuento" y sin "jefes". Calcule el
2
coeficiente de determinación. ¿Cuánto cambió R en el análisis anterior?
504 Capítulo 14
16. Mike Wilde es presidente de la unión de profesores para el Distrito Escolar de Otsego. A fin
de prepararse para las negociaciones próximas, le gustaría investigar la estructura salarial de
los profesores frente a grupo en el distrito. Wilde considera que existen tres factores que
influyen en el salario de un profesor: los años de experiencia, su calificación en desempeño
docente proporcionada por el director y si el profesor cuenta con una maestría. Una mues-
tra aleatoria de 20 profesores proporcionó la siguiente información:
a. Desarrolle una matriz de correlación. ¿Qué variable independiente presenta una corre-
lación más fuerte con la variable dependiente? ¿Al parecer habrá problemas en lo que
respecta a la multicolinearidad?
b. Determine la ecuación de regresión. ¿Qué salario calcularía para un profesor que tiene
cinco años de experiencia, una calificación del director de 60 y no tiene maestría?
c. Realice una prueba global de hipótesis para determinar si alguno de los coeficientes de
regresión es diferente de cero. Utilice un nivel de significancia 0.05.
d. Realice una prueba de hipótesis para cada una de las variables independientes. ¿Con
sideraría la posibilidad de eliminar alguna de las variables independientes? Utilice un
nivel de significancia 0.05.
e. Si su conclusión en el inciso (d) fue eliminar una o más variables independientes, vuel-
va a realizar el análisis sin esas variables.
f. Determine las varianzas residuales para la ecuación del inciso (e). Utilice un diagrama
de tallo y hojas o un histograma para verificar que la distribución de las varianzas
residuales sea casi normal.
g. Trace las varianzas residuales calculadas en el inciso (f) en un diagrama de dispersión
con las varianzas residuales en el eje Y y los valores de Y' en el eje X. ¿El diagrama
revela alguna violación de las suposiciones de regresión?
Regresión lineal múltiple y análisis de correlación lineal múltiple 507
17. El gerente distrital de ventas de un fabricante de automóviles estudia las ventas de éstos. En
forma específica, quiere determinar qué factores influyen en el número de automóviles vendi-
dos en una distribuidora. Para investigarlo, seleccionó al azar 12 distribuidoras. De éstas,
obtiene el número de automóviles vendidos el mes pasado, los minutos de publicidad en radio
comprados el mes pasado, el número de vendedores de tiempo completo contratados y si la
distribuidora está ubicada en la ciudad. La información es la siguiente:
a. Desarrolle una matriz de correlación. ¿Qué variable independiente presenta una corre-
lación más fuerte con la variable dependiente? ¿Parece que se presentarán problemas
en lo que respecta a la multicolinearidad?
b. Determine la ecuación de regresión. ¿Cuántos automóviles esperaría que vendiera una
distribuidora que emplea a 20 vendedores, que compra 15 minutos de publicidad y que
está en la ciudad?
c. Realice una prueba global de hipótesis para determinar si alguno de los coeficientes de
regresión neta son diferentes de cero. Suponga que
d. Realice una prueba de hipótesis para cada una de las variables independientes.
¿Consideraría la posibilidad de eliminar alguna de las variables independientes?
Suponga que a = 0.05.
e. Si su conclusión en el inciso (d) fue eliminar una o más variables independientes, vuel-
va a efectuar el análisis sin esas variables.
f. Determine las varianzas residuales para la ecuación del inciso (e). Utilice un diagrama
de tallo y hojas o un histograma para verificar que la distribución de las varianzas resi-
duales sea casi normal.
g. Trace las varianzas residuales calculadas en el inciso (f) en un diagrama de dispersión
con las varianzas residuales en el eje Y y los valores de Y' en el eje X. ¿El diagrama
revela alguna violación de las suposiciones de regresión?
18. Fran's Convenience Marts se localiza en toda el área metropolitana de Erie, Pennsylvania. Fran,
la propietaria, quiere expandirse a otras comunidades del noroeste de Pennsylvania y del
sureste de Nueva York, como Jamestown, Corry, Meadville y Warren. Como parte de su pre-
sentación para el banco local, desea comprender mejor los factores que hacen que una tien-
da de descuento sea productiva. Fran realizará todo el trabajo por su cuenta, por tanto, no
puede estudiar todas sus tiendas de descuento. Seleccionó una muestra aleatoria de 15
tiendas y registró las ventas diarias promedio (Y), el espacio en el local (área), el número de
cajones de estacionamiento y el ingreso medio ele las familias en la región donde está cada
tienda. A continuación, presentamos la información de la muestra.
508 Capítulo 14
e. Trace las varianzas residuales en un histograma. ¿Existe algún problema con la suposi-
ción de normalidad?
f. Compare los valores ajustados con las varianzas residuales. ¿Este diagrama indica
algún problema con la homoscedasticidad?
22. El departamento de hipotecas de un banco importante estudia sus préstamos recientes.
Quiere saber sobre todo de qué manera factores como el valor de la vivienda (en miles de
dólares), el nivel de educación del jefe de familia, la edad del jefe de familia, el pago men-
sual actual de la hipoteca (en dólares) y el género del jefe de familia (masculino = 1, femeni-
no = 0) se relacionan con el ingreso familiar. ¿Estas variables predicen de manera eficaz el
ingreso del jefe de la familia? Se obtuvo una muestra aleatoria de 25 préstamos recientes.
d. Realice una prueba de hipótesis individual para determinar si puede eliminar alguna
variable independiente.
e. Vuelva a efectuar la ecuación de regresión, utilizando sólo las variables independientes
que son importantes. ¿Cuánto más gana al mes un hombre que una mujer? ¿Hay algu-
na diferencia por el hecho de que el empleado tenga un trabajo técnico o uno adminis-
trativo?
24. Muchas regiones de la costa de Carolina del Norte, de Carolina del Sur y de Georgia han
experimentado un rápido crecimiento de la población durante los últimos 10 años. Se espera
que el crecimiento continúe durante los próximos 10 años. Esto ha tenido influencia en
muchas de las grandes cadenas de tiendas de abarrotes que construyen tiendas nuevas en la
región. La cadena Kelley's Super Grocery Stores, Inc., no es una excepción. El director de
planeación de Kelley's Super Grocery Stores quiere investigar esto para construir más tien-
das en esta región. Considera que existen dos factores principales que indican la cantidad
de dinero que las familias gastan en las tiendas de abarrotes. E! primero es su ingreso y el
otro es el número de personas en la familia. El director reunió la información de la muestra;
que se observa en la tabla de la página siguiente.
Los aumentos y el ingreso se reportan en miles de dólares por año y la variable
"tamaño" se refiere al número de personas en la familia.
a. Desarrolle una matriz de correlación. ¿Observa algún problema con la multicolinearidad?
b. Determine la ecuación de regresión. Comente la ecuación de regresión. ¿Cuánto más
añade un miembro adicional en la familia a la cantidad de dinero invertida en alimentos?
2
c. ¿Cuál es el valor de fí ? ¿Podemos llegar a la conclusión de que este valor es mayor
que 0?
d. ¿Consideraría la posibilidad de eliminar alguna de las variables independientes?
512 Capitulo 14
e. Trace las varianzas residuales en un histograma. ¿Existe algún problema con la suposi-
ción de normalidad?
f. Compare los valores ajustados con las varianzas residuales. ¿Este diagrama indica
algún problema con la homoscedasticidad?
25. Un agente de inversiones estudia la relación entre un precio accionario común para la razón
de ganancias (P/E) y los factores que influirían en éste, y cuenta con la siguiente informa-
ción sobre las ganancias por acción (EPS) y el porcentaje de dividendos (Rendimiento) para
una muestra de 20 acciones.
a. Desarrolle una regresión lineal múltiple con P/E como la variable dependiente.
b. ¿Las dos variables independientes predicen P/E de manera efectiva?
Regresión lineal múltiple y análisis de correlación lineal múltiple 513
exercices.com
27. El National Institute of Standards and Technology proporciona varios conjuntos de información
para permitir que cada usuario pruebe la precisión de su software estadístico. Visite el sitio web:
http://www.iti.nist.gov/div898/strcl. Seleccione la sección de Dataset Archives y, en ésta, la
sección de Linear Regression. Encontrará los nombres de 11 conjuntos de datos almacena
dos en el formato ASCII en esta página. Seleccione uno y coloque la información en su soft
ware de estadística. Compare sus resultados con los "oficiales" del gobierno federal.
28. Según lo descrito en los ejemplos de los Capítulos 12 y 13, muchas compañías de bienes
raíces y agencias arrendadoras publican sus listas en la Red. Un ejemplo es Dunes Realty
Company, ubicada en Garden City y Surfside Beaches en Carolina del Sur. Visite el sitio web:
http://www.dunes.com, seleccione Cottage Search, luego indique 5 habitaciones, lugar
para 14 personas, con vista al mar y sin alberca o muelle flotante, seleccione un periodo de
514 Capítulo 14
julio y agosto, indique que está dispuesto a pagar $5 000 a la semana y haga clic en Search
the Cottages. La pantalla deberá incluir los detalles de las casas que cumplan con sus cri-
terios. Desarrolle una ecuación de regresión lineal múltiple utilizando el precio de renta por
semana como la variable dependiente y el número de habitaciones, el número de baños y el
número de personas que se hospedarán en la casa como las variables independientes.
Analice las ecuaciones de regresión. ¿Consideraría la posibilidad de eliminar alguna variable
independiente? ¿Cuál es el coeficiente de determinación? Si elimina alguna de las variables,
vuelva a efectuar la ecuación de regresión y comente la nueva ecuación.
h. Compare las varianzas residuales con los valores ajustados de la ecuación final de
regresión desarrollada en el inciso (f) y con los valores correspondientes de Y. Trace
las varianzas residuales en el eje vertical y los valores ajustados en el eje horizontal.
31. Consulte los datos Wage, que reportan información sobre los salarios anuales para una
muestra de 100 empleados. También se incluyen variables relacionadas con la industria, los
años de educación y el género de cada empleado. Determine la ecuación de regresión uti-
lizando el salario anual como la variable dependiente y los años de educación, el género, los
años de experiencia laboral, la edad en años y el hecho de que el empleado sea o no miem-
bro del sindicato.
a. Escriba la ecuación de regresión. Comente cada una de las variables.
2
b. Determine el valor de R . Interprételo.
c. Desarrolle una matriz de correlación. ¿Qué variables independientes presentan corre-
laciones fuertes o débiles con respecto a la variable dependiente? ¿Observa algún
problema con la multicolinearidad?
d. Realice la prueba global en el conjunto de variables independientes. Interprétela. ¿Es
razonable continuar con el análisis o debe detenerlo?
e. Realice una prueba de hipótesis en cada una de las variables independientes. ¿Con
sideraría la posibilidad de eliminar alguna de las variables? De ser así» ¿cuál eliminaría?
f. Vuelva a efectuar el análisis eliminando cada una de las variables independientes que
no son importantes. Elimine cada una de las variables a la vez.
g. Desarrolle un histograma o un diagrama de tallo y hojas de las varianzas residuales de
la ecuación final de regresión desarrollada en el inciso (f). ¿Podemos llegar a la con
clusión de que se cumplió la suposición de normalidad?
h. Trace las varianzas residuales contra los valores correspondientes de la ecuación final
de regresión, Trace las varianzas residuales en el eje vertical y los valores correspon-
dientes en el eje horizontal.
32. Consulte los datos CÍA, que proporcionan la información demográfica y económica de 46 paí-
ses. Suponga que el desempleo es la variable dependiente y que el porcentaje de la población
mayor de 65 años, las expectativas de vida y el alfabetismo son las variables independientes.
a. Determine la ecuación de regresión utilizando un paquete de software. Escriba la
ecuación de regresión.
b. ¿Cuál es el valor del coeficiente de determinación?
c. Revise las variables independientes para la multicolinearidad.
d. Realice una prueba global con el conjunto de variables independientes.
e. Pruebe cada una de las variables independientes para determinar si son diferentes de cero.
f. ¿Usted eliminaría alguna de las variables independientes? De ser así, vuelva a efectuar
el análisis de regresión y reporte la nueva ecuación.
g. Elabore un histograma de las varianzas residuales de su ecuación final de regresión.
¿Se puede concluir que ias varianzas residuales siguen una distribución normal?
h. Compare las varianzas residuales con los valores ajustados y revise. ¿Existe algún
problema?
Comandos de software
1. Los comandos de MINITAB para la pantalla de regre-
sión múltiple de la página 478 son los siguientes:
a. Importe la información del CD. El nombre del archi-
vo es Tbt14-1.
b. Seleccione Stat, Regression y haga clic en
Regression.
c. Seleccione Cost como la variable Response, y
Temp, Insulation y Age como los Predictors, luego
haga clic en OK.
516 Capítulo 14
Glosario
Capítulo 13 cionó la muestra es cero? La estadística de la prueba es í, y el
número de grados de libertad es n - 2.
Análisis de correlación Grupo de técnicas estadísticas uti-
lizadas para medir la fuerza de relación entre dos variables.
Coeficiente de correlación Medida de la fuerza de aso-
ciación entre dos variables. Éste se calcula a partir de:
Capitulo 14
Autocorrelación Correlación de varianzas residuales suce-
sivas. Por lo general, esta condición se presenta cuando se
Coeficiente de determinación Proporción de la variación involucra al tiempo en el análisis.
total de la variable dependiente que se explica a partir de la Ecuación de regresión múltiple Relación en la forma de
variable independiente. Éste puede asumir cualquier valor una ecuación matemática entre diferentes variables inde-
entre 0 y +1.00 inclusive. Un coeficiente de 0.82 indica que pendientes y una variable dependiente. La forma general es
82% de la variación de Y se debe a X. Este coeficiente se Ésta se utiliza
calcula a partir de la elevación al cuadrado del coeficiente de para
correlación, r. calcular los valores de X y los valores de Y seleccionados y
Diagrama de dispersión Gráfica que representa visual- las variables independientes k.
mente la relación entre dos variables. Homoscedasticidad El error estándar del estimado es el
Ecuación de regresión lineal Ecuación matemática que mismo para todos los valores correspondientes de la varia-
define la relación entre dos variables. Ésta tiene la forma de ble dependiente.
Se utiliza para predecir Y con base en un valor Matriz de correlación Listado de todos los coeficientes
seleccionado de X. Y es la variable dependiente y X es la simples posibles de correlación. Una matriz de correlación
variable independiente. incluye las correlaciones entre cada una de las variables in-
Error estándar del estimado Mide la dispersión de los valo- dependientes y la variable dependiente, así como las corre-
res reales de Ven relación con la línea de regresión. Éste se laciones entre todas las variables independientes.
reporta en las mismas unidades utilizadas por la variable Multicolinearidad Condición que se presenta en el análisis
dependiente. de regresión múltiple si las variables independientes se
Método de mínimos cuadrados Técnica utilizada para lle- correlacionan entre sí.
gar a la ecuación de regresión al minimizar la suma de los Residual Diferencia entre el valor real de la variable depen-
cuadrados de las distancias verticales entre los valores rea- diente y el valor calculado de la variable dependiente, es
les de V y los valores proyectados de Y. decir
Prueba de significancia de r Fórmula para responder la Variables cualitativas Variable de escala nominal que
pregunta: ¿La correlación de la población de la que se selec- puede asumir sólo uno de dos resultados posibles. Por ejem-
plo, una persona es considerada empleada o desempleada.
Revisión de los capítulos 13 y 14 519
Ejercicios
Parte I. Opción múltiple
Casos
Consulte los datos Wage que proporcionan la información sobre los salarios anuales para
una muestra de 100 trabajadores. También se incluyen variables relacionadas con la
industria, años de educación y género de cada trabajador. Desarrolle una tabla donde se
indique la industria del empleo por género. En el nivel de significancia 0.05, ¿es razonable
llegar a la conclusión de que la industria del empleo y el género se relacionan? (Vea la Meta
3 y el Ejercicio 33.)
Métodos no paramétricos: aplicaciones de ji cuadrada 52
Introducción
En los Capítulos del 9 al 12, analizamos datos de la escala de intervalo o de por lo menos,
como el peso de las barras de acero, el ingreso de las minorías y los años de empleo.
Realizamos pruebas de hipótesis respecto a una sola media de población, dos medias de
población y tres o más medias de población. Para estas pruebas, suponemos que las
poblaciones siguen la distribución normal. Sin embargo, existen pruebas en las que no se
necesita una suposición en cuanto a la forma de la población. Asimismo, hay pruebas exclu-
sivas para los datos de la escala de medida nominal. Del Capítulo 1, recuerde que los datos
nominales son los "más bajos" o más primitivos. Para este tipo de medida, los datos se
clasifican en categorías en las que no existe un orden natural. Los ejemplos incluyen el
género de los representantes del Congreso, el estado donde nacieron los estudiantes o la
marca de crema de maní que se compró. En este capítulo presentamos una nueva prueba
estadística, la estadística de ji cuadrada, que podemos usar para los datos que se miden
con una escala nominal.
¿Qué sucede con el nivel de medida en este problema? Observe que cuando se vende
una tarjeta, la "medida" de la tarjeta se basa en el nombre del jugador. No hay un orden
natural para los jugadores. Ningún jugador es mejor que el otro. Por tanto, se utiliza una
escala nominal para evaluar cada observación.
Como en la muestra hay 120 tarjetas, esperamos que (fe) sea de 20 tarjetas, es decir,
la frecuencia esperada fe, caiga en cada una de las seis categorías (Tabla 15-2). Estas cat-
egorías se llaman celdas. Un estudio de la serie de frecuencias observadas en la Tabla 15-
1 indica que la tarjeta de Goerge Brett no se vende con frecuencia, mientras que las de
Hank Aaron y Nolan Ryan se venden más a menudo. ¿La diferencia en las ventas se debe
a una casualidad o podemos llegar a la conclusión de que existe una preferencia en las tar-
jetas de ciertos jugadores?
TABLA 15-2 Frecuencias observadas y esperadas para las 120 tarjetas vendidas
es el número de categorías.
es una frecuencia observada en una categoría particular.
es una frecuencia esperada en una categoría particular.
GRÁFICA 15-1 Distribución de probabilidad de ji cuadrada para 5 grados de libertad, donde se muestra la
región de rechazo, con un nivel de significancia 0.05
La regla de decisión indica que si existen diferencias importantes entre las fre-
2
cuencias observada y esperada, que resultan de una χ calculada de más de
11.070, se debe rechazar la hipótesis nula. Sin embargo, si las diferencias
2
entre fo y fe son pequeñas, el valor χ calculado será de 11.070 o menor, y se
debe aceptar la hipótesis nula. El razonamiento es que esas pequeñas diferen-
cias entre las frecuencias observada y esperada quizá se deban a la casuali-
dad. Recuerde que las 120 observaciones son una muestra de la población. :
Calcular el valor de ji cuadrada y tomar una decisión. De las 120 tarjetas
vendidas en la muestra, contamos el número de veces que se vendieron Tom
Seaver, Nolan Ryan y cada uno de los demás jugadores. La Tabla 15-1 mues-
tra el conteo. A continuación se presentan los cálculos de ji cuadrada. (Obser-
ve de nuevo que las frecuencias esperadas son las mismas para cada celda.)
526 Capítulo 15
2
La χ calculada es de 34.40 y está en la región de rechazo más allá del
valor crítico de 11.070. Por tanto, la decisión es rechazar H0 con un nivel 0.05
y aceptar H1 La diferencia entre las frecuencias observada y esperada no se
debe a la casualidad. Más bien, las diferencias entre f y f son lo bastante
grandes para considerarse significativas. La casualidad de que estas diferen-
cias se deban al error de muestreo es muy pequeña. Así pues, llegamos a la
conclusión de que no es probable que las ventas de las tarjetas sean iguales
entre los seis jugadores.
1. Los valores de ji cuadrada nunca son negativos. Esto se debe a que la diferencia
2
entre fo y fe es cuadrada, es decir, (fo - fe) .
2. Existe una familia de distribuciones de ji cuadrada. Hay una distribución de ji
cuadrada para un grado de libertad, otra para 2 grados de libertad, otra para 3 grados
de libertad y así sucesivamente. En este tipo de problema, el número de grados de
libertad se determina con k - 1, donde k es el número de categorías. Por lo tanto, la
forma de la distribución de ji cuadrada no depende del tamaño de la muestra, sino del
número de categorías empleadas. Por ejemplo, si se clasificaron 200 empleados de
una línea aérea en una de tres categorías, personal de vuelo, personal de tierra y per-
sonal administrativo, habría k- 1 = 3 - 1 =2 grados de libertad.
3. La distribución de ji cuadrada tiene un sesgo positivo. Sin embargo, conforme el
número de grados de libertad aumenta, la distribución se empieza a aproximar a la dis-
tribución normal. La Gráfica 15-2 muestra las distribuciones de los grados de libertad
seleccionados. Observe que, para 10 grados de libertad, la curva se aproxima a una
distribución normal.
2
La forma de la distribución χ
se aproxima a la distribución
normal conforme gl se
incrementa.
Autoevaluación 15-1 La directora de recursos humanos de Georgetown Paper Inc., está preocupada por el ausen-
tismo entre los trabajadores por hora. Decide hacer una muestra de los registros a fin de
determinar si el ausentismo se distribuye de manera uniforme entre la semana laboral de seis
días. La hipótesis nula que se va a probar es: El ausentismo se distribuye de manera uniforme
durante la semana. Los resultados de la muestra son:
Ejercicios
1. En una prueba de bondad de ajuste de ji cuadrada particular, existen cuatro categorías y
200 observaciones. Utilice un nivel de significancia 0.05.
a. ¿Cuántos grados de libertad existen?
b. ¿Cuál es el valor crítico de ji cuadrada?
2. En una prueba de bondad de ajuste de ji cuadrada particular, existen seis categorías y 500
observaciones. Utilice un nivel de significancia 0.01.
a. ¿Cuántos grados de libertad existen?
b. ¿Cuál es el valor crítico de ji cuadrada?
3. La hipótesis nula y la alternativa son:
H0. Las categorías de las celdas son iguales. H1
Las categorías de las celdas no son iguales.
6. Classic Golf Inc. administra cinco cursos en el área de Jacksonville, Florida. El director
quiere estudiar el número de rondas de golf que se juegan por día de la semana en los cinco
cursos, por lo que reunió la siguiente información de muestra.
Con un nivel de significancia 0.05, ¿existe una diferencia en el número de rondas jugadas
por día de la semana?
7. Un grupo de compradores en tiendas departamentales vio una nueva línea de vestidos y
opinó al respecto. Los resultados fueron:
Como el número más grande (47) indicó que la nueva línea es sobresaliente, el jefe de diseño
piensa que ésta es una razón para iniciar la producción masiva de los vestidos. El jefe de
barredoras (que de alguna manera se involucró en esto) cree que no existe una razón clara y
afirma que las opiniones se distribuyen de manera uniforme entre las seis categorías. Además,
dice que las leves diferencias entre las cuentas podrían deberse a la casualidad. Pruebe que
en la hipótesis nula no existe una diferencia significativa entre las opiniones de los
compradores. Pruebe al nivel de significancia 0.01. Siga un planteamiento formal, es decir,
establezca la hipótesis nula, la hipótesis alternativa y así sucesivamente. 8. El director de
seguridad de Honda USA tomó muestras aleatorias del archivo de accidentes menores
relacionados con el trabajo y las clasificó conforme al momento en que ocurrió el accidente.
TABLA 15-4 Resumen del estudio de AHAA y una encuesta entre los residentes de Bartow Estates
2
El valor calculado de χ (1.3723) se encuentra a la izquierda de 7.815. Por tanto, no
podemos rechazar la hipótesis nula. Llegamos a la conclusión de que no existe evidencia de
una diferencia entre la experiencia local y nacional respecto a las admisiones en un hospital.
Limitaciones de ji cuadrada
2
Tenga cuidado al aplicar χ en Si en una celda existe una pequeña frecuencia esperada inusual, ji cuadrada (si se aplica)
algunos problemas. podría dar como resultado una conclusión equivocada. Lo anterior puede suceder porque f0
aparece en el denominador y, al dividirlo entre un número muy pequeño, ¡el cociente
aumenta mucho! Por lo general, dos reglas aceptadas respecto a pequeñas frecuencias de
celdas son:
1. Si sólo existen dos celdas, la frecuencia esperada en cada celda debe ser de 5 o más.
El cálculo de ji cuadrada sería permisible en el siguiente problema, que implica una f
mínima de 6.
2. Si se espera que más de 20% de las celdas f 0 tengan frecuencias esperadas menores
a 5, no se debe usar ji cuadrada para más de dos celdas. Según esta regla, no sería
conveniente usar la prueba de bondad de ajuste en los siguientes datos. Tres de las
siete celdas, o 43%, tienen frecuencias esperadas (fe) menores a 5.
532 Capítulo 15
Para esta prueba, con un nivel de significancia 0.05, H0 se rechaza si el valor calcula-
do de ji cuadrada es mayor a 12.592. El valor calculado es 14.01, por lo que rechazamos
la hipótesis nula de que las frecuencias observadas representan una muestra aleatoria de la
población de los valores esperados. Estudie el resultado de MegaStat. Más de 98% del
valor calculado de ji cuadrada responde a las tres categorías de vicepresidente ([4.500 +
0.250 + 9.000]/14.008 = 0.9815). Como es lógico, a estas categorías se les pondera en
exceso.
El dilema se puede resolver combinando las categorías, si es que tiene lógica hacerlo.
En el ejemplo anterior, combinamos las tres categorías vicepresidenciales, lo cual satisface
la regla del 20%.
El valor calculado de ji cuadrada con las categorías revisadas es 7.26. Vea el siguiente
resultado. Este valor es menor al valor crítico de 9.488 para un nivel de significancia 0.05.
Por tanto, la hipótesis nula se acepta con un nivel de significancia 0.05. Lo anterior indica
que no hay evidencia de una diferencia significativa entre la distribución observada y la dis-
tribución esperada.
Métodos no paramétricos: aplicaciones de ji cuadrada 533
Autoevaluacíón 15-2 La American Accounting Association clasifica las cuentas por cobrar como "actuales", "atra-
sadas" e "irrecuperables". Las cifras industriales muestran que 60% de las cuentas por cobrar
son actuales, 30% están atrasadas y 10% son irrecuperables. Massa y Barr, un despacho de
abogados en Greenville, Ohio, tiene 500 cuentas por cobrar; 320 son actuales, 120 están
atrasadas y 60 son irrecuperables. ¿Estas cifras concuerdan con la distribución de la indus-
tria? Utilice un nivel de significancia 0.05.
Ejercicios
9. Se presentan las siguientes hipótesis:
11. El departamento de tarjetas de crédito bancarias de Carolina Bank sabe por experiencia que
5% de los tarjetahabientes tienen cierto nivel de estudios universitarios y que 55% terminó
la universidad. De los 500 tarjetahabientes a quienes se les llamó por no pagar sus cargos
en el mes, 50 tenían ciertos estudios de preparatoria, 100 terminaron la preparatoria, 190
tenían ciertos estudios universitarios y 160 terminaron la universidad. ¿Podemos llegar a la
conclusión de que la distribución de los tarjetahabientes que no pagan sus cargos es
diferente a los demás? Utilice el nivel de significancia 0.01.
12. Durante muchos años, ejecutivos de televisión utilizaron el lineamiento de que 30% del
público veía cada una de las cadenas televisivas de mayor audiencia y 10% veía canales de
televisión por cable durante una noche entre semana. El pasado lunes por la noche, una
muestra aleatoria de 500 televidentes en el área de Tampa-St. Petersburg, Florida, reveló
que 165 hogares sintonizaron la filial de ABC, 140 la filial de CBS, 125 la filial de NBC y el
resto vio un canal de televisión por cable. En el nivel de significancia 0.05, ¿podemos llegar
a la conclusión de que el lineamiento sigue siendo razonable?
• Ford Motor Company opera una planta de ensamble en Dearborn, Michigan. La planta
opera tres turnos al día, 5 días a la semana. El gerente de control de calidad quiere
comparar el nivel de calidad en los tres turnos. Los vehículos se clasifican por el nivel
de calidad (aceptable, inaceptable) y el turno (mañana, tarde, noche). ¿Existe una dife-
rencia en el nivel de calidad de los tres tumos? Es decir, ¿la calidad del producto se
relaciona con el turno en el que se fabricó? O, ¿la calidad del producto es independi-
ente del turno en el que se fabricó?
• Una muestra de 100 conductores detenidos por violar los límites de seguridad se clasi-
ficaron por género y si llevaban puesto el cinturón de seguridad o no. Para esta mues-
tra, ¿el uso del cinturón de seguridad se relaciona con el género?
• ¿Un hombre que sale libre de una prisión federal provoca un ajuste diferente en la vida
civil si regresa a su ciudad natal o si se va a vivir a otra parte? Las dos variables son
un ajuste a la vida civil y el lugar de residencia. Observe que ambas variables se miden
en la escala nominal.
La Federal Correction Agency investiga la pregunta antes mencionada: ¿un hombre que
sale libre de una prisión federal provoca un ajuste diferente en su vida civil si regresa a su
ciudad natal o se va a vivir a otra parte? En otras palabras, ¿existe una relación entre el
ajuste a su vida civil y el lugar de residencia después de salir de prisión?
Métodos no paramétricos: aplicaciones de ji cuadrada 535
Al igual que antes, el primer paso en la prueba de hipótesis es establecer las hipótesis
nula y alternativa.
No existe una relación entre el ajuste a su vida civil y el lugar donde vive el individuo
después de salir de prisión.
Existe una relación entre el ajuste a su vida civil y el lugar donde vive el individuo
después de salir de prisión.
La tabla de contingencias Se sumaron las marcas de cada recuadro, o celda. Éstas se presentan en la tabla de
consiste en datos ordenados. contingencia a continuación. (Véase la Tabla 15-5.) En este caso, a la Federal Correction
Agency le interesa determinar si el ajuste a la vida civil es contingente respecto al lugar
donde vaya el prisionero al ponerlo en libertad.
En cuanto sepamos cuántos renglones (2) y columnas (4) hay en la tabla de contin-
gencia, podemos determinar el valor crítico y la regla de decisión. Para la prueba de signif-
icancia de ji cuadrada donde dos rasgos se clasifican en una tabla de contingencia, los
grados de libertad se obtienen por medio de:
En este problema:
Para encontrar el valor crítico para 3 grados de libertad y un nivel de significancia 0.01
(seleccionado con anterioridad), consulte el Apéndice B. Es 11.345. Si el valor calculado de
2
χ es mayor a 11.345, la regla de decisión es rechazar la hipótesis nula. Esta regla se repre-
senta en la Gráfica 15-4.
536 Capítulo 15
2
Después, encontramos el valor calculado de χ . Las frecuencias observadas f0, se
muestran en la Tabla 15-5. ¿Cómo se determinan las frecuencias esperadas, fe, corres-
pondientes? Observe en la columna "Total" de la Tabla 15-5 que 120 de los 200 expri-
sioneros (60%) regresaron a su ciudad natal. De no haber relación entre el ajuste y la
residencia después de salir de prisión, esperaríamos que 60% de los 40 exprisioneros que
obtuvieron un ajuste sobresaliente a la vida civil regresaran a vivir a su ciudad natal. Por
tanto, la frecuencia esperada fe para la celda superior izquierda es 0.60 x 40 = 24. De igual
modo, si no hubiera una relación entre el ajuste y la residencia actual, esperaríamos que
60% de los 50 exprisioneros (30) que obtuvieron un ajuste "bueno" a la vida civil vivieran en
su ciudad natal.
Más aún, observe que 80 de los 200 exprisioneros estudiados (40%) no regresaron a
vivir a su ciudad natal. Por consiguiente, 60 que los psicólogos consideraron tener un ajuste
"regular" a la vida civil, 0.40 x 60, o 24, se esperaría que no regresaran a su ciudad natal.
La frecuencia esperada para cualquier celda se puede determinar mediante
Las frecuencias observadas, f0, y las frecuencias esperadas, fe, para todas las celdas en la
tabla de contingencia se presentan en la Tabla 15-6.
Autoevaluación 15-3 Un científico social seleccionó una muestra de 140 personas y las clasificó de acuerdo con el
nivel de ingreso y si jugaron o no en la lotería estatal durante el último mes. La información
de la muestra se presenta a continuación. ¿Es razonable llegar a la conclusión de que jugar
a la lotería se relaciona con el nivel de ingresos? Utilice un nivel de significancia 0.05.
538 Capítulo 15
Ejercicios
13. La directora de publicidad del Carolina Sun Times, el periódico más importante en Carolina
del Norte y Carolina del Sur, estudia la relación entre el tipo de comunidad en la que vive un
suscriptor y la sección del periódico que lee primero, por lo que recopiló la información que
se presenta a continuación para una muestra de lectores.
Con un nivel de significancia 0.05, ¿podemos llegar a la conclusión de que existe una relación
entre el tipo de comunidad donde vive la persona y la sección del periódico que lee primero? 14.
Cuatro marcas de focos se van a poner a prueba para su uso en el área de ensamblaje final de la
planta Saturn en Spring Hill, Tennessee. El director de compras pidió 100 muestras de cada
fabricante. A continuación se presentan el número de focos aceptables y no aceptables de
cada fabricante. Con un nivel de significancia 0.05, ¿existe una diferencia en la calidad de los
focos?
15. El Departamento de Control de Calidad de Food Town, Inc., una cadena de supermercados
en la región norte del estado de Nueva York, lleva a cabo una revisión mensual sobre la
comparación de precios registrados con los precios anunciados. La siguiente tabla presenta
el resumen de los resultados de una muestra de 500 artículos el mes pasado. La gerencia
de la compañía quiere saber si existe alguna relación entre las tasas de error en los
artículos con precio regular y los artículos con precios especiales. Use el nivel de signifi-
cancia 0.01.
Métodos no paramétricos: aplicaciones de ji cuadrada 539
16. Durante los últimos años, el uso de teléfonos celulares en automóviles aumentó de manera
considerable. El interés de los expertos en tránsito, así como de los fabricantes de teléfonos
celulares, es el efecto que tienen en los índices de accidentes. ¿Es más probable que quien
usa un teléfono celular se vea involucrado en un accidente de tránsito? ¿Cuál es su con-
clusión respecto a la siguiente información de la muestra? Use el nivel de significancia 0.05.
III. Se utiliza una tabla de contingencias para probar si dos rasgos o características están rela-
cionados.
A. Cada observación se clasifica de acuerdo con dos rasgos.
B. La frecuencia esperada se determina de la siguiente amnera:
Clave de pronunciación
doscientos vehículos con los siguientes resultados. ¿Podemos llegar a la conclusión de que
el ingeniero de tráfico está en lo correcto? Use el nivel de significancia 0.10.
18. El editor de una revista deportiva piensa ofrecer a los nuevos suscriptores uno de tres rega-
los: una sudadera con el logotipo de su equipo favorito, una taza con el logotipo de su equipo
favorito o un par de aretes, también con el logotipo de su equipo favorito. En una muestra
de 500 nuevos suscriptores, el número que elige cada regalo se presenta a continuación.
Con un nivel de significancia 0.05, ¿existe una preferencia por los regalos o debemos llegar
a la conclusión de que el gusto por los regalos es igual?
19. En un mercado particular, existen tres estaciones de televisión comerciales, cada una con
su propio noticiario de 6:00 a 6:30 p.m. Según un informe de este periódico local matutino,
una muestra aleatoria de 150 televidentes reveló que anoche 53 vieron las noticias en
WNAE (canal 5), 64 en WRRN (canal 11) y 33 en WSPD (canal 13). Con un nivel de signifi-
cancia 0.05, ¿existe una diferencia en la proporción de televidentes que ve los tres canales?
20. El Governmerrt Center Building en el centro de Filadeifia tiene cuatro entradas. Al supervi-
sor de mantenimiento del edificio te gustaría saber si las entradas se utilizan de manera
equitativa. Para investigar, se observó a 400 personas entrando al edificio. A continuación
presentamos el número que usó cada entrada. Con un nivel de significancia 0.01, ¿existe
una diferencia en el uso de las cuatro entradas?
21. A la propietaria de un negocio de ventas por catálogo le gustaría comparar sus ventas con
la distribución geográfica de la población. Según el Bureau of the Census de Estados
Unidos, 21% de la población vive en el noreste, 24% en el medio oeste, 35% en el sur y 20%
en el oeste. A continuación se presenta un desglose de una muestra de 400 pedidos elegi-
dos de manera aleatoria en comparación con los enviados el mes anterior. Con un nivel de
significancia 0.01, ¿la distribución de los pedidos refleja la población?
22. Banner Mattress and Fumiture Company quiere estudiar el número de solicitudes de crédito
que recibieron por día durante los últimos 300 días. La información se presenta en la
siguiente página.
Métodos no paramétricos: aplicaciones de ji cuadrada 541
Para interpretar, hubo 10 días en los que no se recibieron solicitudes de crédito, 77 días en
tes que solo se recibió una solicitud, y así sucesivamente, ¿Sería razonable llegar a la con-
clusión de qué la población tiene una distribución dé Poisson con una media de 2.0? Utilice
el valor de significancia 0.05. Sugerencia: Para encontrar las frecuencias esperadas, use (a
distribución dé Poisson con una media de 2,0. Encuentre la probabilidad de exactamente un
logro asignado a una distribución de Poisson con una media de 2.0. Multiplique esta proba-
bilidad por 300 a fin de encontrar la frecuencia esperada para el número de días en los que
exactamente hubo una solicitud. Determine de manera similar la frecuencia esperada para
los demás días
23. A principios de la década de 2000, la Deep Down Mining Company implemento nuevos
lineamientos de seguridad. Antes de dichos lineamientos, la administración esperaba qué
no hubiera accidentes en 40% de los meses, un accidente en 30% de tos meses, dos
accidentes en 20% de los meses y tres accidentes en 10% de los meses. Durante los
últimos 10 años, o 120 meses, no hubo accidentes en 46 meses, hubo un accidente en 40
meses, hubo dos accidentes en 22 meses y 3 accidentes en 12 meses. Con un nivel de
significancia 0.05, ¿la administración de Deep Down puede llegar a la conclusión de que
existe un cambio en la distribución mensual de accidentes?
24 Un estudio reciente que diseñó un minorista grande para determinar si había una relación
entre te importancia que un gerente de tienda le dio a la publicidad y el tamaño de la tienda,
reveló la siguiente información de muestra.
Use el nivel de significancia 0.01 para determinar si existe una relación entre el nivel gerencial y
el interés en el ambiente.
26. Un estudio sobre la relación entre la edad y la presión que siente el personal de ventas por
su trabajo, reveló la siguiente información de muestra, Con un nivel de significancia O.01,
¿existe una relación entre la presión laboral y la edad?
542 Capítulo 15
27. El departamento de reclamaciones en Wise Insurance Company cree que los conductores
jóvenes tienen más accidentes y, por tanto, se les debe cobrar una prima más alta. La inves-
tigación de una muestra de 1 200 asegurados de Wise reveló el siguiente análisis respecto
a si se registró una reclamación en los últimos tres años y la edad del asegurado. ¿Es
razonable llegar a la conclusión de que existe una relación entre la edad del asegurado y si
la persona hizo o no una reclamación? Use el nivel de significancia 0.05.
28. A una muestra de empleados en una planta química grande se le pidió que indicara su prefe-
rencia por uno de los tres planes de pensión. Los resultados se presentan en la tabla a con-
tinuación. ¿Parece haber una relación entre el plan de pensión seleccionado y la clasificación
del trabajo de los empleados? Use el nivel de significancia 0.01.
exercises.com
29. ¿Alguna vez ha comprado una bolsa de dulces M&M y se ha preguntado cómo distribuyen
los colores? Visite el sitio Web www.baking.m-ms.com y haga c//cen el mapa de Estados
Unidos, en About M&M's, luego en History, Products y Peanut y encuentre el análisis por-
centual según el fabricante, así como una breve historia del producto. ¿Sabía que al princi-
pio todas las grageas eran de color café? De las grageas M&M con maní, 20% son azules,
20% cafés, 20% amarillos, 20% rojos, 10% verdes y 10% naranja. Una bolsa de 6 onzas que
se compró en la librería de Coastal Carolina University el 7 de marzo de 2003, tenía 13
azules, 17 cafés, 20 amarillos, 7 rojos, 9 anaranjados y 6 verdes. ¿Es razonable llegar a la
conclusión de que la distribución real concuerda con la distribución esperada? Use un nivel
de significancia de 0.05. Haga su propia prueba. No olvide compartir los M&M con su pro-
fesor.
Métodos no paramétricos: aplicaciones de ji cuadrada 543
30. Según lo descrito en capítulos anteriores, muchas empresas de bienes raíces y agencias de
arrendamiento ahora publican sus listas en la World Wide Web. Un ejemplo de ello es Dunes
Realty Company, que se encuentra en Garden City, Carolina del Sur y Surfside Beach,
Carolina det Sur. Visite ei sitio Web http://www.dunes.com y haga clic en Beach House
Search, después indique mínimo 5 recámaras, ocupación para por lo menos 14 personas,
con vista al mar y sin alberca o muelle; elija un periodo en marzo; indique que está dispuesto
a gastar hasta $8 000 a la semana, y por último haga clic en Search the Cottages. Ordene
las cabanas que se ofrecen en una tabla de contingencias según el número de baños y si la
renta es menor a $2 000 semanales, o de más de $2 000. Tal vez necesite combinar algu-
nas celdas. Lleve a cabo una prueba estadística para determinar si el número de recámaras
está relacionado con el costo. Use el nivel de significancia 0.05.
Comandos de software
1. Los comandos MegaStat para crear la prueba de bon-
dad de ajuste de ji cuadrada de la página 526 son:
a. Escriba en una hoja de trabajo la información de la
tabla 15-1 como se indica.
b. Seleccione MegaStat, Chi-Square/Crosstabs y
Goodness-of-fit y presione Enter
c. En el cuadro de diálogo, seleccione B2:B7 como
los Observed valúes, C2:C7 como los Expected
valúes y escriba 0 como el Number of parameters
estimated from the data. Haga clic en OK.
Los obreros de Computer Associates sólo arman una o dos piezas de subensamblaje y las
insertan en los "marcos" en sus estaciones individuales. Los ejecutivos de CA piensan que
los empleados tendrían la moral más alta si se les asignara la tarea de armar todos los
componentes y luego probar las computadoras terminadas. Se seleccionó una muestra de 25
empleados para experimentar y probar el nuevo proceso. Después de un programa de
capacitación, a cada uno se le preguntó qué prefería. Veinte dijeron que preferían el nuevo
sistema de ensamblaje completo. Con un nivel de significancia 0.05, utilice la prueba del
signo para tomar una decisión acerca de las preferencias de los empleados. (Vea la Meta 1 y
el Ejercicio 8.)
Métodos no paramétricos: análisis de datos ordenados 547
Introducción
El Capítulo 15 presentó las pruebas de hipótesis para variables de escala nominal. Recuer-
de que en el Capítulo 1 estudiamos que el nivel nominal de medición implica que los datos
sólo se pueden clasificar en categorías, y no hay un orden en particular para las categorías.
El propósito de estas pruebas es determinar si un conjunto de frecuencias observadas, fo, es
significativamente diferente de un conjunto correspondiente de frecuencias esperadas, fg. De
modo similar, si le interesa la relación entre dos características (como la edad de un indivi-
duo y sus preferencias musicales), deberá ordenar los datos en una tabla de contingencias
y usar la distribución de ji cuadrada como el estadístico de prueba. Para estos dos tipos de
problemas, no es necesario hacer ninguna suposición en cuanto a la forma de la población.
Por ejemplo, no tenemos que suponer que la población de interés sigue la distribución nor-
mal, como se hizo con las pruebas de hipótesis en los Capítulos 10 a 12.
Este capítulo es una continuación de las pruebas de hipótesis diseñadas de manera es-
pecial para los datos no paramétricos. Sin embargo, en lugar de aplicarse a los datos no-
minales, estas pruebas requieren que las respuestas estén por lo menos en el nivel ordinal.
Es decir, las respuestas se pueden clasificar del nivel bajo al alto. Un ejemplo de clasificación
es el título de ejecutivo. Los ejecutivos se clasifican como asistente de la vicepresidencia,
vicepresidente, vicepresidente senior y presidente. Un vicepresidente tiene un nivel más al-
to que un asistente de vicepresidente, un vicepresidente senior tiene un nivel más alto que
un vicepresidente, y así sucesivamente.
En este capítulo, consideramos cinco pruebas sin distribución y el coeficiente de corre-
lación de rango de Spearman. Las pruebas son: la prueba del signo, la prueba de la media-
na, la prueba de rangos con signo de Wilcoxon, prueba de suma de rangos de Wilcoxon y
el análisis de la varianza por rangos de Kruskal-Wallis.
Nos interesa saber si el programa de capacitación en planta resultó efectivo para au-
mentar la competencia de los gerentes al utilizar la base de datos de la empresa. Es decir,
¿los gerentes son más competentes después del programa de capacitación que antes?
Autoevaluación 16-1 Recuerde que el ejemplo de Taster's Choice que describimos en la página 547 comprende
una prueba entre los consumidores para determinar la preferencia por el café descafeinado
en comparación con el regular. Las hipótesis nula y alternativa son:
Ejercicios
1. Se da la siguiente situación de prueba de hipótesis: El nivel de
significancia es 0.10 y el tamaño de la muestra es 12.
a. ¿Cuál es la regla de decisión?
b. Se presentaron nueve éxitos. ¿Cuál es su decisión acerca de la hipótesis nula? Explique
su respuesta.
2. Se da la siguiente situación de prueba de hipótesis: El nivel de
significancia es 0.05 y el tamaño de la muestra es 9.
a. ¿Cuál es la regla de decisión?
b. Se obtuvieron cinco éxitos. ¿Cuál es su decisión acerca de la hipótesis nula?
3. Calorie Watchers tiene desayunos, comidas y cenas bajas en calorías. Si usted se une al
club, recibe dos comidas empacadas al día. CW afirma que puede comer todo lo que quie-
ra para la tercera comida y bajará por lo menos cinco libras durante el primer mes. Los
miembros del club se pesan antes de iniciar el programa y una vez más al final del primer
mes. Las experiencias de una muestra aleatoria de 11 participantes son:
Nos interesa saber si las personas han bajado de peso como resultado del programa de Ca-
lorie Watchers.
a. Formule H0 y H1
b. Utilizando el nivel de significancia 0.05, ¿cuál es la regla de decisión?
c. ¿Cuál es su conclusión acerca del programa de Calorie Watchers?
4. Muchos corredores de bolsa nuevos se resisten a dar presentaciones a los banqueros y otros
grupos. Al detectar esta falta de confianza en sí mismos, la gerente organizó un seminario de
552 Capítulo 16
motivación para una muestra de corredores de bolsa nuevos y contrató a Career Boosters
para un curso de tres semanas. Antes de la primera sesión, Career Boosters midió el nivel de
confianza de cada participante. Este nivel se volvió a medir después del seminario de tres se-
manas. Los niveles de confianza de antes y después para los 14 participantes en el curso se
muestran a continuación. La confianza se clasificó como negativa, baja, alta o muy alta.
El propósito de este estudio es saber si Career Boosters fue efectivo al aumentar la con-
fianza de los nuevos corredores de bolsa. Es decir, ¿el nivel de confianza en sí mismos es
más alto después del seminario que antes de éste? Utilice el nivel de significancia 0.05.
a. Formule las hipótesis nula y alternativa.
b. Utilizando el nivel de significancia 0.05, establezca la regla de decisión, ya sea con pala-
bras o con una gráfica.
c. Mencione sus conclusiones acerca del seminario que ofreció Career Boosters.
En las fórmulas anteriores, X es el número de signos más (o menos). El valor +0.50 o -0.50
es el factor de corrección de continuidad, que estudiamos en el Capítulo 7. En resumen, se
aplica cuando una distribución continua como la normal (que utilizamos) se usa para apro-
ximarnos a una distribución discreta (la binomial).
El ejemplo siguiente ilustra los detalles de la prueba del signo con una muestra grande.
Métodos no paramétricos: análisis de datos ordenados 553
El valor z calculado de 2.38 llega más allá del valor crítico de 1.96. Por tanto,
la hipótesis nula de ninguna diferencia se rechaza con un nivel de significan-
cia 0.05. Hay evidencias de una diferencia en las preferencias de los consu-
midores. Es decir, llegamos a la conclusión de que los consumidores
prefieren un refresco de cola al otro.
El valor ρ es la probabilidad de encontrar un valor z mayor a 2.38 o me-
nor a -2.38. A partir del Apéndice D, la probabilidad de encontrar un valor z
mayor a 2.38 es 0.5000 - 0.4913 = 0.0087. Por tanto, el valor ρ de dos colas
es 0.0174. De modo que la probabilidad de obtener un estadístico de mues-
tra tan extrema cuando la hipótesis nula es verdadera es menor a 2%.
Autoevaluación 16-2 El primer día del año, el departamento de recursos humanos en una planta de ensamblaje au-
tomotriz empezó un programa de supervisión de la presión sanguínea y educación para los
100 empleados en el departamento de pintura. Como seguimiento, en julio, los mismos 100
empleados se sometieron a un examen de la presión sanguínea y 80 de ellos mostraron una
reducción. ¿Podemos llegar a la conclusión de que la supervisión fue efectiva para reducir las
lecturas de la presión sanguínea?
(a) Formule las hipótesis nula y alternativa.
(b) ¿Cuál es la regla de decisión para un nivel de significancia 0.05?
554 Capítulo 16
Un estudio realizado hace varios años por el departamento de investigación del consumi-
dor de Superior Grocers descubrió que la cantidad semanal mediana que los matrimonios
jóvenes gastaban en abarrotes era $123. El director ejecutivo quiere repetir la investigación
para determinar si la cantidad mediana gastada ha cambiado. La nueva información de la
muestra del departamento de investigación reveló que, en una muestra aleatoria de 102
Métodos no paramétricos: análisis de datos ordenados 555
Se trata de una prueba de dos colas porque la hipótesis alternativa no indica una dirección.
Es decir, no nos interesa saber si la mediana es menor o mayor que $123, lo importante es
saber si es diferente de $123. El estadístico de prueba cumple con las suposiciones bino-
miales. Es decir:
1. Una observación es más grande o más pequeña que la mediana propuesta, de modo
que sólo hay dos resultados posibles.
2. La probabilidad de un éxito permanece constante en 0.50. Es decir, π= 0.50.
3. Las parejas seleccionadas como parte de la muestra representan intentos independientes.
4. Contamos el número de éxitos en un número fijo de intentos. En este caso, considera-
mos 100 parejas y contamos el número de aquellas que gastan más de $123 en aba-
rrotes a la semana.
La hipótesis nula se rechaza porque el valor calculado de 1.90 es mayor que el valor
crítico de 1.65. La evidencia de la muestra indica que la cantidad media que los matrimo-
nios jóvenes gastan en abarrotes a la semana no es $123. El valor ρ para esta prueba es
0.0574, calculado así: 2(0.5000 - 0.4713).
Autoevaluación 16-3 Después de recibir del Departamento de Investigación del Consumidor los resultados acerca
de la cantidad semanal que las parejas jóvenes gastan en abarrotes, el director ejecutivo de
Superior Grocers se pregunta si la misma afirmación es cierta en cuanto a las parejas de la ter-
cera edad. En este caso, el director ejecutivo quiere que el Departamento de Investigación del
Consumidor investigue si la cantidad mediana que las parejas de la tercera edad gastan en
abarrotes a la semana es mayor a $123. Una muestra de 64 parejas de la tercera edad reveló
que 42 gastan más de $123 en abarrotes a la semana. Utilice el nivel de significancia 0.05.
Ejercicios
9. En , el salario mediano para un quiropráctico en Kansas es $82 400
anuales. Un grupo de recién graduados creen que esta cantidad es muy baja. En una mues-
556 Capítulo 16
tra aleatoria de 205 quiroprácticos graduados recientemente, 170 empezaron con un salario
de más de $82 400 y cinco ganaban un salario de $82 400 exactamente.
a. Formule las hipótesis nula y alternativa.
b. Establezca la regla de decisión. Utilice el nivel de significancia 0.05.
c. Realice los cálculos necesarios e interprete los resultados.
10. Central Airlines afirma que el precio mediano de un boleto de ida y vuelta a Jackson Hole,
Wyoming, es $503. La Association of Travel Agents quiere desmentir esta afirmación, pues
cree que el precio mediano es menor a $503. Para resolver el problema, se seleccionó una
muestra aleatoria de 400 boletos de viaje redondo. De éstos, 160 costaron menos de $503.
Ninguno de los boletos costó exactamente $503. Supongamos que a = 0.50.
a. Formule las hipótesis nula y alternativa.
b. Tome una decisión en cuanto a la controversia.
Fricker's es una cadena de restaurantes familiares que se encuentran sobre todo en el sureste
de Estados Unidos. Ofrecen un menú muy completo, pero su especialidad es el pollo. Hace
poco, Bernie Frick, propietario y fundador, desarrolló un nuevo sabor de especias para la
salsa en la que se cocina el pollo. Antes de reemplazar el sabor actual, quiere realizar algu-
nas pruebas para estar seguro de que a sus clientes les gustará más el sabor de especias.
Métodos no paramétricos: análisis de datos ordenados 557
Para empezar, Bernie selecciona una muestra aleatoria de 15 clientes. A cada cliente
en la muestra se le da una pieza pequeña del pollo con la salsa actual y se le pide que ca-
lifique su sabor en general en una escala de 1 a 20. Un valor cercano a 20 indica que al
participante le gustó el sabor, mientras que una calificación cercana a cero indica que no le
gustó. Después, a los mismos 15 participantes se les da una muestra del pollo nuevo con
el sabor a especias y una vez más se les pide que lo califiquen en una escala de 1 a 20.
Los resultados se reportan a continuación. ¿Sería razonable llegar a la conclusión de que
el sabor a especias es el preferido? Utilice el nivel de significancia 0.05.
Las muestras son dependientes o relacionadas. Es decir, a los participantes se les pide que
califiquen ambos sabores de salsa para el pollo. Por tanto, si calculamos la diferencia en-
tre el marcador a favor del sabor a especias y el del sabor actual, el valor resultante revela
la cantidad de participantes que prefirieron un sabor al otro. Si elegimos restar el marcador
del sabor actual del marcador para el sabor a especias, un resultado positivo es la "canti-
dad" de participantes que prefieren el sabor a especias. Las diferencias negativas en los
marcadores indican que el participante prefiere el sabor actual. Debido a la naturaleza sub-
jetiva de los marcadores, no estamos seguros de que la distribución de las diferencias siga
la normal; por lo que decidimos utilizar la prueba de rangos con signo de Wilcoxon no pa-
ramétrica.
Como de costumbre, vamos a usar el procedimiento de prueba de hipótesis en cinco
pasos. La hipótesis nula es que no hay ninguna diferencia en las calificaciones que los par-
ticipantes dan a los sabores de salsa. Es decir, la misma cantidad de participantes dieron
una calificación alta al sabor actual que al sabor a especias. La hipótesis alternativa es que
las calificaciones son más altas para el sabor a especias. De manera más formal:
Se trata de una prueba de una cola. ¿Por qué? Porque Bernie Frick, el propietario de Fric-
ker's, querrá cambiar el sabor sólo si los participantes de la muestra indican que a la pobla-
ción de clientes le gusta más el nuevo sabor. El nivel de significancia es 0.05, como se
estableció anteriormente.
Los pasos para realizar la prueba de rangos con signo de Wilcoxon son los siguientes.
1. Calcule la diferencia entre las calificaciones que cada participante da al sabor a espe
cias y las que da al sabor actual. Por ejemplo, la calificación que Arquette dio al sabor a
especias fue 14 y al sabor actual fue 12, de modo que la diferencia es 2. Para Jones, la
diferencia es -8, calculada así: 8 - 16, y para Fish, es 4, calculada así: 6-2. Las dife
rencias para todos los participantes se muestran en la columna 4 de la Tabla 16-3.
2. Sólo se consideran las diferencias positivas y negativas. Es decir, si la diferencia en la
calificación es 0, ese participante se reserva para un análisis posterior y se reduce el
número de participantes en la muestra. Según la Tabla 16-3, Hall, el sexto participan
te, calificó ambos sabores con 16. Por tanto, Hall se elimina del estudio y el tamaño útil
de la muestra baja de 15 a 14.
558 Capítulo 16
Los valores críticos para la prueba de rangos con signo de Wilcoxon se localizan en el Apén-
dice H. Una parte de esa tabla se incluye en la página siguiente. La fila a se utiliza para prue-
bas de una cola y la fila 2a para pruebas de dos colas. En este caso, queremos demostrar que
a los clientes les gusta más el sabor a especias, que es una prueba de una cola, de modo que
seleccionamos la fila a. Elegimos el nivel de significancia 0.05, de modo que desplácese hacia
la derecha hasta la columna con el encabezado 0.05. Baje por la columna hasta la fila donde
n es 14. (Recuerde que una persona en el estudio dio la misma calificación a los dos sabores
y la eliminamos de la prueba, por lo que el tamaño útil de la muestra quedó en 14.) El valor en
la intersección es 25, de modo que el valor crítico es 25. La regla de decisión es rechazar la hi-
pótesis nula si el más bajo de los totales de los rangos es 25 o menos. El valor obtenido en el
Métodos no paramétricos: análisis de datos ordenados 559
Apéndice Η es el más alto en la región de rechazo. En este caso, el total de rangos más bajo
es 30, de modo que la decisión es aceptar la hipótesis nula. No podemos llegar a la conclusión
de que existe una diferencia en las calificaciones otorgadas a los sabores entre el actual y el
de especias. El señor Frick no demostró que los clientes prefieran el nuevo sabor.
Autoevaluación 16-4 El área de ensamblaje de Gotrac Products se rediseñó hace poco. La instalación de un nue-
vo sistema de iluminación y la compra de nuevas mesas de trabajo son dos de las caracte-
rísticas del nuevo diseño. El supervisor de producción quiere saber si los cambios dieron
como resultado un aumento en la productividad de los empleados. Para investigar lo anterior,
seleccionó una muestra de 11 trabajadores y determinó su índice de producción antes y des-
pués de los cambios. La información de la muestra se reporta a continuación.
Ejercicios
11. Un psicólogo industrial seleccionó una muestra aleatoria de siete parejas de profesionistas
citadinos jóvenes que viven en la ciudad en casa propia. El tamaño de su casa (en pies cua-
drados) se compara con la casa de sus padres. En el nivel de significancia 0.05, ¿podemos
llegar a la conclusión de que las parejas jóvenes viven en casas más grandes que las de
sus padres?
560 Capítulo 16
12. Suponga que Toyota Motor Corporation estudia el efecto de la gasolina regular en compa-
ración con la de alto octanaje sobre el ahorro de combustible de su nuevo motor V6 de 3.5
litros y alto desempeño. Se seleccionaron 10 ejecutivos y se les pidió que llevaran un regis-
tro del número de millas recorridas por galón de gasolina. Los resultados son:
Con un nivel de significancia 0.05, ¿hay alguna diferencia en el número de millas recorridas
por galón entre la gasolina regular y la de alto octanaje?
13. El señor Mump sugirió un nuevo procedimiento de la línea de ensamblaje para aumentar la
producción. Para probar si el nuevo procedimiento es superior al antiguo, se seleccionó al
azar una muestra de 15 obreros. Primero se determinó su producción con el antiguo siste-
ma y luego se introdujo el procedimiento del señor Mump. Después de un periodo de des-
canso apropiado, su producción se midió otra vez. Los resultados fueron:
Utilizando la prueba de rangos con signo de Wilcoxon, determine si los cambios sugeridos
valen la pena.
Métodos no paramétricos: análisis de datos ordenados 561
donde:
es el número de observaciones de la primera muestra,
es el número de observaciones de la segunda muestra,
es la suma de los rangos de la primera muestra.
Hace poco, Dan Thompson, presidente de CEO Airlines, notó un incremento en el número
de personas que no llegan para los vuelos fuera de Atlanta. Le interesa sobre todo determi-
nar si hay más personas que no llegan para los vuelos que salen de Atlanta, en compara-
ción con los vuelos que salen de Chicago. Una muestra de nueve vuelos de Atlanta y ocho
de Chicago se reporta en la Tabla 16-4. En el nivel de significancia 0.05, ¿podemos llegar a
la conclusión de que hay más personas que no llegan para los vuelos que salen de Atlanta?
TABLA 16-4 Número de personas que no llegaron a los vuelos programados
Si las poblaciones de personas que no llegan siguieran la distribución normal y tuvieran va-
rianzas ¡guales, la prueba t de dos muestras, que estudiamos en el Capítulo 11, sería apro-
piada. En este caso, el señor Thompson cree que estas dos condiciones no se cumplen. Por
tanto, es adecuada una prueba no paramétrica, la prueba de suma de rangos de Wilcoxon.
562 Capítulo 16
TABLA 16-5 Números de rango para las personas que no llegaron a los vuelos programados
En la Tabla 1-5, observe que hay nueve vuelos que se originaron en Atlanta y ocho en
Chicago, de modo que n1 = 9 y n2 = 8. El cálculo de z a partir de la fórmula (16-4) da:
Como el valor z calculado (1.49) es menor a 1.65, la hipótesis nula se acepta. Las eviden-
cias no demuestran una diferencia en el número típico de personas que no llegan. Es de-
Métodos no paramétricos: análisis de datos ordenados 563
cir, al parecer el número de personas que no llegan es igual en Atlanta que en Chicago. El
valor ρ es 0.0681, que se encuentra al determinar el área a la derecha de 1.49 (0.5000 -
0.4319).
El software MegaStat produce los mismos resultados. El valor ρ de MegaStat es
0.0742, que se aproxima al valor que calculamos. La diferencia se debe al redondeo en el
sistema y la corrección de los empates.
Al utilizar la prueba de suma de rangos de Wilcoxon, puede numerar las dos muestras
en cualquier orden. Sin embargo, una vez que hace una elección, Wóebe ser la suma de
los rangos identificados como la muestra 1. Si, en el ejemplo de las personas que no llegan
a los vuelos, la muestra de Chicago se identificara como el número 1, la dirección de la hi-
pótesis alternativa cambiaría, pero el valor absoluto de ζ seguiría siendo el mismo.
La distribución de la población de personas que no llegan es igual o más grande para
Chicago que para Atlanta.
La distribución de la población de personas que no llegan es menor para Chicago
que para Atlanta.
Autoevaluación 16-5 El director de investigación de Top Flite quiere saber si hay una diferencia en la distribución
de las distancias recorridas por dos de las pelotas de golf de la compañía. Ocho de sus pelo-
tas marca XL-550 y ocho de las DL-300 se lanzaron mediante un dispositivo automático. Las
distancias (en yardas) son las siguientes:
Suponga que las distribuciones de las distancias recorridas no siguen la distribución normal.
Con un nivel de significancia 0.05, ¿hay alguna diferencia entre las dos distribuciones?
564 Capítulo 16
Ejercicios
15. Las observaciones siguientes se seleccionaron al azar de poblaciones que no necesaria-
mente tenían una distribución normal. Utilice el nivel de significancia 0.05, una prueba de
dos colas y la prueba de suma de rangos de Wilcoxon para determinar si hay alguna dife-
rencia entre las dos poblaciones.
17. Tucson State University ofrece dos programas de Maestría en Administración de Empresas.
En el primero, los estudiantes se reúnen dos noches a la semana en el campus principal de
la Universidad que está en el centro de Tucson. En el segundo programa, los estudiantes
sólo se comunican en línea con el profesor. El director de la Maestría en Administración de
Empresas en Tucson quiere comparar el número de horas durante las que ambos grupos
estudiaron la semana pasada. Una muestra de 10 estudiantes en el campus y 12 en línea
reveló la siguiente información.
No debemos suponer que las dos distribuciones del tiempo de estudio, que se reportan en
horas, siguen una distribución normal. Con un nivel de significancia 0.05, ¿podemos llegar
a la conclusión de que los alumnos en línea estudian más?
18. En fechas recientes, con las tasas hipotecarias en niveles bajos, las instituciones financieras
han tenido que ofrecer mayores beneficios a los clientes. Una de las innovaciones que ofre-
ce Coastal National Bank and Trust es la presentación de solicitudes hipotecarias en línea. A
continuación, presentamos el tiempo, en minutos, necesario para procesar la solicitud de
clientes que piden una hipoteca de tasa fija a 30 años y una hipoteca de tasa fija a 15 años.
Con un nivel de significancia 0.05, ¿sería razonable llegar a la conclusión de que el proceso
tarda menos para los clientes que solicitan una hipoteca de tasa fija a 30 años? No debemos
suponer que la distribución del tiempo sigue la distribución normal para ninguno de los grupos.
Prueba de Kruskal-Wallis:
análisis de la varianza por rangos
Prueba de Kruskal-Wallis con El procedimiento del análisis de la varianza (ANOVA) que estudiamos en el Capítulo 12 de-
menos restricciones que termina si las medias de varias poblaciones son ¡guales. Los datos eran de nivel de inter-
ANOVA. valo o de razón. Asimismo, se suponía que las poblaciones seguían la distribución normal
y que sus desviaciones estándar eran iguales. ¿Qué sucede si los datos están en una es-
cala ordinal y/o las poblaciones no siguen una distribución normal? En 1952, W. H. Kruskal
y W. A. Wallis reportaron una prueba no paramétrica que sólo requiere de datos en el nivel
ordinal (clasificados). No se necesita ninguna suposición acerca de la forma de las pobla-
Métodos no paramétricos: análisis de datos ordenados 565
ciones. La prueba se conoce como análisis en una dirección de la varianza por rangos
de Kruskal-Wallis.
Para aplicar la prueba de Kruskal-Wallis, las muestras seleccionadas de las poblaciones
deben ser independientes. Por ejemplo, si se van a seleccionar y entrevistar muestras de es-
tos grupos (ejecutivos, personal y supervisores), las respuestas de uno de los grupos (diga-
mos, los ejecutivos) no deben influir de ninguna manera en las respuestas de los demás.
Para calcular el estadístico de prueba de Kruskall-Wallis, (1) todas las muestras se
combinan, (2) los valores combinados se ordenan de menor a mayor y (3) los valores orde-
nados se reemplazan con rangos, empezando con 1 para el valor más bajo. Un ejemplo ex-
plicará el procedimiento.
Un seminario sobre administración está formado por ejecutivos de las industrias de manu-
factura, finanzas e ingeniería. Antes de programar las sesiones, el líder del seminario quiere
saber si los tres grupos tienen los mismos conocimientos sobre los principios de la adminis-
tración. Los planes son seleccionar muestras de los ejecutivos en manufactura, en finanzas
y en ingeniería y aplicarles una prueba. Si no hay ninguna diferencia en las calificaciones pa-
ra las tres distribuciones, el líder de seminario sólo va a realizar una sesión. No obstante, si
hay alguna diferencia en las calificaciones, se ofrecerán sesiones por separado.
Vamos a utilizar la prueba de Kruskall-Wallis en lugar de ANOVA porque el líder del se-
minario está dispuesto a suponer que (1) las poblaciones de las calificaciones en administra-
ción siguen la distribución normal o (2) las desviaciones estándar poblacionales son iguales.
Por lo regular, el primer paso en la prueba de hipótesis es formular las hipótesis nula y al-
ternativa.
Si consideramos las calificaciones como una sola población, el ejecutivo comercial con
una calificación de 35 es el menor, de modo que tiene el rango 1. Hay dos calificaciones de
38. Para resolver este empate, a cada calificación se le da un rango de 2.5, calculado me-
diante (2 + 3)/2. Este proceso continúa para todas las calificaciones. La calificación mayor es
107, y a ese ejecutivo de finanzas se le da un rango de 21. Las calificaciones, los rangos y
la suma de los rangos para cada una de las tres muestras se presentan en la Tabla 16-7.
TABLA 16-7 Calificaciones, rangos y suma de rangos para las calificaciones en la prueba de administración
Al despejar Η obtenemos
Recuerde que en el Capítulo 12 dijimos que con el fin de aplicar la técnica del análisis
de la varianza, suponemos que: (1) las poblaciones tienen una distribución normal, (2) es-
tas poblaciones tienen desviaciones estándar iguales y (3) las muestras se seleccionan en
forma independiente. Si estas suposiciones se cumplen, se aplica la distribución F de lo
contrario se debe aplicar la distribución de Kruskal-Wallis. Para destacar las similitudes en-
tre los dos enfoques, vamos a resolver el ejemplo acerca del conocimiento de los ejecuti-
vos sobre los principios administrativos utilizando la técnica ANOVA.
Para empezar, formule las hipótesis nula y alternativa para los tres grupos.
Autoevaluación 18-8 El gerente de bancos regionales de Statewide Financial se interesa en el índice de movimien-
tos de las cuentas de cheques personales en cuatro de las sucursales más importantes. (El
índice de movimiento es la velocidad a la que el dinero en una cuenta se deposita y se retira.
Una cuenta muy activa puede tener un índice de 300; si sólo se emiten uno o dos cheques,
el índice podría ser de 30 aproximadamente.) Los índices de rotación de las muestras selec-
cionadas de los cuatro bancos se presentan en la tabla. Utilizando el nivel 0.01 y la prueba
de Kruskal-Wallis, determine si hay alguna diferencia en los índices de movimiento de las
cuentas de cheques personales entre las cuatro sucursales.
Ejercicios
19. ¿En qué condiciones se debe utilizar la prueba de Kruskal-Wallis en lugar del análisis de la
varianza ANOVA?
20. ¿En qué condiciones se debe usar la prueba Kruskal-Wallis en lugar de la prueba de suma
de rangos de Wilcoxon?
21. Los siguientes datos de una muestra se obtuvieron de tres poblaciones que no seguían una
distribución normal.
22. Los siguientes datos de una muestra se obtuvieron de tres poblaciones en las que las va-
rianzas no eran iguales, y lo que queremos es comparar las poblaciones.
Correlación de rangos
En el Capítulo 13, estudiamos r, el coeficiente de correlación de una muestra. Recuerde que
mide la relación entre dos variables de escala de intervalo o de razón. Por ejemplo, el coe-
570 Capítulo 16
ficiente de correlación reporta la relación entre el salario de los ejecutivos y sus años de ex-
periencia, o la relación entre el número de millas que un embarque tiene que recorrer y el
número de días que tarda en llegar a su destino.
Charles Spearman, experto estadístico británico, introdujo una medida de correlación
para los datos en el nivel ordinal. Esta medida nos permite describir la relación entre conjun-
tos de datos clasificados. Por ejemplo, a dos miembros del personal de la oficina de investi-
gación de University of the Valley se les pide que clasifiquen 10 propuestas de investigación
para propósitos de recolección de fondos. Queremos estudiar la relación entre las calificacio-
nes de los dos miembros del personal. Es decir, ¿los empleados califican las mismas pro-
puestas como las más valiosas y las menos valiosas para los fondos? El coeficiente de
correlación de rangos de Spearman, que se expresa rs, ofrece una medida de la relación.
El coeficiente de correlación de rangos se calcula mediante la fórmula siguiente.
donde:
d es la diferencia entre los rangos para cada par.
n es el número de observaciones por pares.
Al igual que el coeficiente de correlación, el coeficiente de correlación de rangos pue-
de asumir cualquier valor de -1.00 hasta 1.00. Un valor de -1.00 indica una correlación ne-
gativa perfecta y un valor de 1.00, señala una correlación positiva perfecta entre los rangos.
Una correlación de rangos de 0 indica que no hay ninguna relación entre los rangos. Las
correlaciones de rangos de -0.84 y 0.80 indican una fuerte relación, pero la primera indica
una relación inversa entre los rangos y la segunda una relación directa.
TABLA 16-8 Calificaciones en el campus y calificaciones de la capacitación en la planta para una muestra
de universitarios recién graduados
Se tomó la decisión de clasificar las calificaciones de la más baja a la más alta. La califica-
ción más baja que otorgó el instructor en el campus fue 4 al alumno D, de modo que se le
dio el rango 1. La siguiente más alta fue un 7 al alumno Η y se le dio el rango 2. Ningún
Métodos no paramétricos: análisis de datos ordenados 571
alumno tuvo 8. El empate se resuelve dando a cada uno un rango de 3.5, que es el prome-
dio de los rangos 3 y 4. El mismo procedimiento se sigue cuando hay más de dos califica-
ciones ¡guales. Por ejemplo, observe que la calificación más baja en la capacitación es 3 y
se le otorga un rango de 1. Luego hay tres calificaciones de 4. El promedio de los tres ran-
gos empatados es 3, calculado mediante (2 + 3 + 4)/3. La Tabla 16-9 ilustra lo anterior, ade-
más de los cálculos necesarios para rs.
El valor de 0.726 indica una fuerte relación positiva entre las calificaciones del instruc-
tor en el campus y las calificaciones del personal de capacitación. Los alumnos que recibie-
ron altas calificaciones del instructor en el campus también son aquellos que recibieron
calificaciones altas por parte del personal de capacitación.
Prueba de la significancia de rs
Probando si la correlación en En el Capítulo 13, probamos la significancia de la r de Pearson. Para los datos clasificados,
la población es cero. también surge la duda sobre si la correlación en la población es realmente cero. Por ejem-
plo, en la muestra del caso anterior, sólo se incluyeron 12 alumnos de último año. En la so-
lución del ejemplo, el coeficiente de correlación de rangos de 0.726 indica una relación más
bien fuerte entre los dos conjuntos de rangos. ¿Es posible que la correlación de 0.726 se
deba a la casualidad y la correlación entre los rangos en la población sea realmente 0? Aho-
ra, vamos a realizar un prueba de significancia para responder esa pregunta.
Muestras "grandes": 10 o más. Para una muestra de 10 o más, la significancia de rs se determina calculando t mediante
el uso de la fórmula siguiente. La distribución de muestreo de rs sigue la distribución f con η -
2 grados de libertad.
572 Capítulo 16
Autoevaluación 16-7 Una muestra de individuos que solicitan empleo en una fábrica de Davis Enterprises reveló
las calificaciones siguientes en una prueba de percepción ocular (X) y una prueba de aptitu-
des para la mecánica (Y):
a. Elabore un diagrama de dispersión, en el que las calificaciones dadas por los hombres
sean X.
b. Calcule el coeficiente de correlación de orden de rangos de Spearman. Interprete su re
sultado.
26. Far West University ofrece clases diurnas y nocturnas en administración de empresas. Una
pregunta en una encuesta entre los estudiantes es cómo perciben el prestigio relacionado
con ciertas carreras. A cada estudiante se le pide que califiquen las carreras del 1 al 8, sien-
do 1 la calificación para mayor prestigio y 8 para menor prestigio. Los resultados fueron:
Métodos no paramétricos: análisis de datos ordenados 573
D. Para muestras grandes (más de 10) utilice la distribución normal estándar y la fórmula si-
guiente:
población.
A. Encuentre μ y σ para una distribución binomial.
B. La distribución ζ se usa como el estadístico de prueba.
C. El valor de ζ se calcula a partir de la fórmula siguiente, donde X es el número de obser-
vaciones por encima o debajo de la mediana.
VI. El coeficiente de correlación de rangos de Spearman es una medida de la relación entre dos
variables de escala ordinal.
A. Puede variar entre -1 y 1.
1. Un valor de 0 indica que no hay ninguna relación entre las variables.
2. Un valor de -1 indica una correlación negativa perfecta, y 1 es una correlación positi-
va perfecta.
B. El valor de rs se calcula a partir de la fórmula siguiente:
Métodos no paramétricos: análisis de datos ordenados 575
C. Siempre que el tamaño de la muestra sea por lo menos de 10, podemos realizar una
prueba de hipótesis utilizando la fórmula siguiente:
Clave de pronunciación
Realice una prueba de hipótesis con un nivel de significancia 0.10 para determinar si hay algu-
na diferencia en las preferencias por ambas marcas.
576 Capítulo 16
32. La South Carolina Real Estate Association afirma que la renta mediana para los condomi-
nios de tres recámaras en un área metropolitana es más de $1 200 al mes. Para verificar lo
anterior, se seleccionó una muestra de 149 unidades. De las 149,5 se rentaban exactamen-
te en $1 200 al mes y 75 se rentaban en más de $1 200 mensuales. Con un nivel 0.05, ¿po-
demos llegar a la conclusión de que la renta mediana es más de $1 200?
a. Formule Η0 y H1
b. Establezca la regla de decisión.
c. Realice los cálculos necesarios y tome una decisión.
33. The Citrus Council quiere saber si los consumidores prefieren el jugo de naranja sin pulpa o
con pulpa. Se seleccionó una muestra aleatoria de 212 consumidores. Cada miembro de la
muestra probó un pequeño vaso sin etiqueta de un tipo de jugo y luego del otro. Doce con-
sumidores dijeron que no tenían ninguna preferencia, 40 prefirieron el jugo sin pulpa y al res
to de los consumidores les gustó más el jugo con pulpa. Con un nivel de significancia 0.05,
pruebe que las preferencias por el jugo sin pulpa y con pulpa son iguales.
34. Se va a realizar un proyecto de investigación que comprende la responsabilidad en la comu-
nidad. El objetivo es saber si las mujeres son más conscientes de la comunidad antes de
casarse o después de cinco años de matrimonio. Una prueba para medir la conciencia en la
comunidad se aplicó a una muestra de mujeres antes de casarse y la misma prueba se les
aplicó tras cinco años de matrimonio. Las calificaciones obtenidas:
36. Se van a comparar los tiempos de inactividad durante el turno diurno y el turno nocturno de
ocho horas. Un estudio reveló los minutos siguientes de tiempo de inactividad para periodos
de ocho horas.
¿Hay alguna diferencia durante el turno diurno y el turno nocturno de ocho horas? Realice
la prueba con un nivel de significancia de 0.05.
37. Investigadores sociales estudiaron la movilidad de los ejecutivos en las bolsas de valores,
en los servicios, en la construcción y en la transportación aérea. Se seleccionaron muestras
de cada una de estas industrias, y el número de veces que un ejecutivo se cambió durante
un periodo de 10 años se convirtió en un índice. Un índice de 0 indicaría que no hubo nin-
gún cambio, mientras que 100 indicaría un cambio casi constante de un lugar a otro o de
una empresa a otra. Los índices para los cuatro grupos son:
Métodos no paramétricos: análisis de datos ordenados 577
No podemos suponer que los índices siguen la distribución normal. Por tanto, debemos utilizar
una prueba no paramétrica. Usando un nivel de significancia de 0.05, determine si las cuatro
poblaciones de índices de movilidad son idénticas.
38. Una serie de preguntas sobre eventos deportivos y mundiales se hicieron a un grupo selec-
cionado de ciudadanos naturalizados jóvenes. Los resultados se convirtieron en una califi-
cación de "conocimiento". Las calificaciones fueron:
Determine la correlación entre las calificaciones de los entrenadores y de los escritores de-
portivos. Con un nivel de significancia de 0.05, ¿podemos llegar a la conclusión de que es
diferente de cero?
40. El profesor Bert Forman cree que los estudiantes que terminan los exámenes en el menor
tiempo obtienen las calificaciones más altas y aquellos que se tardan más reciben las califi-
caciones más bajas. Para verificar su sospecha, asigna una clasificación al orden en que ter-
minan los alumnos y luego califica los exámenes. Los resultados se muestran a continuación:
exercises.com
41. ¿Existe una correlación entre la posición de inicio en una carrera de autos y el orden en que
llegan a la meta? Para investigar, utilice los resultados de una de las carreras más impor-
tantes, como las 500 Millas de Daytona o las 500 Millas de Indianápolis. Tendrá acceso a
los resultados de las 500 Millas de Indianápolis si visita http://www.indy500.com. Haga clic
578 Capítulo 16
en Stats, seleccione Starting Grids and Race Results y clic en el año más reciente. Ten-
drá que descargar la información en Excel o MINITAB.
a. Calcule el coeficiente de correlación de rangos entre la posición de inicio y el orden en
que llegan a la meta. Ambos son variables de escala ordinal. Interprete este valor.
b. Realice una prueba de hipótesis para determinar si la correlación de rango calculada en
la parte (a) es mayor que cero. Interprete el resultado.
42. Existe mucha información disponible en la edición en línea del Information Please Almanac.
Por ejemplo, vaya a http:winfopiease.corn, haga clic en United States, luego en States y por
último en Tabulated Data on State Governments y en Governor's salary. Hay datos acer-
ca del salario del gobernador y de las principales autoridades de cada estado. Tendrá que
descargar los datos en Excel o MINITAB.
a. Calcule el coeficiente de correlación entre las dos variables utilizando los métodos de
Pearson y Spearman. Comente sobre la diferencia entre ambas variables. (Nota: para
encontrar el coeficiente de correlación de rango, primero necesitará clasificar las dos
variables y luego utilice el software de estadística para encontrar el coeficiente de co-
rrelación de Pearson utilizando los datos clasificados.)
b. Realice una prueba de hipótesis para determinar si el coeficiente de correlación de ran-
gos es diferente a cero.
b. Sin suponer distribuciones normales, con un nivel de significancia 0.05, pruebe si hay
alguna diferencia en el PIB medio per cápita para los países con distintos niveles de
consumo de petróleo.
Comandos de software
1. Los comandos de MegaStat for Excel necesarios para
la prueba de suma de rangos de Wilcoxon en la página
563 son:
a. Escriba el número de personas que no llegaron pa
ra Atlanta en la columna A y para Chicago en la co
lumna B.
b. Seleccione MegaStat, Nonparametric Tests y
Wilcoxon-Mann/Whitney Test y luego presione
Enter.
c. Para el Grupo 1 utilice los datos sobre los vuelos de
Atlanta (A2:A10) y para el Grupo 2 use los datos
sobre los vuelos de Chicago (B2:B9), Haga clic en
Correct for ties y en one-tailed, luego haga clic en
OK.
Glosario
Capítulo 15 Capitulo 16
Distribución de ji cuadrada Distribución con estas carac- Análisis de la varianza por rangos de Kruskal-Wallis Prue-
terísticas: (1) su valor sólo puede ser positivo. (2) Hay una ba que se utiliza cuando las suposiciones para el análisis de
familia de distribuciones de ji cuadrada, una diferente para la varianza (ANOVA) paramétrico no se cumplen. Su propó-
cada grado de libertad. (3) Las distribuciones tienen un ses- sito es probar si varias poblaciones son iguales. Los datos
go positivo, pero conforme aumenta el número de grados de deben estar por lo menos en una escala ordinal.
libertad, la distribución se aproxima a la normal. Coeficiente de correlación de rangos de Spearman Medi-
Nivel de medición nominal El nivel de medición "más ba- da de la asociación entre los rangos de dos variables. Puede
jo". Estos datos sólo se pueden clasificar en categorías, y no variar entre -1.00 y 1.00. Un valor de -1.00 indica una aso-
hay un orden en particular para ellas. Por ejemplo, no hay ciación negativa perfecta entre los rangos y un valor de 1.00
ninguna diferencia por el hecho de que las categorías "hom- una asociación positiva perfecta entre los rangos. Un valor de
bre" y "mujer" se mencionen en ese orden, o que se mencio- 0 indica que no existe ninguna asociación entre los rangos.
nen las mujeres primero y los hombres en segundo lugar. Prueba del signo Prueba que se utiliza para muestras de-
Las categorías son mutuamente exclusivas; lo que significa, pendientes. La prueba del signo se usa para saber si hay
en este ejemplo, que una persona no puede ser hombre y preferencia por un marca de productos o para determinar si
mujer al mismo tiempo. el desempeño después de un experimento es mayor al que
Prueba de bondad de ajuste de ji cuadrada Prueba con se presentaba antes de éste. Asimismo, la prueba del signo
el objetivo de determinar lo bien que un conjunto de frecuen- se utiliza para probar una hipótesis acerca de la mediana.
cias observadas se ajusta a un conjunto de frecuencias es- Prueba de rangos con signos de pares combinados de Wil-
peradas. Se ocupa de una variable de escala nominal, como coxon Prueba no paramétrica que requiere de datos por lo
el color de un auto. menos en el nivel ordinal y muestras dependientes. Su propó-
Pruebas no paramétricas o sin distribución Pruebas de sito es saber si hay alguna diferencia entre dos conjuntos de
hipótesis que comprenden datos de nivel nominal y ordinal. observaciones por pares (relacionadas). Se utiliza si no se cum-
No es necesario hacer ninguna suposición acerca de la for- plen las suposiciones requeridas para la prueba t por pares.
ma de la distribución de una población; es decir, no supone- Prueba de suma de rangos de Wilcoxon Prueba no para-
mos que la población tiene una distribución normal. métrica que requiere de muestras independientes. Los datos
Tabla de contingencias Si dos características, como el gé- deben estar por lo menos en el nivel ordinal. Es decir, los da-
nero y el grado más alto obtenido para una muestra de co- tos deben permitir su clasificación. La prueba se usa cuan-
rredores de bolsa, se clasifican en forma cruzada en una ta- do no se cumplen las suposiciones para la prueba t de Stu-
bla, el resultado se conoce como tabla de contingencias. La dent paramétrica. El objetivo de la prueba es saber si dos
estadística de prueba de ji cuadrada se utiliza para investi- muestras independientes se pueden considerar como si vi-
gar si las dos características están relacionadas. nieran de la misma población.
Ejercicios
Parte I. Opción múltiple
1. Los grados de libertad de una prueba de ji cuadrada de una tabla de contingencia con 6 hi-
leras y 3 columnas son
Repaso de los capítulos 15 y 16 583
a. 18
b. 15
c. 12
d. 10
2. Al probar una relación entre dos variables nominales, ¿qué técnica estadística debemos usar?
a. Regresión.
b. Prueba de tabla de contingencia de ji cuadrada.
c. Bondad de ajuste de ji cuadrada.
d. Coeficiente de correlación de rangos de Spearman.
3. Los resultados de un análisis de ji cuadrada para una tabla de contingencia quizá no sean
válidos cuando
a. Más de 20% de las frecuencias esperadas son más de 5.
b. Más de 20% de las frecuencias esperadas son menos de 5.
c. El nivel de significancia es 0.01.
d. Las frecuencias esperadas y reales son ¡guales.
4. En la prueba de bondad de ajuste de ji cuadrada con 10 categorías y un nivel de significan-
cia de 0.05, el valor crítico de una estadística de ji cuadrada es
a. 16.919
b. 18.307
c. 15.987
d. 14.684
5. En una prueba de bondad de ajuste de ji cuadrada con una estadística de prueba de ji cua-
drada igual a 0.0,
a. El valor p es 1.0.
b. Las frecuencias esperadas y observadas para cada celda son iguales.
c. La hipótesis nula se acepta.
d. a, b y c son verdaderas.
6. El método no paramétrico usado para probar las diferencias entre dos muestras dependien-
tes es
a. La prueba de la mediana.
b. La prueba de ji cuadrada.
c. La prueba de rangos con signo de Wilcoxon.
d. La prueba de Kruskal-Wallis.
7. El coeficiente de correlación de rangos de Spearman se aplica mejor cuando
a. Los datos se miden con una escala nominal.
b. Los datos se miden con una escala ordinal.
c. Los datos se miden con una escala de intervalo.
d. Los datos se miden con una escala de razón.
8. La prueba de Kruskal-Wallis
a. Prueba si varias poblaciones son iguales.
b. Requiere de la escala nominal de medición.
c. Supone muestras dependientes.
d. Ninguno de los anteriores.
Casos
A. Century National Bank un sujeto realizar una "prueba de manejo" y da una califica-
¿Existe alguna relación entre la ubicación de la sucursal ción que indica el número de errores de manejo que se co-
bancaria y el hecho de si el cliente tiene una tarjeta de débi- metieron durante la prueba. Las calificaciones más altas
to? Con base en la información disponible, elabore una tabla indican más errores al conducir. Estos errores incluyen: no
que muestre la relación entre estas dos variables. Con un ni- detenerse por completo ante un letrero de alto total, no utili-
vel de significancia 0.05, ¿podemos llegar a la conclusión de zar las direccionales, no manejar con precaución en condi-
que hay una relación entre ¡a ubicación de la sucursal y el ciones de pavimento mojado o nevado, etcétera. Durante la
hecho de si el cliente usa una tarjeta de débito? prueba de camino, los problemas se presentan al azar y no
todos aparecen en todas las pruebas. Éstas son algunas
B. Thomas Testing Labs ventajas importantes del Rupple Driving Simulator porque
Durante un tiempo, John Thomas, propietario de Thomas los sujetos no obtienen ninguna ventaja al presentar la prue-
Testing, ha realizado trabajos bajo contrato para compañías ba varias veces.
de seguros relacionados con los conductores ebrios. Para Con el nuevo simulador de manejo, e! señor Thomas
mejorar sus capacidades de investigación, hace poco com- quiere estudiar con detalle el problema de los conductores
pró el Rupple Driving Simulator. Este dispositivo permite a ebrios. Empieza por seleccionar una muestra aleatoria de 25
Repaso de los capítulos 15 y 16 585
Introducción
A lo largo de este libro hemos presentado muchas aplicaciones de la prueba de hipótesis.
En el Capítulo 10 describimos los métodos para probar una hipótesis respecto a un valor
poblacional único. En el Capítulo 11 estudiamos los métodos para probar una hipótesis sobre
dos poblaciones. En este capítulo presentamos otra aplicación de la prueba de hipótesis un
tanto diferente, llamado el control estadístico de proceso o SPC (por sus siglas en inglés).
El control estadístico de proceso es una recopilación de estrategias, técnicas y
acciones que toma una organización para asegurarse que fabrica un producto de calidad o
proporciona un servicio de calidad. Empieza con la etapa de planeación del producto, que
es cuando especificamos los atributos del producto o servicio y continúa a lo largo de la
etapa de producción. Cada atributo durante el proceso contribuye a la calidad general del
producto. A fin de usar con efectividad el control de calidad, se deben desarrollar atributos
y especificaciones mensurables contra las cuales se puedan comparar los atributos reales
del producto o servicio.
Deming tenía ciertas ¡deas que no concordaban con las filosofías administrativas con-
temporáneas de Estados Unidos. Dos áreas donde las ideas de Deming diferían de la
filosofía administrativa estadounidense eran :as cuotas de producción y las clasificaciones
de excelencia. El doctor sostenía que estas dos prácticas, comunes en Estados Unidos, no
son productivas y deben eliminarse. También señaló que los gerentes estadounidenses se
interesan principalmente en las buenas noticias. Sin embargo, las buenas noticias no ofre-
cen la oportunidad de mejorar. Por otro lado, las malas noticias abren la puerta a nuevos
productos y permite que la compañía mejore.
A continuación se enumeran de manera condensada los 14 puntos del doctor Deming.
Él afirmaba en forma categórica que los 14 puntos debían adoptarse como un paquete a fin
de que tuvieran éxito. El tema implícito era la cooperación, el trabajo en equipo y la creen-
cia de que los trabajadores quieren que su trabajo sea de calidad.
Los 14 puntos de Deming no ignoraron el control estadístico de la calidad, que con fre-
cuencia se abrevia como SQC (por sus siglas en inglés). El objetivo del control estadístico
de la calidad es supervisar la producción a través de muchas etapas de la manufactura.
Utilizamos las herramientas de control estadístico de la calidad, como las gráficas de barras
X y R, para seguir de cerca la calidad de muchos procesos y servicios. Las tablas de con-
trol nos permiten identificar en qué momento está "fuera de control" un proceso o servicio,
es decir, cuando se alcanza el punto en el tiempo donde se produce un número excesivo
de unidades defectuosas.
Control de calidad estadístico 589
ducción, y vamos por buen camino. En la actualidad, en los negocios necesitas del creci-
miento y la productividad."
¿Qué es calidad? No existe una definición común de calidad. Algunas definiciones son:
de Westinghouse, "la calidad total es el desempeño de liderazgo a fin de cumplir con los
requisitos del cliente haciendo lo correcto desde el principio". De AT&T, "Calidad es cumplir
con las expectativas del cliente". La historiadora Barbara W. Tuchman dice, "Calidad es
lograr o alcanzar el estándar más alto en comparación con estar satisfecho con lo mal
hecho o fraudulento".
Causas de la variación
No hay dos productos exactamente iguales. Siempre existe alguna variación. El peso de
cada Quarter Pounder de McDonald's no es exactamente de 0.25 de libra. Algunas pesan
más de 0.25 de libra, otras menos. El tiempo estándar para que el autobús TARTA (Toledo
Área Regional Transit Authority) haga su recorrido desde el centro de Toledo, Ohio, a
Perrysburg es de 25 minutos. Sin embargo, cada corrida no tarda exactamente 25 minutos.
Algunas tardan más. En ocasiones, el conductor de TARTA debe esperar en Perrysburg
antes de regresar a Toledo. En algunos casos existe una razón para que se retrase el auto-
bús, por ejemplo, un accidente en la autopista o una tormenta de nieve. En otros, el con-
ductor tal vez no "llega" a las luces verdes o el tráfico es extrañamente pesado y lento sin
motivo aparente. Existen dos fuentes de variación generales en un proceso: casualidad y
asignable.
VARIACIÓN POR AZAR. Variación que por naturaleza es azarosa. Este tipo de variación
no se puede eliminar por completo a menos que ocurra un cambio importante en el
equipo o material que se utiliza en el proceso.
Existen varias razones a las que debemos poner atención respecto a la variación.
Diagramas de diagnóstico
Existe una variedad de técnicas de diagnóstico para investigar los problemas de calidad.
Dos de las técnicas más relevantes son los diagramas de Pareto y los diagramas de
esqueleto de pez.
Control de calidad estadístico 591
Diagramas de Pareto
El análisis de Pareto es una técnica mediante la cual se ordena el número y tipo de defec-
tos que se presentan en un producto o servicio. El diagrama recibe el nombre de un cientí-
fico italiano del siglo xix, Vilfredo Pareto, quien observó que la mayoría de la "actividad" en
un proceso se debe a unos cuantos "factores". Su concepto, con frecuencia llamado la regla
80-20, es que el 80% de la actividad es a causa del 20% de los factores. Al concentrarse
en el 20% de los factores, los gerentes pueden atacar el 80% del problema. Por ejemplo, el
de Emily's Family Restaurant, ubicado en el cruce de las interestatales 75 y 70, es investi-
gar las "quejas del cliente". Las cinco quejas que se escucharon con más frecuencia son:
descortesía en el servicio, comida fría, larga espera para que le asignen mesa, pocas
opciones en el menú y niños indisciplinados. Suponga que la descortesía en el servicio fue
la más mencionada y en segundo lugar la comida fría. El total de estos dos factores repre-
senta más de 85% de las quejas y, por consiguiente, son las dos que deben atenderse
primero ya que con ello las quejas disminuirán en gran medida.
Para desarrollar un diagrama de Pareto, empezamos por ordenar el tipo de defectos.
Después, clasificamos los defectos en términos de frecuencia de ocurrencia de mayor a
menor. Por último, hacemos una tabla de barras verticales donde la altura de las barras co-
rresponden a la frecuencia de cada defecto. El siguiente ejemplo explica estas ideas.
La administradora municipal de Grove City, Utah, está preocupada por el uso del agua, en
particular en los hogares unifamiliares. A ella le gustaría desarrollar un plan para reducir el
consumo de agua en Grove City. Para su investigación, selecciona una muestra de 100
hogares y determina el uso típico de agua al día para diversos propósitos. Éstos son los
resultados de la muestra.
¿Cuál es el área con el mayor consumo? ¿Dónde debe concentrar sus esfuerzos a fin de
reducir el consumo de agua?
Un diagrama de Pareto sirve para identificar las principales áreas de consumo de agua y
enfocarse en aquellas áreas donde se puede lograr la mayor reducción. El primer paso es
convertir cada una de las actividades en un porcentaje y después ordenarlas de mayor a
menor. El total del consumo de agua al día es de 339.3 galones, que se encuentra al
totalizar los galones utilizados en las ocho actividades. La actividad con el mayor uso es
592 Capítulo 17
GRÁFICA 17-1 Diagrama de Pareto para uso del agua en Grove City, Utah
Bajo cada una de las causas posibles se encuentran las subcausas que se identifican
e investigan. Las subcausas son factores que quizá estén provocando el efecto particular.
Se recopila la información acerca del problema y con ella se llena el diagrama de esquele-
to de pez. Se investiga cada una de las subcausas y se eliminan las que no son impor-
tantes, hasta identificar la verdadera causa del problema.
La Gráfica 17-3 presenta los detalles de un diagrama de esqueleto de pez. Suponga
que hace poco, un restaurante familiar, como los que hay a lo largo de una carretera, recibe
quejas de los clientes referentes a que les sirven la comida fría. Observe que cada sub-
causa aparece en la lista como una suposición. Cada una de estas subcausas se deben
investigar a fin de encontrar el verdadero problema respecto de la comida fría. En un dia-
grama de esqueleto de pez, no hay ponderación de las subcausas.
GRAFICA 17-3 Diagrama de esqueleto de pez para la investigación de quejas de comida fría
en un restaurante
Autoevaluación 17-1 La Rouse Home, en Chicago, es una institución de salud mental. Hace poco, hubo quejas
sobre las condiciones en el hogar. Al administrador le gustaría usar un diagrama de Pareto
para investigar la situación. Cuando un paciente o el familiar de un paciente se quejan, se le
pide que llene un formato de quejas. El siguiente es un resumen de los formatos de quejas
que se recibieron durante los últimos 12 meses.
594 Capítulo 17
Desarrolle un diagrama de Pareto. ¿Cuáles son las quejas que usted le sugeriría al adminis-
trador resolviera primero a fin de lograr la mejora más significativa?
Ejercicios
1. Tom Sharkey es el propietario de Sharkey Chevy, Buick, GM. A principios de año, Tom insti-
tuyó un programa de opinión de los clientes a fin de encontrar cómo mejorar el servicio. Una
semana después de que se realizó el servicio, el asistente administrativo de Tom llamó al
cliente para preguntarle si el servicio fue satisfactorio y cómo se podría mejorar. El siguiente
es un resumen de las quejas durante los primeros seis meses. Desarrolle un diagrama de
Pareto. ¿Cuáles son las quejas que usted le sugeriría a Tom resolviera a fin de mejorar la
calidad del servicio?
Estas relaciones permiten que se establezcan los límites alrededor de las medias
muéstrales a fin de señalar qué tanta variación se puede esperar de una muestra de tamaño
determinado. Estos límites esperados se llaman el límite de control superior (UCL, por
sus siglas en inglés) y el límite de control inferior (LCL, por sus siglas en inglés). Un ejem-
plo explicará el uso de los límites de control y cómo se determinan los límites.
Statistical Software, Inc., ofrece un número de larga distancia sin costo donde los clientes
pueden llamar todos los días de 7 a.m. a 11 p.m., en referencia a problemas relacionados
con el uso de sus productos. Es imposible que un representante técnico conteste de inme-
diato cada llamada, pero es importante que los clientes no esperen demasiado en la línea
antes de que alguien les conteste. Los clientes se molestan cuando escuchan demasiadas
veces el mensaje "Su llamada es muy importante para nosotros. En breve le contestará un
representante". Para entender su proceso, Statistical Software decidió desarrollar una tabla
de control que describa el tiempo total desde el momento en que se recibe una llamada
hasta que el representante contesta la pregunta del cliente. Ayer, se hizo una muestra de
cinco llamadas cada hora durante las 16 horas de operación. Esta información aparece en
la página a continuación, en los minutos transcurridos hasta que se contesta una llamada.
596 Capítulo 17
Con base en esta información, desarrolle una tabla de control para la duración media
de la llamada. ¿Parece existir una tendencia en las horas de llamada? ¿Existe algún perio-
do donde parece que los clientes esperan más que otros?
Una tabla de la media tiene dos límites, un límite de control superior (UCL) y un límite de
control inferior (LCL). Estos límites de control superior e inferior se calculan mediante:
donde:
es una constante que se usa para calcular los límites de control superior e inferior.
Se basa en el rango promedio, Los factores para varios tamaños de la muestra
se encuentran en el Apéndice I. (Nota: en esta tabla, n se refiere al numero de ele-
mentos de la muestra.) Una porción del Apéndice I se presenta a continuación.
Para localizar el factor A, de este problema, encuentre el tamaño de la muestra
para n en el margen izquierdo. Es 5. Después pase horizontalmente a la columna
A y lea el factor. Es 0.577.
Control de calidad estadístico 597
GRÁFICA 17-4 Diagrama de control para la duración media de llamadas de los clientes a
Statistical Software, Inc.
Como la teoría estadística se basa en la normalidad de las muestras grandes, las tablas
de control deben basarse en un proceso estable; es decir, una muestra bastante grande,
que se toma durante un periodo largo. Una regla básica es diseñar la tabla después de ele-
gir al menos 25 muestras.
Diagrama de rangos
Además de la ubicación central en una muestra, también debemos seguir de cerca la can-
tidad de variación de una muestra a otra. Un diagrama de rangos indica la variación en los
rangos muéstrales. Si los puntos que representan los rangos caen entre los límites superior
e inferior, se llega a la conclusión de que la operación está dentro de control. De acuerdo
con el azar, casi 997 de 1 000 veces el rango de las muestras caerá dentro de los límites.
Si el rango cae por arriba de los límites, llegamos a la conclusión de que una causa asig-
nable afectó la operación y es necesario ajustar el proceso. ¿Por qué no nos interesa tanto
el límite de control inferior del rango? Para muestras pequeñas, el límite inferior con fre-
cuencia es cero. De hecho, para cualquier muestra de seis o menos, el límite de control infe-
rior es 0. Si el rango es cero, entonces por lógica todas las partes son iguales y no hay
problema con la variabilidad de la operación.
Los límites de control superior e inferior de la tabla de rangos se determinan a partir de
las siguientes ecuaciones.
Los valores para D3 y D4, que reflejan los límites σ(sigma) usuales para varios tamaños de
la muestra, se encuentran en el Apéndice I o en la tabla de la página 726.
El tiempo que los clientes de Statistical Software, Inc. esperaron desde que les tomaron la
llamada hasta que un representante técnico contestó su pregunta o solucionó su problema
se presenta en la Tabla 17-1. Desarrolle un diagrama de control para el rango. ¿Parece exis-
tir algún momento en el que la variación en la operación es demasiada?
El primer paso es encontrar la media de los rangos muéstrales. El rango para las cinco lla-
madas en la muestra de las 7 a.m. es de 11 minutos. La llamada seleccionada con mayor
duración a esa hora fue de 15 minutos y la más breve fue de 4 minutos; la diferencia en la
duración es de 11 minutos. A las 8 a.m., el rango es de 4 minutos. El total de los 16 rangos
es 102 minutos, de modo que el rango promedio es 6.375 minutos, que se obtiene median-
En referencia al Apéndice I o la tabla parcial de la página 597, son
0 y 2.115, respectivamente. Los límites de control superior e inferior son 0 y 13.4831.
Control de calidad estadístico 599
En la Gráfica 17-5 se presenta el diagrama de rangos con los 16 rangos muéstrales traza-
dos. Este diagrama indica que todos los rangos están dentro de los límites de control. Por
consiguiente, llegamos a la conclusión de que la variación en el tiempo para atender las lla-
madas de los clientes está dentro de los límites normales, es decir, "dentro de control".
Desde luego que debemos determinar los límites de control basados en una serie de datos
y después aplicándolos para evaluar datos futuros, no los datos que ya conocemos.
GRÁFICA 17-5 Diagrama de control para rangos de duración de las llamadas de los clientes a Statistical
Software, Inc.
centrales. Algunos están arriba y otros abajo de la línea central, lo cual demuestra que
el proceso es bastante estable. Es decir, no existe una tendencia visible para que las
medias y los rangos se muevan hacia afuera de las áreas de control.
2. Las medias muéstrales están dentro de control, pero los rangos de las dos últimas
muestras se encuentran fuera de control. Esto indica que existe una variación conside-
rable en las muestras. Algunos rangos muéstrales son grandes; otros son pequeños.
Quizá sea necesario un ajuste en el proceso.
3. En las primeras muestras, la media estaba dentro de control, aunque hay una tenden-
cia ascendente hacia UCL. Las últimas dos medias muéstrales están fuera de control.
Se indica un ajuste en el proceso, los rangos están dentro de control.
Control de calidad estadístico 601
El diagrama anterior para la media es un ejemplo de control que ofrece cierta informa-
ción adicional. Vea la dirección de las últimas cinco observaciones de la media. Todas están
arriba de y en aumento, y, de hecho, las últimas dos observaciones están fuera de con-
trol. El hecho de que las medias muéstrales aumentaran durante seis observaciones conse-
cutivas es muy improbable, lo cual es otra indicación de que el proceso está fuera de
control.
Autoevaluación 17-2 La gerente de McDonald's en River City selecciona de manera aleatoria cuatro clientes cada
hora. Para estos clientes seleccionados, ella determina el tiempo, en minutos, que transcurre
entre la recepción y la entrega de la orden. Los resultados se presentan a continuación.
(a) Calcule la espera media, el rango de la media y determine los límites de control para la
media y el rango.
(b) ¿Las medidas están dentro de los límites de control? Interprete el diagrama.
Ejercicios
3. Describa la diferencia entre la variación asignable y la variación azarosa.
4. Describa la diferencia entre un diagrama de control de atributos y un diagrama de control de
variables.
5. De una línea de producción, se seleccionan muestras de tamaño n = 4.
a. ¿Cuál es el valor del factor A, utilizado para determinar los límites de control superior e
inferior de la media?
b. ¿Cuáles son los valores de los factores D3 y D4 utilizados para determinar los límites de
control superior e inferior del rango?
6. De un proceso de fabricación, se seleccionan muestras de tamaño 5. La media de los ran
gos muéstrales es 0.50. ¿Cuál es el cálculo de la desviación estándar de la población?
602 Capítulo 17
7. En Piatt Bakery recién se instaló un nuevo horno industrial. A fin de conocer la condición
respecto a la temperatura del horno, un inspector lee la temperatura en cuatro lugares
diferentes dentro del horno cada media hora. La primera lectura, que se tomó a las 8:00
a.m., fue de 340 grados Fahrenheit. (En la tabla a continuación sólo se presentan los dos
últimos dígitos para facilitar los cálculos.)
a. Con base en esta experiencia inicial, determine los límites de control para la temperatu-
ra media. Determine la gran media. Trace la experiencia en un diagrama.
b. Interprete el diagrama. ¿Parece existir una hora en que la temperatura está fuera de control?
8. Consulte el ejercicio 7.
a. Con base en esta experiencia inicial, determine los límites de control para el rango. Trace
la experiencia en un diagrama.
b. ¿Parece existir una hora en que es demasiada la variación de la temperatura?
Por lo tanto, el límite de control superior (UCL) y el límite de control inferior (LCL) se
calculan como el porcentaje medio de defectuosos más o menos tres veces el error están-
dar de los porcentajes (proporciones). La fórmula para los límites de control es:
Construya el diagrama de porcentaje de defectos para este proceso. ¿Cuáles son los límites
de control superior e inferior? Interprete los resultados. ¿Alguno de los empleados respon-
sables de la captura de datos parece estar "fuera de control"?
De los cálculos anteriores, el límite de control superior es 0.0087, que se obtiene mediante
0.0039 + 0.0048. El límite de control inferior es 0. ¿Por qué? El límite inferior con la fórmu-
la se determina con 0.0039 - 0.0048, que es igual a -0.0009. No es posible una proporción
604 Capítulo 17
GRÁFICA 17-8 Diagrama de control para la proporción de defectos de capturas entre los empleados
responsables de la captura de datos en Global National Bank
Gráfica de líneas c
La gráfica de líneas c traza el número de defectos o fallas por unidad. Se basa en la dis-
tribución de Poisson analizada en el Capítulo 6. El número de maletas maltratadas en un
vuelo de Southwest Airlines podría supervisarse con la gráfica de líneas c. La "unidad" bajo
consideración es el vuelo. Las maletas no se maltratan en la mayoría de los vuelos. En
algunos quizá se maltrate una, en otros dos, y así sucesivamente. El Interna! Revenue
Service podría contar y desarrollar una gráfica de control para el número de errores arit-
méticos por devolución de impuestos. La mayoría de las devoluciones no tienen errores,
algunas tienen un solo error, otras tendrán dos y así sucesivamente. Digamos que sea el
número medio de defectos por unidad. Por tanto, es el número medio de maletas mal-
tratadas por vuelo de Southwest Airlines o el número medio de errores aritméticos por
devolución de impuestos. Recuerde que, en el Capítulo 6, la desviación estándar de una
distribución de Poisson es la raíz cuadrada de la media. Por tanto, podemos determinar los
límites de 3 sigma o 99.74%, sobre una gráfica de líneas c mediante:
El editor del Oak Harbor Daily Telegraph está preocupado por el número de palabras
escritas con errores ortográficos en el periódico. No publican en sábado y domingo. En un
esfuerzo por controlar el problema y fomentar la necesidad de una buena ortografía, usará
una gráfica de control. El número de palabras con errores ortográficos encontradas en la
Control de calidad estadístico 605
La suma del número de palabras con errores ortográficos durante el periodo de 10 días es
37. De modo que el número medio de defectos, La raíz cuadrada de este número
es 1.924. Así, el límite de control superior es:
El límite de control inferior calculado sería 3.7 - 3(1.924) = -2.07. Sin embargo, el número
de palabras con errores ortográficos no puede ser menor a 0, de modo que usamos 0 como
el límite inferior. El límite de control inferior es 0 y el límite de control superior es 9.47.
Cuando comparamos cada uno de los puntos de los datos con el valor de 9.47, vemos que
son menores al límite de control superior; el número de palabras con errores ortográficos
está "dentro de control". Desde luego que los periódicos van a esforzarse por eliminar todas
las palabras con errores ortográficos, pero las técnicas de la gráfica de control ofrecen una
forma de llevar un seguimiento de los resultados diarios y determinar si hay un cambio. Por
ejemplo, si se contrata una nueva correctora de pruebas, se podría comparar su trabajo con
el de otros. El resumen de estos resultados se presentan en la Gráfica 17-7, que es el resul-
tado del sistema MINITAB.
GRÁFICA 17-7 Gráfica de líneas c para el número de palabras con errores ortográficos por edición
del Oak Harbor Daily Telegraph
Autoevaluación 17-3 Auto-Life Company produce baterías para carros. Al terminar cada turno, el Departamento de
Seguridad de Calidad selecciona una muestra de baterías y las prueba. El número de baterías
defectuosas que se encontró en los últimos 12 turnos es 2, 1, 0, 2, 1, 1,7, 1, 1, 2, 6 y 1.
Construya una gráfica de control para el proceso y comente si el proceso está dentro de
control.
9. Un fabricante de bicicletas selecciona 10 estructuras cada día y las prueba para ver si tienen
defectos. El número de estructuras defectuosas encontradas durante los últimos 14 días es
3, 2, 1, 3, 2, 2, 8, 2, 0, 3, 5, 2, 0, 4. Construya una gráfica de control para este proceso y
comente si el proceso está "dentro de control".
606 Capítulo 17
10. Scott Paper prueba su papel de baño poniendo 15 rollos a una prueba de tensión de
humedad para ver si y con qué frecuencia se rasga el papel durante la prueba. A conti
nuación se presenta el número de artículos defectuosos encontrado durante los últimos 15
días: 2, 3, 1, 2, 2, 1, 3, 2, 2, 1, 2, 2, 1, 0 y 0. Construya una gráfica de control para el pro
ceso y comente si el proceso está "dentro de control".
11. Sam's Supermarkets prueba a sus empleados en el área de cajas revisando de manera
aleatoria los recibos impresos para detectar errores. Los siguientes números son la cantidad
de errores en cada recibo del 27 de octubre: 0,1, 1, 0, 0, 1,1, 0,1,1, 0. Construya una grá
fica de control para este proceso y comente si el proceso está "dentro de control".
12. Dave Christi administra una cadena de autolavados con sucursales en todo Chicago. Está
preocupado porque algunos gerentes locales lavan gratis los carros de sus amigos. Decide
reunir los datos con base en el número de recibos de venta "anulados". Desde luego que
algunos de ellos son anulaciones legítimas. ¿Los datos a continuación indicarían un número
razonable de "anulaciones" en sus instalaciones: 3, 8, 3, 4, 6, 5, 0, 1, 2, 4? Construya una
gráfica de control para este proceso y comente si el proceso está "dentro de control".
Muestreo de aceptación
El interés en la sección anterior era
mantener la calidad del producto
mientras se fabrica. En muchas
situaciones administrativas, tam-
bién nos preocupa la calidad del
producto terminado que se recibe.
¿Qué tienen en común los siguien-
tes casos?
• Sims Software, Inc., compra los
discos compactos en CDs Inter-
national. La orden de compra
normal es de 100 000 CD,
empacados en lotes de 1 000.
El presidente, Todd Sims, no
espera que cada disco com-
pacto sea perfecto. De hecho,
estuvo de acuerdo en aceptar
lotes de 1 000 con hasta 10%
de defectos. Él quisiera desa-
rrollar un plan para inspeccionar
los lotes que reciben y asegurarse que se cumple con la calidad estándar. La finalidad
del procedimiento de inspección es separar los lotes aceptables de los inaceptables.
• Zenith Electric compra tubos de magnetrón de Bono Electronis para usarlos en su
nuevo horno de microondas. Los tubos se embarcan a Zenith en lotes de 10 000. Zenith
permite que los lotes que recibe contengan hasta el 5% de tubos defectuosos. Les gus-
taría desarrollar un plan de muestreo para determinar cuáles son los lotes que cumplen
con el criterio y cuáles no.
• General Motors compra parabrisas de muchos proveedores. GM insiste en que los
parabrisas sean lotes de 1 000. Están dispuestos a aceptar 50 o menos defectos en
cada lote, es decir, el 5% de defectos. Les gustaría desarrollar un procedimiento de
muestreo para comprobar que los embarques que reciben cumplen con el criterio.
La relación en común en estos casos es la necesidad de comprobar que un producto
que se recibe cumple con los requisitos estipulados. La situación se puede semejar a una
puerta de mosquitero, que permite la entrada del cálido aire veraniego mientras mantiene
fuera a los bichos. El muestreo de aceptación permite la entrada de lotes con calidad
aceptable en el área de manufactura y mantiene fuera los lotes que no son aceptables.
Desde luego que la situación en la administración moderna es más compleja. El com-
prador quiere protegerse para no aceptar lotes que estén por debajo del estándar de calidad.
La mejor forma de protegerse contra una calidad inferior es la inspección del 100%. Por des-
Control de calidad estadístico 607
gracia, el costo de la inspección del 100% con frecuencia es prohibitiva. Otro problema respecto a
revisar cada artículo es que la prueba puede ser destructiva. Si se probaran todos los focos hasta
que se fundieran antes de embarcarse, no quedaría ninguno por vender. Asimismo, la inspección
de 100% tal vez no logre que se identifiquen todos los defectos, ya que el aburrimiento podría
causar una pérdida de percepción por parte de los inspectores. Por tanto, rara vez se emplea una
inspección completa en situaciones prácticas.
El procedimiento usual es examinar la calidad de las partes que se reciben usando un plan de
muestreo estadístico. Según este plan, una muestra de n unidades se selecciona al azar de los
Muestreo de aceptación. lotes de N unidades (la población). Ésto se llama muestreo de aceptación. La inspección
determinará el número de defectos en la muestra. Este número se compara con un número
Número de aceptación. predeterminado, llamado el número crítico o el número de aceptación. El número de aceptación
por lo general se designa c. Si el número de defectos en la muestra de tamaño n es menor o igual a
c, se acepta el lote. Si el número de defectos supera a c, el lote se rechaza y se devuelve al
proveedor, o quizá se envía a una inspección del 100%.
El muestreo de aceptación es un proceso de toma de decisiones. Existen dos decisiones
posibles: aceptar o rechazar el lote. Asimismo, hay dos situaciones bajo las cuales se toma la
decisión: el lote es bueno o el lote es malo. Éstos son estados de la naturaleza. Si el lote es bueno y
la inspección de la muestra así lo revela, o si el lote es malo y la inspección de la muestra lo
confirma, entonces se toma una decisión correcta. Sin embargo, existen otras dos posibilidades. El
lote de hecho puede contener más defectos de los que debería, pero se acepta. Esta acción se
llama riesgo del consumidor. De igual modo, el lote puede estar dentro de los límites aceptados,
Riesgo del consumidor. pero se rechaza durante la inspección de la muestra. Se llama el riesgo del productor. La
siguiente tabla de resumen para ¡as decisiones de aceptación señala estas posibilidades. Observe
Riesgo del productor. cómo este análisis es muy similar a las ideas de los errores Tipo I y Tipo II presentados al principio
del Capítulo 10. (Véase la página 321.)
A fin de evaluar un plan de muestreo y determinar que es justo tanto para el productor como el
consumidor, el procedimiento usual es desarrollar una curva de características operativas, o una
curva de CO, como normalmente se denomina. Una curva de CO reporta el porcentaje defectuoso
Curva de CO. a lo largo del eje horizontal y la probabilidad de aceptar ese porcentaje defectuoso a lo largo del eje
vertical. Por lo general se traza una curva uniforme que conecta todos los niveles de calidad
posibles. La distribución binomial se utiliza a fin de desarrollar las probabilidades para una curva de
CO.
Como antes se mencionó, Sims Software le compra los discos compactos a CDs International. Los
DC se empacan en lotes de 1 000 cada uno. Todd Sims, presidente de Sims Software, está de
acuerdo en aceptar lotes con 10% o menos de DC defectuosos. Todd instruyó a su departamento
de inspección que seleccionara una muestra aleatoria de 20 DC y los revisara con detenimiento.
Aceptará el lote si tiene dos o menos defectos en la muestra. Desarrolle una curva de CO para este
plan de inspección. ¿Cuál es la probabilidad de aceptar un lote que tiene 10% defectuoso?
Este tipo de muestreo se llama muestreo de atributos porque el artículo que se usó en la muestra,
en este caso un DC, se clasifica como aceptable o inaceptable. No se obtiene "lectura" o "medida"
Muestreo de atributos. del DC. Permita que represente la proporción real de defectos en la población.
El lote es aceptable si
El lote es inaceptable si
608 Capítulo 17
Regla de decisión. Deje que sea el número de defectos en la muestra. La regla de decisión es:
Continuando, la posibilidad de aceptar un lote que de hecho tiene 10% de defectos es 0.677.
Es decir:
La curva de CO de la Gráfica 17-8 presenta la curva uniforme para todos los valores de
entre 0% y casi 30%. No hay necesidad de presentar los valores mayores a 30% porque su
probabilidad es muy cercana a 0. La posibilidad de aceptar lotes de niveles de calidad
seleccionados se señalan a la derecha en la Gráfica 17-8. Con la curva de CO, la adminis-
tración de Sims Software podrá evaluar con rapidez las probabilidades de varios niveles de
calidad.
Autoevaluacíón 17-4 Usando el plan de muestreo para Sims Software, calcule la probabilidad de aceptar un lote de
DC donde de hecho 30% están defectuosos.
Ejercicios
13. Determine la probabilidad de aceptar lotes donde 10%, 20%, 30% y 40% está defectuoso
usando una muestra de tamaño 12 y un número de aceptación de 2.
14. Determine la probabilidad de aceptar lotes donde 10%, 20%, 30% y 40% está defectuoso
usando una muestra de tamaño 14 y un número de aceptación de 3.
15. Warren Electric produce fusibles para muchos clientes. Para asegurar la calidad del pro
ducto de salida, prueban 10 fusibles cada hora. Si no más de un fusible está defectuoso,
empaquetan los fusibles y los preparan para su embarque. Desarrolle una curva de CO para
este plan de muestreo. Calcule las probabilidades de aceptar lotes donde 10%, 20%, 30%
y 40% sea defectuoso. Trace una curva de CO para este plan de muestreo usando los cua
tro niveles de calidad.
16. Grills Radio Products le compra transistores a Mira Electronics. De acuerdo con su plan de
muestreo, Art Grills, propietario de Grills Radio, aceptará un embarque de transistores si, en
una muestra de 25, tres o menos están defectuosos. Desarrolle una curva de CO para estos
porcentajes defectuosos: 10%, 20%, 30% y 40%. Necesitará un paquete de software
estadístico.
610 Capítulo 17
c. Las fórmulas para los límites de control superior e inferior para el rango son:
Clave de pronunciación
19. Wendy's sirve sus bebidas gaseosas con una máquina automática cuya operación se basa
en el peso de la bebida gaseosa. Cuando el proceso está dentro de control, la máquina llena
cada vaso de modo que la gran media es 10.0 onzas y el rango de la media es 0.25 para
muestras de 5.
a. Determine los límites de control superior e inferior para el proceso tanto de la media
como del rango.
b. El gerente de la tienda I-280 probó cinco bebidas gaseosas que se sirvieron en la últi-
ma hora y encontró que la media era 10.16 onzas y el rango era 0.35 onzas. ¿El pro-
ceso está dentro de control? ¿Debe tomarse otra acción?
20. Hace poco se instaló una máquina nueva para cortar y dar una forma aproximada a peda-
zos grandes de metal deforme. Los pedazos de metal después se transfieren a una afilado-
ra de precisión. Una de las medidas críticas es el diámetro exterior. El inspector de control
de calidad elige de manera aleatoria 5 pedazos cada hora, mide el diámetro exterior y anota
los resultados. Las medidas (en milímetros) para el periodo de las 8:00 a.m. a las 10:30 a.m.
son las siguientes.
c. ¿Algún punto en la media o la tabla de rangos está fuera de control? Comente sobre la
tabla.
21. Como parte de su proceso de inspección, The Long Last Tire Company prueba sus llantas
para el desgaste del área de contacto bajo condiciones de camino simuladas. Durante el últi-
mo mes de operaciones, se seleccionaron veinte muestras de tres llantas, cada una de
diferentes turnos. A continuación se reporta el desgaste del área de contacto en centésimas
de pulgada.
23. El productor de una barra de dulce, llamada "A Rod", indica en el paquete que el contenido
de calorías es de 420 por barra de 2 onzas. Una muestra de 5 barras en cada uno de los 10
últimos días se envió a un análisis clínico para obtener el contenido de calorías. Los resul-
tados se presentan a continuación. ¿Parece haber algún día en el que el conteo de calorías
está fuera de control? Desarrolle una tabla de control y analice sus hallazgos.
24. The Early Morning Delivery Service garantiza la entrega de paquetes pequeños a las 10:30
a.m. Desde luego que algunos paquetes no se entregan a las 10:30 a.m. En una muestra
Control de calidad estadístico 613
de 200 paquetes entregados en cada uno de los últimos 15 días hábiles, el siguiente número
de paquetes se entregaron después del limite de tiempo: 9, 14, 2, 13, 9, 5, 9, 3, 4, 3, 4, 3,
3, 8 y 4.
a. Determine la proporción media de paquetes entregados después de las 10:30 a.m.
b. Determine los límites de control para la proporción de paquetes entregados después de
las 10:30 a.m. ¿Algún paquete en la muestra estuvo fuera de control?
c. Si 10 de los 200 paquetes en la muestra se entregaron hoy después de las 10:30 a.m.,
¿la muestra está dentro de los límites de control?
25. Una máquina automática produce tornillos de 5.0 milímetros a una tasa de velocidad alta.
Se inició un programa de control de calidad para controlar el número de pieza defectuosas.
El inspector de control de calidad selecciona 50 tornillos de manera aleatoria y determina
cuántos son defectuosos. El número de piezas defectuosas en las primeras 10 muestras es
3, 5,0,4, 1,2, 6, 5, 7 y 7.
a. Diseñe una tabla de porcentaje defectuoso. Inserte el porcentaje defectuoso medio,
UCLy LCL
b. Trace en una gráfica el porcentaje defectuoso para las primeras 10 muestras en la
tabla.
c. Interprete la tabla.
26. Steele Breakfast Foods, Inc., produce una marca popular de cereal de salvado con pasas.
El paquete indica que contiene 25.0 onzas de cereal. Para asegurar la calidad del produc-
to, el departamento de inspección de Steele revisa cada hora el proceso de producción.
Como parte de la revisión cada hora, se seleccionaron 4 cajas y se pesó su contenido. Los
resultados son los siguientes.
Desarrolle una tabla de control apropiada. ¿Cuáles son los límites? ¿El proceso está fuera
de control en algún momento?
27. Un inversionista cree que existe una posibilidad de 50-50 de que una acción suba o baje un
día en particular. Para investigar esta idea, durante 30 días consecutivos de negociaciones el
inversionista selecciona de manera aleatoria una muestra de 50 acciones y cuenta el número
que sube. El número de acciones en la muestra que subieron se presenta a continuación.
614 Capítulo 17
Desarrolle una tabla de porcentaje defectuoso y escriba un resumen breve de lo que encon-
tró. Con base en estos resultados de la muestra, ¿es razonable que las posibilidades de que
una acción suba sean del 50-50? ¿Cuál es el porcentaje de acciones que necesitarían subir
en un día para que el proceso esté "fuera de control"?
28. Lahey Motors se especializa en vender carros a compradores con una historia crediticia defi-
ciente. A continuación se enumera el número de carros que se recuperaron de los clientes
de Lahey porque no cumplieron con sus pagos durante los últimos 36 meses.
Desarrolle una gráfica de barras c para el numero recuperado ¿Hubo algún mes donde el
numero estuvo fuera de control? Escriba un resumen breve de lo que encontró
29. Un ingeniero en procesos esta considerando dos planes de muestreo En el primero selec-
cionara una muestra de 10 y aceptara el lote si 3 o menos artículos están defectuosos En el
segundo, el tamaño de la muestra es 20 y el numero de aceptación es 5 Desarrolle una curva
de CO para cada uno Compare la probabilidad de aceptación para los lotes donde 5% 10%
20% y 30% están defectuosos ¿Cual de los planes recomendaría si usted fuera el proveedor''
30. La ínter State Moving and Storage Company está estableciendo una tabla de control para
seguir de cerca la proporción de mudanzas residenciales que dan como resultado quejas
por escrito debido a un retraso en la entrega, artículos perdidos o artículos dañados Se
selecciono una muestra de 50 mudanzas para cada uno de los últimos 12 meses El numero
de quejas por escrito en cada muestra es 8, 7, 4, 8 2, 7,11, 6 7 6, 8 y 12
a. Diseñe un diagrama de porcentaje de defectuoso Incluya el porcentaje defectuoso
medio UCL y LCL
b. Trace en una gráfica la proporción de quejas por escrito en los últimos 12 meses
c. Interprete la gráfica ¿Parece que el numero de quejas esta fuera de control en algún
mes?
31. Enc's Cookie House vende galletas con chispas de chocolate en centros comerciales El
interés esta en el numero de chispas de chocolate que contiene cada galleta Enc el propie-
tario y presidente, quisiera establecer una tabla de control para el numero de chispas de
chocolate por galleta Para ello, selecciona una muestra de 15 galletas de la producción de hoy
y cuenta el numero de chispas de chocolate en cada una Los resultados son los siguientes
6 , 8 20, 12,20, 19 11,23, 12, 14, 15,16, 12, 13 y 12
a. Determine la línea central y los limites de control
b. Desarrolle una diagrama de control y trace en una gráfica el numero de chispas de
chocolate por galleta
c. Interprete la tabla ¿Parece que el numero de chispas de chocolate esta fuera de con-
trol en alguna de las galletas en la muestra?
32. El numero de ocasiones en que "los pasajeros casi pierden el vuelo' registrado durante los
últimos 20 meses en el Aeropuerto Internacional de Lima es 3, 2, 3, 2 2 3 5 1 2 2 4 4
2,6,3,5,2,5 1y3 Desarrolle una gráfica de control apropiada Determine el numero medio
de pasajeros que pierden el vuelo al mes y los limites en el numero de pasajeros que pier
den el vuelo al mes ¿Existe algún mes en que el numero de "pasajeros que casi pierden el
vuelo' esté fuera de control?
33. El siguiente numero de asaltos fueron reportados durante los últimos 10 días en la división de
robos de la policía metropolitana 10, 8,8,7, 8, 5 8, 5, 4 y 7 Desarrolle un diagrama de control
apropiada Determine el numero medio de asaltos reportados por día y determine los limites
de control ¿Existe algún día donde el numero de asaltos reportados este fuera de control?
34. Seiko compra vástagos de relojes para sus relojes en lotes de 10 000 El plan de muestreo
de Seiko requiere que se revisen 20 pernos, y si 3 o menos pernos están defectuosos se
acepta el lote
a. Con base en su plan de muestreo, ¿cual es la probabilidad de que se acepte un lote
donde 40% está defectuoso?
b. Diseñe una curva de CO para los lotes que se reciben con un 0% 10% 20% 30% y
40% de pernos defectuosos
35. Automatic Screen Door Manufactunng Company compra pasadores para puertas de un
numero de vendedores El departamento de compras es el responsable de inspeccionar los
Control de calidad estadístico 615
pasadores que se reciben. Automatic compra 10 000 pasadores para puertas al mes e
inspecciona 20 pasadores que selecciona de manera aleatoria. Desarrolle una curva de CO
para el plan de muestreo sí tres pasadores pueden estar defectuosos y aún así se acepta el
lote que se recibe.
36. Al principio de cada temporada de fútbol, Team Sports, la tienda de artículos deportivos
local, compra 5 000 balones. Se eligió una muestra de 25 balones, los cuales se inflaron,
probaron y desinflaron. Si más de dos balones están defectuosos, el lote de 5 000 se
devuelve al fabricante. Desarrolle una curva de CO para este plan de muestreo.
a. ¿Cuáles son las probabilidades de aceptar lotes donde 10%, 20% y 30% esté defectuoso?
b. Calcule la probabilidad de aceptar un lote donde 15% esté defectuoso.
c. John Brennen, propietario de Team Sports, quisiera tener la probabilidad de aceptar un
lote donde 5% esté defectuoso que sea más del 90%. ¿Parece ser el caso con este plan
de muestreo?
Comandos de software
1. Los comandos MINITAB para el diagrama de Pareto en
la página 592 son:
a. Capture en la columna C1 las razones para el uso
del agua y los galones usados en C2. Asigne nom-
bres adecuados a las columnas.
b. Haga clic en Stat, Quality Tools, Pareto Chart y
después oprima Enter.
c. Seleccione Chart defects table, indique la ubi
cación de las clasificaciones y frecuencias, haga
clic en Options y escriba un título de la tabla y
haga clic en OK.
Introducción
En este capítulo vamos a analizar una útil herramienta descriptiva llamada índice. Sin du-
da, usted está familiarizado con índices como el índice de Precios al Consumidor, que el
Departamento del Trabajo de Estados Unidos publica cada mes. Hay muchos otros, como
el Promedio Industrial Dow Jones (DJIA), Nasdaq, NIKKEI 225 y Standard & Poor's 500
Stock Averages. El gobierno federal publica los índices en forma regular a través de publi-
caciones de negocios como Business Week y Forbes, en la mayor parte de los periódicos
y en Internet.
¿Qué importancia tiene un índice? ¿Por qué el índice de Precios al Consumidor es tan
importante y tan popular? Como su nombre lo indica, mide el cambio en el precio de un gru-
po muy numeroso de artículos que compran los consumidores. La Oficina de la Reserva Fe-
deral, grupos de consumidores, sindicatos, administradores, organizaciones de personas
de la tercera edad y otras organizaciones en los negocios y la economía se preocupan por
los cambios en los precios. Estos grupos vigilan muy de cerca el índice de Precios al Con-
sumidor, así como el índice de Precios al Productor, que mide las fluctuaciones de pre-
cios en todas las etapas de producción. Para combatir los incrementos muy marcados en
los precios, a menudo, la Reserva Federal eleva las tasas de interés a fin de "congelar" la
economía. De modo similar, el Promedio Industrial Dow Jones, que se publica todos los
días, describe el cambio general en los precios de las acciones comunes de 30 compañías
grandes durante el día.
Algunos índices de mercado accionario aparecen todos los días en la sección financie-
ra de casi todos los periódicos. En muchos sitios web se actualizan por lo menos cada 15
minutos, como la sección de USA Today (http://www.usatoday.com/money/front.htm). A
continuación, presentamos el Promedio Industrial Dow Jones, el Nasdaq y el S&P 500 del
sitio web de USA Today.
Si el número índice se utiliza para medir el cambio relativo en una sola variable, como los
salarios por hora en la manufactura, nos referimos a él como un índice sencillo. Es la razón
de dos variables, y esa razón se convierte en un porcentaje. Los siguientes cuatro ejemplos
servirán para ilustrar el uso de los números índice en los negocios. Como señalamos en la
definición, el uso principal de un número índice en los negocios es mostrar el cambio por-
centual en uno o más artículos de un periodo a otro.
Según la Bureau of Labor Statistics, en enero de 1987, el sueldo promedio por hora de obre-
EJEMPLO ros era $8.90. En enero de 2003, era de $15.07. ¿Cuál es el índice de sueldos por hora de
los obreros para enero de 2003, con base en enero de 1987?
620 Capítulo 18
Por tanto, el sueldo por hora en enero de 2003 comparado con el de enero de 1987 era
169.3%. Esto significa que hubo un incremento de 69.3% en los salarios por hora durante
el periodo, calculado así: 169.3 - 100.0 = 69.3.
Puede revisar la información más reciente sobre salarios, los índices de Precios al Con-
sumidor y otros valores relacionados con los negocios en el sitio web de Bureau of Labor
Statistics: http://www.bls.gov y hacer c//cen Wages. La tabla siguiente muestra algunas es-
tadísticas de BLS.
Según ACCRA, una organización de investigación no lucrativa que promueve las investiga-
ciones para el desarrollo económico y de la comunidad (http://www.accra.org), el costo me-
dio diario de un cuarto en un hospital promedio en Estados Unidos es $643.80. El precio
medio de un cuarto en un hospital privado de Las Vegas es $713.17. ¿Cuál es el índice para
Las Vegas con base en el promedio nacional?
Esto indica que el costo promedio de un cuarto en un hospital privado en Las Vegas es
110.8% del promedio en Estados Unidos. En otras palabras, el cuarto promedio en un hospi-
tal privado en Las Vegas cuesta 10.8% más que el promedio nacional (110.8 - 100.0 = 10.8).
Un índice también puede comparar un artículo con otro. En 2002, la población de la provin-
cia canadiense de la Columbia Británica era 4 141 272 y en Ontario era 12 068 301. ¿Cuál
es el índice de población de la Columbia Británica en comparación con Ontario?
Esto indica que la población de la Columbia Británica es 34.3% (alrededor de una tercera
parte) de la población de Ontario, o la población de la Columbia Británica es 65.7% más ba-
ja que la población de Ontario (100 - 34.3 = 65.7).
La siguiente pantalla de Excel muestra el número de pasajeros (en millones) para los cinco
aeropuertos más grandes en Estados Unidos durante 2002. ¿Cuál es el índice para Atlan-
ta, Chicago, Los Ángeles y Dallas/Ft. Worth en comparación con Denver?
Para encontrar los cuatro índices, dividimos los pasajeros para Atlanta, Chicago, Los Ánge-
les y Dallas/Ft. Worth entre el número en Denver. Llegamos a la conclusión de que Atlanta
tuvo 110% más pasajeros que Denver, Chicago 95% más, Los Ángeles 69% más y Da-
llas/Ft. Worth 52.9% más.
622 Capítulo 18
Supongamos que el precio de un paquete de fin de semana durante el otoño (que in-
cluye hospedaje y todas las comidas) en el Tyron Mountain Lodge en el oeste de Carolina
del Norte durante 2000 era de $450, y en 2004, subió a $705. ¿Cuál es el índice de precio
para 2004 utilizando 2000 como el periodo base y 100 como el valor base? Es 176.7, calcu-
lado mediante:
Números índice 623
Interpretando este resultado, el precio del paquete de fin de semana en otoño aumentó
76.7% de 2000 a 2004.
El periodo base no necesita ser un solo año. Observe en la Tabla 18-1 que si usamos
1990-91 = 100, el precio base para la engrapadora sería $21 [calculado por la determina-
ción del precio medio de 1990 y 1991 ($20 + $22)/2 = $21]. Los precios $20, $22 y $23 se
promedian si 1990-92 se selecciona como base. El precio medio sería $21.67. En la Tabla
18-1 se presentan índices creados utilizando tres periodos de base diferentes. (Observe
que cuando 1990-92 = 100, los números índice para 1990, 1991 y 1992 promedian 100.0,
como podríamos esperar.) Como es lógico, los números índice para 2004 usando las tres
bases diferentes no son iguales.
TABLA 18-1 Precios de una engrapadora automática Benson. modelo 3, convertidos en índices utilizando
tres periodos de base diferentes
Autoevaluación 18-1 1. Los ingresos antes de impuestos durante el segundo trimestre de 2002 para algunas
compañías seleccionadas son:
(a) Utilizando 1995 como el periodo base y 100 como el valor base, determine los índices
para los otros años. Interprete el índice.
(b) Use el promedio de 1995 y 1997 como la base y determine los índices para 2000 y 2003.
Interprete el índice.
624 Capítulo 18
Ejercicios
1. PNC Bank, Inc., que tiene su sede en Pittsburgh, Pennsylvania, reportó $17 446 (millo
nes) en préstamos comerciales durante 1995, $19, 989 en 1997, $21 468 en 1999,
$21 685 en 2000 y $15 922 en 2002. Usando 1995 como base, desarrolle un índice
sencillo para el cambio en los montos de los préstamos comerciales para los años
1997, 1999, 2000 y 2002.
2. La tabla siguiente reporta los precios accionarios ajustados para Home Depot en años
recientes. Desarrolle un índice, tomando 1995 como base, para el cambio en el precio
accionario durante el periodo.
4. En enero de 1994, el precio de un pollo entero fresco era $0.899 por libra. En marzo de
2000, el precio del mismo pollo era $1.053. Utilice el precio de enero de 1994 como el
periodo base y 100 como el valor base para desarrollar un índice sencillo. ¿En qué por-
centaje aumentó el costo del pollo?
Índices no ponderados
En muchas situaciones, queremos combinar varios artículos y desarrollar un índice para
comparar el costo de este grupo de artículos en diferentes periodos. Por ejemplo, quizá nos
interese un índice para los artículos relacionados con los gastos de manejar y mantener un
automóvil. Los artículos en el índice podrían incluir llantas, cambios de aceite y precios de
la gasolina. O bien, podríamos estar interesados en el índice para estudiantes universita-
rios. Éste podría incluir libros, colegiaturas, vivienda, comidas y diversión. Hay varias for-
mas de combinar los artículos para determinar el índice.
TABLA 18-2 Cálculo del índice de Precios para los Alimentos 2003, 1995 = 100
Empezaríamos por calcular un promedio simple de los índices de precios para ca-
da artículo, utilizando 1995 como el año base y 2003 como el año determinado. El índice
simple para el pan es 115.6, que se calculó usando la fórmula (18-1).
Calculamos el índice simple para los otros artículos en la Tabla 18-2 de manera similar. El
mayor incremento de precio fue para el pan, 15.6%, y la leche quedó en un segundo lugar
muy cercano con 14.8%. El precio del huevo bajó medio punto porcentual en el periodo, que
calculamos mediante 100.0 - 99.5 = 0.5. Así, sería natural promediar los índices simples.
La fórmula es:
donde P. se refiere al índice simple para cada uno de los artículos y n al número de artícu-
los. En nuestro ejemplo el índice es 108.2, calculado a través de:
Esto significa que la media del grupo de índices se incrementó 8.2% de 1995 a 2003.
Una característica positiva del promedio simple de índices de precios es que obtene-
mos el mismo valor para el índice sin importar las unidades de medición. En el índice ante-
rior, si las manzanas tienen un precio por tonelada, en lugar de libras, el impacto de las
manzanas sobre el índice combinado no cambia. Es decir, la mercancía "manzanas" repre-
senta uno de los seis artículos en el índice, de modo que su impacto no se relaciona con
las unidades. Una característica negativa de este índice es que no considera la importan-
cia relativa de los artículos incluidos en él. Por ejemplo, la leche y el huevo reciben la mis-
ma ponderación, aun cuando una familia típica puede gastar mucho más durante un año en
leche que en huevo.
A éste se le conoce como índice agregado simple. El índice para los artículos antes men-
cionados se calcula sumando los precios en 1995 y 2003. La suma de los precios para el
periodo base es $10.94 y para el periodo determinado es $11.62. El índice agregado sim-
626 Capítulo 18
pie es 106.2. Esto significa que el grupo de precios agregado ha aumentado 6.2% en el pe-
riodo de ocho años.
Como las unidades de medición pueden influir en el valor de un índice agregado sim-
ple, éste no se debe usar con frecuencia. En nuestro ejemplo, el valor del índice cambiaría
de manera significativa si reportáramos el precio de las manzanas por toneladas en lugar
de libras. Asimismo, observe el efecto del café en el índice total. Tanto para el año en cur-
so como para el año base, el valor del café constituye aproximadamente 40% del índice to-
tal, de modo que un cambio en su precio cambiará el índice en mayor medida que cualquier
otro artículo. De modo que necesitamos una forma de "ponderar" los artículos de acuerdo
con su importancia relativa.
Índices ponderados
Dos métodos para calcular el índice de precios ponderado son el método de Laspeyres y
el de Paasche. Difieren sólo en el periodo utilizado para la ponderación. El método de Las-
peyres usa ponderaciones en el periodo base; es decir, los precios y cantidades originales
de los artículos comprados se utilizan para encontrar el cambio porcentual a través de un pe-
riodo ya sea en precio o en cantidad consumida, dependiendo del problema. El método de
Paasche utiliza ponderaciones en el año en curso para el denominador del índice ponderado.
donde:
es el índice de precios.
es el precio actual.
es el precio en el periodo de base.
es la cantidad utilizada en el periodo base.
Los precios para los seis artículos de comida de la Tabla 18-2 se repiten a continuación en
la Tabla 18-3. También se incluye el número de unidades de cada uno que consumió una
familia típica en 1995 y 2003.
TABLA 18-3 Cálculo de los índices de Laspeyres y Paasche del precio de los alimentos, 1995 = 100
Números índice 627
Primero, determinamos la cantidad total gastada para los seis artículos en el periodo base,
1995. Para encontrar este valor, multiplicamos el precio del periodo base para el pan
($0.77) por la cantidad de ese periodo, que es de 50. El resultado es $38.50. Esto indica
que un total de $38.50 se gastó en pan durante el periodo base. Hacemos lo mismo para
todos los artículos y sumamos los resultados. El periodo base total es $336.16. El periodo
actual total se calcula de manera similar. Para el primer artículo, el pan, multiplicamos la
cantidad en 1995 por el precio del pan en 2003, es decir, $0.89(50). El resultado es $44.50.
Hacemos los mismos cálculos para cada artículo y sumamos el resultado. El total es
$365.60. Debido a la naturaleza repetitiva de estos cálculos, una hoja de cálculo es efecti-
va para realizarlos. A continuación presentamos la pantalla de Excel.
Con base en este análisis, llegamos a la conclusión de que el precio de este grupo de
artículos aumentó 8.8% en el periodo de ocho años. La ventaja de este método sobre el ín-
dice agregado simple es que se toma en cuenta la importancia de cada artículo. En el índi-
ce agregado simple, el café tuvo una ponderación de casi 40% al determinarlo. En el índice
de Laspeyres, el artículo más importante es la leche, porque el producto del precio y las uni-
dades vendidas es el más alto.
mos la suma de los productos de los precios de 1995 y las cantidades de 2003. Tiene la
ventaja de que usa las cantidades más recientes. Si ha habido un cambio en las cantida-
des consumidas desde el periodo base, éste se refleja en el índice de Paasche.
Utilice la información de la Tabla 18-3 para determinar el índice de Paasche. Analice cuál
de los índices debe usar.
Una vez más, debido a la naturaleza repetitiva de los cálculos, usamos Excel para realizar-
los. Los resultados se muestran en la pantalla siguiente.
Este resultado indica que, entre 1995 y 2003, hubo un aumento de 9.4% en el precio de
mercado de esta canasta de productos. Es decir, costaba 9.4% más comprar estos artículos
en 2003 que lo que costaba en 1995. Considerando todo esto, debido al cambio en las canti-
dades compradas entre 1995 y 2003, el índice de Paasche refleja mejor la situación actual.
Debemos hacer notar que el índice de Laspeyres se utiliza con mayor frecuencia. El índice de
Precios al Consumidor, que es el más reportado, es un ejemplo de un índice de Laspeyres.
¿Cómo decidimos qué índice vamos a usar? ¿Cuándo el índice de Laspeyres es el más
apropiado y cuándo el de Paasche es una mejor opción?
Índice de Laspeyres
Ventajas Requiere de información sobre las cantidades sólo del periodo base. Esto
permite una comparación más significativa a través del tiempo. Los
cambios en el índice se pueden atribuir a cambios en el precio.
Desventajas No refleja los cambios en los patrones de compra a través del tiempo.
Además, puede ponderar demasiado los artículos cuyos precios se incre-
mentan.
Números índice 629
Índice de Paasche
Ventajas Como utiliza las cantidades del periodo actual, refleja los hábitos de com-
pra actuales.
Desventajas Requiere de la información sobre las cantidades de cada año, misma que
puede ser difícil de obtener. Debido a que se usan distintas cantidades
cada año, es imposible atribuir los cambios en el índice a aquellos en los
precios solamente. Suele ponderar demasiado los artículos cuyos pre-
cios han bajado. Es necesario volver a calcular los precios cada año.
En teoría, el índice de Fisher parece ser ideal porque combina las mejores característi-
cas de los índices de Laspeyres y Paasche. Es decir, logra equilibrar los efectos de los dos.
Sin embargo, en la práctica, rara vez se utiliza porque tiene los mismos problemas que el ín-
dice de Paasche. Es necesario determinar un nuevo conjunto de cantidades para cada año.
Autoevaluación 18-2 Es necesario elaborar un índice de precios de la ropa para 2004 basado en 2000. Las pren-
das de ropa que se consideran son zapatos y vestidos. A continuación, proporcionamos la in-
formación sobre los precios y cantidades de ambos años. Utilice el año 2000 como periodo
base y 100 como el valor base.
Ejercicios
Para los ejercicios 5 a 8:
5. A continuación, presentamos los precios de la pasta de dientes (9 oz), el champú (7 oz), las
pastillas para la tos (paquete de 100) y el desodorante (2 oz) en agosto de 2000 y agosto
de 2003. También incluimos las cantidades compradas. Utilice agosto de 2000 como base.
6. A continuación, presentamos los precios de la fruta y las cantidades consumidas para 2000
y 2003. Utilice 2000 como base.
7. A continuación, se reportan los precios y números de diversos artículos producidos por una
máquina pequeña y una planta troqueladora. Use el 2000 como base.
Índice de valores
Un índice de valores mide el Un índice de valores mide los cambios tanto en el precio como en las cantidades involu-
porcentaje de cambio en el cradas. Un índice de valores, como el índice de las ventas en tiendas departamentales, ne-
valor cesita los precios del año base, las cantidades del año base, los precios del año actual y
las cantidades del año en curso para su elaboración. Su fórmula es:
Los precios y cantidades vendidas en Waleska Department Store para diversas prendas de
ropa en mayo de 2000 y mayo de 2003 son:
Las ventas totales en mayo de 2003 fueron $10 600 000 y la cifra comparable para 2000 es
$9 000 000. (Vea la Tabla 18-4.) Por tanto, el índice de valores para mayo de 2003 usan-
do 2000 = 100 es 117.8. El valor de las ventas de ropa en 2003 fue 117.8% de las ventas
del 2000. En otras palabras, el valor de las ventas de ropa aumentó 17.8% de mayo de 2000
a mayo de 2003.
Autoevaluación 18-3 El número de artículos producidos por Houghton Products en 1996 y 2004, y los precios al
mayoreo para ambos periodos son:
(a) Encuentre el índice de valores de la producción de 2004 utilizando 1996 como periodo
base.
(b) Interprete el índice.
Ejercicios
9. Los precios y la producción de grano en agosto de 1995 y agosto de 2003 fueron:
Utilizando 1995 como periodo base, encuentre el índice de valores del grano producido en
agosto de 2003.
10. The Johnson Wholesale Company fabrica diversos productos. Los precios y cantidades pro-
ducidas en abril de 1994 y abril de 2003 son:
Utilizando abril de 1994 como periodo base, encuentre el índice del valor de los bienes pro-
ducidos en abril de 2003.
TABLA 18-5 Datos para el calculo del índice General de Actividades de Negocios del Noroeste
Después de una revisión y varias consultas, el director asignó ponderaciones de 40% a las
ventas de las tiendas departamentales, 30% al empleo, 10% a los transportes de carga y
20% a las exportaciones.
Para desarrollar el índice General de Actividades de Negocios del Noroeste para 2004
con base en 1995 = 100, cada valor de 2004 se expresa como un porcentaje, con el valor
del periodo de base como denominador. Para ilustrar, las ventas de las tiendas departa-
mentales para 2004 se convierten en un porcentaje calculado ($44/$20)(100) = 220. Esto
significa que las ventas de tiendas departamentales aumentaron 120% en el periodo. Este
porcentaje se ajusta mediante la ponderación apropiada. Para las ventas de las tiendas de-
partamentales es (220)(0.40) = 88.0. Los detalles de los cálculos para los años 2000 y 2004
se presentan a continuación.
El índice General de Actividades de Negocios del Noroeste para 2000 es 157.0 y para
2004 es 157.1. Interpretando lo anterior, las actividades de negocios se incrementaron
57.0% de 1995 a 2000 y 57.1% del periodo base de 1995 a 2004.
Como dijimos al principio de esta sección, hay muchos índices para propósitos espe-
ciales, y éstos son algunos ejemplos.
Índice de Precios al Consumidor. La U.S. Bureau of Labor Statistics reporta este índice
cada mes. Describe los cambios en los precios de un periodo a otro para una "canasta bá-
sica" de productos y servicios. En la siguiente sección, estudiamos su historia con detalle y
634 Capítulo 18
presentamos algunas de sus aplicaciones. Usted tendrá acceso a esta información si visita
www.bls.org, busca Prices & Living Conditions, selecciona Consumer Price Index-AII
Urban Consumers, Most Requested Statistics y hace clic en U.S. all ítems 1982-84 =
100. Quizá prefiera incluir distintos periodos. A continuación, presentamos el resumen de
un informe reciente.
índice de Precios del Productor. Antes se llamaba índice de Precios al Mayoreo, data de
1890 y también lo publica la U.S. Bureau of Labor Statistics. Refleja los precios de más de
3 400 productos. La información de precios se recopila de los vendedores de los productos
y casi siempre se refiere a la primera operación de alto volumen para cada producto. Es un
índice tipo Laspeyres. Para tener acceso a esta información, visite www.bls.gov, vaya a la
sección Prices & Living Conditions, seleccione Producer Price Index-Commodities, Most
Requested Statistics y luego Finished Goods. Puede incluir distintos periodos. A conti-
nuación, presentamos una pantalla reciente.
Promedio Industrial Dow Jones (DJIA). Éste es un índice de precios accionarios, pero tal
vez sería mejor decir que es un "indicador" más que un índice. Se supone que es el precio
medio de 30 acciones industriales específicas. Sin embargo, si sumamos las 30 acciones y
Números índice 635
dividimos entre 30 no calculamos su valor. Esto se debe a las divisiones accionarias, las fu-
siones y las acciones que se agregan o eliminan. Cuando ocurre algún cambio, se hacen
ajustes en el denominador que se usa con el promedio. En la actualidad, el DJIA es más un
indicador psicológico que una representación del movimiento de precios general en la Bol-
sa de Valores de Nueva York. La falta de representatividad de las acciones en el DJIA es
una de las razones por las que se desarrolló el índice de la Bolsa de Valores de Nueva
York (NYSEI por sus siglas en inglés). Este índice se creó como un precio promedio de to-
das las acciones en la Bolsa de Valores de Nueva York. Puede encontrar más información
sobre el DJIA en el sitio web www.dowjones.com. También encontrará el valor actual de las
30 acciones que forman parte de su cálculo. La pantalla siguiente resume el DJIA para un
día, y la encuentra en http://bigcharts.marketwatch.com.
Índice S&P 500. El nombre completo de este índice es índice Compuesto de Precios Ac-
cionarios de Standard & Poor's. Se trata de un índice agregado de los precios de 500 accio-
nes comunes. También refleja mejor el mercado que el DJIA. En el sitio web de Dow Jones
tiene acceso a la información acerca del S&P 500. A continuación, presentamos un resu-
men reciente.
636 Capítulo 18
Autoevaluación 18-4 Como pasante en la Fulton County Economic Development Office, le piden que desarrolle un
índice para propósitos especiales del condado. Tres series económicas parecen ser adecua-
das para la base de un índice. Estos datos son el precio del algodón (por libra), el número de
autos nuevos vendidos en el condado y los movimientos de dinero (publicados por el banco
local). Después de discutir el proyecto con su supervisor y con el director, decide que la recu-
peración monetaria debe tener una ponderación de 0.60, el número de autos nuevos vendi-
dos de 0.30 y el precio del algodón de 0.10. El periodo base es 1995.
Ejercicios
11. El índice de los principales indicadores económicos, compilado y publicado por la U.S. Na-
tional Bureau of Economic Research, está compuesto por 12 series de tiempos, como el pro-
medio de horas laborales de producción en la manufactura, los nuevos pedidos de los
fabricantes y la oferta de dinero. Este índice y otros similares están diseñados para mover-
se hacia arriba o hacia abajo antes de que la economía empiece a moverse en la misma di-
rección. De esta manera, un economista tiene evidencias estadísticas para proyectar las
tendencias futuras.
Usted quiere elaborar un indicador principal para Erie County en el norte del estado de
Nueva York. El índice se va a basar en los datos de 2000. Debido al tiempo y trabajo reque-
ridos, decide usar sólo cuatro series de tiempo y, como experimento, selecciona estas cua-
tro: desempleo en el condado, un índice combinado de precios accionarios en el condado,
índice de Precios del Condado y ventas al detalle. Éstas son las cifras para 2000 y 2003.
Las ponderaciones que asigna son: tasa de desempleo: 20%, precios accionarios: 40%, ín-
dice de Precios del Condado: 25% y ventas al detalle: 15%.
a. Utilizando 2000 como periodo de base, elabore un indicador principal económico para
2003.
b. Interprete su índice.
12. Usted trabaja en la oficina estatal de desarrollo económico, y es necesario crear un índice
económico para revisar la actividad económica en el pasado y proyectar las tendencias eco-
nómicas futuras en el estado. Decide que debe incluir varios factores clave: número de ne-
gocios iniciados durante el año, número de fracasos en los negocios, las ganancias del
estado en impuesto sobre el ingreso, inscripciones en las universidades y las ganancias fis-
cales sobre las ventas en el estado. Éstos son los datos para 2000 y 2003.
Números índice 637
Una revisión de esta lista muestra que un índice ponderado de todos los artículos ha
aumentado 85.2% desde 1982-84; los servicios médicos son los que más se incrementa-
ron, 199.2%; y la ropa y la manutención son las que menos aumentaron, 22.0%.
Ingreso real. Ingreso real. Como ejemplo del significado y el cálculo del ingreso real, suponga que en la
actualidad el índice de Precios al Consumidor es 200 con 1982-84 = 100. Asimismo, supon-
ga que la señorita Watts ganaba $20 000 anuales en el periodo de base de 1982, 1983 y
1984. En la actualidad, tiene un ingreso de $40 000. Observe que, aun cuando su ingreso
monetario se ha duplicado desde el periodo de base de 1982-84, los precios que paga por
los alimentos, la gasolina, la ropa y otros artículos también se han duplicado. Por tanto, el
estándar de vida de la señorita Watts ha sido el mismo desde el periodo de base hasta la
actualidad. Los incrementos en los precios son exactamente iguales al aumento en el ingre-
so, de modo que su poder de compra actual (el ingreso real) sigue siendo $20 000. (Vea la
Tabla 18-6, para los cálculos.) En general:
TABLA 18-6 Cálculo del ingreso real para 1982-84 y el año en curso
El ingreso de deflación y el El concepto de ingreso real en ocasiones se conoce como ingreso de deflación. Asimis-
ingreso real son lo mismo. mo, un término popular para este ingreso es ingreso expresado en dólares en efectivo. Por
tanto, en la Tabla 18-6, para determinar si el estándar de vida de la señorita Watts ha cam-
biado, su ingreso monetario se convirtió en dólares en efectivo. Descubrimos que su poder
de compra, expresado en dólares de 1982-84 (dólares constantes), sigue siendo $20 000.
Las ventas deflacionadas son Ventas de deflación. Un índice de precios también se puede utilizar para "deflacionar" las
importantes para mostrar la ventas o series monetarias similares. Las ventas deflacionadas se determinan mediante
tendencia en las ventas
"reales".
Las ventas de Hill Enterprises, una pequeña compañía de moldeado por inyección al norte
del estado de Nueva York, aumentaron de $875 000 en 1982 a $1 482 000 en 1995, $1
491 000 en 2000 y $1 502 000 en 2004. El propietario, Harry Hill, se da cuenta de que el
precio de la materia prima que se utiliza en el proceso también se incrementó durante el
periodo, de modo que el señor Hill quiere deflacionar las ventas a fin de tomar en cuenta el
aumento en los precios de la materia prima. ¿Cuáles son las ventas deflacionadas para
1995, 2000 y 2004 con base en los dólares de 1982? Es decir, ¿cuáles son las ventas para
1995, 2000 y 2004 expresadas en dólares constantes de 1982?
El índice de Precios del Productor (IPP) es un índice que se emite cada mes y se publica
en Monthly Labor Review y también está disponible en el sitio web de la Bureau of Labor
Statistics. Los precios que se incluyen en el IPP reflejan los precios que paga el fabricante
por el metal, el plástico y otros artículos que compra. De modo que el IPP parece un índice
apropiado para utilizarlo a fin de deflacionar las ventas del fabricante. Estas últimas se pre-
sentan en la segunda columna de la Tabla 18-7, y el IPP para enero de cada año se en-
cuentra en la tercera columna. La siguiente columna muestra las ventas divididas entre el
IPP. La columna de la derecha presenta los detalles de los cálculos. Los resultados se
muestran en la siguiente pantalla de Excel.
Las ventas reales aumentaron de 1995 a 2004, pero si comparamos las ventas en dó-
lares constantes, las ventas bajaron durante el periodo. Es decir, las ventas deflacionadas
fueron $1 139 908 en 2000, pero bajaron a $1 105 224 en 2004. Esto se debe a que los
precios que Hill Enterprises pagó por la materia prima aumentaron con mayor rapidez que
las ventas.
¿Qué ha sucedido con el poder Poder de compra del dólar. El índice de Precios al Consumidor también se utiliza para de-
de compra de su dinero? terminar el poder de compra del dólar.
640 Capítulo 18
Suponga que el índice de Precios al Consumidor este mes es 200.0 (1982-84 = 100). ¿Cuál
es el poder de compra del dólar?
El I PC de 200.0 indica que los precios se duplicaron desde los años 1982-84 hasta este
mes. Por tanto, el poder de compra del dólar se redujo a la mitad. Es decir, un dólar de
1982-84 vale sólo 50 centavos este mes. En otras palabras, si perdió $1 000 en el periodo
de 1982-84 y los encontró recientemente, con ese dinero puede comprar sólo la mitad de
lo que habría comprado en los años 1982, 1983 y 1984.
El IPC se usa para ajustar Ajustes en el costo de la vida. En Estados Unidos el índice de Precios al Consumidor (IPC)
salarios, pensiones y demás. también es la base para los ajustes en el costo de la vida de muchos contratos entre admi-
nistradores y sindicatos. La cláusula específica en el contrato a menudo se conoce como
"cláusula escaladora" o COLA. Alrededor de 31 millones de beneficiarios del Seguro Social,
2.5 millones de militares jubilados y empleados y jubilados de servicios civiles federales, y
600 000 trabajadores del servicio postal basan sus ingresos o pensiones en el IPC.
Este índice también se usa para ajustar los pagos de pensión alimenticia y manuten-
ción de los hijos; honorarios de abogados; compensaciones para trabajadores; rentas de
departamentos, casas y edificios de oficinas; pagos del seguro de desempleo; etc. En resu-
men, digamos que un jubilado recibe una pensión de $500 al mes y que el IPC aumenta 5
puntos, de 165 a 170. Suponga que por cada punto de incremento del IPC, las pensiones
se incrementan 1.0%, de modo que el aumento mensual será de $25, calculado así: $500
(5 puntos)(0.01). Ahora, el jubilado va a recibir $525 al mes.
Autoevaluación 18-6 Suponga que el índice de Precios al Consumidor para el último mes es 178.6 (1982-84 = 100).
¿Cuál es el poder de compra del dólar? Interprete su respuesta.
Cambio de la base
Si dos o más series de tiempos tienen el mismo periodo base, se pueden comparar direc-
tamente. Por ejemplo, suponga que nos interesa conocer la tendencia en los precios de los
alimentos y las bebidas, la vivienda, los servicios médicos, etcétera, desde el periodo de ba-
se, 1982-84. En la Tabla 18-8, observe que todos los índices de precios al consumidor uti-
lizan la misma base. Por tanto, podemos decir que el precio de todos los artículos para el
consumidor combinados aumentó 78.9% desde el periodo de base (1982-84) hasta el año
2002. De modo similar, los precios de la vivienda se incrementaron 80.3%, los servicios mé-
dicos 189.3%, etcétera.
TABLA 18-8 Tendencia en los precios al consumidor para 2002 (1982-84 = 100)
Números índice 641
Sin embargo, surge un problema cuando dos o más series que se comparan no tienen
el mismo periodo base. El ejemplo siguiente compara los dos índices de negocios más co-
munes, el DJIA y el Nasdaq.
Queremos comparar los cambios de precios en el Promedio Industrial Dow Jones con el
Nasdaq. Los dos índices en los periodos seleccionados son los siguientes.
Con la información proporcionada, no estamos seguros de que los periodos base sean igua-
les, de modo que la comparación directa no es apropiada. Como queremos comparar los
cambios en los dos índices de negocios, lo lógico es que un año en particular, 1995, sirva
de base para ambos periodos. Para el Dow Jones, la base es 5 117.12 y para el Nasdaq
es 1 059.79.
Los cálculos para el Nasdaq 2002 utilizando 1995 = 100 son:
Llegamos a la conclusión de que los índices aumentaron durante el periodo. El Dow Jo-
nes se incrementó más, 63.01% en comparación con 26.02%. Los dos bajaron de 2000 a
2002, siendo más pronunciada la caída del Nasdaq.
La gráfica siguiente que obtuvimos de la sección financiera de Yahoo!, muestra una
comparación visual de los índices Dow Jones y Nasdaq. El eje vertical indica el cambio por-
centual a partir del año base de 1998 para ambos. Por esta gráfica podemos llegar la con-
clusión de que ambas medidas se han reducido en un periodo de cinco años, pero que el
Nasdaq ha bajado más.
642 Capítulo 18
Autoevaluación 18-7 1. En el ejemplo anterior, verifique que el índice de precios Dow Jones para 2000, utilizan
do 1995 como periodo base, sea 210.80.
2. Queremos comparar los cambios en la producción industrial y en los precios que los fa
bricantes pagan por la materia prima desde 1982. Por desgracia, el índice de producción
industrial, que mide los cambios en la producción, y el índice de Precios del Productor,
que mide los cambios en los precios de la materia prima, tienen distintos periodos base.
El índice de producción tiene 1977 como periodo base y el índice de Precios del Produc
tor utiliza 1982 como base. Si cambiamos la base a 1982, podremos comparar ambas se
ries. Interprete su respuesta.
Ejercicios
13. En febrero de 2003, el salario medio para una supervisora de enfermeras con licenciatura era
$82 855. El índice de Precios al Consumidor para febrero de 2003 era 183.1 (1982-84 = 100).
El salario medio anual para una enfermera en el periodo de base de 1982-84 era $19 800.
¿Cuál era el ingreso real de la enfermera en 2003? ¿Cuánto ha subido el salario medio?
14. La Trade Union Association of Orlando, Florida, mantiene índices sobre los sueldos por ho-
ra para varias operaciones comerciales. Por desgracia, no todos los índices tienen los mis
mos periodos base. A continuación presentamos la información sobre plomeros y electricis
tas. Cambie los periodos base a 2000 y compare los incrementos en los salarios por hora.
Números índice 643
15. En 1995, el salario medio de los profesores en la Tinora School District era $28 650. Para
2000, el salario medio aumentó a $33 972 y todavía más en 2004 a $37 382. La American
Federation of Classroom Teachers conserva información sobre las tendencias en Estados
Unidos entre los salarios de los maestros de escuela. Su índice, que tiene 1995 como pe
riodo base, es 122.5 para 2000 y 136.9 para 2004. Compare los salarios de los maestros de
Tinora con las tendencias nacionales.
16. Sam Steward es un diseñador de páginas web que trabaja por su cuenta. A continuación
presentamos sus ingresos anuales para los años de 1995 a 2004. También se incluye un ín
dice industrial para diseñadores de páginas web que reporta la tasa de inflación salarial en
la industria. Este índice tiene 1995 como periodo de base.
Calcule el ingreso real de Sam para el periodo. ¿Sus ingresos van a la par con la inflación
o ha perdido terreno?
3. El índice ideal de Fisher es la media geométrica del índice de Laspeyres y del índice de
Paasche.
C. Un índice de valores utiliza los precios y cantidades del periodo base y del actual.
III. El índice que se reporta con mayor frecuencia es el índice de Precios al Consumidor (IPC).
A. A menudo se usa para mostrar la tasa de inflación en Estados Unidos.
B. La U.S. Bureau of Labor Statistics lo reporta cada mes.
C. El periodo base actual es 1982-84.
D. Lo utiliza el sistema del Seguro Social, de modo que cuando el IPC cambia, también
cambian las pensiones de los jubilados.
17. Consulte los datos de Johnson and Johnson. Use 1995 como periodo base y calcule un ín-
dice simple de ventas nacionales para cada año desde 1996 hasta 2002. Interprete la ten-
dencia en las ventas nacionales.
18. Consulte los datos de Johnson and Johnson. Use el periodo 1995-97 como periodo base y
calcule un índice simple de ventas nacionales para cada año desde 1998 hasta 2002.
19. Consulte los datos de Johnson and Johnson. Use 1995 como periodo base y calcule un ín-
dice simple de ventas internacionales para cada año desde 1996 hasta 2002. Interprete la
tendencia en las ventas internacionales.
20. Consulte los datos de Johnson and Johnson. Use el periodo 1995-97 como periodo base y
calcule un índice simple de ventas internacionales para cada año desde 1998 hasta 2002.
21. Consulte los datos de Johnson and Johnson. Use 1995 como periodo base y calcule un ín-
dice simple del número de empleados para cada año desde 1996 hasta 2002. Interprete la
tendencia en el número de empleados.
Números índice 645
22. Consulte los datos de Johnson and Johnson. Use el periodo 1995-97 como periodo base y
calcule un índice simple del número de empleados para cada año desde 1998 hasta 2002.
La siguiente información es del informe anual de General Electric Corporation correspondiente a 1998.
23. Calcule un índice simple para las ganancias de GE. Utilice 1998 como el periodo base. ¿A
qué conclusión puede llegar en cuanto al cambio en las ganancias durante el periodo?
24. Calcule un índice simple para las ganancias de GE. Utilizando como base el periodo 1998-
2000. ¿A qué conclusión puede llegar en cuanto al cambio en las ganancias durante el pe-
riodo?
25. Calcule un índice simple para las ganancias por acción de GE. Utilice 1998 como el perio-
do base. ¿A qué conclusión puede llegar en cuanto al cambio en las ganancias por acción
durante el periodo?
26. Calcule un índice simple para las ganancias de GE, utilizando como base el periodo 1998-
2000. ¿A qué conclusión puede llegar en cuanto al cambio en las ganancias por acción du-
rante el periodo?
A continuación presentamos información sobre los alimentos para los años 2000 y 2004.
27. Calcule un índice de precios simple para cada uno de los cuatro artículos. Utilice 2000 co-
mo periodo base.
28. Calcule un índice de precios agregado simple. Use 2000 como periodo base.
29. Calcule el índice de precios de Laspeyres para 2004, usando 2000 como el periodo base.
30. Calcule el índice de Paascne para 2004, usando 2000 como periodo base.
31. Determine el índice ideal de Fisher usando los valores para los índices de Laspeyres y Paas-
che calculados en los dos problemas anteriores.
32. Determine un índice de valores para 2004 utilizando 2000 como periodo base.
Betts Electronics compra tres refacciones para las maquinas robotizadas que utiliza en su pro-
ceso de manufactura A continuación proporcionamos la información acerca del precio de las re-
facciones y la cantidad comprada
646 Capítulo 18
33. Calcule un índice efe precios simple para cada uno de los tres artículos. Use 2000 corno el
periodo base,
34. Calcule un índice de precios agregado simple para 2604, Use 2000 como periodo base.
35. Calcule el índice de precios de Laspeyres para 2004, usando 2000 como el periodo base.
36. Calcule un índice de precios de Paasche para 2004 con 2000 como período base.
37. Determine el índice ideal de Fisher utilizando los valores para los índices de Laspeyres y
Paasche calculados en tos dos problemas anteriores,
38. Determine un índice de valores para 2004 usando 2000 como periodo base.
En la tabla siguiente proporcionamos los pecios para alimentos seleccionados durante 2000 y 2004.
39. Calcule un índice de precios simple para cada uno de los cuatro artículos. Use 2000 como
periodo base.
40. Calcule un índice de precios agregado simple. Utilice 3000 como periodo base.
41. Calcule un índice de precios de Laspeyres para 2004, con 2000 como periodo base.
42. Calcule un índice de Paasche para 2004 Con 2000 como periodo base.
43. Determine el índice ideal de Fisher usando los valores para tos índices de Laspeyres y Paas-
che calculados en los dos problemas anteriores.
44. Determine un índice de valores para 2004, usando 2000 como periodo base.
A continuación, encontrará los precios de artículos seleccionados para 1980 y 2004, También
proporcionamos las cifras de producción para esos dos periodos.
45. Calcule un índice de precios simple para cada uno de los cuatro artículos. Use 1980 como
periodo base,
46. Calcule un índice de precios agregado simple. Utilice 1980 como periodo base.
47. Calcule un índice de precios de Laspeyres para 2004, con 1980 como periodo base.
48. Calcule un índice de Paasche para 2004 con 1980 contó periodo base.
49. Determine el índice ideal de Fisher usando tos valores para los índices de Laspeyres y Paas-
che calculados en los dos problemas anteriores.
50. Determine un índice de valores para 2004, usando 1180 como periodo base.
51. Es necesario diseñar un índice para propósitos especiales para vigilar la economía general
del suroeste de Estados Unidos. Se seleccionaron cuatro series clave. Después de mucho
deliberar, se decidió ponderar las ventas al detalle con 20%, el total de depósitos bancarios
con 10%, la producción industrial en ©I área con 40% y el empleo no agrícola con 30%. Los
datos para 1996 y 2004 son;
Números índice 647
Elabore un índice para propósitos especiales para 2004 utilizando 1996 como el periodo base
e interprete su resultado.
Realizamos un estudio histórico de la economía estadounidense de 1950 a 1980. Se recopiló
información sobre precios, fuerza laboral, productividad y el PNB. En la tabla siguiente, observe
que el IPC tiene 1967 como periodo base, el empleo está en millones de personas, etcétera.
Por tanto, no es factible una comparación directa.
a. Realice los cálculos necesarios para comparar la tendencia en las cuatro series de 1950
a 1980.
b. Interprete sus resultados.
53. La administración de Ingalls Super Discount Stores, que tiene varias tiendas en el área de
Oklahoma City, quiere elaborar un índice de actividad económica para el área metropolita-
na. La administración está de acuerdo en que, si el índice revela una recesión en la econo-
mía, es necesario mantener el inventario en un nivel bajo.
Tres series parecen adecuadas como factores de predicción de ¡a actividad económica:
las ventas al detalle en el área, los depósitos bancarios y el empleo. El gobierno de Estados
Unidos puede compilar esta información cada mes. Las ventas al detalle deben tener una
ponderación de 40%, los depósitos bancarios de 35% y el empleo de 25%. Los datos ajus-
tados por temporada para los primeros tres meses del año son:
Elabore un índice de la actividad económica para cada uno de los tres meses, utilizando
enero como el periodo base.
54. La tabla siguiente proporciona información sobre el índice de Precios a! Consumidor y el pago
mensual neto de Bill Martin, como empleado de Jeep Corporation.
a. ¿Cuál es el poder de compra del dólar en 2002, con base en el periodo 1982-84?
b. Determine el ingreso "real" mensual del señor Martin en 2002.
55. Suponga que el índice de Precios del Productor y las ventas de Hoskin's Wholesale Distri-
butors para 1991 y 2002 son:
¿Cuáles son las ventas reales (o ventas deflacionadas) de Hoskin's para los dos años?
648 Capítulo 18
exercises.com
56. Por lo general, el Super Tazón es el programa de televisión con mayor audiencia cada año;
por tanto, muchas compañías lo utilizan para lanzar sus principales campañas publicitarias.
El costo por un comercial de 30 segundos, como se reporta a continuación, ha aumentado
mucho desde el primer juego en 1967. También se indica el valor de un boleto para el jue-
go en los años presentados.
Visite el sitio web de Bureau of Labor Statistics en www.bls.gov/data.htm, haga clic en Most
Requested Series y busque Consumer Price Index - All Urban Consumera. Seleccione 1967
como base y encuentre el IPC para los años mencionados anteriormente. Compare el índice de
cambio en el índice de Precios al Consumidor con el costo de los comerciales por televisión y el
costo de un boleto para el juego. Escriba un breve reporte resumiendo sus hallazgos. 57. A
continuación, presentamos las ventas mensuales para Master Chemical Company durante 2002
y los primeros seis meses de 2003. Visite el sitio de U.S. Bureau of Labor Statistics
(www.bls.gov/data.htm). Seleccione Most Requested Series y busque Consumer Price
Index - All Urban Consumers (CPI-U) para el periodo correspondiente. Seleccione todos los
artículos con 1982-84 como base y un periodo que incluya 2002 y 2003. Ajuste el CPI-U a una
base de enero de 2002. Ajuste los valores de ventas a la misma base. Escriba un breve
informe con los detalles del cambio en las ventas durante el periodo de 18 meses en términos
de dólares constantes.
Comandos de software
1. Los comandos de Excel para la hoja de cálculo de la pá- Deberá aparecer el valor 38.5. Éste es el producto
gina 627 son: del precio del pan ($0.77) y la cantidad de pan (50)
a. Escriba los datos para los precios y las cantidades. vendida en 1995.
Nosotros capturamos la etiqueta ítem en la celda A4, c. Con las celdas D5 a D10 todavía seleccionadas,
y los nombres de los artículos en las celdas A5 a abra Edit, luego FUI, Down y presione Enter. De
A10. La etiqueta Price-95se capturó en B4, y la in berán aparecer los productos restantes.
formación de los precios para 1995 en las celdas B5 d. Muévase a la celda D11, haga clic en E en la barra
a B10. La etiqueta Quantity-95 se capturó en la cel de herramientas y presione Enter. Aparecerá el va
da C4, con las cantidades de 1995 en las celdas C5 lor 336.16. Éste es el denominador para el índice
a C10. La celda D4 tiene la etiqueta Price*Qty-95. de precios de Laspeyres. Los otros productos y los
b. Para determinar el producto de los precios y las totales de las columnas se determinan de modo si
cantidades de 1995, destaque las celdas D5 a D10. milar. La otra pantalla de Excel en el capítulo se
Con este grupo de celdas todavía seleccionadas, calcula de manera parecida.
escriba = B5*C5 en la celda D5 y presione Enter.
Números índice 649
Introducción
¿Qué es una serie de tiempo? El énfasis de este capítulo es en el análisis de las series de tiempo y la proyección. Una se-
rie de tiempo es un grupo de datos registrados durante un tiempo: por semana, mes, trimes-
tre o año. Dos ejemplos de series de tiempo son las ventas por trimestre de Microsoft
Corporation desde 1985 y la producción anual de ácido sulfúrico desde 1970. La imagen por
computadora en la fotografía muestra el volu-
men de datos que viajan en la red de la Natio-
nal Science Foundation en un mes. Los niveles
de claridad en las líneas representan el volu-
men de tráfico de cero bytes (más oscuro) a mi-
les de millones de bytes (blanco).
Los administradores pueden utilizar un
análisis del historial (una serie de tiempo) para
tomar decisiones y hacer planes con base en
proyecciones a largo plazo. Por lo general su-
ponemos que los patrones del pasado van a
continuar en el futuro. Las proyecciones a largo
plazo se extienden más de un año en el futuro;
son comunes las proyecciones a 2, 5 y 10
años. Éstas son esenciales a fin de dar tiempo
suficiente para que adquisiciones, manufactu-
ra, ventas, finanzas y otros departamentos de
una compañía desarrollen planes para nuevas plantas, financiamiento, desarrollo de nue-
vos productos y nuevos métodos de ensamblaje.
La proyección del nivel de ventas, tanto a corto como a largo plazo, se da por la mis-
ma naturaleza de las organizaciones de negocios en Estados Unidos. La competencia por
el dinero del consumidor, la presión por obtener utilidades para los accionistas, el deseo de
lograr mayor participación en el mercado y las ambiciones de los ejecutivos son algunas de
las principales fuerzas motivadoras en los negocios. Por tanto, una proyección (una decla-
ración de las metas de la administración) es necesaria para tener la materia prima, las ins-
talaciones de producción y el personal para cubrir la demanda proyectada.
Este capítulo se ocupa del uso de la información para proyectar eventos futuros. Prime-
ro, estudiamos los componentes de una serie de tiempo. Luego, analizamos algunas de las
técnicas empleadas en el análisis de datos y, por último, proyectamos eventos futuros.
Tendencia secular
Las tendencias a largo plazo de las ventas, el empleo, los precios accionarios y otras se-
ries de negocios y económicas siguen diversos patrones. Algunas se mueven hacia arriba
en forma constante, otras bajan y otras más permanecen iguales a través del tiempo.
• Home Depot se fundó en 1978 y es el segundo detallista más grande en Estados Uni-
dos (Wal-Mart es el más grande). La gráfica siguiente muestra el número de empleados
de Home Depot, Inc. Como puede ver, este número ha aumentado con rapidez en los
652 Capítulo 19
últimos 10 años. En 1993, había poco más de 50 000 empleados, y para 2002, esa ci-
fra aumentó a 280 900.
Variación cíclica
El segundo componente de una serie de tiempo es la variación cíclica. El ciclo de negocios
típico consiste en un periodo de prosperidad seguido por periodos de recesión, depresión y
luego recuperación. En el tiempo por debajo y por encima de la tendencia secular existen
fluctuaciones que se presentan en un periodo de más de un año. Por ejemplo, en una re-
cesión, el empleo, la producción, el Promedio Industrial Dow Jones y muchas otras series
de negocios y económicas se encuentran debajo de las líneas de las tendencias a largo pla-
zo. Por el contrario, en periodos de prosperidad se encuentran sobre las líneas de las ten-
dencias a largo plazo.
La Gráfica 19-1 muestra las ventas unitarias anuales de las baterías que vendió Natio-
nal Battery Retailers, Inc., de 1984 a 2003. Se destaca la naturaleza cíclica de los negocios.
Existen periodos de recuperación, seguidos por prosperidad, luego recesión y, por último,
el ciclo se cierra con la depresión.
GRÁFICA 19-1 Baterías vendidas por National Battery Retailers, Inc., de 1984 a 2003
654 Capítulo 19
Variación estacional
El tercer componente de una serie de tiempo es el componente estacional. Muchas series
de ventas, producción y de otro tipo fluctúan con las temporadas. La unidad de tiempo que
se reporta es por trimestre o por mes.
Casi todos los negocios suelen tener patrones estacionales recurrentes. Por ejemplo,
la ropa para caballeros y niños presenta ventas muy altas justo antes de Navidad, y relati-
vamente bajas después de Navidad y durante el verano. Las ventas de juguetes ofrecen
otro ejemplo con un fuerte patrón basado en la temporada. Más de la mitad de los negocios
del año se realizan en los meses de noviembre y diciembre. El negocio de la jardinería es
estacional en los estados del noreste y la región central norte de Estados Unidos. Muchos
negocios tratan de reducir los efectos de las temporadas dedicándose a otra actividad de
temporada que compense la principal. En el noreste de Estados Unidos podemos ver al en-
cargado de un negocio de jardinería con un quitanieve en el camión en un esfuerzo por ob-
tener alguna ganancia durante la temporada de invierno. En los centros de esquí de todo el
país, a menudo encontramos campos de golf cercanos. Los propietarios de los albergues
tratan de rentarlos a los esquiadores en invierno y a los jugadores de golf en verano. Éste
es un método efectivo para repartir los gastos fijos todo el año, en lugar de limitarse a unos
cuantos meses.
La Gráfica 19-2 muestra las ventas trimestrales, en millones de dólares, de Hercher
Sporting Goods, Inc. Ésta es una compañía de artículos deportivos del área de Chicago que
se especializa en vender equipo de béisbol y softbol a secundarias, preparatorias y ligas de
jóvenes. Asimismo, tienen varias tiendas detallistas en algunos de los centros comerciales
más grandes. Existe un patrón de temporada distintivo para su negocio. La mayor parte de
sus ventas se realizan en el primer y segundo trimestre del año, cuando las escuelas y or-
ganizaciones compran equipo para la próxima temporada. Durante los primeros días del ve-
rano, se mantienen ocupados vendiendo equipo de reemplazo. Hacen algunos negocios
durante las fiestas navideñas (cuarto trimestre), y las últimas semanas del verano (tercer tri-
mestre) constituyen su temporada baja.
GRÁFICA 19-2 Ventas de equipo de béisbol y softbol, Hercher Sporting Goods, 2001-2003 por trimestre
Variación irregular
Muchos analistas prefieren subdividir la variación irregular en variaciones episódicas y re-
siduales. Las fluctuaciones episódicas no se pueden predecir, pero sí identificar. Es posible
identificar el impacto inicial de una huelga importante o una guerra en la economía, pero no
podemos proyectar una huelga ni una guerra. Al eliminar las fluctuaciones episódicas, la va-
riación restante se conoce como variación residual. Las fluctuaciones residuales, que tam-
Serie de tiempo y proyección 655
Calcule la media de los El primer paso al calcular el promedio móvil de siete años consiste en determinar el to-
primeros siete años tal de movimientos en siete años. Las ventas totales para los primeros siete años (1978-
1984 inclusive) son $22 millones, calculados así: 1 +2 + 3 + 4 + 5 + 4 + 3. (Vea la Tabla
19-1.) El total de $22 millones se divide entre 7 para determinar las ventas medias aritmé-
ticas por año. El total de la suma de los siete años (22) y la media de este periodo (3.143)
ocupan la posición frente al año medio para ese grupo de siete, es decir, 1981, como se
muestra en la Tabla 19-1. Luego, se determinan las ventas totales para los próximos siete
años (1979-1985 inclusive). (Una manera conveniente de hacerlo es restar las ventas para
1978 [$1 millón] del primer total de siete años [$22 millones] y sumar las ventas para 1985
($2 millones), para obtener un nuevo total de $23 millones.) La media de este total, $3 286
millones, se coloca en el frente del año medio, 1981. La información de las ventas y el pro-
medio en movimiento de siete años se muestran en la Gráfica 19-3.
Los valores de los datos a incluir en un promedio móvil depende del carácter de la in-
formación recopilada. Si los datos son trimestrales, como hay cuatro trimestres en un año,
lo normal es utilizar cuatro términos. Si la información es diaria, como hay siete días en una
semana, es apropiado usar siete términos. También puede recurrir a una estrategia de en-
sayo y error para determinar un número que compense mejor las fluctuaciones debidas al
azar.
Un promedio móvil se calcula con facilidad en Excel. De hecho, requiere de un solo co-
mando. Si los datos originales se encuentran en los lugares D3 a D20 y quiere calcular un
promedio móvil de tres periodos, puede ir a la posición E4 y escribir "=(D3+D4+D5)/3" y lue-
go copiar esa misma fórmula en la posición E19.
Un promedio móvil para tres y cinco años para cierta información de producción se
muestran en la Tabla 19-2 y se ilustra en la Gráfica 19-4.
Las ventas, la producción y otras series económicas y de negocios casi nunca tienen
(1) periodos de oscilación que sean de igual duración o (2) oscilaciones que tengan ampli-
tudes idénticas. Por tanto, en la práctica, la aplicación del método del promedio móvil para
los datos no da como resultado una recta. Por ejemplo, la serie de producción en la Tabla
19-2 se repite casi cada cinco años, pero la amplitud de los datos varía de una oscilación a
otra. La tendencia parece ser hacia arriba y lineal. Ambos promedios móviles (el de tres
años y el de cinco) parecen describir en forma adecuada la tendencia de la producción des-
Determinación de un promedio de 1985.
móvil para un periodo par, co- El promedio móvil para cuatro años, seis años y otros números de años par presentan
mo cuatro años. un problema en cuanto al centrado de los totales en el promedio móvil. En la Tabla 19.3,
Serie de tiempo y proyección 657
TABLA 19-2 Promedio móvil para tres años y promedio móvil para cinco años
GRÁFICA 19-4 Promedio móvil para tres y cinco años de 1985 a 2003
observe que no hay un periodo central, de modo que los totales móviles se colocan entre
dos periodos. El total para los primeros cuatro años ($42) se coloca entre 1996 y 1997. El
total para los siguientes cuatro años es $43. Los promedios de los primeros cuatro años y
los segundos cuatro años ($10.50 y $10.75, respectivamente) se promedian, y la cifra re-
sultante se centra en 1997. Este procedimiento se repite hasta calcular todos los promedios
de cuatro años posibles.
658 Capítulo 19
Cedar Fair maneja seis parques de diversiones y cinco parques acuáticos independientes.
En la tabla siguiente, se muestra la asistencia combinada (en miles) durante los últimos diez
años. Calcule un promedio móvil para tres años y un promedio móvil ponderado para tres años
con ponderaciones de 0.2, 0.3 y 0.5 para años sucesivos.
Serie de tiempo y proyección 659
Estudie con detenimiento la gráfica en la página siguiente. Verá que la tendencia de la asis-
tencia aumenta de manera uniforme con 360 mil visitantes más cada año. Sin embargo, hay
un "salto" de aproximadamente 3 millones por año entre 1997 y 1998. Esto refleja quizá el
hecho de que Cedar Fair adquirió Knott's Berry Farm a finales de 1997, dando lugar a un
incremento repentino de la asistencia. El promedio móvil ponderado sigue los datos más de
cerca que el promedio móvil. Esto refleja la influencia adicional que se da al periodo más
reciente. En otras palabras, el método ponderado, en el que al periodo más reciente se le
da la ponderación más alta, no será tan uniforme. Sin embargo, quizá sea más exacto co-
mo herramienta de proyección.
660 Capítulo 19
Autoevaluación 19-1 Determine el promedio móvil para tres años para las ventas de Waccamaw Machine Tool,
Inc. Trace en un diagrama los datos originales y para el promedio móvil.
Ejercicios
1. Calcule un promedio móvil ponderado para cuatro trimestres para el número de suscripto-
res a America Online (AOL) para los nueve trimestres de información. Los datos se repor-
tan en miles. Aplique ponderaciones de 0.1, 0.2, 0.3 y 0.4, respectivamente, para los
trimestres. Describa la tendencia del número de suscriptores.
Tendencia lineal
La tendencia a largo plazo en muchas series de tiempo como negocios, ventas, exportacio-
nes y producción, a menudo se aproxima a una línea recta. En este caso, la ecuación para
describir este crecimiento es:
donde:
donde:
Las ventas están en millones de dólares. El origen, o año 0, es 1994. t aumenta una
unidad cada año.
Determine la ecuación de la recta de regresión. ¿Cuánto aumentan las ventas cada año?
¿Cuál es la proyección de ventas para 2006?
Para determinar la ecuación de la tendencia podríamos utilizar la fórmula (13-4) a fin de en-
contrar la pendiente, o el valor b, y la fórmula (13-5) para encontrar la intersección, o el va-
lor a. En estas ecuaciones sustituiríamos t, los valores codificados para el año, por X. Otro
enfoque es utilizar uno de los paquetes de software, como MINITAB o Excel. La Gráfica 19-6
es el resultado de MINITAB. Los valores Año, Año codificado, Ventas y Ventas ajustadas
se muestran en la parte inferior izquierda de la pantalla. La esquina superior izquierda re-
porta el resultado de la regresión, y en el lado derecho se encuentra un diagrama de dis-
persión de los datos y la recta de regresión ajustada.
Serie de tiempo y proyección 663
Por tanto, con base en las ventas pasadas, el estimado para 2006 es $16.5 millones.
TABLA 19-4 Cálculos para determinar los puntos de la recta de mínimos cuadrados utilizando los
valores codificados
En este ejemplo de serie de tiempo, hay cinco años de datos de ventas. Con base en
las cifras de esos cinco años, calculamos las ventas para 2006. Muchos investigadores su-
gieren no proyectar ventas, producción y otras series económicas y de negocios más de n/2
664 Capítulo 19
periodos en el futuro, donde n es el número de datos. Por ejemplo, si hay 10 años de infor-
mación, haríamos estimados sólo hasta 5 años en el futuro (n/2 = 10/2 = 5). Otros sugieren
que la proyección no puede ser por más de 2 años, sobre todo en épocas en las que la eco-
nomía cambia con rapidez.
Autoevaluación 19-2 La producción anual de mecedoras grandes por parte de Wood Products, Inc. desde 1996 es:
Ejercicios ______
3. A continuación presentamos las ventas netas de Schering-Plough Corporation (una compa-
ñía farmacéutica) y sus subsidiarias para los seis años desde 1997 hasta 2002. Las ventas
netas están en millones de dólares.
Tendencias no lineales
En el análisis anterior enfatizamos una serie de tiempo cuyo crecimiento o reducción se
aproximaba a una línea recta. Una ecuación de tendencia lineal se utiliza para representar
la serie de tiempo cuando se cree que los datos van en aumento (o se reducen) en canti-
dades iguales, en promedio, de un periodo a otro.
Los datos que aumentan (o se reducen) en cantidades cada vez mayores durante un
periodo son curvilíneos cuando se trazan en un papel con una escala aritmética. En otras
palabras, los datos que se incrementan (o disminuyen) en porcentajes o proporciones igua-
les en un periodo son curvilíneos sobre papel cuadriculado. (Vea la Gráfica 19-7.)
La ecuación de tendencia para una serie de tiempo que no se aproxima a una tenden-
cia lineal, como la representada en la Gráfica 19-7, se puede calcular utilizando los logarit-
mos de los datos y el método de mínimos cuadrados. La ecuación general para la ecuación
de tendencia logarítmica es:
La ecuación de tendencia logarítmica se puede determinar para los datos de Gulf Sho-
res Importers en la Gráfica 19-7 utilizando Excel. El primer paso es capturar la información,
luego encontrar el logaritmo de base 10 para las importaciones de cada año. Por último, usar
el procedimiento de regresión para encontrar la ecuación de los mínimos cuadrados. En
otras palabras, tomamos el logaritmo de los datos de cada año, usamos los logaritmos co-
mo la variable dependiente y el año codificado como la variable independiente.
666 Capítulo 19
A fin de encontrar las importaciones estimadas para el año 2006, necesitamos el antiloga-
ritmo de 4.967590. Es 92 809. Éste es nuestro estimado del número de importaciones pa-
ra 2006. Recuerde que los datos estaban en miles de dólares, de modo que el estimado es
$92 809 000.
(a) Determine la ecuación de tendencia logarítmica para los datos de las ventas.
(b) ¿En qué porcentaje aumentaron las ventas cada año de 1999 a 2003?
(c) ¿Cuál es la cantidad de ventas proyectada para 2004?
Ejercicios
7. Sally's Software, Inc., es un proveedor de software de computadora que crece con rapidez y
se localiza en el área de Sarasota. A continuación presentamos las ventas para los últimos
cinco años.
Variación estacional
Mencionamos que una variación estacional es otro de
los componentes de una serie de tiempo. Las series de
negocios, como las ventas de autos, los embarques de
botellas de refresco y la construcción residencial, tienen
periodos de actividad superior e inferior al promedio
cada año.
En el área de la producción, una de las razones
para analizar las fluctuaciones por temporada es tener
una oferta suficiente de materia prima para cubrir la
demanda que varía según la temporada. La división de
frascos de vidrio de una importante compañía vidriera,
por ejemplo, fabrica botellas de cerveza no retomables,
frascos para yodo, frascos para analgésicos, botellas
para cemento plastificado, etc. El departamento de pro-
gramación de la producción debe saber cuántas botellas
debe producir y cuándo debe fabricar cada tipo de
frasco. Una producción con demasiadas botellas de un
solo tipo podría ocasionar un serio problema de inventa-
rios. La producción no se puede basar totalmente en los
pedidos existentes, porque muchos otros se hacen por
teléfono y requieren de un envío inmediato. Como la demanda para muchas de las botellas
varía de acuerdo con la temporada, una proyección de uno o dos años, por mes, es esen-
cial para una programación adecuada.
Un análisis de la variación estacional en un periodo de varios años también ayudará a
evaluar las ventas actuales. Las ventas típicas de las tiendas departamentales en Estados
Unidos, sin contar los pedidos por correo, se expresan como índices en la Tabla 19-5. Ca-
da índice representa las ventas promedio para un periodo de varios años. Las ventas reales
para algunos meses fueron superiores al promedio (lo que se representa con un índice ma-
yor a 100.0), y las ventas para otros meses son inferiores al promedio. El índice de 126.8 para
diciembre señala que, por lo regular, las ventas para diciembre son 26.8 superiores a las de
un mes normal; el índice 86.0 para julio señala que las ventas de las tiendas departamentales
para julio casi siempre son 14% inferiores a las de un mes promedio.
TABLA 19-5 índices estacionales típicos para las ventas en tiendas departamentales de Estados Unidos, sin
tomar en cuenta las ventas por correo
Suponga que un gerente de tienda, en un esfuerzo por aumentar las ventas durante di-
ciembre, introdujo varias promociones únicas, que incluyen coros cantando villancicos por
toda la tienda, grandes exhibiciones mecánicas y dependientes vestidos con trajes de Santa
Claus. Al calcular el índice de ventas para ese diciembre, éste fue de 150.0. Comparado
con las ventas típicas del mes de diciembre de 126.8, se llegó a la conclusión de que el pro-
grama promocional fue todo un éxito.
medio para el año igual a 100.0; es decir, cada índice mensual señala el nivel de ventas,
producción u otra variable en relación con el promedio anual de 100.0. Un índice típico de
96.0 para enero señala que las ventas (o cualquiera que sea la variable) casi siempre es-
tán 4% por debajo del promedio para el año. Un índice de 107.2 para octubre significa que
la variable casi siempre está 7.2% arriba del promedio anual.
Se han desarrollado varios métodos para medir la variación estacional típica en una se-
rie de tiempo. El método que se utiliza con mayor frecuencia para calcular el patrón por tem-
porada típico se conoce como método de la razón con el promedio móvil. Elimina los
componentes de tendencia, cíclicos e irregulares de los datos originales {Y). En el análisis
siguiente, T se refiere a la tendencia, C a la variación cíclica, S a la variación estacional
e / a variación irregular. Los números resultantes se conocen como índice por temporada
típico.
Estudiaremos con detalle los pasos que seguimos para llegar a los índices de variación
estacional típicos utilizando el método de la razón con promedio móvil. Los datos que nos
interesan pueden ser trimestrales o mensuales. Para ilustrar, elegimos las ventas trimestra-
les de Toys International. Primero, mostraremos los pasos necesarios para llegar a un con-
junto de índices trimestrales típicos. Luego, utilizamos el software MegaStat Excel y
MINITAB para calcular los índices de variación estacional.
La Tabla 19-6 muestra las ventas trimestrales de Toys International para los años 1998 a
2003. Las ventas se reportan en millones de dólares. Determine un índice de variación esta-
cional trimestral utilizando el método de la razón de promedio móvil.
La Gráfica 19-8 ilustra las ventas trimestrales de Toys International durante un periodo de
seis años. Observe la naturaleza estacional de las ventas. Para cada año, las ventas del
cuarto trimestre son las más elevadas y las ventas del segundo trimestre las más bajas. Asi-
mismo, existe un incremento moderado en las ventas de un año al otro. Para observar esta
característica, sólo tiene que revisar los seis valores de las ventas del cuarto trimestre. En
el periodo de seis años, las ventas en ese trimestre aumentaron. Si une estos puntos en su
mente, podrá visualizar las ventas del cuarto trimestre en aumento para 2004. Al
determinar los índices trimestrales por temporada, seguimos seis pasos.
Paso 1 Para el análisis siguiente, consulte la Tabla 19-7. El primer paso consiste en de-
terminar el total móvil de los cuatro trimestres para 1998. Empezando por el tri-
mestre invernal de 1998, sumamos $6.7, $4.6, $10.0 y $12.7. El total es $34.0
(millones). El total para el cuarto trimestre "se mueve" al sumar las ventas de
TABLA 19-7 Cálculos necesarios para los índices por temporada específicos
Serie de tiempo y proyección 671
Paso 6 En teoría, las cuatro medias trimestrales (0.767, 0.576, 1.144 y 1.522) dan un
total de 4.00 porque el promedio se establece en 1.0. El total de las cuatro me-
dias trimestrales quizá no sea exactamente igual a 4.00 debido al redondeo. En
este problema, el total de las medias es 4.009. Por tanto, un factor de correc-
ción se aplica a cada una de las cuatro medias para hacer que sumen un total
de 4.00.
672 Capítulo 19
En este ejemplo,
Por tanto, el índice trimestral de invierno ajustado es 0.767(0.997755) = 0.765. Cada una
de las medias se ajusta hacia abajo, de modo que el total de las cuatro medias trimestrales
sea 4.00. Por lo general, los índices se reportan como porcentajes, de modo que cada va-
lor en la última fila de la Tabla 19-8 se multiplicó por 100. Entonces, el índice para el trimes-
tre de invierno es 76.5 y para el de otoño es 151.9. ¿Cómo se interpretan estos valores?
Las ventas para el último trimestre están 51.9% por encima del trimestre típico, y para el in-
vierno están 23.5 por debajo del trimestre típico (100.0 - 76.5). Estos descubrimientos no
deben sorprenderle. El periodo anterior a la Navidad (el trimestre de otoño) es cuando las
ventas de juguetes son más altas. Después de Navidad (el trimestre de invierno) las ventas
de juguetes bajan en forma drástica.
Como dijimos antes, hay un software que realiza los cálculos y muestra los resultados.
La pantalla de MegaStat Excel se muestra a continuación. El uso de software reducirá en
gran medida el tiempo de cálculo y la probabilidad de un error aritmético, pero es preciso
entender los pasos en el proceso, como señalamos antes. Puede haber ligeras diferencias
en las respuestas, debido al número de dígitos que se manejan en los cálculos.
Serie de tiempo y proyección 673
Ahora, resumimos las razones subyacentes a los cálculos anteriores. Los datos origi-
nales en la columna 1 de la Tabla 19-7 contienen los componentes tendencia (T), variación
cíclica (C), variación estacional (S) y variación irregular (/). El objetivo principal es eliminar
la variación estacional (S) de la valuación original de las ventas.
Las columnas 2 y 3 en la Tabla 19-7 se ocupan de calcular el promedio móvil centrado
dado en la columna 4. Básicamente, "dejamos fuera del promedio" la variación estacional y
las variaciones irregulares en los datos originales en la columna 1. Por tanto, en la colum-
na 4, sólo tenemos las variaciones por las tendencias y las cíclicas (TC).
A continuación, dividimos los datos de ventas en la columna 1 (TCSI) entre el prome-
dio móvil del cuarto trimestre centrado en la columna 4 (TC) para llegar a las variaciones
estacionales específicas en la columna 5 (SI). En términos de letras, TCSIITC = SI. Multi-
plicamos SI por 100.0 para expresar en forma de índice la variación estacional típica.
Por último, tomamos la media de todos los índices típicos de invierno, todos los índices
de primavera, etc. Este promedio elimina la mayor parte de las variaciones irregulares de
las variaciones estacionales, y los cuatro índices resultantes muestran el patrón típico de
ventas por temporada.
Autoevaluación 19-4 Tetón Village, Wyoming, cerca de Grand Tetón Park y Yellowstone Park, contiene tiendas,
restaurantes y moteles. Tiene dos temporadas altas: invierno, para esquiar en los 10 000 pies
de montañas, y verano, para los turistas que visitan los parques. A continuación presentamos
el número de visitantes (en 000) por trimestre para cinco años.
(a) Desarrolle el patrón de variación estacional típico para Tetón Village utilizando el méto
do de razón con promedio móvil.
(b) Explique el índice típico para la temporada de invierno.
Ejercicios
9. Victor Anderson, propietario de Anderson Belts, Inc., estudia el ausentismo entre sus em-
pleados. Su fuerza laboral es pequeña, pues consiste de cinco empleados solamente. Du-
rante los últimos tres años, ha registrado el siguiente número de ausencias entre sus
empleados, en días, para cada trimestre.
Determine un índice de variación estacional típico para cada uno de los cuatro trimestres.
674 Capítulo 19
10. The Appliance Center vende gran variedad de equipo electrónico y aparatos domésticos.
Para los cuatro años, se reportaron las siguientes ventas trimestrales (en millones de $).
Determine el índice de variación estacional típico para cada uno de los cuatro trimestres.
Desestacionalización de datos
Un conjunto de índices típicos es muy útil para ajustar una serie de ventas, por ejemplo, pa-
ra las variaciones estacionales. La serie de ventas resultante se llama ventas fuera de
temporada o ventas fuera de temporada ajustadas. La razón de manejar una serie de
ventas fuera de temporada es eliminar las variaciones estacionales, a fin de poder estudiar
las variaciones de tendencia y cíclicas. Para ilustrar el procedimiento, los totales de ventas
trimestrales de Toys International de la Tabla 19-6 se repiten en la columna 1 de la Tabla
19-9.
Para eliminar el efecto de la variación estacional, la cantidad de ventas para cada trimes-
tre (que contiene los efectos de la tendencia, la variación cíclica, variaciones irregulares y
variación estacional) se divide entre el índice estacional para ese trimestre; es decir, TCSI/S.
Serie de tiempo y proyección 675
Por ejemplo, las ventas reales para el primer trimestre de 1998 fueron $6.7 millones. El índice
por temporada para el trimestre de invierno es 76.5, utilizando los resultados de MegaStat
en la página 672. El índice de 76.5 señala que las ventas para el primer trimestre casi siem-
pre están 23.5% debajo del promedio en un trimestre típico. Al dividir las ventas reales de
$6.7 millones entre 76.5 y multiplicar el resultado por 100, encontramos el valor de las ven-
tas fuera de temporada para el primer trimestre de 1998. Es $8 758 170, calculado así: ($6
700 000/76.5)100. Repetimos este proceso para los otros trimestres en la columna 3 de la
Tabla 19-9, con los resultados reportados en millones de dólares. Como el componente esta-
cional se eliminó (al dividir) de las ventas trimestrales, la cifra de las ventas fuera de tempo-
rada sólo contiene los componentes tendencia (7), cíclica (C) e irregular (/). Al revisar las
ventas fuera de temporada en la columna 3 de la Tabla 19-9, vemos que las ventas de jugue-
tes mostraron un incremento moderado durante el periodo de seis años. La Gráfica 19-9
muestra tanto las ventas reales como las ventas fuera de temporada. Es evidente que al eli-
minar el factor estacional podemos enfocarnos en la tendencia general de las ventas a largo
plazo. También podremos determinar la ecuación de regresión de la información sobre la
tendencia y usarla para proyectar las ventas futuras.
GRÁFICA 19-9 Ventas reales y fuera de temporada para Toys International de 1998 a 2003
Toys International quiere proyectar sus ventas para cada trimestre de 2004. Utilice la infor-
mación en la Tabla 19-9 a fin de determinar la proyección.
Los datos fuera de temporada que ilustra la Gráfica 19-9 parecen seguir una línea recta. De
ahí que sea razonable desarrollar una ecuación de tendencia lineal con base en ellos. La
ecuación de tendencia fuera de temporada es:
676 Capítulo 19
donde:
es el valor de tendencia estimado para las ventas de Toys International para el pe-
riodo t.
es la intersección de la línea recta de tendencia en el tiempo 0. es
la pendiente de la línea recta, es el periodo codificado.
Las ventas fuera de temporada estimadas para el trimestre de invierno de 2004 son
$10 356 750. Ésta es la proyección de las ventas, antes de considerar los efectos de las
temporadas.
Serie de tiempo y proyección 677
Ahora que tenemos las proyecciones para los cuatro trimestres de 2004, podemos ajus-
farlos a las temporadas. El índice para un trimestre de invierno es 0.765. De modo que pode-
mos ajustar la proyección para el primer trimestre de 2004 mediante 10.35675(0.765) = 7.923.
Los estimados para cada uno de los cuatro trimestres de 2004 se encuentran en la columna
derecha de la pantalla de Excel. Observe la forma en que los ajustes por temporada aumen-
tan en gran medida los estimados de ventas para los dos últimos trimestres del año.
Autoevaluación 19-5 The Westberg Electric Company vende motores eléctricos a clientes en el área de James-
town, Nueva York. La ecuación de la tendencia mensual, con base en cinco años de datos
mensuales, es
El factor de temporada para el mes de enero es 120, y 95 para febrero. Determine la proyec-
ción ajustada a la temporada para enero y febrero del sexto año.
Ejercicios _________________________________
11. El departamento de planeación de Padget and Kure Shoes, fabricante de una exclusiva mar-
ca de zapatos para dama, desarrolló la siguiente ecuación de tendencia, en millones de pa-
res, con base en cinco años de datos trimestrales.
La tabla siguiente proporciona los factores por temporada para cada trimestre.
Determine la proyección ajustada por temporada para cada uno de los cuatro trimestres del
sexto año.
12. Team Sports, Inc., vende artículos deportivos a secundarias y universidades a través de un
catálogo de distribución nacional. La administración de Team Sports estima que, el próximo
año, van a vender 2 000 guantes de béisbol Wilson modelo A2000. Proyectan que las ven-
tas fuera de temporada serán iguales para los cuatro trimestres del año. El factor de tempo-
rada para el segundo trimestre es 145. Determine las ventas ajustadas por temporada para
el segundo trimestre del próximo año.
678 Capítulo 19
13. Consulte el Ejercicio 9, acerca de las ausencias en Anderson Belts, Inc. Utilice los índices
por temporada que calculó para determinar las ausencias fuera de temporada. Determine la
ecuación de tendencia lineal con base en los datos trimestrales para los tres años. Proyec
te las ausencias ajustadas por temporada para 2004.
14. Consulte el Ejercicio 10, acerca de las ventas en The Appliance Center. Utilice los índices
por temporada que calculó para determinar las ventas fuera de temporada. Establezca la
ecuación de tendencia lineal con base en los datos trimestrales para los cuatro años. Pro
yecte las ventas ajustadas fuera de temporada para 2004.
17. El movimiento en los activos, excepto en las inversiones en efectivo y a corto plazo, para
RNC Company de 1993 a 2003 son:
20. A continuación presentamos el precio de venta de las acciones de PepsiCo, Inc., al cierre de
año.
a. Utilizando el método de razón con el promedio móvil, determine los índices específicos
estacionales para julio, agosto y septiembre de 1999.
b. Suponga que los índices específicos estacionales en la tabla siguiente son correctos.
Inserte en la tabla los índices específicos estacionales que calculó en la parte (a) para
julio, agosto y septiembre de 1999, y determine los 12 índices típicos estacionales.
a. Utilizando el método de razón con promedio móvil, determine los índices estacionales
específicos para julio, agosto, septiembre y octubre de 1999.
b. Suponga que los índices específicos estacionales en la tabla siguiente son correctos.
Inserte en ella los que usted calculó en la parte (a) para julio, agosto, septiembre y oc
tubre de 1999, y determine los 12 índices estacionales típicos.
26. La producción trimestral de madera de pino, en millones de pies tabla, por parte de North-
west Lumber desde 1999 es:
a. Determine el patrón estacional típico para los datos de producción usando el método de
razón con promedio móvil.
b. Interprete el patrón.
c. Calcule los datos fuera de temporada y determine la ecuación de tendencia lineal.
d. Proyecte la producción ajustada por temporada para los cuatro trimestres de 2004.
27. Work Gloves Corp., revisa sus ventas trimestrales de Toughie, los guantes más durables que
producen. Los números de pares fabricados (en miles) por trimestre son:
a. Usando el método de razón con promedio móvil, determine los cuatro índices trimestra
les típicos.
b. Interprete el patrón estacional típico.
28. Las ventas de material para techos, por trimestre, desde 1997 para Carolina Home Cons-
truction, Inc., se muestran a continuación (en $000).
a. Determine los patrones estacionales típicos para las ventas usando el método de razón
con promedio móvil.
b. Calcule los datos fuera de temporada y determine la ecuación de tendencia.
c. Proyecte las ventas para 2004 y ajuste cada trimestre por temporada.
29. Los índices de rotación del inventario en Bassett Wholesale Enterprises, por trimestre, son:
Serie de tiempo y proyección 683
a. Calcule los cuatro índices de rotación trimestrales típicos de la compañía Bassett usan
do el método de razón con promedio móvil.
b. Calcule los datos fuera de temporada y determine la ecuación de tendencia.
c. Proyecte los índices de movimiento para 2004, y ajuste cada trimestre de 2004 fuera de
temporada.
30. La tabla siguiente presenta el número de jubilados que reciben beneficios del State Tea-
chers Retirement System of Ohio de 1991 hasta 2002.
exercises.com
34. Visite el sitio web de Bureau of Labor Statistics en www.bls.gov, haga clic en la opción Con-
sumer Price Index, seleccione Most Requested Series, Pnces and Living Conditions y
luego en Consumer Price Index - All Urban Consumere (Current Serles). Pida el resul
tado anual para los últimos 10 a 20 años. Desarrolle una ecuación de regresión para el ín
dice de Precios al Consumidor anual durante el periodo seleccionado. Utilice el enfoque
lineal y logarítmico. ¿Cuál considera que es mejor?
35. Desarrolle una línea de tendencia para una compañía grande o famosa, como GM, General
Electric o Microsoft, para los últimos 10 años. Puede visitar el sitio web de la empresa. La
mayor parte de las empresas tienen una sección llamada "Financial Information". Vaya a ella
y busque las ventas en los últimos 10 años. Si no conoce el sitio web de la compañía, vaya
a la sección financiera de Yahoo o USA Today, donde hay un lugar para "symbol look up".
Escriba el nombre de la compañía, con lo que obtendrá el símbolo. Busque la empresa por
medio del símbolo y encontrará la información. El símbolo para GM es justamente GM, el
símbolo para General Electric es GE. Comente sobre la línea de tendencia de la compañía
que seleccionó durante el periodo. ¿La tendencia aumenta o disminuye? ¿La tendencia si
gue una ecuación lineal o logarítmica?
36. Seleccione uno de los principales indicadores económicos, como el Promedio Dow Jones,
Nasdaq o S&P 500. Desarrolle una línea de tendencia para el índice durante los últimos 10
años utilizando el valor del índice al final del año, o para los últimos 30 días seleccionando
el valor de cierre del índice durante los mismos 30 días. Encontrará esta información en mu
chos lugares. Por ejemplo, vaya a http://finance.yahoo.com, haga clic en Nasdaq en la es
quina inferior derecha, seleccione historical quotes y un periodo, quizá los últimos 30 días,
y encontrará la información. La podrá descargar directamente a Excel para crear su ecua
ción de tendencia. Comente sobre la línea de tendencia que creó. ¿Va en aumento o se re
duce? ¿La línea de tendencia sigue una ecuación lineal o algorítmica?
Comandos de software
1. Los comandos de MegaStat para crear los índices esta-
cionales de la página 672 son:
a. Escriba el periodo codificado y el valor de la serie
de tiempo en dos columnas. Quizá también quiera
incluir información sobre los años y trimestres.
b. Seleccione MegaStat, Time Series/Forecasting y
Deseasonalization y presione Enter.
c. Escriba el rango de los datos, indique que la infor
mación es del primer trimestre y haga clic en OK.
686 Capítulo 19
Introducción
Desde principios de la década de 1950 se desarrolló una rama de la estadística que se lla-
ma teoría de las decisiones estadísticas, la cual utiliza la probabilidad. Como lo implica
su nombre, el enfoque está en el proceso de la toma de decisiones y explícitamente inclu-
ye los beneficios que de ello puedan resultar. En contraste, la estadística clásica se enfoca
en calcular un parámetro, como la media poblacional, construir un intervalo de confianza o
llevar a cabo una prueba de hipótesis. La estadística clásica no comprende las consecuen-
cias financieras.
La teoría de las decisiones estadísticas se relaciona con determinar, a partir de una se-
rie de alternativas posibles, cuál es la decisión óptima de una serie de condiciones en par-
ticular. Considere los siguientes ejemplos de problemas de toma de decisiones.
• Ford Motor Company debe decidir si compra las cerraduras para las puertas ensambla
das del nuevo modelo del camión Ford F-150 o fabrica y ensambla las cerraduras pa
ra las puertas en su planta de Sandusky,
Ohio. Si siguen aumentando las ventas
del camión F-150, será más productivo fa
bricar y ensamblar las piezas. Si las ven
tas se estabilizan o disminuyen, lo mejor
es comprar las cerraduras para las puer
tas ensambladas. ¿Deben producir o com
prar las cerraduras?
• Banana Republic desarrolló una nueva lí-
nea de chamarras de verano para la lluvia
que son muy populares en regiones del
país con clima frío. Les gustaría comprar
tiempo de televisión comercial durante la
próxima final de basquetbol de la NCAA.
Si los dos equipos que jueguen son de zo-
nas cálidas del país, calculan que sólo una
pequeña proporción de televidentes se interesará por las chamarras. Sin embargo, una se-
rie final entre dos equipos de zonas con clima frío llegaría a una proporción grande de
televidentes que usan chamarras. ¿Deben comprar el tiempo de televisión comercial?
• General Electric está considerando tres opciones respecto a los precios de refrigerado
res para el próximo año. GE podría (1) aumentar los precios un 5%, (2) aumentar los
precios un 2.5% o (3) dejar los precios como están. La decisión final se basará en las
estimaciones de ventas y lo que GE sepa acerca de lo que podrían hacer los demás fa
bricantes de refrigeradores.
En cada uno de estos casos, la decisión se caracteriza por los diversos cursos de ac-
ción alternativos y los diversos factores que no están bajo el control de quien toma las de-
cisiones. Por ejemplo, Banana Republic no tiene el control sobre los equipos de basquetbol
de la NCAA que llegarán a la final. Estos casos se caracterizan por la naturaleza de la to-
ma de decisiones. Se pueden enumerar posibles alternativas de las decisiones, posibles
eventos futuros determinados e incluso probabilidades establecidas, pero las decisiones se
toman ante la incertidumbre.
Tabla de beneficios
Bob Hill, un pequeño inversionista, cuenta con $1 100 para invertirlos. Estudió varias acciones
ordinarias y redujo sus opciones a tres, principalmente, Kayser Chemicals, Rim Homes y
Texas Electronics. Estimó que si invirtiera sus $1 100 en Kayser Chemicals y a fin de año
se desarrollara un mercado a la alza fuerte (es decir, que aumentaran de manera drástica
los precios de las acciones), el valor de su acción en Kayser sería más del doble, $2 400.
No obstante, si fuera un mercado a la baja (es decir, que los precios de las acciones baja-
ran), el valor de su acción en Kayser bajaría a $1 000 a fin de año. Sus pronósticos respec-
to al valor de su inversión de $1 100 para las tres acciones en un mercado a la alza y un
mercado a la baja se presentan en la Tabla 20-1. Ésta es una tabla de beneficios.
690 Capítulo 20
Las diversas opciones se llaman alternativas de las decisiones o hechos. En esta si-
TABLA 20-1 Tabla de beneficios para tres acciones ordinarias bajo dos condiciones del mercado
tuación existen tres. Sea A1 la compra de Kayser Chemicals, A, la compra de Rim Homes
y A3 la compra de Texas Electronics. El hecho de que el mercado resulte estar a la baja o
la alza no está bajo el control de Bob Hill. Estos eventos futuros no controlados son los es-
tados de la naturaleza. Sea S1 el mercado a la alza y S2 el mercado a la baja.
Beneficios esperados
Si la tabla de beneficios esperados fuera la única información disponible, el inversionista quizá
tomaría una acción conservadora y compraría Texas Electronics para asegurar al menos
$1 150 a fin de año (una ligera ganancia). Sin embargo, una especulación podría ser com-
prar Kayser Chemicals con la posibilidad de ganar más del doble de su inversión de $1 100.
Tomar una decisión referente a la compra de una de las tres acciones ordinarias sólo
con base en la información de la tabla de beneficios ignoraría los valiosos registros históri-
cos que conserva Moody's Valué Line y otros servicios de inversión relacionados con los
movimientos de los precios de las acciones durante un periodo largo. Por ejemplo, un es-
tudio de estos registros reveló que durante los últimos 10 años los precios en la bolsa de
valores subieron seis veces y sólo bajaron cuatro veces. De acuerdo con esta información,
la probabilidad de un alza en el mercado es 0.60 y la probabilidad de una baja en el mer-
cado es 0.40.
Suponiendo que estas frecuencias históricas son confiables, se pueden combinar la ta-
bla de beneficios y las estimaciones de probabilidad (0.60 y 0.40) para llegar a los benefi-
cios esperados de comprar cada una de las tres acciones. Los beneficios esperados
también se conocen como el valor monetario esperado, EMV (por sus siglas en inglés).
También se puede describir como los beneficios medios. Los cálculos necesarios de los
beneficios esperados por el hecho de comprar Kayser Chemicals se presentan en la Tabla
20-2.
TABLA 20-2 Beneficios esperados por el hecho de comprar Kayser Chemicals, EMV (A)
donde:
se refiere al valor monetario esperado de la alternativa de la decisión /. Pue-
de haber muchas decisiones posibles. Diremos que 1 se refiere a la primera
decisión, 2 a la segunda y así sucesivamente. La letra /en minúscula repre-
senta toda la serie de decisiones.
se refiere a la probabilidad de los estados de la naturaleza. Puede haber un
número ilimitado, por lo que diremos que j representa este posible resultado,
se refiere al valor de los beneficios. Observe que cada beneficio es el resul-
tado de una combinación de una alternativa de la decisión y un estado de
naturaleza.
EMV(A1), el valor monetario esperado para la alternativa de la decisión de comprar la ac-
ción de Kayser Chemicals se calcula por medio de:
Comprar la acción de Kayser Chemicals sólo es una opción posible. Los beneficios es-
perados para el hecho de comprar Kayser Chemicals, Rim Homes y Texas Electronics se
presentan en la Tabla 20-3.
TABLA 20-3 Beneficios esperados para tres acciones
Un análisis de los beneficios esperados en la Tabla 20-3 indica que la compra de Kay-
ser Chemicals redituaría en la ganancia máxima esperada. Este resultado se basa en (1) el
valor futuro estimado de las acciones por parte del inversionista y (2) la experiencia históri-
ca con respecto del alza y la baja en los precios de las acciones. Se debe subrayar que aun
cuando la compra de la acción de Kayser represente la mejor acción bajo el criterio del va-
lor esperado, el inversionista todavía podría decidir comprar la acción de Texas Electronics
a fin de minimizar el riesgo de perder parte de la inversión de $1 100.
Autoevaluación 20-1 Compruebe la conclusión, que se presenta en la Tabla 20-3, de que los beneficios esperados
para el hecho de comprar la acción de Rim Homes es $1 760.
Ejercicios _________________________________
1. Se desarrolló la siguiente tabla de beneficios. Deje P(S:) = 0.30, P(S2) = 0.50 y P(S3) = 0.20.
Calcule el valor monetario esperado para cada alternativa. ¿Qué decisión recomendaría?
692 Capítulo 20
2. La Wilhelms Cola Company planea introducir en el mercado este verano un nuevo refresco
de cola sabor pina. La decisión es si la cola se embotella en envases retornables o en no re-
tornables. Tybo Wilhelms, presidente de Wilhelms Cola Company, analizó el problema con su
representante estatal y estableció que la probabilidad de que se eliminen los envases no re-
tornables es de 0.70. La tabla a continuación muestra las ganancias mensuales estimadas
(en miles de dólares) si la cola de pina se embotella en envases retornables versus no retor-
nables. Desde luego que si se aprueba la ley y la decisión es embotellar la cola en envases
no retornables, todas las ganancias serían por las ventas fuera del estado. Calcule la ganan-
cia esperada para ambas decisiones de embotellamiento. ¿Qué decisión recomienda?
Pérdida de oportunidad
Otro método para analizar una decisión respecto a qué acciones se deben comprar es de-
terminar la ganancia que podría perderse debido a que no se conocía el estado de la natu-
raleza (el comportamiento del mercado) al momento en que el inversionista compró la
acción. Esta pérdida potencial se llama pérdida o costo de oportunidad. A manera de ex-
plicación, suponga que el inversionista compró la acción ordinaria de Rim Homes y se de-
sarrolló un mercado a la alza. Además, suponga que el valor de su acción de Rim Homes
subió de $1 100 a $2 200, como se había anticipado. Pero si el inversionista hubiera com-
prado la acción de Kayser Chemicals y los valores bursátiles subieran, el valor de su acción
de Kayser sería de $2 400 (de la Tabla 20-1). Por lo tanto, el inversionista no obtuvo una
ganancia adicional de $200 al comprar Rim Homes en vez de Kayser Chemicals. En otras
palabras, los $200 representan la pérdida de oportunidad por no saber el estado de la na-
turaleza correcto. Si los precios del mercado sí subieron, el inversionista se habría arrepen-
tido de comprar Rim Homes. Sin embargo, de haber comprado Kayser Chemicals y los
precios del mercado hubieran aumentado, no se habría arrepentido; es decir, no habría una
pérdida de oportunidad.
Las pérdidas de la oportunidad correspondientes a este ejemplo se presentan en la Ta-
bla 20-4. Cada cantidad es el resultado (pérdida de oportunidad) de una combinación par-
ticular de hechos y un estado de la naturaleza; es decir, la compra de la acción y la reacción
del mercado.
Observe que la acción de Kayser Chemicals sería una buena opción de inversión en un
mercado a la alza, Texas Electronics sería la mejor compra en un mercado a la baja y Rim
Homes en cierto modo representa un punto intermedio.
TABLA 20-4 Pérdidas de oportunidad de varias combinaciones de compra de acciones y movimiento de
mercado
Autoevaluación 20-2 Consulte la Tabla 20-4. Compruebe que la pérdida de oportunidad para:
(a) Rim Homes, con una baja en el mercado, es $50.
(b) Texas Electronics, con un alza en el mercado, es $500.
Una introducción a la teoría de las decisiones 693
Ejercicios ______________________________________
3. Consulte el Ejercicio 1. Desarrolle una tabla de pérdida de oportunidad. Determine la pérdi
da de oportunidad para cada decisión.
4. Consulte el Ejercicio 2, que involucra a la Wilhelms Cola Company. Desarrolle una tabla de
la pérdida de oportunidad y determine la pérdida de oportunidad para cada decisión.
TABLA 20-5 Pérdida de la oportunidad esperada para el hecho de comprar la acción de Rim Homes
donde:
EOL(A2), la pérdida de la oportunidad esperada por elegir Rim Homes se calcula de la si-
guiente manera:
Las pérdidas de oportunidad esperada para las tres alternativas de la decisión se presen-
tan en la Tabla 20-6. La pérdida de oportunidad esperada más baja es $60, lo cual signifi-
ca que el inversionista en promedio se arrepentiría menos si comprara Kayser Chemicals.
694 Capítulo 20
Autoevaluación Consulte la Tabla 20-6 y compruebe que la pérdida de oportunidad esperada para el hecho
de comprar Texas Electronics es $300.
Ejercicios
5. Consulte los Ejercicios 1 y 3. Calcule las pérdidas de oportunidad esperada.
6. Consulte los Ejercicios 2 y 4. Calcule las pérdidas de oportunidad esperada.
ciones correctas. La pregunta es: ¿de qué sirve esta información anticipada? El valor del
dólar de esta información se llama valor esperado de la información perfecta, que se es-
cribe EVPI (por sus siglas en inglés). En este ejemplo, significaría que Bob Hill sabría de
antemano si el mercado bursátil subiría o bajaría en un futuro cercano.
Un conocido analista que tiene un despacho grande de correduría dijo que estaría dis-
puesto a proporcionar a Bob la información que considerara importante para pronosticar las
altas y bajas del mercado. Desde luego que esta información causaría honorarios, aún no
determinados, independientemente de si el inversionista la usara. ¿Cuál es la cantidad má-
xima que Bob debe pagar por este servicio especial? ¿$10? ¿$100? ¿$500?
El valor de la información del analista es, en esencia, el valor esperado de la informa-
ción perfecta, porque el inversionista entonces tendría la seguridad de comprar las acciones
más redituables.
En este ejemplo, ésta es la diferencia entre el valor máximo de las acciones a fin de año
bajo condiciones de certidumbre y el valor asociado con la decisión óptima usando el crite-
rio del valor esperado.
Desde un punto de vista práctico, el valor esperado máximo bajo condiciones de certi-
dumbre significa que el inversionista compraría Kayser Chemicals si se pronosticara un al-
za en el mercado y Texas Electronics si una baja en el mercado fuera inminente. Los
beneficios esperados bajo condiciones de certidumbre son $1 900. (Véase la Tabla 20-7).
yor al valor esperado bajo condiciones de incertidumbre ($1 840). Sin embargo, si su cono-
cido pidiera una tarifa de $100 por el servicio, el inversionista sólo obtendría $1 800 en pro-
medio, que se encuentra restando $1 900 - $100. Como es lógico, el servicio por $100 no
valdría la pena porque el inversionista podría esperar $1 840 en promedio sin aceptar este
acuerdo económico. Observe que el valor esperado de la información perfecta ($60) es
igual al mínimo de pérdidas esperadas (Tabla 20-6). Eso no se da por azar.
Análisis de sensibilidad
Los beneficios esperados no En la situación anterior sobre la selección de las acciones, la serie de probabilidades aplica-
son muy sensibles. das a los valores de beneficios se derivó de experiencias históricas con condiciones bursáti-
les similares. No obstante, tal vez se escuchen objeciones de que el comportamiento futuro
del mercado puede ser diferente a las experiencias anteriores. A pesar de estas diferencias,
las categorías de las alternativas de la decisión con frecuencia no son tan sensibles a los
cambios dentro de un rango razonable. A manera de ejemplo, suponga que el hermano del
inversionista cree que en lugar de una posibilidad de 60% de un alza en el mercado y una
posibilidad de 40% de una baja, lo inverso es lo correcto, es decir, existe una probabilidad
de 0.40 de que el mercado bursátil suba y una probabilidad de 0.60 de que baje. Más aún,
el primo del inversionista piensa que la probabilidad de un alza en el mercado es de 0.50 y
la baja de 0.50. Una comparación de los beneficios esperados originales (columna izquier-
da), los beneficios esperados para la serie de probabilidades que sugiere el hermano del in-
versionista (columna del centro) y las mencionadas por el primo (columna derecha) se
presentan en la Tabla 20-8. La decisión es la misma en los tres casos: comprar Kayser Che-
micals.
Una introducción a la teoría de las decisiones 697
Una comparación de las tres series de beneficios esperados en la Tabla 20-8 revela
que la mejor alternativa seguiría siendo comprar Kayser Chemicals. Como es de esperar-
se, existen algunas diferencias en los valores futuros esperados para cada una de las tres
acciones.
Si se presentan cambios drásticos en las probabilidades asignadas, los valores espera-
dos y la decisión óptima pueden cambiar. Por ejemplo, suponga que el pronóstico de un al-
za en el mercado fue de 0.20 y que la baja fue de 0.80. Los beneficios esperados serían
como los que se presentan en la Tabla 20-9. A largo plazo, la mejor alternativa sería com-
prar la acción de Rim Homes. Por lo tanto, el análisis de sensibilidad le permite ver cuan pre-
cisas deben ser las estimaciones de probabilidad a fin de sentirse cómodo con su opción.
Autoevaluación 20-5 ¿Existe alguna opción de probabilidades cuya mejor alternativa fuera comprar la acción de
Texas Electronics? {Sugerencia: La puede obtener de manera algebraica o usando el méto-
do de ensayo y error. Intente una probabilidad un tanto extrema para un alza en el mercado.)
Ejercicios
7. Consulte los Ejercicios 1, 3 y 5. Calcule el valor esperado de la información perfecta.
8. Consulte los Ejercicios 2, 4 y 6. Calcule el valor esperado de la información perfecta.
9. Consulte el Ejercicio 1. Revise las probabilidades de la siguiente manera: P(SJ = 0.50,
P(S2) = 0.20 y P{S3) = 0.30. ¿Cambia la decisión?
10. Consulte el Ejercicio 2. Invierta las probabilidades, es decir, deje que P{S¿ = 0.30 y
P(S2) = 0.70. ¿Altera su decisión?
Árbol de decisión:
representación gráfica
Árboles de decisión
de todos los resultados Una herramienta analítica presentada en el Capítulo 5 que también sirve para estudiar una
posibles. situación de decisión es el árbol de decisión. Básicamente, es una gráfica que presenta to-
698 Capítulo 20
das las acciones posibles y los resultados consecuentes posibles. Se utiliza un cuadro pa-
ra indicar el punto en el que debe tomarse una decisión, y las ramas que parten del cuadro
El árbol de decisión muestra indican las alternativas bajo consideración. Tomando como referencia la Gráfica 20-1, a la
que Kayser Chemicals es la izquierda está el cuadro con tres ramas que parten de éste, que representan el hecho de
mejor compra. comprar Kayser Chemicals, Rim Homes o Texas Electronics.
Para la decisión de no inspeccionar ninguna pieza, el costo de calidad esC- NSK. Para
inspeccionar los artículos en el lote, es C = Nk, donde:
Una introducción a la teoría de las decisiones 701
quina durante toda la temporada. El propietario de Ski and Swim, sabiendo que el arrenda-
miento de un número excesivo de motonieves podría ocasionar una pérdida neta para el ho-
tel, investigó los registros de otros propietarios de centros vacacionales. La experiencia
combinada en varios hoteles resultó ser:
a. Construya una tabla de beneficios. (Como cifra de revisión, para el hecho de tener a dis-
posición 41 juegos completos y el evento de rentar 41, los beneficios son $410.)
Una introducción a la teoría de las decisiones 703
Tim es un ávido jugador de golf y tenis. Los fines de semana está en el campo de golf
o jugando tenis bajo techo. Por tanto, su arrendadora de autos sólo abre entre semana. Asi-
mismo, cierra dos semanas en el verano pues se va a un tour de golf.
El contador calcula que el costo por el mantenimiento mínimo y la limpieza de cada ca-
rro rentado es de $1.50.
a. ¿Cuántos carros se deben comprar para maximizar la ganancia?
b. ¿Cuál es el valor esperado de la información perfecta?
704 Capítulo 20
Covarianza
Tablas
Distribución de probabilidad binomial
Valores críticos de ji cuadrada
Distribución de Poisson
Áreas debajo de la curva normal
Tabla de números aleatorios
Distribución t de Student
Valores críticos de la distribución F
Valores T de Wilcoxon
Factores de las tablas de control
Base de datos
Conjunto de datos 1. Real Estáte (Bienes raíces)
Conjunto de datos 2. Major League Baseball (Ligas
Mayores de Béisbol)
Conjunto de datos 3. Wages and Wage Earners (Salarios y
asalariados)
Conjunto de datos 4. CÍA International Economic and
Demographic Data (Datos económicos y demográficos
internacionales)
Conjunto de datos bancarios. Caso
Whitner Autoplex
Software
Inicio de trabajo con MegaStat
Visual Statistics
Apéndice. Covarianza
Material de covarianza para el Capítulo 6
En las páginas 185 y 186 describimos cómo calcular e interpretar la media, también cono-
cida como valor esperado, de una variable aleatoria. Recuerde que la media es el prome-
dio a largo plazo de una distribución de probabilidad discreta. Demostramos que, a largo
plazo, John Ragsadle, asociado de ventas de Pelican Ford, podría esperar vender 2.10
autos cada sábado. A continuación calculamos la varianza y la desviación estándar de la
distribución del número de autos vendidos. La varianza y la desviación estándar mostraron
la variación que el señor Ragsdale podía esperar en el número de autos vendidos.
Suponga que Pelican Ford emplea dos asociados de ventas. La distribución del número
de autos vendidos cada sábado por Bill Valiton, el otro vendedor, se presenta en la tabla
siguiente.
Como gerente de ventas, realmente le interesa saber el número total de vehículos ven-
didos en un sábado en particular. Es decir, le interesa la distribución del número total de
vehículos vendidos, más que las distribuciones individuales del señor Ragsdale y el señor
Valiton. Podemos encontrar cualquier combinación lineal de dos variables aleatorias
mediante la ecuación:
donde:
son las dos variables aleatorias.
son las constantes o ponderaciones.
es la suma de los productos de dos variables aleatorias.
Si queremos encontrar el valor esperado de la suma de dos variables aleatorias y a =
b = 1, la ecuación anterior se simplifica a E(Z) = E(X) + E(Y). En palabras, esto indica que
la media de la distribución de la suma de dos variables aleatorias es la suma de dos valo-
res esperados o medias.
En el ejemplo de Pelican Ford, el número medio de vehículos vendidos por el señor
Valiton es 1.30, calculado así
La media, o valor esperado, del número total de vehículos vendidos por ambos vende-
dores es
Esto representa una solución para una parte del problema. Podemos pensar en lo que
sucederá con la media, o valor esperado, de la suma de dos variables aleatorias. Pero tam-
bién nos interesa la variación de la suma de estas dos variables. Un factor que podría con-
fundirnos es el prospecto de que haya una relación entre ambas variables. En el ejemplo
de Pelican Ford, sería razonable que hubiera una relación entre las ventas del señor
Ragsdale y las del señor Valiton. Por ejemplo, en un verano muy cálido, los prospectos no
van a querer estar bajo el sol, de modo que, por lógica, es probable que las ventas de
ambos asociados sean bajas.
706
La covarianza es una medida de la relación entre dos variables aleatorias.
donde:
es el símbolo de la covarianza.
son los resultados de las variables aleatorias discretas.
son los valores esperados, o medias, de las dos variables discretas
aleatorias.
es la probabilidad conjunta de dos variables aleatorias.
La tabla siguiente presenta la relación entre las ventas del señor Ragsdale y del señor
Valiton. Observamos que la probabilidad de que el señor Ragsdale venda dos autos un
sábado en particular es 0.30. Este valor se encuentra en la última fila de la columna con el
encabezado 2. La probabilidad de que el señor Valiton venda exactamente dos autos es
0.40. Este valor se encuentra en la columna de la extrema derecha de la fila con el
encabezado 2. La probabilidad de que cada uno venda dos autos es 0.20, que se encuen-
tra en la intersección de la fila y la columna. Como estas ventas no son independientes
(recuerde que un caluroso día de verano lo es para ambos vendedores), no esperamos
aplicar la regla especial de la multiplicación. Es decir, P(X,Y) no es igual a P(X)P(Y).
donde
707
En palabras, la ecuación anterior indica que la varianza de la suma de dos variables
aleatorias es igual a la suma de las varianzas de ambas variables más la covarianza dos
veces. Esto significa que, cuando queremos considerar la suma de las dos variables, nece-
sitamos tomar en cuenta la variación en cada una de ellas más la relación entre las dos.
Para responder la pregunta sobre la variabilidad del número total de autos vendidos un
sábado, necesitamos encontrar la varianza de la distribución de las ventas para el señor
Valiton. Utilizando la fórmula (6-2),
Para resumir, el número medio de vehículos vendidos cada sábado en Pelican Ford es
3.40 autos y la varianza es 3.60. La desviación estándar es 1.8974 vehículos, que encon-
tramos al calcular la raíz cuadrada de 3.60.
Una de las aplicaciones más útiles de las relaciones anteriores es en el campo del
análisis financiero. A los inversionistas les interesa obtener la tasa de rendimiento más alta,
pero también quieren reducir el riesgo. En términos estadísticos, reducir el riesgo significa
reducir la varianza o la desviación estándar. El ejemplo siguiente nos ayuda a explicar los
detalles.
Ernie DuBruI acaba de heredar $200 000 y va a dividir su herencia en una cartera de dos
inversiones. Después de investigar, Ernie decide invertir 25% en American Funds World Cap
y el resto en Burger International Funds. Para la media de American Funds World Cap el
rendimiento es 12% y la desviación estándar 3%. Para Burger International Funds, la tasa de
rendimiento media es 20% con una desviación estándar de 8%. Después de algunos cálcu-
los, Ernie puede determinar que la covarianza entre las dos inversiones es 12. ¿Cuál es la
tasa de rendimiento esperada para la cartera? ¿A qué conclusión podemos llegar acerca de
la relación entre las dos inversiones? ¿Cuál es la desviación estándar de la cartera?
Ernie puede considerar las dos inversiones como variables aleatorias con medias de 12%
y 20%, respectivamente. La ponderación de la primera inversión es 0.25 (a = 0.25) y 0.75
(b = 0.75) para la segunda. La cantidad de rendimiento esperado para la cartera es 18%,
calculado así:
La covarianza de 12 sugiere que existe una relación positiva entre las dos inversiones,
porque se trata de un número positivo. Sin embargo, el valor de 12 no dice mucho sobre la
fuerza de la relación.
Podemos determinar la varianza de la cartera como sigue:
708
En los ejemplos anteriores existía una asociación entre las dos distribuciones; es decir,
la covarianza no era igual a 0. Considere el ejemplo siguiente en el que no existe ninguna
asociación entre ambas distribuciones.
Suponga que participamos en un juego con 2 monedas que se lanzan al aire y contamos el
número de caras. Por cada cara, la Casa nos da $1.00; por cada cruz, tenemos que pagar
a la Casa la misma cantidad. Podemos resumir el juego en la tabla siguiente.
El hecho de que la covarianza sea 0 indica que las dos variables no están relacionadas.
Es decir, el resultado de la primera moneda no está relacionado con el resultado de la
segunda. Esto ya lo sabíamos por nuestro estudio anterior de la probabilidad, pero el hecho
de que la covarianza sea 0 lo confirma.
Ejercicios
1. La tabla siguiente da dos variables aleatorias.
709
2. Un análisis de dos grupos de acciones indica que la tasa de rendimiento medio del primero
es 8% con una desviación estándar de 15%. El segundo tiene una tasa de rendimiento
medio de 14% con una desviación estándar de 20%. Suponga que invertimos 40% en el
primer grupo de acciones y 60% en el segundo.
a. ¿Cuál es la tasa de rendimiento esperada de la inversión total?
b. Si los dos grupos de acciones no están relacionados, ¿cuál es la desviación estándar de
la tasa de rendimiento de la inversión total?
c. Suponga que la covarianza entre los dos grupos de acciones es 150. ¿Cuál es la
desviación estándar para la tasa de rendimiento?
El término SSxy, que se encontró mediante la fórmula anterior, indica la relación entre
las variables X y Y. Sin embargo, es difícil interpretarlo porque (a) las unidades se combi-
710
nan con aquellas de Xy Y, y (b) el término podría ser mayor con sólo aumentar el tamaño
de la muestra. Para controlar el tamaño de la muestra, el término se divide entre n - 1, el
tamaño de la muestra menos 1. Éste es el mismo procedimiento que utilizamos al determi-
nar la varianza de la muestra, que describimos en el Capítulo 3. El resultado se conoce
como covarianza.
711
Ejercicios
3. Escriba una breve descripción del coeficiente de correlación. ¿Cuál es su rango de valores?
¿Qué significa cuando es cero? ¿En qué condiciones puede ser mayor de 1.00?
4. Describa qué significa covarianza. ¿Puede ser negativa? ¿Cuál es su rango de valores?
5. Un ejecutivo de una compañía telefónica estudia la relación entre el número de llamadas
telefónicas a la semana y el número de personas en la familia. Se obtuvo una muestra de
doce familias.
712
Apéndice A
713
Apéndice A
Distribución de probabilidad binomial (continuación)
714
Apéndice A
Distribución de probabilidad binomial (continuación)
715
Apéndice A
Distribución de probabilidad binomial (continuación)
716
Apéndice A
717
Apéndice B
Valores críticos de ji cuadrada
Esta tabla contiene los valores de χ2 que corresponden a un área específica de la cola
derecha y un número específico de grados de libertad.
718
Apéndice C
Distribución de Poisson
719
Apéndice D
Áreas debajo de la curva normal
720
Apéndice E
721
Apéndice F
Distribución t de Student
722
Apéndice G
723
Apéndice G
Valores críticos de la distribución F
en un nivel de significancia de 1% (conclusión)
724
Apéndice H
Valores t de Wilcoxon
725
Apéndice I
Factores de las tablas de control
726
Apéndice J
Conjunto de datos 1. Real Estate (Bienes raíces)
727
Apéndice J
728
Apéndice J
Conjunto de datos 1. Real Estate (Bienes raíces) (conclusión)
729
Apéndice K
Conjunto de datos 2. Major League Baseball (Ligas Mayores de Béisbol)
Equipo
Liga (Americana = 1, Nacional = 0)
Construcción (año en que se construyó el estadio)
Tamaño (capacidad del estadio)
Salario (salario total del equipo en 2002, millones de $)
Asistencia (asistencia total a los juegos del equipo en 2002, en 000)
Ganados (número de juegos ganados en 2002)
ERA (Earned Run Average; promedio de carreras ganadas)
Bateo (promedio de bateo del equipo)
HR (número de home runs para el equipo)
Superficie (natural = 0, artificial = 1)
Robadas (bases robadas)
Errores (errores del equipo)
Año
Promedio (salario promedio de los jugadores)
Mediano (salario mediano de los jugadores)
730
731
Apéndice L
Conjunto de datos 3. Wages and Wage Earners (Salarios y asalariados)
732
Apéndice L
Conjunto de datos 3. Wages and Wage Earners (Salarios y asalariados)
(continuación)
733
Apéndice L
Conjunto de datos 3. Wages and Wage Earners (Salarios y asalariados)
(continuación)
734
Apéndice L
Conjunto de datos 3. Wages and Wage Earners (Salarios y asalariados)
(conclusión)
735
Apéndice M
Conjunto de datos 4. CIA International Economic and Demographic Data
(Datos económicos y demográficos
internacionales)
Nombre del país
Área total (kilómetros cuadrados)
Miembro del G-20, grupo de países industrializados que promueven la estabilidad
financiera internacional (0 = no es miembro, 1 = sí es miembro)
El país tiene petróleo como recurso natural (0 = no, 1 = el petróleo es un recurso
natural, 2 = el país es miembro de la OPEP (Organización de Países
Exportadores de Petróleo))
Población (expresada en miles)
Porcentaje de la población que tiene 65 años o más
Expectativas de vida al nacer
Alfabetismo: porcentaje de la población de 15 años o más que sabe leer y escribir
Producto Interno Bruto per cápita expresado en miles
Fuerza laboral (expresada en millones)
Porcentaje de desempleo
Exportaciones expresadas en miles de millones de dólares
Importaciones expresadas en miles de millones de dólares
Número de teléfonos móviles o celulares expresado en millones
736
Apéndice M
Conjunto de datos 4. CIA International Economic and Demographic Data
(Datos económicos y demográficos
internacionales) (continuación)
737
Apéndice M
Conjunto de datos 4. CIA International Economic and Demographic Data
(Datos económicos y demográficos
internacionales) (conclusión)
738
Apéndice N
739
Apéndice O
Whitner Autoplex
740
Apéndice P
Inicio de trabajo con MegaStat*
MegaStat es un complemento de Excel que realiza análisis estadísticos en una hoja de tra-
bajo de Excel. Después de su instalación, aparece en el menú de Excel y funciona como
cualquier otra opción de Excel.
______________________________
Al hacer clic en MegaStat, aparece el menú principal de Excel (vea la pantalla siguiente).
La mayor parte de las opciones del menú despliegan submenús. Si un elemento del menú
viene con una elipsis (...), al hacer clic en él se abrirá el cuadro de diálogo para esa opción.
Un cuadro de diálogo le permite especificar los datos que se van a utilizar, así como otra
información y opciones. La pantalla siguiente muestra un cuadro de diálogo típico.
Después de seleccionar los datos y las opciones, haga clic en OK; el cuadro de diálogo
desaparece y MegaStat realiza el análisis.
*Escrito por J. B. Orris, Doctor en Filosofía, Butler University. MegaStat es una marca registrada de J. B. Orris protegida por
los derechos de autor. Este documento se escribió para la versión 9.0 de MegaStat; sin embargo, la mayor parte de éste se
puede utilizar con otras versiones.
741
Botones
Cada cuadro de diálogo tiene los cuatro botones del lado inferior derecho. Vea la ilustración
en la página anterior.
OK Este botón también se puede llamar "Calcúlate", "Go", "Execute" o "Do If, e indica a
MegaStat que ha terminado de especificar la información y que ahora el software tiene el
control. Primero, el software valida los valores que usted capturó, luego desaparece y rea-
liza el análisis, y por último despliega la hoja de cálculo con los resultados. Cuando el
cuadro de diálogo desaparece, sigue en la memoria y contiene la misma información, de
modo que se puede volver a abrir posteriormente.
Clear Este botón elimina todos los valores de entrada y recupera cualquier opción prede-
terminada en la forma.
Cancel Este botón se puede llamar "Olvidado". Simplemente oculta el cuadro de diálogo.
Este último no se borra ni se elimina de la memoria. Las formas de usuario no ocupan
mucha memoria, y no hay ningún problema si tiene varias en ella. No obstante, si en reali-
dad quiere descargar la forma, haga clic en la "X" que se encuentra en la esquina superior
derecha de ésta.
Help Este botón presenta ayuda sensible al contexto para la forma de usuario activa. Si
quiere ver el Sistema de Ayuda completo, utilice la selección Help en él menú principal.
Data Selection La mayor parte de los cuadros de diálogo de MegaStat tienen campos en
los que usted selecciona los rangos de entrada que contienen los datos que va a utilizar.
Los rangos de entrada se pueden seleccionar de cuatro formas:
1. Apuntando y arrastrando con el mouse (el método más común). Como el cuadro de
diálogo se abre en la pantalla, es probable que bloquee parte de su información. Estos
cuadros se pueden mover por toda la pantalla si coloca el puntero del ratón sobre la
barra de título (el área a color en la parte superior), hace clic y mantiene presionado el
botón izquierdo del ratón mientras arrastra el cuadro de diálogo a una nueva ubicación.
Incluso puede sacarlo parcialmente de la pantalla.
2. Utilizando la característica AutoExpand de MegaStat. AutoExpand permite la selección
rápida de los datos sin tener que desplazarse por toda la columna. Así es como fun
ciona:
742
Etiquetas de datos
Para la mayor parte de los procedimientos, la primera celda en cada rango de captura
puede ser una etiqueta. Si la primera celda en el rango es texto, se considera una etique-
ta; si la primera celda es un valor numérico, se considera información. Si quiere utilizar
números como etiquetas de las variables, debe capturarlos como texto precedidos con una
comilla, por ejemplo, '2. Aun cuando Excel guarda la hora y la fecha como números,
MegaStat los va reconocer como etiquetas si tienen el formato de valores de hora/fecha.
Si las etiquetas de datos no forman parte del rango de captura, el programa utiliza como
etiqueta la celda que se encuentra inmediatamente arriba del rango de datos, si contiene
un valor de texto.
Si una opción puede considerar como etiquetas toda la primera fila (o columna) de un
rango de captura, cualquier valor numérico en ésta hará que toda la fila se maneje como
información.
Output
Al hacer clic en OK en un cuadro de diálogo de MegaStat, el programa realiza un análisis
estadístico y necesita un lugar donde presentar los resultados, por lo que busca una hoja
de trabajo llamada Output. Si la encuentra, llega hasta el fin de la hoja e inserta los resul-
tados; si no encuentra una hoja de trabajo Output, crea una nueva. MegaStat nunca hará
ningún cambio a las hojas de trabajo del usuario; sólo envía los resultados a la hoja Output.
MegaStat intenta dar formato a los resultados, pero es importante recordar que la hoja
Output es sólo una hoja de trabajo de Excel estándar y el usuario puede modificarla como
quiera. Es posible ajustar el ancho de las columnas y cambiar cualquier formato que con-
sidere necesita mejorar. Puede insertar, eliminar y modificar celdas. Puede copiar todo el
resultado o una parte de éste a otra hoja de trabajo u otra aplicación como un procesador
de texto.
Las gráficas de MegaStat obtienen los valores de las celdas en la hoja Output (o de una
de sus hojas de trabajo en caso del diagrama de dispersión). Puede hacer clic en una grá-
fica y seleccionar "Source Data" para ver qué valores aparecen.
Al hacer clic en una gráfica, el elemento del menú de MegaStat desaparecerá de la
barra de menú principal, ya que el menú Chart se activa. Haga clic fuera de la gráfica para
volver a abrir el menú principal que contiene el elemento de menú de MegaStat.
Desactivar MegaStat
Esta opción se usa para eliminar el elemento "MegaStat" de la barra de menú principal. No
borra ningún archivo ni desinstala MegaStat. Para restaurar el elemento MegaStat en el
menú, haga dicen la barra de menú principal de Excel, luego en Tools y seleccione Add-
Ins. En el cuadro de diálogo Add-lns, marque MegaStat y haga clic en OK.
743
La desinstalación es el proceso de eliminar de su sistema los archivos de MegaStat. No
elimina ningún archivo de datos ni el archivo que utilizó para instalar MegaStat. Puede borrar
el archivo de instalación (MegaStat_Setup.exe) si todavía está en su sistema.
Ayuda / Información
La opción Help abre todo el programa de ayuda de MegaStat, que se muestra a continua-
ción.
744
Apéndice Q
Visual Statistics
Visual Statistics 2.0, de Doane, Mathieson, and Tracy, es un paquete de 21 programas de
software y cientos de archivos de datos y ejemplos diseñados para enseñar y aprender
estadística básica. Los módulos de Visual Statistics ofrecen un formato experimental inter-
activo y muy gráfico en el cual aprender estadística. El software y el texto de trabajo pro-
mueven el aprendizaje activo a través de ejercicios que crean competencia, proyectos
individuales y en equipo y bases de datos integradas. El paquete incluye más de 400 con-
juntos de datos.
Menú principal
Para iniciar Visual Statistics, haga clic en el vínculo en el menú del CD-ROM para el alum-
no y siga las instrucciones de instalación. Abra la cubierta y verá un menú como el que
mostramos en la pantalla anterior. En este menú usted podrá: (1) ver un capítulo en el texto
(el botón Show Worktext); (2) ejecutar un módulo de software (el botón Run Module); (3)
salir de Visual Statistics (el botón Exit).
Selección de un programa
Para seleccionar un programa, haga clic en el número de capítulo o en su icono, y luego en
Run module. (Nota: deberá tener el CD-ROM para el alumno en la unidad de CD a fin de
que los programas se ejecuten.)
745
Cada programa está diseñado para ser lo más interactivo y directo posible, con gráfi-
cas animadas y botones de control en la pantalla principal para el programa.
746
Selección de un capítulo
Para seleccionar un capítulo, haga clic en su número, su icono o su título. Al hacer clic en
el capítulo, un cometa cruzará la pantalla hasta el panel Selected Chapter del lado derecho,
y aparecerán los botones Show Worktext y Run Module en el panel. Cada módulo de soft-
ware corresponde a un capítulo en el texto. Los ejercicios de aprendizaje del capítulo le
piden que ejecute el módulo de software correspondiente.
747
El texto de trabajo
El texto de trabajo tiene un capítulo para cada módulo. Cada capítulo en el texto de trabajo
contiene:
________________
Cada módulo de Visual Statistics empieza con el Notebook. Hay un Notebook diferente pa-
ra cada módulo, pero todos funcionan de la misma manera. Haga clic en los separadores
para ver cada una de las "páginas" del Notebook. El propósito principal del Notebook es
permitirle elegir el tipo de información que quiere revisar.
• Ejemplos: los ejemplos son conjuntos de datos reales que se seleccionaron para ilus
trar los conceptos del módulo.
• Bases de datos: una base de datos contiene muchas variables. Usted selecciona las
que quiere analizar.
• Editor de datos: le permite crear sus propios conjuntos de datos.
• Escenarios: le permiten experimentar con el proceso que genera los conjuntos de
datos.
• Plantillas: le permiten generar datos que se adaptan a una forma en particular.
• Hágalo usted mismo: le ofrecen un control sobre el proceso de generación de datos.
748
Ayuda
Cada módulo tiene una sección Help en la barra de menú. Haga clic en Help y aparecerá
un índice para los temas sobre los que hay ayuda disponible en ese módulo.
749
Respuestas
a los ejercicios nones de cada capítulo
2
49. Alrededor de 69%, calculados por 1-1/(1.8) . 51.
a. Aproximadamente 95%.
b. 47.5%, 2.5%. 53. Debido a que en una distribución de la
frecuencia no conocemos
los valores exactos, el punto medio se usa para cada miembro de
esa clase.
Respuestas a los ejercicios nones de cada capítulo 755
CAPÍTULO 4
756 Respuestas
39. La distribución tiene un sesgo positivo. El primer cuartil es aproxi- 53. a. El primer cuartil es 71.5 años y el tercero es 78.5 años. La
madamente $20 y el tercero es aproximadamente $90. Hay un distribución tiene un sesgo negativo con dos externos (Nigeria
externo localizado en $255. La mediana es de $50 más o menos. y Sudáfrica, en 48 y 51).
b. El primer cuartil es 8.3 y el tercero es 24.4.La distribución es
simétrica y no tiene externos.
c. El diagrama de tallo y hojas de la Celda. N = 46, unidad de
hoja = 1.0.
CAPÍTULO 5
758 Respuestas
Respuestas a los ejercicios nones de cada capítulo 759
760 Respuestas
CAPÍTULO 7
Respuestas a los ejercicios nones de cada capítulo 761
CAPÍTULO 10
766 Respuestas
Respuestas a los ejercicios nones de cada capítulo 767
768 Respuestas
Respuestas a los ejercicios nones de cada capítulo 769
770 Respuestas
Respuestas a los ejercicios nones de cada capítulo 771
772 Respuestas
CAPÍTULO 13
Respuestas a los ejercicios nones de cada capítulo 773
774 Respuestas
Respuestas a los ejercicios nones de cada capítulo 775
776 Respuestas
Respuestas a los ejercicios nones de cada capítulo 777
778 Respuestas
CAPÍTULO 15
Respuestas a los ejercicios nones de cada capítulo 779
CAPITULO 16
780 Respuestas
Respuestas a los ejercicios nones de cada capítulo 781
782 Respuestas
CAPÍTULO 17
Respuestas a los ejercicios nones de cada capítulo 783
784 Respuestas
CAPÍTULO 18
Respuestas a los ejercicios nones de cada capítulo 785
786 Respuestas
Respuestas a los ejercicios nones de cada capítulo 787
788 Respuestas
Respuestas
a los ejercicios de revisión nones
790 Respuestas
Capítulo 3 Capítulo 9
F3.1, Esta imagen se reprodujo con F9.1, AP/Wide World Photos; F9.2, AP/Wide Capítulo 17
autorización de United Parcel Service of World Photos; F9.3, PhotoLink/Getty Images; F17.1, AP/Wide World Photos; F17.2,
America, Inc. © Copyright 2003 United Parcel F9.4, AP/Wide World Photos cortesía de the National Institute of
Service of America, Inc. Derechos reservados; Standards and Technology, Office of Quality
F3.2, RF/Corbis; F3.3, © Neil Beer/PhotoDisc/ Pograms, Gaithersburg, MD; F17.3, John A.
PictureQuest; F3.4, cortesía de Dell Inc. Capítulo 10 Rizzo/Getty Images; F17.4, imagen por
F10.1, NCR Corporation; F10.2, Christina Sanders; F17.5, cortesía de
Russell Illig/Getty Images; F10.3, ALCOA
Capítulo 4 Tomi/Photoünk/Getty Images; F10.4,
F4.1, © RF/Corbis; F4.2, The Home Depot; AP/Wide World Photos
F4.3, © RF/Corbis; F4.4, PhotoDisc/Getty Capítulo 18
Images; F4.5, SPL/Photo Researchers, Inc. F18.1, © Image Ideas, Inc./PictureQuest
Capítulo 11
F11.1, Terry Wild Stock, Inc. ©2003; F11.2, ©
Capítulo 5 RF/Corbis; F11.3, © RF/Corbis; F11.4, David Capítulo 19
F5.1, AP/Wide World Photos; F5.2, AP/Wide Buffington/Getty Images F19.1, cortesía de PepsiCo; F19.2, derechos
World Photos; F5.3, cortesía de Dean's Food; de autor 1992 Donna Cox y Robert Patterson.
F5.4, © 2003 Busch Entertainment Imagen producida en el National Center for
Corporation. Derechos reservados; F5.5, © Capítulo 12 Supercomputing Applications, University of
RF/Corbis F12.1, © RF/Corbis; F12.2, Don Farrall/Getty Illinois at Urbana—Champaign; F19.3,
Images; F12.3, PhotoLink/Getty Images; PhotoLink/Getty Images.
F12.4, Keith Brofsky/Getty Images
Capítulo 6
F6.1, © elektraVision AG/PictureQuest; F6.2, © Capítulo 20
Corbis Images/PictureQuest; F6.3, © Capítulo 13 F20.1, Akira Kaede/Getty Images;
RF/Corbis; F6.4, LEGO, el logotipo LEGO, la F13.1, Ritz Camera Centers; F13.2, F20.2, AP/Wide World Photos
configuración de los bloques y la minifigura son © The Coca-Cola Company; F13.3,
marcas registradas de the LEGO Group © 2003 Keith Brofsky/Getty Images
The LEGO Group. Las marcas registradas y
los productos LEGO® se utilizaron con
autorización. The LEGO Group no patrocina Capítulo 14
esta publicación. F14.1, © RF/Corbis; F14.2, Ryan McVay/Getty
Images; F14.3, Karl Weatherly/Getty Images
793
Índice
795
796 Índice
Errores; vea Error de muestreo; Error están- General Foods Corporation, 323 publicación de, 619, 620
dar; Error tipo 1; Error Tipo II General Motors, 1, 4, 24, 332, 362, 589, 606 usos especiales de, 638-640
Estadística Gosset, William, 291, 451 índice de precios de Laspeyres, 626-627, 628
aplicaciones para computadora, 17-19 Gould, Stephen Jay, 114 índice de precios de Paasche, 627-629
definición, 4, 5, 58 Gráfica de porcentaje defectuoso (p), 602-604 índice de Precios para el Productor (IPP),
descriptiva, 6-7 Gráficas, 6; vea también Gráficas de control; 619,634,639
equivocada, 14-15, 17 Representaciones gráficas índice de satisfacción del consumidor, 632
historia de la, 10, 291 de barras, 42-43 índice ideal de Fisher, 629
inferencial, 7-8, 140 de líneas, 41-42 índices; vea también índice de Precios al
prueba, 321 de pastel, 43-44 Consumidor
razones para estudiar, 2-4 Gráficas de barras, 42-43 cambio de bases de, 640-641
Estadística de la muestra, 58, 258 Gráficas de barras c, 604-605 como deflactores, 639
Estadística de la prueba, 321 Gráficas de control de temporada, 668-673
Estadística de prueba ji cuadrada, 524 atributos, 602-605 importancia, 619
cálculo, 525-526 íactores, 726 para propósitos especiales, 632-633
valores críticos, 525, 718 gráfica (p) de porcentaje de defectuosos, periodos base, 622, 623
Estadística descriptiva, 6-7 602-604 propósito, 622
Estadística inductiva; vea Estadística inferen- gráficas de barras c, 604-605 índices bursátiles; vea Promedio Industrial Dow
cial, 7-8, 140 gráficas de rangos, 598-599 Jones; Nasdaq; índice 500 de Stan-
Estadísticas z, 220 procesos controlados y fuera de control, dard & Poor's
Estados de la naturaleza, 689 599-601 índices de valores, 631
Estimadores puntuales o de punto, 284 uso de, 588, 594-595, 598 índices estacionales, 668-673
Estrategia de minimax, 694 variables, 595-598 índices no ponderados, 624-626
Estrategia maximax, 694 Gráficas de control de atributos, 602-605 índices ponderados
Estrategia maximin, 694 Gráficas de líneas, 41-42 índice de precios de Laspeyres, 626-627, 628
Estratos, 254-255 Gráficas de pastel, 43-44 índice de precios de Paasche, 627-629
Ética, 17 Gráficas de rango, 598-599 índice ideal de Fisher, 629
Eventos Gran media, 595 Inferencia estadística; vea Estadística de infe-
colectivamente exhaustivos, 144 Graunt, John, 10 rencia
conjuntos, 150 Greenspan, Alan, 2 Información perfecta, valor de la, 694-696
definición, 142 Guinness Brewery, 291 Ingreso real, 638
dependientes, 154 Instituto de Investigaciones Sociales de la
independientes, 153 Universidad de Michigan, 477
mutuamente exclusivos, 143, 147 H Intercepto (ordenada al origen)
Eventos colectivamente exhaustivos, 144 de la línea de regresión, 442
Eventos conjuntos, 150 Hamilton, Alexander, 27 en la regresión múltiple, 474-475
Eventos dependientes, 154 Hammond Iron Works, 71 Intercepto Y, 442
Eventos independientes, 153 Health and Human Services, Department of, 15 Infernal Revenue Service, 26, 604
Eventos mutuamente excluyentes, 143, 147 Hipótesis Intervalos de clases, 26, 29
Experimentos alternativa, 319 Intervalos de confianza
con dos factores, 409 definición, 317 90 por ciento, 287
definición, 141 nula, 319 92 por ciento, 286-287
variables aleatorias, 183-184 Hipótesis alternativa, 319 95 por ciento, 284-285, 286
Extendidos, vea Dispersión Hipótesis nula, 319 99 por ciento, 285, 286
Exxon Mobil, 1, 4 Histog ramas cálculo, 285, 287-288
definición, 32 definición, 284
elaboración, 32-33 en la regresión lineal, 451-452, 453
F Hojas, 99 para la diferencia en las medias de trata-
Factor de corrección para población finita, Home Depot, 651-652 miento, 402-404
Homeland Security, Department of, 11-12 para la media poblacional, 286-287, 292-
300-301
Homoscedasticidad, 483, 496-497 293, 294-295
Factor de corrección por continuidad, 232-235 Huff, Darrell, 17
Factor de mentira, 16 para la proporción, 297-298
Hunt, V. Daniel, 589 simulación en computadora, 288-290
Federal Express, 589 Hyundai, 24
Federal Reserve Board, 6, 619 Intervalos de confianza de 90 por ciento, 287
Federalist, The, 27 Intervalos de confianza de 92 por ciento, 286-
Fisher, Irving, 629 287
Fisher, R. A., 251 I Intervalos de confianza de 95 por ciento, 284-
Fisher, Ronald, 387 IBM, 589 285, 286
Ford Motor Company, 1,14, 24, 534, 589, Intervalos de confianza de 99 por ciento, 285,
Inclusivo o, 151
286
688, 689 Incremento porcentual promedio a través del
Fórmula de combinación, 168-169 Intervalos de predicción, 451, 452-453
tiempo, 70
Fórmula de multiplicación, 165-166 IPC; vea índice de precios al consumidor
índice 500 de Standard & Poor's, 443, 619,
Fórmula de permutación, 166-168 IPP; vea índice de Precios para el Productor
635, 663
Frecuencia esperada, 536 índice agregado simple, 625-626
Frecuencias de clases, 27-28 índice de la bolsa de valores de Nueva York, J
Frecuencias relativas, 144 355, 618, 635 J. D. Power & Associates, 632
Frecuencias relativas de clase, 27-28 índice de precios al consumidor (IPC), 633-634 Jay, John, 27
Frito-Lay, 4-5 compilación de, 637 Johnson and Johnson, 618
componentes, 622, 637
G funciones, 637 K
historia, 637
Gates, William, 4 índices específicos, 637 Kellogg Company, 2
General Electric, 589, 688 periodos base, 637 Kennedy, John F., 99
798 Índice
Poblaciones finitas, 197-198, 300 Prueba de rangos asignados de Wilcoxon, Reglas de adición
Poder adquisitivo del dólar, 639-640 556-559 especiales, 147-149
Polígonos de frecuencia, 33-36 valores críticos, 558-559, 725 generales, 149-151
acumulados, 37-39 Prueba de signos, 547, 551 Reglas de decisión, 321-322
Polígonos de frecuencia acumulada, 37-39 pruebas de hipótesis para la mediana, 554- Reglas de multiplicación
Premio Nacional a la Calidad Malcolm 555 especiales, 153-154
Baldrige, 589 uso de la aproximación normal para la generales, 154-155
Principio de mínimos cuadrados, 441 prueba binomial, Reglas de probabilidad
Principios del conteo 552-553 regla del complemento, 148-149
fórmula de combinación, 168-169 Prueba de sumas de rangos de Wilcoxon, regla especial de adición, 147-149
fórmula de multiplicación, 165-166 561-563 regla general de adición, 149-151
fórmula de permutación, 166-168 Prueba de f pareada, 371 regla general de multiplicación, 154-155
Probabilidad Prueba global, 487-489 Reglas de probabilidad; vea Probabilidad, re-
anterior, 161 Prueba ji cuadrada glas de la
clásica, 143-144 análisis de tabla de contingencia, 534-537 Regresión del mejor subconjunto, 491
concepto empírico, 144 limitaciones, 531-532 Regresión lineal
condicional, 154 prueba de bondad de ajuste error estándar del estimador, 446-448, 450,
conjunta, 150 frecuencias esperadas desiguales, 529- 457-459
definición, 141 531 intervalos de confianza, 451-452, 453
eventos, 142 frecuencias esperadas iguales, 523-537 intervalos de predicción, 451, 452-453
experimentos, 141 Prueba í principio de mínimos cuadrados, 441
para el coeficiente de correlación, 438-439 supuestos, 449-450
objetiva, 143
pareada, 371 transformación de datos, 459-461
posterior, 161
Pruebas de distribución libre, 547 trazo de la línea, 443
principios del conteo
Pruebas de hipótesis; vea también Análisis de Regresión múltiple
fórmula de la combinación, 168-169
la varianza autocorrelación, 483
fórmula de la multiplicación, 165-166
con dos muestras; vea Pruebas de hipóte- supuestos, 482-483
fórmula de la permutación, 166-168 sis con dos muestras tablas ANOVA, 483-484
regla especial de multiplicación, 153-154 con una muestra; vea Pruebas de hipótesis Regresión por pasos, 491
resultados, 141-142 Relaciones curvilíneas, 459-461
con una muestra
subjetiva, 145 correlación de rangos, 571-572 Relaciones no lineales, 459-461
Teorema de Bayes, 160-162 definición, 318 Representaciones gráficas; vea también Gráfi-
Probabilidad anterior, 161 para la mediana, 554-555 cas
Probabilidad binomial acumulada procedimiento de cinco pasos, 318-323 árboles de decisión, 697-699
distribuciones, 195-196 prueba de bondad de ajuste, 523-526 de información estadística, 4-5
Probabilidad clásica, 143-144 valores p, 328-329, 341-342 de las distribuciones de frecuencia, 31
Probabilidad condicional, 154 Pruebas de hipótesis con dos muestras diagramas de árbol, 158-159, 697-699
Probabilidad conjunta, 150 muestras dependientes, 370-373 diagramas de caja, 108-110
Probabilidad objetiva, 143 muestras independientes, 356-360 diagramas de dispersión, 118-119, 430-
Probabilidad posterior, 161 para la proporción, 362-364 431,485-486
Probabilidad subjetiva, 145 prueba de las medias de muestra pequeña, diagramas de punto, 97-98
Procesos; vea Control de calidad 366-368 diagramas de tallo y hoja, 98-99
Promedio Industrial Dow Jones (DJIA), 41, 619, Pruebas de hipótesis con una muestra diagramas de Venn, 148
634-635, 641 para la media poblacional erróneas, 15-16
Promedio simple de índices de precios, 624- con desviación estándar poblacional co- gráficas de control de calidad
625 nocida, 324-328 diagramas de esqueleto de pescado,
Promedios, 14-15, 56 con desviación estándar poblacional co- 592-593
Promedios móviles ponderados, 658-659 nocida y muestra pequeña, 335- gráficas de Pareto, 591-592
Pronóstico 339 histogramas, 32-33
a largo plazo, 651 con desviación estándar poblacional polígonos de frecuencia, 33-36
con datos desestacionalizados, 675-677 desconocida y muestra grande, polígonos de frecuencia acumulados, 37-39
errores en, 676 329-330 Residuales, 481. 495-497
Pronóstico a largo plazo; vea Pronóstico solución de software, 341 -342 Resultados
Proporción combinada, 362 para la proporción, 331-334 conteo, 165
Proporción de la muestra, 298 Pruebas de significancia de dos colas, 324- definición, 141-142
error estándar de la, 298, 602 327 Riesgo del consumidor, 607
Proporción de la población, 298 Pruebas de significancia de una cola, 323- Riesgo del productor, 607
pruebas de hipótesis para, 332-334 324, 327-328 Ritz-Carlton Hotel Corporation, 589
tamaño de la muestra para estimar, 303- Puntos medios de clases, 29 Rockwell International, 430
304 Roosevelt, Franklin D., 255, 356
Proporciones Roper ASQ, 251
combinadas, 362 R
de la muestra, 298 rde Pearson, vea Coeficiente de correlación
s
de la población, 298, 303-304 RAND Corporation, 251 Segunda Guerra Mundial, 201, 322, 587
definición, 297 Rango, 72 Selección de variables, 489-491
intervalos de confianza para, 297-298 Recopilación de datos, 5-6 análisis de residuales, 495-497
pruebas de hipótesis para Regla del complemento, 148-149 coeficientes de regresión, 474-475, 489-491
dos muestras, 362-364 Regla empírica, 80, 222-223 ecuación general, 475
una muestra, 331-334 Regla especial de adición, 147-149 error estándar múltiple del estimador, 481-
Prueba de ANOVA, 394-395 Regla especial de multiplicación, 153-154 482, 484
Prueba de bondad de ajuste Regla general de adición, 149-151 homoscedasticidad, 483, 496-497
frecuencias esperadas desiguales, 529-531 Regla general de multiplicación, 154-155 inferencias acerca de los parámetros pobla-
frecuencias esperadas ¡guales, 523-526 Regla normal, 80 cionales, 475-479
800 Índice