Está en la página 1de 829

ESTADÍSTICA

aplicada a los negocios


y a la economía
ESTADÍSTICA
aplicada a los negocios
y a la economía
Decimosegunda edición

Douglas A. Lind
Coastal Carolina University and The University of Toledo

William G. Marchal
The University of Toledo

Samuel A. Wathen
Coastal Carolina University

Traducción
Concepción Verania de Parres Cárdenas
Traductora profesional

Revisión técnica
Gilberto Prieto Morín Nadima Simón Domínguez
Profesor Profesor investigador
Facultad de Contaduría y Administración Facultad de Contaduría y Administración
Universidad Nacional Autónoma de México Universidad Nacional Autónoma de México

MÉXICO • BOGOTÁ • BUENOS AIRES • CARACAS • GUATEMALA


LISBOA • MADRID • NUEVA YORK • SAN JUAN • SANTIAGO
AUCKLAND • LONDRES • MILÁN • MONTREAL • NUEVA DELHI
SAN FRANCISCO • SINGAPUR • ST. LOUIS • SIDNEY • TORONTO
A Jane, mi esposa y mejor amiga, y a nuestros hijos y sus esposas,
Mike (Sue), Steve (Kathryn) y Mark (Sarah).
Douglas A. Lind

A Andrea, mi corazón y la madre de nuestros hijos:


Rachel Anne (y Eric), Joseph Andrew, Sarah Louise,
Christopher Brophy y Mary Bridget.
William G. Marchal

A mi maravillosa familia: Isaac, Hannah y Barb.


Samuel A. Wathen
Gerente de producto: Ricardo del Bosque Alayón
Editor de desarrollo: Noé Islas López
Supervisor de producción: Zeferino García García

ESTADÍSTICA APLICADA
A LOS NEGOCIOS Y A LA ECONOMÍA
Decimosegunda edición

Prohibida la reproducción total o parcial de esta obra,


por cualquier medio, sin la autorización escrita del editor.

DERECHOS RESERVADOS © 2005, respecto a la primera edición en español por


McGRAW-HILL/INTERAMERICANA EDITORES, S.A. DE C.V.
A subsidiary of The McGraw-Hill Companies, Inc.
Prolongación Paseo de la Reforma 1015,
Torre A, Piso 17, Col. Desarrollo Santa Fe
Delegación Alvaro Obregón
C.P. 01376, México, D. F.
Miembro de la Cámara Nacional de la Industria Editorial Mexicana, Reg. Núm. 736

ISBN-13: 978-970-104834-4
ISBN-10: 970-104834-2

Translated from the Twelfth English Edition of


Statistical Techniques in Business & Economics
By Douglas A. Lind, William G. Marchal and Samuel A. Wathen
Copyright© 2005, 2002, 1999, 1996, 1993, 1990, 1986, 1982, 1978, 1974, 1970, 1967
by The McGraw-Hill Companies, Inc.
All rights reserved
ISBN 0-07-286824-4 (alk.paper) 0-07-286825-2 (international: alk. Paper)

3456789012 09876432105

Impreso en México Printed in México

Esta obra se terminó de imprimir en junio de 2007 en


Litográfica Ingramex, S.A. de C.V., Centeno 162-1, Col.
Granjas Esmeralda, México, D.F.
El objetivo de este libro es ofrecer a los estudiantes conocimientos especializados en
administración, marketing, finanzas, contabilidad, economía y otros campos de la adminis-
tración de negocios, con un estudio de introducción a las numerosas aplicaciones de la
estadística descriptiva e inferencial. Al tiempo que nos enfocamos en las aplicaciones de
negocios, utilizamos también muchos problemas y ejemplos orientados hacia el estudiante
y sin necesidad de cursos previos.
La primera edición de este libro se publicó en 1967. En esa época, resultó difícil encon-
trar información de negocios relevante. ¡Pero todo ha cambiado! En la actualidad, encontrar
esa información ya no es un problema. La cantidad de artículos que usted compra en el
supermercado se registra automáticamente en la caja registradora. Las compañías tele-
fónicas llevan un registro de la duración de nuestras llamadas, la hora en que se realizan y
el número telefónico de la persona a la que se llamó. Las compañías de tarjetas de crédito
guardan la información sobre el número, la hora y fecha, y la cantidad de sus compras. Los
dispositivos médicos vigilan en forma automática el ritmo cardíaco, la presión sanguínea y
la temperatura. Gran cantidad de información de negocios se registra y reporta casi al
instante. Por ejemplo, CNN, USA Today y MSNBC tienen sitios web en los que usted se
puede informar sobre los precios de las acciones con una diferencia de menos de veinte
minutos.
En la actualidad, se necesitan habilidades para manejar, el enorme volumen de infor-
mación numérica disponible. Primero, es necesario ser consumidores muy críticos de la
información que nos presentan los demás. En segundo, debemos ser capaces de reducir
gran cantidad de información en forma concisa y significativa a fin de poder realizar inter-
pretaciones efectivas, formarnos un juicio y tomar mejores decisiones.
Todos los estudiantes tienen calculadoras y la mayoría cuenta con una computadora
personal o acceso a las computadoras del laboratorio del campus. En estas máquinas, está
disponible software de estadística, como Microsoft Excel y MINITAB. Los comandos nece-
sarios para lograr buenos resultados con este software se encuentran en una sección espe-
cial al final de cada capítulo. En los capítulos, utilizamos pantallas de captura, a fin de que
el alumno se familiarice con la naturaleza de la salida del software. Debido a la disponibili-
dad de las computadoras y el software,"ya no es necesario, detenerse a hacer muchos
cálculos; por lo que reemplazamos muchos de los ejemplos de cálculos con otros interpre-
tativos, para ayudar a que el estudiante entienda e interprete los resultados estadísticos.
Además, ponemos mayor énfasis en la naturaleza conceptual de los temas de estadística.
Aunque realizamos estos cambios, no dejamos de presentar, de la mejor forma posible, los
conceptos clave, acompañados por ejemplos de apoyo.
La decimosegunda edición de Técnicas de estadística para negocios y economía es el
producto del trabajo de muchas personas: estudiantes, colegas, revisores y el personal de
McGraw-Hill/lrwin. Nuestro agradecimiento a todos ellos. Deseamos expresar nuestra sin-
cera gratitud a los revisores:

Wynn Abranovic Chia-Shin Chung


University of Massachusetts-Amherst Cleveland State University
Mostafa Aminzadeh Anne Davey
Towson University Northeastern State University
Lari Arjomand Nirmil Devi
Clayton University Embry Riddle University
J. R. Brey Casey DiRienzo
Cardinal Stritch University Elon University
Nancy Brooks Mark Eakin
University of Vermont-Burlington University of Texas at Arlington
Giorgio Canarella Joseph Fuhr
California State University-Los Angeles Widener University

vii
viii Prefacio

Jonathan Furdek Lee Neidleman


Purdue University-Calumet San José State University
Joel Goldstein Cliff Nowell
Western Connecticut State University Weber,State University
Alison Kelly Hawke J. G. Patankar
Suffolk University University of Akron
Clifford Hawley James Payne
West Virginia University Eastern Kentucky University
Gary Kettlitz Jospeh A. Petry
Ramapo College University of Illinois Champaign-Urbana
Marcia Lambert Anastasia Pikas
Pittsburgh Community College Niágara University
Christopher Lowery Ali Rassul
Georgia College and State University Purdue University-Fort Wayne
Robert Lynch . Harriet Rojas
University oí Northern Colorado Indiana Wesleyan University
Elaine McGivern Christopher Rogers
Duquesne University Miami Dade Community College
Daniel Mihalko Robert K. Smidt
Western Michigan University-Kalamazoo California Polytechnic University
Tracy Miller Gary Smith
Grove City College Florida State University
Abdel-Aziz Mohamed Tara Sudderth
California State University-Northridge Birmingham-Southern College
Sus sugerencias y revisión a fondo de la edición anterior y el manuscrito de ésta hacen
que sea un mejor libro.
Un agradecimiento especial a varias personas. El doctor Leonard Presby de William
Paterson University, la doctora Julia Norton de California State University-Hayward y la
doctora Mary Elizabeth Camp de Indiana University revisaron el manuscrito y la precisión
de los ejercicios. El profesor Walter Lange, de University of Toledo, preparó la guía de estu-
dios. El doctor Rick Cornack, de Coastal Carolina University y el doctor Temoleon Rousos
revisó la precisión de la guía de estudios. El doctor Samuel Wathen, de Coastal Carolina
University, preparó el banco de pruebas. La profesora Joyce Keller, de St. Edward's
University, preparó la Presentación en PowerPoint. La señora Denise Heban y los autores
prepararon el Manual del profesor.
También queremos agradecer al personal de McGraw-Hill/lrwin, en el que se incluyen
Richard T. Hercher, Jr., editor ejecutivo; Christina Sanders, editora de desarrollo; Douglas
Reiner, gerente de marketing; James Labeots, gerente de proyecto, y otros que no cono-
cemos personalmente, pero que hicieron contribuciones muy valiosas.
1 ¿Qué es estadística? 1
2 Descripción de datos: distribuciones de frecuencias y su presentación
gráfica 23
3 Descripción de datos: medidas de ubicación 55
4 Descripción de datos: presentación y exploración de datos 96
5 Estudio de los conceptos de probabilidad 139
6 Distribuciones discretas de probabilidad 180
7 Distribuciones de probabilidad continua 212
8 Métodos de muestreo y el teorema del límite central 250
9 Estimación e intervalos de confianza 282
10 Pruebas de hipótesis de una muestra 316
11 Pruebas de hipótesis para las muestras de dos poblaciones
independientes 355
12 Análisis de la varianza 386
13 Regresión lineal y correlación 428
14 Regresión lineal múltiple y análisis de correlación lineal múltiple 474
15 Métodos no paramétricos: aplicaciones de ji cuadrada 522
16 Métodos no paramétricos: análisis de datos ordenados 546
17 Control de calidad estadístico 586
18 Números índice 618
19 Serie de tiempo y proyección 650
20 Una introducción a la teoría de las decisiones 687
Apéndices 705
Respuestas a los ejercicios nones de cada capítulo 751
Respuestas a los ejercicios de revisión nones 789
Créditos de fotografías 793

Índice 795

ix
Distribución de frecuencias relativas 30
Capítulo 1 Ejercicios 30
¿Qué es estadística? 1 _______________ Presentación gráfica de una distribución
de frecuencias 31
Introducción 2
Histograma 32
¿Por qué estudiar estadística? 2
Polígono de frecuencias 33
¿Qué quiere decir estadística? 4
Ejercicios 36
Tipos de estadística 6
Polígono de frecuencias acumuladas 37
Estadística descriptiva 6
Ejercicios 40
Estadística inferencial 7
Otras presentaciones gráficas de datos 41
Tipos de variables 8
Gráficas lineales 41
Niveles de medición 9
Gráficas de barras 42
Datos de nivel nominal 10
Gráficas circulares o de pastel 43
Datos de nivel ordinal 11
Ejercicios 45
Datos de nivel de intervalo 12
Resumen del capítulo 46
Datos de nivel de razón 12
Ejercicios del capítulo 47
Ejercicios 14
exercises.com 51
Estadística, gráficas y ética 14
Ejercicios de la base de datos 52
Estadísticas engañosas 14
Comandos de software 53
La relación no necesariamente implica
Respuestas a las autoevaluaciones 54
causalidad 15
Las gráficas pueden ser engañosas 15
Conviértase en un mejor consumidor y un mejor
productor de información 17
Ética 17 Capítulo 3
Aplicaciones con el uso dé la computadora 17
Resumen del capítulo 19 Descripción de datos: medidas
Ejercicios del capítulo 19 de ubicación 55
exercises.com 20 Introducción 56
Ejercicios de la base de datos 20 La media de la población 57
Respuestas a las autoevaluaciones 22 Media de una muestra 58
Propiedades de la media aritmética 59
Ejercicios 60
Media ponderada: 61
Capítulo 2 Ejercicios 62
Mediana 62
Descripción de datos: distribuciones de Moda 63
frecuencias y su presentación gráfica 23 Ejercicios 65
Introducción 24 Solución con uso de software 66
Creación de una distribución de frecuencias 25 Las posiciones relativas de la media, la mediana y la
Intervalos de clase y puntos medios de clase 29 moda 66
Ejemplo con el uso del software 29 Ejercicios 68
Contenido XI

Media geométrica 69 Resumen del capítulo 122


Ejercicios 70 Clave de pronunciación 123
¿Por qué estudiar la dispersión? 71 Ejercicios del capítulo 123
Medidas de dispersión 72 exercises.com 128
Rango 72 Ejercicios de la base de datos 128
Desviación media, 73 Comandos de software 129
Ejercicios 74 Respuestas a las autoevaluaciones 131
Varianza y desviación estándar 74
Ejercicios 76
Solución con uso de software 78
Ejercicios 78
Interpretación y usos de la desviación estándar 79
Teorema de Chebyshev 79
La regla empírica 80
Ejercicios 81
La media y la desviación estándar para datos
agrupados 81
Media aritmética para datos agrupados 82 Capítulo 5
Desviación estándar para datos agrupados 83
Ejercicios 84
Estudio de los conceptos
Resumen del capítulo 85
de probabilidad , 139
Clave de pronunciación 87 Introducción 140
Ejercicios del capítulo 87 ¿Qué es probabilidad? 141
exercises.com 90 Enfoques para asignar probabilidades 143
Ejercicios de la base de datos 92 Probabilidad clásica 143
Comandos de software 92 Probabilidad empírica 144
Repuestas a las autoevaluaciones 94 Probabilidad subjetiva 145
Ejercicios 146
Algunas reglas para calcular probabilidades 147
Reglas de adición 147
Capítulo 4 Ejercicios 152
Reglas de la; multiplicación 153
Descripción de datos: Tablas de contingencias 156
presentación y exploración de datos 96 Diagramas de árbol 158
Introducción 97 Ejercicios 159
Diagramas de puntos 97 Teorema de Bayes 160
Gráficas de tallo y hojas 98 Ejercicios 164
Ejercicios 103 Principios de conteo 165
Otras medidas de dispersión 104 La fórmula de la multiplicación 165
Cuartiles, deciles y percentiles 105 La fórmula de la permutación 166
Ejercicios 108 La fórmula de la combinación 168
Diagramas de caja 108 Ejercicios 170
Ejercicios 111 Resumen del capítulo 170
Dispersión relativa 112 Clave de pronunciación 171
Ejercicios 113 Ejercicios del capítulo 171
Sesgo 114 exercises.com 176
Ejercicios 117 Ejercicios de la base de datos 176
Descripción de la relación entre dos variables 118 Comandos de software 177 Respuestas a
Ejercicios 121 las autoevaluaciones 178
Xll Contenido

Cómo encontrar áreas por debajo de la curva


Capítulo 6 normal 224
Ejercicios 226
Distribuciones discretas
Ejercicios 229
de probabilidad 180
Ejercicios 231
Introducción 181 La aproximación de la distribución normal a la
¿Qué es una distribución de probabilidad? 181 binomial 231
Variables aleatorias 183 Factor de corrección de continuidad 232
Variable aleatoria discreta 184 Cómo aplicar el factor de corrección 234
Variable aleatoria continua 184 Ejercicios 235 Resumen del capítulo 236
La media, la varianza y la desviación estándar Ejercicios del capítulo 237
de una distribución de probabilidad 184 Ejercicios de la base de datos 241
Media 184 Comandos de software 241
Varianza y desviación estándar 185 Respuestas a las autoevaluaciones 242
Ejercicios 187
Distribución de probabilidad binomial 188
¿Cómo se construye una distribución de
probabilidad binomial? 189
Tablas de probabilidad binomial 191
Ejercicios 194
Distribuciones de probabilidad binomial
acumulada 195
Ejercicios 197
Distribución de probabilidad hipergeométrica 197
Ejercicios 200 Capítulo 8
Distribución de probabilidad de Poisson 201
Ejercicios 203 Resumen del capítulo 204 Métodos de muestreo y el teorema
Ejercicios del capítulo 205 del límite central 250
Ejercicios de la base de datos 209
Introducción 251
Comandos de software 209
Métodos de muestreo 251
Respuestas a las autoevaluaciones 211
Razones del muestreo 251
Muestreo aleatorio simple 252
Muestreo aleatorio sistemático 253
Muestreo aleatorio estratificado 254
Capítulo 7 Muestreo por conglomerados 255
Ejercicios 256
Distribuciones de probabilidad "Error" de muestreo 258
continua____ 212 ______________ Distribución muestral de medias 259
Introducción 213 Ejercicios 261
La familia de la distribución uniforme 213 El teorema del límite central 263
Ejercicios 216 Ejercicios 269
La familia de las distribuciones Uso de la distribución muestral de medias 270
de probabilidad normal 217 Ejercicios 274
La distribución normal estándar 219 Resumen del capítulo 274
Aplicaciones de la distribución Clave de pronunciación 275
normal estándar 221 Ejercicios del capítulo 275
La regla empírica 222 exercises.com 280
Ejercicios 223 Ejercicios de la base de datos 280
Respuestas a las autoevaluaciones 281
Contenido xiii

Pruebas para la media de una población donde la


Capítulo 9 desviación estándar de la población es conocida 324
Una prueba con dos colas 324
Estimación e intervalos de confianza 282 Prueba con una cola 327
Introducción 283 El valor p en la prueba de hipótesis 328
Estimadores puntuales e intervalos de confianza 283 Prueba para la media de la población: muestra grande y
o conocida o para una muestra grande 283 desviación estándar de la población desconocida 329
Simulación por computadora 288 Ejercicios 331
Ejercicios 290 Pruebas relacionadas con las proporciones 331
Desviación estándar de una población desconocida y Ejercicios 334
una muestra pequeña 291 Prueba para la media de la población: muestra
Ejercicios 296 pequeña y desviación estándar de una población
Intervalo de confianza para una proporción 297 desconocida 335
Ejercicios 299 Ejercicios 340
Factor de corrección para una población finita 300 Solución con software 341
Ejercicios 301 Ejercicios 343
Elección del tamaño apropiado de una muestra 301 Error tipo II 344
Ejercicios 304 Ejercicios 347
Resumen del capítulo 305 Resumen del capítulo 347
Clave de pronunciación 306 Clave de pronunciación 348
Ejercicios del capítulo 306 Ejercicios del capítulo 348
exercises.com 309 exercises.com 352
Ejercicios de la base de datos 309 Ejercicios de la base de datos 352
Comandos de software 310 Comandos de software 353
Respuestas a las autoevaluaciones 311 Respuestas a las autoevaluaciones 354

Capítulo 11
Pruebas de hipótesis para las muestras de dos
poblaciones independientes 355 ________
Introducción 356
Pruebas de hipótesis de las muestras:
de poblaciones independientes 356
Ejercicios 361
Capítulo 10 Prueba de hipótesis para la diferencia entre las
proporciones muéstrales de dos poblaciones
Pruebas de hipótesis de una muestra 316 independientes 362
Introducción 317 Ejercicios 364
¿Qué es una hipótesis? 317 Comparación de las medias de la población
¿Qué es la prueba de hipótesis? 318 con muestras pequeñas 366
Procedimiento de cinco pasos para probar Ejercicios 369
una hipótesis 318 Pruebas de hipótesis de dos muestras:
Paso 1: Establecer la hipótesis nula (H0) y la muestras dependientes 370.
hipótesis alternativa (H1) 319 Comparación de muestras dependientes
Paso 2: Seleccionar un nivel de significancia 320 e independientes 374
Paso 3: Seleccionar el estadístico de prueba 321 Ejercicios 376
Paso 4: Formular la regla de decisión 321 Resumen del capítulo 377
Paso 5: Tomar una decisión 322
Pruebas de significancia de una y dos colas 323
XIV Contenido

Clave de pronunciación 378 Ejercicios 440


Ejercicios del capítulo 378 Análisis de regresión 440
exercises.com 383 Principio de los mínimos cuadrados 441
Ejercicios de la base de datos 383 Cómo trazar la línea recta de regresión 443
Comandos de software 384 Ejercicios 444
Respuestas a las autoevaluaciones 385 El error estándar de estimación 446
Consideraciones necesarias para aplicar la regresión
lineal 449
Capítulo 12 Ejercicios 450
Intervalos de confianza e intervalos de predicción 451
Análisis de la varianza 386 Ejercicios 454
Introducción 387 Más sobre el coeficiente de determinación 454
La distribución F 387 Ejercicios 457
Comparación de dos varianzas de población 388 Relación entre el coeficiente de correlación,
Ejercicios 391 el coeficiente de determinación y el error estándar
Suposiciones de ANOVA 392 de estimación 457
La prueba de ANOVA 394 Transformación de los datos 459
Ejercicios 401 Ejercicios 461
Inferencias sobre pares de medias de tratamiento 402 Resumen del capítulo 462
Ejercicios 404 Clave de pronunciación 463
Análisis de la varianza en dos direcciones 406 Ejercicios del capítulo 463
Ejercicios 410 exercises.com 470
Resumen del capítulo 411 Ejercicios de la base de datos 471
Clave de pronunciación 412 Comandos de software 472
Ejercicios del capítulo 413 Respuestas a las autoevaluaciones 473
exercises.com 419
Ejercicios de la base de datos 419
Comandos de software 420 Capítulo 14
Respuestas a las autoevaluaciones 422
Regresión lineal múltiple y análisis
de correlación lineal múltiple 474
Introducción 475
Análisis de regresión múltiple 475
Interferencias en una regresión lineal múltiple 476
Ejercicios 479
Error estándar de estimación múltiple 481
Suposiciones sobre la regresión y la correlación lineal
múltiple 482
Capítulo 13 Tabla ANOVA 483
Regresión lineal y correlación 428 Ejercicios 485
Evaluación de la ecuación de regresión 485
Introducción 429
Uso de un diagrama de dispersión 485
¿Qué es el análisis de correlación? 429
Matriz de correlación 486
El coeficiente de correlación 431
Prueba global: prueba de validación para el modelo
El coeficiente de determinación 435
de regresión múltiple 487
Advertencia con relación a la interpretación del
Evaluación de los coeficientes de regresión
análisis de correlación 436
individuales 489
Ejercicios 436
Variables independientes cualitativas 492
Prueba de la significancia del coeficiente
Ejercicios 494
de correlación 438
Contenido xv

Análisis de varianzas residuales 495 Ejercicios 554


Resumen del capítulo 500 Prueba de una hipótesis acerca
Clave de pronunciación 501 de una mediana 554
Ejercicios del capítulo 501 Ejercicios 555
exercises.com 513 Prueba de rangos con signo de Wilcoxon 556
Ejercicios de la base de datos 514 Ejercicios 559
Comandos de software 515 Prueba de suma de rangos de Wilcoxon 561
Respuestas a las autoevaluaciones 517 Ejercicios 564
Prueba de Kruskal-Wallis: análisis de la varianza
por rangos 564
Ejercicios 568
Correlación de rangos 569
Prueba de la significancia de rs 571
Ejercicios 572
Resumen del capítulo 573
Clave de pronunciación 575
Ejercicios del capítulo 575
exercises.com 577
Capítulo 15 Ejercicios del capítulo 578
Comandos de software 579
Métodos no paramétricos:
Respuestas a las autoevaluaciones 580
aplicaciones de ji cuadrada 522
Introducción 523
Prueba de bondad de ajuste: frecuencias igualmente
esperadas 523
Ejercicios 528
Prueba de bondad de ajuste: frecuencias esperadas
desiguales 529
Limitaciones de ji cuadrada 531
Ejercicios 533
Análisis de tablas de contingencias 534
Capítulo 17
Ejercicios 538
Resumen del capítulo 539 Control de calidad estadístico 586
Clave de pronunciación 539
Introducción 587
Ejercicios del capítulo 539
Una breve historia del control de calidad 587
exercises.com 542
Causas de la variación 590
Ejercicios de la base de datos 543
Diagramas de diagnóstico 590
Comandos de software 544
Diagramas de Pareto 591
Respuestas a las autoevaluaciones 545
Diagrama de causa y efecto o diagrama de
esqueleto de pez 592
Ejercicios 594
Objetivo y tipos de diagramas de control
Capítulo 16 de calidad 594
Métodos no paramétricos: análisis de datos Diagramas de control para variables 595
ordenados 546 ___________ _________ Diagramas de rangos 598
Algunas situaciones dentro y fuera de control 599
Introducción 547
Ejercicios 601
La prueba del signo 547
Diagramas de control de atributos 602
Ejercicios 551
Diagrama de porcentaje defectuoso 602
Uso de la aproximación normal a la binomial 552
Gráfica de líneas c 604
XVI Contenido

Ejercicios 605 Variación estacional 654


Muestreo de aceptación 606 Variación irregular 654
Ejercicios 609 El método del promedio móvil 655
Resumen del capítulo 610 Promedio móvil ponderado 658
Clave de pronunciación 611 Ejercicios 660
Ejercicios del capítulo 611 Tendencia lineal 661
Comandos de software .615 Método de los mínimos cuadrados 662
Respuestas a las autoevaluaciones 617 Ejercicios 664
Tendencias no lineales 665
Ejercicios 667
Capítulo 18 Variación estacional 668
Determinación de un índice estacional 668
Números índice 618 Ejercicios 673
Introducción 619 Desestacionalización de datos 674
Números índice sencillos 619 Uso de datos desestacionalizados
¿Para qué convertir datos en índices? 622 para proyección 675
Elaboración de números índice 622 Ejercicios 677
Ejercicios 624 Resumen del capítulo 678
índices no ponderados 624 Ejercicios del capítulo 678
Promedio simple de los índices de precios 624 exercises.com 684
índice agregado simple 625 Ejercicios de la base de datos 684
índices ponderados 626 Comandos de software 685
índice de precios de Laspeyres 626 Respuestas a las autoevaluaciones 686
índice de precios de Paasche 627
índice ideal de Fisher 629
Ejercicios 630
Índice de valores 631 Capítulo 20
Ejercicios 632 Una introducción a la teoría
índices para propósitos especiales 632
de las decisiones 687
Ejercicios 636
Índice de precios al consumidor 637 Introducción 688
Usos especiales del índice de precios Elementos de una decisión 688
al consumidor 638 Un caso que comprende la toma de decisiones
Cambio de la base 640 en condiciones de incertidumbre 689
Ejercicios 642 Tabla de beneficios 689
Resumen del capítulo 643 Beneficios esperados 690
Ejercicios del capítulo 644 Ejercicios 691
exercises.com 648 Pérdida de oportunidad 692
Comandos de software 648 Ejercicios 693
Respuestas a las autoevaluaciones 649 Pérdida de oportunidad esperada 693
Ejercicios 694
Estrategias de maximín, maximax y minimax 694
Valor de la información perfecta 694
Capítulo 19 Análisis de sensibilidad 696
Serie de tiempo y proyección 650 Ejercicios 697
Árboles de decisión 697
Introducción 651
Resumen del capítulo 699
Componentes de una serie de tiempo 651
Ejercicios del capítulo 700
Tendencia secular 651
Respuestas a las autoevaluaciones 704
Variación cíclica 653
Contenido xvii

Apéndices Apéndice K
Conjunto de datos 2. Major League Baseball
Covarianza 706 (Ligas Mayores de Béisbol) 730

Apéndice A Apéndice L
Distribución de probabilidad binomial 713 Conjunto de datos 3. Wages and Wage Earners
(Salarios y asalariados) 732
Apéndice B
Valores críticos de ji cuadrada 718 Apéndice M
Conjunto de datos 4. CIA International Economic
Apéndice C and Demographic Data (Datos económicos y
Distribución de Poisson 719 demográficos internacionales) 736

Apéndice D Apéndice N
Áreas debajo de la curva normal 720 Conjunto de datos bancarios. Caso 739

Apéndice E Apéndice O
Tabla de números aleatorios 721 Whitner Autoplex 740

Apéndice F Apéndice P
Distribución t de Student 722 Inicio de trabajo con MegaStat 741

Apéndice G Apéndice Q
Valores críticos de la distribución F 723 Visual Statistics 745

Apéndice H
Valores T de Wilcoxon 725 Respuestas a los ejercicios nones de cada
capítulo 751
Apéndice I
Factores de las tablas de control 726 Respuestas a los ejercicios de revisión nones 789

Apéndice J Créditos de fotografías 793


Conjunto de datos 1. Real Estate
(Bienes raíces) 727 Índice 79
¿Qué es estadística?

Las bandas de transportación de alta velocidad y la tecnología más avanzada mueven con
eficiencia la mercancía en todos los centros de distribución de Wal-Mart para abastecer a sus
casi 3 000 tiendas.
En 2003, las cuatro compañías estadounidenses más grandes clasificadas por sus ventas
fueron Wal-Mart, Exxon Mobil, General Motors y Ford Motor Company. (Vea la Meta 5 y el
recuadro Estadística en acción, página 4.)
2 Capítulo 1

Introducción
Hace más de 100 años, H. G. Wells, escritor e historiador inglés, sugirió que algún día, el
razonamiento cuantitativo sería tan necesario para la ciudadanía efectiva como la capaci-
dad de leer. No mencionó los negocios porque la Revolución Industrial apenas comenzaba.
El señor Wells tenía toda la razón. Mientras que la "experiencia en negocios", algunos "pro-
nósticos bien pensados" y la "intuición" son atributos clave de los administradores exitosos,
los problemas actuales en los negocios suelen ser demasiado complejos para realizar sólo
este tipo de toma de decisiones.
Por suerte, los administradores de negocios del siglo xxi tienen acceso a grandes can-
tidades de información. Famoso por su habilidad para analizar la información económica,
Alan Greenspan, presidente de la Reserva Federal, conoce la importancia de las herramien-
tas y técnicas estadísticas para proporcionar información precisa y oportuna a fin de hacer
declaraciones públicas que tengan el poder de mover mercados bursátiles globales e influir
en el pensamiento político. Al hablar frente al National Skills Summit, el doctor Greenspan
afirmó: "Los trabajadores deben estar equipados no sólo con conocimientos técnicos, sino
también con la capacidad de crear, analizar y transformar la información y de interactuar de
manera efectiva con otras personas. Es decir, separar los hechos de las opiniones y luego
organizar los primeros en forma apropiada y analizar la información."
Una de las herramientas utilizadas para entender la información es la estadística. Ésta
no sólo se emplea entre hombres y mujeres de negocios; también aplicamos conceptos es-
tadísticos en nuestra vida. Por ejemplo, para empezar el día usted abre la regadera y deja
que el agua corra durante unos momentos. Luego, mete la mano bajo el chorro del agua para
sentir la temperatura y decide abrir más la llave del agua caliente o de la fría, o bien, llega a
la conclusión de que la temperatura es la correcta y entra a la regadera. Como segundo
ejemplo, suponga que está en el supermercado y quiere comprar una pizza congelada. Uno
de los fabricantes de pizzas tiene un quiosco, y ofrece un pequeño trozo de su pizza. Des-
pués de probarla, decide si la va a comprar o no. En ambos ejemplos, usted toma una de-
cisión y elige emprender-una acción con base en una muestra.
Las empresas enfrentan situaciones similares. The Kellogg Company debe tener la cer-
teza de que la cantidad media de Raisin Bran en la caja de 25.5 gramos cumple con las es-
pecificaciones de la etiqueta. Para hacerlo, es probable que establezcan un peso "meta"
ligeramente más alto que la cantidad que se especifica en la etiqueta. Luego, cada caja se
pesa después de llenarla. La báscula reporta una distribución de los pesos del contenido
para cada hora, así como el número de cajas que se rechazan durante esa hora por no
cumplir con las especificaciones de la etiqueta. El Departamento de Inspección de Calidad
también selecciona en forma aleatoria muestras de la línea de producción y verifica la cali-
dad del producto y el peso de la caja. Si el peso medio del producto difiere de manera sig-
nificativa del peso meta o el porcentaje de rechazos es muy elevado, el proceso se ajusta.
En el nivel nacional, un candidato a la presidencia de Estados Unidos quiere saber qué
porcentaje de los votantes en Illinois lo apoyará en las próximas elecciones. Hay distintas
formas en las que podrá responder esta pregunta. Podría pedir a sus empleados que lla-
men a todas las personas en Illinois que planean votar en las próximas elecciones y pre-
guntarles por quién lo harán. Podría salir y caminar por una calle de Chicago, detener a 10
personas que tengan edad de votar y preguntarles por quién votarán en las próximas elec-
ciones. Podría seleccionar una muestra aleatoria de alrededor de 2 000 votantes del esta-
do, llamarles y, con base en esta información, realizar un estimado del porcentaje que va a
votar por él en las próximas elecciones. En este libro le mostraremos por qué la tercera op-
ción es la mejor.

¿Por qué estudiar estadística?


Si busca en el catálogo de su universidad, se dará cuenta de que la estadística es necesa-
ria para muchos programas universitarios. ¿Por qué razón? ¿Cuál es la diferencia entre los
cursos de estadística que se imparten en la Facultad de Ingeniería, los Departamentos de
Psicología o Sociología en la Universidad de las Artes Liberales y la Facultad de Adminis-
tración? La mayor diferencia radica en los ejemplos que se utilizan. El contenido del curso
¿Qué es estadística? 3

es básicamente el mismo. En la Facultad de Administración nos interesan cosas como ga-


nancias, horas trabajadas y salarios. En el Departamento de Psicología se interesan por las
calificaciones obtenidas en las pruebas y en Ingeniería quizá se interesen por la cantidad
de unidades que se fabrican en una máquina en particular. Sin embargo, las tres áreas se
interesan en el valor típico y la variación que existe en la información. Quizá haya también
una diferencia en el nivel de matemáticas que se requiere. Un curso de estadística para in-
geniería casi siempre requiere de cálculo. Los cursos de estadística en las facultades de ad-
ministración y educación por lo general se imparten en un nivel más aplicado. Usted segu-
ramente podrá manejar las matemáticas que se incluyen en este libro si ya tomó clases de
álgebra en la escuela superior.
Entonces, ¿por qué la estadística se necesita en tantas áreas importantes? La primera
razón es que la información numérica está en todas partes. Si revisa los periódicos (USA To-
Ejemplos de por qué da/j, las revistas de noticias (Time, Newsweek, U.S. News and World Reporf), las revistas de
estudiamos estadística. negocios (Business Week, Forbes) o las revistas de interés general (People), las revistas pa-
ra mujeres (Home and Garderí) y las revistas deportivas (Sports Illustrated, ESPN The Maga-
zine) encontrará gran cantidad de información numérica.
Éstos son algunos ejemplos:

• En 2001, el ingreso de una familia típica en Estados


Unidos era de $42 228. Para las familias en el nores-
te, el ingreso típico era de $45 716, $43 834 en el me-
dio oeste, $38 904 en el sur y $45 087 en el oeste.
Puede revisar la información más reciente en http://
www.census.gov/hhes/income y luego buscar entre
las opciones y seleccionar income01 e inctab1.html.
• En 2002, la cantidad promedio de pavo que consumió
una persona fue de 17.3 libras, con 32% del consumo
en las fiestas. En la década de 1970, más de 50% del
consumo fue durante las fiestas. Encontrará informa-
ción similar en http://www.usatoday.com/ y haciendo
clic en Snapshots.
• Alrededor de 77% de los jugadores de golf en Estados
Unidos asistió a la universidad, su ingreso familiar pro-
medio es de más de $70 000 anuales, 60% de ellos
tienen computadoras en casa, 45% tienen inversiones
en acciones y bonos, y gastan $6.2 mil millones al año
en equipo y ropa de golf. Encontrará información adicional en http://www.fcon.com/gol-
fing/demographics.htm. -
• La National Coffee Association descubrió que 54% de la población en edad adulta be
be café todos los días. Los hombres beben un promedio de 1.9 tazas al día y las mujeres
consumen 1.4 tazas. Los estadounidenses gastan en café $9.2 mil millones en el sec-
tor detallista de la economía y $8.7 mil millones en el sector de servicios alimenticios al
año. En http://coffeeresearch/market/usa.htm está disponible información adicional.

¿Cómo podemos determinar si las conclusiones reportadas son razonables? ¿La


muestra fue suficientemente grande? ¿Cómo se seleccionaron las unidades en la muestra?
Para ser consumidores educados en esta información, necesitamos poder leer las tablas y
gráficas, así como entender el análisis de la información numérica. El entendimiento de los
conceptos de la-estadística básica será de gran ayuda.
Una segunda razón para tomar un curso de estadística es que las técnicas estadísticas
se utilizan para tomar decisiones que afectan nuestra vida diaria. Es decir, afectan nuestro
bienestar personal. Éstos son algunos ejemplos:

• Las compañías de seguros emplean el análisis estadístico para determinar las tasas de
seguros de casa, automóvil, vida y salud. Están disponibles tablas que resumen la proba-
bilidad de que una mujer de 25 años de edad sobreviva el siguiente año. Con base en es-
tas probabilidades, se pueden establecer las primas de los seguros de vida. Estas tablas
están disponibles en http://www.budgetrates.com/mortality.htm.
4 Capítulo 1

• La Environmental Protection Agency se interesa por la calidad del agua del Lago Erie.
En forma periódica se toman muestras de agua para establecer el nivel de contamina
ción y mantener el nivel de calidad.
• Los investigadores médicos estudian los índices de curación para las enfermedades uti
lizando distintos medicamentos y aplicando diversas formas de tratamiento. Por ejem
plo, ¿cuál es el efecto dé tratar cierto tipo de lesión en la rodilla con cirugía o con terapia
física? Si usted toma una tableta de ácido acetilsalicílico (aspirina) al día, ¿reducirá el
riesgo de sufrir un ataque cardiaco?

Una tercera razón para tomar un curso de estadística es que el conocimiento de los mé-
todos estadísticos le ayudará a entender cómo se toman las decisiones y le ayudará a com-
prender mejor de qué manera le afectan.
Sin importar la línea de trabajo que elija, tendrá que enfrentar decisiones en las que el
entendimiento del análisis de datos será muy útil. A fin de tomar una decisión informada, ne-
cesitará poder:

1. Determinar si la información existente es adecuada o si se necesita información


adicional.
2. Recopilar información adicional, en caso de ser necesaria, de manera que no pro-
porcione resultados erróneos.
3. Resumir la información en forma útil y organizada.
4. Analizar la información disponible.
5. Sacar conclusiones y hacer deducciones al tiempo que evalúa el riesgo de una
conclusión incorrecta.

Los métodos estadísticos que se presentan en este libro proporcionan un marco de tra-
bajo para el proceso de la toma de decisiones.
En resumen, existen por lo menos tres razones para estudiar estadística: (1) la informa-
ción está por todas partes, (2) las técnicas estadísticas se emplean para tomar muchas de-
cisiones que afectan nuestra vida y (3) sin importar cuál sea su profesión, tomará decisiones
más profesionales que comprenden información. La comprensión de los métodos estadísti-
cos le ayudará a tomar estas decisiones en forma más efectiva.

¿Qué quiere decir estadística?


¿Cómo definimos el término estadística? Lo encontramos con frecuencia en nuestro len-
guaje cotidiano y, en realidad, tiene dos significados. En su uso más común, estadística se
refiere a la información numérica. Algunos ejemplos incluyen el salario inicial promedio de
los estudiantes universitarios del último año, el número de muertes debidas al alcoholismo
cada año, el cambio en el Promedio Industrial Dow Jones de ayer a hoy y la cantidad de ca-
rreras anotadas por los Cachorros de Chicago durante la temporada 2003. En estos casos,
las estadísticas son un valor o un porcentaje. Otros ejemplos incluyen:

• El automóvil típico en Estados Unidos recorre 11 099 millas al año, el autobús típico
9 353 millas al año y el camión típico 13 942 millas anuales. En Canadá, la información
correspondiente es 10 371 millas para los automóviles, 19 823 para los autobuses y
7 001 para los camiones.
• El tiempo de espera medio para el soporte técnico es de 17 minutos.
• La longitud media del ciclo de negocios es de 61 meses desde 1945.

Todos los ejemplos anteriores son datos de estadística. Un conjunto de información


numérica se llama estadísticas (en plural).
A menudo, presentamos la información estadística en forma gráfica. Con frecuencia,
una gráfica resulta útil para captar la atención del lector y representar gran cantidad de in-
formación. Por ejemplo, la Gráfica 1-1 muestra el volumen y la participación en el mercado
de Frito-Lay para las principales categorías de botanas y papas fritas en los supermerca-
dos de Estados Unidos. Basta un vistazo para descubrir que se vendieron casi 800 millones
¿Qué es estadística? 5

de libras de papas fritas y que Frito-Lay vendió 64% de ese total. También podemos observar
que Frito-Lay tiene 82% del mercado de frituras de maíz.

GRÁFICA 1-1 Volumen y participación de Frito Lay en las principales categorías de botanas en los super-
mercados estadounidenses

Como veremos en este libro, la materia de estadística tiene un significado mucho más
amplio que la simple recopilación y publicación de información numérica. La estadística se
define como:

ESTADÍSTICA, La ciencia de recopilar, organizar, presentar, analizar e interpretar infor-


mación para ayudar a tomar decisiones más efectivas.

Como sugiere la definición, el primer paso en la investigación de un problema consiste


en recopilar datos relevantes. Es preciso organizarlos dé alguna manera y quizá presentar-
los en una gráfica, como la Gráfica 1-1. Sólo después de que los datos quedan organiza-
dos podemos analizarlos e interpretarlos. Éstos son algunos ejemplos de la necesidad de
la recopilación de datos:

• Los analistas investigadores de Merrill Lynch evalúan varias facetas de un


grupo de acciones en particular antes de hacer una recomendación de
"compra" o "venta". Recopilan la información acerca de las ventas pasa-
das de la compañía y calculan las ganancias futuras. Otros factores, co-
mo la demanda mundial proyectada para los productos de la compañía, la
fuerza de la competencia y el efecto del nuevo contrato con la administra-
ción sindical se consideran también antes de hacer una recomendación.
• El departamento de mercadotecnia de Colgate-Palmolive Co., fabricante
de productos de limpieza, tiene la responsabilidad de hacer recomenda-
ciones en cuanto a la productividad potencial de un grupo de jabones fá-
ciles recién desarrollados y que tienen aromas de frutas, como uva,
naranja y pina. Antes de tomar una decisión final, los prueban en varios
mercados. Es decir, pueden anunciarlos y venderlos en Topeka, Kansas
y Tampa, Florida. Con base en la mercadotecnia de prueba en estas dos
regiones, Colgate-Palmolive tomará la decisión de vender o no los jabo-
nes en todo el país.
Al gobierno de Estados Unidos le preocupan las condiciones actuales de la economía
y la proyección de tendencias económicas futuras. El gobierno realiza gran cantidad de
encuestas para determinar la confianza del consumidor y la proyección de la adminis-
tración en cuanto a las ventas y la producción durante los próximos 12 meses. Cada
mes se elaboran índices, como el índice de Precios al Consumidor, para evaluar la in-
flación. La información acerca de las ventas en tiendas departamentales, el suministro
de viviendas, el movimiento total del dinero y la producción industrial constituye sólo
una parte de los cientos de elementos que se usan para formar la base de las proyec-
ciones. Los bancos utilizan estas evaluaciones para decidir su tasa de préstamos pri-
6 Capítulo 1

maria y el Federal Reserve Board las utiliza para decidir el nivel de control que debe te-
ner sobre el abastecimiento de dinero.
La administración debe tomar decisiones sobre la calidad de la producción. Por ejem-
plo, las prensas de perforación automáticas no producen un orificio perfecto que siem-
pre tenga 1.3 pulgadas de diámetro cada vez que se hace una perforación (debido al
desgaste de la broca, la vibración de la máquina y otros factores). Se permiten ligeras
tolerancias, pero cuando el orificio es demasiado pequeño o demasiado grande, estos
productos son defectuosos y no se pueden usar. El Quality Assurance Department tie-
ne el deber de vigilar la producción en forma continua empleando técnicas de muestreo
para tener la certeza de que se cumple con las normas.

Tipos de estadística
Estadística descriptiva
El estudio de la estadística por lo general se divide en dos categorías: estadística descrip-
tiva y estadística inferencial. La definición de estadística que dimos antes se refiere a "orga-
nizar, presentar, analizar... la información". Esta faceta de la estadística se conoce como
estadística descriptiva.

ESTADÍSTICA DESCRIPTIVA. Conjunto de métodos para organizar, resumir y presentar


los datos de manera informativa.

Por ejemplo, el gobierno de Estados Unidos reporta que la población de Estados Uni-
dos era de 179 323 000 en 1960, 203 302 000 en 1970, 226 542 000 en 1980, 248 709 000
en 1990 y 265 000 000 en 2000. Esta información es resultado de la estadística descripti-
va. Se trata de estadística descriptiva si calculamos el crecimiento porcentual de una déca-
da a la otra. Sin embargo, no lo sería si la utilizáramos para calcular la población de Estados
Unidos en el año 2010 o el crecimiento porcentual de 2000 a 2010. ¿Por qué? Porque es-
tas estadísticas no se emplean para resumir las poblaciones pasadas, sino para calcular las
futuras. Los siguientes son otros ejemplos de estadística descriptiva:

• Hay un total de 42 796 millas de carreteras interestatales en Estados Unidos. El siste


ma interestatal representa sólo 1% del total de carreteras en el país, pero por ella circu
la más de 20% del tránsito. La más larga es la I-90, que se extiende desde Boston hasta
Seattle, una distancia de 3 081 millas. La más corta es la I-878 en la ciudad de Nueva
York, que tiene una longitud de 0.70 millas. Alaska no tiene carreteras interestatales, Te
xas tiene la mayor cantidad de millas de interestatales con 3 232 y Nueva York tiene la
mayor cantidad de rutas interestatales con 28.
• Según el Bureau of Labor Statistics, el sueldo promedio por hora de los obreros era de
$15.16 (una cifra preliminar) en marzo de 2003. Usted puede revisar la información más
reciente sobre salarios y productividad de los trabajadores estadounidenses si visita el
sitio web del Bureau of Labor Statistics en: http://www.bls.gov/home.htm y selecciona
Average hourly earnings (sueldos promedio por hora).

Grandes cantidades de datos sin organizar (como el censo de población, las ganancias
semanales de miles de programadores de computadora y las respuestas individuales de 2 000
votantes registrados en cuanto a su preferencia para el cargo de presidente de Estados Uni-
dos) tienen poco valor. Sin embargo, están disponibles técnicas estadísticas para organizar
este tipo de información de manera significativa. Algunos datos se pueden organizar en una
distribución de frecuencias. (Este procedimiento se cubre en el Capítulo 2.) Para descri-
bir la información, se pueden utilizar distintos tipos de gráficas; en el Capítulo 4 se presen-
tan varias formas de gráficas básicas.
Las medidas específicas de ubicación central, como la media, describen el valor cen-
tral de un grupo de datos numéricos. Distintas medidas estadísticas se utilizan para descri-
¿Qué es estadística? 7

bir la cercanía de un grupo de datos al promedio. Estas medidas de tendencia central y dis-
persión se estudian en el Capítulo 3.

Estadística inferencial
Otra faceta de la estadística es la estadística inferencial, también conocida como inferencia
estadística y análisis inductivo. Nuestra principal preocupación acerca de la estadística in-
ferencial es descubrir algo acerca de la población a partir de una muestra tomada de ella. Por
ejemplo, una encuesta reciente demostró que sólo 46% de los alumnos de último año de se-
cundaria pueden solucionar problemas que comprenden fracciones, decimales y porcentajes.
Y sólo 77% de los alumnos de último año de secundaria sumó correctamente el costo de una
sopa, una hamburguesa, papas fritas y un refresco de cola en el menú de un restaurante. Co-
mo éstas son inferencias acerca de una población (todos los estudiantes de último año de se-
cundaria) basadas en datos de una muestra, se les conoce como estadísticas inferenciales.

ESTADÍSTICA INFERENCIAL. Conjunto de métodos utilizados para determinar algún atributo


medible acerca de una población con base en una muestra.

Observe las palabras población y muestra en la definición de estadística inferencial. A


menudo, hacemos referencia a la población que vive en Estados Unidos o a la población de
China, que es de 1.29 mil millones de habitantes. Sin embargo, en estadística la palabra po-
blación tiene un significado muy amplio. Una población puede consistir en individuos, como
todos los alumnos inscritos en Utah State University, todos los estudiantes en la clase de
Contabilidad 201 o todos los directores ejecutivos de las compañías Fortune 500. Una po-
blación también puede consistir en objetos, como todas las llantas XB-70 que se producen
en la planta de Findlay, Ohio, de Cooper Tire and Rubber Company; las notas por cobrar a
fines de octubre para Lorrange Plastics Inc., o los siniestros en automóviles que se presen-
taron en la Oficina Regional del Noreste de State Farm Insurance durante el primer trimes-
tre de 2003. La medida de interés pueden ser las calificaciones obtenidas en el primer
examen de todos los estudiantes en Contabilidad 201, el grosor de las paredes de las llan-
tas de Cooper, la cantidad en dólares de las cuentas por cobrar de Lorrange Plastics o la
cantidad de siniestros entre los autos asegurados con State Farm. Por tanto, en el sentido
estadístico, una población no siempre se refiere a personas.

POBLACIÓN. Conjunto de todos los individuos, medidas u objetos de interés.

Para inferir algo acerca de una población, casi siempre tomamos una muestra de
ésta.

MUESTRA. Una porción o parte representativa de la población de interés.

Razones por las que se toma ¿Por qué tomamos una muestra en lugar de estudiar a todos los miembros de la pobla-
una muestra. ción? Una muestra de votantes registrados es necesaria debido al elevado costo que tendría
el hecho de contactar a millones de votantes antes de las elecciones. Las pruebas de hume-
dad en los granos de trigo destruyen el trigo, por tanto, es imprescindible tomar una muestra.
Si los catadores probaran todo el vino, no habría ninguna botella disponible para la venta. Fí-
sicamente, sería imposible que unos cuantos biólogos marinos capturaran y etiquetaran a to-
das las focas en el océano. (Éstas y otras razones del muestreo se estudian en el Capítulo 8.)
Como ya señalamos, el uso de una muestra para aprender algo acerca de una pobla-
ción es muy común en administración, agricultura, política y actividades gubernamentales,
lo que se demuestra en los ejemplos siguientes:

• Las cadenas de televisión vigilan constantemente la popularidad de sus programas


contratando a Nielsen y otras organizaciones para que realicen muéstreos de las pre-
8 Capítulo 1

ferencias de los telespectadores. Por ejemplo, en una muestra de 800 personas que ven
la televisión en las horas de mayor audiencia, 320 de ellos, o 40%, indicaron haber visto
CSI (Crime Scene Investigation) en CBS la semana anterior. Estos ratings se utilizan
para establecer las tarifas publicitarias o cancelar programas.
• Gamous and Associates, una empresa de contadores públicos, realiza una auditoría en
Pronto Printing Company. Para empezar, la empresa de contabilidad selecciona una
muestra aleatoria de 100 facturas y las revisa para comprobar su exactitud. En cinco de
las facturas, hay por lo menos un error; por tanto, la compañía de contabilidad calcula
que 5% de la población de facturas contiene por lo menos un error.
• Una muestra aleatoria de 1 260 estudiantes de último año de contabilidad en escuelas que
imparten la carrera en cuatro años indicó que su salario inicial medio era de $42 694. Por
tanto, calculamos que el salario inicial medio para todos los estudiantes de último año de
contabilidad en escuelas que imparten la carrera en cuatro años es de $42 694 dólares.

La relación entre una muestra y la población se representa a continuación. Por ejemplo,


queremos estimar la media de millas por galón (MPG) de los SUV (Sport Utiiity Vehicies).
Se seleccionan seis SUV de la población. La media de MPG de los seis se utiliza para cal-
cular las MPG para la población.

Le sugerimos de manera enfá- A continuación, presentamos un ejercicio de autoevaluación. En cada uno de los capí-
tica que realice los ejercicios tulos, se incluyen varios de ellos. Ponen a prueba su comprensión del material anterior. La
de autoevaluación. respuesta y el método de solución se encuentran al final del capítulo. La respuesta al si-
guiente problema de autoevaluación se encuentra en la página 22. Le recomendamos re-
solver cada uno de ellos y revisar su respuesta.

Autoevaluación 1-1 Las respuestas se encuentran al final del capítulo.


Market Facts, con sede en Chicago, pidió a una muestra de 1 960 consumidores que probaran
un platillo de pollo recién desarrollado por Boston Market. De las 1 960 personas que partici-
paron en la muestra, 1 176 dijeron que comprarían el platillo si se vendiera en el mercado.
(a) ¿Qué reportará Market Facts a Boston Market en cuanto a la aceptación del platillo de
pollo entre la población?
(b) ¿Éste es un ejemplo de estadística descriptiva o inferencial? Explique su respuesta.

Tipos de variables
Existen dos tipos básicos de variables: (1) cualitativas y (2) cuantitativas (véase la Gráfica
1-2). Cuando la característica que se estudia es no numérica, se conoce como variable
Variable cualitativa cualitativa o atributo. Algunos ejemplos de variables cualitativas son género, afiliación re-
¿Qué es estadística? 9

ligiosa, tipo de automóvil, estado de nacimiento y color de ojos. Cuando los datos son cua-
litativos, casi siempre nos interesa saber cuántos o qué proporción pertenece a cada cate-
goría. Por ejemplo, ¿qué porcentaje de la población tiene ojos azules? ¿Cuántos católicos
y cuántos protestantes hay en Estados Unidos? ¿Qué porcentaje del número total de autos
vendidos el mes pasado eran SUV? A menudo, la información cualitativa sé resume en ta-
blas o gráficas de barras (Capítulo 2).

GRÁFICA 1-2 Resumen de los tipos dé variables

Cuando la variable estudiada se puede reportar en forma numérica, se conoce como


variable cuantitativa. Algunos ejemplos de variables cuantitativas son el saldo de una
cuenta de cheques, las edades de los presidentes de empresas, la duración de la batería
de un auto (como 42 meses) y el número de hijos en una familia.
Las variables cuantitativas pueden ser discretas o continuas. Las variables discretas
sólo asumen ciertos valores, y casi siempre existen "brechas" entre los valores. Algunos
ejemplos de variables discretas son la cantidad de habitaciones en una casa (1, 2, 3, 4,
etc.), el número de autos que llegan en una hora a la salida 25 en la carretera I-4 de Flori-
da cerca de Disney World (326, 421, etc.) y el número de estudiantes en cada sección de
un curso de estadística (25 en la sección A, 42 en la sección B y 18 en la sección C). Con-
tamos, por ejemplo/el número de autos que llegan a la salida 25 de la I-4, y contamos el
número de estudiantes de estadística en cada sección. Debemos hacer notar que una casa
puede tener 3 o 4 habitaciones, pero no puede tener 3.56 habitaciones. Por tanto, existe
una "brecha" entre los valores posibles. Por lo general, las variables discretas son el
resultado de un conteo.
Las observaciones de una variable continua pueden asumir cualquier valor con un
rango específico. Algunos ejemplos de variables continuas son la presión del aire en una
llanta y el peso de un cargamento de tomates. Otros ejemplos son la cantidad de cereal con
pasas en una caja y la duración de los vuelos de Orlando a San Diego. Por lo general, las
variables continuas resultan de la medición.

Niveles de medición
Los datos se pueden clasificar de acuerdo con los niveles de medición. El nivel de medición
de la información a menudo indica los cálculos que se pueden realizar para resumir y pre-
sentar los datos. Asimismo, determina las pruebas estadísticas que se deben realizar. Por
ejemplo, hay seis colores de grageas en una bolsa de lunetas M&M. Supongamos que asig-
namos al café el valor 1, al amarillo 2, al azul 3, al naranja 4, al verde 5 y al rojo 6. De una
bolsa de lunetas, sumamos los valores asignados a los colores y dividimos el resultado en-
tre el número de lunetas para reportar que el color medio es 3.56. ¿Esto significa que el co-
lor promedio es el azul o el naranja? ¡Claro que no! Como segundo ejemplo, en la pista de
10 Capítulo 1

carreras de una secundaria hay ocho competidores en la competencia de 400 metros. Re-
portamos el orden en que terminaron y la media es 4.5. ¿Qué nos indica esta media? ¡Na-
da! En estos dos ejemplos, no utilizamos de manera apropiada el nivel de medición.
En realidad, hay cuatro niveles de medición: nominal, ordinal, de intervalo y de razón. La
medición más baja, o más primitiva, es el nivel nominal. La más alta, o el nivel que nos pro-
porciona mayor cantidad de información acerca de la observación, es el nivel de razón de la
medición.

Datos de nivel nominal


Para el nivel nominal de medición, las observaciones de una variable cualitativa sólo se
pueden clasificar y contar. No existe un orden particular para las etiquetas. La clasificación
de los seis colores de lunetas de chocolate de leche de M&M es un ejemplo del nivel nomi-
nal de la medición. Simplemente, clasificamos las grageas por color. No hay un orden natu-
ral. Es decir, podríamos reportar los dulces de color café primero, los naranjas primero o
cualquiera de los colores primero. El género es otro ejemplo del nivel nominal de la medi-
ción. Supongamos que contamos el número de estudiantes que entran a un partido de fút-
bol con su identificación de estudiantes y reportamos cuántos de ellos son hombres y
cuántos son mujeres. Podríamos reportar primero a los hombres o primero a las mujeres.
Para el nivel nominal, la única medición consiste en conteos. La Tabla 1-1 muestra un aná-
lisis de las fuentes de abastecimiento de petróleo en el mundo. La variable de interés es el
país o la región. Ésta es una variable de nivel nominal porque registramos la información
por país o región, y no hay un orden natural. Podríamos haber reportado a Estados Unidos
en último lugar en vez de incluirlo en primer lugar. No se deje distraer por el hecho de que
resumimos la variable al reportar el número de barriles que se producen cada día.

TABLA 1-1 Abastecimiento de petróleo en el mundo por país o región

País o ones de barriles al día Porcentaje


región

Estados Unidos 9.05 12


Golfo Pérsico 18.84 25
OAPEP OPEP 19.50 26
28.00 37
Total 75.39 100

Nota: Puede revisar la información más reciente y encontrar los países que se inclu-
yen en los diversos grupos visitando http://www.eia.doe.gov/emeu/ipsr/appa.html.

La Tabla 1 -1 muestra la característica esencial de la escala de medición nominal: no hay


un orden particular para las categorías.
¿Qué es estadística? 11

Las categorías en el ejemplo anterior son mutuamente excluyentes; lo que significa,


por ejemplo, que un barril de petróteo en particular no se puede producir en Estados Uni-
dos y la Región del Golfo Pérsico al mismo tiempo.

MUTUAMENTE EXCLUYENTE. Propiedad de un grupo de categorías por la que un individuo,


medición u objeto se incluye en sólo una categoría.

Las categorías en la Tabla 1-1 también son exhaustivas, lo que significa que cada uno
de los miembros de la población o muestra deben aparecer en una de las categorías. De
modo que las categorías incluyen a todos los países productores de petróleo.

EXHAUSTIVO. Propiedad de un conjunto de categorías según la cual cada uno de los


individuos, mediciones u objetos debe aparecer por lo menos en una categoría.

Para procesar la información sobre la producción de petróleo, el género, el empleo por


industria, etcétera, las categorías a menudo se codifican con un número 1, 2, 3, y así suce-
sivamente; por ejemplo, en este caso, 1 representa a Estados Unidos y 2 representa al Gol-
fo Pérsico. Esto facilita el cálculo asistido por la computadora. Sin embargo, como
asignamos números a las distintas categorías, esto no nos permite manipular los números.
Por ejemplo, 1 + 2 no es igual a 3; es decir, Estados Unidos + Golfo Pérsico no es igual a
OAPEP. Para resumir, los datos de nivel nominal tienen las siguientes propiedades:
1. Las categorías de datos son mutuamente excluyentes y colectivamente exhaustivas.
2. Las categorías de datos no tienen un orden lógico.

Datos de nivel ordinal


El siguiente nivel más alto de datos es el nivel ordinal. La Tabla 1-2 presenta las califica-
ciones que el profesor Jammes Brunner dio a sus alumnos en un curso de Introducción a
las finanzas. Cada estudiante en el grupo respondió la pregunta: "En general, ¿cómo califi-
cas al profesor de este curso?" La calificación variable ilustra el uso de la escala de medi-
ción ordinal. Cada clasificación es "más alta" o "mejor" que la siguiente. Es decir, "Superior"
es mejor que "Bueno", "Bueno" es mejor que "Promedio" y así sucesivamente. Sin embargo,
no podemos distinguir la magnitud de las diferencias entre los grupos. ¿La diferencia entre
"Superior" y "Bueno" es la misma que entre "Malo" e "Inferior"? No lo sabemos. Si sustitui-
mos "Superior" con un 5 y "Bueno" con un 4, llegamos a la conclusión de que la calificación
"Superior" es mejor que "Bueno", pero no podemos agregar una clasificación de "Superior"
y una de "Bueno" y que el resultado sea significativo. Además,' no podemos llegar a la con-
clusión de que una calificación de "Bueno" (la calificación es de 4) sea necesariamente el
doble de "Malo" (la calificación es de 2). Sólo podemos concluir que una calificación de
"Bueno" es mejor que una de "Malo", y no sabremos cuál es la diferencia.

TABLA 1-2 Calificaciones de un profesor de Finanzas


Calificación Frecuencia

Superior 6
Bueno 28
Promedio 25
Malo 12
Inferior 3

Otro ejemplo de datos de nivel ordinal es el Homeland Security Advisory System. El De-
partment of Homeland Security publica la información acerca del riesgo de actividad terrorista
para las autoridades federales, estatales y locales, así como al pueblo estadounidense.
Los cinco niveles de riesgo, desde el más bajo hasta el más alto, incluidos una descripción
y códigos de colores son:
12 Capítulo 1

Ésta es información de escala ordinal porque sabemos el orden o las clasificaciones de


los niveles de riesgo; es decir, el naranja es más alto que el amarillo, pero la cantidad de la
diferencia entre cada uno de los niveles no necesariamente es la misma. Es posible verifi-
car las condiciones actuales visitando http://www.whitehouse.gov/homeland.
En resumen, las propiedades de los datos de nivel ordinal son:

1. Las clasificaciones de la información son mutuamente excluyentes y colectivamen-


te exhaustivas.
2. Las clasificaciones de la información están ordenadas de acuerdo con el rasgo en
particular que poseen.

Datos de nivel de intervalo


El nivel de intervalo de la medición es el siguiente nivel más alto. Incluye todas las carac-
terísticas del nivel ordinal, pero además, la diferencia entre los valores es un tamaño cons-
tante. Un ejemplo del nivel de intervalo de la medición es la temperatura. Supongamos que
las temperaturas más elevadas en tres días invernales consecutivos en Boston son 28, 31
y 20 grados Fahrenheit. Esas temperaturas se pueden clasificar con facilidad, pero también
podemos determinar la diferencia entre ellas. Esto es posible gracias a que 1 grado Fahren-
heit representa una unidad de medición constante. Las diferencias iguales entre dos tempe-
raturas son las mismas, sin importar su posición en la escala. Es decir, la diferencia entre
10 grados y 15 grados Fahrenheit es 5, la diferencia entre 50 y 55 grados también es de 5.
Asimismo, debemos hacer notar que O es sólo un punto en la escala. No representa la au-
sencia de la condición. Una temperatura de cero grados Fahrenheit no representa la ausen-
cia de calor, ¡sólo que hace frío! De hecho, O grados Fahrenheit corresponden a alrededor
de-18 grados en la escala Celsius.
Las propiedades de los datos de nivel de intervalo son:
1. Las clasificaciones de los datos son mutuamente excluyentes y colectivamente ex-
haustivas.
2. Las clasificaciones de los datos están ordenadas de acuerdo con la cantidad de la
característica que poseen.
. 3. Las diferencias iguales en la característica están representadas por diferencias
iguales en las mediciones.

Hay pocos ejemplos de la escala de intervalo de la medición. La temperatura, que aca-


bamos de mencionar, es uno de ellos; otros son la talla o medida de los zapatos y los nive-
les de coeficiente intelectual (IQ).

Datos de nivel de razón


Prácticamente todos los datos cuantitativos son el nivel de razón de la medición. El nivel de
razón es el nivel de medición "más alto". Tiene todas las características del nivel de intervalo,
pero además, el punto O es significativo y la razón entre dos números también es significativa.
Algunos ejemplos de la escala de razón de la medición incluyen: salarios, unidades de pro-
ducción, peso, cambios en los precios accionarios, distancia entre sucursales y altura. El di-
nero es un buen ejemplo. Si usted tiene cero dólares, no tiene dinero. El peso es otro ejemplo.
Si la flecha en la escala de un dispositivo bien calibrado está en cero, existe una ausencia total
de peso. La razón de dos números también es significativa. Si Jim gana $40 000 al año ven-
diendo seguros y Rob gana $80 000 anuales vendiendo autos, Rob gana el doble de Jim.
¿Qué es estadística? 13

En resumen, las propiedades de los datos de nivel de razón son:


1. Las clasificaciones de los datos son mutuamente excluyentes y colectivamente ex-
haustivas.
2. Las clasificaciones de los datos están ordenadas de acuerdo con la cantidad de las
características que poseen.
3. Las diferencias iguales en la característica están representadas por diferencias
iguales en los números asignados a las clasificaciones.
4. El punto cero es la ausencia de la característica.

La Tabla 1-3 ilustra el uso de la escala de razón de la medición. Muestra los ingresos
de cuatro parejas de padre e hijo.
TABLA 1-3 Combinaciones de ingresos de padre e hijo

Observe que el señor Lahey gana el doble que su hijo. En la familia Rho, el hijo gana el
doble que su padre.
La Gráfica 1 -3 resume las principales características de los diversos niveles de medición.

GRÁFICA 1-3 Resumen de las características para los niveles de medición

¿Cuál es el nivel de medición que reflejan los datos siguientes?


(a) La edad de cada persona en una muestra de 50 adultos que escuchan una de las 1 230
estaciones de radio que transmiten programas de entrevistas en Estados Unidos es:

35 29 41 34 44 46 42 42 37 47
30 36 41 39 44 39 43 43 44 40
47 37 41 27 33 33 39 38 43 22
44 39 35 35 41 42 37 42 38 43
35 37 38 43 40 48 42 31 51 34

(b) En una encuesta entre 200 dueños de autos de lujo, 100 eran de California, 50 de Nue-
va York, 30 de Illinois y 20 de Ohio.
14 Capítulo 1

Ejercicios
Las respuestas a los ejercicios con números nones se encuentran al final del libro.
1. ¿Cuál es el nivel de medición para cada una de las variables siguientes?
a. Niveles de IQ de los alumnos.
b. Distancias que los alumnos recorren para llegar a clases.
c. Calificaciones de los alumnos en el primer examen de estadística.
d. Una clasificación de los alumnos por estado de origen.
e. Una clasificación de los estudiantes según el grado que cursan.
f. Número de horas que los alumnos dedican a estudiar por semana.
2. ¿Cuál es el nivel de medición para estos elementos relacionados con el negocio de los pe-
riódicos?
a. El número de periódicos vendidos cada domingo durante 2004.
b. Los departamentos, tales como editorial, publicidad, deportes, etcétera.
c. Un resumen del número de periódicos vendidos por ciudad.
d. El número de años que cada empleado ha trabajado en el periódico.
3. Busque en la edición más reciente de USA Today o del periódico de su localidad ejemplos
de cada nivel de medición. Escriba un breve resumen de sus descubrimientos.
4. En cada uno de los ejemplos siguientes, determine si el grupo es una muestra o una pobla-
ción.
a. Los participantes en un estudio sobre un nuevo medicamento para el colesterol.
b. Los conductores que recibieron una multa por exceso de velocidad en la ciudad de Kan-
sas el mes pasado.
c. Aquéllos que pertenecen al programa de bienestar en Cook County (Chicago), Illinois.
d. Las 30 acciones reportadas como una parte del Promedio Industrial Dow Jones.

Estadística, gráficas y ética


Quizá haya escuchado el viejo adagio que dice que hay tres clases de mentiras: las menti-
ras, las grandes mentiras y las estadísticas. Este dicho se le atribuye a Benjamín Disraeli y
tiene más de un siglo de existir. También se dice que "las cifras no mienten: son los menti-
rosos los que las imaginan". Ambas afirmaciones se refieren a los abusos de la estadística
en que la información se presenta de manera equivocada. Muchas de las personas que abu-
san de la estadística lo hacen simplemente por ignorancia o descuido, mientras que otras
tienen un objetivo al engañar al lector enfatizando la información que apoya su posición al
tiempo que dejan fuera datos que pueden afectarla. Una de nuestras metas principales en
este libro es convertirlo a usted en un consumidor más crítico de la información. Cuando vea
gráficas o datos en un periódico, en una revista o en televisión, siempre debe preguntarse:
¿qué es lo que la persona trata de decirme? ¿Esa persona tiene algún propósito especial?
A continuación, presentamos varios ejemplos de abusos del análisis estadístico.

Estadísticas engañosas
Hace varios años, una serie de anuncios por televisión informaban que "2 de cada 3 dentis-
tas recomendarían a sus pacientes la pasta dental Marca X". La implicación es que 67% de
todos los dentistas recomendarían el producto a sus pacientes. ¿Qué pasaría si sólo hubie-
ran entrevistado a tres dentistas? Desde luego, no sería una representación verdadera de
la situación real. El truco consiste en que el fabricante de la pasta dental podría hacer va-
rias encuestas entre tres dentistas y reportar sólo aquellas en las que dos dentistas indi-
quen que recomendarían la Marca X. Esto es ocultar información para engañar al público.
Además, es necesario realizar una encuesta entre más de tres dentistas, y ésta no debe te-
ner sesgo y debe ser representativa de la población de todos los dentistas. En el Capítulo
8, estudiaremos los métodos de muestreo.
Un promedio puede no ser El término promedio se refiere a diversas medidas de ubicación central que analizamos
representativo de todos los en el Capítulo 3. Para la mayoría de las personas, un promedio se calcula sumando los va-
datos, lores involucrados y dividiendo el resultado entre el número de valores. De modo que, si un
urbanista de bienes raíces le dice a un cliente que la casa promedio en una subdivisión en
¿Qué es estadística? 15

particular se vendió en $150 000, suponemos que esta cifra es un precio de venta represen-
tativo para todas las casas. Pero supongamos que sólo hay cinco casas en la subdivisión y
que se vendieron en $50 000, $50 000, $60 000, $90 000 y $500 000. Podemos decir, en for-
ma correcta que el precio de venta promedio es de $150 000, pero ¿esta cifra realmente pa-
rece un precio de venta "típico"? ¿Le gustaría saber además que la misma cantidad de casas
se vendieron en más de $60 000 como en menos de esa cifra? ¿O que $50 000 es el precio
de venta que se presentó con mayor frecuencia? Entonces, ¿qué precio de venta es real-
mente el más "típico"? Este ejemplo ilustra el hecho de que un promedio reportado puede re-
sultar engañoso, porque puede ser una de varias cifras que se podrían utilizar para
representar la información. En realidad no existe un conjunto de criterios objetivos que esta-
blezca qué promedio se debe reportar en cada ocasión. Queremos educarlo a usted como
consumidor de información acerca de la forma en que una persona o un grupo podría repor-
tar un valor que favorezca su posición y excluir otros valores. En el Capítulo 3, estudiaremos
los promedios o medidas de ubicación central.
En ocasiones, las cifras mismas pueden ser engañosas. El precio medio de las casas
que se vendieron el mes pasado en el área de Tampa, Florida, fue de 134 891.58 dólares.
Éste parece ser un valor muy exacto y puede inspirar un alto grado de confianza en su exac-
titud. Reportar que el precio de venta medio fue $135 000 no transmite la misma precisión
y exactitud. Sin embargo, una estadística que es muy precisa y maneja 5 e incluso 10 luga-
res decimales no necesariamente es exacta.

La relación no necesariamente implica causalidad


Otra área en la que puede existir una representación equivocada de los datos es la relación
entre variables. En el análisis estadístico, a menudo nos damos cuenta de que existe una
fuerte relación entre variables. Descubrimos que hay una fuerte relación negativa entre el
trabajo externo y el promedio de punto gradual (PPG). Cuanto más trabajo externo realice
un estudiante, más bajo será su promedio de punto gradual. ¿Esto significa que mayor can-
tidad de trabajo externo provoca un promedio de punto gradual más bajo? No necesaria-
mente. También es posible que el promedio de punto gradual más bajo no convierta al
estudiante en un buen candidato para una beca y, por tanto, el alumno debe participar en
algún trabajo externo para financiar su educación. De manera alternativa, tanto el trabajo
externo como un promedio más bajo podrían ser el resultado de las circunstancias sociales
del estudiante. A menos que utilicemos un diseño experimental controlado en forma exitosa
por la influencia de todos los demás factores sobre el promedio, excepto el trabajo externo o
viceversa, no está justificado el hecho de establecer ninguna causalidad entre las variables
basadas sólo en la evidencia estadística. En general, la relación basada en información de
observación (no experimental) es neutral en relación con la causalidad. En los Capítulos 13
y 14 estudiaremos la relación entre variables.

Las gráficas pueden ser engañosas


En la actualidad, las gráficas se utilizan en los negocios como material de apoyo visual pa-
ra facilitar la interpretación. No obstante, si no se trazan con cuidado, pueden dar lugar a
una interpretación equivocada de la información.
Ya sea la persona que elabore o que utilice esas gráficas, resulta útil recordar que la in-
tención es comunicar una representación objetiva y exacta de la realidad. Ni el que las ha-
ce ni el que las usa se van a beneficiar con las distorsiones intencionales o por descuido.

Ejemplos. Supongamos que los impuestos escolares para la Corry Area Exempted School
District aumentaron de $100 en el año 2000 a $200 en el año 2004 (véase la Gráfica 1-4a).
Es decir, los impuestos se duplicaron durante un periodo de 4 años. Para mostrar este cambio,
el signo de dólares a la derecha mide el doble que el de la izquierda. Sin embargo, ¡también
es dos veces más ancho! Por tanto, el área del signo de dólares a la derecha es 4 veces (no
dos) mayor que el de la izquierda.
16 Capítulo 1

GRÁFICA 1-4

La Gráfica 1-4 es engañosa porque, visualmente, el incremento es mucho mayor a lo que es


en realidad. En la Gráfica 1-4b, la línea que representa 27.5 millas por galón en 1985 tenía 5.3
pulgadas de largo y la línea de las 18 millas por galón sólo medía 0.6 pulgadas de largo.en la
presentación original.
Edward R. Tufte, en su libro The Visual Display of Qualitative Information (Cheshire, CT:
Graphics Press, 1983) da muchos ejemplos sobre cómo reconocer las gráficas engañosas
y cómo elaborar una gráfica efectiva. En su libro, Tufte introduce un concepto llamado el
"factor mentira". Se puede definir como un cambio porcentual en los elementos gráficos di-
vidido entre el cambio porcentual en las cantidades reales representadas por esos elemen-
tos gráficos. Según esta definición, el valor del factor mentira debe ser igual a 1 para que la
gráfica sea exacta e informativa. En la Gráfica 1-4b, este factor se puede calcular como

Las gráficas y las tablas de datos, así como los histogramas, las gráficas de líneas y las
gráficas de barras, también pueden ser engañosas si no se elaboran de manera apropiada.
En el próximo capítulo, se estudian con detalle estas gráficas y tablas. Una interpretación
visual engañosa en el contexto de las gráficas se debe a menudo a la presentación sólo de
una parte de los datos o al uso inapropiado de los ejes vertical y/u horizontal.
La Gráfica 1-5 está diseñada para mostrar una relación entre la tasa de desempleo (en
porcentaje) y la tasa de criminalidad (en miles, por año) en Canadá de tres maneras dife-
rentes con base en la misma información. En la Gráfica 1-5a, dividimos el eje vertical en el
2000 y, por tanto, muestra una fuerte relación entre la tasa de desempleo y el crimen. En la
Gráfica 1-5b, dividimos el eje horizontal en una tasa de desempleo de 7%.

GRÁFICA 1-5 Tasa de desempleo y criminalidad en Canadá


¿Qué es estadística? 17

En esta gráfica, tenemos la impresión de una relación más débil entre la tasa de de-
sempleo y el crimen. Una ilustración más precisa de la relación se puede obtener utilizan-
do valores cercanos a los valores mínimos de las variables como puntos de partida en cada
eje. Por tanto, una división en el eje vertical en el 2000 y en el eje horizontal en 7% ofrece
una representación más exacta de la relación, como se muestra en la Gráfica 1-5c.
Existen muchas técnicas para elaborar gráficas,'pero no existen reglas establecidas pa-
ra trazar una gráfica. Por tanto, estamos hablando de una ciencia y un arte a la vez. El ob-
jetivo siempre debe ser una representación real de la información. Es preciso tener en
mente los objetivos y suposiciones subyacentes a la información y mencionarlos en forma
breve con las gráficas. Las impresiones visuales que transmiten las gráficas deben corres-
ponder a los datos subyacentes. Las gráficas deben revelar la mayor cantidad de informa-
ción posible con precisión y exactitud. La excelencia gráfica se logra cuando el usuario
observa la representación más exacta y completa de la situación subyacente del conjunto
de datos en el menor tiempo posible. En resumen, una gráfica debe actuar como un espejo
entre la información numérica y el usuario. De acuerdo con un dicho popular: Tos números
hablan por sí mismos." Esto es cierto cuando se trata de conjuntos de datos pequeños, pero
para los conjuntos muy grandes puede ser difícil discernir cualquier patrón con sólo ver los
números. Por tanto, necesitamos una representación exacta de la información a través de
gráficas que hablen por los números, y ofrezcan un panorama general de los datos. En los
Capítulos 2 y 4 estudiaremos con detalle las técnicas para la elaboración de gráficas.

Conviértase en un mejor consumidor y un mejor productor


de información
Existen muchas otras formas en las que la información estadística resulta engañosa. Pue-
de ser porque (1) los datos no son representativos de la población, (2) no se utilizan las es-
tadísticas apropiadas, (3) la información no satisface las suposiciones requeridas para las
inferencias, (4) la proyección dista mucho del alcance de los datos observados, (5) la pla-
taforma de análisis no cumple con los requerimientos de la información, de la teoría o de
ambas, (6) ignorancia, descuido o ambos por parte del investigador, (7) existe un intento de-
liberado por introducir un sesgo para ofrecer una información engañosa al consumidor.
Se han escrito libros enteros acerca del tema y el más famoso de ellos es How to Lie
with Statistics, de Darrell Huff. El hecho de entender el arte y la ciencia de la estadística lo
convertirá tanto en un mejor consumidor de la información como en un mejor productor de
la misma (estadístico).

Ética
Dejando de lado los problemas éticos que surgieron en años recientes con los informes fi-
nancieros de compañías como Enron, las prácticas profesionales con la investigación esta-
dística y la elaboración de informes reciben mucho apoyo de la American Statistical
Association (ASA). En 1999, este organismo proporcionó lineamientos y sugerencias por
escrito (visite http://www.amstat.org) acerca del profesionalismo y las responsabilidades
que se aplican a los investigadores y asesores que emplean o realizan análisis estadísticos.
Como establecen los lineamientos: "Clientes, patrones, investigadores, legisladores, perio-
distas y el público en general deben estar conscientes de que la práctica estadística se debe
realizar de acuerdo con estos lineamientos y quejarse cuando no sea así. Mientras
aprenden cómo aplicar la teoría de la estadística a los problemas, es necesario motivar a
los estudiantes a que utilicen estos lineamientos sin importar si su especialidad profesional
será convertirse en 'estadísticos' o no."

Aplicaciones con el uso de la computadora


En la actualidad, la mayoría de los colegios y universidades tienen computadoras para uso
de los estudiantes, y en casi todos los laboratorios de computación hay programas de hojas
de cálculo, como Microsoft Excel, y. paquetes de software para estadística, como MINITAB.
18 Capítulo 1

El paquete Microsoft Excel viene instalado en muchas computadoras caseras. En este libro,
utilizamos tanto Excel como MINITAB para las aplicaciones. También usamos un complemen-
to de Excel llamado MegaStat. Este complemento da a Excel la capacidad de producir infor-
mes estadísticos adicionales.
El siguiente ejemplo muestra el uso de la computadora en el análisis estadístico. En los
Capítulos 2, 3 y 4 ¡lustramos los métodos para resumir y describir la información. Un ejemplo
utilizado en esos capítulos se refiere al precio reportado en miles de dólares de 80 vehículos
vendidos el mes pasado en Whitner Autoplex. El siguiente trabajo en Excel revela, entre otras
cosas, que (1) el mes pasado se vendieron 80 vehículos, (2) el precio de venta medio (prome-
dio) fue de $23 218 y (3) los precios de venta variaron desde un mínimo de $15 546 hasta un
máximo de $35 925.

El siguiente trabajo se realizó con el software MINITAB y contiene casi la misma infor-
mación.

Si hubiéramos utilizado una calculadora para llegar a estas medidas y otras que se ne-
cesitan para analizar por completo los precios de venta, habrían sido necesarias muchas
horas de trabajo de cálculo. La probabilidad de un error en aritmética es muy elevada cuan-
do se maneja una gran cantidad de valores. Por otra parte, los paquetes de software para
estadística y las hojas de cálculo proporcionan información precisa en segundos.
Según el criterio de su profesor y dependiendo del software disponible, le aconsejamos
aplicar un paquete de computadora a los ejercicios en la sección Ejercicios de la base de
¿Qué es estadística? 19

datos de cada capítulo. Así, se librará de los tediosos cálculos y podrá concentrarse en el
análisis de la información.

Resumen del capítulo


I. La estadística es la ciencia de recopilar, organizar, presentar, analizar e interpretar la informa-
ción para ayudar a tomar decisiones más efectivas.
II. Hay dos tipos de estadística.
A. La estadística descriptiva consiste en procedimientos utilizados para organizar y resumir la
información.
B. La estadística inferencial comprende tomar una muestra de una población y realizar esti-
mados acerca de ella con base en los resultados de la muestra.
1. Una población es un conjunto de todos los individuos, medidas u objetos de interés.
2. Una muestra es una parte representativa de la población de interés.
III. Existen dos tipos de variables.
A. Una variable cualitativa es no numérica.
1. Casi siempre nos interesa el número o porcentaje de las observaciones en cada cate
goría.
2. La información cualitativa por lo general se resume en gráficas de barras.
B. Hay dos tipos de variables cuantitativas y casi siempre se reportan en forma numérica.
1. Las variables discretas pueden asumir sólo ciertos valores y casi siempre existen bre
chas entre tales valores.
2. Una variable continua puede asumir cualquier valor dentro de un rango específico.
IV. Hay cuatro niveles de medición.
A. Con el nivel nominal la información se clasifica en categorías sin seguir ningún orden en
particular para las categorías.
1. Las categorías son mutuamente excluyentes. Un individuo u objeto aparece sólo en una
de ellas.
2. Las categorías son exhaustivas. Un individuo u objeto aparece por lo menos en una de
ellas.
B. El nivel de medición ordinal supone que una clasificación se encuentra en un nivel más al
to que otra.
C. El nivel de medición de intervalo tiene la característica de clasificación del nivel de medi-
ción ordinal, además de la característica de que la distancia entre los valores es de un ta-
maño constante.
D. El nivel de medición de razón tiene todas tas características del nivel de intervalo, además
de que hay un punto cero y la razón de dos valores es significativa.

Ejercicios del capítulo


5. Explique la diferencia entre variables cualitativas y cuantitativas. Dé un ejemplo de variable
cualitativa y cuantitativa.
6. Explique la diferencia entre una muestra y una población.
7. Mencione los cuatro niveles de medición y dé un ejemplo de cada uno (distinto a los que se
utilizan en el libro).
8. Defina el término mutuamente excluyente.
9. Defina el término colectivamente exhaustivo.
10. Utilizando información de publicaciones como Statistical Abstract of the United States, World
Almanac, Forbes o el periódico de su localidad, dé ejemplos de los niveles de medición no
minal, ordinal, de intervalo y de razón.
11. La Struthers Wells Corporation da empleo a más de 10 000 trabajadores de oficina en sus
instalaciones de ventas y fabricación en Estados Unidos, Europa y Asia. Una muestra de 300
de estos empleados reveló que 120 de ellos aceptarían una transferencia a un lugar fuera
de Estados Unidos. Con base en estos descubrimientos, escriba un memo breve dirigido a
20 Capítulo 1

la señora Wanda Carter, vicepresidenta de Servicios Humanos, acerca de los empleados de


oficina en la empresa y su disposición para cambiar de residencia.
12. Hace poco. AVX Stereo Equipment, Inc. inició una política de devoluciones "sin molestias".
Una muestra de 500 clientes que recientemente devolvieron algún artículo indicó que 400
de ellos pensaban que la política era justa, 32 creían que la operación tardaba mucho en
realizarse y el resto no expresó su opinión. Con base en estos hallazgos, realice una infe
rencia acerca de la reacción de todos ios clientes ante ia nueva política.
13. Explique la diferencia entre una variable discreta y una continua. Dé un ejemplo de cada una
de ellas que no esté incluido en ei libro.
14. La gráfica siguiente Ilustra las ventas, en miles, de casas prefabricadas en Estados Unidos
de 1990 a 2001.

Escriba un breve análisis de la información. ¿Las ventas aumentaron durante el periodo?


¿Cuál fue la tendencia de ventas?

exercises.com
Estos ejercicios utilizan ¡a World Wide Web, una fuente cada vez más extensa y completa de in-
formación actualizada. Debido a la naturaleza cambiante y la revisión continua de los sitios web,
es muy probable que encuentre menús diferentes y quizá cambien las direcciones o URL exac-
tas. Cuando visite una página, prepárese para buscar el vínculo.

15. Supongamos que hace poco abrió una cuenta en AmeriTrade, Inc.. un corredor de bolsa en
línea. Decidió comprar acciones de Johnson and Johnson (una compañía farmacéutica) o
de Pepsico (la compañía matriz de Pepsi y Frito Lay). Para una comparación de ambas em-
presas, visite hito:/. finaRce.yahoo.com y, en el espacio donde dice "Get Quote". escriba las
letras JNJ y PER que son los símbolos respectivos para las dos compañías. Haga clic en
GO y recibirá información actualizada acerca del precio de venta de las acciones. A la dere-
cha de esta información, haga dicen More info y luego en Research. Ahí encontrará infor-
mación sobre los analistas accionarios que evaluaron estas acciones. Los corredores
califican las acciones con 1 si se trata de una muy buena compra y con 5 si representan una
muy buena venta. ¿A qué nivel de medición pertenece esta información? ¿Qué acciones re-
comendaría usted?

Ejercicios de la base de datos


16. Consulte los datos de Real Estate en la parte final del libro, que reportan información sobre
las casas que se vendieron en el área de Denver, Colorado, el año pasado. Considere las
¿Qué es estadística? 21

variables siguientes: precio de venta, número de habitaciones, ubicación en la ciudad y dis-


tancia desde el centro de la ciudad.
a. ¿Cuáles de las variables son cualitativas y cuáles son cuantitativas?
b. Determine el nivel de medición de cada una de las variables.
17. Consulte los datos Béisbol 2002, que reportan información sobre los 30 equipos de las Li-
gas Mayores de Béisbol para la temporada 2002. Considere tas variables siguientes: núme-
ro de victorias, salario del equipo, asistencia durante la temporada, si et equipo jugó los
partidos como anfitrión en un campo de pasto o sobre una superficie artificial y el número
de carreras anotadas.
a. ¿Cuáles de estas variables son cuantitativas y cuáles son cualitativas?
b. Determine el nivel de medición para cada una de las variables.
18. Consulte los datos Wage, que reportan información sobre los salarios anuales para una
muestra de 100 trabajadores. También se incluyen variables relacionadas con la industria,
los años de educación y el género de cada trabajador.
a. ¿Cuáles de las 12 variables son cualitativas y cuáles son cuantitativas?
b. Determine el nivel de medición para cada variable.
19. Consulte los datos CIA, que reportan información demográfica y económica sobre 46 países.
a. ¿Cuáles de las variables son cuantitativas y cuáles son cualitativas?
b. Determine el nivel de medición para cada una de las variables.
22 Capítulo 1

Capítulo 1 Respuestas a las autoevaluaciones


1-1 a. Con base en la muestra de 1 960 consumidores, 1-2 a. La edad es una variable de escala de razón. Una
calculamos que, si se comercializara, 60% de todos persona de 40 años es dos veces mayor que
los consumidores compraría el platillo de pollo (1 otra de 20 años.
176/1 960) x 100 = 60%. b. Estadística inferencial, b. Escala nominal. Podríamos acomodar los esta-
porque se utilizó una muestra para llegar a una dos siguiendo cualquier orden.
conclusión acerca de cómo reaccionarían todos los
consumidores en la población si se comercializara el
platillo de pollo.
Descripción de datos: 2
distribuciones de frecuencias
y SU presentación gráfica
24 Capítulo 2

Introducción
El altamente competitivo negocio de ventas de automóviles al detalle cambió en forma sig-
nificativa durante los últimos 5 años debido, en parte, a la consolidación de numerosos gru-
pos de distribuidoras de propiedad pública. Por tradición, una familia local era dueña y se
encargaba de las operaciones de la distribuidora de la comunidad, que podía incluir uno o
dos fabricantes, como Pontiac y GMC Trucks o Chrysler y la popular
línea Jeep. Sin embargo, recientemente, compañías bien administradas
y financiadas han adquirido las distribuidoras locales en extensas
regiones de Estados Unidos. Al adquirirlas, estos grupos con frecuencia
traen consigo prácticas de ventas estándar, plataformas tecnológicas de
software y hardware comunes y técnicas de elaboración de informes a la
administración. El objetivo es ofrecer al consumidor una mejor
experiencia de compra, al tiempo que incrementan la productividad de la
organización distribuidora más grande. En muchos casos, además de
cosechar los beneficios financieros de vender la distribuidora se pide a
la familia que siga manejándola en forma cotidiana. En la actualidad, es
común que estas megadistribuidoras den empleo a más de 10 000
personas, generando varios miles de millones de dólares en ventas anuales, tengan más
de 100 franquicias y coticen en la Bolsa de Valores de Nueva York o NASDAQ.
La consolidación representa algunos desafíos. Con la adquisición de distribuidoras en
todo el país, AutoUSA, una de las nuevas megadistribuidoras, ahora vende las económicas
marcas coreanas de importación Kia y Hyundai, la línea de sedanes BMW y Mercedes y
una línea completa de autos y camiones Ford y Chevrolet.
La señora Kathryn Ball es miembro del equipo de alta gerencia de AutoUSA. Es res-
ponsable del registro y el análisis de los precios de venta de los vehículos para AutoUSA.
A Kathryn le gustaría resumir los precios de venta de los vehículos con tablas y gráficas que
pudiera revisar cada mes. A partir de estas tablas y gráficas, quiere conocer el precio de
venta típico, así como los precios más bajos y más altos. También le interesa describir los
datos demográficos de los compradores. ¿Qué edad tienen? ¿Cuántos vehículos tienen?
¿Quieren comprar o rentar el vehículo?
Whitner Autoplex, que se localiza en Raytown, Missouri, es una de las distribuidoras de
AutoUSA. Whitner Autoplex incluye franquicias de Pontiac, GMC y Buick, así como una tienda
de BMW. General Motors trabaja en forma activa con su grupo de distribuidoras para combinar
en un solo lugar varias de sus franquicias, como Chevrolet, Pontiac o Cadillac. La
combinación de franquicias mejora el tráfico en piso y una distribuidora tiene productos para
todas las características demográficas. BMW,
con su marca e imagen de primera clase, quiere
dejar de llamar a sus distribuidoras de esta
manera y llamarlas tiendas. Basándose en la
experiencia de "Nordstrom's", BMW quiere que
sus consumidores vivan una experiencia de
compra/propiedad más similar a una visita de
compras de Nordstrom's y que no tengan la
imagen que a menudo crea una visita a la dis-
tribuidora.
La señora Ball decidió recopilar información
sobre tres variables en Whitner Autoplex: precio
de venta ($000), edad de los compradores y tipo
de auto (nacional, con código 1, o extranjero, con
código 0). Una parte del conjunto de datos se
muestra en la hoja de Excel adyacente. Todo el
conjunto de datos está disponible en el CD para
el estudiante (que se incluye con el libro), en el
sitio web de McGraw-Hill y en el Apéndice O, al
final de libro.
Descripción de datos: distribuciones de frecuencias y su presentación gráfica 25

Creación de una distribución de frecuencias


Recuerde que en el Capítulo 1 señalamos que a las técnicas empleadas para describir un
conjunto de datos se, les conoce como estadística descriptiva. En otras palabras, utilizamos
la estadística descriptiva para organizar la información de diversas maneras, a fin de señalar
el lugar donde los valores de los datos tienden a concentrarse y ayudar a distinguir los
valores más altos y más bajos. El primer procedimiento que seguimos para describir un con-
junto de datos es una distribución de frecuencias.

DISTRIBUCIÓN DE FRECUENCIAS. Agrupación de los datos en clases mutuamente exclu-


yentes mostrando el número de observaciones en cada una.

¿Cómo desarrollamos una distribución de frecuencias? El primer paso consiste en or-


denar los datos en una tabla que muestre las clases y el número de observaciones en ca-
da clase. Los pasos para crear una distribución de frecuencias se describen mejor utilizando
un ejemplo. Recuerde que nuestro objetivo es elaborar tablas y gráficas que revelen con ra-
pidez la forma de los datos.

EJEMPLO En la introducción describimos una situación en la que la señora Kathryn Ball de AutoUSA
quería desarrollar algunas tablas y gráficas para mostrar el precio de venta típico en diver-
sas distribuidoras. La Tabla 2-1 reporta sólo el precio de los 80 vehículos vendidos el mes
pasado en Whitner Autoplex. ¿Cuál es el precio de venta típico? ¿Cuál es el precio de venta
más alto? ¿Cuál es el precio de venta más bajo? ¿Alrededor de qué valor tienden a agru-
parse los precios de venta?

A la información sin organizar en la Tabla 2-1 nos referimos como datos en bruto o datos
no agrupados. Con un poco de investigación, podemos encontrar el precio de venta más
bajo ($15 546) y el precio de venta más alto ($35 925), pero eso es todo. Es difícil determi-
nar el precio de venta típico. También es difícil visualizar en qué punto tienden a agruparse
los precios de venta. Los datos en bruto se interpretan con mayor facilidad si están organi-
zados en una distribución de frecuencias.

Pasos para organizar los datos Paso 1: Decidir el número de clases. El objetivo es utilizar suficientes grupos o cla-
en una distribución de ses para revelar la forma de la distribución. Aquí es necesario el sentido co-
frecuencia. mún. Demasiadas clases o muy pocas clases podrían no revelar la forma
básica del conjunto de datos. En el ejemplo del precio de venta de los vehícu-
los, tres clases no ofrecen una amplia perspectiva del patrón de la información
(vea la Tabla 2-2).
Una receta útil para determinar el número de clases (k) es la regla de "2 a
• la k". Esta guía le sugiere elegir el número más bajo (k) para el número de cía-
26 Capítulo 2

ses, de modo que 2* (en palabras, 2 elevado a la k potencia) sea mayor que el
TABLA 2-2 Un ejemplo de muy pocas clases

número de observaciones (n).


En el ejemplo de Whitner Autoplex, se vendieron 80 vehículos. De modo
que n = 80. Si probamos k= 6, que significa que utilizaríamos 6 clases, enton-
6
ces 2 = 64, menos que 80. Por tanto, 6 no son suficientes clases. Si dejamos
7
k = 7, entonces 2 = 128, mayor que 80. De modo que el número de clases re-
comendado es 7.
Paso 2: Determinar el intervalo o ancho de clase. Por lo general, el intervalo de cla-
se o ancho debe ser el mismo para todas las clases. Todas éstas deben cubrir
por lo menos la distancia desde el valor más bajo en los datos en bruto hasta
el valor más alto. Estas palabras se expresan en la fórmula:

donde I es el intervalo de clase, H es el valor observado más alto, L es el va-


lor observado más bajo y k es el número de clases.
En el caso de Whitner Autoplex, el valor más bajo es $15 546 y el valor
más alto es $35 925. Si necesitamos 7 clases, el intervalo debe ser por lo me-
nos ($35 925 - $15 546)/7 = $2 911. En la práctica, un intervalo de este tama-
ño casi siempre se redondea a una cifra conveniente, como un múltiplo de 10
o 100. En este caso se podría utilizar el valor de $3 000.
Los intervalos desiguales de clase podrían crear problemas al representar
la distribución en forma gráfica y realizar algunos de los cálculos que veremos
en capítulos posteriores. Sin embargo, los intervalos desiguales de clase pue-
den ser necesarios en ciertas situaciones para evitar un número elevado de
clases vacías o casi vacías. Tal es el caso de la Tabla 2-3. El Internal Revenue
Service utilizó intervalos de clase de diferentes tamaños para reportar el ingre-
so bruto ajustado sobre las devoluciones de impuestos individuales. Si hubie-
ran utilizado un intervalo de tamaño igual, digamos, de $1 000, habrían
necesitado más de 1 000 clases para describir todos los ingresos. Sería difícil
interpretar una distribución de frecuencia con 1 000 clases. En este caso, es
más fácil entender la distribución a pesar de la diferencia entre las clases. Ob-
serve también que el número de devoluciones de impuestos sobre el ingreso o
"frecuencias" se reporta en miles en esta tabla en particular. Esto también ha-
ce que la información sea más fácil de entender.
Paso 3: Establecer los límites de cada clase. Establezca límites de clases claros a
fin de incluir cada observación en una sola categoría. Esto significa que debe
evitar la superposición, así como los límites de clase inciertos. Por ejemplo, no
se deben utilizar clases como $1 300-$1 400 y $1 400-$1 500 porque no que-
da claro si el valor $1 400 pertenece a la primera o a la segunda clase. Con
frecuencia se emplean clases como $1 300-$1 400 y $1 500-$1 600, pero
también pueden ser confusas sin la característica adicional de redondear to-
dos los datos en o arriba de $1 450 en la segunda clase, o los datos inferiores
a $1 450 en la primera clase. En este libro, por lo general, utilizamos el formato
$1 300 hasta $1 400 y $1 400 hasta $1 500, etc. Con este formato, queda
claro que $1 399 pertenece a la primera clase y $1 400 a la segunda.
Como redondeamos el intervalo de clases hacia arriba para obtener un ta-
maño de clase conveniente, cubrimos un rango mayor al necesario. Por ejem-
Descripción de datos: distribuciones de frecuencias y su presentación gráfica 27

TABLA 2-3 Ingreso bruto ajustado para los individuos que presentan declaraciones de impuestos
sobre el ingreso
Número de declaraciones

Ingreso bruto ajustado (en miles)

Ingreso bruto no ajustado 178.2


$1 a $5 000 1 204.6
5 000 a 10 000 2 595.5
10 000 a 15 000 3 142.0
15 000 a 20 000 3 191.7
20 000 a 25 000 2 501.4
25 000 a 30 000 1 901.6
30 000 a 40 000 2 502.3
40 000 a 50 000 1 426.8
50 000 a 75 000 1 476.3
75 000 a 100 000 338.8
100 000 a 200 000 223.3
200 000 a 500 000 55.2
500 000 a 1 000 000 12.0
1 000 000 a 2 000 000 5.1
2 000 000 a 10 000 3.4
10 000 000 o más 000 0.6

pio, 7 clases de ancho $3 000 en el caso de Whitner Autoplex dan como resul-
tado un rancio de 7($3 000) = $21 000. El rango real es $20 379, que calculamos
al restar $35 925 - $15 546. Al comparar ese valor con $21 000, tenemos un
excedente de $621. Como sólo necesitamos cubrir la distancia (H - L), es natural
colocar cantidades casi iguales del exceso en cada una de las dos colas. Desde
luego, también debemos seleccionar límites de clases convenientes. Un
lineamiento consiste en convertir el límite inferior de la primera clase en un
múltiplo del intervalo de clase. En ocasiones, esto no es posible, pero el límite
inferior se debe redondear. Éstas son las clases que podríamos utilizar para esta
información.

Paso 4: Incluir los precios de venta de los vehículos en las clases. Para empezar, el
precio de venta del primer vehículo en la Tabla 2-1 es $23 197, y se incluye en la
clase de $21 000 a $24 000. El segundo precio de venta en la primera columna
de la Tabla 2-1 es $18 021; y se incluye en la clase de $18 000 a $21 000. Los
otros precios de venta se incluyen de manera similar. Cuando todos los precios
de venta quedan incluidos, la tabla queda así:
28 Capítulo 2

Paso 5: Contar el número de elementos en cada clase. El número de observaciones


en cada clase se conoce como frecuencia de clase. En la clase de $15 000 a
$18 000 hay 8 observaciones, y en la clase de $18 000 a $21 000 hay 23 ob-
servaciones. Por tanto, la frecuencia de clase en la primera clase es 8 y en la
segunda es 23. Hay un total de 80 observaciones o frecuencias en todo el con-
junto de datos.
A menudo, resulta útil expresar la información en miles o en alguna unidad convenien-
te, en lugar de los datos reales. Por ejemplo, la Tabla 2-4 reporta los precios de venta de los
vehículos en miles de dólares, en lugar de dólares.
TABLA 2-4 Distribución de frecuencia de los precios de venta en Whitner Autoplex el mes pasado
Precios de venta (miles de $) Frecuencia

15 a 18 8
18a 21 23
21 a 24 17
24 a 27 18
27 a 30 8
30 a 33 4
33 a 36 2
Total 80

Ahora que ya organizamos la información en una distribución de frecuencias, podemos


resumir el patrón en los precios de venta de los vehículos para el lote AutoUSA de Whitner
AutoPlex en Raytown, Missouri. Observe lo siguiente:
1. Los precios de venta van de aproximadamente $15 000 a alrededor de $36 000.
2. Los precios de venta están concentrados entre $18 000 y $27 000. En este rango, se
vendieron 58 vehículos en total o 72.5%.
3. La mayor concentración o la frecuencia más alta, se encuentra en la clase de $18 000
a $21 000. El punto medio de esta clase es $19 500. Entonces decimos que $19 500
es el precio de venta típico.
4. Dos de los vehículos se vendieron en $33 000 o más, y 8 se vendieron en menos de
$18 000.
Al presentar esta información a la señora Ball, le ofrecemos un panorama claro de la distri-
bución de los.precios de venta durante el mes pasado.
Admitimos que la organización de los datos sobre los precios de venta en una distribu-
ción de frecuencia da como resultado la pérdida de información detallada. Es decir, al orga-
nizar los datos en una distribución de frecuencia, no podemos señalar el precio exacto, como
$23 197 o $26 372. Además, no es posible saber si el precio de venta real para el vehículo
menos costoso fue de $15 546 y para el más costoso de $35 925. Sin embargo, el límite in-
ferior de la primera clase y el límite superior de la clase más extensa comunican en esencia
el mismo significado. De manera similar, la señora Ball va a llegar a la misma conclusión si
sabe que el precio exacto es $15 546. Las ventajas de condensar la información de manera
más organizada y fácil de entender supera con mucho esta desventaja.
Descripción de datos: distribuciones de frecuencias y su presentación gráfica 29

Intervalos de clase y puntos medios de clase


A menudo, vamos a utilizar otros dos términos: punto medio de clase e intervalo de clase.
El punto medio es la mitad del camino entre los límites inferiores de dos clases consecutivas.
Se calcula sumando los límites inferiores de las clases consecutivas y dividiendo el resulta-
do entre 2. Consultando la Tabla 2-4, para la primera clase el límite inferior es $15 000 y el
siguiente es $18 000. El punto medio de clase es $16 500, que se calcula así: ($15 000 +
$18 000)/2. El punto medio de $16 500 representa mejor, o es típico del precio de venta de
los vehículos en esa clase.
Para determinar el intervalo de clase, reste el límite inferior de la clase al límite inferior
de la clase siguiente. El intervalo de clase de la información sobre los precios de venta de
los vehículos es $3 000, mismo que encontramos al restar el límite inferior de la primera cla-
se, $15 000, al límite inferior de la siguiente; es decir, $18 000 - $15 000 = $3 000. Se pue-
de determinar, también, el intervalo de clase encontrando la diferencia entre puntos medios
consecutivos. El punto medio de la primera clase es $16 500 y el punto medio de la segun-
da clase es $19 500. La diferencia es de $3 000.

Ejemplo con el uso del software


Como mencionamos en el Capítulo 1, hay muchos programas de software que realizan cálcu-
los estadísticos y producen los resultados. A lo largo de este libro, mostraremos los resulta-
dos de Microsoft Excel; de MegaStat, que es un complemento de Microsoft Excel; y de
MINITAB. Los comandos necesarios para generar los resultados se proporcionan en la sec-
ción Comandos de software al final de cada capítulo.
La siguiente es una distribución de frecuencias, producida por MegaStat, que muestra
los precios de los 80 vehículos vendidos el mes pasado en el lote de Whitner Autopiex que
está en Raytown, Missouri. La forma de la presentación es ligeramente diferente a la distri-
bución de frecuencias de la Tabla 2-4, pero las conclusiones generales son las mismas.

Autoevaluación 2-2 Barry Bonds de los Gigantes de Sari Francisco estableció un nuevo récord de carreras en una
sola temporada al anotar 73 carreras durante la temporada 2001. En la más larga de estas ca-
rreras recorrió 488 pies y, en la más corta, 320 pies. Usted debe elaborar una distribución de
frecuencias de la longitud de estas carreras.
(a) ¿Cuántas clases utilizaría?
(b) ¿Qué intervalo de clase sugeriría?
(c) ¿Qué clases reales sugeriría?
30 Capítulo 2

Distribución de frecuencias relativas


Una distribución de frecuencia Quizá sea conveniente convertir las frecuencias de clase en frecuencias de clase relativas
relativa convierte la frecuencia para mostrar la fracción del número total de observaciones o porcentaje en cada clase. En
en un porcentaje. nuestro ejemplo de las ventas de los vehículos, tal vez queremos saber qué porcentaje de
los precios se encuentran en la clase de $21 000 a $24 000. En otro estudio, tal vez quere-
mos saber qué porcentaje de los empleados pidieron de 5 a 10 días libres el año pasado.
Para convertir una distribución de frecuencia en una distribución de frecuencia relativa,
cada una de las frecuencias de clase se divide entre el número total de observaciones. A
partir de la distribución de los precios de venta de los vehículos (Tabla 2-4, donde el precio
de venta se reporta en miles de dólares), la frecuencia relativa para la clase de $15 000 a
$18 000 es 0.10, calculada dividiendo 8 entre 80. Es decir, el precio de 10% de los vehícu-
los vendidos en Whitner Autoplex está entre $15 000 y $18 000. Las frecuencias relativas
para el resto de las clases se muestra en la Tabla 2-5.

TABLA 2-5 Distribución de frecuencias relativas de los precios de los vehículos vendidos el mes pasado en
Whitner Autoplex

Autoevaluación 2-3 Consulte la Tabla 2-5, que muestra la distribución de frecuencias relativas para los vehículos
vendidos el mes pasado en Whitner Autoplex.
(a) ¿Cuántos vehículos se vendieron a un precio de $18 000 a $21 000?
(b) ¿Qué porcentaje de vehículos se vendió en un precio entre $18 000 y $21 000?
(c) ¿Qué porcentaje de los vehículos se vendió en $30 000 o más?

Ejercicios
Las respuestas a los ejercicios con números nones se encuentran al final del libro.

1. Un conjunto de datos consiste en 38 observaciones. ¿Cuántas clases recomendaría usted


para la distribución de frecuencias?
2. Un conjunto de datos consiste en 45 observaciones entre $0 y $29. ¿Qué tamaño recomen
daría para el intervalo de clase?
3. Un conjunto de datos consiste en 230 observaciones entre $235 y $567. ¿Qué intervalo de
clase recomendaría?
4. Un conjunto de datos contiene 53 observaciones. El valor más bajo es 42 y el más alto es
129. Es necesario organizar los datos en una distribución de frecuencia.
a. ¿Cuántas clases sugeriría?
b. ¿Cuál sugeriría que fuera el límite inferior de la primera clase?
5. Wachesaw Manufacturing, Inc. produjo la siguiente cantidad de unidades en los últimos 16
días.
27 27 27 28 27 25 25 28
26 28 26 28 31 30 26 26
Descripción de datos: distribuciones de frecuencias y su presentación gráfica 31

La información se debe organizar en una distribución de frecuencias.


a. ¿Cuántas clases recomendaría?
b. ¿Qué intervalo de clase sugeriría?
c. ¿Qué límite inferior recomendaría para la primera clase?
d. Organice la información en una distribución de frecuencias y determine la distribución de
frecuencias relativas.
e. Comente sobre la forma de la distribución.
6. La Quick Change Oil Company tiene varios talleres en el área metropolitana de Seattle. Los
números de cambios de aceite en el taller de Oak Street durante los últimos 20 días son:

65 98 55 62 79 59 51 90 72 56

70 62 66 80 94 79 63 73' 71 85

Los datos se deben organizar en una distribución de frecuencias.


a. ¿Cuántas clases recomendaría?
b. ¿Qué intervalo de clase sugeriría?
c. ¿Qué límite inferior recomendaría para la primera clase?
d. Organice el número de cambios de aceite en una distribución de frecuencias.
e. Comente sobre la forma de la distribución de frecuencias. Determine también la distribu-
ción de frecuencias relativas.
7. El gerente de BiLo Supermarket en Mt. Pleasant, Rhode Island, recopiló la siguiente infor-
mación sobre la cantidad de veces que un cliente visita la tienda en un mes. Las respuestas
de 51 clientes fueron:

5 3 3 1 4 4 5 6 4 2 6 6 6 7 1
1 14 1 2 4 4 4 5 6 3 5 3 4 5 6
8 4 7 6 5 9 11 3 12 4 7 6 5 15 1
1 10 8 9 2 12

a. Empezando con 0 como el límite inferior de la primera clase y utilizando un intervalo de


clase de 3, organice los datos en una distribución de frecuencias.
b. Describa la distribución. ¿Dónde tienden a agruparse los datos?
c. Convierta la distribución en una distribución de frecuencias relativas.
8. La división de servicios alimenticios de Cedar River Amusement Park, Inc. estudia la canti-
dad de dinero que gastan en alimentos y bebidas cada día las familias que visitan el parque
de diversiones. Una muestra de.40 familias que visitaron el parque el día de ayer reveló que
gastan las cantidades siguientes.
$77 $18 $63 $84 $38 $54 $50 $59 $54 $56 $36 $26 $50 $34 $44
41 58 58 53 51 62 43 52 53 63 62 62 65 61 52
60 60 45 66 83 71 63 58 61 71

a. Organice los datos en una distribución de frecuencias, utilizando siete clases y 15 como
el límite inferior de la primera clase. ¿Qué intervalo de clase seleccionó?
b. ¿Dónde tienden a agruparse los datos?
c. Describa la distribución.
d. Determine la distribución de frecuencias relativas.

Presentación gráfica de
una distribución de frecuencias
A menudo, los gerentes de ventas, analistas de bolsa, administradores de hospitales y otros
ejecutivos ocupados necesitan un panorama rápido de las tendencias en las ventas, los pre-
cios accionarios o los costos hospitalarios. Estas tendencias con frecuencia se pueden ilus-
trar mediante el uso de tablas y gráficas. Tres gráficas que ayudan a ilustrar una distribución
de frecuencias en forma gráfica son el histograma, el polígono de frecuencias y el polígo-
no de frecuencias acumuladas.
32 Capítulo 2

Histograma
Una de las formas más comunes de representar una distribución de frecuencias es un his-
tograma

HISTOGRAMA, Gráfica en la que las clases se marcan en el eje horizontal y las fre-
cuencias de clases en el eje vertical. Las frecuencias de clases se representan me-
diante la altura de las barras y estas últimas se dibujan una junto a otra.

De esta manera, un histograma describe una distribución de frecuencias utilizando una se-
ne de rectángulos adyacentes, donde la altura de cada rectángulo es proporcional a la fre-
cuencia de la clase que representa. La elaboración de un histograma se ilustra mejor
volviendo a introducir los precios de los 80 vehículos vendidos el mes anterior en Whitner
Autoplex.

A continuación, presentamos la distribución de frecuencia.

Elabore un histograma. ¿A qué conclusiones puede llegar basándose en la información que


se presenta en el histograma?

Las frecuencias de clase se presentan en una escala a lo largo del eje vertical (eje V) y los lí-
mites de clase o los puntos medios de clase se colocan a lo largo del eje horizontal. Para ilus-
trar la elaboración del histograma, las primeras tres clases se muestran en la Gráfica 2-1.

Elaboración de un histograma

En la Gráfica 2-1 observamos que hay ocho vehículos en la clase de $15 000 a $18 000.
Por tanto, la altura de la columna para esa clase es 8 Hay 23 vehículos en la clase de
$18 000 a $21 000. De manera que, por lógica, la altura de esa columna es de 23. La altu-
ra de la barra representa la cantidad de observaciones en la clase.
Descripción de datos: distribuciones de frecuencias y su presentación gráfica 33

Este procedimiento se sigue para todas la clases. El histograma completo se muestra


en la Gráfica 2-2. Observe que no hay espacio entre las barras. Ésta es una característica
del histograma. ¿Por qué es asi"? Porque la variable representada en el eje horizontal es
cuantitativa y es un valor de la escala de medición del intervalo, y en este caso de razón.
En las gráficas que se describen en una sección posterior, las barras verticales se encuen-
tran separadas.

A partir del histograma en la Gráfica 2-2, llegamos a las siguientes conclusiones:

1. El precio de venta más bajo es de aproximadamente $15 000, y el más alto es de $36 000
más o menos 2 La frecuencia de clase más alta es la clase de $18 000 a $21 000. Un
total de 23 de los
80 vehículos vendidos se encuentran en este rango de precios. 3. 58 de los
vehículos, o 72 5%, tenían un precio de venta de entre $18 000 y $27 000.

De esta manera, el histograma ofrece una representación visual fácil de interpretar acerca
de una distribución de frecuencia Debemos señalar también que habríamos llegado a las
mismas conclusiones y la forma del histograma habría sido la misma si hubiéramos utiliza-
do una distribución de frecuencia relativa en lugar de las frecuencias reales. Es decir, si hu-
biéramos usado las frecuencias relativas de la Tabla 2-5, que se encuentra en la página 30,
tendríamos un histograma de la misma forma que la de la Gráfica 2-2. La única diferencia
es que el eje vertical se habría reportado en el porcentaje de vehículos, en lugar de en el
número de vehículos.

Utilizamos el programa Microsoft Excel para producir el histograma con los datos de
ventas de vehículos de Whitner Autoplex (que se muestra en la página 25). Debemos hacer
notar que los puntos medios de clase se utilizan como las etiquetas para las clases. Los co-
mandos de software para crear este resultado se indican en la sección Comandos de soft-
ware, al final del capítulo.

Polígono de frecuencias
En un polígono de frecuencia, Un polígono de frecuencias es similar a un histograma. Consiste en segmentos de línea
los puntos medios de clase se que conectan los puntos formados por las intersecciones de los puntos medios de clase y
conectan con un segmento de las frecuencias de clase La elaboración de un polígono de frecuencias se ilustra en la Grá-
línea fica 2-3 (en la página 35) Utilizamos los precios de los vehículos para los autos vendidos el
mes pasado en Whitner Autoplex El punto medio de cada clase se representa en una es-
cala en el eje Xy las frecuencias de clase en el eje Y. Recuerde que el punto medio de cla-
se es el valor en el centro de una clase y representa los valores en esa clase. La frecuencia
34 Capítulo 2

de clase es el número de observaciones en una clase en particular. Los precios de venta de


los vehículos en Whitner Autoplex son:
Descripción de datos: distribuciones de frecuencias y su presentación gráfica 35

GRÁFICA 2-3 Polígono de frecuencia de los precios de venta de los 80 vehículos vendidos
en Whitner Autoplex

Como dijimos antes, la clase de $15 000 a $18 000 está representada en el punto me-
dio de $16 500. Para construir un polígono de frecuencias, muévase en dirección horizon-
tal en la gráfica hasta el punto medio, $16.5 y luego en sentido vertical hasta 8, la frecuencia
de clases, y coloque un punto. Los valores Xy Y de este punto se llaman coordenadas. Las
coordenadas del punto siguiente son X= $19.5 y Y= 23. El proceso se continúa para todas
las clases. Luego, los puntos se conectan en orden. Es decir, el punto que representa la clase
más baja se une a aquel que representa la segunda clase, y así sucesivamente.
En la Gráfica 2-3, observe que para completar el polígono de frecuencias se suman los
puntos medios $13.5 y $37.5 al eje Xpara "anclar" el polígono en cero frecuencias. Estos
dos valores, $13.5 y $37.5, se calcularon al sustraer el intervalo de clase de $3.0 del punto
medio más bajo ($16.5) y sumando $3.0 al punto medio más alto ($34.5) en la distribución
de frecuencias.
Tanto el histograma como el polígono de frecuencia nos permiten tener un panorama
rápido de las principales características de la información (altas, bajas, puntos de concen-
tración, etcétera). Aunque las dos representaciones son similares en su propósito, el histo-
grama tiene la ventaja de que representa cada clase como un rectángulo, en el que la altura
de la barra rectangular representa el número en cada clase. A su vez, el polígono de fre-
cuencias tiene una ventaja sobre el histograma. Nos permite comparar directamente dos o
más distribuciones de la frecuencia. Supongamos que la señora Ball de AutoUSA quiere
comparar el lote Whitner Autoplex en Raytown, Missouri, con un lote similar, Fowler Auto
Malí en Grayling, Michigan. Para hacerlo, se construyen dos polígonos de frecuencias, uno
arriba del otro, como en la Gráfica 2-4. En esta gráfica, es evidente que el precio de venta
típico de los vehículos es más alto en el lote que está en Grayling, Michigan.

GRÁFICA 2-4 Distribución de los precios de venta de los vehículos en Whitner


Autoplex y Fowler Auto Malí
36 Capítulo 2

El número total de frecuencias en las dos distribuidoras es casi igual, de modo que es
posible una comparación directa. Si la diferencia en el número total de frecuencias es muy
grande, la conversión de las frecuencias en relativas y luego la representación de ambas
distribuciones permitirán una comparación más clara.

Autoevaluación 2-4 En la siguiente distribución de frecuencias se muestran las importaciones anuales de un gru-
po seleccionado de proveedores de aparatos electrónicos.
Importaciones (millones de $) Número de proveedores

2a5 6
5a8 13
8a 11 20
11 a 14 10
14 a 17 1

(a) Represente las importaciones en forma de histograma.


(b) Represente las importaciones como un polígono de frecuencias relativas.
(c) Resuma las facetas importantes de la distribución (como las clases con las frecuencias
más alta y más baja).

Ejercicios
9. Molly's Candel Shop tiene varias tiendas detallistas en las áreas costeñas del norte y el sur de
California. Muchos de los clientes de Molly's piden que se les envíen sus compras. La gráfica
siguiente muestra el número de paquetes enviados por día durante los últimos 100 días.

a. ¿Cómo se llama la gráfica?


b. ¿Cuál es el número total de frecuencias?
c. ¿Cuál es el intervalo de clase?
d. ¿Cuál es la frecuencia de clase para la clase de 10 a 15?
e. ¿Cuál es la frecuencia relativa de la clase de 10 a 15?
f. ¿Cuál es el punto medio de la clase de 10 a 15?
g. ¿Durante cuántos días se enviaron 25 o más paquetes?

10. La gráfica siguiente muestra el número de pacientes admitidos diariamente en la sala de


urgencias del Memorial Hospital.
Descripción de datos: distribuciones de frecuencias y su presentación gráfica 37

a. ¿Cuál es el punto medio de la clase de 2 a 4?


b. ¿Durante cuántos días se admitieron de 2 a 4 pacientes?
c. Aproximadamente, ¿cuántos días estuvieron en estudio?
d. ¿Cuál es el intervalo de clase?
e. ¿Cómo se llama esta gráfica?

11. La siguiente distribución de frecuencias reporta el número de millas por viajero frecuente,
en miles, para los empleados de Brumley Statistical Consulting, Inc., durante el primer
trimestre de 2004.

Millas de viajero frecuente Número


(000) de empleados
0a3 5
3a6 12
6a9 23
9a 12 8
12 a 15 2
Total 50

a. ¿Cuántos empleados se estudiaron?


b. ¿Cuál es el punto medio de la primera clase?
c. Elabore un histograma.
d. Debe trazar un polígono de frecuencias. ¿Cuáles son las coordenadas de la representa
ción para la primera clase?
e. Elabore un polígono de frecuencias.
f. Interprete las millas de viajero frecuente acumuladas utilizando las dos gráficas.

12. Ecommerce.com, un importante detallista por Internet, estudia el tiempo que transcurre en-
tre el momento de hacer un pedido y el momento en que se surte de entre una muestra
de pedidos recientes. Los tiempos de espera se reportan en días.

Tiempo de espera
(días) Frecuencia
0a5 6
5 a 10 7
10 a 15 12
15 a 20 8
20 a 25 7
Total 40
a ¿Cuántos pedidos se estudiaron?
b ¿Cuál es el punto medio de la primera clase?
c ¿Cuáles son las coordenadas de la primera clase para un polígono de
frecuencias?
d Elabore un histograma.
e Elabore un polígono de frecuencias.
f Interprete los tiempos de espera utilizando ambas gráficas.

Polígono de frecuencias acumuladas


Considere una vez más la distribución de los precios de venta de los vehículos en Whitner
Autoplex. Supongamos que nos interesa el número de vehículos que se vendieron en menos
de $21 000, o el valor debajo del cual se vendieron 40% de los vehículos. Estos números se
pueden calcular desarrollando una distribución de frecuencias acumuladas y represen-
tándola en forma gráfica en un polígono de frecuencias acumuladas.
38 Capítulo 2

La distribución de frecuencia de los precios de venta de los vehículos en Whitner Autoplex


se repite de la Tabla 2-4.

Elabore un polígono de frecuencias acumuladas. ¿En menos de qué cantidad se vendió


50% de los vehículos? ¿En menos de qué cantidad se vendió 25% de los vehículos?

Como su nombre lo indica, una distribución de frecuencias acumuladas y un polígono de


frecuencias acumuladas requieren de tales valores. Para elaborar una distribución de fre-
cuencias acumuladas "menor que", consulte la tabla anterior y observe que ocho vehículos
se vendieron en menos de $18 000. Esos ocho vehículos, más los 23 de la siguiente clase
más alta, que dan un total de 31, se vendieron en menos de $21 000. La frecuencia acumu-
lada para la siguiente clase más alta es 48, que se calcula sumando 8 + 23 + 17. Este pro-
ceso se sigue para todas las clases. Todos los vehículos se vendieron en menos de $36 000.
(Vea la Tabla 2-6.)

Distribución de frecuencia acumulada para el precio de venta de los vehículos


Descripción de datos: distribuciones de frecuencias y su presentación gráfica 39

Para trazar una distribución de frecuencias acumuladas, coloque el límite superior de


cada clase a lo largo del eje Xy las frecuencias acumuladas correspondientes a lo largo del
eje Y. Para proporcionar información adicional, puede marcar el eje vertical de la izquierda
con unidades y el eje vertical de la derecha con el porcentaje correcto. En el ejemplo de
Whitner Autoplex, el eje vertical de la izquierda está marcado de 0 a 80, y el de la derecha
de 0% a 100%. El valor dé 50% corresponde a 40 vehículos vendidos.
Para iniciar el trazo, 8 vehículos se vendieron en menos de $18 000, de modo que el pri-
mer trazo es en X= 18 y Y= 8. Las coordenadas para el trazo siguiente son X= 21 y Y= 31.
El resto de los puntos se trazan y luego se conectan para formar la gráfica (vea la Gráfica 2-5).

Distribución de frecuencias acumuladas para el precio de venta de los vehículos

Para encontrar el precio de venta debajo del cual se vendieron la mitad de los autos, traza-
mos una línea horizontal desde la marca de 50% en el eje vertical de la derecha sobre el
polígono y luego la bajamos hasta el eje Xy leemos el precio de venta. El valor en el eje X
es de aproximadamente 22.5, de modo que calculamos que 50% de los vehículos se ven-
dieron en menos de $22 500.
Para encontrar el precio debajo del cual se vendieron 25 de los vehículos, encontramos
el valor de 25 en el eje vertical de la izquierda. A continuación, trazamos una línea horizon-
tal desde el valor de 25 hasta el polígono y luego la bajamos hasta el eje Xy leemos el pre-
cio. Es alrededor de 20.5, de modo que calculamos que 25 de los vehículos se vendieron
en menos de $20 500. También podemos calcular el porcentaje de vehículos que se vendie-
ron en menos de una cantidad en particular. Para explicar lo anterior, supongamos que que-
remos calcular el porcentaje de vehículos que se vendieron en menos de $28 500.
Empezamos por encontrar el valor de 28.5 en el eje X, nos movemos en sentido vertical
hasta el polígono y luego horizontalmente hasta el eje vertical de la derecha. El valor es de
aproximadamente 87%, de modo que llegamos a la conclusión de que 87% de los vehícu-
los se vendieron en menos de $28 500.

Autoevaluación 2-5 En la tabla siguiente se organizó una muestra del salario por hora de 15 empleados de Home
Depot en Brunswick, Georgia.
40 Capítulo 2

(a) ¿Cómo se llama la tabla?


(b) Desarrolle una distribución de frecuencia acumulada en un polígono de frecuencia
acumulada.
(c) Con base en el polígono de frecuencias acumuladas, ¿cuántos empleados ganan $11
por hora o menos? La mitad de los empleados reciben un salario por hora. ¿De cuán
to o más? ¿Cuánto más o cuánto menos ganan cuatro de los empleados?

Ejercicios
13. La gráfica siguiente muestra los salarios por hora de una muestra de soldadores certificados
en el área de Atlanta, Georgia.

a. ¿Cuántos soldadores participaron en el estudio?


b. ¿Cuál es el intervalo de clase?
c. Aproximadamente, ¿cuántos soldadores ganan menos de $10.00 por hora?
d. ¿Alrededor de 75% de los soldadores ganan menos de qué cantidad?
e. De los soldadores estudiados, ¿diez ganan menos de qué cantidad?
f. ¿Qué porcentaje de los soldadores ganan menos de $20.00 por hora?

14. La siguiente gráfica muestra el precio de venta ($000) de las casas vendidas en el área de
Bilings, Montana.

a. ¿Cuántas casas se estudiaron?


b. ¿Cuál es el intervalo de clase?
c. ¿En menos de qué cantidad se vendieron 100 casas?
d. ¿En menos de qué cantidad se vendieron alrededor de 75% de las casas?
e. Calcule el número de casas en la clase de $150 000 a $200 000.
f. Aproximadamente, ¿cuántas casas se vendieron en menos de $225 000?

15. Se repite la distribución de frecuencias que representa el número de millas de viajero frecuente
acumuladas por los empleados de Brumley Statistical Consulting Company en el Ejercicio 11.
Descripción de datos: distribuciones de frecuencias y su presentación gráfica 41

Millas de viajero frecuente


(000) Frecuencia

0a3 5
3a6 12
6a9 23
9a 12 8
12 a 15 2
Total 50

a. ¿Cuántos empleados acumularon menos de 3 000 millas?


b. Convierta la distribución de frecuencias en una distribución de frecuencias acumuladas.
c. Represente la distribución acumulada en forma de un polígono de frecuencias acumuladas.
d. Con base en el polígono de frecuencias acumuladas, alrededor de 75% de los emplea
dos acumularon cuántas millas o menos.
16. A continuación, se repite la distribución de frecuencias del tiempo de espera de un pedido
en Ecommerce.com del Ejercicio 12.

Tiempo de espera
(días) Frecuencia
0a5 6
5 a 10 7
10a 15 12
15 a 20 8
20 a 25 7
Total "40"

a. ¿Cuántos pedidos se surtieron en menos de 10 días? ¿En menos de 15 días?


b. Convierta la distribución de frecuencias en una distribución de frecuencias acumuladas.
c. Desarrolle un polígono de frecuencias acumuladas.
d. ¿En menos de cuántos días se surtieron alrededor de 60% de los pedidos?

Otras presentaciones gráficas de datos


El histograma, el polígono de frecuencias y el polígono de frecuencias acumuladas tienen
gran atractivo visual. Es decir, están diseñados para captar la atención del lector. En esta sec-
ción estudiaremos algunas otras formas gráficas, entre ellas la gráfica de líneas, la gráfica de
barras y la gráfica de pastel. Estas gráficas aparecen a menudo en USA Today, U.S. News
and World Report, Business Week y otros periódicos, revistas e informes gubernamentales.

Gráficas lineales
Las Gráficas 2-6 y 2-7 son ejemplos de gráficas lineales, que son muy efectivas sobre to-
do para la información de negocios y económica porque muestran el cambio y las tenden-
cias en una variable a través del tiempo. La variable de interés, como el número de unidades
vendidas o el valor total de las ventas, se coloca en escala a lo largo del eje vertical y el
tiempo a lo largo del eje horizontal. La Gráfica 2-6 muestra el Promedio Industrial Dow Jo-
nes y el NASDAQ, las dos medidas de actividad bursátil que se reportan con mayor frecuen-
cia. La hora del día,- empezando con la campanada de apertura a las 9:30 se muestra a lo
largo del-eje horizontal y el valor del Dow en el eje vertical. Para este día, el Dow era de 8
790.44, subió-5.55 puntos, a las 12:08 PM. El NASDAQ era de 1 447.67, bajó 0.05 puntos,
álas 12:08 PM. Las gráficas de líneas se utilizan muy a menudo entre los inversionistas para
apoyar las decisiones de compra y venta de acciones y bonos.
La Gráfica 2-7 es también una gráfica de líneas. Muestra las tasas de desempleo entre
los hombres afroestadounidenses mayores de 16 años durante el periodo comprendido en-
42 Capítulo 2

GRÁFICA 2-6 Gráfica de líneas para el Promedio Industrial Dow Jones y el NASDAQ

GRÁFICA 2-7 índice de desempleo para los hombres afroestadounidenses mayores de 16 años de
1992 a 2002

tre 1992 y 2002. Observe que al principio del periodo la tasa de desempleo era de aproxi-
madamente 15%, y que ésta bajó a alrededor de 8% en 2000, pero aumentó a 12% en la
primera década de 2002. .
Con mucha frecuencia, dos o más series de datos se incluyen en la misma gráfica de
líneas. Por tanto, una gráfica puede mostrar la tendencia de diversas variables diferentes.
Esto permite una comparación de varias series durante el mismo periodo. La Gráfica 2-8
muestra las ventas nacionales e internacionales (en miles de millones de dólares) para
Johnson and Johnson, Inc., durante los años de 1992 a 2002. Podemos ver que las ventas
de ambos segmentos van en aumento, pero las ventas nacionales se incrementan con ma-
yor rapidez.

Gráficas de barras
Una gráfica de barras se puede utilizar para representar cualquiera de los niveles de me-
dición: nominal, ordinal, de intervalo o de razón. (Recuerde que estudiamos los niveles de
medición desde la página 9 en el Capítulo 1.) Según los Current Population Reports (Re-
portes Actuales de la Población) del Census Bureau, en Estados Unidos la ganancia anual
típica de una persona mayor de 18 años es de $22 895, si el certificado de secundaria es
el máximo título obtenido. Con el certificado de bachillerato, las ganancias típicas aumen-
tan a $40 478, y con una licenciatura o una maestría, la cantidad típica se incrementa a
Descripción de datos: distribuciones de frecuencias y su presentación gráfica 43

$73 165. Esta información está resumida en la Gráfica 2-9. Con esta gráfica es fácil ver que
una persona que tiene un certificado de bachillerato puede esperar ganar casi el doble en
un año que otra que tiene un certificado de secundaria. Las ganancias esperadas de una
persona con un grado profesional o de maestría son casi el doble que las de otra con un
certificado de bachillerato y tres veces las de una persona con diploma de secundaria.

GRÁFICA 2-8 Ventas nacionales e internacionales para Johnson and Johnson, Inc., 1992 a 2002

GRÁFICA 2-9 Ganancias anuales típicas con base en el nivel educativo

Gráficas circulares o de pastel


Una gráfica circular o de pastel es muy útil sobre todo para ilustrar datos de nivel nomi-
nal: Explicamos los detalles de la elaboración de una gráfica de pastel utilizando la informa-
ción en la Tabla 2-7, que muestra un análisis de los gastos de la Lotería del Estado de Ohio
durante 2002.
44 Capítulo 2

TABLA 2-7 Gastos de la Lotería del Estado de Ohio en 2002

Uso de las Cantidad Porcentaje de


ventas (millones de $) participación

Premios Pagos para la 1 148.1


57
educación 635.2
32 6
Bonos/Comisiones 126.6
5
Gastos operativos 103.3

Total 2 013.2 100

El primer paso consiste en registrar los porcentajes 0, 5, 10, 15, etc. de manera uniforme
en la circunferencia de un círculo. Para representar el 57% destinado a los premios, trace
una línea desde el centro del círculo hasta 0 y otra línea desde el centro del círculo hasta
57%. El área en esta "rebanada" representa las ganancias de la lotería que se entregaron
en premios. A continuación, sume el 57% de los gastos destinados a los premios al 32% en
pagos para educación; el resultado es 89%. Trace una línea del centro del círculo a 89%, de
modo que el área entre 57% y 89% represente los pagos hechos para la educación. Luego,
sume el 6% de bonos y comisiones, con lo que obtenemos un total de 95%. Trace una línea
desde el centro del círculo hasta 95 de modo que la "rebanada" entre 89% y 95% represente
el pago de bonos y comisiones. El 5% restante es para gastos operativos.

Como el área del pastel representa la participación relativa de cada componente, podemos
compararlos con facilidad:

• El gasto más elevado de la Lotería de Ohio es en premios.


• Alrededor de una tercera parte de las ganancias se transfieren a la educación.
• Los gastos operativos representan sólo 5% de las ganancias.

El sistema Excel elabora una gráfica de pastel y captura el resultado. Consulte la gráfica si-
guiente para la información en la Tabla 2-7.

Autoevaluación 2-6 Los Clayton County Commissioners quieren mostrar a los contribuyentes que asistan a la pró-
xima reunión lo que sucede con el dinero que pagan en impuestos. La cantidad total de im-
puestos que se cobró es de 2 millones de dólares. Los gastos son: $440 000 para escuelas,
$1 160 000 para carreteras, $320 000 para administración y $80 000 para provisiones. Una
gráfica de pastel es ideal para mostrar la cantidad destinada a escuelas, carreteras, gastos
administrativos y provisiones. Convierta las cantidades de dólares en porcentajes del total y
represente estos porcentajes en forma de gráfica de pastel.
Descripción de datos: distribuciones de frecuencias y su presentación gráfica 45

Ejercicios
17. Un asesor de negocios pequeños investiga el desempeño de varias compañías. Las ventas
durante 2003 (en miles de dólares) para las compañías seleccionadas fueron:

Ventas del cuarto trimestre

Corporación (miles de $)

Hoden Building Products $1 645.2


J & R Printiñg, Inc. 4 757.0
Long Bay Concrete Construction 8 913.0
Mancell Electric and Plumbing 627.1
Maxwell Heating and Air Conditioning 24 612.0
Mizelle Roofing & Sheet Metals 191.9

El asesor quiere incluir en su informe una gráfica que compare las ventas de las seis com-
pañías. Utilice una gráfica de barras para comparar las ventas del cuarto trimestre de estas
corporaciones y escriba un breve informe resumiendo la gráfica de barras. 18. The Blair
Corporation, que se localiza en Warren, Pennsylvania, vende ropa de moda para dama y caballero,
además de gran variedad de productos para el hogar (http://www.blair.com). Atiende a sus clientes
por correo. A continuación, presentamos las ventas netas de Blair durante el periodo de 1997 a
2002. Elabore una gráfica de líneas que represente las ventas netas durante ese periodo y
redacte un breve informe.

Ventas netas

Año (millones de $)

1997 486.6
1998 506.8
1999 522.2
2000 574.6
2001 580.7
2002 568.5

19. Un encabezado en un periódico de Toledo, Ohio, informaba que el crimen iba a la baja. A
continuación, presentamos el número de homicidios entre 1986 y 2002. Elabore una gráfica
de líneas para resumir la información y escriba un breve resumen de los índices de homici-
dios durante los últimos 17 años.
46 Capítulo 2

Año Homicidios Año Homicidios

1986 21 1995 35
1987 34 1996 30
1988 26 1997 28
1989 42 1998 25
1990 37 1999 21
1991 37 2000 19
1992 44 2001 23
1993 45 2002 27
1994 40

20. Un informe preparado para el gobernador de un estado del oeste del país indicaba que 56%
de los ingresos fiscales del estado se destinaban a la educación, 23% a los fondos genera-
les, 10% a los condados, 9% a los programas para ancianos y el resto a otros programas
sociales. Elabore una gráfica de pastel para mostrar la división del presupuesto. La tabla
21 siguiente, en millones, muestra la población de Estados Unidos en intervalos de 5 años, de
1950 a 2000. Elabore una gráfica de líneas que ilustre el crecimiento de la población y
escriba un breve informe resumiendo sus descubrimientos.
Población Población

Año (millones) Año (millones)

1950 152.3 1980 227.7


1955 165.9 1985 238.5
1960 180.7 1990 249.9
1965 194.3 1995 263.0
1970 205.1 2000 281.4
1975 216.0

22. A continuación, se muestran los gastos de personal militar y civil de las ocho instalaciones
militares más grandes en Estados Unidos. Elabore una gráfica de barras y resuma los resul-
tados en un breve informe.

Resumen del capítulo


I. Una distribución de frecuencias es una agrupación de datos en clases mutuamente exclusi-
vas que muestran el número de observaciones en cada clase.
A. Los pasos al elaborar una distribución de frecuencias son:
1. Decidir cuántas clases desea.
2. Determinar el intervalo de clase o ancho.
3. Establecer los límites individuales de clase.
4. Agrupar los datos en bruto en las clases.
5. Contar el número de grupos en cada clase.
B. La frecuencia de clase es el número de observaciones en cada clase.
C. El intervalo de clase es la diferencia entre los límites de dos clases consecutivas.
D. El punto medio de clase es la mitad entre los límites de dos clases consecutivas.
II. Una distribución de frecuencias relativas muestra el porcentaje de las observaciones en cada
clase.
III. Hay tres métodos para representar en forma gráfica una distribución de frecuencias.
A. Un histograma representa el número de frecuencias en cada clase en forma de rectángulos.
Descripción de datos: distribuciones de frecuencias y su presentación gráfica 47

B. Un polígono de frecuencias consiste en segmentos de línea que conectan los puntos for-
mados por las intersecciones de los puntos medios de clase y las frecuencias de clase.
C. Un polígono de frecuencias acumuladas "menor que" muestra el número de observaciones
bajo un valor determinado.
IV. En los periódicos y revistas se utilizan diversas gráficas.
A. Una gráfica de líneas es ideal para mostrar la tendencia de una variable como las ventas
o el ingreso a través del tiempo.
B. Las gráficas de barras son similares a las de líneas y resultan útiles para mostrar los cam
bios en los datos de la escala nominal.
C. Las gráficas de pastel son útiles para mostrar el porcentaje que los diversos componentes
representan en un total.

Ejercicios del capítulo


23. Un conjunto de datos consiste en 83 observaciones. ¿Cuántas clases recomendaría usted
para una distribución de frecuencias?
24. Un conjunto de datos consiste en 145 observaciones que van de 56 a 490. ¿Qué tamaño de
intervalo de clase recomendaría?
25. La siguiente tabla presenta la cantidad de minutos que un grupo de ejecutivos de la indus
tria automotriz invierte para ir de casa al trabajo.
28 25 48 37 41 19 32 26 16 23 23 29 36
31 26 21 32 25 31 43 35 42 38 33 28

a. ¿Cuántas clases recomendaría?


b. ¿Qué intervalo de clase sugeriría?
c. ¿Cuál recomendaría usted que fuera el límite inferior de la primera clase? Organice la
d. información en una distribución de frecuencias. Comente sobre la forma de la distribución
e. de frecuencias. 26. La información siguiente ofrece las cantidades invertidas cada
semana en abarrotes en una muestra de familias.

$271 $363 $159 $76 $227 $337 $295 $319 $250


279 205 279 266 199 177 162 232 303
192 181 321 309 246 278 50 41 335
116 100 151 240 474 297 170 188 320
429 294 570 342 279 235 434 123 325

a. ¿Cuántas clases recomendaría?


b. ¿Qué intervalo de clase sugeriría?
c. ¿Cuál recomendaría que fuera el límite inferior de la primera clase?
d. Organice la información en una distribución de frecuencias.
27. El histograma siguiente muestra las calificaciones en el primer examen de estadística.

a. ¿Cuántos estudiantes presentaron el examen?


b. ¿Cuál es el intervalo de clase?
c. ¿Cuál es el punto medio para la primera clase?
d. ¿Cuántos estudiantes obtuvieron una calificación de menos de 70?
28. La gráfica siguiente resume el precio de venta de las casas vendidas el mes pasado en el
área de Sarasota, Florida.
48 Capítulo 2

a. ¿Cómo se llama la gráfica?


b. ¿Cuántas casas se vendieron durante el último mes?
c. ¿Cuál es el intervalo de clase?
d. ¿En qué cantidad se vendieron alrededor de 75% de las casas?
e. ¿En menos de qué cantidad de vendieron 175 de las casas?
29. Una cadena de tiendas de artículos deportivos especializada en esquiadores noveles, con
sede en Aspen, Colorado, planea realizar un estudio sobre cuánto gasta un esquiador
principiante en su compra inicial de equipo. Con base en estas cifras, quieren investigar la
posibilidad de ofrecer combinaciones, como un par de botas y un par de esquíes, para
inducir a los clientes a comprar más. Una muestra de los recibos de la caja registradora
reveló estas compras iniciales:
$140 $82 $265 $168 $90 $114 $172 $230 $142
86 125 235 212 171 149 156 162 118
139 149 132 105 162 126 216 195 127
161 135 172 220 229 129 87 128 126
175 127 149 126 121 118 172 126

a. Llegue a un intervalo de clase sugerido. Utilice cinco clases y deje que el límite inferior
de la primera clase sea $80.
b. ¿Cuál sería un mejor intervalo de clase?
c. Organice la información en una distribución de frecuencias utilizando un límite inferior
de $80.
d. Interprete sus descubrimientos.
30. Los números de accionistas para un grupo seleccionado de grandes empresas son (en
miles):
Número de accionistas Número de accionistas
Compañía (miles) Compañía (miles)

Southwest Airlines 144 Standard Oíl (Indiana) 173


General Public Utilities 177 Home Depot 195
Occidental Petroleum 266 Detroit Edison 220
Middle South Utilities 133 Eastman Kodak 251
Daimler Chrysler 209 Dow Chemical 137
Standard Oil of California 264 Pennsylvania Power 150
Bethlehem Steel 160 American Electric Power 262
Long Island Lighting 143 Ohio Edison 158
RCA 246 Transamerica Corporation 162
Greyhound Corporation 151 Columbia Gas System 165
Pacific Gas & Electric 239 Internationa ITelephone &
Niágara Mohawk Power 204 Telegraph 223
E. I. du Pont de Nemours 204 Union Electric 158
Westinghouse Electric 195 Virginia Electric and Power 162
Union Carbide 176 Public Service Electric & Gas 225
BankAmerica 175 Consumers Power 161
Northeast Utilities 200

Los números de accionistas se deben organizar en una distribución de frecuencias y en di-


versas gráficas elaboradas para ilustrar la distribución.
a. Utilizando siete clases y un límite inferior de 130, elabore una distribución de
frecuencias.
b. Represente la distribución como un polígono de frecuencias.
Descripción de datos: distribuciones de frecuencias y su presentación gráfica 49

c. Represente la distribución en un polígono de frecuencias acumuladas.


d. Según el polígono, tres de cada cuatro empresas (75%) tienen cuántos accionistas o
menos.
e. Escriba un breve análisis del número de accionistas con base en la distribución de fre-
cuencias y las gráficas.
31. Un estudio reciente demostró que un dueño de automóvil estadounidense promedio gasta
$2 950 al año en gastos operativos. A continuación, presentamos el desglose entre los di-
versos artículos en los que gasta. Elabore una gráfica apropiada para representar la infor-
mación y resuma sus descubrimientos en un breve informe.
Concepto Cantidad

Combustible Intereses del $603


préstamo automotriz 279
Reparaciones Seguro y 930
licencia Depreciación 646
492
Total $2 950

32. El Midland National Bank seleccionó una muestra de 40 cuentas de cheques de estudiantes.
A continuación, presentamos sus saldos a fin de mes.

$404 $74 $234 $149 $279 $215 $123 $55 $43 $321
87 234 68 489 57 185 141 758 72 863
703 125 350 440 37 252 27 521 302 127
968 712 503 489 327 608 358 425 303 203

a. Agrupe los datos en una distribución de frecuencias usando $100 como un intervalo de
clase y $0 como el punto de inicio.
b. Elabore un polígono de frecuencias acumuladas.
c. El banco considera que cualquier estudiante con un saldo final de $400 o más es un
"cliente preferido". Calcule el porcentaje de clientes preferidos.
d. El banco también considera un cargo por servicio al 10% de los saldos más bajos.
¿Cuál recomendaría como el punto de referencia entre aquéllos que tienen que pagar
un cargo por servicio y los que no deben pagarlo?
33. En 2002, los residentes del estado de Carolina del Sur ganaron un total de 69.5 mil millones
de dólares en ingreso bruto ajustado. Del total, 73% fue de sueldos y salarios; 11% de divi
dendos, intereses y ganancias sobre el capital; 8% de IRA y pensiones gravables; 3% de
pensiones de ingresos por negocios; 2% de seguridad social, y el 3% restante provino de
otras fuentes. Elabore una gráfica de pastel ilustrando la división del ingreso bruto ajustado.
Escriba un párrafo resumiendo la información.
34. Un estudio reciente de tecnologías para el hogar reportó el número de horas de uso de una
computadora personal por semana para una muestra de 60 personas. Del estudio se exclu
yeron a las personas que trabajan fuera de casa y usan la computadora como parte de su
trabajo.

9.3 5.3 6.3 8.8 6.5 0.6 5.2 6.6 9.3 4.3
6.3 2.1 2.7 0.4 3.7 3.3 1.1 2.7 6.7 6.5
4.3 9.7 7.7 5.2 1.7 8.5 4.2 5.5 5.1 5.6
5.4 4.8 2.1 10.1 1.3 5.6 2.4 2.4 4.7 1.7
2.0 6.7 1.1 6.7 2.2 2.6 9.8 6.4 4.9 5.2
4.5 9.3 7.9 4.6 4.3 4.5 9.2 8.5 6.0 8.1

a. Organice la información en una distribución de frecuencias. ¿Cuántas clases sugeriría?


¿Qué valor sugeriría para un intervalo de clase?
b. Elabore un histograma. Interprete el resultado.
35. Hace poco, Merrill Lynch llevó a cabo un estudio acerca del tamaño de las carteras de in-
versiones en línea (acciones, bonos, fondos mutuos y certificados de depósito) para una
muestra de clientes en el grupo de edad entre 40 y 50 años. A continuación se presenta el
valor de todas las inversiones en $000 para los 70 participantes en el estudio.
50 Capitulo 2

$669.9 S7.5 $77.2 $7.5 S125.7 $516.9 $219.9 $645.2

301.9 235.4 716.4 145.3 26.6 187.2 315.5 89.2


136.4 616.9 440.6 408.2 34.4 296.1 185.4 526.3
380.7 3.3 363.2 51.9 52.2 107.5 82.9 63.0
228.6 308.7 126.7 430.3 82.0 227.0 321.1 403.4
39.5 124.3 118.1 23.9 352.8 156.7 276.3 23.5
31.3 301.2 35.7 154.9 174.3 100.6 236.7 171.9
221.1 43.4 212.3 243.3 315.4 5.9 1002.2 171.7
295.7 437.0 87.8 302.1 268.1 899.5

a. Organice la información en una distribución de frecuencias. ¿Cuántas clases sugeriría?


¿Qué valor sugeriría para un intervalo de clase?
b. Elabore un histograma. Interprete el resultado.
36. A principios de 2003, 20% del público televisivo durante las horas de mayor audiencia veía
programas en ABC, 25% en CBS, 16% en Fox, 24% en NBC, 8% en Warner Brothers y 7%
en UPN. Puede encontrar la información más reciente sobre la audiencia televisiva en el si
guiente sitio web: http://tv.zap2it.com/news/ratings/. Elabore una gráfica de pastel o de ba
rras para ilustrar esta información. Escriba un párrafo resumiendo la información.
37. La American Heart Association reportó la siguiente división de sus gastos en porcentajes.
Elabore una gráfica de pastel ilustrando la información. Interprete los resultados.

Categoría Porcentaje

Investigación 32.3
Educación de salud pública 23.5
Servicio a la comunidad 12.6
Recaudación de fondos 12.1
Capacitación profesional y educativa 10.9
Administración y general 8.6

38. En su reporte anual de 2002, Schering-Plough Corporation reportó su ingreso, en millones


de dólares, durante los años de 1997 a 2002, como sigue. Elabore una gráfica de líneas que
ilustre los resultados y comente sus descubrimientos.

Año Ingreso (millones de $)

1997 1 444
1998 1 756
1999 2110
2000 2 423
2001 1 943
2002 1 974

39. Los ingresos anuales, por tipo de impuesto, para el estado de Georgia son los siguientes.
Elabore una tabla o gráfica apropiada y escriba un breve informe resumiendo la información.

Tipo de impuesto Cantidad (000)

Ventas $2 812 473


Ingreso (individual) 2 732 045
Licencias 185 198
Corporativo 525 015
Propiedad 22 647
Fallecimiento y regalos 37 326
Total $6 314 704
Descripción de datos: distribuciones de frecuencias y su presentación gráfica 51

40. A continuación, se presentan las importaciones anuales de socios canadienses selecciona-


dos para el año 2002. Elabore una tabla o gráfica apropiada y escriba un breve reporte re-
sumiendo la información.

Importaciones anuales
Socio (millones)
Japón $9 550

Reino Unido 4 556


Corea del Sur 2 441
China 1 182
Australia 618

41. La vida en las granjas ha cambiado desde principios del siglo xx. En los primeros años del si-
glo, las máquinas reemplazaron poco a poco la fuerza de los animales. Por ejemplo, en 1910,
las granjas estadounidenses utilizaban 24.2 millones de caballos y muías y sólo alrededor
de 1 000 tractores. Para 1960, se usaban 4.6 millones de tractores y sólo 3.2 millones de
caballos y muías. En 1920, había más de 6 millones de granjas en Estados Unidos; en la
actualidad, hay menos de 2 millones. A continuación, se encuentra el número de granjas, en
miles, para cada uno de los 50 estados. Escriba un párrafo resumiendo sus
descubrimientos.

47 1 8 46 76 26 4 3 39 45
4 21 80 63 100 65 91 29 7 15
7 52 87 39 106 25 55 2 3 8
14 38 59 33 76 71 37 51 1 24
35 86 185 13 7 43 36 20 79 9

42. Una de las golosinas más populares en Estados Unidos son los M&M, que produce Mars
Company. Al principio, todos los M&M eran de color café; más recientemente, se empezaron
a producir en colores rojo, verde, azul, naranja, café y amarillo. En http://global.mms.com/
us/about/products/milkchocolate.jsp puede leer sobre la historia del producto, encontrar
ideas para hacer pasteles con las golosinas, comprarlas en los colores de su escuela o su
equipo favorito, y aprender cuál es el porcentaje de cada color en las bolsas estándar. Hace
poco, una bolsa de 14 onzas de grageas M&M en su presentación regular tenía 444 dulces
con la siguiente división por color: 130 de color café, 98 amarillos, 96 rojos, 35 naranjas, 52
azules y 33 verdes. Elabore una gráfica que ilustre esta información y escriba un párrafo re
sumiendo los resultados.
43. La gráfica siguiente compara los precios de venta promedio del Ford Taurus y el Toyota
Camry entre 1994 y 2002. Escriba un breve informe resumiendo la información en la gráfi
ca. Asegúrese de incluir el precio de venta de ambos autos, el cambio en el precio de ven
ta y la dirección del cambio en el periodo de 8 años.

exercises.com
44. En el sitio web http://www.pickuptruck.com están disponibles las ventas de camiones men-
suales y anuales. Vaya a este sitio y busque en News para obtener la información más re-
ciente. Elabore una gráfica de pastel o de barras que muestre la información más reciente.
¿Cuál es el camión que se vende más? ¿Cuáles son los cuatro o cinco camiones que se
venden más? ¿Cuál es su participación en el mercado? Tal vez quiera agrupar los camiones
en una categoría llamada "Otros" para tener un mejor panorama de la participación en el
mercado. Comente sobre sus descubrimientos.
52 Capítulo 2

45. La gráfica siguiente muestra los salarios totales pagados por las compañías de software y
aeronaves en el estado de Washington entre 1994 y 2002. Escriba un breve reporte resu-
miendo esta información.

46. Una gráfica de pastel muestra la participación en el mercado de los productos de cola. La
"rebanada" para Pepsi-Cola tiene un ángulo central de 90 grados. ¿Cuál es su participación
en el mercado?

Ejercicios de la base de datos


47. Consulte la información Real State, que reporta datos sobre las casas vendidas en el área
de Denver, Colorado, durante el último año.
a. Seleccione un intervalo de clase apropiado y organice los precios de venta en una dis-
tribución de frecuencias.
1. ¿Alrededor de qué valores tienden a agruparse los datos?
2. ¿Cuál es el precio de venta más alto? ¿Cuál es el precio de venta más bajo?
b. Trace una distribución de frecuencias acumuladas con base en la distribución de frecuen-
cias elaborada en la parte (a).
1. ¿Cuántas casas se vendieron en menos de $200 000?
2. Calcule el porcentaje de casas que se vendieron en más de $200 000.
3. ¿Qué porcentaje de las casas se vendieron en menos de $125 000?
c. Escriba un reporte resumiendo los precios de venta de las casas.
48. Consulte los datos Baseball 2002, que proporcionan información sobre los 30 equipos de la
Liga Mayor de Béisbol para la temporada 2002.
a. Organice la información sobre los salarios de los equipos en una distribución de fre-
cuencias. Seleccione un intervalo de clase apropiado.
1. ¿Cuál es el salario de un equipo típico? ¿Cuál es el rango de los salarios?
2. Comente sobre la forma de la distribución. ¿Parece que los salarios de algunos de
los equipos no están en línea con los otros?
b. Dibuje una distribución de frecuencias acumuladas con base en la distribución de fre-
cuencias elaborada en la parte (b).
1. ¿Menos de qué cantidad paga 40% de los equipos en el salario total del equipo?
2. ¿Aproximadamente cuántos equipos tienen salarios totales de menos de $80 000 000?
3. ¿Menos de qué cantidad pagan en salario total los equipos cuya paga es más baja?
c. Organice la información sobre el tamaño de los diversos estadios en una distribución de
frecuencias.
1. ¿Cuál es el tamaño de un estadio típico? ¿En qué punto tienden a agruparse los ta-
maños de los estadios?
2. Comente sobre la forma de la distribución. ¿Parece que el tamaño de algunos de los
estadios no están en línea con los otros?
d. Organice en una distribución de frecuencias la información sobre el año en el que los
30 estadios de la Liga Mayor se construyeron. (También podría crear una nueva varia-
ble llamada EDAD restando del año actual el año en el que el estadio se construyó.)
1. ¿En qué año se construyó el estadio típico? ¿En qué punto tienden a agruparse es
tos años?
Descripción de datos: distribuciones de frecuencias y su presentación gráfica 53

2. Comente sobre la forma de la distribución. ¿Parece que la edad de algunos de los


estadios no están en línea con otros? Si es así, ¿de cuáles?
49. Consulte los datos Wage, que proporcionan información sobre los sueldos anuales de una
muestra de 100 trabajadores. También se incluyen las variables relacionadas con la indus-
tria, los años de educación y el género de cada trabajador. Elabore una gráfica de barras de
la variable ocupación. Escriba un breve reporte resumiendo sus descubrimientos.
50. Consulte los datos CÍA, que proporcionan información demográfica y económica sobre 46
países. Elabore una distribución de frecuencias para la variable PNB per cápita. Resuma sus
descubrimientos. ¿Qué forma tiene la distribución?

1. Los comandos de MegaStat para la distribución de fre-


cuencias en la página 29 son:
a. Abra Excel y desde el CD que se incluye, seleccio-
ne Go to the Data Sets y elija el formato de Excel;
vaya al Capítulo 2, y seleccione Table 2-1. Haga
clic en MegaStat, Frecuency Distribution y selec
cione Quantitative.
b. En el cuadro de diálogo, escriba el rango de A1:A81,
seleccione Equal Width intervals, utilice 3 000 co-
mo el ancho de intervalo, 15 000 como el límite in
ferior del primer intervalo, seleccione Histogram y
haga clic en OK.
2. Los comandos de Excel para el histograma en la pági
na 34 son:
a. En la celda A1 indique que la columna de datos es
el precio de venta y en B1 que es la frecuencia. En
las columnas A2 a A8 inserte los puntos medios de
los precios de venta en $000. En B2 a B8 registre
las frecuencias de clase.
b. Con el puntera del ratón en A1, haga clic y arrastre
para destacar las celdas A1:B8.
c. En la Barra de herramientas, seleccione Chart
Wizard, en Chart Type seleccione Column. en
Chart subtype elija las barras verticales en la es
quina superior izquierda y por último haga clic en
Next en la esquina inferior derecha.
d. En la parte de arriba, seleccione el separador Se clic en una de las columnas. Seleccione Formal Data
ries. Debajo del cuadro de lista, Price está destaca Series. En la parte superior, seleccione el separador
do. Seleccione Remove. (No queremos que Price Options. En el cuadro de texto Gap width, haga clic en la
sea parte de los valores.) En la parte de abajo, en el flecha hacia abajo hasta que el ancho de la separación
cuadro de texto con las etiquetas de los ejes Cate- sea 0 y haga clic en OK. 3. Los comandos de Excel para
gory (X), haga clic en el icono a la derecha. Colo la gráfica de pastel en la página 45 son:
que el cursor sobre la celda A2, haga clic y arrastre a. Establezca la celda A1 como la celda activa y escri
hasta la celda A8. Aparecerá un cuadro en movi ba las palabras Uso de ventas. En las celdas de la A2
miento alrededor de las celdas A2 a A8. Toque la te a la A5, escriba Premios, Educación, Bonos y Gasto.
cla Enter. Esto identifica la columna de Prices b. Establezca B1 como la celda activa y escriba Can
como las etiquetas del eje X. Haga clic en Next. tidad (millones de $) y, en las celdas de la B2 a la
e. En la parte superior del cuadro de diálogo, haga B5, capture la información.
clic en Titles. Haga elle en el cuadro Chart title y c. En la Barra de herramientas seleccione ChartWi-
escriba Precio de venta de los 80 vehículos vendi zar. Elija Pie como el tipo de gráfica, seleccione el
dos en Whitner Autoplex. Pase al cuadro de ejes tipo de gráfica en la esquina superior izquierda y
Category (X) y escriba Frecuencia. En la parte su haga clic en Next.
perior, seleccione Legend y quite la marca del cua d. Para Data Range. escriba A1:B5, indique que los
dro Show legend. Haga clic en Finish. datos están en Columns y haga clic en Next.
f. Para hacer la tabla más grande, haga clic en el cen e. Haga clic en el área de título de la gráfica y escriba
Gastos de la Lotería de Ohio en 2002. Haga clic en
tro de la línea superior y arrástrela a la fila 1. Ase
Finish.
gúrese de que los soportes aparezcan en el cuadro
de la tabla. Con el botón derecho del ratón, haga
54 Capítulo 2

Capítulo 2 Respuestas a las autoevaluaciones

2-1 a. Los datos en bruto o sin agrupar. c. El menor volumen anual de ventas de importaciones
b. por parte de un proveedor es de aproximadamente $2
millones y el mayor de alrededor de $17 millones. La
frecuencia más alta es entre $8 y $11 millones. 2-5 a.
Una distribución de frecuencia.
b.

c. Frecuencias de clase.
d. La mayor concentración de comisiones es de
$1 500 a $1 600. La comisión más baja es de apro-
ximadamente $1 400 y la más alta es de alrededor
de $1 800.
6 7
2-2 a. 2 = 64 < 73 < 128 = 2 . De modo que se recomien-
dan 7 clases.
b. El ancho de intervalo debe ser por lo menos (488 -
320)/7 = 24. Los intervalos de clase de 25 o 30 pies
son razonables.
c. Si utilizamos un intervalo de clase de 25 pies y em-
pezamos con un límite inferior de 300 pies, serían
necesarias ocho clases. Un intervalo de clase de 30
pies empezando con 300 pies también es razona
ble. Esta alternativa sólo requiere de siete clases.
2-3 a. 23.
b. 28.75%, calculado así: (23/80) x 100,
c. 7.5%, calculado así: (6/80) x 100.
2-4 a.
c. Alrededor de siete empleados ganan $11.00 o me-
nos. Aproximadamente la mitad de los empleados
gana $11.25 o más. Alrededor de cuatro emplea-
dos gana $10.25 o menos.

Los trazos son: (3.5, 12), (6.5, 26), (9.5, 40), (12.5, 20)
y (15.5, 2).
Descripción de datos:
medidas de ubicación

Los pesos (en libras) de una muestra de cinco cajas que se van a enviar a Texas por
UPS son: 12, 6, 7, 3 y 10. Calcule la desviación estándar. (Vea la Meta 4 y el Ejercicio
72.)
56 Capítulo 3

Introducción
En el Capítulo 2 empezó nuestro estudio de la estadística descriptiva. Para transformar una
masa de datos en bruto en una forma significativa, la organizamos en una distribución de
frecuencias y la representamos de manera gráfica en un histograma o un polígono de fre-
cuencias. También revisamos otras técnicas gráficas como gráficas de líneas y de pastel.
Este capítulo estudia dos formas numéricas de descripción de datos, las medidas de
ubicación y las medidas de dispersión. Las medidas de ubicación se conocen a menudo
como promedios. El propósito de una medida de ubicación es señalar el centro de un con-
junto de valores.
Usted está familiarizado con el concepto de
un promedio. Se trata de una medida de ubica-
ción que muestra el valor central de la informa-
ción. Los promedios aparecen todos los días en
televisión, periódicos y en revistas de noticias. És-
tos son algunos ejemplos:

• En Estados Unidos, la casa promedio cambia


de dueños cada 11.8 años.
• La semana pasada, en Carolina del Sur, el pre-
cio promedio de un galón de gasolina era de
$1.40, según un estudio realizado por la Ame
rican Automobile Association.
• El costo promedio por manejar un automóvil privado es de 55.8 centavos de dólar por
milla en Los Ángeles, 49.8 centavos de dólar por milla en Boston, 49.0 centavos de dó
lar por milla en Filadelfia.
• Un estadounidense recibe un promedio de 568 piezas de correo al año.
• El año pasado, el salario inicial promedio para un estudiante graduado de la facultad de
administración era de $36 357. Para un estudiante graduado de Artes Liberales era de
$31 599.
• En Estados Unidos hay 26.4 millones de golfistas mayores de 12 años. Aproximadamen-
te 6.1 millones son golfistas ávidos; es decir, juegan un promedio de 25 rondas al año.
Información adicional sobre golfistas y golf: el costo medio de una ronda de golf en un
campo municipal estadounidense con 18 hoyos es de $30. El golfista típico actual es
hombre, tiene 40 años, tiene un ingreso familiar de $68 209 y juega 21.3 rondas al año.
• En Chicago, la temperatura alta media es de 84 grados Fahrenheit en julio y 31 en ene-
ro. La cantidad media de precipitación es de 3.80 pulgadas en julio y 1.90 pulgadas en
enero.

Si consideramos sólo las medidas de ubicación en un conjunto de datos o si compara-


mos varios conjuntos de datos utilizando valores centrales, es probable que lleguemos a una
conclusión errónea. Además de las medidas de ubicación, debemos considerar la disper-
sión (que a menudo se conoce como variación o extensión) en los datos. Para ilustrar, su-
pongamos que el ingreso promedio anual de los ejecutivos de las compañías relacionadas
con Internet es de $80 000, y el ingreso promedio para los ejecutivos de empresas farma-
céuticas es también de $80 000. Si observáramos sólo los ingresos promedio, podríamos
llegar a la conclusión errónea de que ambas distribuciones son idénticas o casi idénticas.
Una revisión de los rangos salariales indica que esta conclusión no es correcta. Los sala-
rios de los ejecutivos en las empresas de Internet varían entre $70 000 y $90 000, pero los
sueldos para los ejecutivos de mercadotecnia en las compañías farmacéuticas varía de
$40 000 a $120 000. De ahí que lleguemos a la conclusión de que, aunque los salarios pro-
medio son los mismos en las dos industrias, hay mucha más extensión o dispersión en los
salarios para los ejecutivos farmacéuticos. Para evaluar la dispersión vamos a considerar
el rango, la desviación media, la varianza y la desviación estándar.
Empezamos por analizar las medidas de ubicación. No hay una sola medida de ubica-
ción; en realidad, existen varias. Consideraremos cinco de ellas: la media aritmética, la me-
dia ponderada, la mediana, la moda y la media geométrica. La media aritmética es la que
Descripción de datos: medidas de ubicación 57

se emplea y se reporta con mayor frecuencia. Estudiamos la media así como un parámetro
de población y una estadística de las muestras.

La media de la población
Muchos estudios comprenden todos los valores de una población. Por ejemplo, la carrete-
ra interestatal 75, en su paso por el estado de Kentucky tiene 39 salidas. La distancia me-
dia entre las salidas en este estado es de 4.76 millas. Esto es un ejemplo de un parámetro
de la población porque estudiamos la distancia entre todas las salidas. Hay 12 asociados
de ventas empleados en la tienda de descuentos de Carpets by Otto en Reynolds Road. La
cantidad media de comisiones que ganaron el mes pasado fue de $1 345. Éste es un valor
de la población porque consideramos la comisión de todos los asociados de ventas. Otros
ejemplos de una media de la población serían: el precio de cierre medio de las acciones de
Johnson and Johnson para los últimos cinco días es $48.75; la tasa anual media de recu-
peración de Berger Funds durante los últimos 10 años es de 8.67%, y el número medio de
horas extra que trabajaron por semana los seis soldadores en el departamento de soldadura
de Butts Welding, Inc., es de 6.45 horas.
Para la información en bruto, es decir, los datos que no se han agrupado en una distribu-
ción de frecuencia, la media de la población es la suma de todos los valores en la población
dividida entre el número de valores en la población. Para calcular la media de la población,
utilizamos la fórmula siguiente.

En lugar de escribir con palabras todas las indicaciones para calcular la media de la pobla-
ción (o cualquier otra medida), es más conveniente utilizar los símbolos abreviados de las
matemáticas. La media de la población utilizando símbolos matemáticos es:

donde:
representa la media de la población. Es la letra griega "mu" minúscula.
es el número de valores en la población.
representa cualquier valor particular.
es la letra griega "sigma" mayúscula e indica la operación de suma.
es la suma de los valores Xen la población.
Cualquier característica mensurable de la población se conoce como parámetro. La me-
dia de una población es un parámetro.

Característica de una población.

En Estados Unidos hay 12 compañías fabricantes de automóviles. A continuación presen-


tamos el número de patentes que otorgó el gobierno de Estados Unidos a cada compañía
en un año reciente.
58 Capítulo 3

¿Esta información es una muestra o una población? ¿Cuál es el número de la media arit-
mética de patentes otorgadas?

Es una población porque consideramos todas las compañías fabricantes de automóviles


que obtienen patentes. Sumamos el número de patentes para cada una de las 12 compa-
ñías. El número total de patentes para las 12 compañías es 2 340. Para encontrar la media
aritmética, dividimos este total entre 12. De modo que la media aritmética es 195, que se
calcula así: 2 340/12. A partir de la fórmula (3-1):

¿Cómo interpretamos el valor de 195? El número típico de patentes recibidas por una com-
pañía fabricante de automóviles es 195. Debido a que consideramos todas las compañías
que reciben patentes, este valor es un parámetro poblacional.

Media de una muestra


Como explicamos en el Capítulo 1, a menudo seleccionamos una muestra de la población
para saber algo acerca de una característica específica de la población. El departamento
de aseguramiento de la calidad, por ejemplo, necesita tener la certeza de que los rodamien-
tos de balas que se producen tienen un diámetro exterior aceptable. Por tanto, se seleccio-
na una muestra de cinco rodamientos y se calcula el diámetro externo de los cinco para
calcular el diámetro medio de todos los rodamientos.
Mediare una muestra de Para la información en bruto, es decir, para los datos no agrupados, la media es la su-
datos no agrupados ma de todos los valores de la muestra divididos entre el número total de valores de la mues-
tra. Para calcular la media de una muestra:

La media de una muestra y la media de una población se calculan de la misma manera,


pero la abreviatura que se utiliza es diferente. La fórmula para la media de una muestra es:

donde:

La media de una muestra o cualquiera otra medida basada en los datos de una mues-
tra se conoce como estadístico. Si el diámetro externo medio de una muestra de cinco ro-
damientos de bala es 0.625 pulgadas, se trata del ejemplo de un estadístico.

Característica de una muestra.

SunCom estudia el número de minutos que utilizan los clientes con un plan tarifario de te-
léfono celular en particular. Una muestra aleatoria de 12 clientes mostró el siguiente núme-
ro de minutos utilizados el mes pasado.
Descripción de datos: medidas de ubicación 59

¿Cuál es el valor de la media aritmética en minutos utilizados?

Usando la fórmula (3-2), la media de la muestra es:

El número medio de minutos usados el mes pasado por la muestra de teléfonos celulares
es de 97.5.

Propiedades de la media aritmética


La media aritmética es una medida de ubicación que se emplea con frecuencia y tiene va-
rias propiedades importantes:

1. Cada conjunto de datos de intervalo o de nivel de razón tiene una media. Recor-
demos que en el Capítulo 1 dijimos que los datos de nivel de razón incluyen infor-
mación como edades, ingresos y pesos, y que la distancia entre los números es
constante.
2. Todos los valores se incluyen al calcular la media.
3. Un conjunto de datos sólo tiene una media. La media es única. Más adelante en
este capítulo, descubriremos un promedio que podría aparecer dos veces o más
en un conjunto de datos.
4. La suma de las desviaciones de cada valor de la media siempre será cero. Expre-
sado simbólicamente:

Como ejemplo, la media de 3, 8 y 4 es 5. Entonces:

La media es un punto de Por tanto, podemos considerar que la media es un punto de equilibrio para un conjunto
equilibrio de datos. Para ilustrar, tomemos una tabla con los números 1, 2-, 3,..., n separados por espa-
cios iguales. Supongamos que tres barras del mismo peso se colocan sobre la tabla en los
números 3, 4 y 8, y que el punto de equilibrio se establece en 5, la media de los tres números.
¡Descubriríamos que la tabla está perfectamente equilibrada! Las desviaciones debajo de la
media (-3) son iguales a las desviaciones sobre la media (+3). Mostrado en un esquema:
60 Capítulo 3

La media se ve afectada en La media tiene un punto débil. Recuerde que para calcular la media utilizamos el valor
forma notable por valores muy de cada elemento en una muestra o población. Si uno o dos de estos valores son muy altos
altos o muy bajos. o muy bajos comparados con la mayor parte de los datos, es probable que la media no sea
un promedio apropiado para representar la información. Por ejemplo, supongamos que los
ingresos anuales de un pequeño grupo de accionistas de Merrill Lynch son $62 900, $61 600,
$62 500, $60 800 y $1 200 000. El ingreso medio es $289 560. Como es obvio, no es repre-
sentativo de este grupo, porque todos los corredores menos uno tienen un ingreso en el rango
de $60 000 a $63 000. Uno de los ingresos ($1 200 000) afecta la media en forma notable.

Autoevaluación 3-1 1 Los ingresos anuales de una muestra de empleados de la gerencia media de Westing-
house son: $62 900, $69 100, $58 300 y $76 800.
(a) Dé la fórmula de la media de la muestra.
(b) Encuentre la media de la muestra.
(c) ¿La media que calculó en (b) es un estadístico o un parámetro? ¿Por qué?
(d) ¿Cuál es su mejor cálculo de la media de la población?
2. Todos los estudiantes en Ciencias avanzadas de la Computación 411 son una población:
Sus calificaciones en los cursos son 92, 96, 61, 86, 79 y 84.
(a) Dé la fórmula de la media de la población.
(b) Calcule la calificación media.
(c) ¿La media que calculó en (b) es un estadístico o un parámetro? ¿Por qué?

Ejercicios
Las respuestas a los ejercicios con números nones se encuentran al final del libro.

1. Calcule la media de los siguientes valores poblacionales: 6, 3, 5, 7, 6.


2. Calcule la medía de los siguientes valores poblacionales: 7, 5, 7, 3, 7, 4.
3. a. Calcule la media de los siguientes valores de la muestra: 5, 9, 4, 10.
b. Demuestre que
4. a. Calcule la media de los siguientes valores de la muestra: 1.3, 7.0, 3.6, 4.1, 5.0.
b. Demuestre que
5. Calcule la media de los siguientes valores de la muestra: 16.25, 12.91, 14.58.
6. Calcule el salario por hora medio pagado a los carpinteros que recibieron los sueldos si
guientes: $15.40, $20.10, $18.75, $22.76, $30.67, $18.00.

Para los ejercicios 7 a 10, (a) calcule la media aritmética y (b) indique si es un estadístico o un
parámetro.

7. En Midtown Ford trabajan 10 vendedores. Los números de autos nuevos vendidos el mes
pasado por cada uno de los vendedores son: 15, 23, 4, 19, 18, 10, 10, 8, 28, 19.
8. El departamento de contabilidad en una compañía de ventas por correo contó las siguien
tes cantidades de llamadas que entraron por día al número gratuito de la compañía duran
te los primeros 7 días de mayo de 2003: 14, 24, 19, 31, 36, 26, 17.
9. The Cambridge Power and Light Company seleccionó una muestra aleatoria de 20 clientes
residenciales. A continuación, se presentan las cantidades, redondeadas a la unidad más
cercana, que se cobraron a los clientes por el servicio de luz el mes pasado:

10. El director de relaciones humanas de Ford inició un estudio de las horas extra en el depar-
tamento de inspección. Una muestra de 15 empleados demostró que trabajaron las siguien-
tes cantidades de horas extra el mes pasado.
Descripción de datos: medidas de ubicación 61

Media ponderada
La media ponderada es un caso especial de la media aritmética. Ocurre cuando hay varias
observaciones del mismo valor. Para explicar lo anterior, supongamos que una sucursal de
Wendy's Restaurant vende refrescos tamaño mediano, grande y extragrande en $0.90,
$1.25 y $1.50, respectivamente. De los 10 últimos refrescos, 3 eran medianos, 4 eran gran-
des y 3 eran extragrandes. Para calcular el precio medio de los últimos 10 refrescos vendi-
dos, podríamos utilizar la fórmula 3-2.

El precio de venta medio de los últimos 10 refrescos es $1.22.


Una forma más sencilla de calcular el precio de venta medio consiste en determinar la
media ponderada. Es decir, multiplicamos cada observación por el número de veces que
sucede. Vamos a referirnos a la media ponderada como que se lee barra subíndice

En este caso, las ponderaciones son conteos de la frecuencia, Sin embargo, cualquier
medida de importancia se podría utilizar como ponderación. En general, la media pondera-
da es un conjunto de números designados con las ponderaciones corres-
pondientes se calcula así:

Esto se puede abreviar como:

The Carter Construction Company paga a sus empleados por ñora $16.50, $17.50 o $18.50
por hora. Hay 26 empleados que trabajan por hora, a 14 de ellos se les paga la tarifa de
$16.50, a 10 la de $17.50 y a 2 la de $18.50. ¿Cuál es la tarifa media por hora que se le
paga a los 26 empleados?

Para calcular la tarifa media por hora, multiplicamos cada una de las tarifas por hora por el
número de empleados que ganan esa tarifa. A partir de la fórmula (3-3), la tarifa media por
hora es

La media ponderada para el salario por hora se redondea a $17.04.

Autoevaluación 3-2 Springers vendió 95 trajes para caballero Antonelli a un precio regular de $400. Para la venta
de primavera, los trajes bajaron de precio a $200 y se vendieron 126. En la liquidación final,
el precio bajó a $100 y se vendieron los 79 trajes restantes.
(a) ¿Cuál es el precio medio ponderado de un traje Antonelli?
(b) Springers pagó $200 por cada uno de los 300 trajes. Comente sobre la ganancia de la
tienda por cada traje si un vendedor recibe una comisión de $25 por cada traje vendido.
62 Capítulo 3

Ejercicios
11. En junio, un inversionista compró 300 acciones de Oracle (una compañía de tecnología de
la información) en $20 cada una. En agosto compró 400 acciones más a $25 cada una. En
noviembre volvió a comprar 400 acciones, pero el precio bajó a $23 por acción. ¿Cuál es el
precio medio ponderado por acción?
12. The Bookstall Inc., es una librería especializada que se concentra en libros usados que se ven
den a través de Internet. Los libros de pasta suave cuestan $1.00 cada uno y los de pasta du-
ra, $3.50. De los 50 libros que se vendieron el pasado martes por la mañana, 40 eran de pasta
suave y el resto de pasta dura. ¿Cuál fue el precio de venta medio ponderado de un libro?
13. The Loris Healthcare System tiene 200 empleados en el área de enfermería. De ellos, 50
son auxiliares de enfermería, 50 son enfermeras practicantes y 100 son enfermeras regis-
tradas. Las auxiliares de enfermería reciben $8 por hora, las practicantes $15 la hora y las
registradas $24 por hora. ¿Cuál es el salario medio ponderado por hora?
14. Andrews and Associates se especializa en leyes empresariales. Por investigar un caso co
bra $100 por hora, $75 por hora en el caso de las asesorías y $200 la hora al redactar un
escrito.. La semana pasada, uno de los socios pasó 10 horas dando asesoría a un cliente,
10 horas investigando el caso y 20 horas redactando el escrito. ¿Cuál fue el cargo medio
ponderado por hora por sus servicios legales?

Mediana
Como ya señalamos, en el caso de la información que contiene uno o dos valores muy al-
tos o muy pequeños, la media aritmética puede no ser representativa. El centro de esa in-
formación se describe mejor con una medida de ubicación llamada mediana.
Para ilustrar la necesidad de una medida de ubicación que no sea la media aritmética, su-
pongamos que usted quiere comprar un condominio en Palm Aire. Su agente de bienes raí-
ces dice que el precio promedio actual de las unidades es de $110 000. ¿Aun así quiere
comprarlo? Si usted calculó el precio de compra máximo en $75 000, tal vez considere que
están fuera de su rango de precios. Sin embargo, al revisar los precios individuales de los con-
dominios podría cambiar de parecer. Éstos son $60 000, $65 000, $70 000, $80 000 y un pent-
house de superlujo cuesta $275 000. El precio medio aritmético es $110 000, como le informó
el agente de bienes raíces, pero uno de los precios ($275 000) aumenta la media aritmética
en gran medida, provocando que éste sea un promedio no representativo. Al parecer, un pre-
cio de aproximadamente $70 000 es un promedio más típico o representativo y, de hecho, lo
es. En casos como éste, la mediana ofrece una medida de ubicación más válida.

MEDIANA. El punto medio de los valores después de que se ordenan desde el más
bajo hasta el más alto o desde el más alto hasta el más bajo.

Los datos deben estar por lo menos en el nivel de medición ordinal. El precio mediano de
las unidades disponibles es $70 000. Para determinar lo anterior, ordenamos los precios des-
de el más bajo ($60 000) hasta el más alto ($275 000) y seleccionamos el valor medio ($70 000).

La mediana no se ve afectada Observe que hay la misma cantidad de precios debajo de la mediana de $70 000 que por
por los valores extremos. encima de ella. Hay tantos valores debajo de la mediana como encima de ésta. Por tanto, la
mediana no se ve muy afectada por los precios muy bajos o muy altos. Aun cuando el precio
más alto sea $90 000, $300 000 o incluso un millón, el precio mediano seguiría siendo $70 000.
De modo similar, si el precio más bajo fuera $20 000 o $50 000, el mediano sería $70 000.
Descripción de datos: medidas de ubicación 63

En el ejemplo anterior, hay un número non de observaciones (cinco). ¿Cómo se deter-


mina la mediana para un número par de observaciones? Como antes, las observaciones se
colocan en orden. Luego, para obtener un valor único, calculamos la media de las dos ob-
servaciones intermedias. Así que, para un número par de observaciones, la mediana quizá
no sea alguno de los valores dados.

A continuación, mostramos las ganancias anuales totales de cinco años de los seis fondos
mutualistas accionarios con mejor desempeño que enfatizan un crecimiento agresivo. ¿Cuál
es la ganancia anual mediana?

Observe que el número de ganancias es par(6). Como


ya vimos, primero se ordenan las ganancias de la más
baja a la más alta. Luego, se identifican las dos ganan-
cias intermedias. Ordenadas de la más baja a la más
alta:

Observe que la mediana no es uno de los valores. Asimismo, la mitad de las ganancias está
por debajo de la mediana y la otra mitad está por encima de ella.

Las principales propiedades de la mediana son:


1. La mediana es única; es decir, al igual que la media, hay sólo una mediana para
un conjunto de datos.
2. No se ve afectada por valores muy altos o muy bajos y, por tanto, es una medida
de ubicación muy útil cuando no se tienen valores de ese tipo.
La mediana se puede 3. Se puede calcular para datos de nivel de razón, de intervalo o de nivel ordinal. Re-
determinar para todos los cuerde que en el Capítulo 1 dijimos que los datos de nivel ordinal se pueden clasi-
niveles de datos, excepto el ficar de bajos a altos, como las respuestas "excelente", "muy bien", "bien",
nominal. "aceptable" o "mal" a una pregunta en una encuesta de mercadotecnia. Para utili-
zar un ejemplo sencillo, supongamos que cinco personas califican una nueva ba-
rra de chocolate. Una de ellas piensa que es excelente, una la calificó como muy
buena, una dijo que es buena, una dijo que es aceptable y una más la consideró
mala. La respuesta mediana es "buena". La mitad de las respuestas están por en
cima de "buena", y la otra mitad por debajo.

Moda
La moda es otra medida de ubicación.

MODA. El valor de la observación que aparece con mayor frecuencia.


64 Capítulo 3

La moda es muy útil sobre todo al describir niveles de medición nominales y ordinales.
Como un ejemplo de este uso de datos de nivel nominal, una compañía creó cinco aceites
para baño. La Gráfica 3-1 muestra los resultados de una encuesta de mercadotecnia dise-
ñada para encontrar cuál de los aceites de baño prefieren los consumidores. La mayoría de
los entrevistados prefirió Lamoure, como lo muestra la barra más alta. Por tanto, Lamoure
es la moda.

GRÁFICA 3-1 Número de entrevistados a favor de diversos aceites para baño

A continuación se muestran los salarios anuales de los gerentes de control de calidad total.
¿Cuál es el salario modal anual?

Una lectura atenta de los salarios revela que el salario anual de $60 000 aparece con ma-
yor frecuencia (seis veces) que cualquier otro. Por tanto, la moda es $60 000.

En resumen, podemos determinar la moda para todos los niveles de datos: nominal, or-
dinal, de intervalo y de razón. La moda también tiene la ventaja de que no se ve afectada
por valores muy altos ni muy bajos.
Desventajas de la moda Sin embargo, la moda tiene algunas desventajas que hacen que se utilice con menos
frecuencia que la media o la mediana. Para muchos conjuntos de datos, no hay moda por-
que ningún valor aparece más de una vez. Por ejemplo, no hay moda para este conjunto
de datos de precios: $19, $21, $23, $20 y $18. No obstante, como todos los valores son di-
ferentes, se podría decir que cada uno de ellos es la moda. Por el contrario, para algunos
conjuntos de datos hay más de una moda. Supongamos que las edades de los individuos
en un club de inversionistas son 22, 26, 27, 27, 31, 35 y 35. Las edades de 27 y 35 son mo-
da. Por tanto, a este grupo de edades se le llama bimodal (que tiene dos modas). Podría-
mos cuestionar el uso de dos modas para representar la ubicación de este conjunto de
datos sobre la edad
Descripción de datos: medidas de ubicación 65

Autoevaluación 3-3 1. Una muestra de personas solteras en Towson, Texas, que reciben pagos del Seguro So
cial reveló estas prestaciones mensuales: $426, $299, $290, $687, $480, $439 y $565.
(a) ¿Cuál es la prestación mensual mediana?
(b) ¿Cuántas observaciones se encuentran debajo de la mediana? ¿Y por encima de
ésta?
2. Los números de interrupciones del trabajo en la industria automotriz en meses seleccio
nados son 6, 0, 10, 14, 8 y 0.
(a) ¿Cuál es el número mediano de interrupciones?
(b) ¿Cuántas observaciones se encuentran por debajo de la mediana? ¿Y por encima
de ésta?
(c) ¿Cuál es el número modal de interrupciones en el trabajo?

Ejercicios
15. ¿Qué valor nodal reportaría para un conjunto de observaciones si encontrara un total de:
a. 10 observaciones y ningún valor igual?
b. 6 observaciones y todos los valores iguales?
c. 6 observaciones y los valores son 1, 2, 3, 3, 4 y 4?

Para los ejercicios 16 a 19, (a) determine la mediana y (b) la moda.

16. Los siguientes son los números de cambios de aceite durante los últimos 7 días en el taller
mecánico Jiffy Lube que se localiza en la esquina de la calle Elm y la avenida Pennsylvania.

17. Los siguientes son los cambios porcentuales en el ingreso neto entre 2002 y 2003 para una
muestra de 12 compañías constructoras en Denver.

18. Las siguientes son las edades de 10 personas que se encuentran en la tienda de video que
está en Southwyck Shopping Malí a las 10 A.M.

19. A continuación, presentamos una lista de varios indicadores del crecimiento económico a
largo plazo en Estados Unidos. Las proyecciones son hasta el año 2008.

a. ¿Cuál es el cambio porcentual mediano?


b. ¿Cuál es el cambio porcentual modal?
20. A continuación, presentamos una lista de las ventas totales de automóviles (en millones) en
Estados Unidos durante los últimos 14 años. Durante este periodo, ¿cuál fue el número me-
diano de automóviles vendidos? ¿Cuál fue la moda?
66 Capítulo 3

Solución con uso de software


Podemos usar un paquete de software de estadística para calcular cualquier medida de ubi-
cación.

La Tabla 2-1 en la página 25 muestra los precios de los 80 vehículos vendidos el mes pasado
en Whitner Autoplex en Raytown, Missouri. Determine el precio de venta medio y mediano.

El precio de venta medio y mediano se reportan en la siguiente hoja de Excel. (Recuerde:


las instrucciones para crear la hoja aparecen en la sección Comandos de software al final
de capítulo.) Hay 80 vehículos en estudio, de modo que las operaciones con una calculado-
ra serían tediosas y propensas a errores.

El precio de venta medio es $23 218 y el mediano es $22 831. Estos dos valores se dife-
rencian por menos de $400. De modo que cualquiera de los dos es razonable. También vemos
en la hoja de Excel que se vendieron 80 vehículos y que su precio total fue de $1 857 453. Más
adelante describiremos el significado de error estándar, desviación estándar y otras medidas.
¿A qué conclusión llegamos? El vehículo típico se vendió en aproximadamente $23 000.
La señora Ball de Auto USA podría utilizar este valor para proyectar sus ganancias. Por ejem-
plo, si el distribuidor pudiera aumentar el número de vehículos vendidos en un mes de 80 a
90, esto daría como resultado alrededor de $230 000 adicionales en las ganancias, que se
calculan así: 10 x $23 000.

Las posiciones relativas


de la media, la mediana y la moda
Para una distribución simétrica, Consulte el histograma en la Gráfica 3-2. Se trata de una distribución simétrica, que tam-
en forma de campana, la bién tiene forma de campana. Esta distribución tiene la misma forma hacia cualquier lado
media, la mediana y la moda del centro. Si el polígono se doblara a la mitad, ambas partes serían idénticas. Para esta
son iguales. distribución simétrica, la moda, la mediana y la media se localizan en el centro y siempre
son iguales. Todas son iguales a 20 años en la Gráfica 3-2. Debemos señalar que hay dis-
tribuciones simétricas que no tienen forma de campana.
El número de años que corresponde a los puntos más altos en la curva es la moda (20
años). Como la distribución es simétrica, la mediana corresponde al punto en el que se corta
a la mitad (20 años). El número total de frecuencias que representan muchos años es
Descripción de datos: medidas de ubicación 67

GRÁFICA 3-2 Una distribución simétrica

menor que el número total que representa menos años, dando como resultado una media
aritmética de 20 años. Como es lógico, cualquiera de las tres medidas sería apropiada para
representar el centro de la distribución.
Una distribución sesgada no es Si una distribución es no simétrica, o sesgada, cambia la relación entre las tres medi-
simétrica. das. En una distribución con sesgo positivo, la media aritmética es la mayor de las tres
medidas. ¿Por qué? Porque la media tiene la influencia de pocos valores muy altos en ma-
yor grado que la mediana o la moda. Por lo general, la mediana es la medida siguiente en
una distribución de la frecuencia con sesgo positivo. La moda es la menor de las tres.
Si la distribución es muy sesgada, como los ingresos semanales en la Gráfica 3-3, la
media no sería una medida adecuada. La mediana y la moda serían más representativas.

GRÁFICA 3-3 Una distribución con sesgo positivo

Por el contrario, si una distribución tiene un sesgo negativo, la media es la menor de


las tres medidas. Desde luego, la media tiene la influencia de pocas observaciones muy ba-
jas. La mediana es mayor que la media aritmética y el valor modal es el mayor. Una vez
más, si la distribución es muy sesgada, como aquélla de las fuerzas de tensión que se
muestran en la Gráfica 3-4, no debemos usar la media para representar la información.
68 Capitulo 3

GRÁFICA 3-4 Distribución con sesgo negativo

Autoevaluación 3-4 Las ventas semanales de una muestra de tiendas de aparatos electrónicos Hi-Tec se organi-
zaron en una distribución de frecuencia. La media de las ventas semanales se calculó en
$105 900, la mediana en $105 000 y la moda en $104 500.
(a) Ordene las ventas en forma de un polígono de frecuencias. Observe la ubicación de la me
dia, la mediana y la moda en el eje X.
(b) ¿La distribución es simétrica, con sesgo positivo o con sesgo negativo? Explique su res
puesta.

Ejercicios
21. La tasa de desempleo en el estado de Alaska durante los 12 meses de 2002 se muestra en
la tabla siguiente:

a. ¿Cuál es la media aritmética de las tasas de desempleo en Alaska?


b. Encuentre la mediana y la moda para las tasas de desempleo.
c. Calcule la medía aritmética y la mediana sólo para los meses de invierno (diciembre a
marzo). ¿Son muy diferentes?
22. Big Orange Trucking diseña un sistema de información para utilizarlo en las comunicaciones
"en cabina", el cual debe resumir los datos de ocho sitios en una región para describir las
condiciones típicas. Calcule una medida apropiada de ubicación central para cada una de
las tres variables que se muestran en la siguiente tabla:

Ciudad Dirección del viento Temperatura Pavimento

Anniston, AL Oeste 89 Seco


Atlanta, GA Noroeste 86 Húmedo
Augusta, GA Suroeste 92 Húmedo
Birmingham, AL Sur 91 Seco
Jackson, MS Suroeste 92 Seco
Merídian, MS Sur 92 Pista
Monroe, LA Suroeste 93 Húmedo
Tuscaloosa, AL Suroeste 93 Pista
Descripción de datos: medidas de ubicación 69

Media geométrica
La media geométrica nunca es La media geométrica es útil para encontrar el promedio de porcentajes, razones, índices o
mayor que la media aritmética. tasas de crecimiento. Tiene muchas aplicaciones en administración y economía porque a
menudo nos interesa calcular los cambios porcentuales en ventas, salarios o cifras econó-
micas, como el Producto Interno Bruto, que se componen o se fundamentan entre sí. La
media geométrica de un conjunto de n números positivos se define como la n-ésima raíz del
producto de n valores. La fórmula para la media geométrica se escribe:

La media geométrica siempre va a ser igual o menor (nunca mayor) que la media aritméti-
ca. Asimismo, todos los valores de los datos deben ser positivos.
Como un ejemplo de la media geométrica, supongamos que recibe un incremento de
5% sobre su salario este año y un aumento de 15% el año próximo. El porcentaje de au-
mento anual promedio es 9.886, no 10.0. ¿Por qué sucede esto? Empezamos por calcular
la media geométrica. Recuerde, por ejemplo, que un incremento de 5% en el salario es
105%. Lo vamos a expresar como 1.05.

Esto se puede verificar suponiendo que su sueldo mensual fuese de $3 000 en un principio
y que haya recibido dos aumentos de 5% y 15%

El aumento total sobre su salario es $622 50, y equivale a

El ejemplo siguiente muestra la media geométrica de vanos porcentajes

La recuperación de la inversión obtenida por Atkins Construction Company durante cuatro


años consecutivos fue: 30%, 20%, -40% y 200%. ¿Cuál es la tasa media geométrica de re-
cuperación de la inversión?

El número 1.3 representa una recuperación de la inversión de 30%, que es la inversión "ori-
ginal" de 1.0 más la "recuperación" de 0.3. El número 0.6 representa la pérdida de 40%, que
es la inversión original de 1.0 menos la pérdida de 0.4. Este cálculo supone que la recupe-
ración total en cada periodo se-reinvierte o se convierte en la base para el siguiente perio-
do. En otras palabras, la base para el segundo periodo es 1.3 y la base para el tercer
periodo es (1.3)(1.2) y así sucesivamente.
La tasa media geométrica de la recuperación es 29.4%, que calculamos así:

La media geométrica es la cuarta raíz de 2.808. De manera que la tasa de recuperación


promedio (tasa de crecimiento anual compuesta) es 29.4%.
Debemos hacer notar que si calcula la media aritmética [(30 + 20 - 40 + 200)/4 = 52.5],
tendrá un número mucho más alto, ¡lo que aumentaría la verdadera tasa de recuperación!
70 Capítulo 3

Una segunda aplicación de la inedia geométrica es encontrar un incremento porcentual


promedio durante un periodo. Por ejemplo, si en 1995 ganaba $30 000 y en 2005 gana
$50 000, ¿cuál es su tasa de incremento anual durante el periodo? La tasa de aumento se
determina a partir de la fórmula siguiente.

En el recuadro anterior, n es el número de periodos. Un ejemplo mostrará los detalles del


cálculo del incremento porcentual promedio anual.

Durante la década de 1990, Las Vegas, Nevada, fue el área metropolitana de más rápido
crecimiento en Estados Unidos. La población aumentó de 852 737 en 1990 a 1 563 282 en
2000. Éste es un incremento de 710 545 personas o un incremento porcentual de 83% du-
rante el periodo de 10 años. ¿Cuál es el incremento promedio anuaí?

Hay 10 años entre 1990 y 2000, de modo que n = 10. Así, la fórmula (3-5) para la media
geométrica como se aplica a este tipo de problema es:

El valor de 0.0625 indica que el crecimiento promedio anual .durante el periodo de 10 años
fue de 6.25%. En otras palabras, la población de Las Vegas aumentó a una tasa de 6.25%
al año de 1990 a 2000.

Autoevaluación 3-5 1. El incremento porcentual en las ventas durante los últimos 4 años en Combs Cosmetics
fue: 4.91, 5.75, 8.12 y 21.60.
(a) Calcule el incremento porcentual de la media geométrica.
(b) Calcule el aumento porcentual de la media aritmética.
(c) ¿La media aritmética es igual o mayor que la media geométrica?
2. La producción de camiones Cabios aumentó de 23 000 unidades en 1984 a 120 520 uni
dades en 2004. Calcule el incremento porcentual medio geométrico anual.

Ejercicios
23. Calcule la media geométrica de los siguientes aumentos porcentuales: 8, 12, 14, 26 y 5.
24. Calcule la media geométrica de los siguientes incrementos porcentuales: 2, 8, 6, 4,10, 6, 8 y 4.
25. A continuación, se presenta el incremento porcentual en las ventas de MG Corporation du
rante los últimos 5 años. Determine el incremento porcentual medio geométrico en las ven
tas durante el periodo.

26. En 1996, un total de 14 968 000 de contribuyentes fiscales en Estados Unidos presentaron
electrónicamente sus declaraciones individuales. Para el año 2002, la cifra aumentó a
46 282 200. ¿Cuál es el incremento medio geométrico anual para el periodo?
27. El U.S. Bureau of Labor Statistics reporta cada mes el índice de Precios al Consumidor. En
el que incluye el cambio en los precios para una canasta de artículos en el mercado de un
periodo a otro. El índice para 1992 fue de 140.3, para 2002, aumentó a 179.9. ¿Cuál fue el
incremento medio geométrico anual para el periodo?
28. En 1976 el precio promedio en todo el país de un galón de gasolina sin plomo en una bom
ba de autoservicio era de $0.605. Para 2003, el precio promedio se había incrementado a
$1.394. ¿Cuál fue el aumento medio geométrico anual para el periodo?
Descripción de datos: medidas de ubicación 71

29. En 1999 había 42.0 millones de suscriptores a los servicios de localización. Para 2004, el
número de suscriptores aumentó a 70.0 millones. ¿Cuál es el incremento medio geométrico
anual para el periodo?
30. La información que presentamos a continuación muestra el costo de un año de estudios en
universidades públicas y privadas en 1992 y 2003. ¿Cuál es el incremento medio geométrico
anual durante el periodo para los dos tipos de instituciones? Compare las tasas de aumento.

¿Por qué estudiar la dispersión?


Una medida de ubicación, como la media o la mediana, sólo describe el centro de la informa-
ción. Desde este punto de vista, es valiosa, pero no nos indica nada acerca de la extensión de
los datos. Por ejemplo, si en la guía del lugar dice que el río que está más adelante tiene una
profundidad promedio de 3 pies, ¿estaría dispuesto a cruzarlo a pie sin contar con información
adicional? Tal vez no. Seguramente querrá saber algo acerca de la variación en la profundidad.
¿La profundidad máxima del río es 3.25 pies y la mínima es 2.75 pies? Si es así, tal vez se
aventure a cruzarlo. ¿Qué sucedería si supiera que la profundidad del río varía entre 0.50 y 5.5
pies? Quizá su decisión sería no cruzar. Antes de tomar una decisión sobre cruzar el río o no,
querrá información sobre la profundidad típica y la dispersión en la profundidad del río.
Un valor menor para una medida de dispersión indica que los datos están agrupados de
manera estrecha, digamos, alrededor de la media aritmética. Por tanto, la media se considera
representativa de la información. Por el contrario, una medida de dispersión alta indica que la
media no es confiable. Consulte la Gráfica 3-5. Los 100 empleados de Hammond Iron
Works, Inc., una compañía fabricante de acero, está organizada en un histograma basado en
el número de años de trabajar para la compañía. La media es 4.9 años, pero la extensión de
los datos es de 6 meses a 16.8 años. La media de 4.9 años no es muy representativa de to-
dos los empleados.

El promedio no es
representativo debido a una
dispersión elevada.

GRÁFICA 3-5 Histograma de los años de trabajo en Hammond Iron Works. Inc.

Una segunda razón para estudiar la dispersión de un conjunto de datos es comparar la


extensión en dos o más distribuciones. Por ejemplo, supongamos que la nueva computadora
PDM/3 está armada en Baton Rouge y también en Tucson. La producción media aritmética
por hora tanto en la planta de Baton Rouge como en la de Tucson es 50. Con base en las dos
medias, podríamos llegar a la conclusión de que las distribuciones de las producciones por
hora son idénticas. Sin embargo, los registros de producción durante 9 horas en ambas plan-
tas revelan que esta conclusión no es correcta (vea la Gráfica 3-6). La producción de Baton
Rouge varía de 48 a 52 ensamblajes por hora. La producción en la planta de Tucson es más
72 Capítulo 3

Una medida de dispersión se


puede utilizar para evaluar la
confiabilidad de dos o más
medidas de ubicación.

GRÁFICA 3-6 Producción de computadoras por hora en las plantas de Baton Rouge y Tucson

errática, pues va de 40 a 60 por hora. Por tanto, la producción por hora para Baton Rouge se
agrupa cerca de la media de 50; la producción por hora para Tucson es más dispersa.

Medidas de dispersión
Vamos a considerar diversas medidas de dispersión. El rango se basa en los valores más
altos y más bajos en el conjunto de datos. La desviación media, la varianza y la desviación
estándar se basan en las desviaciones de la media aritmética.

Rango
La medida de dispersión más sencilla es el rango. Éste es la diferencia entre los valores
más alto y más bajo en el conjunto de datos. En la forma de una ecuación:

El rango se utiliza con mucha frecuencia en las aplicaciones de control de procesos esta-
dísticos (CPE) porque es muy fácil de calcular y entender.

Consulte la Gráfica 3-6. Encuentre el rango en el nú-


mero de computadoras que se producen cada hora en
las plantas de Baton Rouge y Tucson. Interprete los
dos rangos.

El rango de la producción de computadoras por hora


en la planta de Baton Rouge es 4, calculado por la di-
ferencia entre la producción por hora más alta de 52 y
la más baja de 48. El rango en la producción por hora
para la planta de Tucson es 20 computadoras, calcula-
do al restar 60 - 40. Por tanto, llegamos a la conclusión
de que (1) hay menos dispersión en la producción por
hora en la planta de Baton Rouge que en la de Tucson
porque el rango de 4 computadoras es menor que el
rango de 20 computadoras y (2) la producción se agru-
pa de manera más estrecha alrededor de la media de
50 en la planta de Baton Rouge que en la de Tucson
Descripción de datos: medidas de ubicación 73

(porque un rango de 4 es menor que uno de 20). Por tanto, la producción media en la plan-
ta de Baton Rouge (50 computadoras) es más representativa de la medida de ubicación que
la media de 50 computadoras para la planta de Tucson.

Desviación media
Un defecto del rango es que se basa sólo en dos valores, el más alto y el más bajo; no toma
en cuenta todos los valores. La desviación media sí lo hace. Mide la cantidad media por la
cual los valores en una población o muestra varían de su media. En términos de una definición:

DESVIACIÓN MEDIA. La media aritmética de los valores absolutos de las desviaciones


de la media aritmética.

En términos de una fórmula, la desviación media, abreviada MD, se calcula para una
muestra como sigue:

DESVIACIÓN MEDIA

donde:
es el valor de cada observación.
es la media aritmética de los valores.
es el número de observaciones en la muestra.
indica el valor absoluto.
¿Por qué ignoramos los signos de las desviaciones de la media? Si no lo hiciéramos, las des-
viaciones positivas y negativas de la media se compensarían exactamente entre sí, y la des-
viación media siempre sería cero. Esa medida (cero) sería un estadístico sin ninguna utilidad.

El número de capuchinos vendidos en la tienda Starbucks del aeropuerto de Orange County


entre las 4 y las 7 P.M. en una muestra de 5 días el año pasado fue: 103, 97, 101, 106 y 103.
Determine la desviación media e interprete los resultados.

La desviación media es la media de las cantidades donde las observaciones individuales di-
fieren de la media aritmética. Para calcular la desviación media de un conjunto de datos,
empezamos por encontrar la media aritmética. El número medio de capuchinos vendidos es
1Ó2, calculado así: (103 + 97-+ 101 + 106 + 103)/5. A continuación, encontramos la canti-
dad en la cual cada observación difiere de la media. Luego, sumamos estas diferencias, ig-
norando los signos y dividimos la suma entre el número de observaciones. El resultado es
la cantidad media en que las observaciones difieren de la media. Un valor bajo para la des-
viación media indica que los datos están agrupados cerca de la media, mientras que un va-
lor alto para la desviación media indica una mayor dispersión en la información. Éstos son
los detalles de los cálculos realizados con la fórmula (3-7).
74 Capitulo 3

La desviación media es 2.4 capuchinos al día. El número de capuchinos se desvía, en pro-


medio, por 2.4 capuchinos de la media de 102 capuchinos al día.

Ventajas de la desviación La desviación media tiene dos ventajas. Primero, utiliza en su cálculo todos los valores
media. de la muestra. Recuerde que la amplitud del rango solamente utiliza los valores más altos y
más bajos. Segundo, es fácil comprender, ya que es el promedio de desviación de todos los
valores con respecto a la media. Sin embargo, su principal desventaja es que utiliza los va-
lores absolutos, y éstos son generalmente difíciles de trabajar. Por tanto la desviación media
no es de uso frecuente, como las otras medidas de dispersión como lo es la desviación es-
tándar.

Autoevaluación 3-6 Los pesos de los contenedores enviados a Irlanda son (en miles de libras):

(a) ¿Cuál es el rango de los pesos?


(b) Calcule el peso medio aritmético.
(c) Calcule la desviación media de los pesos.

Ejercicios
Para los ejercicios 31 a 36, calcule (a) el rango, (b) la media aritmética y (c) la desviación media,
e interprete el rango y la desviación media.

31. Durante la venta del fin de semana pasado en Electronic Super Store, estuvieron trabajan
do cinco representantes de servicios al cliente. Los números de HDTV que vendieron estos
representantes son: 5, 8, 4, 10 y 3.
32. El Departamento de Estadística de Western State University ofrece ocho secciones de es
tadística básica. Los siguientes son los números de estudiantes inscritos en estas seccio
nes: 34, 46, 52, 29, 41, 38, 36 y 28.
33. Dave's Automatic Door instala puertas automáticas en las cocheras. La siguiente lista indi
ca el número de minutos que se necesitan para instalar una muestra de 10 puertas: 28, 32,
24, 46, 44, 40, 54, 38, 32 y 42.
34. Una muestra de ocho compañías en la industria aeroespacial participaron en una encuesta
sobre la recuperación de la inversión que tuvieron el año pasado. Los resultados son (en
porcentajes): 10.6, 12.6, 14.8, 18.2, 12.0, 14.8, 12.2 y 15.6.
35. Diez expertos calificaron el sabor de una pizza sushi recién creada preparada con atún,
arroz y algas marinas, en una escala de 1 a 50. Las calificaciones fueron: 34, 35, 41, 28, 26,
29, 32, 36, 38 y 40.
36. Una muestra de los archivos de personal de ocho empleados de Acmé Carpet Cleaners,
Inc., reveló que,'durante un periodo de seis meses, perdieron los siguientes días debido a
enfermedades: 2, 0, 6, 3, 10, 4, 1 y 2.

Varianza y desviación estándar


La varianza y la desviación La varianza y la desviación estándar también se basan en las desviaciones de la media.
estándar se basan en las Sin embargo, en lugar de utilizar el valor absoluto de las desviaciones, la varianza y la des-
desviaciones cuadradas de la viación estándar, elevan las desviaciones al cuadrado.
media.

VARIANZA. La media aritmética de las desviaciones cuadradas de la media.

La varianza es no negativa y es cero sólo si todas las observaciones son iguales.

DESVIACIÓN ESTÁNDAR, La raíz cuadrada de la varianza.


Descripción de datos: medidas de ubicación 75

Varianza de la población Las fórmulas para la varianza de la población y la varianza de la


muestra son ligeramente diferentes. La varianza de la población se considera primero. (Re-
cuerde que una población es la totalidad de todas las observaciones que se estudian.) La
varianza de la población se calcula como sigue:

donde:

es el símbolo de la varianza de la población (CT es la letra griega sigma minús-


cula). Por lo regular, se denomina "sigma al cuadrado", es el valor de
una,observación en la población, es la media aritmética de la población, es el
número de observaciones en la población.

Observe el proceso para calcular la varianza.

• Primero, encontramos la media.


• Después, encontramos la diferencia entre cada observación y la media y la elevamos
al cuadrado.
• Entonces, sumamos todas las diferencias al cuadrado.
• Y por último, dividimos la suma de las diferencias al cuadrado entre el número de ele
mentos en la población.

De modo que se podría pensar de la varianza de la población como la media de la diferen-


cia al cuadrado entre cada valor y la media. Para las poblaciones cuyos valores son cerca-
nos a la media, la varianza va a ser pequeña. Para las poblaciones cuyos valores están
dispersos de la media, la varianza va a ser alta.
La varianza supera el problema del rango utilizando todos los valores en la población,
mientras que el rango sólo usa los más altos y los más bajos. Nosotros superamos el pro-
blema donde 2(X - ,u) = 0 elevando al cuadrado las diferencias, en lugar de usar el valor
absoluto. Elevar las diferencias siempre va a dar como resultado valores no negativos.

El número de multas de tránsito durante los últimos cinco meses en Beaufort County, Ca-
rolina del Sur, es: 38, 26, 13, 41 y 22. ¿Cuál es la varianza de la población?

Al igual que el rango y la desviación media, la varianza se puede utilizar para compa-
rar la dispersión en dos o más conjuntos de observaciones. Por ejemplo, si la varianza para
el número de multas levantadas en Marlboro County, Carolina del Sur, es 342.9, llegamos
a la conclusión de que (1) hay menos dispersión en la distribución del número de multas le-
vantadas en Beaufort County que en Marlboro County (porque 106.8 es menor que 342.9),
y (2) el número de multas en Beaufort County está agrupado de manera más estrecha al-
rededor de la media de 28 que para el número de multas levantadas en Marlboro County.
Por tanto, el número medio de multas levantas en Beaufort County es una medida de ubi-
cación más representativa que el número medio de multas en Marlboro County.
76 Capítulo 3

Es difícil interpretar la varianza Desviación estándar de la población. Tanto el rango como la desviación media se inter-
porque las unidades se elevan pretan con facilidad. El rango es la diferencia entre los valores alto y bajo de un conjunto de
al cuadrado. datos, y la desviación media es la media de las desviaciones de la media. Sin embargo, es
difícil interpretar la varianza para un solo conjunto de observaciones. La varianza de 106.8
para las edades de los pacientes en cuarentena no se da en términos de años, sino en
"años al cuadrado".
La desviación estándar está en Hay una forma de salir de este dilema. Calculando la raíz cuadrada de la varianza de
las mismas unidades que los la población, podemos transformarla en la misma unidad de medición que se utilizó para la
datos. información original. La raíz cuadrada de 106.8 es 10.3 años. La raíz cuadrada de la varian-
za de la población se llama desviación estándar de la población.

Autoevaluacíón 3-7 La oficina en Filadelfia de Price Waterhouse Coopers LLP contrató cinco aprendices de contador
en este año. Sus salarios mensuales iniciales fueron: $3 536, $3 173, $3 448, $3 121 y $3 622.
(a) Calcule la media de la población.
(b) Calcule la varianza de la población.
(c) Calcule la desviación estándar de la población.
(d) La oficina en Pittsburgh contrató a seis aprendices. El salario mensual medio fue de $3 550,
y la desviación estándar $250. Compare ambos grupos.

Ejercicios
37. Considere estos cinco valores como una población: 8, 3, 7, 3 y 4.
a. Determine la media de la población.
b. Determine la varianza.
38. Considere estos seis valores como una población: 13, 3, 8, 10, 8 y 6.
• a. Determine la media de la población.
b. Determine la varianza.
39. El informe anual de Dennis Industries menciona estas ganancias primarias por acción co
mún durante los últimos 5 años: $2.68, $1.03, $2.26, $4.30 y $3.58. Si suponemos que és
tos son los valores poblacionales,
a. ¿Cuáles son las ganancias medias aritméticas primarias por acción común?
b. ¿Cuál es la varianza?
40. Haciendo referencia al Ejercicio 39, el informe anual de Denis Industries también presenta
estas ganancias sobre el capital accionario durante el mismo periodo de cinco años (en por
centajes): 13.2, 5.0, 10.2, 17.5 y 12.9.
a. ¿Cuál es la ganancia media aritmética?
b. ¿Cuál es la varianza?
41. Plywood, Inc., reportó estas ganancias sobre el capital accionario durante los últimos 5
años: 4.3, 4.9, 7.2, 6.7 y 11.6. Considere éstos como valores poblacionales.
a. Calcule el rango, la media aritmética, la varianza y la desviación estándar.
b. Compare las ganancias sobre el capital accionario de Plywood, Inc. con aquellas de Den
nis Industries que mencionamos en el Ejercicio 40.
42. Los ingresos anuales de los cinco vicepresidentes de TMV Industries son: $125 000; $128 000;
$122 000; $133 000, y $140 000. Considere este grupo como una población.
a. ¿Cuál es el rango?
b. ¿Cuál es el ingreso medio aritmético?
c. ¿Cuál es la varianza de la población? ¿La desviación estándar?
d. También se estudiaron los ingresos anuales de los funcionarios de otra empresa similar
a TMV Industries. La media fue $129 000 y la desviación estándar $8 612. Compare las
medias y las dispersiones de ambas compañías.
Descripción de datos: medidas de ubicación 77

Varianza muestral La fórmula para la media de la población es Sólo cambiamos


los símbolos para la media de la muestra; es decir Por desgracia, la conversión
de la varianza de la población a la varianza de la muestra no es tan sencilla. Es necesario
un cambio en el denominador. En lugar de sustituir n (número en la muestra) con N (núme-
ro en la población), el denominador es n - 1. Por tanto, la fórmula para la varianza mues-
tral es:

donde:
es la varianza de la muestra.
es el valor de cada observación en la muestra.
es la media de la muestra.
es el número de observaciones de la muestra.

¿Por qué se realiza este cambio en el denominador? Aunque el uso de n es lógico, suele
subestimar la varianza de la población, El uso de en el denominador ofrece la co-
rrección apropiada para esta tendencia. Como el uso primario de las estadísticas de la
muestra como es calcular los parámetros de la población como se prefiere a
al definir la varianza de la muestra. También lo vamos a utilizar al calcular la desviación
estándar de la muestra.

Los salarios por hora para una muestra de empleados de medio tiempo de Fruit Packers,
Inc., son: $12, $20, $16, $18 y $19. ¿Cuál es la varianza de la muestra?

La varianza de la muestra se calcula utilizando la fórmula (3-10).

Desviación estándar de la muestra. La desviación estándar de la muestra se utiliza como


un estimador de la desviación estándar de la población. Como dijimos antes, la desviación
estándar de la población es la raíz cuadrada de la varianza poblacional. De manera similar,
la desviación estándar de la muestra es la raíz cuadrada de la varianza de la muestra, y se
determina con mayor facilidad como sigue:
78 Capitulo 3

La varianza de la muestra en el ejemplo anterior que comprende salarios por hora se cal-
culo en 10 ¿Cuál es la desviación estándar de la muestra?

La desviación estándar de la muestra es $3 16, que se calcula por √10 Debemos hacer notar
una vez mas que la vananza de la muestra esta en términos de dólares al cuadrado, pero al
tomar la raíz cuadrada de 10 nos da $3 16, que está en las mismas unidades (dólares) que
los datos originales

Solución con uso de software


En la pagina 66 utilizamos Excel para determinar la media y la mediana de la información
de ventas de Whitner Autoplex También usted va a observar que produce la desviación es-
tándar de la muestra Excel, como la mayor parte del software para estadística, supone que
los datos son de una muestra
Otro paquete de software que vamos a utilizar en este texto es MINITAB Este paquete
utiliza un formato de hoja de calculo, muy similar a Excel, pero produce gran variedad de da-
tos estadísticos. La información para los precios de venta de Whitner Autoplex es la siguien-
te Observe que un histograma (aunque la acción predeterminada es utilizar un intervalo de
clase de $2 000 y 11 clases) también se incluye como la media, la mediana y la desviación
estándar de la muestra. La media y la desviación estándar se reportan en miles de dólares

Autoevaluacion 3-8 El peso del contenido de vanos frascos pequeños de aspirinas son (en gramos) 4, 2, 5, 4, 5,
9
2 y 6 ¿Cual es la vananza de la muestra Calcule la desviación estándar de la muestra

Ejercicios
Para los Ejercicios 43 a 48, haga lo siguiente

a. Calcule varianza de la muestra


b. Determine la desviación estándar de la muestra

43. Considere estos valores como una muestra 7, 2, 6, 2 y 3


44. Los cinco valores siguientes son una muestra 11, 6, 10, 6 y 7
45. Dave's Automatic Door, compañía a la que hacemos referencia en el Ejercicio 33, instala
puertas automáticas de cocheras Con base en una muestra, a continuación presentamos
los tiempos, en minutos, que se requieren para instalar 100 puertas automáticas 28, 32, 24,
46, 44, 40, 54, 38, 32 y 42
Descripción de datos: medidas de ubicación 79

46. La muestra de ocho compañías en la industria aeroespacial, a las que hacemos referencia
en el Ejercicio 34, se estudió en cuanto a su recuperación de la inversión el año pasado. Los
resultados son: 10.6, 12.6, 14.8, 18.2, 12.0, 14.8, 12.2 y 15.6.
47. La Asociación de Propietarios de Moteles de Houston, Texas, realizó una encuesta acerca
de las tarifas de hotel entre semana en esa área. A continuación, presentamos la tarifa pa
ra huéspedes en clase de negocios para una muestra de 10 moteles.

48. Una organización de protección al consumidor se preocupa por las deudas con las tarjetas
de crédito. Una encuesta entre 10 adultos jóvenes que tienen deudas de más de $2 000 con
tarjetas de crédito mostró que pagaban un promedio de poco más de $100 al mes. A conti-
nuación, se presenta una lista de las cantidades que cada adulto joven abonó a su saldo el
mes pasado.

Interpretación, y usos
de la desviación estándar
Por lo general, la desviación estándar se utiliza como una medida para comparar la exten-
sión en dos o más grupos de observaciones. Por ejemplo, la desviación estándar de las
cantidades quincenales invertidas en el plan de reparto de utilidades de Dupree Paint Com-
pany se calcula en $7.51. Supongamos que estos empleados se encuentran en Georgia. Si
la desviación estándar para un grupo de empleados en Texas es $10.47, y las medias son
casi iguales, quiere decir que las cantidades invertidas por los empleados de Georgia no
son tan dispersas como aquellas que se invierten en Texas (porque $7.51 < $10.47). Ya
que las cantidades invertidas por los empleados de Georgia se agrupan de manera más es-
trecha alrededor de la media, la media para los empleados de Georgia es una medida más
confiable que aquella para el grupo de Texas.

Teorema de Chebyshev
Ya señalamos que una desviación estándar baja para un conjunto de valores indica que és-
tos se localizan cerca de la media. Por el contrario, una desviación estándar muy alta reve-
la que las observaciones se encuentran dispersas en relación con la media. El matemático
ruso P. L. Chebyshev (1821 -1894) desarrolló un teorema que nos permite determinar la pro-
porción mínima de los valores que se encuentran en un número específico de desviaciones
estándar de la media. Por ejemplo, según el teorema de Chebyshev, por lo menos tres de
cuatro valores, o 75%, deben estar entre la media más dos desviaciones estándar y la me-
dia menos dos desviaciones estándar. Esta relación se aplica sin importar la forma de la
distribución. Además, por lo menos ocho de nueve valores, u 88.9%, estarán entre más tres
desviaciones estándar y menos tres desviaciones estándar de la media. Por lo menos 24
de 25 valores, o 96%, estarán entre más y menos cinco desviaciones estándar de la media.
El teorema de Chebyshev establece:

Para cualquier grupo de observaciones (muestra o pobla-


ción), la proporción de los valores que se encuentra dentro de k desviaciones estándar
de la media es por lo menos donde k es cualquier constante mayor que 1.

La cantidad media aritmética quincenal con la que contribuyen los empleados de Dupree
Paint al plan de participación de utilidades de la compañía fue $51.54 y la desviación están-
dar es $7.51. ¿Qué porcentaje de las contribuciones se encuentra entre más 3.5 desviacio-
nes estándar y menos 3.5 desviaciones estándar de la media?
80 Capítulo 3

Alrededor de 92%, calculado como sigue

La regla empírica
La Regla empírica se aplica El teorema de Chebyshev se ocupa de cualquier grupo de valores; es decir, la distribución
sólo a las distribuciones de los valores puede tener cualquier forma. Sin embargo, para una distribución simétrica en
simétricas en forma de forma de campana como la que se muestra en la Gráfica 3-7, podemos ser más precisos al
campana. explicar la dispersión en relación con la media. La Regla empírica, que en ocasiones se
conoce como la Regla normal, describe aquellas relaciones que comprenden la desviación
estándar y la media.

REGLA EMPÍRICA. Para una distribución de la frecuencia simétrica en forma de campa-


na, aproximadamente 68% de las observaciones estarán entre más y menos una des-
viación estándar de la media; alrededor de 95% de las observaciones se encontrarán
entre más y menos dos desviaciones estándar de la media, y prácticamente todas
(99.7%) estarán entre más y menos tres desviaciones estándar de la media.

Estas relaciones se representan visualmente en la Gráfica 3-7 con una distribución en for-
ma de campana con una media de 100 y una desviación estándar de 10.

GRÁFICA 3-7 Una curva simétrica en forma de campana que muestra las relaciones entre la desviación
estándar y las observaciones

Hemos señalado que, si una distribución es simétrica y tiene forma de campana, prácti-
camente todas las observaciones se encuentran entre la media más y menos tres desviacio-
nes estándar. Por tanto, si casi todas las observaciones están entre 100 +
3(10) y 100 - 3(10) o 70 y 130. Por tanto, el rango es 60, que se calcula restando 130 - 70.
Por el contrario, si sabemos que el rango es 60, podemos calcular la desviación estándar
al dividir el rango entre 6. Para ilustrar: rango + 6 = 60 + 6 = 10, la desviación estándar.

Una muestra de las tarifas de renta en los departamentos University Park se asemeja a una
distribución simétrica en forma de campana. La media de la muestra es $500; la desviación
estándar es $20. Utilizando la Regla empírica, responda estas preguntas:

1. ¿Entre qué par de cantidades se encuentra alrededor de 68% de los gastos mensua
les en alimentos?
2. ¿Entre qué par de cantidades está 95% de los gastos mensuales en alimentos?
3. ¿Entre qué par de cantidades están casi todos los gastos mensuales?
Descripción de datos: medidas de ubicación 81

1. Alrededor de 68% se encuentra entre $480 y $520, calculado como sigue:


$500 ±1 ($20).
2. Aproximadamente 95% está entre $460 y $540, calculado como sigue:
± 2($20).
3. Casi todos (99.7%) se encuentran entre $440 y $560, calculado como sigue:
$500 ± 3($20).

Autoevaluación 3-9 Pitney Pipe Company es uno de varios fabricantes nacionales de tubería PVC. El departa-
mento de control de calidad tomó una muestra de 600 tubos de 10 pies. A la distancia de un
pie del extremo del tubo se midió el diámetro exterior; la media fue 14.0 pulgadas y la desvia-
ción estándar 0.1 pulgadas.
(a) Si la forma de la distribución se desconoce, por lo menos, ¿qué porcentaje de las obser
vaciones estará entre 13.85 pulgadas y 14.15 pulgadas?
(b) Si suponemos que la distribución de los diámetros es simétrica y que tiene forma de cam
pana, ¿entre qué par de valores estarán 95% de las observaciones?

Ejercicios
49. Según el teorema de Chebyshev, por lo menos, ¿qué porcentaje de cualquier grupo de ob
servaciones estará entre 1.8 desviaciones estándar de la media?
50. El ingreso medio de un grupo de observaciones de una muestra es $500; la desviación es
tándar es $40. Según el teorema de Chebyshev, por lo menos ¿qué porcentaje de los ingre
sos estará entre $400 y $600?
51. La distribución de los pesos de una muestra de contenedores de carga es simétrica y en for
ma de campana. Según la Regla empírica, ¿qué porcentaje de los pesos está:

52. La gráfica siguiente ilustra la distribución del número de refrescos extragrandes vendidos en
el restaurante Wendy's de una localidad durante los últimos 141 días. El número medio de
refrescos vendidos al día es 91.9 y la desviación estándar es 4.67.

Si utilizamos la Regla empírica, ¿entre qué par de valores estarán las ventas en 68% de los
días? ¿Entre qué par de valores estarán las ventas en 95% de los días?

La media y la desviación.
estándar para datos agrupados
En la mayor parte de los casos, las medidas de ubicación, como la media, y las medidas de
dispersión, como la desviación estándar, se determinan utilizando los valores individuales.
Los paquetes de software para estadística facilitan el cálculo de estos valores, incluso pa-
ra conjuntos de datos muy numerosos. Sin embargo, en ocasiones, sólo tenemos la distri-
bución de frecuencias y queremos calcular la media o la desviación estándar a partir de la
información organizada en la distribución de frecuencias. Debemos enfatizar que una me-
dia o una desviación estándar para datos agrupados son sólo un estimado de los valores rea-
les correspondientes.
82 Capítulo 3

Media aritmética para datos agrupados


Para estimar la media aritmética para datos organizados en una distribución de frecuencias,
empezamos por suponer que las observaciones en cada clase están representadas por el
punto medio de la clase. La media de una muestra para datos organizados en una distribu-
ción de frecuencias se calcula mediante:

donde:
es la denominación para la media de la muestra.
es el punto medio de cada clase.
es la frecuencia en cada clase.
es la frecuencia en cada clase por el punto medio de la clase.
es la suma de estos productos.
es el número total de frecuencias.

Los cálculos para la media aritmética para datos agrupados en una distribución de frecuen-
cias se mostrarán con base en la información de Whitner Autoplex. Recuerde que en el Ca-
pítulo 2, en la Tabla 2-4 de la página 28, elaboramos una distribución de frecuencias para
los precios de venta de los vehículos. La información se repite a continuación. Determine el
precio de venta medio aritmético de los vehículos.

El precio de venta medio de los vehículos se puede calcular a partir de los datos agrupa-
dos en una distribución de frecuencias. Para encontrar la media estimada, supongamos que
el punto medio de cada clase es representativo de los valores de los datos en esa clase.
Recuerde que el punto medio de una clase es la mitad entre los límites superior e inferior.
Para encontrar el punto medio de una clase en particular, sumamos los límites superior e
inferior y los dividimos entre 2. Por tanto, el punto medio de la primera clase es $16.5, cal-
culado así: ($15 + $18)/2. Suponemos que el valor de $16.5 es representativo de los ocho
valores en esa clase. En otras palabras, suponemos que la suma de los ocho valores en
esta clase es $132, calculado así: 8($16.5). Continuamos el proceso de multiplicar el pun-
to medio de la clase por la frecuencia de clase para cada una y luego sumamos estos pro-
ductos. Los resultados se resumen en la Tabla 3-1.
TABLA 3-1 Precio de 80 vehículos nuevos vendidos el mes pasado en el lote Whitner Autoplex
Descripción de datos: medidas de ubicación 83

Al calcular la media aritmética utilizando la fórmula (3-12), obtenemos:

De modo que, llegamos a la conclusión de que el precio de venta medio de los vehículos
es aproximadamente $23 100.

Desviación estándar para datos agrupados


Para calcular la desviación estándar de los datos agrupados en una distribución de frecuen-
cias, necesitamos ajustar ligeramente la fórmula (3-11). Ponderamos cada una de las dife-
rencias al cuadrado por el número de frecuencias en cada clase. La fórmula es:

donde:

es el símbolo para la desviación estándar de la muestra.


es el punto medio de la clase.
es la frecuencia de clase.
es el número de observaciones en la muestra.

Consulte la distribución de frecuencia para Whitner Autoplex que se reporta en la Tabla 3-1.
Calcule la desviación estándar de los precios de venta de los vehículos.

Siguiendo la misma práctica que empleamos anteriormente para calcular la media de los da-
tos agrupados en una distribución de frecuencia, fes la frecuencia de clase, Mes el punto me-
dio de clase y n es el número de observaciones.

Para encontrar la desviación estándar:

Paso 1: Reste la media del punto medio de clase. Es decir, calcule Para la prime-
ra clase (16.5 - 23.1 = -6.6), para la segunda clase (19.5 - 23.1 = -3.6), y asi su-
cesivamente.
Paso 2: Eleve al cuadrado la diferencia entre el punto medio de clase y la media. Para la
primera clase, sena 43.56, para la segunda clase (19.5
2
- 23.1 Y = (-3.6) = 12.96, y así sucesivamente.
Paso 3: Multiplique la diferencia al cuadrado entre el punto medio de clase y la media por
2
la frecuencia de clase. Para la primera clase el valor es 8(16.5 - 23.1 ) = 348.48;
2
para la segunda, 23(19.5 - 21.3) = 298.08, y asi sucesivamente.
2
Paso 4: Sume f(M- X} . El total es 1 531.8.
84 Capítulo 3

Para encontrar la desviación estándar, insertamos estos valores en la fórmula (3-13).

La media y la desviación estándar calculadas a partir de los datos agrupados en una distri-
bución de frecuencia casi siempre están cerca de los valores calculados a partir de los da-
tos en bruto. Los datos agrupados dan como resultado cierta pérdida de información. Para
el problema del precio de venta de los vehículos, el precio de venta medio reportado en la
hoja de Excel en la página 66 es $23 218 y la desviación estándar es $4 354. Los valores
respectivos estimados a partir de los datos agrupados en una distribución de frecuencia son
$23 100 y $4 403. La diferencia en las medias es $118 o alrededor de 0.58%. Las desvia-
ciones estándar difieren por $49, o 1.1%. Con base en la diferencia porcentual, los estimados
están muy cerca de los valores reales.

Autoevaluación 3-10 Los ingresos netos de una muestra de grandes importadores de antigüedades se organiza-
ron en la tabla siguiente:

(a) ¿Cómo se llama la tabla?


(b) Con base en la distribución, ¿cuál es el estimado del ingreso neto medio aritmético?
(c) Con base en la distribución, ¿cuál es el estimado de la desviación estándar?

Ejercicios
53. Cuando calculamos la media de una distribución de frecuencias, ¿por qué nos referimos a
ella como una media estimada?
54. Determine la media y la desviación estándar de la siguiente distribución de frecuencias.

55. Determine la media y la desviación estándar de la siguiente distribución de frecuencias.


Descripción de datos: medidas de ubicación 85

56. SCCoast, un proveedor de Internet del sureste de Estados Unidos, desarrolló la siguiente
distribución de frecuencias sobre la edad de los usuarios de Internet. Encuentre la media y
la desviación estándar.

57. El IRS estaba interesado en el número de formas fiscales individuales que preparan las em-
presas de contabilidad pequeñas. El IRS tomó una muestra aleatoria de 50 empresas de
contabilidad públicas con 10 o menos empleados en el área de Dallas-Fort Worth. La si-
guiente tabla de frecuencias reporta los resultados del estudio. Calcule la media y la desvia-
ción estándar.

58. Los gastos publicitarios son un componente importante del costo de los productos vendidos.
A continuación, se encuentra una distribución de frecuencias que muestra los gastos publi-
citarios de 60 compañías de fabricación del suroeste de Estados Unidos. Calcule la media
y la desviación estándar de los gastos publicitarios.

Resumen del capítulo


I. Una medida de ubicación es un valor que se utiliza para describir el centro de un conjunto
de datos.
A. La media aritmética es la medida de ubicación que se reporta con mayor frecuencia. 1.
Se calcula sumando los valores de las observaciones y dividiéndolos entre el número
total de observaciones. a. La fórmula para la media de la población de los datos sin
agrupar o en bruto es
86 Capítulo 3

2. Las principales características de la media aritmética son:


a. Por lo menos, se requiere la escala de medición con intervalos.
b. Todos los valores de los datos se utilizan en el cálculo.
c. Un conjunto de datos sólo tiene una media. Es decir, es única.
d. La suma de las desviaciones de la media es igual a 0.
B. La media ponderada se calcula multiplicando cada observación por su ponderación co-
rrespondiente. 1. La fórmula para determinar la media ponderada es

2. Es un caso especial de la media aritmética.


C. La mediana es el valor en el centro de un conjunto de datos ordenados.
1. Para encontrar la mediana, clasifique las observaciones de la más baja a la más alta
e identifique el valor intermedio.
2. Las principales características de la mediana son:
a. Por lo menos, se requiere la escala de medición ordinal.
b. No tiene la influencia de los valores extremos.
c. Del total de las observaciones, 50% son más altas que la mediana.
d. Es única para un conjunto de datos.
D. La moda es el valor que ocurre con mayor frecuencia en un conjunto de datos.
1. La moda se puede encontrar para datos de nivel nominal.
2. Un conjunto de datos puede tener más de una moda.
E. La media geométrica es la n-ésima raíz del producto de n valores.
1. La fórmula para la media geométrica es

2. La media geométrica también se utiliza para encontrar el índice de cambio de un pe-


riodo a otro:

3. La media geométrica siempre es igual o menor que la media aritmética. II.


La dispersión es la variación o extensión en un conjunto de datos.
A. El rango es la diferencia entre el valor más alto y más bajo en un conjunto de datos.
1. La fórmula para el rango es

2. Las principales características del rango son:


a. Sólo se utilizan dos valores para calcularlo.
b. Tiene la influencia de los valores extremos.
c. Es fácil de calcular y entender.
B. La desviación media es la suma de los valores absolutos de las desviaciones de la me-
dia divididos entre el número de observaciones. 1. La fórmula para calcular la
desviación media es

2. Las principales características de la desviación media son:


a. No tiene la influencia indebida de los valores altos o bajos.
b. Todas las observaciones se usan en el cálculo.
c. Es un poco difícil trabajar con los valores absolutos.
C. La varianza es la media de las desviaciones cuadradas de la media aritmética.
1. La fórmula para la varianza de la población es

2, La fórmula para la varianza de la muestra es


Descripción de datos: medidas de ubicación 87

3. Las principales características de la varianza son:


a. Todas las observaciones se utilizan en el cálculo.
b. No tiene la influencia indebida de las observaciones extremas.
c. Es un tanto difícil trabajar con las unidades, pues se trata de las unidades origina
les al cuadrado.
D. La desviación estándar es la raíz cuadrada de la varianza.
1. Las principales características de la desviación estándar son:
a. Está en las mismas unidades que los datos originales.
b. Es la raíz cuadrada de la distancia promedio de la media al cuadrado.
c. No puede ser negativa.
d. Es la medida de dispersión que se usa con mayor frecuencia.

3. La fórmula para la desviación estándar para datos agrupados es:

2. La fórmula para la desviación estándar de la muestra es:


III. La desviación estándar se interpreta utilizando dos medidas.
A. El teorema de Chebyshev establece que, sin importar la forma de la distribución, por lo
2
menos 1 - 1/k de las observaciones estarán dentro de k desviaciones estándar de la
media, donde k es mayor que 1.
B. La Regla empírica establece que, para una distribución con forma de campana, alrede
dor de 68% de los valores estará dentro de una desviación estándar de la media, 95%
entre dos y casi todas en tres.

Clave de pronunciación

Ejercicios del capítulo


59. La empresa de contabilidad Crawford and Associates tiene cinco socios senior. Ayer, los so-
cios vieron a seis, cuatro, tres, siete y cinco clientes, respectivamente.
a. Calcule el número medio y el número mediano de clientes que vio cada socio.
b. ¿La media es una medida de la muestra o de la población?
c. Verifique que
60. Owens Orchards vende manzanas en una bolsa grande por peso. Una muestra de siete bol-
sas contiene las siguientes cantidades de manzanas: 23, 19, 26, 17,21, 24, 22.
a. Calcule el número medio y el número mediano de manzanas en una bolsa.
b. Verifique que
61. Una muestra de familias que tienen contratados los servicios de la United Bell Phone Com-
pany reveló los siguientes números de llamadas recibidas la semana pasada. Determine el
número medio y el número mediano de llamadas recibidas.
88 Capitulo 3

62. La Citizens Banking Company estudia la cantidad de veces que se usa al día el cajero au-
tomático ubicado en Loblaws Supermarket sobre Market Street. A continuación, presenta-
mos la cantidad de veces que la máquina se utilizó durante cada uno de los últimos 30 días.
Determine el número medio de veces que el cajero se usó cada día.

83 64 84 76 84 54 75 59 70 61
63 80 84 73 68 52 65 90 52 77
95 36 78 61 59 84 95 47 87 60

63. A continuación, presentamos una lista del número de pantallas para lámpara producidas durante
los últimos 50 días en la American Lampshade Company en Rockville, GA. Calcule la media.
348 371 360 369 376 397 368 361 374
410 374 377 335 356 322 344 399 362
384 365 380 349 358 343 432 376 347
385 399 400 359 329 370 398 352 396
366 392 375 379 389 390 386 341 351
354 395 338 390 333

64. Trudy Green trabaja en True-Green Lawn Company. Su trabajo consiste en contactar nego-
cios por teléfono para el cuidado del césped. A continuación se presentan los números de
las citas que concertó en cada una de las últimas 265 horas en las que llamó. ¿Cuál es el
número medio aritmético de citas que concertó por hora? ¿Cuál es el número mediano de
citas por hora? Escriba un breve reporte resumiendo sus descubrimientos.

65. La Split-A-Rail Fence Company vende tres tipos de rejas a los dueños de casas en los su
burbios de Seattle, Washington. Las rejas Grado A cuestan $5.00 por cada pie instalado, las
Grado B cuestan $6.50 por pie instalado y las Grado C, las de primera calidad, cuestan
$8.00 por cada pie. Ayer, Split-A-Rail instaló 270 pies de la reja Grado A, 300 pies de la Gra-
do B y 100 pies de la Grado C. ¿Cuál fue el costo medio por pie de reja instalado?
66. Rolland Poust es alumno de primer grado en la Facultad de Administración de Scandia
Tech. El último semestre tomó clases de estadística y contabilidad de 3 horas cada una, y
obtuvo una calificación de A en las dos. Obtuvo una B en un curso de historia que duró cin-
co horas y una B en un curso de historia del jazz que duró dos horas. Además, tomó un cur-
so de una hora para conocer las reglas del básquetbol a fin de obtener su licencia para ser
juez en los partidos de una secundaria. En este curso, obtuvo una A. ¿Cuál fue su prome-
dio para el semestre? Supongamos que recibe 4 puntos por una A. 3 por una B, etcétera.
¿Qué medida de ubicación acaba de calcular?
67. La tabla siguiente muestra el porcentaje de la fuerza laboral que está desempleada y el ta-
maño de la fuerza laboral para tres condados en el noroeste de Ohio. Jon Elsas es el Direc-
tor Regional de Desarrollo Económico y debe presentar un informe ante varias empresas
que consideran su reubicación en el noroeste de Ohio. ¿Cuál sería un índice de desempleo
apropiado para toda la región?

68. La American Automobile Association verifica los precios de la gasolina antes de muchos fi-
nes de semana feriados. A continuación, presentamos una lista de los precios de autoservi-
cio para una muestra de 15 gasolineras al detalle durante un fin de semana feriado de mayo
de 2003 en el área de Detroit, Michigan.
Descripción de datos: medidas de ubicación 89

a. ¿Cuál es el precio de venta medio aritmético?


b. ¿Cuál es el precio de venta mediano?
c. ¿Cuál es el precio de venta modal?
69. El área metropolitana de Los Ángeles-Long Beach, California, es la que se espera que pre-
sente el mayor incremento en el número de trabajos entre 1989 y 2010. Se espera que el
número de empleos aumente de 5 164 900 a 6 286 800. ¿Cuál es la tasa de incremento
anual media geométrica que se espera?
70. Un artículo reciente sugería que si usted gana $25 000 al ano en la actualidad y la tasa de
inflación continúa siendo de 3% al año, dentro de 10 años, necesitará ganar $33 598 para
tener el mismo poder adquisitivo. Necesitaría ganar $44 771 si la tasa de inflación aumenta
a 6%. Confirme que estas afirmaciones son exactas encontrando la tasa de incremento me
dia geométrica.
71. Las edades de una muestra de turistas canadienses que viajan en avión de Toronto a Hong
Kong fueron: 32, 21, 60, 47, 54, 17, 72, 55, 33 y 41.
a. Calcule el rango.
b. Calcule la desviación media.
c. Calcule la desviación estándar.
72. Los pesos (en libras) de una muestra de cinco cajas que se envían por UPS son: 12, 6, 7,
3 y 10.
a. Calcule el rango.
b. Calcule la desviación media.
c. Calcule la desviación estándar.
73. Un estado del sur de Estados Unidos tiene siete universidades estatales en su sistema. Los
números de los libros (en miles) que se guardan en sus bibliotecas son 83, 510, 33, 256,
401, 47 y 23.
a. ¿Ésta es una muestra o una población?
b. Calcule la desviación estándar.
74. Los problemas de salud son una preocupación de los gerentes, en especial al evaluar et costo
de los seguros médicos. Una encuesta reciente entre 150 ejecutivos de Etvers Industries, una
importante empresa de seguros y fianzas ubicada en el suroeste de Estados Unidos, reportó el
número de libras de sobrepeso de los ejecutivos. Calcule la media y la desviación estándar.

Libras de sobrepeso Frecuencia

De 0 a 5 14
de 6 a 12 42
de 12 a 18 58
de 18 a 24 28
de 24 a 30 8

75. El programa espacial Apollo duró de 1967 hasta 1972 e incluyó 13 misiones. Las misiones
duraron desde 7 horas hasta 301 horas. La duración de cada vuelo se encuentra en la lista
que presentamos a continuación.

9 195 241 301 216 260 7 244 192 147


10 295 142

a. Explique por qué los tiempos de vuelo son una población.


b. Encuentre la media y la mediana de los tiempos de vuelo.
c. Encuentre el rango y la desviación estándar de los tiempos de vuelo.
76. Creek Ratz es un restaurante muy popular ubicado en la costa del norte de Florida. En él se
sirven diversos platillos de carne de res y mariscos. Durante la temporada de verano, no
admiten reservaciones. La gerencia del restaurante se preocupa por el tiempo que un cliente
debe esperar antes de sentarse a comer. A continuación, se presenta una lista de los tiempos
de espera, en minutos, para las 25 mesas que se ocuparon el sábado pasado por la noche.

28 39 23 67 37 28 56 40 28 50
51 45 44 65 61 27 24 61 34 44
64 25 24 27 29
90 Capítulo 3

a. Explique por qué los tiempos son una población.


b. Encuentre la media y la mediana de los tiempos.
c. Encuentre e) rango y la desviación estándar de los tiempos.
77. El gerente del supermercado Wal-Mart local estudia el número de artículos que tos clientes
compran durante la noche. A continuación, se presenta una lista del número de artículos
para una muestra de 30 clientes.

15 8 6 9 9 4 18 10 10 12
12 4 7 8 12 10 10 11 9 13
5 6 11 14 5 6 6 5 13 5

a. Encuentre la media y la mediana del número de artículos.


b. Encuentre el rango y la desviación estándar del número de artículos.
c. Organice el número de artículos en una distribución de frecuencia. Tal vez quiera revi
sar los lineamientos en el Capítulo 2 para establecer el intervalo de clase y el número
de clases.
d. Encuentre la medía y la desviación estándar de los datos organizados en una distribu
ción de frecuencia. Compare estos valores con aquéllos calculados en la parte a. ¿Por
qué son diferentes?
78. La siguiente distribución de frecuencias reporta el costo de la electricidad para una muestra
de 50 departamentos de dos recámaras en Albuquerque, Nuevo México, durante el mes
de mayo del año pasado.

Costo de la electricidad Frecuencia

de $ 80 a $100 3
de 100 a 120 8
de 120 a 140 12
de 140 a 160 16
de 160 a 180 7
de 180 a 200 4
Total 50

a. Calcule el costo medio.


b. Calcule la desviación estándar.
c. Utilice la Regla empírica para calcular la proporción de los costos dentro de dos desvia
ciones estándar de la media. ¿Cuáles son esos límites?
79. Biclwell Electronics, Inc., hace poco entrevistó a una muestra de empleados para determinar
qué tan lejos vivían de las oficinas de la compañía. Los resultados se muestran a continua-
ción. Calcule la media y la desviación estándar.
Distancia (millas) Frecuencia M

De 0 a 5 4 2.5
de 5 a 10 15 7.5
de 10 a 15 27 12.5
de 15 a 20 18 17.5
de 20 a 25 6 22.5

exercises.com
80. El National Center for Health Statistics tiene un sitio web en: http://www.cdc.gov/nchs. En la
sección titulada Tabulated State Data, haga clic en Births. Vaya a esa página y busque la
tabla "Uve Births by Race and Hispanic Origin of Mother: U.S., Each State, Puerto Rico, Vir
gin Islands, and Guam". Suponga que está interesado en las tasas de nacimiento para los
50 estados. Calcule la media, la mediana y la desviación estándar. Escriba un breve repor
te resumiendo los datos.
81. Hay muchos sitios web de finanzas que proporcionan información sobre acciones por indus
tria. Por ejemplo, vaya a http://biz.yahoo.com y seleccione Stock Research; en Analyst Re-
Descripción de datos: medidas de ubicación 91

search, seleccione Sector/lndustry. Hay muchas opciones disponibles, como Energy, Fi-
nancial y Healthcare. Elija uno de esos sectores, como Healthcare. Se va a abrir otra lista de
opciones; seleccione una, como Major Drug. Aparecerá una lista de las compañías en esa
industria. Seleccione una de las variables disponibles, como la razón entre precios y ganan-
cias, que aparece como P/E. Esta variable es la razón del precio de venta de una acción de la
compañía con las ganancias correspondientes. Descargue esta información en Excel y en-
cuentre la media, la mediana y la desviación estándar. Regrese a Sector/Industria y elija otro
Sector e Industria. Tal vez quiera seleccionar Energía y luego Carbón. Aparecerá una lista
de compañías. Elija la misma variable que antes. Descargue la información en Excel y en-
cuentre la media, la mediana y la desviación estándar para esta industria. Compare la infor-
mación de ambos sectores. Escriba un breve reporte resumiendo sus descubrimientos. ¿Las
medias son diferentes? ¿Hay mayor variabilidad en una industria que en la otra? 82. Uno de
los promedios más famosos, el Promedio Industrial Dow Jones (DJIA, por sus siglas en inglés),
en realidad no es un promedio. La siguiente es una lista de las 30 compañías cuyos precios
accionarios forman el DJIA, su símbolo, su peso actual y el valor de cierre el 24 de abril de
2003. Utilice un paquete de software para encontrar la media de las 30 acciones. El DJIA cerró
en 8 440.04. ¿Es éste el valor que encontró para el promedio de las 30 acciones?

Compañía Símbolo Peso Cierre $


3MCo. MMM 10.4312 125.72
Alcoa Inc. AA 1.8262 22.01
Altria Group Inc. MO 2.7298 32.90
American Express Co. AXP 3.0741 37.05
AT&T Corp. T 1.3715 16.53
Boeing Co. BA 2.2925 27.63
Caterpillar Inc. CAT 4.3768 52.75
Citigroup Inc. C 3.2508 39.18
Coca-Cola Co. KO 3.3114 39.91
E.I. DuPont de Nemours & Co. DD 3.4724 41.85
Eastman Kodak Co. EK 2.4809 29.90
Exxon Mobil Corp. X0M 2.9148 35.13
General Electric Co. GE 2.4145 29.10
General Motors Corp. GM 3.0417 36.66
Hewlett-Packard Co. HPQ 1.311 15.80
Home Depot Inc. HD 2.2942 27.65
Honeywell International Inc. HON 1.9233 23.18
Intel Corp. INTC 1.5723 18.95
IBM IBM 7.07 85.21
International Paper Co. IP 2.9372 35.40
J.P. Morgan Chase & Co. JPM 2.3697 28.56
Johnson & Johnson JNJ 4.7709 57.50
McDonald's Corp. MCD 1.3209 15.92
Merck & Co. Inc. MRK 4.8372 58.30
Microsoft Corp. MSFT 2.115 25.49
Procter & Gamble Co. PG 7.4567 89.87
SBC Communications Inc. SBC 1.8685 22.52
United Technologies Corp. UTX 5.0447 60.80
Wal-Mart Stores Inc. WMT 4.5726 55.11
Walt Disney Co. DIS 1.5474 18.65

Puede leer la historia del DJIA visitando http://www.djindexes.com y haciendo clic en About
the Dow. Aquí encontrará la explicación sobre por qué éste no es realmente un promedio.
Hay muchos sitios que puede visitar para verificar el valor actual del DJIA, http://www.cnnfn.
com, http://www.foxnews.com/news/features/dow y http://www.usatoday.com son tres de las
numerosas fuentes. Para encontrar una lista de las acciones reates que constituyen el pro-
medio, visite http://www.bloomberg.com. En la barra de herramientas, haga clic en Market
92 Capítulo 3

Data, luego baje por el lado izquierdo de la pantalla, seleccione Stocks y después Dow. Se
abrirá una lista con los precios de venta actuales de las 30 acciones que forman el DJIA.

Ejercicios de la base de datos


83. Consulte los datos Real Estate, que proporcionan información sobre las casas vendidas en
el área de Denver, Colorado, el año pasado.
a. Seleccione el precio de venta de las variables.
1. Encuentre la media, la mediana y la desviación estándar.
2. Escriba un breve resumen de la distribución de los precios de venta.
b. Seleccione la variable que se refiere al área de la casa en pies cuadrados.
1. Encuentre la media, la mediana y la desviación estándar.
2. Escriba un resumen de la distribución del área de las casas.
84. Consulte los datos Baseball 2003, que proporcionan información sobre los 30 equipos de li
ga mayor para la temporada de béisbol 2003.
a. Seleccione la variable de los salarios de los equipos y encuentre la media, la mediana
y la desviación estándar.
b. Seleccione la variable que se refiere al año en que se construyó el estadio. (Nota. Res
te el año actual al año en el que el estadio se construyó para conocer la edad del esta
dio y trabajar con esa variable.) Encuentre la media, la mediana y la desviación estándar.
c. Seleccione la variable que se refiere a la capacidad del estadio. Encuentre la media, la
mediana y la desviación estándar.
85. Consulte los datos CIA, que proporcionan información demográfica y económica sobre 46
países.
a. Seleccione la variable Life Expectancy.
1. Encuentre la media, la mediana y la desviación estándar.
2. Escriba un breve resumen de la distribución de las expectativas de vida.
b. Seleccione la variable GDP/cap.
1. Encuentre la media, la mediana y la desviación estándar.
2. Escriba un resumen de la distribución GDP/cap.

Comandos de software
1. Los comandos de Excel para la estadística descriptiva
en la página 86 son:
a. Del CD recupere el archivo de datos Whitner, que
se llama Table2-1.
b. De la barra de menú, seleccione Tools y luego Da
ta Analysis. Seleccione Descriptive Statistics y
haga clic en OK.
c. Para el Input Range, escriba A1:A81, indique que
los datos están agrupados por columna y que las
etiquetas están en la primera fila. Haga clic en Out-
put Range, indique que la salida deberá ir en D1 (o
cualquier lugar que usted quiera), haga c//cen Su-
mary Statistics y luego en OK.
4, Cuando obtenga los resultados, revise dos veces la
lista para estar seguro de que contiene el número
correcto de elementos.
Descripción de datos: medidas de ubicación 93

2. Los comandos de MINITAB para el resumen descriptivo


en la pagina 78 son.
a. Del CD recupere los datos Whitner. que se llaman
Table2-1
b. Seleccione Stat, Basic Statistics y luego Display
Descriptive Statistics. En el cuadro de diálogo,
seleccione Price como la variable y haga clic en
Graphs en la esquina inferior derecha. En el cua-
dro de diálogo, seleccione Histogram of data, with
normal curve y haga che en OK. Haga clic en OK
en el siguiente cuadro de diálogo.
94 Capítulo 3

Capítulo 3 Respuestas a las autoevaluaciones


Descripción de datos: medidas de ubicación 95
Descripción de datos:
presentación y exploración de datos

Una importante línea aérea quería información sobre los participantes en el programa "via-
jero frecuente". Una muestra de 48 miembros dio como resultado información que ilustra las
millas que cada uno recorrió el año pasado. Revise los datos y elabore un diagrama de caja
con ellos. (Vea la Meta 4 y el Ejercicio 41.)
Descripción de datos: presentación y exploración de datos 97

Introducción
En el Capítulo 2 empezó nuestro estudio de la estadística descriptiva. A fin de transformar
datos en bruto o no agrupados en una forma significativa, organizamos la información en
una distribución de frecuencias. Presentamos la distribución de frecuencias en forma gráfi-
ca como un histograma o un polígono de frecuencias. Esto nos permitió visualizar el punto
en el que los datos tienden á agruparse, los valores más altos y los más bajos y la forma
general de la información. -
En el Capítulo 3 primero calculamos diversas medidas de ubicación, como la medía y
la mediana. Éstas nos permite reportar un valor típico en el conjunto de observaciones. Asi-
mismo, calculamos varias medidas de dispersión, como el rango y la desviación estándar.
Éstas nos permiten describir la variación o extensión en un conjunto de observaciones.
En este capítulo, continuamos nuestro estudio de la estadística descriptiva. Empezamos
con los diagramas de puntos y los diagramas de caja. Ambos nos ofrecen una perspectiva
adicional del lugar donde los valores están concentrados y dispersos, así como la forma ge-
neral de la información. Después, presentamos algunas otras medidas de dispersión, como
cuartiles, deciles y percentiles. Por último, consideramos los datos bivariables, en los que
observamos dos variables para cada observación seleccionada. Algunos ejemplos incluyen:
la edad de un estudiante y el lugar que tiene en la clase, si un producto que participó en una
muestra es aceptable o no y el turno en el que se fabricó, y la cantidad de electricidad que con-
sumió en un mes el dueño de una casa y la temperatura alta media diaria en la región
durante ese mes.

Diagramas de puntos
Un histograma agrupa los datos en clases. Recuerde que en los datos sobre Whitner Autoplex,
de la Tabla 2-1, las 80 observaciones se condensaron en siete clases. Al organizar los datos
en estas siete clases perdimos el valor exacto de las observaciones. Por otro lado, un dia-
grama de puntos agrupa los datos lo menos posible y no perdemos la identidad de una
observación individual. Para desarrollar un diagrama de puntos simplemente desplegamos
un punto para cada observación a lo largo de una línea numérica horizontal indicando los
posibles valores de la información. Si hay observaciones idénticas o tan parecidas que no
se pueden mostrar en forma individual, los puntos se "apilan" uno encima de otro. Esto nos
permite ver la forma de la distribución, el valor alrededor del cual los datos tienden a agru-
parse y las observaciones más alta y más baja. Los diagramas de puntos son más útiles
para conjuntos de datos pequeños, mientras que los histogramas suelen ser más útiles para
conjuntos más grandes de datos. Un ejemplo le mostrará cómo elaborar e interpretar los
diagramas de puntos.

Recuerde que en la Tabla 2-1 de la página 25 presentamos la información sobre el precio


de venta de 80 vehículos vendidos el mes pasado en Whitner Autoplex en Raytown,
Missouri. Whitner es una de las numerosas agencias propiedad de AutoUSA. Esta com-
pañía tiene muchas otras agencias localizadas en ciudades pequeñas de todo Estados
Unidos. A continuación, reportamos el número de vehículos vendidos durante los últimos 24
meses en Smith Ford Mercury Jeep, Inc., en Kane, Pennsylvania, y Brophy Honda Volskwa-
gen en Greenville, Ohio. Elabore los diagramas de puntos y reporte las estadísticas resumi-
das de los dos lotes de AutoUSA que están en estas pequeñas ciudades.
98 Capítulo 4

El programa MINITAB ofrece un diagrama de puntos y calcula la media, la mediana, los valo-
res máximo y mínimo, y la desviación estándar para el número de autos vendidos en cada
una de las agencias durante los últimos 24 meses.

En la estadística descriptiva vemos que Brophy vendió un promedio de 35.83 vehículos


al mes y Smith un promedio de 31.29. De modo que Brophy vende un promedio de 4.54
vehículos más al mes. También existe mayor dispersión o variación en las ventas mensua-
les de Brophy que en las de Smith. ¿Cómo sabemos esto? La desviación estándar es mayor
en Brophy (4.96 autos al mes) que en Smith (4.11 autos cada mes).
El diagrama de puntos, que se muestra en la esquina inferior derecha de la pantalla,
muestra las distribuciones de ambas agencias. Los puntos muestran la diferencia en la ubi-
cación y la dispersión de las observaciones. Si observamos los puntos, veremos que las
ventas de Brophy son más dispersas y tienen una media más alta que las de Smith. Hay
otras características de las ventas mensuales que saltan a la vista:

• Smith vendió la menor cantidad de autos de todos los meses, 23.


• Brophy vendió 26 autos en el mes más bajo, 4 autos menos que el siguiente mes más
bajo.
• Smith vendió exactamente 32 autos en cuatro meses diferentes.
• Las ventas mensuales se agrupan alrededor de 32 para Smith y de 36 para Brophy.

Gráficas de tallo y hojas


En el Capítulo 2 mostramos cómo organizar los datos en una distribución de frecuencias,
con el fin de resumir la información en bruto en una forma significativa. La principal ventaja
de organizar los datos en una distribución de frecuencias es que nos damos una idea de la
forma de la distribución sin tener que realizar ningún otro cálculo. Es decir, vemos en qué
lugar se concentran los datos y determinamos si hay valores muy altos o muy bajos. Sin
Descripción de datos: presentación y exploración de datos 99

embargo, la organización de los datos de esta manera tiene dos desventajas: (1) perdemos
la identidad exacta de cada valor y (2) no sabemos con seguridad cómo están distribuidos
los valores en cada una de las clases. Para explicar, la siguiente distribución de frecuencias
muestra el número de espacios publicitarios que compraron los 45 miembros de la Greater
Buffalo Automobile Dealers Association en el año 2003. Observamos que 7 de las 45 agen-
cias compraron de 90 a 100 espacios. Sin embargo, no podemos saber si el número de
espacios comprados en esta clase se agrupan cerca de 90, se extiende de manera uniforme
por toda la clase o se agrupan cerca de 99.

Una de las técnicas que se emplean para mostrar la información cuantitativa de manera
condensada es el diagrama de tallo y hojas. Una ventaja de este diagrama sobre la dis-
tribución de frecuencias es que no perdemos la identidad de cada observación. En el ejem-
plo anterior, no conocíamos la identidad de los valores en la clase de 90 a 100. Para ilustrar
la elaboración de un diagrama de tallo y hojas utilizando el número de espacios publicitarios
comprados, supongamos que siete observaciones en la clase de 90 a 100 son: 96, 94, 93,
94, 95, 96 y 97. El valor de tallo es el dígito líder, en este caso, 9. Las hojas son los dígi-
tos secundarios. El tallo se coloca a la izquierda de una línea vertical y los valores de las
hojas a la derecha.
Los valores en la clase de 90 a 100 aparecerían como sigue:

Por último, clasificamos los valores en cada tallo del más bajo al más alto. Por tanto, la segun-
da fila del diagrama de tallo y hojas aparecería como sigue:

Con el diagrama de tallo y hojas podemos observar con rapidez que hay dos agencias que
compraron 94 espacios y que el número de espacios comprados varía de 93 a 97. Un dia-
grama de tallo y hojas es similar a una distribución de frecuencias con más información; es
decir, se conserva la identidad de las observaciones.

DIAGRAMA DE TALLO Y HOJAS. Técnica estadística para presentar un conjunto de


datos. Cada valor numérico se divide en dos partes. El (los) dígito(s) líder(es) se con-
vierte(n) en el tallo y los dígitos secundarios son las hojas. Los tallos se colocan a lo
largo del eje vertical y los valores de las hojas a lo largo del eje horizontal.

El ejemplo siguiente explica los detalles de la elaboración de un diagrama de tallo y hojas.


100 Capítulo 4

En la Tabla 4-1 se presenta el número de espacios publicitarios de 30 segundos en la radio


que compraron cada uno de los 45 miembros de la Greater Buffalo Automobile Dealers
Association el año pasado. Organice los datos en un diagrama de tallo y hojas. ¿Alrededor
de qué valores tiende a agruparse el número de espacios publicitarios? ¿Cuál es el número
más bajo de espacios comprados por una agencia? ¿El número más alto?

Cantidad de espacios publicitarios comprados por los miembros de la Greater. Buffalo


Automobile Dealers Association

En la información de la Tabla 4-1 observamos que el número más bajo de espacios com-
prados es 88. De modo que el primer valor de tallo es 8. El número más alto es 156, de
modo que los valores de tallo empezarán en el 8 y continuarán hasta el 15. El primer
número en la Tabla 4-1 es 96, que tiene un valor de tallo de 9 y un valor de hoja de 6.
Siguiendo en la primera fila, el segundo valor es 93 y el tercero es 88. Después de conside-
rar los tres primeros valores de datos, el diagrama queda como sigue.

Después de organizar todos los datos, el diagrama de tallo y hojas se ve así.

El procedimiento normal consiste en clasificar los valores de las hojas desde el más bajo
hasta el más alto. La última fila, que es la que se refiere a los valores cercanos a 150, apare-
cería como sigue:

La tabla final, donde clasificamos todos los valores de las hojas, quedaría así:
Descripción de datos: presentación y exploración de datos 101

Podemos obtener varias conclusiones a partir del diagrama de tallo y hojas. En primer
lugar, el número mínimo de espacios comprados es 88 y el máximo es 156. Dos agencias
compraron menos de 90 espacios, y tres 150 o más. Por ejemplo, podemos observar que
las tres agencias que adquirieron más de 150 espacios, en realidad compraron 155, 155 y
156. La concentración del número de espacios es entre 110 y 130. Nueve agencias com-
praron entre 110 y 119 espacios y ocho adquirieron entre 120 y 129. También podemos
decir que, en el grupo de 120 a 129, el número real de espacios comprados se encuentra
esparcido de manera uniforme. Es decir, dos agencias compraron 120 espacios, una adqui-
rió 124, tres compraron 125 y dos 127 espacios.
También podemos generar esta información con el software MINITAB. A la variable, le
ponemos el nombre de Spots. A continuación, presentamos la pantalla de MINITAB. Al final
del capítulo encontrará los comandos de MINITAB que producen estos resultados.

La solución de MINITAB proporciona información adicional acerca de los totales acu-


mulados. En la columna que se encuentra a la izquierda de los valores de tallo están los
números 2, 9,15, y así sucesivamente. El número 9 indica que existen 9 observaciones que
ocurrieron antes del valor de 100. El número 15 indica que hay 15 observaciones que ocu-
rrieron antes de 110. Casi a la mitad de la columna, el número 9 aparece entre paréntesis.
Los paréntesis indican que el valor medio o mediano aparece en esa fila y que hay nueve
valores en este grupo. En este caso, describimos los valores medios como el valor debajo
del cual ocurrieron la mitad de las observaciones. Hay un total de 45 observaciones, de
ª
modo que el valor medio, si los datos se ordenaran del más bajo al más alto, sería la 23
102 Capítulo 4

observación; su valor es 118. Después de la mediana, los valores empiezan a bajar. Éstos
representan los totales acumulados "más que". Hay 21 observaciones de 120 o más, 13 de
130 o más, etcétera. El número 9 entre paréntesis también señala que hay 9 observaciones
en la fila intermedia.

1. En el siguiente diagrama de puntos se muestra el número de empleados en cada una de


las 142 tiendas Home Depot en la región sureste de Estados Unidos.

Responda las preguntas siguientes.

(a) ¿Cuáles son los números máximo y mínimo de empleados por tienda?
(b) ¿Cuántas tiendas dan empleo a 91 personas?
(c) ¿Alrededor de qué valores tiende a agruparse el número de empleados por tienda?

2. Las razones de precio-ganancia para 21 acciones en la categoría de comercio al detalle


son:

Organice esta información en un diagrama de tallo y hojas.


(a) ¿Cuántos valores son menores a 9.0?
(b) Mencione los valores en la categoría de 10.0 a 11.0.
(c) ¿Cuál es el valor mediano?
(d) ¿Cuáles son las razones de precio-ganancia máxima y mínima?
Descripción de datos: presentación y exploración de datos 103

Ejercicios
1. Describa las diferencias entre un histograma y un diagrama de puntos. ¿En qué casos es
mejor utilizar un diagrama de puntos que un histograma?
2. Describa las diferencias entre un histograma y un diagrama de tallo y hojas.
3. Considere el diagrama siguiente.

a. ¿Cómo se llama este diagrama?


b. ¿Cuántas observaciones hay en el estudio?
c. ¿Cuáles son los valores máximo y mínimo?
d. ¿Alrededor de qué valores tienden a agruparse las observaciones?
4. El diagrama siguiente reporta el número de relojes vendidos cada día en Shaver Clocks
durante los últimos 26 días.

a. ¿Cuál es el número máximo y mínimo de relojes vendidos en un día?


b. ¿Cuál es el número típico de relojes vendidos?
5. La primera fila de un diagrama de tallo y hojas aparece como sigue: 62 I 1 3 3 7 9. Suponga
que los valores son números enteros.
a. ¿Cuál es el "rango posible" de los valores en esta fila?
b. ¿Cuántos valores de datos se encuentran en esta fila?
c. Mencione los valores reales en esta fila de datos.
6. ; La tercera fila de un diagrama de tallo y hojas aparece cómo sigue: 21 I 0 1 3 5 7 9. Suponga
que los valores son números enteros.
a. ¿Cuál es el "rango posible" de los valores en esta fila?
b. ¿Cuántos valores de datos se encuentran en esta fila?
c. Mencione los valores reales en esta fila de datos.
7. El siguiente diagrama de tallo y hojas del software MINITAB muestra el número de unidades
producidas cada día en una fábrica.

a. ¿Cuántos días se estudiaron?


b. ¿Cuántas observaciones se encuentran en la primera clase?
c. ¿Cuáles son los valores mínimo y máximo?
d. Mencione los valores reales en la cuarta fila.
e. Mencione los valores reales en la segunda fila.
f. ¿Cuántos valores son menores de 70?
g. ¿Cuántos valores son 80 o más?
h. ¿Cuál es la mediana?
i. ¿Cuántos valores se encuentran entre 60 y 89, inclusive?
104 Capítulo 4

a. ¿Cuántos días se estudiaron?


8. El siguiente diagrama de tallo y hojas reporta el número de películas rentadas al día en Video
Connection en la esquina de las calles Fourth y Main.

b. ¿Cuántas observaciones se encuentran en la última clase?


c. ¿Cuáles son los valores máximo y mínimo en todo el conjunto de datos?
d. Mencione los valores reales en la cuarta fila.
e. Mencione los valores reales en la penúltima fila.
f. ¿En cuántos días se rentaron menos de 160 películas?
g. ¿En cuántos días se rentaron 220 o más películas?
h. ¿Cuál es el valor medio?
i. ¿En cuántos días se rentaron entre 170 y 210 películas?

9. En una encuesta sobre el número de llamadas recibidas la semana pasada por una muestra
de suscriptores de la Southern Phone Company reveló la siguiente información. Elabore un
diagrama de tallo y hojas. ¿Cuántas llamadas recibió un suscriptor típico? ¿Cuál es el nú-
mero máximo y mínimo de llamadas recibidas?

10. Aloha Banking Co., estudia el uso de cajeros automáticos en los suburbios de Honolulú. Una
muestra de 30 cajeros automáticos mostró que se utilizaron los siguientes números de veces
el día de ayer. Elabore un diagrama de tallo y hojas. Resuma el número de veces que se usó
cada cajero: ¿Cuál fue el número de veces típico, mínimo y máximo que se utilizó cada
cajero automático?

Otras medidas de dispersión


La desviación estándar es la medida de dispersión que se utiliza con mayor frecuencia. Sin
embargo, hay otras formas de describir la variación o extensión en un conjunto de datos.
Uno de los métodos consiste en determinar la ubicación de los valores que dividen un grupo
de observaciones en partes iguales. Estas medidas incluyen cuartiles, deciles y percentiles.
Descripción de datos: presentación y exploración de datos 105

Los cuartiles dividen un grupo de observaciones en cuatro partes ¡guales. Para expli-
carlo mejor, piense en cualquier conjunto de valores ordenados del más bajo al más alto.
En el Capítulo 3, dijimos que el valor medio de un conjunto de datos ordenados del más
bajo al más alto se llama mediana. Es decir, 50% de las observaciones son más altas que
la mediana y 50% son más bajas. La mediana es una medida de ubicación porque indica el
centro de los datos. De manera similar, los cuartiles dividen un grupo de observaciones en
cuatro partes iguales. El primer cuartil, indicado casi siempre como Q1 es el valor debajo
del cual ocurren 25% de las observaciones, y el tercer cuartil, que por lo general se indica
como Q3, es el valor debajo del cual ocurren 75% de las observaciones. Por lógica, Q2 es la
mediana. Los valores que corresponden a Q1 Q2 y Q3 dividen un conjunto de datos en cuatro
partes iguales. Podemos considerar que Q, es la "mediana" de la mitad inferior de los
datos y Q3 es la "mediana" de la mitad superior.
De modo similar, los deciles dividen un grupo de observaciones en 10 partes iguales y
los percentiles en 100 partes ¡guales. De modo que si su promedio general en su universi-
o
dad se encuentra en el 8 decil, podríamos llegar a la conclusión de que 80% de los estu-
diantes tuvo un promedio general más bajo que el suyo y 20% obtuvo un promedio más alto.
Un promedio general en el 33° percentil significa que 33% de los estudiantes tienen un
promedio más bajo y 67% un promedio más alto. Las calificaciones en percentiles se uti-
lizan con frecuencia para reportar los resultados en pruebas nacionales estandarizadas
como SAT, ACT, GMAT (que se usa para determinar si un estudiante puede participar en los
programas de Maestría en Administración de Empresas) y LSAT (que se utiliza para deter-
minar la entrada a las facultades de derecho).

Cuartiles, deciles y percentiles


Para formalizar el procedimiento de cálculo, supongamos que Lp se refiere a la ubicación de
un percentil deseado. De modo que si queremos encontrar el percentil 33 utilizamos L33 y si
queremos la mediana, el percentil 50, usamos L50. El número de observaciones es n, de
modo que si queremos encontrar la mediana, su posición está en (n + 1)/2, o bien,
podríamos escribirla como (n+ 1) (P/100), donde P es el percentil deseado.

Un ejemplo nos ayudará a explicarlo mejor.

A continuación, presentamos las comisiones ganadas el mes pasado por una muestra de
15 corredores en la oficina de Salomón Smith Barney situada en Oakland, California.
Salomón Smith Barney es una compañía de inversiones con oficinas en todo Estados
Unidos.

Encuentre la mediana, el primer cuartil y el tercer cuartil para las comisiones ganadas.

El primer paso consiste en organizar los datos de la comisión más baja hasta la más alta.
106 Capítulo 4

El valor mediano es la observación en el centro. El valor


central o L50 se localiza en (n + 1)(50/100), donde n es
el número de observaciones. En este caso, es la posi-
ción número 8, que encontramos así: (15 + 1)(50/100).
La octava comisión más alta es $2 038. De modo que lle-
gamos a la conclusión de que ésta es la mediana y que
la mitad de los corredores ganaron comisiones de
más de $2 038 y que la mitad ganó menos de $2 038.
Recordemos la definición de cuartil. Los cuartiles
dividen un grupo de observaciones en cuatro partes
iguales. De ahí que 25% de las observaciones serán
menores que el primer cuartil. Del total de las observa-
ciones, 75% serán menores que el tercer cuartil. Para
localizar el primer cuartil, empleamos la fórmula (4-1),
donde n= 15 y P=25:

y para ubicar el tercer cuartil,

Por tanto, los valores del primero y tercer cuartiles se encuentran en las posiciones 4 y 12.
El cuarto valor en la serie ordenada es $1 721 y el decimosegundo es $2 205. Éstos son el
primero y el tercer cuartil, respectivamente.

En el ejemplo anterior, la fórmula de localización produjo como resultado un número


entero. Es decir, queríamos encontrar el primer cuartil y teníamos 15 observaciones, de
modo que la fórmula de localización indicaba que teníamos que encontrar el cuarto valor
ordenado. ¿Qué sucedería si tuviéramos 20 observaciones en la muestra, es decir, n = 20,
y quisiéramos encontrar el primer cuartil? A partir de la fórmula (4-1):

Encontraríamos el quinto valor en la serie ordenada y luego lo moveríamos 0.25 de la dis-


tancia entre el valor quinto y el sexto y lo reportaríamos como el primer cuartil. Al igual que
la mediana, el cuartil no necesita ser uno de los valores reales en el conjunto de datos.
Para explicarlo mejor, supongamos que el conjunto de datos contiene los seis valores:
91, 75, 61, 101, 43 y 104. Queremos localizar el primer cuartil. Ordenamos los valores del
más bajo al más alto: 43, 61, 75, 91, 101 y 104. El primer cuartil se encuentra en

La fórmula de posición nos indica que el primer cuartil se encuentra entre el primero y el
segundo valor, y que está a 0.75 de la distancia entre ambos valores. El primer valor es 43
y el segundo es 61. De modo que la distancia entre estos dos valores es 18. Para encon-
trar el primer cuartil necesitamos moverlo 0.75 de la distancia entre el primero y el segun-
do valor, de modo que 0.75(18) = 13.5. Para terminar el procedimiento, sumamos 13.5 al
primer valor y reportamos que el primer cuartil es 56.5.
Podemos ampliar esta idea para incluir tanto los deciles como los percentiles. Si quisié-
ramos encontrar el percentil 23 en una muestra de 80 observaciones, tendríamos que bus-
car la posición 18.63.
Descripción de datos: presentación y exploración de datos 107

Para encontrar el valor que corresponde al percentil 23, tendríamos que buscar los valores
18 y 19 y determinar la distancia entre ambos. A continuación, tendríamos que multiplicar
esta diferencia por 0.63 y sumar el resultado al valor más bajo. El resultado sería el percentil
23.
Con un paquete de software de estadística es muy fácil ordenar los datos del más bajo
al más alto y buscar los percentiles y deciles. Tanto MINITAB como Excel producen estadís-
ticas resumidas. A continuación, presentamos los resultados de MINITAB. Los datos se
reportan en $000. Se incluyen el primer y el tercer cuartil, así como la media, la mediana y
la desviación estándar para los datos de Whitner Autoplex (vea la Tabla 2-1). Llegamos a la
conclusión de que 25% de los vehículos se vendieron en menos de $20 074 y 75% en
menos de $25 795.

Los siguientes resultados obtenidos con Excel incluyen la misma información acerca de
la media, la mediana y la desviación estándar. También calculamos los cuartiles, pero el
método de cálculo no es muy preciso. Para encontrar los cuartiles, multiplicamos el tamaño
de la muestra por el percentil deseado y reportamos el entero de ese valor. Para explicarlo
mejor, en los datos de Whitner Autoplex hay 80 observaciones y queremos localizar el per-
centil 25. Multiplicamos (n + 1) = (80 + 1) = 81 por 0.25; el resultado es 20.25. Excel no nos
permite capturar una fracción, de modo que utilizamos 20 y pedimos la ubicación de los 20
valores más altos y los 20 valores más bajos. El resultado es una buena aproximación de
los percentiles 25 y 75.
108 Capítulo 4

Autoevaluación 4-2 El departamento de control de calidad de Plainsville Peanut Company es responsable de veri-
ficar el peso de los frascos de 8 onzas de mantequilla de maní. Los pesos de una muestra de
nueve frascos producidos en la última hora son:

(a) ¿Cuál es el peso mediano?


(b) Determine los pesos que corresponden al primer y tercer cuartiles.

Ejercicios
11. Determine la mediana y los valores que corresponden al primero y tercer cuartiles en los
datos siguientes.

12. Determine la mediana y los valores que corresponden al primer y tercer cuartiles en los
datos siguientes.

13. The Thomas Supply Company, Inc., es un distribuidor de motores eléctricos pequeños.
Como sucede en cualquier negocio, el tiempo que los clientes tardan en pagar sus facturas
es importante. A continuación, presentamos los tiempos de pago, en días, y ordenados del
más bajo al más alto para una muestra de facturas de The Thomas Supply Company, Inc.

a. Determine el primer y el tercer cuartiles.


b. Determine el segundo y el octavo deciles.
c. Determine el percentil 67.
14. Kevin Hom es el gerente nacional de ventas de la National Textbooks, Inc., y tiene un perso-
nal de ventas formado por 40 personas, que visitan a los profesores universitarios de todo Es-
tados Unidos. Cada sábado por la mañana pide a su personal de ventas que le envíe un
reporte. Éste incluye, entre otras cosas, el número de profesores a los que se les hizo una vi-
sita en la semana anterior. A continuación, presentamos una lista con los números de visitas
realizadas la semana pasada, ordenados del más bajo al más alto.

a. Determine el número mediano de visitas.


b. Determine el primer y el tercer cuartiles.
c. Determine el primer y el noveno deciles.
d. Determine el percentil 33.

Diagramas de caja
Un diagrama de caja es una representación gráfica, basada en cuartiles, que nos ayuda a
ilustrar un conjunto de datos. Para elaborar un diagrama de caja sólo necesitamos cinco
estadísticas: el valor mínimo, O, (el primer cuartil), la mediana, O3 (el tercer cuartil) y el valor
máximo. Un ejemplo nos ayudará a explicarlo mejor.
Descripción de datos: presentación y exploración de datos 109

Alexander's Pizza ofrece la entrega gratuita de sus pizzas en un área de 15 millas. Alex, el
dueño, quiere información sobre el tiempo de entrega. ¿Cuánto tarda una entrega típica?
¿En qué rango de tiempo se realiza la mayor parte de las entregas? Para una muestra de
20 entregas, se determinó la información siguiente:

Elabore un diagrama de caja para los tiempos de entrega. ¿A qué conclusiones llega acer-
ca de los tiempos de entrega?

El primer paso en la elaboración de un diagrama de caja consiste en crear una escala


apropiada a lo largo del eje horizontal. A continuación, trazamos un cuadro que empiece en
Q1 (15 minutos) y termine en Q3 (22 minutos). Dentro del cuadro, dibujamos una línea ver-
tical para representar la mediana (18 minutos). Por último, trazamos líneas horizontales
desde el cuadro hasta el valor mínimo (13 minutos), y el valor máximo (30 minutos). Estas
líneas horizontales fuera del cuadro en ocasiones se conocen como "bigotes" porque se
parecen un poco a los bigotes de un gato.

El diagrama de caja muestra que el valor medio de las entregas, 50%, tarda entre 15 y
22 minutos. La distancia entre los extremos del cuadro, 7 minutos, es el rango intercuartil.
Esto es la distancia entre el primero y el tercer cuartiles, y muestra la extensión o disper-
sión de la mayor parte de las entregas.

El diagrama de caja también revela que la distribución de los tiempos de entrega tiene ,
un sesgo positivo. ¿Cómo lo sabemos? En este caso, en realidad, existen dos piezas de
información que sugieren que la distribución tiene un sesgo positivo. En primer lugar, la
línea punteada a la derecha del cuadro desde 22 minutos (Q 3) hasta el tiempo máximo de
30 minutos es más larga que la línea punteada a la izquierda que va desde 15 minutos (Q1)
hasta el valor mínimo de 13 minutos. En otras palabras, el 25% de los datos mayores al ter-
cer cuartil están más dispersos que el 25% menor al primer cuartil. Una segunda señal del
sesgo positivo es que la mediana no está en el centro del cuadro. La distancia desde el
primer cuartil hasta la mediana es menor que la distancia desde la mediana hasta el tercer
cuartil. Sabemos que el número de tiempos de entrega entre 15 y 18 minutos es igual al
número de tiempos de entrega entre 18 y 22 minutos.

Consulte los datos de Whitner Autoplex en la Tabla 2-1. Elabore un diagrama de caja con la
información. ¿A qué conclusión llegamos acerca de la distribución de los precios de venta
de los vehículos?
110 Capítulo 4

El software de estadística MINITAB fue utilizado para desarrollar la gráfica siguiente:

Llegamos a la conclusión de que el precio mediano de los autos es alrededor de $23 000,
de que aproximadamente 25% de los vehículos se vendieron en menos de $20 000 y que
casi 25% se vendió en más de $26 000. Alrededor de 50% de los autos se vendieron a un
precio entre $20 000 y $26 000. La distribución tiene un sesgo positivo porque la línea arri-
ba de $26 000 es ligeramente más larga que aquella que está debajo de $26 000.
Hay un asterisco (*) sobre el precio de venta de $35 000, y éste indica un externo. Un
externo es un valor inconsistente con el resto de los datos. La definición estándar de un
externo es un valor que, en el rango intercuartil, es más de 1.5 veces menor que Q1 o mayor
que Q3. En este ejemplo, un externo sería un valor mayor que $35 000, calculado mediante

Un valor menor que $11 000 también es externo.

El diagrama con MINITAB indica que sólo hay un valor mayor que $35 000. Sin embargo, si
observa los datos reales en la Tabla 2-1 de la página 25, se dará cuenta de que en realidad
hay dos valores ($35 851 y $35 925). El software no pudo incluir en la gráfica los dos pun-
tos de datos, pues se encuentran muy cerca, de modo que sólo muestra un asterisco.

Se da el siguiente diagrama de caja.

¿Cuál es la mediana, el valor más alto y el más bajo, y el primero y tercer cuartiles? ¿Está de
acuerdo en que la distribución es simétrica?
Descripción de datos: presentación y exploración de datos 111

Ejercicios
15. Consulte el siguiente diagrama de caja.

a. Calcule la mediana.
b. Calcule el primer y tercer cuartiles.
c. Determine el rango intercuartil.
d. ¿Más allá de qué punto un valor se considera incongruente?
e. Identifique todos los incongruentes y calcule su valor.
f. ¿La distribución es simétrica, con sesgo positivo o con sesgo negativo?
16. Consulte el siguiente diagrama de caja.

a. Calcule la mediana.
b. Calcule el primer y tercer cuartiles.
c. Determine el rango intercuartil.
d. ¿Más allá de qué punto un valor se considera incongruente?
e. Identifique todos los incongruentes y calcule su valor.
f. ¿La distribución es simétrica, con sesgo positivo o con sesgo negativo?
17. En un estudio de las millas por galón de gasolina de los automóviles modelo 2004, la media
de las millas por galón fue 27.5 y la mediana de 26.8. El valor más bajo en el estudio
fue
12.70 millas por galón y el más alto fue 50.20. El primer y tercer cuartil fueron 17.95 y 35.45
millas por galón, respectivamente. Elabore un diagrama de caja y comente sobre su dis-
tribución. ¿Es simétrica?
18. Una muestra de 28 departamentos de tiempo compartido en Florida reveló las siguientes ta-
rifas diarias por una suite de una recámara. Por conveniencia, los datos se ordenan desde
el más bajo hasta el más alto. Elabore un diagrama de caja que represente la información.
Comente sobre la distribución. Asegúrese de identificar el primer y el tercer cuartiles, así
como la mediana.

$116 $121 $157 $192 $207 $209 $209


229 232 236 236 239 243 246
260 264 276 281 283 289 296
307 309 312 317 324 341 353
112 Capítulo 4

Dispersión relativa
Es imposible una comparación directa de dos o más medidas de dispersión (digamos, la
desviación estándar para una distribución de ingresos
anuales y la desviación estándar de una distribución
de ausentismo en un mismo grupo de empleados).
¿Podemos decir que la desviación estándar de $1 200
para la distribución de los ingresos es mayor que la
desviación estándar de 4.5 días para la distribución de
ausentismo? Obviamente no, porque no podemos com-
parar en forma directa dólares y días de ausencia del
trabajo. A fin de hacer una comparación significativa de
la dispersión en ingresos y ausentismo, necesitamos
convertir cada una de estas medidas en un valor rela-
tivo; es decir, un porcentaje. Karl Pearson (1857-1936),
en la fotografía, quien contribuyó de manera muy im-
portante a la ciencia de la estadística, desarrolló una
medida relativa llamada coeficiente de variación (CV).
Es una medida muy útil cuando:

Cuándo usar CV 1. Los datos están en unidades diferentes (como dólares y días de ausencia).
2. Los datos están en las mismas unidades, pero las medias son muy diferentes (como
los ingresos de los altos ejecutivos y los ingresos de los empleados de menor nivel).

COEFICIENTE DE VARIACIÓN. La razón de la desviación estándar con la media aritméti-


ca, expresada como un porcentaje.

En términos de una fórmula para una muestra:

COEFICIENTE DE VARIACIÓN

Un estudio de la cantidad de bonos pagados al año y los años de servicio de los emplea-
dos de Sea Pro Marine, Inc., de Newberry, Carolina del Sur, dio como resultado estas estadís-
ticas: el bono medio pagado fue $2 000; la desviación estándar fue $400. El número medio
de años de servicio fue 20 años; la desviación estándar fue 2 años. Compare la dispersión
relativa en ambas distribuciones utilizando el coeficiente de variación.

Las distribuciones están en unidades diferentes (dólares y años de servicio). Por tanto, se
convierten en coeficientes de variación.
Descripción de datos: presentación y exploración de datos 113

Interpretando lo anterior, hay más dispersión en relación con la media en la distribución de


los bonos pagados comparada con la distribución de los años de servicio (porque 20% >
10%).

El mismo procedimiento se utiliza cuando los datos están en las mismas unidades pero
las medias son muy diferentes. Vea el ejemplo siguiente.

La variación en los ingresos anuales de los ejecutivos de Nash-Rambler Products, Inc., se


puede comparar con la variación en los ingresos de los empleados no calificados. Para una
muestra de ejecutivos, Para una muestra de empleados no cali-
ficados, Estamos tentados a decir que hay más dispersión en
los ingresos anuales de los ejecutivos porque $50 000 > $3 200. Sin embargo, las medias
son tan diferentes que necesitamos convertir las estadísticas en coeficientes de variación
para hacer una comparación significativa de las variaciones en los ingresos anuales.

No hay ninguna diferencia en la dispersión relativa de ambos grupos.

A un grupo numeroso de novatos en la Fuerza Aérea se le dieron dos pruebas experimen-


tales: una prueba de aptitud para la mecánica y otra de destreza dactilar. La calificación media
aritmética en la prueba de aptitudes para la mecánica fue 200, con una desviación estándar
de 10. La media y la desviación estándar para la prueba de destreza dactilar fueron:
s = 6. Compare la dispersión relativa en ambos grupos.

Ejercicios
19. Para una muestra de estudiantes en la Facultad de Administración de Mid-Atlantic University,
el promedio medio es 3.10 con una desviación estándar de 0.25. Calcule el coeficiente de
variación.
20. Southwest Airlines estudia el peso del equipaje por cada pasajero. Para un grupo numeroso
de pasajeros nacionales, la media es 47 libras con una desviación estándar de 10 libras. Pa
ra un grupo numeroso de pasajeros internacionales, la media es 78 libras y la desviación es
tándar es 15 libras. Calcule la dispersión relativa de cada grupo. Comente sobre la diferencia
en la dispersión relativa.
21. Un analista investigador de la empresa de corretaje de bolsa Sidde Financial quiere com
parar la dispersión en las razones de precio-ganancia para un grupo de acciones comunes,
con la dispersión de su recuperación de la inversión. Para las razones de precio-ganancia,
la media es 10.9 y la desviación estándar es 1.8. La recuperación de la inversión media es
25% y la desviación estándar es 5.2%.
a. ¿Por qué se debe utilizar el coeficiente de variación para comparar la dispersión? b:
Compare la dispersión relativa para las razones de precio-ganancia y la recuperación de la
inversión.
22. Debemos comparar la extensión de los precios anuales de las acciones que se venden en
menos de $10 y la extensión en los precios de aquellas que se venden en más de $60. El
114 Capítulo 4

precio medio de las acciones que se venden en menos de $10 es $5.25 y la desviación
estándar es $1.52. El precio medio de las acciones que se venden en más de $60 es $92.50
y la desviación estándar es $5.28.
a. ¿Por qué se debe utilizar el coeficiente de variación para comparar la dispersión en los
precios?
b. Calcule los coeficientes de variación. ¿A qué conclusión llegó?

Sesgo
En el Capítulo 3, describimos las medidas de ubicación central para un grupo de observa-
ciones reportando la media, la mediana y la moda. También describimos las medidas que
muestran la cantidad de extensión o variación en un conjunto de datos, como el rango y la
desviación estándar.
Otra característica de un conjunto de datos es la forma. Por lo regular, se observan cua-
tro formas: simétrica, con sesgo positivo, con sesgo negativo y bimodal. En un grupo de
observaciones simétrico, la media y la mediana son iguales y los valores de los datos se
encuentran dispersos de manera uniforme alrededor de estos valores. Los valores que
están por debajo de la media y la mediana son un reflejo de aquellos que están por encima
de ellos. Un conjunto de valores tiene un sesgo a la derecha o un sesgo positivo si hay
un solo pico y los valores se extienden más hacia la derecha del pico que hacia la izquier-
da. En este caso, la media es más alta que la mediana. En una distribución con sesgo ne-
gativo hay un solo pico, pero las observaciones se extienden más hacia la izquierda, en la
dirección negativa, que a la derecha. En una distribución con sesgo negativo, la media es
menor que la mediana. Las distribuciones con sesgo positivo son más comunes. A menudo,
los salarios siguen este patrón. Piense en los salarios de aquellos que trabajan en una com-
pañía pequeña con 100 empleados más o menos. El presidente y algunos altos ejecutivos
tienen salarios muy elevados en relación con los demás empleados y, por tanto, la distribu-
ción de los salarios muestra un sesgo positivo. Una distribución bimodal tiene dos o más
picos. A menudo, ésta se presenta cuando los valores son de dos o más poblaciones. La
Gráfica 4-1 resume esta información.

En la literatura sobre estadística hay varias fórmulas que se utilizan para calcular el
sesgo. La más sencilla, desarrollada por el profesor Karl Pearson, se basa en la diferencia
entre la media y la mediana.
Descripción de datos: presentación y exploración de datos 115

Utilizando esta relación, el coeficiente de sesgo puede variar entre -3 y 3. Un valor cercano
a -3, como -2.57, indica un sesgo negativo considerable. Un valor como 1.63 indica un
sesgo positivo moderado. Un valor de 0, que ocurre cuando la media y la mediana son
iguales, indica que la distribución es simétrica y no presenta ningún sesgo.
En este libro, presentamos resultados obtenidos con los paquetes de software para
estadística MINITAB y Excel. Ambos paquetes calculan un valor para el coeficiente de sesgo
que se basa en las desviaciones de la media elevadas al cubo. La fórmula es:

La fórmula (4-4) ofrece una idea del sesgo. El lado derecho de la fórmula es la diferen-
cia entre cada valor y la media, dividida entre la desviación estándar. Ésta es la parte (X-
de la fórmula. La idea se conoce como estandarización. Estudiaremos la idea de la
estandarización de un valor con mayor detalle en el Capítulo 7, al describir la distribución
de la probabilidad normal. En este punto, observe que el resultado debe reportar la diferen-
cia entre cada valor y la media en las unidades de la desviación estándar. Si esta diferencia
es positiva, el valor en particular es más alto que la media; si es negativa, es más bajo que
la media. Al elevar al cubo estos valores, conservamos la información sobre la dirección de la
diferencia. Recuerde que en la fórmula para la desviación estándar [vea la fórmula (3-11)],
elevamos al cuadrado la diferencia entre cada valor y la media, de modo que el resultado
fueron sólo valores no negativos.
Si el conjunto de valores de datos en consideración es simétrico, al elevar al cubo los
valores estandarizados y sumar todos los valores, el resultado será cercano a cero. Si hay
diversos valores altos, separados con claridad de los demás, la suma de las diferencias al
cubo será un valor positivo alto. Diversos valores mucho más bajos dan como resultado una
suma negativa al cubo.
Un ejemplo ¡lustra la idea del sesgo.

A continuación, presentamos las ganancias por acción para una muestra de 15 compañías
de software para el año 2003. Las ganancias por acción se ordenan de la más baja a la más
alta.

Calcule la media, la mediana y la desviación estándar. Encuentre el coeficiente de sesgo


utilizando los métodos de Pearson y mediante el uso del software. ¿A qué conclusión llegó
en cuanto a la forma de la distribución?

Éstos son los datos de una muestra de modo que usamos la fórmula (3-2) para determinar
la media

La mediana es el valor medio en un conjunto de datos, ordenados del más bajo al más alto.
En este caso, el valor medio es $3.18, de modo que la ganancia mediana por acción es
$3.18.
Usamos la fórmula (3-11) de la página 77 para determinar la desviación estándar de la
muestra.
116 Capítulo 4

El coeficiente de sesgo de Pearson es 1.017, que calculamos así:

Esto indica que hay un sesgo positivo moderado en las ganancias por acción.
Con el uso del software, obtenemos un valor similar, pero no idéntico. Los detalles de
los cálculos se muestran en la Tabla 4-2. Para empezar, encontramos la diferencia entre
cada uno de los valores de las ganancias por acción y la media, y dividimos este resultado
entre la desviación estándar. Recuerde que esto se conoce como estandarización. A con-
tinuación, elevamos al cubo, es decir, elevamos a la tercera potencia, el resultado del primer
paso. Por último, sumamos los valores al cubo. Los detalles de la primera fila, es decir, la
compañía con una ganancia por acción de $0.09, son:

Al sumar los 15 valores elevados al cubo, el resultado es 11.8274. Es decir, el término


Para encontrar el coeficiente de sesgo, utilizamos la fórmula (4-4), con

Cálculo del coeficiente de sesgo

Llegamos a la conclusión de que los valores de las ganancias por acción tienen un
sesgo positivo. La gráfica siguiente, de MINITAB, reporta las medidas descriptivas, como la
media, la mediana y la desviación estándar de las ganancias por acción. También se
incluyen el coeficiente de sesgo y un histograma con una curva en forma de campana
superpuesta.
Descripción de datos: presentación y exploración de datos 117

Una muestra de cinco capturistas de datos que trabajan en la Oficina de Impuestos de Horry
County revisó el siguiente número de expedientes fiscales durante la última hora: 73, 98, 60,
92 y 84.
(a) Encuentre la media, la mediana y la desviación estándar.
(b) Calcule el coeficiente de sesgo utilizando el método de Pearson.
(c) Calcule el coeficiente de sesgo utilizando el método del software.
(d) ¿Á qué conclusión llegó en cuanto al sesgo de los datos?

Ejercicios
Para los Ejercicios 23 a 26, haga lo siguiente:

a. Determine la media, la mediana y la desviación estándar


b. Determine el coeficiente de sesgo utilizando el método de Pearson.
c. Determine el coeficiente de sesgo utilizando el método del software.

23. Los valores siguientes son los salarios iniciales, en miles de dólares, para una muestra de cinco
contadores recién graduados que aceptaron puestos de contadores públicos el año pasado:

24. A continuación, presentamos una lista de los salarios, en miles de dólares, para una muestra
de 15 directores financieros en la industria electrónica.

25. A continuación, presentamos una lista de las comisiones que ganaron (miles de dólares) los
representantes de ventas de Furniture Patch, Inc., el año pasado.

26. A continuación, presentamos una lista de los salarios de los Yankees de Nueva York durante
el año 2000. La información se reporta en millones de dólares.
118 Capítulo 4

Descripción de la relación entre dos variables


En el Capítulo 2 y en la primera sección de este capí-
tulo, presentamos las técnicas gráficas para resumir la
distribución de una sola variable. También en el Capítu-
lo 2 utilizamos un histograma para resumir los precios
de los vehículos vendidos en Whitner Autoplex. Anterior-
mente, en este capítulo, usamos los diagramas de pun-
tos y de tallo y hojas para resumir un conjunto de datos.
Como estudiamos una sola variable, decimos que la
información es univariable.
Hay situaciones en las que querremos estudiar y
representar visualmente las relaciones entre dos va-
riables. Al estudiar la relación entre dos variables, de-
cimos que la información es bivariable. A menudo, los
analistas de datos quieren entender la relación entre
dos variables. Éstos son algunos ejemplos:

Tybo and Associates es una empresa que se anuncia con mucha frecuencia en la tele-
visión local, por lo que los socios consideran la posibilidad de aumentar su presupuesto
publicitario. Antes de hacerlo, quieren conocer la relación entre la cantidad que gastan
al mes en publicidad y la cantidad total de cuentas por pagar. En otras palabras, quie-
ren saber si el incremento en la cantidad total invertida en publicidad dará como resul-
tado un aumento en las cuentas por pagar.
Coastal Realty estudia los precios de venta de las casas. ¿Qué variables parecen estar
relacionadas con el precio de venta de las casas? Por ejemplo, ¿las casas grandes se
venden a mayor precio que las pequeñas? Tal vez no. De modo que Coastal debe estu-
diar la relación entre el área en pies cuadrados y el precio de venta. El doctor Stephen
Givens es^un experto en desarrollo humano y estudia la relación entre la estatura de los
padres y la estatura de sus hijos. Es decir, ¿los padres que son altos suelen tener hijos
altos? ¿Podríamos esperar que Shaquille O'Neal, el jugador de basquetbol profesional
que mide 7'1" y pesa 335 libras, tenga hijos relativamente altos?

Una técnica gráfica que empleamos para mostrar la relación entre las variables se conoce
como diagrama de dispersión.
Para elaborar un diagrama de dispersión necesitamos dos variables. Una de las varia-
bles queda en una escala a lo largo del eje horizontal (eje X} de una gráfica y la otra, a lo lar-
go del eje vertical (eje Y). Por lo general, una de ellas depende hasta cierto grado de la otra.
En el tercer ejemplo, la altura del hijo depende de la altura del padre. De modo que se repre-
senta a escala la altura del padre sobre el eje horizontal y la del hijo sobre el eje vertical.
Podemos usar software para estadística, como Excel, para realizar la función de trazo.
Precaución: siempre debe tener cuidado con la escala. Al cambiar la escala de cualquiera
de los dos ejes, puede afectar la fuerza visual de la relación.

En la introducción del Capítulo 2, presentamos los datos de AutoUSA. En este caso, la infor-
mación se ocupa de los precios de los 80 vehículos que se vendieron el mes pasado en el lote
Whitner Autoplex de Raytown, Missouri. Los datos que se muestran en la página 119 incluyen
el precio de venta del vehículo, así como la edad del comprador. ¿Existe una relación entre el
precio de venta del vehículo y la edad del comprador? ¿Sería razonable llegar a la conclusión
de que cuanto más costosos sean los vehículos, los compran clientes de mayor edad?
Descripción de datos: presentación y exploración de datos 119

Podemos investigar la relación entre el precio de venta de los vehículos y la edad del com-
prador con un diagrama de dispersión. Escalamos la edad en el eje horizontal, o X, y el pre-
cio de venta en el eje vertical, o Y. Utilizamos Microsoft Excel para elaborar el diagrama de
dispersión. Los comandos de Excel necesarios se muestran en la sección Comandos de
software, al final del capítulo.

El diagrama de dispersión muestra una relación positiva entre las variables. De hecho,
los compradores de mayor edad tienden a adquirir autos más costosos. En el Capítulo 13,
estudiaremos con más detalle la relación entre las variables, calculando incluso varias medi-
das numéricas para expresar estas relaciones.
En el ejemplo de Whitner Autoplex existe una relación positiva o directa entre las varia-
bles. Es decir, conforme aumentó la edad, también se incrementó el precio del vehículo. Sin
embargo, hay muchos casos en los que hay una relación entre las variables, pero ésta es
inversa o negativa. Por ejemplo:

El valor de un vehículo y el número de millas recorridas. Conforme aumenta el número


de millas baja el valor del vehículo.
La prima de un seguro de automóvil y la edad del conductor. Las tarifas para los autos
suelen ser más altas para los adultos jóvenes y más bajas para la gente mayor. Para
muchos oficiales encargados de hacer que se cumplan las leyes, conforme aumenta
el número de años en el trabajo, baja la cantidad de multas de tránsito. Esto se debe
quizá a que los agentes se vuelven más liberales en sus interpretaciones o a que
ocupan puestos superiores y ya no están en posición de levantar tantas multas. Pero
de cualquier modo, conforme aumenta la edad, baja el número de multas.

Un diagrama de dispersión requiere de que las dos variables se encuentren en una


escala del menor intervalo. En el ejemplo de Whitner Autoplex, tanto la edad como el pre-
cio de venta son variables de escala de razón. La estatura también es una escala de razón
en la forma en que se utiliza en el análisis de la relación entre la estatura de los padres y la
de los hijos. ¿Qué sucede si queremos estudiar la relación entre dos variables cuando una
o ambas son de escala nominal u ordinal? En este caso, presentamos los resultados en una
tabla de contingencia.

TABLA DE CONTINGENCIA. Tabla que se utiliza para clasificar las observaciones de


acuerdo con dos características que se pueden identificar.
120 Capítulo 4

Una tabla de contingencia es una tabulación cruzada que resume al mismo tiempo dos va-
riables de interés. Por ejemplo:
• Los estudiantes de una universidad se clasifican según el género y el lugar que ocupan
en su grupo.
• Un producto se clasifica como aceptable o no aceptable y por el turno (diurno, vesper
tino o nocturno) en el que se fabricó.
• Un votante en una elección escolar para refrendar becas se clasifica por su afiliación a
un partido (demócrata, republicano u otro) y el número de hijos que asisten a la escuela
(0, 1,2, etcétera).

Un fabricante de ventanas prefabricadas produjo 50 ventanas el día de ayer. Esta mañana,


el inspector de aseguramiento de la calidad revisó cada una para evaluar su calidad en
todos los aspectos. Cada ventana se clasificó como aceptable o no aceptable y por el turno
en el que se produjo. Por tanto, reportamos dos variables en un solo elemento. Éstas son
turno y calidad. Los resultados se reportan en la tabla siguiente.

Compare los niveles de calidad en cada turno.

El nivel de medición para las dos variables es nominal. Es decir, las variables turno y cali-
dad sólo permiten que una unidad en particular se clasifique o asigne a grupos. Al organi-
zar la información en una tabla de contingencia, podemos comparar la calidad en los tres
turnos. Por ejemplo, en el turno diurno, 3 de cada 20 ventanas, o 15%, son defectuosas. En
el turno vespertino, 2 de cada 15, o 13%, son defectuosas, y en el turno nocturno, una de
cada 15, o 7%, son defectuosas. En general, 12% de las ventanas tienen algún defecto.
Observe también que 40% de las ventanas se producen en el turno de día, cifra que calcu-
lamos así: (20/50)(100). Volveremos a estudiar las tablas de contingencia en el Capítulo 5,
al estudiar la probabilidad, y en el Capítulo 15, cuando estudiemos los métodos de análisis
no paramétricos.

El diagrama siguiente muestra la relación entre elnúmero de asientos en un concierto (00) y


las ganancias, en $000, para una muestra de conciertos.

(a) ¿Cómo se llama el diagrama anterior?


(b) ¿Cuántos conciertos se estudiaron?
(c) Calcule las ganancias para el concierto con el mayor número de asientos ocupados.
(d) ¿Cómo calificaría la relación entre las ganancias y el número de asientos? ¿Es
fuerte o débil, directa o inversa?
Descripción de datos: presentación y exploración de datos 121

Ejercicios
27. Elabore un diagrama de dispersión para los datos de la muestra siguiente. ¿Cómo describi-
ría la relación entre los valores?

28. Silver Springs Moving and Storage, Inc. estudia la relación entre el número de habitaciones
en una mudanza y el número de horas de trabajo que se requieren. Como parte del análi-
sis, el director de finanzas de Silver Springs elaboró el siguiente diagrama de dispersión.

a. ¿Cuántas mudanzas se incluyen en la muestra?


b. ¿Es evidente que son necesarias más horas de trabajo conforme aumenta el número de
habitaciones, o las horas de trabajo se reducen conforme se incrementa la cantidad
de habitaciones?
29. El gerente de un restaurante quiere estudiar la relación entre el género de un comensal y el
hecho de si éste pide un postre. Para investigar la relación, el gerente recopiló la siguiente
información sobre 200 clientes recientes.

a. ¿Cuál es el nivel de medición de las dos variables?


b. ¿Cómo se llama la tabla anterior?
c. ¿Las evidencias en la tabla sugieren que es más probable que los hombres pidan un
postre, en comparación con las mujeres? Explique por qué.
122 Capítulo 4
a. ¿Qué nivel de medición se utiliza en esta tabla?
b. ¿Cómo se llama la tabla?
30. Una empresa evalúa una propuesta de fusión. La Junta Directiva entrevistó a 50 accionistas
pidiéndoles su opinión sobre la fusión. Los resultados se reportan a continuación.

c. ¿Qué grupo parece oponerse más a la fusión?

Resumen del capítulo


I. Un diagrama de puntos muestra el rango de los valores sobre el eje horizontal y se coloca
un punto arriba de cada uno de los valores.
A. Los diagramas de puntos reportan los detalles de cada observación.
B. Son útiles para comparar dos o más conjuntos de datos.
II. Un diagrama de tallo y hojas es una alternativa para un histograma.
A. El primer dígito es el tallo y los dígitos secundarios son las hojas.
B. Las ventajas de un diagrama de tallo y hojas sobre un histograma son:
1. No se pierde la identidad de cada observación.
2. Los dígitos mismos ofrecen un panorama de la distribución.
3. También se muestran las frecuencias acumuladas.
III. Las medidas de ubicación también describen la forma de un conjunto de observaciones.
A. Los cuartiles dividen un grupo de observaciones en cuatro partes iguales.
1. Del total de las observaciones, 25% son menores que el primer cuartil, 50% son
menores que el segundo y 75% son menores que el tercero.
2. El rango intercuartílico es la diferencia entre el tercer y el primer cuartil.
B. Los deciles dividen el grupo de observaciones en diez partes iguales y los percentiles en
100 partes iguales.
C. Un diagrama de caja es una representación gráfica de un conjunto de datos.
1. Se dibuja un cuadro que encierre las regiones entre el primer y el tercer cuartil.
a. Se traza una línea dentro del cuadro en el valor mediano.
b. Se dibujan segmentos de línea punteada desde el tercer cuartil hasta el valor más
alto, para mostrar el 25% más alto de los valores; y del primer cuartil al valor más
bajo para mostrar el 25% más bajo de los valores.
2. Un diagrama de caja se basa en cinco estadísticos: las observaciones máxima y míni
ma, el primer y tercer cuartiles, y la mediana.
IV. El coeficiente de variación es una medida de dispersión relativa.
A. La fórmula del coeficiente de variación es:

B. Reporta la variación en relación con la media.


C. Es útil para comparar las distribuciones medidas en unidades diferentes y aquellas cuyas
medias son muy distintas.
V. El coeficiente de sesgo es una medida de la simetría de una distribución. A.
Hay dos fórmulas para el coeficiente de sesgo. 1. La fórmula que desarrolló
Pearson es:
Descripción de datos: presentación y exploración de datos 123

2. El coeficiente de sesgo calculado con software para estadística es:

VI. Un diagrama de dispersión es una herramienta gráfica para representar la relación entre dos
variables.
A. Ambas variables se miden con escalas de intervalo o razón.
B. Si la dispersión de los puntos se mueve de la esquina inferior izquierda a la superior
derecha, las variables se relacionan en forma directa o positiva.
C. Si la dispersión de los puntos se mueve de la esquina superior izquierda a la inferior
derecha, las variables tienen una relación inversa o negativa.
VII. Una tabla de contingencia se utiliza para clasificar observaciones de escala nominal de
acuerdo con dos características.

Clave de pronunciación

Ejercicios del capítulo


31. A una muestra de estudiantes que asisten a la Southeast Florida University se le preguntó
el número de actividades sociales en las que participaron la semana pasada. El diagrama
siguiente se preparó a partir de los datos de la muestra.

a. ¿Cómo se llama este diagrama?


b. ¿Cuántos alumnos participaron en el estudio?
c. ¿Cuántos estudiantes reportaron no haber asistido a ninguna actividad social?
32. Doctor's Care es una clínica que tiene sucursales en Georgetown, Monks Corners y Aynor,
donde se atiende a pacientes que reciben tratamientos por heridas menores, gripes y resfria-
dos, así como exámenes físicos. Los diagramas siguientes reportan el número de pacientes
tratados en cada una de las sucursales el mes pasado.

Describa el número de pacientes a los que se atendió en las tres clínicas cada día. ¿Cuál es
el número máximo y mínimo de pacientes a los que se atendió en cada una de las sucursales?
124 Capítulo 4

33. El siguiente diagrama de tallo y hojas presenta el número de minutos al día que ve televisión
una muestra de estudiantes universitarios.

a. ¿Cuántos estudiantes universitarios participaron en el estudio?


b. ¿Cuántas observaciones hay en la segunda clase?
c. ¿Cuál es el valor más bajo y el más alto?
d. Mencione los valores reales en la cuarta fila.
e. ¿Cuántos estudiantes vieron menos de 60 minutos de televisión?
f. ¿Cuántos estudiantes vieron 100 horas o más de televisión?
g. ¿Cuál es el valor mediano?
h. ¿Cuántos estudiantes vieron por lo menos 60 minutos, pero menos de 100?

34. El siguiente diagrama de tallo y hojas reporta el número de pedidos recibidos al día por una
empresa de ventas por correo.

a. ¿Cuántos días se estudiaron?


b. ¿Cuántas observaciones están en la cuarta clase?
c. ¿Cuál es el valor más bajo y el más alto?
d. Mencione los valores reales en la sexta clase.
e. ¿Cuántos días la empresa recibió menos de 140 pedidos?
f. ¿Cuántos días la empresa recibió 200 o más pedidos?
g. ¿Cuántos días la empresa recibió 180 pedidos?
h. ¿Cuál es el valor mediano?

35. A principio de la década de 2000, las tasas de interés eran bajas, de modo que muchos
propietarios de casas refinanciaron sus hipotecas. Linda Lahey es una funcionaría hipote-
caria de Down River Federal Savings and Loan. A continuación, presentamos las cantidades
Descripción de datos: presentación y exploración de datos 125

a. Encuentre la mediana, el primer cuartil y el tercer cuartil.


de refinanciamiento para veinte préstamos que Linda procesó la semana pasada. Los datos
se reportan en miles de dólares y se ordenaron del más bajo al más alto.

b. Encuentre los percentiles 26 y 83.


c. Dibuje un diagrama de puntos con los datos.
36. La industria disquera en Estados Unidos lleva a cabo un estudio sobre el número de CD de
música que tienen las personas de la tercera edad y los adultos jóvenes. La información se
reporta a continuación.

a. Encuentre la mediana y el primer y tercer cuartiles para el número de CO que tienen las
personas de la tercera edad. Dibuje un diagrama de puntos para la información.
b. Encuentre la mediana y el primero y tercer cuartiles para el número de CD que tienen
los adultos jóvenes. Elabore un diagrama de puntos para la información.
c. Compare el número de CD que tienen ambos grupos.
37. La sede corporativa de Bank.com, una nueva compañía de Internet que realiza todas las
operaciones bancarias a través de la Red, se localiza en el centro de Filadetfia. El director
de recursos humanos lleva a cabo un estudio sobre el tiempo que los empleados tardan en
llegar a su trabajo. El gobierno de la ciudad planea ofrecer incentivos a todas las empresas
que se encuentran en el centro si motivan a sus empleados a utilizar el transporte público.
A continuación, presentamos una lista del tiempo que tardaron los empleados en llegar a su
trabajo esta mañana utilizando el transporte público y sus autos.

a. Encuentre la mediana y el primer y tercer cuartiles del tiempo que tardaron los emplea
dos utilizando el transporte público. Elabore un diagrama de puntos para la información.
b. Encuentre la mediana y el primer y tercer cuartiles del tiempo que tardaron los emplea
dos que utilizaron su automóvil. Dibuje un diagrama de puntos para la información.
c. Compare los tiempos de ambos grupos.
38. El diagrama de puntos siguiente muestra el número de periódicos diarios que se publican en
cada estado y en el Distrito de Columbia. Escriba un breve reporte sobre la cantidad de perió-
126 Capitulo 4

39. The Walter Gogel Company es un proveedor industrial de cinturones de seguridad, herra-
dicos publicados. No olvide incluir información sobre los valores del primer y tercer cuartiles,
la mediana y si existe algún sesgo. En caso de haber datos incongruentes, calcule su valor.

mientas y resortes. Las cantidades de sus facturas varían en gran medida, desde menos de
$20.00 hasta más de $400.00. Durante el mes de enero, enviaron 80 facturas. Éste es un
diagrama de puntos con estas facturas. Escriba un breve reporte sobre las cantidades de
sus facturas. No olvide incluir información sobre los valores del primer y tercer cuartiles, la
mediana y si hay algún sesgo. En caso de haber datos incongruentes, calcule su valor.

40. La National Muffler Company afirma que puede cambiar el mofle de su auto en menos de 30
minutos. Un reportero de investigación de WTOL Channel 11 supervisó 30 cambios de mo-
fle consecutivos en el taller de National que se encuentra en la calle Liberty. El número de
minutos para realizar los cambios se reporta a continuación.

44 12 22 31 26 22 30 26 18 28 12
40 17 13 14 17 25 29 15 30 10 28
16 33 24 20 29 34 23 13

a. Elabore un diagrama de puntos para el tiempo que se tardan en cambiar un mofle.


b. ¿La distribución muestra algunas incongruencias?
c. Resuma sus descubrimientos en un informe breve.
41. Una importante línea aérea quería información sobre las personas suscritas al programa de
"viajero frecuente". Una muestra de 40 miembros dio como resultado el siguiente número de mi-
llas recorridas el año pasado, redondeado a la milla más cercana, por cada participante.

22 29 32 38 39 41 42 43 43 43 44 44
45 45 46 46 46 47 50 51 52 54 54 55
56 57 58 59 60 61 61 63 63 64 64 67
69 70 70 70 71 71 72 73 74 76 78 88

a. Elabore un diagrama de puntos con la información.


b. ¿La distribución muestra algún dato incongruente?
c. Resuma sus descubrimientos en un informe breve.
42. A continuación, presentamos la cantidad de comisiones que el mes pasado ganaron ocho
miembros del personal de ventas de Best Electronics. Calcule el coeficiente de sesgo uti-
lizando ambos métodos. Nota: Utilice una hoja de cálculo para hacer más rápidas sus opera-
ciones.
Descripción de datos: presentación y exploración de datos 127

43. A continuación, presentamos el número de robos de autos en una ciudad grande durante la
semana pasada. Calcule el coeficiente de sesgo utilizando ambos métodos. Nota: Utilice una
hoja de cálculo para hacer más rápidas sus operaciones.

44. El gerente de Servicios de Información de Wilkin Investigations, una empresa de investi-


gación privada, estudia la relación entre la edad (en meses) de una combinación de impre-
sora, copiadora y máquina de fax y su costo de mantenimiento mensual. Para una muestra
de 15 máquinas, el gerente desarrolló el diagrama siguiente. ¿A qué conclusiones llegará el
gerente acerca de la relación entre las variables?

45. Una compañía de seguros automotrices reportó la siguiente información sobre la edad de
un conductor y el número de accidentes reportados el año pasado. Elabore un diagrama de
dispersión a partir de los datos y escriba un resumen.

46. Wendy's ofrece ocho condimentos diferentes (mostaza, salsa de tomate, cebolla, mayone-
sa, pepinillos, lechuga, tomate y aderezo) en sus hamburguesas. El gerente de una de las
tiendas recopiló la siguiente información sobre el número de condimentos ordenados y el
grupo de edad al que pertenece cada cliente. ¿A qué conclusiones llega usted acerca de la
información? ¿Quién suele pedir la mayor y menor cantidad de condimentos?

47. Una encuesta realizada entre personas adultas de todo el país preguntaba si estaban a favor
del control de las armas, se oponían a éste o no tenían ninguna opinión al respecto; así
como cuál era su partido político preferido. Los resultados se reportan en la tabla siguiente.
128 Capítulo 4

Analice la información en la tabla. ¿Quién es más probable que esté a favor del control de
las armas?

exercises.com
48, Consulte el Ejercicio 82 en la página 91, que sugiere algunos sitios web donde encontrará
información sobre el Promedio Industrial Dow Jones. Uno de éstos es Bloomberg, que es
una excelente fuente de datos de negocios. El sitio de Bloomberg es: http://bloomberg.com.
Haga clic en Markets en la barra de herramientas y seleccione Stocks in the Dow. Se abrirá
una lista de los precios de venta actuales de las 30 acciones que forman el Promedio Indus
trial Dow Jones. Encuentre el cambio porcentual de ayer para cada una de las 30 acciones.
Elabore diagramas para ilustrar el cambio porcentual.
49. El siguiente sitio web proporciona los resultados del Super Tazón desde que se jugó por prime
ra vez en 1967: http://www.superbowl.com/history/recaps. Descargue el marcador de cada
Super Tazón y determine el margen por el que ganó cada equipo campeón. ¿Cuál es el mar
gen típico? ¿Cuáles son el primer y el tercer cuartil? ¿Hay algún juego cuyo valor sea externo?

Ejercicios de la base de datos


50. Consulte los datos Real State, que proporcionan información sobre las casas vendidas en el
área de Denver, Colorado, el año pasado. Seleccione la variable precio de venta.
a. Elabore un diagrama de caja. Calcule el primero y tercer cuartiles. ¿Hay algún externo?
b. Trace un diagrama de dispersión con el precio en el eje vertical y el tamaño de la casa
en el horizontal. ¿Parece existir una relación entre estas variables? ¿La relación es
directa o inversa?
c. Dibuje un diagrama de dispersión con el precio en el eje vertical y la distancia al centro
de la ciudad en el horizontal. ¿Parece haber una relación entre estas variables? ¿La
relación es directa o inversa?
51. Consulte los datos Baseball 2002, que proporcionan información sobre los 30 equipos de las
ligas mayores de béisbol durante la temporada 2002.
a. Seleccione la variable que se refiere al año en el que se construyó el estadio. (Pista: Res
te el año en el que se construyó el estadio al año actual para conocer la edad del esta
dio y trabajar con esta variable.) Trace un diagrama de caja. ¿Hay alguna incongruencia?
b. Seleccione la variable salarios de los equipos y elabore un diagrama de caja. ¿Hay algún
dato incongruente? ¿Cuáles son los cuartiles? Escriba un breve resumen de su análisis.
Compare los salarios de los Yankees de Nueva York y los Expos de Montreal con los de
otros equipos.
c. Elabore un diagrama de dispersión con el número de juegos ganados en el eje vertical
y los salarios de los equipos en el horizontal. ¿A qué conclusiones llegó?
d. Seleccione la variable juegos ganados. Elabore un diagrama de puntos. ¿A qué conclu
siones llegó con base en este diagrama?
52. Consulte los datos Wage, que proporcionan información sobre los sueldos anuales de una
muestra de 100 trabajadores. También se incluyen las variables relacionadas con la indus
tria, los años de educación y el género de cada trabajador.
a. Elabore un diagrama de tallo y hojas para la variable sueldo anual. ¿Hay algún dato
incongruente? Escriba un breve resumen de sus descubrimientos.
b. Dibuje un diagrama de tallo y hojas para la variable años de educación. ¿Hay algún dato
incongruente? Escriba un breve resumen de sus descubrimientos.
c. Elabore una gráfica de barras de la variable ocupación. Escriba un breve resumen de
sus descubrimientos.
53. Consulte los datos CIA, que proporcionan información demográfica y económica sobre 46
países.
a. Seleccione la variable expectativa de vida. Elabore un diagrama de caja. Encuentre el
primer y tercer cuartiles. ¿Hay algún dato incongruente? ¿La distribución es simétrica o
sesgada? Escriba un párrafo resumiendo sus descubrimientos.
b. Seleccione la variable PIB/cap. Trace un diagrama de caja. Encuentre el primer y tercer
cuartiles. ¿Hay algún dato incongruente? ¿La distribución es sesgada o simétrica? Es
criba un párrafo en el que resuma sus descubrimientos.
c. Elabore un diagrama de tallo y hojas para la variable que se refiere al número de telé
fonos celulares. Resuma sus descubrimientos.
Descripción de datos: presentación y exploración de datos 129

Comandos de software
1. Los comandos de MINITAB para el diagrama de puntos
en la página 98 son:
a. Introduzca los vehículos que se vendieron en Smith
Ford Mercury Jeep en la columna C1 y en Brophy
Honda Volkswagen en C2. Ponga nombre a las varia
bles.
b. Seleccione Graph y Dot Plot, En el primer cuadro de
diálogo, seleccione Simple en la esquina superior
izquierda y haga clic en OK. En el siguiente cuadro
de diálogo, seleccione Smith y Brophy como las
variables para Graph, haga clic en Labels y escriba
un titulo apropiado, haga clic en Múltiple Graphs,
seleccione Options y elija la opción In sepárate
panels on the same page y haga clic en OK en los
distintos cuadros de diálogo.
c. Para calcular las estadísticas descriptivas que se
muestran en la pantalla, seleccione Stat, Basic
statistics y luego Display Descriptive statistics.
En el cuadro de diálogo, seleccione Smith and
Brophy como las Variables, haga clic en Statistics
y elija las estadísticas que desea obtener; por últi
mo, haga clic dos veces en OK.

2. Los comandos de MINITAB para el diagrama de tallo y


hojas en la página 101 son:
a. Importe los datos del CD. El nombre del archivo es
Table4-1.
b. Seleccione Graph y haga clic en Stem-and-Leaf.
c. Seleccione la variable Spots, teclee 10 para
Increment y haga clic en OK.

3. Los comandos de MINITAB para el resumen descriptivo a. Importe los datos de Whitner Autoplex del CD. El
de la página 107 son: nombre del archivo es Table2-1. Seleccione la va
riable Price.
b. De la barra de herramientas, seleccione Stat,
Basic Statistics y Display Descriptive Statistics.
En el cuadro de diálogo seleccione Price como la
Variable, en la esquina inferior derecha, haga clic
en Graphs. En este cuadro, seleccione Graphs,
haga clic en Histogram of data, with normal
curve y luego dos veces en OK.
130 Capitulo 4

4. Los comandos de Excel para las estadísticas descripti


vas de la página 107 son:
a. Recupere del CD el archivo con los datos de
Whitner Autoplex, que se llama Table2-1.
b. De la barra de menú, seleccione Tools y Data
Analysis. Seleccione Descriptive Statistics y
haga clic en OK.
c. Para Input Range, escriba B1:B81, indique que los
datos están agrupados por columna y que las eti
quetas se encuentran en la primera fila. Haga clic
en Output Range, indique que el resultado debe ir
en D1 (o en el lugar que usted quiera), haga dicen
Summary Statistics y luego en OK.
d. En la esquina inferior izquierda, haga clic en Kth
Largest y escriba 20 en el cuadro, haga clic en Kth
Smallest y escriba 20 en ese cuadro.
e. Cuando obtenga los resultados, revise dos veces el
resultado para estar seguro de que contiene el
número correcto de valores.
5. Los comandos de MINITAB para el diagrama de caja en
la página 110 son:
a. Importe los datos del CD. El nombre del archivo es
Table2-1.
b. Seleccione Graph y luego Boxplot. En el cuadro
de diálogo, seleccione Simple en la esquina supe
rior izquierda y haga clic en OK. Seleccione Price
como la variable Graph, haga clic en Labels e
incluya un encabezado apropiado, luego haga clic
enOK.
6. Los comandos de MINITAB para el resumen descriptivo
en la página 117 son:
a. Recupere los datos del archivo Table4-1 que está
en el CD.
b. Seleccione Stat, Basic Statistics y haga clic en
Graphical Summary. Seleccione Earnings como
la variable y haga clic en OK.
7. Los comandos de Excel para el diagrama de dispersión
en la página 119 son:
a. Recupere los datos del archivo Table2-1 que está
en el CD.
b. Tendrá que copiar las variables en otras columnas
de la hoja de cálculo, capturando la edad en una
columna y el precio en la siguiente. Esto le permi
tirá colocar el precio en el eje vertical y la edad en
el horizontal.
c. Haga clic en Chart Wizard, seleccione XY (Scatter)
y el subtipo en la esquina superior izquierda y luego
haga clic en Next.
d. Seleccione o destaque la variable edad seguida por
la variable precio.
e. Escriba un título para el diagrama y un nombre para
las dos variables. En el cuadro de diálogo final,
seleccione una ubicación para los diagramas.
Descripción de datos: presentación y exploración de datos 131

Capitule 4 Respuestas a las autoevaluaciones


132 Sección 1

Revisión de los capítulos 1 al 4


Esta sección ofrece un repaso de los conceptos y términos más importantes que se introdujeron en los Ca-
pítulos 1 al 4. El Capítulo 1 empezó describiendo el significado y propósito de la estadística. Luego, descri-
bimos los distintos tipos de variables y los cuatro niveles de medición. El Capítulo 2 se ocupó de la descripción
de un grupo de observaciones organizándolo en una distribución de frecuencia y representando ésta última
como un histograma o un polígono de frecuencia. El Capítulo 3 empezó describiendo las medidas de ubica-
ción, como la media, la media ponderada, la mediana, la media geométrica y la moda. También incluyó las
medidas de dispersión o extensión. En esta sección, estudiamos el rango, la desviación media, la varianza y
la desviación estándar. El Capítulo 4 incluyó diversas técnicas gráficas como diagramas de puntos, diagra-
mas de caja y diagramas de dispersión. Asimismo, estudiamos el coeficiente de sesgo, que reporta la falta de
simetría en un conjunto de datos.
A lo largo de esta sección, subrayamos la importancia del software para estadística, como Excel y Ml-
NITAB. Muchas pantallas de computadora en estos capítulos demuestran la rapidez y eficiencia con la que
un conjunto de datos extenso se puede organizar en una distribución de frecuencia, varias de-las medidas
de ubicación o de variación calculadas y la información que se presenta en forma gráfica.

Glosario
Capítulo 1 Medida ordinal. Los datos que se pueden ordenar en forma
lógica se conocen como medidas ordinales. Por ejemplo, la
Estadística. La ciencia de recopilar, organizar, analizar e
respuesta del consumidor al sonido de una nueva bocina
interpretar información numérica con el propósito de tomar
puede ser excelente, muy buena, aceptable o mala.
decisiones más efectivas.
Muestra. Una porción o subconjunto representativo, de la po-
Estadística descriptiva. Técnicas usadas para describir las
blación que se estudia.
características importantes de un conjunto de datos. Éstas
Mutuamente excluyente. Una propiedad de un conjunto de
pueden incluir la organización de los valores en una dis-
categorías de modo que un individuo, objeto o medida sólo
tribución de frecuencia y el cálculo de las medidas de ubi-
se incluye en una categoría.
cación y las medidas de dispersión y sesgo. Estadística
Población. El grupo o conjunto de todos los individuos,
inferencial, también conocida como inferencia estadística
objetos o medidas cuyas propiedades se estudian.
o estadística inductiva. Esta faceta de la estadística se
ocupa del cálculo de un parámetro de población basado en
la estadística de una muestra. Por ejemplo, si 2 de cada 10
calculadoras de bolsillo en una muestra están defectuosas, Capítulo 2
podríamos deducir que 20% de la producción está
defectuosa. Clase. Intervalo en el que se recopilan los datos. Por ejem-
Exhaustivo. Cada una de las observaciones debe pertene- plo, de $4 a $7 es una clase; de $7 a $11 es otra clase.
cer a una de las categorías. Distribución de frecuencias. Agrupación de los datos en
Medida de intervalo. Si una observación es mayor que otra clases mostrando el número de observaciones en cada una
por determinada cantidad, y el punto cero es arbitrario, la de las clases mutuamente excluyentes. Por ejemplo, la infor-
medida no es una escala de intervalo. Por ejemplo, la dife- mación se organiza en clases como de $1 000 a $2 000, de
rencia entre las temperaturas de 70 y 80 grados son 10 gra- $2 000 a $3 000, etcétera, para resumirla. Distribución de
dos. De modo similar, una temperatura de 90 grados es 10 frecuencias relativas. Distribución de frecuencias que
grados más alta que una temperatura de 80, y así sucesiva- muestra la fracción o proporción de las observaciones
mente. totales en cada clase.
Medida de razón. Si las distancias entre los números son Frecuencia de clase. Número de observaciones en cada
de un tamaño constante conocido y hay un punto cero real, clase. Si en la clase de $4 a $7 hay 16 observaciones, 16 es
y la razón de dos valores es significativa, la medida es una la frecuencia de clase.
escala de razón. Por ejemplo, la distancia entre $200 y $300 Gráficas. Formatos gráficos especiales que se utilizan para
es $100, y en el caso del dinero, hay un punto cero real. Si representar una distribución de frecuencias, entre los que se
usted tiene cero dólares, hay un ausencia de dinero (no tiene incluyen histogramas, polígonos de frecuencias y polígonos
nada). También la razón entre $200 y $300 es significativa. de frecuencias acumuladas. Otros dispositivos gráficos usa-
Medida nominal. El nivel de medición "más bajo". Si los dos para representar datos son gráficas de líneas, gráficas
datos están clasificados en categorías y el orden de estas de barras y gráficas de pastel. Son muy útiles, por ejemplo,
categorías no es importante, se trata del nivel nominal de para ilustrar la tendencia en una deuda a largo plazo o los
medición. Algunos ejemplos son género (masculino, femeni- cambios porcentuales en las utilidades de un año a otro.
no) y afiliación política (demócrata, republicano, indepen- Histograma. Representación gráfica de una frecuencia o
diente, todos los demás). Si no cambia nada por el hecho de distribución de frecuencias relativas. El eje horizontal mues-
que en la lista estén primero los hombres o las mujeres, los tra las clases. La altura vertical de las barras adyacentes
datos son del nivel nominal. muestra la frecuencia o frecuencia relativa de cada clase.
Revisión de los capítulos 1 al 4 133

Punto medio. Valor que divide la clase en dos partes Varianza. Medida de dispersión basada en las diferencias
iguales. Para las clases de $10 a $20 y de $20 a $30, los promedio al cuadrado de la media aritmética.
puntos medios son $15 y $25, respectivamente.

Capítulo 4
Capítulo 3
Coeficiente de sesgo. Medida de la falta de simetría en una
distribución. En una distribución simétrica, no hay sesgo, de
Desviación estándar. Raíz cuadrada de la varianza. modo que el coeficiente de sesgo es cero. De lo contrario,
Desviación media. La media de las desviaciones de la puede ser positivo o negativo, con los límites de ±3.0.
media, sin importar los signos. Se abrevia MD. Coeficiente de variación. La desviación estándar dividida
Dispersión o extensión. Una medida de ubicación central entre la media, expresada como un porcentaje. Es muy útil
indica un solo valor que es típico de los datos. Una medida de sobre todo para comparar la dispersión relativa en dos o
dispersión indica lo cerca o lejos que los valores se encuen- más conjuntos de datos, donde (1) están en unidades dife-
tran de la media o alguna otra medida de tendencia central. rentes o (2) una media es mucho más alta que la otra.
Media aritmética. Suma de los valores dividida entre el Cuartiles. Valores de un conjunto de datos ordenado (míni-
número de valores. El símbolo para la media de una mues- mo a máximo) que dividen los datos en cuatro intervalos de
tra es X y el símbolo para la media poblacional es μ frecuencias casi iguales.
Media geométrica. La n-ésima raíz del producto de todos los Deciles. Valores de un conjunto de datos ordenado (mínimo
valores. Es muy útil sobre todo para calcular el promedio de a máximo) que dividen los datos en diez intervalos de fre-
las tasas de cambio y los números indicadores. Minimiza la cuencias prácticamente iguales.
importancia de los valores extremos. Un segundo uso de la Diagrama de caja. Representación gráfica que muestra la
media geométrica es para encontrar el cambio porcentual forma general de la distribución de una variable. Se basa en
medio anual durante un periodo. Por ejemplo, si las ventas en cinco estadísticas descriptivas: los valores máximo y míni-
bruto fueron de $245 millones en 1985 y de $692 millones en mo, el primer y tercer cuartiles y la mediana.
2000, ¿cuál es el incremento porcentual promedio anual? Diagrama de dispersión. Técnica gráfica que se utiliza para
Mediana. Valor de la observación intermedia después de mostrar la relación entre dos variables medidas con escalas
que todas las observaciones se ordenaron de la más baja a de intervalo o razón.
Diagrama de tallo y hojas. Método para representar la dis-
la más alta. Por ejemplo, si las observaciones 6, 9, 4 se vuel-
tribución de una variable usando todos los valores. Estos últi-
ven a ordenar para que queden 4, 6, 9, el valor intermedio
mos se clasifican de acuerdo con el dígito principal de los
es 6, la mediana.
datos. Por ejemplo, si un conjunto de datos contiene valores
Media ponderada. Cada valor se considera según su impor-
entre 13 y 84, para los tallos, se usarían ocho clases con base
tancia relativa. Por ejemplo, si 5 camisas cuestan $10 cada
en los dígitos de 10 en 10. Las unidades serían las hojas.
una y 20 camisas cuestan $8 cada una, el precio medio pon-
Diagrama de puntos. Un diagrama de puntos resume la
derado es $8.40: [(5 x $10) + (20 x $8)]/25 = $210/25 = $8.40.
distribución de una variable apilando los puntos sobre una
Medida de dispersión. Número que muestra la extensión línea de números que muestra el valor de las variables. Un
de un conjunto de datos. El rango, la varianza y la desviación diagrama de puntos utiliza todos los valores.
estándar son medidas de dispersión. Percentiles. Valores de un conjunto de datos ordenado
Medida de ubicación. Número que indica un solo valor que (mínimo a máximo) que dividen los datos en cien intervalos
es típico de los datos. Señala el centro de una distribución. La de frecuencias casi iguales.
media aritmética, la media ponderada, la mediana, la moda y Rango intercuartil. Diferencia numérica absoluta entre el
la media geométrica son medidas de ubicación central. primer y el tercer cuartiles. Del total de los valores de una
Moda. Valor que aparece con mayor frecuencia en un con- distribución, 50% ocurren en este rango.
junto de datos. Para los datos agrupados, es el punto central Tabla de contingencias. Tabla que se utiliza para clasificar
de la clase que contiene el mayor número de valores. las observaciones de acuerdo con dos o más características
Rango. Medida de dispersión calculada como el valor máxi- nominales.
mo menos el valor mínimo.

Ejercicios
Parte 1. Opción múltiple
1. A los empleados que terminaron un curso de capacitación se les pidió que lo calificaran
como sobresaliente, muy bueno, bueno, aceptable o malo. El nivel de medición es
a. Nominal
b. Ordinal
c. De intervalo
d. De razón
2. Una muestra de universitarios recién graduados indica que su salario inicial medio es $29 000.
Esta cifra representa
134 Sección 1

a. La media poblacional
b. La mediana de la muestra
c. La media de la muestra
d. La moda poblacional
3. Una muestra de universitarios recién graduados indica que la desviación estándar de su
salario inicial es $5 000. Esta cifra representa
a. El rango de los salarios iniciales
b. La varianza
c. 95% de todos los salarios iniciales
d. La dispersión del salario inicial alrededor de la media
4. Una medida útil para comparar la dispersión relativa de dos o más distribuciones, si están
en unidades diferentes, es
a. Coeficiente de sesgo
b. Coeficiente de variación
c. Rango
d. Desviación estándar
5. Para un conjunto de observaciones tenemos la información siguiente: media = 100, mediana
= 100, moda = 100 y desviación estándar = 4. La distribución es
a. Simétrica
b. Con sesgo positivo
c. Con sesgo negativo
d. Nominal
6. Para un conjunto de observaciones, tenemos la siguiente información: media = 100, mediana
= 100, moda = 100 y desviación estándar = 4. Alrededor de 95% de los valores están entre
a. 92 y 108
b. 96 y 104
c. ±4
d. 95 y 105
7. Fine Furniture Products, Inc. produjo 2 460 escritorios en 1993 y 6 520 en 2003. ¿Qué estadís
tica debemos utilizar para calcular el incremento porcentual promedio anual en la producción?
a. Media aritmética
b. Mediana
c. Moda
d. Media geométrica
Consulte la gráfica siguiente para responder las preguntas 8 a la 10.

8. La gráfica se llama
a. Distribución de frecuencia
b. Distribución de frecuencia acumulada
c. Polígono de frecuencia
d. Histograma
9. El rango intercuartil es
a. 5
b. 10
c. 15
d. 35 10. ¿Cuál de las afirmaciones siguientes es
verdadera?
a. Alrededor de 300 empleados son menores de 30.
b. 25% de los empleados son mayores de 45.
Revisión de los capítulos 1 al 4 135

c. El rango intercuartil representa 60% de los empleados.


d. 75% de los empleados son menores de 35.
11. Una gráfica que muestra la relación entre dos variables de intervalo o de razón se llama
a. Diagrama de dispersión
b. Diagrama de caja
c. Diagrama de puntos
d. Diagrama de tallo y hojas
12. Un resumen de datos medidos con dos variables nominales se llama
a. Diagrama de dispersión
b. Tabla de contingencias
c. Distribución de frecuencia
d. Histograma

Parte II. Problemas


Las respuestas a los ejercicios nones se encuentran al final del libro.

13. Un pequeño número de empleados fueron seleccionados del personal de NED Electronics y
se registraron sus salarios por hora. Los salarios son: $9.50, $9.00, $11.70, $14.80 y $13.00.
a. ¿Los salarios por hora representan una muestra o una población?
b. ¿Cuál es el nivel de medición?
c. ¿Cuál es el salario medio aritmético por hora?
d. ¿Cuál es el salario por hora mediano? Interprete el resultado.
e. ¿Cuál es la varianza?
f. ¿Cuál es el coeficiente de sesgo? Interprete el resultado.
14. Las horas extras semanales que trabajaron todos los empleados de Publix Market son: 1, 4,
6, 12, 5 y 2.
a. ¿Ésta es una muestra o una población?
b. ¿Cuál es el número medio de horas extra trabajadas?
c. ¿Cuál es la mediana? Interprete el resultado.
d. ¿Cuál es la moda?
e. ¿Cuál es la desviación media?
f. ¿Cuál es la desviación estándar?
g. ¿Cuál es el coeficiente de variación?
15. La Oficina de Turismo de St.Thomas entrevistó a una muestra de turistas al salir de Estados
Unidos. Una de las preguntas fue: ¿Cuántos rollos de película utilizó mientras visitaba nues
tra isla? Las respuestas fueron:

a. Utilizando las cinco clases, organice los datos de la muestra en una distribución de fre
cuencia.
b. Represente la distribución en forma de un polígono de frecuencia.
c. ¿Cuál es el número medio de rollos usados? Use los datos en bruto reales.
d. ¿Cuál es la mediana? Use los datos en bruto reales.
e. ¿Cuál es la moda? Utilice los datos en bruto reales.
f. ¿Cuál es el rango? Utilice los datos en bruto reales.
g. ¿Cuál es la varianza de la muestra? Use los datos en bruto reales.
h. ¿Cuál es la desviación estándar de la muestra? Utilice los datos en bruto reales.
i. Suponiendo que la distribución es simétrica y en forma de campana, alrededor de 95%
de los turistas usaron entre _____ y _____rollos.
16. Las cantidades anuales invertidas en investigación y desarrollo, en una muestra de fabri-
cantes de componentes electrónicos, son (en millones de $):

a. ¿Cuál es el nivel de medición?


b. Utilizando seis clases, organice los gastos en una distribución de frecuencias.
136 Sección 1

c. Represente la distribución en forma de un histograma.


d. Represente la distribución en forma de una distribución de frecuencia acumulada.
e. Con base en la distribución de frecuencias acumuladas, ¿Cuál es la cantidad mediana
invertida en investigación y desarrollo? Interprete el resultado.
f. ¿Cuál es la cantidad media invertida en investigación y desarrollo?
g. Con base en la distribución de frecuencias acumuladas, ¿cuál es el rango intercuartílico?
17. Las tasas de crecimiento de Bardeen Chemicals durante los últimos cinco años son 5.2%,
8.7%, 3.9%, 6.8% y 19.5%.
a. ¿Cuál es la tasa de crecimiento anual media aritmética?
b. ¿Cuál es la tasa de crecimiento anual media geométrica?
c. ¿Se debe utilizar la media aritmética o la media geométrica para interpretar la tasa de
crecimiento promedio anual? ¿Por qué?
18. The Currin Manufacturing Co. indicó en su reporte correspondiente al segundo trimestre de
2003, con fecha 30 de junio de 2003, que las cuentas por pagar sumaban $284.0 millones.
Para la misma fecha, en 1993, eran de $113.0 millones. ¿Cuáles el incremento porcentual
medio geométrico anual (de junio a junio) entre junio de 1993 y junio de 2003?
19. El BFI reveló en su. informe anual que el capital laboral era (en miles de millones) $4.4, $3.4,
$3.0, $4.8, $7.8 y $8.3, en forma consecutiva durante los años de 1998 a 2003. Presente
estas cifras en una gráfica de líneas sencilla o en una gráfica de barras sencilla.
20. Consulte el diagrama siguiente.

a. ¿Cómo se llama el diagrama?


b. ¿Cuáles son los valores de la mediana, del primero y del tercer cuartiles?
c. ¿La distribución tiene un sesgo positivo? Indique cómo lo supo.
d. ¿Hay algún externo? Si es así, calcule esos valores.
e. ¿Puede determinar el número de observaciones en el estudio?
21. Una muestra de fondos depositados en el First Federal Savings Bank (cuenta de cheques
miniatura) reveló las cantidades siguientes.

Utilizando los datos en bruto anteriores y un paquete de estadística (como MINITAB):


a. Organice los datos en una distribución de frecuencias.
b. Calcule la media, la mediana y otras medidas descriptivas. Incluya un diagrama de pun
tos, un diagrama de tallo y hojas y un diagrama de caja. Usted decide el intervalo de clase.
c. Interprete los resultados obtenidos con la computadora; es decir, describa la tendencia
central, la extensión, el sesgo y otras medidas.
22. Una muestra de 12 casas vendidas la semana pasada en St. Paul, Minnesota, reveló la infor-
mación siguiente. Elabore un diagrama de dispersión. ¿Podemos llegar a la conclusión de
que conforme aumenta el tamaño de la casa (que se reporta en miles de pies cuadrados)
se incrementa también el precio de venta (que se reporta en miles de dólares)?
Revisión de los capítulos 1 al 4 137

23. Entre 1789 y 2003, 89 jueces prestaron sus servicios en la Suprema Corte de Estados
Unidos. A continuación, presentamos el tiempo que duró cada uno en el puesto. Analice la
información.
a. ¿Cuál es el tiempo típico de servicio?
b. ¿Cuál es la variación en el tiempo de servicio?
c. ¿La distribución presenta algún sesgo?
d. Elabore un diagrama de tallo y hojas.

24. El ingreso personal per cápita por estado (incluido el Distrito de Columbia), en miles de
dólares, es el siguiente.
a. Organice estos datos en una distribución de frecuencias.
b. ¿Cuál es el ingreso per cápita "típico" en un estado?
c. ¿Cuánta variación hay en la información sobre los ingresos?
d. ¿La distribución es simétrica?
e. Resuma sus descubrimientos.

25. A continuación presentamos la edad a la que los 43 presidentes de Estados Unidos tomaron
posesión. Organice los datos en un diagrama de tallo y hojas. Elabore también un diagrama
de puntos. Determine la edad típica en el momento de tomar posesión. Comente sobre la
variación en la edad.

Casos
A Century National Bank señor Dan Selig, presidente y director ejecutivo, quiere cono-
cer las características de las cuentas de cheques de sus
El caso siguiente aparecerá en las secciones de repaso. Su- clientes. ¿Cuál es el saldo de un cliente típico? ¿Cuántos
ponga que usted trabaja en el Departamento de Planeación otros servicios bancarios utilizan los clientes que tienen una
del Century National Bank y que se reporta con la señora cuenta de cheques? ¿Los clientes usan el servicio de
Lamberg. Tendrá que llevar a cabo un análisis de los datos y cajeros automáticos y, si es así, con qué frecuencia? ¿Qué
preparar un breve informe por escrito. Recuerde que el se- sucede con las tarjetas de crédito? ¿Quién las utiliza y con
ñor Selig es el presidente del banco, de modo que usted qué frecuencia?
querrá tener la seguridad de que su informe está completo y Para entender mejor a sus clientes, el señor Selig pidió
de que es exacto. Una copia de la información se encuentra a la señorita Wendy Lamberg, directora de Planeación; que
en el Apéndice N. seleccionara una muestra de clientes y elaborara un informe.
El Century National Bank tiene oficinas en varias ciu- Para empezar, Lamberg formó un equipo entre su personal.
dades del medio oeste y el sureste de Estados Unidos. El Usted es el jefe del equipo y tiene la responsabilidad de
138 Sección 1

preparar el informe, de modo que elige una muestra aleato- Para iniciar el proyecto, el señor Cory St. Julián organizó
ria de 60 clientes. Además del saldo en cada cuenta a fines una junta con su personal y lo invitó a usted. En esta junta,
del mes pasado, usted determina: (1) el número de opera- le sugirieron calcular diversas medidas de ubicación, elabo-
ciones realizadas en el cajero automático el mes pasado; (2) rar gráficas, como una distribución de frecuencia acumulada,
el número de otros servicios bancarios (cuenta de ahorro, y determinar los cuartiles para hombres y mujeres. Elabore
certificados de depósito, etc.) que el cliente utiliza; (3) si el las gráficas y redacte el informe resumiendo los salarios
cliente tiene una tarjeta de débito (éste es un servicio ban- anuales de los empleados de Wildcat Plumbing Supply. ¿Al
cario relativamente nuevo en el cual los cargos se hacen parecer hay alguna diferencia en el pago con base en el
directamente a la cuenta del cliente), y (4) si paga intereses género?
o no en su cuenta de cheques. La muestra incluye clientes
de las sucursales en Cincinnati, Ohio; Atlanta, Georgia; C. Kimble Products: ¿Hay alguna diferencia
Lousville, Kentucky y Erie, Pennsylvania. en las comisiones?
1. Elabore una gráfica o tabla que represente los saldos en
En la junta nacional de ventas que se realizó en enero, al di-
las cuentas de cheques. ¿Cuál es el saldo de un cliente
rector ejecutivo de Kimble Products le hicieron muchas pre-
típico? ¿Muchos clientes tienen más de $2 000 en sus
guntas acerca de la política de la empresa para pagar las
cuentas? ¿Al parecer hay alguna diferencia en la dis-
comisiones a sus representantes de ventas. La compañía
tribución de las cuentas entre las cuatro sucursales?
vende artículos deportivos en dos mercados importantes.
¿Alrededor de qué valor tienden a agruparse los saldos
Hay 40 representantes de ventas que visitan directamente a
de las cuentas?
un gran volumen de clientes, como los departamentos de
2. Determine la media y la mediana de los saldos en las
educación física de las principales universidades y franqui-
cuentas de cheques. Compare la media y la mediana de
cias de artículos deportivos para profesionales. Hay 30 re-
los saldos para las cuatro sucursales. ¿Hay alguna
presentantes de ventas que promueven la compañía ante
diferencia entre las sucursales? No olvide explicar la di
las tiendas detallistas ubicadas en centros comerciales y
ferencia entre la media y la mediana en su reporte.
grandes almacenes de descuento como Kmart y Target.
3. Determine el rango y la desviación estándar de los sal
Al regresar a las oficinas de la empresa, el director ejecu-
dos en las cuentas de cheques. ¿Qué muestran el
tivo pidió al gerente de ventas un informe comparando las
primero y el tercer cuartiles? Determine el coeficiente
comisiones ganadas el año pasado por las dos partes del
de sesgo e indique qué muestra. Como el señor Selig
equipo de ventas. La información se reporta en las siguientes
no maneja estadísticas todos los días, incluya una breve
tablas. Escriba un breve informe. ¿Podría llegar a la conclu-
descripción e interpretación de la desviación estándar y
sión de que hay una diferencia? No olvide incluir información
otras medidas.
sobre la tendencia central y la dispersión de ambos grupos.
B. Wildcat Plumbing Supply, Inc.: ¿Hacemos diferencia
entre los géneros?
Wildcat Plumbing Supply ha cubierto las necesidades de
plomería del suroeste de Arizona durante más de 40 años.
La compañía fue fundada por el señor Terrence St. Julián y
en la actualidad funciona bajo la dirección de su hijo Cory. La
empresa ha crecido, de tener unos cuantos empleados a
más de 500 en la actualidad. A Cory le preocupan varios
puestos en la compañía en los que hombres y mujeres
hacen el mismo trabajo, pero con un pago diferente. Para
investigar, recopiló la información siguiente. Suponga que
usted es un estudiante que hace su servicio social en el
Departamento de Contabilidad y que le asignaron la tarea
de escribir un informe resumiendo la situación.
Estudio de los
conceptos de
probabilidad

Wendy's ofrece una variedad de ocho condimentos en sus hamburguesas. ¿Cuántas maneras
diferentes hay de disfrutar su hamburguesa? (Vea la Meta 3 y el Ejercicio 73.)
140 Capítulo 5

Introducción
Los Capítulos 2,3 y 4 enfatizan la estadística descriptiva. En el Capítulo 2, organizamos en una
distribución de frecuencias los precios de los 80 vehículos vendidos el mes pasado en el lote
Whitner Autoplex de AutoUSA. Esta distribución de frecuencias muestra los precios de venta
más bajo y más alto y el lugar donde ocurre la mayor concentración de datos. En el Capítulo
3, utilizamos las medidas de ubicación y dispersión para encontrar un precio de venta típico y
estudiar la extensión de los datos. Describimos la extensión de los precios de venta con medi-
das de dispersión como el rango y la desviación estándar. En el Capítulo 4, elaboramos dia-
gramas y gráficas, como el diagrama de dispersión, para describir mejor la información.
La estadística descriptiva se ocupa de resumir los datos recopilados de eventos pasa-
dos. Por ejemplo, describimos los precios de venta de los vehículos durante el mes pasa-
do en Whitner Autoplex. Ahora, nos concentraremos en la segunda etapa de la estadística,
el cálculo de la probabilidad de que algo ocurra en el futuro. Esta etapa de la estadística se
llama inferencia estadística o estadística inferencial.
En raras ocasiones, la persona que toma las decisiones tiene la información completa
para hacerlo. Por ejemplo:

• Toys and Things, un fabricante de juguetes y rompecabezas, desarrolló hace poco un


nuevo juego basado en una trivia deportiva, y quiere saber si los fanáticos del deporte
lo van a comprar. "Slam Dunk" y "Home Run" son dos de los nombres que ha conside-
rado. Una forma de minimizar el riesgo de tomar una decisión equivocada es contratar
a una empresa de investigación de mercados para que tome una muestra, digamos, de
2 000 consumidores de la población y pregunte a cada entrevistado su opinión ante el
nuevo juego y los títulos propuestos. Utilizando los resultados de la muestra, la compa-
ñía podrá estimar la proporción de la población que va a comprar el juego.
• El departamento dé aseguramiento de la calidad de Bethlehem Steel debe convencer a
la gerencia de que el cable de un cuarto de pulgada que se produce tiene una fuerza de
tensión aceptable. Como es obvio, no todo el cable producido se puede someter a la
prueba de la fuerza de la tensión porque para hacerla es necesario tensarlo hasta que
se rompa y, por tanto, se destruye. De modo que
se selecciona una muestra aleatoria de 10 piezas
que se someten a prueba. Con base en los
resultados de la prueba, todo el cable producido
está destinado a ser calificado como satisfactorio o
insatisfactorio. Otras preguntas que hacen dudar
son: ¿La telenovela diurna Days ofOurüves se
debe descontinuar de inmediato? ¿Un cereal
sabor menta recién creado será productivo si se
comercializa? ¿Charles Linden será electo como
auditor del condado en Batavia County?

La inferencia estadística maneja las


conclusiones acerca de una población con base en una muestra tomada de esa población.
(Las poblaciones para los ejemplos anteriores son: todos los consumidores a los que les
gustan los juegos de trivia deportiva, todo el cable de acero de un cuarto de pulgada que se
produce, todos los televidentes que ven telenovelas, todas las personas que compran
cereales para el desayuno, etcétera.)
Como en la toma de decisiones siempre hay incertidumbre, es importante evaluar cien-
tíficamente todos los riesgos involucrados. En esta evaluación resulta útil la teoría de la pro-
babilidad, que con frecuencia se conoce como la ciencia de la incertidumbre. El uso de esta
teoría permite a la persona que toma las decisiones, con una información limitada, analizar
los riesgos y minimizar el azar inherente, por ejemplo, al comercializar un nuevo producto
o aceptar un envío que quizá contenga partes defectuosas.
Como los conceptos de la probabilidad son muy importantes en el campo de la inferen-
cia estadística (que vamos a estudiar a partir del Capítulo 8), este capítulo introduce el len-
guaje básico de la probabilidad, incluidos términos como experimento, evento, probabilidad
subjetiva y reglas de la adición y la multiplicación.
Estudio de los conceptos de probabilidad 141

¿Qué es probabilidad?
Sin duda, está familiarizado con términos como probabilidad, posibilidad)/ viabilidad, que a
menudo se emplean de manera indistinta. El pronóstico del tiempo anuncia que hay 70%
de probabilidades de lluvia para el domingo del Super Tazón. Con base en una encuesta
entre los consumidores que probaron un nuevo pepinillo con sabor a plátano, la probabili-
dad de que, si se comercializa, sea un éxito financiero es de 0.03. (Esto significa que la po-
sibilidad de que el público acepte un pepinillo con sabor a plátano es muy remota.) ¿Qué
es una probabilidad? En general, es la medida que describe la posibilidad de que algo su-
ceda.

PROBABILIDAD. Valor entre cero y uno, inclusive, que describe la posibilidad (probabi-
lidad o viabilidad) relativa de que ocurra un evento.

Con frecuencia, una probabilidad se expresa con un decimal, como 0.70, 0.27 o 0.50.
Sin embargo, se puede dar como una fracción, como 7/10, 27/100 o 1/2. Puede asumir cual-
quier número de 0 a 1, inclusive. Si una compañía tiene sólo cinco regiones de ventas, y el
nombre o número de cada una está escrito en un pedazo de papel y los papeles se colo-
can en un sombrero, la probabilidad de seleccionar una de las cinco regiones es 1. La pro-
babilidad de seleccionar un pedazo de papel que diga "Acereros de Pittsburgh" es 0. Por
tanto, la probabilidad de 1 representa algo que seguramente va a ocurrir, y la probabilidad
de 0 representa algo que no puede ocurrir.
Cuanto más cerca de 0 esté una probabilidad, más improbable es que el evento suceda.
Cuanto más cerca esté de 1, es más seguro que ocurra. La relación se muestra en el diagra-
ma siguiente, con algunas de nuestras creencias personales. Sin embargo, usted podría se-
leccionar una probabilidad diferente en cuanto a las oportunidades que Slo Poke tiene de
ganar el Derby de Kentucky o en cuanto al aumento de los impuestos federales.

En el estudio de la probabilidad se utilizan tres palabras clave: experimento, resulta-


do y evento. Estos términos se emplean en el lenguaje cotidiano, pero en estadística, tie-
nen significados específicos.

EXPERIMENTO. Proceso que lleva a la ocurrencia de una y sólo una de varias obser-
vaciones posibles.

Esta definición es más general que la que se utiliza en las ciencias físicas, donde ima-
ginamos a alguien manejando tubos de ensaye y microscopios. En relación con la probabi-
lidad, un experimento tiene dos o más resultados posibles, y no sabemos cuál va a ocurrir.

RESULTADO. La consecuencia de un experimento en particular.


142 Capítulo 5

Por ejemplo, lanzar una moneda al aire es un experimento. Puede observar cómo se
lanza, pero no sabe si caerá en "cara" o "cruz". De manera similar, preguntar a 500 estu-
diantes universitarios si comprarían un nuevo sistema de cómputo de Dell a un precio en par-
ticular es un experimento. Si se lanza la moneda, un resultado particular es "cara". El
resultado alternativo es "cruz". En el experimento sobre la compra de una computadora, un
resultado posible es que 273 estudiantes indiquen que comprarían la computadora. Otro re-
sultado es que 317 estudiantes la compren. Otro resultado más sería que 423 estudiantes
dijeran que la van a comprar. La observación de .uno o más de los resultados de un expe-
rimento, se conoce como evento.

EVENTO. Conjunto de uno o más resultados de un experimento.

En la ilustración siguiente, presentamos algunos ejemplos para explicar mejor las defi-
niciones de los términos experimento, resultado y evento.
En el experimento en el que se tira un dado hay seis resultados posibles, pero existen
muchos eventos posibles. Al contar el número de miembros de la junta de directores de las
compañías Fortune 500 que tienen más de 60 años de edad, el número posible de resulta-
dos puede ser desde cero hasta el número total de miembros. En este experimento, hay un
número posible de eventos todavía más elevado.

Autoevaluación 5-1 Hace poco, Video Games, Inc. desarrolló un nuevo juego de video. Ochenta jugadores vete-
ranos van a probar su potencial en el mercado.
(a) ¿Cuál es el experimento?
(b) ¿Cuál es un resultado posible?
(c) Supongamos que 65 jugadores probaron el nuevo juego y dijeron que les gustaba. ¿Se
senta y cinco es una probabilidad?
(d) La probabilidad de que el nuevo juego sea un éxito se calcula en -1. Comente al respecto.
(e) Especifique un evento posible.
Estudio de los conceptos de probabilidad 143

Enfoques para asignar probabilidades


Analizaremos dos enfoques para asignar probabilidades: tos puntos de vista objetivo y sub-
jetivo. La probabilidad objetiva se subdivide en (1) probabilidad clásica y (2) probabilidad
empírica.

Probabilidad clásica
La probabilidad clásica se basa en la suposición de que los resultados de un experimento
son igualmente viables. Desde el punto de vista clásico, la probabilidad de que un evento
suceda se calcula dividiendo el número de resultados favorables entre el número de
resultados posibles:

Considere un experimento de tirar un dado con seis lados. ¿Cuál es la probabilidad de que
el evento "la cara en la que hay un número par de puntos quede hacia arriba"?

Los resultados posibles son:

En el grupo de seis resultados posibles que son igualmente probables hay tres resultados
"favorables" (un dos,, un cuatro y un seis). Por tanto:

El concepto mutuamente excluyente apareció anteriormente en nuestro estudio de la distribu-


ción de frecuencia en el Capítulo 2. Recuerde que creamos clases, de modo que un evento
en particular sólo se incluye en una de las clases y no existe ninguna superposición entre
ellas. Por tanto, sólo uno de varios eventos puede ocurrir en un momento en particular.

MUTUAMENTE EXCLUYENTE. La ocurrencia de un evento significa que ninguno de los


otros puede ocurrir al mismo tiempo.

La variable "género" presenta resultados mutuamente excluyentes, hombre y mujer. Un


empleado seleccionado en forma aleatoria es hombre o mujer, pero no puede ser de am-
bos géneros. Una parte fabricada puede ser aceptable o inaceptable. La parte no puede ser
aceptable e inaceptable al mismo tiempo. En una muestra de partes fabricadas, el evento
de seleccionar una inaceptable y el evento de elegir una aceptable son mutuamente exclu-
yentes.
144 Capítulo 5

Si un experimento tiene un conjunto de eventos que incluye todos los resultados posi-
bles, como los eventos de "un número par" y "un número non" en el experimento al tirar el
dado, el grupo de eventos es colectivamente exhaustivo. En el experimento de tirar el da-
do todos los resultados serán pares o nones. De modo que el conjunto es colectivamente
exhaustivo.

COLECTIVAMENTE EXHAUSTIVO, Por lo menos uno de los eventos debe ocurrir al reali-
zar un experimento.

Suma de probabilidades = 1 Si el conjunto de eventos es colectivamente exhaustivo y los eventos son mutuamente
excluyentes, la suma de las probabilidades es 1. La estrategia clásica para la probabilidad
se desarrolló y aplicó durante los siglos XVII y xvIII en los juegos de azar, como los juegos
de naipes y dados. Es innecesario realizar un experimento para determinar la probabilidad de
que un evento ocurra utilizando la estrategia clásica, debido a que el número total de resul-
tados se conoce antes de hacerlo. Lanzar una moneda tiene dos resultados posibles; tirar
un dado tiene seis resultados posibles. Mediante la lógica, podemos llegar a la probabilidad
de obtener una cruz al lanzar la moneda o tres caras al lanzar tres monedas.
La estrategia clásica para la probabilidad también se puede aplicar en la lotería. En Ca-
rolina del Sur, uno de los juegos de la Lotería Educativa es "Pick 3" (Elige 3). Una persona
compra un billete de lotería y selecciona tres números entre 0 y 9. Una vez a la semana, los
tres números se eligen al azar de una máquina que da vueltas a tres contenedores en los que
hay bolas numeradas del 0 al 9. Una forma de ganar es haber elegido los mismos números
que salen premiados, así como el orden en que están. Debido a que existen 1 000 resulta-
dos posibles (000 a 999), la probabilidad de ganar con cualquier número de tres dígitos es
0.001, o una en 1 000.

Probabilidad empírica
Otra forma de definir la probabilidad se basa en las frecuencias relativas. La probabilidad
de que un evento suceda se determina al observar en qué fracción de tiempo sucedieron
eventos similares en el pasado. En términos de una fórmula:

El 1 de febrero de 2003, explotó el transbordador espacial Columbia. Éste fue el segundo


desastre en 113 misiones espaciales para la NASA. Con base en esta información, ¿cuál
es la probabilidad de que una misión futura se realice con éxito? '

Para simplificar, podemos utilizar letras o números. P significa probabilidad y, en este caso,
P(A) representa la probabilidad de que una misión futura se lleve a cabo con éxito.

Podemos usar lo anterior como un estimado de la probabilidad. En otras palabras, con ba-
se en la experiencia pasada, la probabilidad de que una misión del transbordador espacial
en el futuro se realice con éxito es 0.98.
Estudio de los conceptos de probabilidad 145

Probabilidad subjetiva
Si existe poca o ninguna experiencia anterior o información sobre la cual basar la probabi-
lidad, podemos llegar a ella en forma subjetiva. En esencia, esto significa que un individuo
evalúa las opiniones disponibles y otra información y después estima o asigna la probabili-
dad. Esta probabilidad se conoce como probabilidad subjetiva.

PROBABILIDAD SUBJETIVA. Posibilidad (probabilidad) de que suceda un evento en parti-


cular que asigna un individuo con base en la información disponible.

Algunos ejemplos de probabilidad subjetiva son:

1. Estimar la probabilidad de que los Patriotas de Nueva Inglaterra jueguen en el Super


Tazón el próximo año.
2. Calcular la probabilidad de que, dentro de dos años, General Motors Corp. pierda el pri
mer lugar que ocupa en unidades vendidas frente a Ford Motor Co. o DaimlerChyrsIer.
3. Estimar la probabilidad de que usted obtenga una calificación de 10 en este curso.

La Gráfica 5-1 presenta un resumen de los tipos de probabilidad. Una afirmación de


probabilidad siempre asigna la viabilidad de un evento que todavía no ocurre. Desde luego,
existe una latitud considerable en el grado de incertidumbre que rodea a esta probabilidad,
basada principalmente en el conocimiento que posee el individuo que se ocupa del proceso
subyacente. Se puede poseer gran cantidad de conocimientos sobre el tiro de un dado y
se puede afirmar que la probabilidad de que quede hacia arriba la cara del dado donde
hay un punto es una entre seis, pero sabemos muy poco acerca de la aceptación en el mer-
cado de un producto nuevo y que no se ha probado. Por ejemplo, aun cuando un director
de investigación de mercados pruebe un producto recién desarrollado en 40 tiendas deta-
llistas y afirme que hay un 70% de probabilidad de que el producto logre ventas de más de
un millón de unidades, sabe muy poco sobre la forma en que los consumidores van a reac-
cionar al comercializarlo en todo el país. En ambos casos (en el que la persona tira un da-
do y las pruebas de un nuevo producto) el individuo asigna una probabilidad a un evento
que le interesa, y sólo existe una diferencia en la confianza que tiene el individuo en la pre-
cisión del cálculo. No obstante, sin importar el punto de vista, se aplican las mismas leyes
de la probabilidad (que presentamos en las secciones siguientes).

GRÁFICA 5-1 Resumen de estrategias para ^probabilidad


146 Capítulo 5

Autoevaluación 5-2 1. Se va a seleccionar al azar una carta de una baraja estándar de 52 piezas. ¿Cuál es la
probabilidad de que la carta sea una reina? ¿Qué estrategia de probabilidad empleó pa
ra responder esta pregunta?
2. El Centro para el Cuidado del Niño reporta el estado civil de los padres de 539 niños. Hay
333 parejas casadas, 182 divorciadas y 24 padres viudos. ¿Cuál es la probabilidad de que
un niño en particular elegido al azar tenga un padre divorciado? ¿Qué estrategia empleó?
3. ¿Cuál es la probabilidad de que el Promedio Industrial Dow Jones sea mayor de 12 000
en los próximos 12 meses? ¿Qué estrategia de probabilidad utilizó para responder esta
pregunta?

Ejercicios
1. Algunas personas están a favor de reducir los impuestos federales para aumentar los gas
tos del consumidor, y otras están en contra. Se seleccionan dos personas y se registran sus
opiniones. Mencione los resultados posibles.
2. Un inspector de control de calidad selecciona una parte para probarla. La parte se marca co
mo aceptable, susceptible a repararse o desecho. Luego, se prueba otra parte. Mencione
los posibles resultados de este experimento con dos partes.
3. Una encuesta entre 34 estudiantes de Wall College of Business mostró que tienen las si
guientes especializaciones:

Supongamos que selecciona a un alumno y observa su especialización.


a. ¿Cuál es la probabilidad de que esté especializado en administración?
b. ¿Qué concepto de probabilidad utilizó para hacer este cálculo?
4. Una compañía grande que debe contratar a un nuevo presidente prepara una lista final de
cinco candidatos, todos calificados. Dos de ellos son miembros de un grupo minoritario. Pa
ra evitar tendencias en la selección del candidato, la compañía decide elegir al presidente
mediante una lotería.
a. ¿Cuál es la probabilidad de que uno de los candidatos que pertenece al grupo minorita-
rio quede contratado?
b. ¿Qué concepto de probabilidad empleó para realizar este cálculo?
5. En cada uno de los casos siguientes, indique si se utilizó la probabilidad clásica, empírica o
subjetiva.
a. Un jugador de básquetbol comete 30 de 50 faltas. La probabilidad de que cometa la si
guiente falta es de 0.6.
b. Se forma un comité de estudiantes con siete miembros para estudiar los problemas del
ambiente. ¿Cuál es la probabilidad de que cualquiera de los siete sea elegido vocero del
equipo?
c. Usted compra uno de los 5 millones de boletos vendidos por Lotto Canadá. ¿Cuál es la
probabilidad de que gane el premio acumulado de un millón de dólares?
d. La probabilidad de que ocurra un terremoto en el norte de California durante los próximos
10 años es 0.80.
6. Una empresa va a dar un ascenso a dos empleados de un grupo de seis hombres y tres mu
jeres.
a. Mencione los resultados de este experimento, en caso de haber alguna preocupación por
la igualdad de los géneros.
b. ¿Qué concepto de probabilidad utilizaría para calcular estas probabilidades?
7. Se seleccionó una muestra de 40 ejecutivos de la industria petrolera para que contestaran
un cuestionario. Una pregunta sobre los problemas del ambiente requería de una respues
ta de sí o no.
a. ¿Cuál es el experimento?
Estudio de los conceptos de probabilidad 147

b. Mencione un evento posible.


c. Diez de los 40 ejecutivos respondieron "sí". Con base en estas respuestas, ¿cuál es la
probabilidad de que un ejecutivo de la industria petrolera responda "sí"?
d. ¿Qué concepto de probabilidad ilustra lo anterior?
e. ¿Cada uno de los resultados posibles son igualmente probables y mutuamente
excluyentes?
8. Una muestra de 2 000 conductores con licencia reveló el siguiente número de violaciones al
límite de velocidad.

Número de violaciones Número de conductores


0 1 910
1 46
2 18
3 12
4 9
5 o más 5
Total 2 000

a. ¿Cuál es el experimento?
b. Mencione un evento posible.
c. ¿Cuál es la probabilidad de que un conductor en particular haya cometido exactamente
dos violaciones al límite de velocidad?
d. ¿Qué concepto de probabilidad ilustra lo anterior?
9. Los clientes del Bank of America eligen su número de identificación personal (PIN) de tres
dígitos para utilizar los cajeros automáticos.
a. Considere éste un experimentó y mencione cuatro resultados posibles.
b. ¿Cuál es la probabilidad de que el señor Jones y la señora Smith elijan el mismo PIN?
c. ¿Qué concepto de probabilidad utilizó para la respuesta b?
10. Un inversionista compra 100 acciones de AT&T y registra los cambios de precio todos los días.
a. Mencione varios eventos posibles para este experimento.
b. Calcule la probabilidad para cada uno de los eventos que describió en a.
c. ¿Qué concepto de probabilidad empleó en b?

Algunas reglas para calcular probabilidades


Ahora que ya definimos la probabilidad y describimos las distintas estrategias para ésta,
concentraremos nuestra atención en el cálculo de la probabilidad de dos o más eventos
aplicando las reglas de la adición y la multiplicación.

Reglas de adición
Los eventos mutuamente Regla especial de la adición. Para aplicar la regla especial de la adición, los eventos de-
excluyentes no pueden suceder ben ser mutuamente excluyentes. Recuerde que mutuamente excluyente significa que, cuan-
al mismo tiempo. do un evento ocurre, ninguno de los otros puede ocurrir al mismo tiempo. Un ejemplo de
eventos mutuamente excluyentes en el experimento en el que tiramos un dado son "un núme-
ro 4 o mayor" y "un número 2 o menor". Si el resultado se encuentra en el primer grupo [4, 5 y
6], no puede estar también en el segundo [1 y 2]. Otro ejemplo es que un producto que sale de
la línea de ensamblaje no puede estar defectuoso y ser aceptable al mismo tiempo.
Si dos eventos A y B son mutuamente excluyentes, la regla especial de la adición es-
tablece que la probabilidad de que ocurra uno u otro es igual a la suma de sus probabilidades.
La regla se expresa en la fórmula siguiente:

Para tres eventos mutuamente excluyentes designados como A, B y C, la regla se escribe:

Un ejemplo nos ayudará a mostrar los detalles.


148 Capítulo 5

Una máquina Shaw automática llena bolsas de plástico con una mezcla de frijoles, brócoli
y otras verduras. La mayor parte de las bolsas contienen el peso correcto, pero debido a la
variación en el tamaño de los frijoles y otras verduras, un paquete puede
tener mayor o menor peso. Una revisión de 4 000 paquetes que se llena-
ron el mes pasado reveló:

¿Cuál es la probabilidad de que un paquete en particular esté pasado de peso o le falte peso?

El resultado "pasado de peso" es el evento A El resultado "falto de peso" es el evento C.


Si aplicamos la regla especial de la adición:

Observe que los eventos son mutuamente excluyentes, lo que significa que un paquete de
mezcla de verduras no puede estar pasado de peso, ser satisfactorio y pesar menos al mis-
mo tiempo. Asimismo, son colectivamente exhaustivos; es decir, un paquete seleccionado
sólo puede estar pasado de peso, ser satisfactorio o pesar menos.

El lógico inglés J. Venn (1835-1888) desarrolló un diagrama para representar en forma


gráfica el resultado de un experimento. El concepto mutuamente excluyente y diversas
otras reglas para combinar las probabilidades se pueden ilustrar utilizando esta gráfica. Para
Un diagrama de Venn es una elaborar un diagrama de Venn, primero se delimita un espacio que representa el total de
herramienta útil para todos los resultados posibles. Por lo regular, este espacio tiene la forma de un rectángulo.
representar las reglas de Luego, se representa un evento mediante un área circular que se dibuja dentro del rectán-
adición o de multiplicación. gulo en un tamaño proporcional a la probabilidad del evento. El siguiente diagrama de Venn
representa el concepto mutuamente excluyente. No existe ninguna superposición entre los
eventos, lo que significa que son mutuamente excluyentes.

Por lógica, la probabilidad de que una bolsa de mezcla de verduras seleccionada pese
menos de lo que debe, P(A), más la probabilidad de que no pese menos, que se escribe
(P(~A) y se lee "no A", debe ser igual a 1. Lo anterior se escribe:

Esto se puede expresar también como:

Ésta es la regla del complemento. Se utiliza para determinar la probabilidad de que un


evento ocurra restando a 1 la probabilidad de que el evento no ocurra. Esta regla es útil por-
que, en ocasiones, es más fácil calcular la probabilidad de que un evento suceda determi-
Estudio de los conceptos de probabilidad 149

nando la posibilidad de que no suceda y restando a 1 el resultado. Observe que los even-
tos A y -A son mutuamente excluyentes y colectivamente exhaustivos. Por tanto, las pro-
babilidades de A y -A se suman a 1. Un diagrama de Venn que ¡lustra la regla del comple-
mento se muestra así:

Recuerde que la probabilidad de que una bolsa de mezcla de verduras pese menos es
0.025 y que la probabilidad de que pese más es 0.075. Use la regla del complemento para
mostrar que la probabilidad de una bolsa satisfactoria es 0.900. Represente la solución con
un diagrama de Venn.

La probabilidad de que la bolsa sea insatisfactoria es igual a la probabilidad de que tenga


un peso excesivo más la probabilidad de que pese menos. Es decir, P(A o C) = P(A) + P(C)
- 0.025 + 0.075 = 0.100. La bolsa es satisfactoria si no pesa menos o más de lo que debe,
de modo que P(B) = 1 - [P(A) + P(C)] = 1 - [0.025 + 0.075] = 0.900. El diagrama de Venn
que representa esta situación es:

Autoevaluación 5-3 Una muestra de empleados de Worldwide Enterprises participa en una encuesta sobre un nue-
vo plan de pensión. Los empleados se clasifican como sigue:

(a) ¿Cuál es la probabilidad de que la primera persona seleccionada sea:


(i) un empleado de mantenimiento o una secretaria?
(ii) un empleado que no forma parte de la gerencia?
(b) Elabore un diagrama de Venn ilustrando sus respuestas en la parte (a).
(c) ¿Los eventos en la parte (a)(i) son complementarios, mutuamente excluyentes o ambos?

La regla general de la adición. Los resultados de un experimento pueden no ser mutua-


mente excluyentes. Como ejemplo, supongamos que la Comisión de Turismo de Florida se-
150 Capítulo 5

leccionó una muestra de 200 turistas que visitaron el estado durante este año. La encues-
ta reveló que 120 turistas fueron a Disney World y 100 a Busch Gardens, cerca de Tampa.
¿Cuál es la probabilidad de que una persona seleccionada haya visitado Disney World o
Busch Gardens? Si se emplea la regla especial de la adición la probabilidad de elegir a un
turista que haya visitado Disney World es 0.60, calculada así: 120/200. De manera similar,
la probabilidad de que un turista visite Busch Gardens es 0.50. La suma de estas dos pro-
babilidades es 1.10. Sin embargo, sabemos que esta probabilidad no puede ser mayor
de 1. La explicación es que muchos turistas visitaron ambas atracciones y se cuentan dos
veces. Una revisión de las respuestas de la encuesta reveló que 60 de cada 200
participantes en la muestra lo hicieron.
Para responder a nuestra pregunta: "¿Cuál es la probabilidad de que una persona se-
leccionada haya visitado Disney World o Busch Gardens?" (1) sume la probabilidad de que
un turista haya visitado Disney World y la posibilidad que haya visitado Busch Gardens y (2)
reste la probabilidad de que haya visitado ambos parques. De esta manera:
P(Disney o Busch) = P(Disney) + P(Busch) - P(Disney y Busch) =
0.60 + 0.50 - 0.30 = 0.80
Cuando ocurren dos eventos, la probabilidad se llama probabilidad conjunta. La po-
sibilidad de que un turista visite las dos atracciones (0.30) es un ejemplo de probabilidad
conjunta.
El siguiente diagrama de Venn muestra dos eventos que no son mutuamente exclu-
yentes. Ambos se superponen para ilustrar el evento conjunto de que algunas personas vi-
sitaron los dos parques.
Estudio de los conceptos de probabilidad 151

Esta regla para dos eventos designados como A y B se escribe:

Para la expresión P(A o 6), el conectivo o sugiere que puede ocurrir A o puede ocurrir B.
Esto también incluye la posibilidad de que ocurran A y B. El uso del conectivo o en ocasio-
nes se conoce como inclusivo. También podríamos escribir P(A o 6 o ambos) para enfati-
zar el hecho de que la unión de los eventos incluye la intersección de A y B.
Si comparamos las reglas de la adición general y especial, la diferencia que importa es
determinar si los eventos son mutuamente excluyentes. Si lo son, la probabilidad conjunta
P{A y 6) es O y utilizaríamos la regla especial de la adición. De lo contrario, debemos tomar
en cuenta la probabilidad conjunta y usar la regla general de la adición.

¿Cuál es la probabilidad de que una carta elegida de una baraja estándar sea un rey o un
corazón?

Quizá se sienta tentado a sumar la probabilidad de un rey y la probabilidad de un corazón;


pero esto causa un problema. Si lo hacemos, el rey de corazones se cuenta entre los reyes
pero también entre los corazones. De modo que si sumamos la probabilidad de un rey (hay
4 en una baraja) a la probabilidad de un corazón (hay 13 en una baraja de 52 naipes) y re-
portamos que 17 de cada 52 naipes cumplen con el requerimiento, habremos contado el rey
de corazones dos veces. Necesitamos restar 1 carta de 17, a fin de que el rey de corazo-
nes sólo se cuente una vez. Por tanto, hay 16 naipes que son corazones o reyes. De mo-
do que la probabilidad es 16/52 = 0.3077.

A partir de la fórmula (5-4):

Un diagrama de Venn ilustra estos resultados, que no son mutuamente excluyentes.


152 Capítulo 5

Autoevaluación 5-4 Cada año se realizan exámenes físicos de rutina como parte de un programa de servicios de
salud para los empleados de General Concrete, Inc. Se descubrió que 8% de los empleados
necesitan zapatos ortopédicos, 15% requieren de un tratamiento dental y 3% necesitan tanto
zapatos ortopédicos como un tratamiento dental.
(a) ¿Cuál es la probabilidad de que un empleado seleccionado en forma aleatoria necesite
zapatos ortopédicos o tratamiento dental?
(b) Represente esta situación en forma de un diagrama de Venn.

Ejercicios
11. Los eventos A y B son mutuamente excluyentes. Supongamos que P(A) = 0.30 y P(B) =
0.20. ¿Cuál es la probabilidad de que ocurra Ao Bl ¿Cuál es la probabilidad de que no ocu
rran ni A ni 6?
12. Los eventos Xy Y son mutuamente excluyentes. Supongamos que P(X) = 0.05 y P(Y) =
0.02. ¿Cuál es la probabilidad de que ocurra X o Y? ¿Cuál es la probabilidad de que no ocu
rran ni X ni y?
13. Un estudio de 200 cadenas de supermercados reveló estos ingresos después de impuestos:

a. ¿Cuál es la probabilidad de que una cadena en particular tenga menos de 1 000 000 de
dólares en ingresos después de impuestos?
b. ¿Cuál es la probabilidad de que una cadena seleccionada en forma aleatoria tenga un in
greso entre $1 000 000 y $20 000 000, o un ingreso de $20 000 000 o más? ¿Qué regla
de probabilidad se aplicó?
14. El presidente de la junta de directores dice: "Hay una probabilidad de 50% de que esta com
pañía obtenga una ganancia, de 30% de que quede igual y de 20% de que pierda dinero du-
rante el próximo trimestre."
a. Utilice la regla de la adición para calcular la probabilidad de que no pierdan dinero el pró-
ximo trimestre.
b. Use la regla del complemento para calcular la probabilidad de que no pierdan dinero el
próximo trimestre.
15. Suponga que la probabilidad de que obtenga una calificación A en esta clase es de 0.25 y
la probabilidad de que obtenga una B es de 0.50. ¿Cuál es la probabilidad de que su califi
cación sea superior a C?
16. Se lanzan al aire dos monedas. Si A es el evento "dos caras" y B es el evento "dos cruces",
¿A y 8 son mutuamente excluyentes? ¿Son complementarios?
17. Las probabilidades de los eventos A y 6 son 0.20 y 0.30, respectivamente. La probabilidad
de que ocurran A y B es 0.15. ¿Cuál es la probabilidad de que ocurra A o S?
18. Supongamos que P(X) = 0.55 y P(Y) = 0.35, y que la probabilidad de que ambos ocurran es
0.20. ¿Cuál es la probabilidad de que ocurra Xo Y?
19. Suponga que dos eventos, A y B, son mutuamente excluyentes. ¿Cuál es la probabilidad de
su ocurrencia conjunta?
20. Un estudiante toma dos cursos, historia y matemáticas. La probabilidad de que el estudian
te pase el curso de historia es 0.60, y que la probabilidad de que apruebe el curso de mate
máticas es 0.70. La posibilidad de que apruebe ambos es 0.50. ¿Cuál es la probabilidad de
que pase por lo menos uno?
21. Una encuesta entre altos ejecutivos reveló que 35% de ellos leen la revista Time en forma
regular, 20% leen Newsweek y 40% leen U.S. News and World Repon. Además, 10% leen
tanto Time como U.S. News and World Report.
a. ¿Cuál es la probabilidad de que un alto ejecutivo en particular lea Time o U.S. News and
World Report en forma regular?
Estudio de los conceptos de probabilidad 153

b. ¿Cómo se llama la probabilidad 0.10?


c. ¿Los eventos son mutuamente excluyentes? Explique su respuesta.
22. Un estudio realizado por el Servicio Nacional de Parques reveló que 50% de los vacacionis-
tas que van a la región de las Montañas Rocallosas visitan Yellowstone Park, 40% visitan
los Tetons y 35% visitan ambos lugares.
a. ¿Cuál es la probabilidad de que un vacacionista visite por lo menos una de estas atrac-
ciones?
b. ¿Cómo se llama la probabilidad 0.35?
c. ¿Los eventos son mutuamente excluyentes? Explique su respuesta.

Reglas de la multiplicación
Cuando utilizamos las reglas de la adición, encontramos la probabilidad de combinar dos even-
tos. Los diagramas de Venn ilustran esto como la "unión" de dos eventos. En esta sección, en-
contramos la posibilidad de que dos eventos sucedan. Por ejemplo, tal vez una empresa de
mercadotecnia quiera calcular la probabilidad de que una persona de 21 años o más compre
un Hummer. Los diagramas de Venn ilustran lo anterior como la intersección de dos eventos.
Para encontrar la probabilidad de que sucedan dos eventos, utilizamos las reglas de la multi-
plicación. Hay dos reglas de este tipo: la Regla especial y la Regla general de la multiplicación.

Regla especial de la multiplicación. Esta regla requiere de que dos eventos A y B sean
independientes. Dos eventos son independientes si la ocurrencia de uno de ellos no altera
la probabilidad de la ocurrencia del otro.

INDEPENDENCIA. La ocurrencia de un evento no tiene ningún efecto sobre la probabilidad


de la ocurrencia del otro.

Una forma de pensar en la independencia es suponer que los eventos A y B ocurran en


momentos diferentes. Por ejemplo, cuando el evento B ocurre después de que ocurre el even-
to A, ¿A tiene algún efecto en la probabilidad de que ocurra el evento 8? Si la respuesta es
que no, A y 6 son eventos independientes. Para ilustrar esta independencia, supongamos que
dos monedas se lanzan al aire. El resultado del lanzamiento de una moneda (cara o cruz) no
se ve afectado por el resultado de cualquier otro lanzamiento anterior (cara o cruz).
Para dos eventos independientes, A y B, la probabilidad de que ocurran A y B se en-
cuentra multiplicando las dos probabilidades. Ésta es la regla especial de la multiplica-
ción y se escribe simbólicamente como:

Para tres eventos independientes, A, By C, la regla especial de la multiplicación utilizada


para determinar la probabilidad de que ocurran los tres eventos es:

P{Ay By C) = P(A)P{B)P(C)

Una encuesta realizada por la American Automobile Association (AAA) reveló que 60% de
sus miembros hicieron alguna reservación en una línea aérea el año pasado. Se seleccio-
naron dos miembros en forma aleatoria. ¿Cuál es la probabilidad de que ambos hayan he-
cho una reservación en una línea aérea el año pasado?

La probabilidad de que el primer miembro haya hecho una reservación en una línea aérea
el año pasado es 0.60, que se expresa P(R,) = 0.60, donde R, se refiere al hecho de que el
primer miembro hizo una reservación. La probabilidad de que el segundo miembro selec-
cionado haya hecho una reservación también es 0.60, de modo que P{R2) = 0.60. Como el
número de miembros en AAA es muy elevado, podemos suponer que ñ, y ñ2 son indepen-
154 Capítulo 5

dientes. Como consecuencia, utilizando la fórmula (5-5), la probabilidad de que ambos hi-
cieran una reservación es 0.36, que calculamos así:

Todos los resultados posibles se pueden mostrar como sigue. R significa que se hizo una
reservación, y NR significa que no se hizo ninguna reservación.
Con las probabilidades y la regla del complemento, podemos calcular la probabilidad
conjunta de cada resultado. Por ejemplo, la probabilidad de que ninguno "de los miembros
haga una reservación es 0.16. Además, la probabilidad de que el primero o segundo miem-
bro (regla especial de la adición) haga una reservación es 0.48 (0.24 + 0.24). También pue-
de observar que los resultados son mutuamente excluyentes y colectivamente exhaustivos.
Por tanto, las probabilidades suman 1.00.

Autoevaluación 5-5 Por sus experiencias, Tetón Tire sabe que la probabilidad de que su llanta XB-70 dure 60 000
millas antes de que quede lisa o falle es de 0.80. A cualquier llanta que no dura 60 000 millas
se le realiza un ajuste. Usted compra cuatro llantas XB-70. ¿Cuál es la probabilidad de que
las cuatro duren por lo menos 60 000 millas?

Si dos eventos no son independientes, se conocen como dependientes. Para ¡lustrar


la dependencia, suponga que hay 10 rollos de película en una caja y se sabe que 3 están
defectuosos. Se selecciona un rollo de la caja. La probabilidad de que uno sea defectuoso
es 3/10, y la probabilidad de elegir un rollo aceptable es 7/10. Luego, se selecciona un se-
gundo rollo de la caja, sin haber regresado el primero. La probabilidad de que este segun-
do rollo esté defectuoso depende de si el primer rollo seleccionado estaba defectuoso o no.
La probabilidad de que el segundo rollo esté defectuoso es:
2/9, si el primer rollo estaba defectuoso. (Sólo hay dos rollos defectuosos en la caja que
contiene nueve rollos.) 3/9, si el primer rollo seleccionado era aceptable. (Los tres
rollos defectuosos siguen en
la caja que contiene nueve rollos.)
La fracción 2/9 (o 3/9) se conoce como probabilidad condicional, porque su valor está
condicionado (o es dependiente) a la elección de un rollo defectuoso o uno aceptable en la
primera ocasión.

PROBABILIDAD. Valor entre cero y uno, inclusive, que describe la posibilidad (probabi-
lidad o viabilidad) relativa de que ocurra un evento.

Regla general de la multiplicación. Utilizamos esta regla para encontrar la probabilidad


conjunta de dos eventos cuando éstos no son independientes. Por ejemplo, cuando el even-
to B ocurre después del evento A, y A tiene algún efecto sobre la probabilidad de que ocu-
rra el evento B, A y B no son independientes. Para ilustrar, suponga que hay 10 rollos de
película en una caja y se sabe que 3 están defectuosos. Se selecciona un rollo de la caja. La
Estudio de los conceptos de probabilidad 155

probabilidad de seleccionar un rollo defectuoso es 3/10, y la probabilidad de elegir un rollo


aceptable es 7/10. Luego se selecciona un segundo rollo de la caja sin devolver el primero.
La probabilidad de que el segundo rollo esté defectuoso se ve afectada por el evento ante-
rior en el que el primer rollo fue defectuoso o aceptable. La probabilidad de que el segundo
rollo esté defectuoso es:
P(el segundo rollo está defectuoso | el primer rollo está defectuoso) es 2/9. (Sólo que-
dan dos rollos defectuosos en la caja que ahora contiene nueve rollos.)
P(el segundo rollo está defectuoso | el primer rollo es aceptable) es 3/9. (Los tres rollos
defectuosos siguen en la caja que ahora contiene nueve rollos.)
La regla general de la multiplicación establece que para dos eventos, A y 6, la proba-
bilidad conjunta de que ambos sucedan se encuentra multiplicando la probabilidad de que
el evento A suceda por la probabilidad condicional de que el evento B ocurra después de
que A ocurrió. Simbólicamente, la probabilidad conjunta, P(A y B), se encuentra así:

Para ¡lustrar la fórmula, regresemos al problema de los 10 rollos en una caja, 3 de los cua-
les están defectuosos. Se van a seleccionar dos rollos, uno después de otro. ¿Cuál es la
probabilidad de elegir un rollo defectuoso y después otro rollo defectuoso?

El primer rollo de película seleccionado de la caja que resultó defectuoso es el evento Dv


P(DJ = 3/10, porque 3 de cada 10 están defectuosos. El segundo rollo elegido que también
está defectuoso es el evento Dr Por tanto, P(D2)|D1) = 2/9, porque después de que la pri-
mera selección se encontró defectuosa sólo quedaban dos rollos defectuosos en la caja,
que contenía 9 rollos. Determinando la probabilidad de dos rollos defectuosos [véase la fór-
mula (5-6)]:

Se supone que este experimento se realizó sin reemplazo; es decir, el primer rollo de-
fectuoso de película no se regresó a la caja antes de seleccionar el siguiente. También de-
bemos hacer notar que la regla general de la multiplicación se puede ampliar a más de dos
eventos. Para tres eventos, A, B y C, la fórmula sería:

Para ilustrar, la probabilidad de que los tres primeros rollos seleccionados de la caja sean
defectuosos es 0.00833, que se calculó así:

Autoevaluación 5-6 La junta de directores de Tarbell Industries consiste en ocho hombres y cuatro mujeres. De
entre ellos, se debe elegir al azar un comité de búsqueda de cuatro miembros para buscar en
todo el país un nuevo presidente para la compañía.
(a) ¿Cuál es la probabilidad de que los cuatro miembros del comité de búsqueda sean mujeres?
(b) ¿Cuál es la probabilidad de que los cuatro miembros sean hombres?
(c) ¿La suma de las probabilidades de los eventos descritos en las partes (a) y (b) es igual
a 1? Explique su respuesta.
156 Capítulo 5

Tablas de contingencias
A menudo, los resultados de una encuesta se ordenan en una tabla de dos direcciones y
utilizamos los resultados para determinar las diversas probabilidades. Describimos esta
idea a partir de la página 119 en el Capítulo 4. Para revisar, consultamos una tabla en dos
direcciones como tabla de contingencias.

TABLA DE CONTINGENCIAS. Tabla que se utiliza para clasificar las observaciones de


las muestras de acuerdo con dos o más características que se pueden identificar.

Una tabla de contingencias es una tabulación cruzada que resume al mismo tiempo dos va-
riables de interés y su relación. El nivel de medición puede ser nominal. A continuación, pre-
sentamos varios ejemplos.

• Una encuesta entre 150 adultos clasificados de acuerdo con su género y por el número
de películas que vieron en el cine la semana pasada. Cada entrevistado sé clasifica
tomando en cuenta dos criterios: el número de películas y el género.

La American Corree Producers Association reporta la siguiente información sobre la


edad y la cantidad de café consumido en un mes.

De acuerdo con esta tabla, cada uno de los 3000 entrevistados se clasifica según dos cri-
terios: (1) edad y (2) cantidad de café consumido.
El ejemplo siguiente muestra la forma en que se aplican las reglas de la adición y la
multiplicación al utilizar tablas de contingencias.

Se entrevistó a una muestra de ejecutivos acerca de su lealtad a la compañía. Una de las


preguntas fue: "Si otra empresa le ofreciera un puesto un poco mejor o igual que el que ocu-
pa en la actualidad, ¿seguiría con la compañía o aceptaría el otro puesto?" Las respuestas
de los 200 ejecutivos que participaron en la encuesta se clasificaron según el tiempo que
tienen de trabajar para la empresa. (Véase la Tabla 5-1.)
¿Cuál es la probabilidad de seleccionar al azar a un ejecutivo que sea leal a la compa-
ñía (y siga siéndolo) y que tenga más de 10 años de servicio?

Observe que los dos eventos ocurren al mismo tiempo: el ejecutivo seguirá con la empre-
sa y tiene más de 10 años de servicio.
Estudio de los conceptos de probabilidad 157

Lealtad de los ejecutivos y tiempo de servicio en la compañía

1. El evento A1 sucede si un ejecutivo seleccionado al azar permanecerá con la compa


ñía a pesar de un ofrecimiento un poco mejor o igual por parte de otra empresa. Para
encontrar la probabilidad de que suceda el evento Av consulte la Tabla 5-1. Observe
que hay 120 ejecutivos de los 200 que participaron en la encuesta que seguirían con la
empresa, de modo que P^) = 120/200, o 0.60.
2. El evento S4 sucede si un ejecutivo seleccionado al azar tiene más de 10 años de tra
bajar en la empresa. Por tanto, P(B4\A:) es la probabilidad condicional de que un eje
cutivo con más de 10 años de servicio siga con la compañía a pesar de recibir un
ofrecimiento mejor o igual por parte de otra empresa. Refiriéndonos a la tabla de con
tingencias, Tabla 5-1, 75 de los 120 ejecutivos que permanecerían en la compañía tie
nen más de 10 años de servicio, de modo que P(B4 \AJ = 75/120.

El cálculo de que la probabilidad de que un ejecutivo seleccionado al azar permanezca con


la empresa y tenga más de 10 años de servicio, utilizando la regla general de la multiplica-
ción en la fórmula (5-6), nos da:

Para encontrar la probabilidad de seleccionar un ejecutivo que siga con la compañía o ten-
ga menos de un año de experiencia, usamos la regla general de la adición, fórmula (5-4).

De modo que la probabilidad de que un ejecutivo seleccionado permanezca con la com-


pañía o haya trabajado por menos de un año es 0.725.

Autoevaluación 5-7 Consulte la Tabla 5-1 para encontrar las probabilidades siguientes.
(a) ¿Cuál es la probabilidad de seleccionar un ejecutivo con más de 10 años de servicio?
(b) ¿Cuál es la probabilidad de seleccionar a un ejecutivo que no permanecería en la empre
sa, debido a que tiene más de 10 años de servicio?
(c) ¿Cuál es la probabilidad de seleccionar a un ejecutivo con más de 10 años de servicio o
a uno que no permanecería en la empresa?
158 Capítulo 5

Diagramas de árbol
El diagrama de árbol es una gráfica que resulta útil para organizar los cálculos que com-
prenden varias etapas. Cada segmento en el árbol es una etapa del problema. Las ramas
de un diagrama de árbol se ponderan por medio de probabilidades. Todavía usaremos los
datos de la Tabla 5-1 para mostrar la elaboración de un diagrama de árbol.

Pasos en la elaboración de un 1. Para construir un diagrama de árbol, empezamos por dibujar un punto grueso del lado
diagrama de árbol. izquierdo para representar la raíz del árbol (véase el Diagrama 5-2).

GRÁFICA 5-2 Diagrama de árbol que muestra la lealtad y el tiempo de servicio

2. Para este problema, dos ramas principales salen de la raíz, la superior representa "per
manecería" y la inferior "no permanecería". Sus probabilidades están escritas en las ra
mas: 120/200 y 80/200. Éstas también se podrían expresar: P(A) y P(~A).
3. Cuatro ramas "crecen" de cada una de las dos ramas principales. Éstas representan el
tiempo de servicio: menos de un año, 1 a 5 años, 6 a 10 años y más de 10 años. Las
probabilidades condicionales para la rama superior del árbol, 10/120, 30/120, 5/120, et
cétera, están escritas en las ramas apropiadas. Éstas son P(B1|A1), P{B2|A1), P(B3 |A1)
y P(B4|A1), donde 61 se refiere a menos de un año de servicio, B2 de 1 a 5 años, B3 de
6 a 10 años y B4 a más de 10 años. A continuación, escribimos las probabilidades con
dicionales para la rama inferior.
Estudio de los conceptos de probabilidad 159

4. Por último, las probabilidades conjuntas, de que los eventos A1 y B! o los eventos ~A y
B¡ ocurran juntos, se muestran del lado derecho. Por ejemplo, la probabilidad conjunta
de seleccionar al azar a un ejecutivo que permanecería en la compañía y que tiene me-
nos de un año de servicio, a partir de la fórmula (5-6), es:

Como las probabilidades conjuntas representan todos los resultados posibles (per-
manecería, 6 a 10 años de servicio; no permanecería, más de 10 años de servicio,
etc.), deben sumar 1 (véase la Gráfica 5-2).

Autoevaluación 5-8 Se entrevistó a algunos consumidores sobre el número relativo de visitas a una tienda Circuit
City (a menudo, en forma ocasional y nunca) y si la tienda tenía una ubicación conveniente
(sí y no). Cuando las variables se miden en forma nominal, como la ubicación conveniente; u
ordinal, como la frecuencia de visitas, los datos se pueden presentar y resumir en una fre-
cuencia en dos direcciones o una tabla de contingencia.

(a) ¿Cómo se llama la tabla?


(b) ¿La frecuencia de las visitas y la conveniencia son independientes? ¿Por qué? Interpre
te su conclusión.
(c) Elabore un diagrama de árbol y determine las probabilidades conjuntas.

Ejercicios
23. Suponga que P(A) = 0.40 y P(B|A) = 0.30. ¿Cuál es la probabilidad conjunta de A y B?
24. Suponga que P(X1) = 0.75 y P(Y2|X1) = 0.40. ¿Cuál es la probabilidad conjunta de X1 y Y2?
25. Un banco local reporta que 80% de sus clientes tienen una cuenta de cheques, 60% tienen
una cuenta de ahorros y 50% tienen ambos tipos de cuenta. Si elegimos un cliente al azar,
¿cuál es la probabilidad de que tenga una cuenta de cheques o de ahorro? ¿Cuál es la pro
babilidad de que el cliente no tenga ni cuenta de cheques ni de ahorro?
26. All Seasons Plumbing tiene dos camiones de servicio que se descomponen con frecuencia.
Si la probabilidad de que el primer camión esté disponible es 0.75, la probabilidad de que el
segundo esté disponible es 0.50 y la probabilidad de que ambos estén disponibles es 0.30,
¿cuál es la probabilidad de que ninguno esté disponible?
27. Consulte la tabla siguiente.
160 Capítulo 5

a. Determine P(A1).
b. Determine P(B1 | A1).
c. Determine P(B2 y A3).
28. Cleanbrush Products envió por accidente tres cepillos de dientes eléctricos defectuosos a
una farmacia, con 17 cepillos que no estaban defectuosos.
a. ¿Cuál es la probabilidad de que la farmacia devuelva los primeros dos cepillos que se
vendan por estar defectuosos?
b. ¿Cuál es la probabilidad de que los dos primeros cepillos de dientes vendidos no estén
defectuosos?
29. Cada uno de los vendedores de Stiles-Compton obtiene una calificación de superior al pro
medio, promedio o inferior al promedio en cuanto a su habilidad para las ventas. Cada uno
obtiene también una calificación por su potencial para avanzar: aceptable, bueno o excelen-
te. Estas calificaciones para los 500 vendedores se clasificaron en la tabla siguiente.

a. ¿Cómo se llama la tabla?


b. ¿Cuál es la probabilidad de que un vendedor seleccionado al azar tenga una habilidad
para las ventas superior al promedio y un excelente potencial para avanzar?
c. Elabore un diagrama de árbol mostrando todas las probabilidades, las probabilidades
condicionales y las probabilidades conjuntas.
30. Un inversionista tiene tres acciones comunes. Cada una, independiente de las demás, tie-
ne las mismas probabilidades de (1) aumentar en valor, (2) reducir en valor o (3) conservar
el mismo valor. Mencione los posibles resultados de este experimento. Calcule la probabili-
dad de que por los menos dos acciones aumenten en valor.
31. La junta de directores de una compañía pequeña consiste en cinco personas, tres de las
cuales son "líderes muy fuertes". Si ellos aceptan una idea, toda la junta estará de acuerdo.
Los otros miembros "débiles" no tienen ninguna influencia. Está programado que tres ven-
dedores, uno después de otro, hagan sus presentaciones de ventas ante uno de los miem-
bros de la junta que el mismo vendedor elija. Los vendedores son convincentes, pero no
saben quiénes son los líderes "fuertes". Sin embargo, sabrán ante quién habló el vendedor
anterior. El primero de ellos que encuentre un líder fuerte ganará la cuenta. ¿Los tres ven-
dedores tienen la misma oportunidad de ganar la cuenta? Si no es así, encuentre sus res
pectivas probabilidades de ganar.
32. Si pregunta su fecha de nacimiento a tres personas extrañas, ¿qué probabilidad hay de que
(a) todas hayan nacido en miércoles, (b) todas hayan nacido en distintos días de las sema
na, (c) ninguna haya nacido en sábado?

Teorema de Bayes
En el siglo XVIII, el reverendo Thomas Bayes, ministro inglés de la iglesia presbiteriana, pon-
deró esta situación: ¿En verdad existe Dios? Como se interesaba por las matemáticas, desa-
rrolló una fórmula para llegar a la probabilidad de que Dios existe, con base en las evidencias
a su alcance en la tierra. Posteriormente, Laplace detalló el trabajo de Bayes y le dio el nom-
bre de "Teorema de Bayes". En forma práctica, el teorema de Bayes es:
Estudio de los conceptos de probabilidad 161

Supongamos que en la fórmula (5-7), los eventos A1 y A2 son mutuamente excluyentes y


colectivamente exhaustivos, y que A1 se refiere al evento A1 o A2 El significado de los sím-
bolos que se utilizan se ilustra en el ejemplo siguiente.
Supongamos que 5% de la población de Umen, un país ficticio del Tercer Mundo, tie-
ne una enfermedad que es peculiar de ese país. Supongamos también que A1 se refiere al
evento "tiene la enfermedad" y A2 al evento "no tiene la enfermedad". Por tanto, sabemos
que si seleccionamos al azar una persona de Umen, la probabilidad de que el individuo ele-
gido tenga la enfermedad es 0.05, o P(A1) = 0.05. Esta probabilidad, P(A1) = P(tiene la en-
fermedad) = 0.05, se conoce como probabilidad a priori. Se le da este nombre porque la
probabilidad se asigna antes de obtener cualquier dato empírico.

La probabilidad inicial basada en el nivel de información actual.

Por tanto, la probabilidad anterior de que una persona no padezca la enfermedad es 0.95,
o P(A2) = 0.95, calculada así: 1 - 0.05.
Hay una técnica de diagnóstico para detectar la enfermedad, pero no es muy precisa.
Supongamos que B indica el evento "las pruebas demuestran que la enfermedad está pre-
sente". Supongamos también que las evidencias históricas demuestran que si una persona
tiene la enfermedad, la probabilidad de que la prueba indique su presencia es de 0.90. Uti-
lizando las definiciones de la probabilidad condicional que manejamos antes en este capí-
tulo, esta afirmación se expresa como:

Suponga que la probabilidad es 0.15 de que una persona que en realidad no tiene la enfer-
medad la prueba indicará la presencia de ésta.

Supongamos que seleccionamos al azar a una persona de Umen, realizamos la prue-


ba y ésta indica que la enfermedad está presente. ¿Qué probabilidad hay de que la perso-
na realmente padezca la enfermedad? En forma simbólica, queremos saber P(A1 1B), que
se interpreta como: P(tiene la enfermedad | los resultados de la prueba son positivos). La
probabilidad P(A1 | B) se conoce como probabilidad a posteriori.

Probabilidad revisada con base en información adicional.

Con la ayuda del teorema de Bayes, la fórmula (5-7), es posible determinar la probabi-
lidad a posteriori.

De modo que la probabilidad de que una persona tenga la enfermedad, debido a que la
prueba dio positivo, es 0.24. ¿Cómo se interpreta el resultado? Si se selecciona una perso-
na al azar entre la población, la probabilidad de que padezca la enfermedad es 0.05. Si la
persona se somete a la prueba y el resultado es positivo, la probabilidad de que realmente
esté enferma aumenta cinco veces, de 0.05 a 0.24.
162 Capítulo 5

En el problema anterior tenemos sólo dos eventos mutuamente excluyentes y colecti-


vamente exhaustivos el teorema de Bayes, la fór-
muía (5-7) se vuelve

Con el cambio anterior, los cálculos para el problema de Umen se resumen en la tabla
siguiente.

A continuación, presentamos otra ilustración del teorema de Bayes.

Un fabricante de videorre-
productoras de cásete (VCR)
compra un microchip en
particular, llamado LS-24, a
tres proveedores: Hall Elec-
tronics, Schuller Sales y
Crawford Components. 30% de
los chips LS-24 se compran a
Hall Electronics, 20% a Schuller
Sales y el 50% restante a
Crawford Components. El
fabricante tiene registros de los
tres fabricantes y sabe que 3%
de los chips de Hall Electronics
están defectuosos, 5% de los
chips de Schuller Sales tienen
defectos y 4% de los chips

Cuando los chips LS-24 llegan al fabricante, se colocan directamente en un depósito y no se


inspeccionan ni se identifican de acuerdo con el proveedor. Un trabajador elige uno para instalarlo en
una VCR y se da cuenta de que está defectuoso. ¿Qué probabilidad hay de que el fabricante sea
Schuller Sales?

Como primer paso, vamos a resumir parte de la información que proporciona el plantea-
miento del problema.

Hay tres eventos mutuamente excluyentes y colectivamente exhaustivos; es decir, tres


proveedores.
Estudio de los conceptos de probabilidad 163

• Las probabilidades anteriores son:

La información adicional puede ser:

Se dan las siguientes probabilidades condicionales.

Se selecciona un chip del depósito. Como el proveedor no identifica los chips, no esta-
mos seguros de qué proveedor lo fabricó. Queremos determinar la probabilidad de que
el chip defectuoso sea de Schuller Sales. La probabilidad se expresa

Observe el registro de calidad de Schuller; es el peor de los tres proveedores. Ahora


que encontramos un chip LS-24 defectuoso, sospechamos que P(A2 | B 1) es mayor que
P(A2). Esto es, esperamos que la probabilidad revisada sea mayor que 0.20. Pero ¿cuánto
más? El teorema de Bayes nos puede dar la respuesta. Como primer paso, considere el
diagrama de árbol en la Gráfica 5-3 de la página siguiente.
Los eventos son dependientes, de modo que la probabilidad anterior en la primera ra-
ma se multiplica por la probabilidad condicional en la segunda rama para obtener la proba-
bilidad conjunta. Esta última se reporta en la última columna de la Gráfica 5-3. Para elaborar
el diagrama de árbol de la Gráfica 5-3, utilizamos una secuencia de tiempo que pasó del
proveedor para determinar si el chip era aceptable o inaceptable.
Lo que necesitamos hacer es revertir el proceso de tiempo. Es decir, en lugar de mo-
vernos de izquierda a derecha en la Gráfica 5-3, debemos movernos de derecha a izquier-
da. Tenemos un chip defectuoso y queremos determinar la probabilidad de que se haya
comprado a Schuller Sales. ¿Cómo lo logramos? Primero, observamos las probabilidades
conjuntas como frecuencias relativas de 1 000 casos. Por ejemplo, la probabilidad de que
Hall Electronics haya fabricado un chip LS-24 es 0.009. De modo que, de 1 000 casos, es-
peraríamos encontrar 9 chips defectuosos fabricados por Hall Electronics. Observamos que
en 39 de cada 1 000 casos el chip LS-24 seleccionado para montarlo estará defectuoso,
probabilidad que calculamos sumando 9 + 10 + 20. De estos 39 chips defectuosos, Schu-
ller Sales fabricó 10. Por tanto, la probabilidad de que el chip LS-24 defectuoso se haya
comprado a Schuller Sales es 10/39 = 0.2564. Ahora, ya determinamos la probabilidad re-
visada de P(A2|B1). Antes de encontrar el chip defectuoso, la probabilidad de haberlo com-
prado a Schuller Sales era 0.20. Esta probabilidad aumentó a 0.2564.
Esta información se resume en la tabla siguiente.
164 Capítulo 5

Diagrama de árbol del problema de fabricación de las VCR

La probabilidad de que el chip LS-24 defectuoso provenga de Schuller Sales se calcula


de manera formal utilizando el teorema de Bayes. Calculamos P{A21BJ, donde A2 se refiere
a Schuller Sales y S1 al hecho de que el chip seleccionado estaba defectuoso.

Éste es el mismo resultado obtenido con el Diagrama 5-3 y con la tabla de la probabilidad
condicional.

Autoevaluación 5-9 Consulte el ejemplo y la solución anteriores.


(a) Diseñe una fórmula para calcular la probabilidad de que la parte seleccionada provenga
de Crawford Components, debido a que era un chip aceptable.
(b) Calcule la probabilidad utilizando el teorema de Bayes.

Ejercicios
Utilice el teorema de Bayes
para determinar
Estudio de los conceptos de probabilidad 165

34. P(A1) = 0.20, P(A2) = 0.40 y P(A3) = 0.40. P(B1 |A1) = 0.25, P(B1| A2) = 0.05 y P(B1 |A3) = 0.10.
Utilice el teorema de Bayes para determinar P(A3 | B1).
35. El equipo de béisbol Gatos Salvajes de Ludlow, un equipo de liga menor de la organización de
los Indios de Cleveland, juega 70% de sus partidos por la noche y 30% durante el día. El equi-
po gana 50% de sus partidos nocturnos y 90% de los que juega en el día. Según el periódico
de hoy, ganaron ayer. ¿Qué probabilidad hay de que el partido se haya jugado por la noche?
36. La doctora Stallter ha enseñado estadística básica durante varios años. Sabe que 80% de
los estudiantes terminan los problemas asignados. También determinó que entre aquéllos
que hacen las tareas, 90% aprueban el curso. Entre los alumnos que no hacen su tarea,
60% aprueban..El semestre pasado, Mike Fishbaugh tomó clases de estadística con la doc-
tora Stallter y obtuvo una calificación aprobatoria. ¿Qué probabilidad hay de que haya ter-
minado sus tareas?
37. El departamento de crédito de Lion's Department Store en Anaheim, California, reportó que
30% de sus ventas se pagan en efectivo, 30% con cheque en el momento de la compra y
40% con cargo a la tarjeta de crédito. Veinte por ciento de las compras en efectivo, 90% de
las que se pagan con cheque y 60% de las que se cargan a la tarjeta son por más de $50.
La señorita Tina Stevens sólo compró un vestido nuevo que cuesta $120. ¿Cuál es la pro
babilidad de que haya pagado en efectivo?
38. Una cuarta parte de los residentes de Burning Ridge Estates dejan abierta la puerta de la
cochera cuando no están en casa. El jefe de policía calcula que en 5% de las cocheras con
la puerta abierta habrá algún robo, pero en sólo 1% de las cocheras que tienen la puerta
abierta habrá algún robo. Si hay un robo en una cochera, ¿qué probabilidad hay de que las
puertas hayan estado abiertas?

Principios de conteo
Si el número de resultados posibles en un experimento es bajo, contarlos será relativamente
fácil. Hay seis resultados posibles, por ejemplo, que se presentan al tirar un dado: .

No obstante, si hay gran cantidad de resultados posibles, como el número de caras y cruces
para un experimento en que una moneda se lanza 10 veces, sería tedioso contar todas las
posibilidades. Podrían ser sólo caras, una cara y nueve cruces, dos caras y ocho cruces, etc.
Para facilitar el conteo, vamos a analizar tres fórmulas: la fórmula de la multiplicación (que
no debemos confundir con la regla de la multiplicación que describimos anteriormente en es-
te capítulo), la fórmula de la permutación y la fórmula de la combinación.

La fórmula de la multiplicación

FÓRMULA DE LA MULTIPLICACIÓN. Si hay m formas de hacer una cosa y n formas de


hacer otra, hay mx n formas de hacer ambas.

En términos de una fórmula:

FÓRMULA DE LA MULTIPLICACIÓN, Número total de arreglos

Esto se puede extender a más de dos eventos. Para tres eventos m, n y o:


Número total de arreglos = (m)(n)(o)

Un distribuidor automotriz quiere anunciar que con $29 999 es posible comprar un modelo
convertible, de dos puertas o de cuatro puertas y elegir si desea riñes de rayos o planos.
¿Cuántos arreglos diferentes de modelos y riñes puede ofrecer el distribuidor?
166 Capítulo 5

Desde luego, el distribuidor podría determinar el número total de arreglos ilustrándolos y


contándolos. Hay seis.

Podemos manejar la fórmula de la multiplicación como una verificación (donde m es el


número de modelos y n es el tipo de riñes). A partir de la fórmula (5-8):
Total de arreglos posibles

En este ejemplo no fue difícil contar todos los arreglos de modelos y riñes. Sin embargo,
pensemos que el distribuidor decidió ofrecer ocho modelos y seis tipos de riñes. Sería tedioso
ilustrar y contar todas las alternativas posibles. En vez de ello, se puede usar la fórmula de la
multiplicación. En este caso, hay (m)(n) = (8)(6) = 48 arreglos posibles.
En las aplicaciones anteriores de la fórmula de la multiplicación, observe que hay dos
o más agrupaciones de las cuales se hicieron selecciones. El distribuidor automotriz, por
ejemplo, ofreció un arreglo de modelos y un arreglo de riñes. Si un constructor de casas le
ofreciera cuatro estilos exteriores de donde elegir y tres planos de interiores, la fórmula de
la multiplicación se usaría para encontrar cuántos arreglos son posibles. La respuesta es
que hay 12 posibilidades.

Autoevaluacíón 5-10 1. Un detallista de ropa en Internet ofrece suéteres y pantalones para dama. Los suéteres
y pantalones se ofrecen en colores coordinados. Si hubiera suéteres en cinco colores y
pantalones en cuatro, ¿cuántos arreglos diferentes se podrían anunciar?
2. Pioneer fabrica tres modelos de aparatos estéreo, dos reproductores de cintas, cuatro
bocinas y tres carruseles de CD. Cuando los cuatro tipos de componentes se venden jun
tos, forman un "sistema". ¿Cuántos sistemas diferentes puede ofrecer la empresa de
electrónica?

La fórmula de la permutación
Como dijimos antes, la fórmula de la multiplicación se aplica para calcular el número de
arreglos posibles para dos o más grupos. La fórmula de la permutación se aplica para en-
contrar el número posible de arreglos cuando sólo hay un grupo de objetos. Para ilustrar es-
te tipo de problema:
Estudio de los conceptos de probabilidad 167

• Tres partes electrónicas se van a armar en una unidad complementaria para un televi-
sor. Las partes se pueden armar en cualquier orden. La duda es: ¿de cuántas mane
ras diferentes se pueden armar las tres partes?
• El operador de una máquina debe realizar cuatro revisiones de seguridad antes de en-
cenderla. No importa en qué orden las haga. ¿En cuántas formas el operador puede
hacer las revisiones?

El orden para la primera ilustración podría ser: primero el transistor, en segundo lugar las
LED y en tercero el sintetizador. A esta distribución se le conoce como permutación.

PERMUTACIÓN, Cualquier distribución de r objetos seleccionados de un solo grupo de


n objetos posibles.

Observe que las distribuciones a b c y b a c son permutaciones diferentes. La fórmula para


contar el número total de permutaciones diferentes es:

donde:
p es el número de permutaciones.
n es el número total de objetos.
r es el número de objetos seleccionados.
Antes de resolver los dos problemas que ilustramos, observe que las permutaciones y
combinaciones (que estudiaremos en breve) utilizan una notación llamada n factorial. Se
expresa como n! y significa el producto de n(n - 1)(n -2)(n -3)...(1). Por ejemplo, 5! = 5 ▪
4 ▪ 3 ▪ 2 ▪1 = 120.
Como se muestra a continuación, los números se pueden cancelar cuando los mismos
números se incluyen en el numerador y el denominador.

Por definición, cero factorial, que se escribe 0!, es 1. Es decir, 0! = 1.

Refiriéndonos al grupo de tres partes electrónicas que se van a armar en cualquier orden,
¿de cuántas formas diferentes se pueden armar?

Hay tres partes electrónicas que se tienen que armar, de modo que n = 3. Como las tres se tie-
nen que insertar en la unidad complementaria, r= 3. La solución utilizando la fórmula (5-9) da:

Podemos revisar el número de permutación al que llegamos utilizando la fórmula de la


permutación. Determinamos cuántos "espacios" se tienen que llenar y las posibilidades para
cada "espacio". En el problema que se refiere a tres partes electrónicas, en la unidad
complementaria hay tres lugares para las tres partes. Para el primer lugar hay tres posibili-
dades, dos para el segundo (uno ya se usó) y uno para el tercero, como sigue:

Las seis maneras de distribuir las tres partes electrónicas, con las letras A, B, C, son:
168 Capítulo 5

En el ejemplo anterior, seleccionamos y ordenamos todos los objetos, es decir n - r. En mu-


chos casos, sólo se seleccionan y ordenan algunos de los objetos entre los n posibles. En
el ejemplo siguiente explicamos los detalles de esta aplicación.

The Betts Machine Shop, Inc., tiene ocho tornos, pero sólo tres espacios en el área de pro-
ducción disponibles para las máquinas. ¿De cuántas maneras diferentes se pueden distri-
buir los ocho tornos en los tres espacios disponibles?

Hay ocho posibilidades para el primer espacio disponible en el área de producción, siete pa-
ra el segundo (una ya se utilizó) y seis para el tercero. Por tanto:

es decir, hay un total de 336 combinaciones posibles. Este resultado también se podría cal-
cular utilizando la fórmula (5-9). Si n = 8 tornos y r= 3 espacios disponibles, la fórmula nos
lleva a

Fórmula de la combinación
Si el orden de los objetos seleccionados no es importante, a cualquier selección se le llama
combinación. La fórmula para contar el número de r combinaciones de objetos en un con-
junto de n objetos es:

Por ejemplo, si los ejecutivos Able, Baker y Chauncy se van a elegir como un comité para
negociar una fusión, sólo hay una combinación posible con estos tres; el comité de Able,
Baker y Chauncy es el mismo que el comité de Baker, Chauncy y Able. Utilizando la fórmu-
la de la combinación:

El departamento de mercadotecnia tiene la tarea de designar los códigos de color para las
42 distintas líneas de discos compactos que vende Goody Records. En cada CD se van a
usar tres colores, pero una combinación que se utilizó para un CD no se puede reordenar
y usarse para identificar un CD diferente. Esto significa que los colores verde, amarillo y vio-
leta se utilizaron para identificar una línea, el amarillo, el verde y el violeta (o cualquier com-
binación de estos tres colores) no se pueden usar para identificar otra línea. ¿Siete colores
en combinaciones de tres serían adecuados para marcar con código de color las 42 líneas?

Según la fórmula (5-10), hay 35 combinaciones, que calculamos así:

Los siete colores tomados en combinaciones de tres (es decir, tres colores para una línea)
no serían adecuados para marcar con código de colores las 42 líneas diferentes porque sólo
ofrecen 35 combinaciones. Ocho colores en combinaciones de tres darían 56 combina-
ciones diferentes, y serían más adecuados para marcar las 42 líneas.
Estudio de los conceptos de probabilidad 169

Cuando el número de permutaciones o combinaciones es alto, los cálculos son tedio-


sos. El software para computadora y las calculadoras de bolsillo tienen "funciones" para cal-
cular estos números. El resultado de Excel para la ubicación de los ocho tornos en el área
de producción de Betts Machine Shop, Inc., se muestra a continuación. Hay un total de 336
combinaciones.

A continuación, se muestra el resultado para los códigos de color en Goody Records, Inc.
Se eligieron tres colores entre los siete posibles. El número de combinaciones posibles es 35.

Autoevaluación 5-1-1 1. Un músico quiere escribir una escala basada en sólo cinco acordes: B plano, C, D, E y
G. Sin embargo, sólo tres de los cinco acordes se van a usar en sucesión, como C, B pla
no y E. No se permiten las repeticiones como B plano, B plano y E.
(a) ¿Cuántas permutaciones de los cinco acordes, tomados en combinaciones de tres,
son posibles?
(b) Utilizando la fórmula (5-9), ¿cuántas permutaciones son posibles?
2. El operador de una máquina debe realizar cuatro revisiones de seguridad antes de em
pezar a utilizarla. No importa en qué orden se lleven a cabo las revisiones. ¿En cuántas
formas diferentes el operador puede hacer las revisiones?
3. Los 10 números del 0 al 9 se van a utilizar en grupos de códigos de cuatro para identifi
car una prenda de vestir. El código 1083 podría identificar una blusa azul, talla mediana;
el código 2031 podría identificar a. un par de pantalones, talla 18; y así sucesivamente.
No se permiten las repeticiones de los números. Es decir, no se puede usar el mismo nú
mero dos veces (o más) en una secuencia total. Por ejemplo, no se permiten cifras co
mo 2256, 2562 o 5559. ¿Cuántos grupos de código diferentes se pueden asignar?
4. En el ejemplo anterior sobre Goody Records, dijimos que ocho colores en combinaciones
de tres darían 56 combinaciones diferentes.
(a) Utilice la fórmula (5-10) para mostrar que es cierto.
(b) Como un plan alternativo para codificar con color las 42 líneas diferentes, se sugirió
que sólo se usen dos colores en un disco. ¿Diez colores serían adecuados para co
dificar las 42 líneas diferentes? (Una vez más, una combinación de dos colores se
podría usar una sola vez; es decir, si el rosa y el azul son los códigos para una línea,
el azul y el rosa no se podrían utilizar para identificar una línea diferente.)
5. En un juego de lotería, se seleccionan tres números en forma aleatoria de una tómbola
con bolas numeradas del 1 al 50.
(a) ¿Cuántas permutaciones son posibles?
(b) ¿Cuántas combinaciones son posibles?
170 Capítulo 5

Ejercicios

41. Un encuestador seleccionó al azar a 4 de 10 personas. ¿Cuántos grupos de 4 personas son


posibles?
42. Un número telefónico consiste en siete dígitos, los primeros tres representan el intercambio.
¿Cuántos números telefónicos diferentes son posibles en el intercambio 537?
43. Una compañía de entregas rápidas debe incluir cinco ciudades en su ruta. ¿Cuántas rutas
diferentes son posibles, suponiendo que no importe en qué orden se incluyan las ciudades
en la ruta?
44. Un representante de la Agencia de Protección Ambiental (EPA, por sus siglas en inglés)
quiere seleccionar muestras de 10 terrenos. El director tiene 15 terrenos de los que puede
recopilar muestras. ¿Cuántas muestras diferentes son posibles?
45. Un encuestador nacional desarrolló 15 preguntas diseñadas para calificar el desempeño del
presidente de Estados Unidos. El encuestador va a seleccionar diez de estas preguntas.
¿Cuántas combinaciones diferentes hay para el orden de las 10 preguntas elegidas?
46. Una compañía va a crear tres nuevas divisiones y siete gerentes son candidatos para ser
directores de una división. ¿En cuántas formas diferentes se pueden elegir los tres nuevos di
rectores?

Resumen del capítulo


I. Una probabilidad es un valor entre 0 y 1, inclusive, que representa la posibilidad de que su
ceda un evento en particular.
A. Un experimento es la observación de alguna actividad o el acto de tomar alguna medición.
B. Un resultado es una consecuencia particular de un experimento.
C. Un evento es el conjunto de uno o más resultados de un experimento.
II. Hay tres definiciones de probabilidad.
A. La definición clásica se aplica cuando hay n resultados igualmente probables para un ex-
perimento.
B. La definición empírica ocurre cuando el número de veces que un evento se presenta se
divide entre el número de observaciones.
C. Una probabilidad subjetiva se basa en cualquier información disponible.
III. Dos eventos son mutuamente excluyentes si debido a que sucede uno, el otro no puede
ocurrir.
IV. Los eventos son independientes si la ocurrencia de uno no afecta la ocurrencia del otro.
V. Las reglas de la adición se refieren a la unión de los eventos.
A. La regla especial de la adición se usa cuando los eventos son mutuamente excluyentes.

B. La regla general de la adición se usa cuando los eventos no son mutuamente excluyentes.

C. La regla complementaria se usa para determinar la probabilidad de que suceda un even


to restando a 1 la probabilidad de que el evento no suceda.

VI. Las reglas de la multiplicación se refieren al producto de los eventos.


A. La regla especial de la multiplicación se refiere a los eventos que son independientes.

B. La regla general de la multiplicación se refiere a los eventos que no son independientes.

C. Una probabilidad conjunta es la posibilidad de que dos o más eventos ocurran al mismo
tiempo.
Estudio de los conceptos de probabilidad 171

D. Una probabilidad condicional es la posibilidad de que suceda un evento, debido a que


otro ya sucedió.
E. El teorema de Bayes es un método para revisar una probabilidad, debido a que se ob
tiene información adicional. Para dos eventos mutuamente excluyentes y colectivamente
exhaustivos:

VIl. Hay tres reglas para contar que son útiles al determinar el número de resultados en un ex-
perimento.
A. La regla de la multiplicación establece que si hay m formas en que un evento puede su-
ceder y n formas en las que otro evento puede ocurrir, hay mn formas en las que dos
eventos pueden suceder.

B. Una permutación es una distribución en la que el orden de los objetos seleccionados de


un conjunto específico es importante.

C. Una combinación es una distribución en la que el orden de los objetos seleccionados de


un conjunto específico no es importante.

Clave de pronunciación

Ejercidos del capítulo


47. El departamento de investigación de mercados de Vernors planea realizar una encuesta en
tre adolescentes acerca de un refresco recién inventado. A cada uno se le va a pedir que lo
compare con su refresco favorito.
a. ¿Cuál es el experimento?
b. ¿Cuál es el evento posible?
48. El número de veces que un evento en particular ocurrió en el pasado se divide entre el nú
mero de ocurrencias. ¿Cómo se llama esta estrategia de la probabilidad?
49. La probabilidad de que la causa y cura de todos los tipos de cáncer se descubra antes del
año 2010 es 0.20. ¿Qué punto de vista de la probabilidad ilustra esta afirmación?
50. Berdine's Chicken Factory tiene varias tiendas en el área de Hilton Head, Carolina del Sur.
Al entrevistar a los candidatos para varios puestos de mesero, al dueño le gustaría incluir in
formación sobre la cantidad de propina que un mesero puede esperar por cuenta. Un estu
dio de 500 cuentas recientes indicó que el mesero ganó las propinas siguientes.
172 Capítulo 5

a. ¿Cuál es la probabilidad de una propina de $50 o más?


b. ¿Las categorías "$0 a $5", "$5 a $10", etcétera, se consideran mutuamente excluyentes?
c. Si se calculara un total de las probabilidades asociadas con cada resultado, ¿cuál se
ría este total?
d. ¿Cuál es la probabilidad de una propina de más de $10?
e. ¿Cuál es la probabilidad de una propina de menos de $50?
51. Defina cada uno de estos conceptos:
a. Probabilidad condicional. b. Evento. c. Probabilidad conjunta.
52. La primera carta seleccionada de una baraja estándar de 52 naipes fue un rey.
a. Si se regresa a la baraja, ¿cuál es la probabilidad de que salga un rey en la segunda
selección?
b. Si el rey no se devuelve, ¿cuál es la probabilidad de que salga un rey en la segunda se
lección?
c. ¿Cuál es la probabilidad de que se elija un rey desde la primera vez y otro rey en la se-
gunda selección (suponiendo que no se reemplaza el primero)?
53. Armco, fabricante de sistemas de semáforos, descubrió que en las pruebas de vida acele-
rada, 95% de los sistemas recién fabricados duraron 3 años antes de dejar de cambiar las
señales en forma apropiada.
a. Si una ciudad compró cuatro de estos sistemas, ¿cuál es la probabilidad de que los cua-
tro funcionen de manera apropiada durante por lo menos 3 años?
b. ¿Qué regla de la probabilidad ilustra este caso?
c. Utilizando letras para representar los cuatro sistemas, escriba una ecuación para mos-
trar cómo llegó a la respuesta en la parte a.
54. Trabaje con la siguiente ilustración.

a. ¿Cómo se llama la ilustración?


b. ¿Qué regla de la probabilidad ilustra?
c. B representa el evento de elegir una familia que reciba pagos del programa de bienes
tar. ¿A qué es igual P(B) + P(~B)7
55. En un programa de empleados que reciben capacitación administrativa en Claremont Enter
prises, 80% de los alumnos son mujeres y 20% son hombres. De las mujeres, 90% y 78%
de los hombres asistieron a la universidad.
a. Se selecciona a un alumno al azar. ¿Cuál es la probabilidad de que la persona elegida
sea una mujer que no asistió a la universidad?
b. ¿El género y la asistencia a la universidad son independientes?
c. Elabore un diagrama de árbol que muestre todas las probabilidades, las probabilidades
condicionales y las probabilidades conjuntas.
d. ¿El total de las probabilidades conjuntas es 1.00? ¿Por qué?
56. Suponga que la probabilidad de que cualquier vuelo de Northwest Airlines llegue 15 minu
tos después de la hora programada es 0.90. Para este estudio, seleccionamos cuatro vue
los que llegaron ayer.
a. ¿Cuál es la probabilidad de que los cuatro vuelos seleccionados lleguen 15 minutos
después de la hora programada?
b. ¿Cuál es la probabilidad de que ninguno llegue 15 minutos después de la hora progra
mada?
c. ¿Cuál es la probabilidad de que por lo menos uno de los vuelos seleccionados no lle
gue 15 minutos después de la hora programada?
57. En Kiddie Carts International hay 100 empleados. De ellos 57 son obreros, 40 son superviso
res, 2 son secretarias y uno es el presidente. Supongamos que se selecciona un empleado:
a. ¿Cuál es la probabilidad de que el empleado seleccionado sea un obrero?
b. ¿Cuál es la probabilidad de que el empleado seleccionado sea un obrero o un supervisor?
c. Consulte la parte b. ¿Estos eventos son mutuamente excluyentes?
d. ¿Cuál es la probabilidad de que el empleado seleccionado no sea obrero ni supervisor?
Estudio de los conceptos de probabilidad 173

58. Barry Bonete, de los Gigantes de San Francisco, tuvo el promedio de bateo más alto en la tem
porada 2002 de la Liga Mayor de Béisbol. Su promedio fue 0.370. Suponga que la probabilidad
de lograr un hit es de 0.370 cada vez que batea, y en un juego en particular bateó tres veces.
a. ¿A qué tipo de probabilidad se refiere este ejemplo?
b. ¿Cuál es la probabilidad de lograr tres hits en un juego en particular?
c. ¿Cuál es la probabilidad de que no logre ningún hit en un juego?
d. ¿Cuál es la probabilidad de que logre por lo menos un hit?
59. La probabilidad de que un bombardero dé en el blanco en una misión en particular es 0.80.
Se envían cuatro bombarderos contra el mismo blanco. ¿Cuál es la probabilidad
a. de que todos den en el blanco?
b. de que ninguno dé en el blanco?
c. de que por lo menos uno dé en el blanco?
60. Se van a graduar 90 estudiantes en el Lima Shawnee High School esta primavera. De los
90 estudiantes, 50 planean asistir a la universidad. Se van a escoger dos estudiantes al azar
para que porten las banderas en la graduación.
a. ¿Cuál es la probabilidad de que ambos planeen asistir a la universidad?
b. ¿Cuál es la probabilidad de que uno de los dos estudiantes planee asistir a la universidad?
61. Brooks Insurance, Inc. quiere ofrecer seguros de vida a los hombres de 60 años a través de
Internet. Las tablas de mortalidad indican que la probabilidad de que un hombre de 60 años
sobreviva otro año es de 0.98. Si la póliza se ofrece a cinco hombres de 60 años:
a. ¿Cuál es la probabilidad de que los cinco hombres sobrevivan un año?
b. ¿Cuál es la probabilidad de que por lo menos uno de ellos sobreviva?
62. De las casas construidas en el área de Quail Creek, 40% incluyen un sistema de seguridad.
Se seleccionan tres casas en forma aleatoria:
a. ¿Cuál es la probabilidad de que las tres casas seleccionadas tengan un sistema de se
guridad?
b. ¿Cuál es la probabilidad de que ninguna de las tres casas tenga un sistema de seguridad?
c. ¿Cuál es la probabilidad de que por lo menos una de las tres casas tenga un sistema
de seguridad?
d. ¿Supone que los eventos sean dependientes o independientes?
63. Vea el ejercicio 62, pero suponga que hay 10 casas en el área de Quail Creek y cuatro de
ellas tienen un sistema de seguridad. Se seleccionan tres casas al azar:
a. ¿Cuál es la probabilidad de que las tres casas tengan un sistema de seguridad?
b. ¿Cuál es la probabilidad de que ninguna de las tres tenga un sistema de seguridad?
c. ¿Cuál es la probabilidad de que por lo menos una de ellas tenga un sistema de seguridad?
d. ¿Supone que los eventos son dependientes o independientes?
64. Un malabarista tiene una bolsa que contiene cuatro bolas azules, tres bolas verdes, dos bo
las amarillas y una bola roja. El malabarista elige una bola al azar. Luego, sin devolver la an
terior, elige una segunda bola. ¿Cuál es la probabilidad de que el malabarista tome primero
una bola amarilla y luego una azul?
65. La junta de directores de Saner Automatic Door Company consiste en 12 miembros, 3 de
los cuales son mujeres. Se van a escribir una nueva política y un manual de procedimientos
para la compañía. Un comité de 3 de la junta se seleccionó al azar para realizar estos tra
bajos.
a. ¿Cuál es la probabilidad de que todos los miembros del comité sean hombres?
b. ¿Cuál es la probabilidad de que por lo menos uno de los miembros sea mujer?
66. Una encuesta entre los estudiantes del último año de la Facultad de Administración de North
ern University reveló lo siguiente en cuanto al género y el área de estudio de los alumnos:

a. ¿Cuál es la probabilidad de seleccionar a un estudiante mujer?


b. ¿Cuál es la probabilidad de seleccionar un alumno de finanzas o contabilidad?
c. ¿Cuál es la probabilidad de seleccionar a una atumna o a un alumno de contabilidad?
¿Qué regla de la adición aplicó?
d. ¿El género y el área de estudio son independientes? ¿Por qué?
174 Capítulo 5

e. ¿Cuál es la probabilidad de seleccionar un alumno de contabilidad, dado que la perso


na seleccionada sea un hombre?
f. Suponga que se selecciona al azar a dos estudiantes para que asistan a un almuerzo
con el presidente de la universidad. ¿Cuál es la probabilidad de que ambos sean alum
nos de contabilidad?
67. El comisario de Wood County clasifica los crímenes según la edad (en años) del criminal, y
si el crimen es violento o sin violencia. Como se muestra a continuación, el año pasado, el
comisario reportó un total de 150 crímenes.

a. ¿Cuál es la probabilidad de seleccionar un caso para analizarlo y encontrar que com-


prende un crimen violento?
b. ¿Cuál es la probabilidad de seleccionar un caso para analizarlo y descubrir que lo co-
metió una persona menor de 40 años?
c. ¿Cuál es la probabilidad de seleccionar un caso que comprende un crimen violento o
un criminal de menos de 20 años? ¿Qué regla de la adición aplicó?
d. En caso de que un crimen violento se seleccione para su análisis, ¿cuál es la probabi-
lidad de que lo haya cometido una persona de menos de 20 años?
e. El juez Tybo selecciona dos crímenes para revisarlos. ¿Cuál es la probabilidad de que
los dos sean violentos?
68. Un inversionista compró 100 acciones de 5/3 Bank y 100 de Santee Cooper Electric. La pro
babilidad de que las acciones del banco aumenten de precio dentro de un año es de 0.70. La
probabilidad de que las de la compañía eléctrica aumenten en ese mismo periodo es de 0.60.
a. ¿Cuál es la probabilidad de que ambos tipos de acciones aumenten de precio durante
el periodo?
b. ¿Cuál es la probabilidad de que aumenten las acciones del banco pero no las de la
compañía eléctrica?
c. ¿Cuál es la probabilidad de que por lo menos uno de los grupos de acciones aumenten
de precio?
69. Flashner Marketing Research, Inc. se especializa en evaluar los prospectos para las tiendas
de ropa femenina en los centros comerciales. Al Flashner, presidente, reporta que evalúa
los prospectos como buenos, aceptables y malos. Los registros de evaluaciones anteriores
muestran que 60% de las veces los prospectos se calificaron como buenos, 30% como
aceptables y 10% como malos. De los que se calificaron como buenos, 80% obtuvieron ga
nancias el primer año; de los que se calificaron como aceptables, 60% obtuvo utilidades el
primer año; y de los que se calificaron como malos, 20% obtuvieron ganancias el primer año.
Connie's Apparel fue uno de los clientes de Flashner, y obtuvo ganancias el año pasado.
¿Cuál es la probabilidad de que se le haya dado una calificación original de malo?
70. Se recibieron de la fábrica dos cajas de camisas Oíd Navy para caballero. La caja 1 conte-
nía 25 camisas polo y 15 camisas Super-T. La caja 2 contenía 30 camisas polo y 10 Super-
T. Se seleccionó una de las cajas al azar, y de esa caja se eligió una camisa también al azar
para su inspección. La camisa era tipo polo. Con esta información, ¿cuál es la probabilidad
de que la camisa polo provenga de la caja 1 ?
71. Con cada compra de una pizza grande en Tony's Pizza, el cliente recibe un cupón que tie-
ne que raspar para saber si ganó un premio. Las probabilidades de ganar un refresco gra-
tis son 1 en 10, y las probabilidades de ganar una pizza grande gratis son 1 en 50. Usted
planea comer mañana en Tony's. ¿Cuál es la probabilidad:
a. de que gane una pizza grande o un refresco?
b. de que no gane ningún premio?
c. de que no gane ningún premio en tres visitas consecutivas a Tony's?
d. de que gane por lo menos un premio en una de sus próximas tres visitas a Tony's?
72. Para el juego diario de lotería en Illinois, los participantes seleccionan tres números entre 0
y 9. Un número no se puede seleccionar más de una vez, de modo que un boleto ganador
podría ser, digamos, 307. La compra de un boleto le permite seleccionar una serie de nú
meros. Los números ganadores se anuncian por televisión todas las noches.
Estudio de los conceptos de probabilidad 175

a. ¿Cuántos resultados diferentes (números de tres dígitos) son posibles?


b. Si usted compra un boleto para el juego de hoy por la noche, ¿cuál es la probabilidad
de que gane?
c. Suponga que compra tres boletos para la lotería de hoy por la noche y selecciona un
número diferente para cada uno. ¿Cuál es la probabilidad de que no gane con ninguno
de los boletos?
73. Hace varios años, Wendy's Hamburgers anunciaba que había 256 maneras diferentes de pe
dir una hamburguesa. Podía elegir que le sirvieran o que no le sirvieran cualquier combinación
de los siguientes ingredientes: mostaza, salsa de tomate, cebolla, pepinillos, jitomate, adere-
zo, mayonesa y lechuga. ¿El anuncio es correcto? Explique cómo llegó a su respuesta.
74. Se descubrió que 60% de los turistas en China visitan la Ciudad Prohibida, el Templo del
Cielo, la Gran Muralla y otros sitios históricos en o cerca de Beijing. Cuarenta por ciento vi
sitan Xi'an, con sus magníficos soldados, caballos y carruajes de terracota, que permane-
cieron enterrados durante más de 2 000 años. 30% de los turistas van a Beijing y a Xi'an.
¿Cuál es la probabilidad de que un turista visite por lo menos uno de estos lugares?
75. Se desarrolló una nueva goma de mascar que ayuda a los que quieren dejar de fumar. Si 60%
de las personas que usan la goma tienen éxito y dejan de fumar, ¿cuál es la probabilidad de
que en un grupo de cuatro fumadores que usan la goma por lo menos uno deje de fumar?
76. Reynolds Construction Company acordó construir "similares" todas las casas en una nueva
subdivisión. A los compradores potenciales se les ofrecen cinco diseños exteriores. El cons
tructor estandarizó tres planos de interiores que se pueden incorporar a cualquiera de los
cinco exteriores. ¿De cuántas maneras diferentes se pueden ofrecer planos de interiores y
exteriores a los compradores potenciales?
77. Un nuevo modelo de auto deportivo tiene frenos defectuosos 15% de las veces, y un meca
nismo de dirección defectuoso 5% de las veces. Supongamos (y esperamos) que estos pro
blemas ocurren de manera independiente. Si está presente uno u otro de los problemas, el
auto se conoce como "limón". Si los dos problemas ocurren, el auto es un "peligro". Su pro
fesor compró uno de estos autos ayer. ¿Cuál es la probabilidad de que sea:
a. un limón?
b. un peligro?
78. El estado de Maryland tiene placas para automóviles con tres números seguidos por tres le
tras. ¿Cuántas placas diferentes son posibles?
79. Se han considerado cuatro personas para el puesto de director ejecutivo en Dalton Enterpri
ses. Tres de los candidatos tienen más de 60 años de edad. Dos son mujeres, y de ellas só-
lo una tiene más de 60.
a. ¿Cuál es la probabilidad de que un candidato tenga más de 60 años y sea mujer?
b. Si el candidato es hombre, ¿cuál es la probabilidad de que tenga menos de 60?
c. Sí el candidato tiene más de 60 años, ¿cuál es la probabilidad de que sea mujer?
80. Tim Bleckie es propietario de Bleckie Investment and Real Estate Company. Hace poco, la
empresa compró cuatro terrenos en Holly Farms Estates y seis en Newburg Woods. Los te
rrenos son igualmente valiosos y se venden prácticamente por el mismo precio.
a. ¿Cuál es la probabilidad de que los próximos dos terrenos vendidos estén en Newburg
Woods?
b. ¿Cuál es la probabilidad de que de los próximos cuatro terrenos vendidos por lo menos
uno esté en Holly Farms?
c. ¿Estos eventos son dependientes o independientes?
81. La contraseña de una computadora consiste en cuatro caracteres. Éstos pueden ser cual
quiera de las 26 letras del alfabeto. Cada uno se puede utilizar más de una vez. ¿Cuántas
contraseñas diferentes son posibles?
82. Una caja con 24 latas contiene una que está contaminada. Se van a seleccionar tres latas
al azar para someterlas a una prueba.
a. ¿Cuántas combinaciones diferentes de 3 latas se pueden seleccionar?
b. ¿Cuál es la probabilidad de que se seleccione la lata contaminada para la prueba?
83. Un acertijo en el periódico presenta un problema de comparación. Los nombres de 10 presi
dentes de Estados Unidos se presentan en una columna, y los de los vicepresidentes se pre
sentan en orden aleatorio en la segunda columna. El acertijo pide al lector que una cada
presidente con su vicepresidente. Si forma las combinaciones al azar, ¿cuántas combinacio
nes son posibles? ¿Cuál es la probabilidad de que sus 10 combinaciones sean correctas?
84. El diagrama siguiente representa un sistema de dos componentes, A y B, que están en se
rie. (Estar en serie significa que para que el sistema opere, deben trabajar ambos compo-
176 Capítulo 5

nentes, A y 6.) Suponga que los dos componentes son independientes. ¿Cuál es la proba-
bilidad de que el sistema funcione en estas condiciones? La probabilidad de que A funcio-
ne es 0.90 y la probabilidad de que B funcione también es 0.90.

85. Horwege Electronics, Inc. compra tubos de televisión a cuatro proveedores diferentes. Ty
son Wholesale proporciona 20% de los tubos, Fuji Importers 30%. Kirkpatricks 25% y Parts,
Inc. 25%. Tyson Wholesale suele ofrecer la mejor calidad, ya que sólo 3% de sus tubos es
tán defectuosos. El 4% de los tubos de Fuji Importers tienen algún defecto, el 7% los de Kirk-
patrick y 6.5% los de Parts, Inc.
a. ¿Cuál es el porcentaje general de tubos defectuosos?
b. En el último envío se encontró un tubo defectuoso. ¿Cuál es la probabilidad de que sea
de Tyson Wholesale?
86. ABC Auto Insurance clasifica a los conductores como buenos, intermedios y malos. Los con
ductores que solicitan un seguro pertenecen a uno de estos tres grupos en las siguientes
proporciones: 30%, 50% y 20%, respectivamente. La probabilidad de que un "buen" conduc
tor tenga un accidente es de 0.01, de un conductor "intermedio" es 0.03 y de un conductor
"malo" es 0.10. La compañía le vende al señor Brophy una póliza de seguros y éste tiene un
accidente. ¿Cuál es la probabilidad de que el señor Brophy sea:
a. un "buen" conductor? b. un conductor "intermedio"? c. un "mal" conductor?

exercises.com
87. Durante la década de 1970, el programa de juegos Let's Make a Deal tuvo mucho éxito en la
televisión. En el programa, a un concursante se le daban a elegir tres puertas, detrás de una
de las cuales había un premio. Las otras dos contenían un regalo de broma. Después de que
el concursante elegía una puerta, el conductor del programa revelaba el contenido de una de
las puertas que no había elegido, y preguntaba al concursante si quería cambiar de opinión.
¿El concursante debía cambiar? ¿Al cambiar de puerta, aumentaban las probabilidades de
ganar?
Visite el siguiente sitio Web, que está administrado por el Departamento de Estadística de
la Universidad de Carolina del Sur, y ponga a prueba su estrategia: http://www.stat.sc.edu/ -
west/applets/LetsMakeaDeal.html; visite el siguiente sitio Web y lea sobre las probabilidades
para el juego: http://www.stat.sc.edu/-Avest/javahtml/LetsMakeaDeal.html. ¿Su estrategia fue
correcta?

Ejercidos de la base de datos


88. Consulte los datos Real Estate, que proporcionan información sobre las casas vendidas en
el área de Denver, Colorado, durante el último año.
a. Clasifique los datos en una tabla que muestre el número de casas que tienen alberca
en comparación con las que no tienen, en cada uno de los siguientes municipios. Si se
selecciona una casa al azar, calcule las probabilidades siguientes:
(1) La casa está en el Municipio 1 y tiene alberca.
(2) Dado que está en el Municipio 3, tiene alberca.
(3) Tiene una alberca y está en el Municipio 3.
b. Clasifique los datos en una tabla que muestre el número de casas que tienen cochera
en comparación con aquellas que no la tienen en cada uno de los cinco municipios si-
guientes. Si una casa se elige al azar, calcule las probabilidades siguientes:
(1) La casa tiene una cochera.
(2) Dado que está en el Municipio 5, no tiene cochera.
(3) La casa tiene cochera y está en el Municipio 3.
(4) No tiene cochera o está en el Municipio 2.
89. Consulte los datos Baseball 2000, que proporcionan información sobre los 30 equipos de
béisbol de la Liga Mayor para la temporada 2002. Establezca una variable que divida los
equipos en dos grupos, aquellos que tuvieron una temporada ganadora y aquellos que no
la tuvieron. Es decir, cree una variable para contar los equipos que ganaron 81 juegos o
Estudio de los conceptos de probabilidad 177

más, y aquellos que ganaron 80 o menos. A continuación, cree una nueva variable para la
asistencia, utilizando tres categorías; asistencia de menos de 2.0 millones, asistencia de 2.0
a 3.0 millones y asistencia de 3.0 millones o más.
a. Elabore una tabla que muestre el número de equipos con una temporada ganadora en
comparación con aquéllos que perdieron la temporada, según las tres categorías de
asistencia. Si selecciona un equipo al azar, calcule las probabilidades siguientes:
(1) Que tenga una temporada ganadora.
(2) Que tenga una temporada ganadora o una asistencia de más de 3.0 millones.
(3) Dada una asistencia de más de 3.0 millones, que tenga una temporada ganadora.
(4) Que tenga una temporada perdedora y una asistencia de menos de 2.0 millones.
b. Elabore una tabla que muestre el número de equipos que juegan en superficies artifi-
ciales y naturales según los récords de ganadores y perdedores. Si se selecciona un
equipo al azar, calcule las probabilidades siguientes:
(1) De seleccionar un equipo cuyo campo tenga una superficie natural.
(2) ¿La probabilidad de elegir un equipo con un récord ganador es más alta para los
equipos con superficies naturales o artificiales?
(3) De tener un récord ganador o jugar en una superficie artificial.
90. Consulte el conjunto de datos Wage, que proporciona información sobre los sueldos anua-
les para una muestra de 100 trabajadores. También se incluyen las variables relacionadas
con la industria, los años de educación y el género de cada trabajador. Elabore una tabla
que muestre la industria de empleo por género. Se selecciona un trabajador al azar; calcule
la probabilidad de que la persona elegida sea:
a. Mujer.
b. Mujer o trabaje en la manufactura.
c. Mujer dado que la persona seleccionada trabaja en la fabricación.
d. Mujer y trabaja en la manufactura.

Comandos de software
1. Los comandos de Excel para determinar el número de
permutaciones que se muestran en la página 169 son:
a. Haga clic en Insert en la barra de herramientas, se
leccione la fx Function y haga clic en OK.
b. En el cuadro de Paste Function, seleccione Sta-
tistical, y en la columna Function name despláce
se hacia abajo hasta Permut y haga clic en OK.
c. En el cuadro Permut escriba 8 después de Num-
ber y escriba 3 en el cuadro Number_chosen. La
respuesta correcta de 336 aparece dos veces en el
cuadro.

2. Los comandos de Excel para determinar el número de


combinaciones que se muestran en la página 169 son:
a. Haga clic en Insert en la barra de herramientas, se
leccione fx Function y haga clic en OK.
b. En el cuadro de la Paste Function, seleccione
Math & Trig, y en la columna del nombre de la fun
ción desplácese hacia abajo hasta COMBIN y ha
ga clic en OK.
c. En el cuadro COMBIN, después de Number, escri
ba 7 y en el cuadro Number _chosen escriba 3. La
respuesta correcta de 35 aparece dos veces en el
cuadro.
178 Capítulo 5

Capítulo 5 Respuestas a las autoevaluaciones


Estudio de los conceptos de probabilidad 179
Distribuciones discretas
de probabilidad

Un estudio de la American Society of Investors descubrió que 30%


de inversionistas individuales recurrió a un corredor de bolsa de des-
cuentos. En una muestra aleatoria de nueve individuos, ¿cuál es la
probabilidad de que exactamente dos de los individuos de la mues-
tra hayan recurrido a un corredor de bolsa de descuentos? (Vea la
Meta 4 y el Ejercicio 13.)
Distribuciones discretas de probabilidad 181

Introducción
Los capítulos del 2 al 4 están dedicados a la estadística descriptiva. Describimos los datos
en bruto al organizarlos en una distribución de frecuencia y representar la distribución en
tablas y gráficas. También, calculamos una medida de ubicación, como la media aritmética,
la mediana o la moda, para ubicar un valor típico cerca del centro de la distribución. El rango
y la desviación estándar se utilizan para describir la extensión en la información. Estos capí-
tulos se concentran en describir algo que ya sucedió.
A partir del capítulo 5, el énfasis cambia, empezamos por estudiar algo que probable-
mente pasará y hacemos notar que esta faceta de la estadística se llama inferencia estadís-
tica. El objetivo es hacer inferencias (afirmaciones) sobre una población basadas en un
conjunto de observaciones, llamada muestra de una población. En el capítulo 5, afirmamos
que una probabilidad es un valor entre 0 y 1 inclusive, y estudiamos la manera en que se
pueden combinar las probabilidades utilizando las reglas de la adición y la multiplicación.
En este capítulo comenzará el estudio de las distribuciones de probabilidad. Una dis-
tribución de probabilidad proporciona toda la variedad de valores que se pueden presentar en
un experimento. Una distribución de probabilidad es similar a una distribución de frecuencias
relativas. Sin embargo, en lugar de describir el pasado, ésta describe la posibilidad de que se
presente un evento futuro. Por ejemplo, un fabricante de medicamentos puede solicitar un tra-
tamiento que provoque una pérdida de peso en el 80% de la población. Una agencia de pro-
tección al consumidor puede probar el tratamiento en una muestra de seis personas. Si la
afirmación del fabricante es verdadera, es casi imposible tener un resultado donde nadie pier-
da peso en la muestra y es más probable que 5 de 6 personas pierdan peso.
En este capítulo se estudian la media, la varianza y la desviación estándar de una dis-
tribución de probabilidad. También se estudian tres distribuciones de probabilidad que se
presentan con frecuencia: la binomial, la hipergeométrica y la de Poisson.

¿Qué es una distribución de probabilidad?


Una distribución de probabilidad presenta los resultados posibles de un experimento y la
probabilidad de cada uno de estos resultados.

DISTRIBUCIÓN DE PROBABILIDAD. Lista de todos los resultados de un experimento y la


probabilidad relacionada con cada uno.

¿Cómo podemos generar una distribución de probabilidad?

Suponga que estamos interesados en el número de caras que caen al lanzar tres veces una
moneda. Éste es el experimento. Los resultados posibles son: cero caras, una cara, dos
caras y tres caras. ¿Cuál es la distribución de probabilidad para el número de caras?

Existen ocho resultados posibles. Puede salir una cruz en el primer lanzamiento, otra cruz
en el segundo lanzamiento y otra cruz en el tercer lanzamiento de la moneda. O podríamos
obtener una cruz, una cruz y una cara, en ese orden. Utilizamos la fórmula de la multipli-
cación para los resultados de conteo (5-8). Existen (2)(2)(2) u ocho posibles resultados.
Éstos se presentan a continuación:
82 Capítulo 6

Observe que el resultado "cero caras" se presentó solo una vez, "una cara" se presen-
tó tres veces, "dos caras" se presentó tres veces y el resultado "tres caras"-se presentó sólo
una vez. Es decir, el resultado "cero caras" se presentó una de ocho veces. Por tanto, la
probabilidad de cero caras es un octavo, la probabilidad de una cara es de tres octavos y
así sucesivamente. La distribución de la probabilidad se ilustra en la Tabla 6-1. Observe
que, debido a que se puede presentar uno de estos resultados, el total de probabilidades
de todos los eventos posibles es de 1. Esto siempre es verdad. La misma información se
muestra en la Gráfica 6-1.

Distribución de probabilidad para los eventos de cero, una, dos y tres caras en tres
lanzamientos de una moneda

Presentación gráfica del número de caías que resulta al lanzar tres veces una moneda
y la probabilidad correspondiente

Características de una distribución Antes de continuar, debemos hacer notar dos características importantes de una dis-
de probabilidad tribución de probabilidad:

1. La probabilidad de un resultado en particular está entre 0 y 1, inclusive. [Las probabili-


dades de x1 que se expresa P(x) en el ejemplo del lanzamiento de la moneda, fueron
P(0 caras) = 0.125, P(1 cara) = 0.375, etc.]
2. La suma de las probabilidades de todos los eventos mutuamente excluyentes es 1.
(Refiriéndonos a la Tabla 6-1, 0.125 + 0.375 + 0.375 + 0.125 = 1.)
Distribuciones discretas de probabilidad 183

Autoevaluación 6-1 Los resultados posibles de un experimento que comprende el lanzamiento de un dado de seis
lados son: un uno, un dos, un tres, un cuatro, un cinco y un seis.

(a) Desarrolle una distribución de probabilidad para el número de resultados posibles.


(b) Represente en forma gráfica la distribución de probabilidad.
(c) ¿Cuál es la suma de las probabilidades?

Variables aleatorias
En un experimento de azar, los resultados se presentan de manera aleatoria. Por tanto, casi
siempre se le llama variable aleatoria. Por ejemplo, al lanzar un solo dado en un experi-
mento: se pueden presentar uno de seis resultados. Algunos experimentos obtienen resul-
tados cuantitativos (como dólares, peso o cantidad de hijos), y otros obtienen resultados
cualitativos (como el color o las preferencias religiosas). Otros ejemplos ¡lustrarán más ade-
lante lo que significa el término variable aleatoria.

• Si contamos el número de empleados ausentes el lunes en el turno matutino, el número


podría ser 0, 1, 2, 3,... El número de ausentes es la variable aleatoria.
• Si pesamos cuatro lingotes de acero, el peso podría ser 2 492 libras, 2 497 libras, 2 506
libras y así sucesivamente. El peso es la variable aleatoria.
• Si lanzamos dos monedas y contamos el número de caras, éste podría ser cero, uno o
dos. Ya que el número de caras que se obtiene en este experimento se debe al azar,
el número de caras que se presenta es la variable aleatoria.
• Otras variables aleatorias podrían ser: el número de focos defectuosos producidos
durante la semana, las estaturas de los miembros del equipo de basquetbol femenil, el
número de corredores del Maratón de Boston en cada uno de los últimos 20 años y
el número diario de conductores multados por conducir bajo los efectos del alcohol en
Texas.

VARIABLE ALEATORIA, Resultado que se obtiene al azar en un experimento y que


puede asumir valores diferentes.

El siguiente diagrama ilustra los términos experimento, resultado, evento y variable


aleatoria. Primero, para un experimento en el que una moneda se lanza tres veces, existen
ocho resultados posibles. En este experimento nos interesa que caiga una cara en los tres
lanzamientos. La variable aleatoria es el número de caras. En términos de probabilidad,
deseamos conocer la probabilidad del evento de que la variable aleatoria sea igual a una
cara. El resultado es P(una cara en 3 lanzamientos) = 0.375.

Resultados posibles para tres lanzamientos de moneda.

Una variable aleatoria puede ser discreta o continua.


184 Capítulo 6

Variable aleatoria discreta


Una variable aleatoria discreta puede asumir sólo cierto número de valores separados. Si
existen 100 empleados, entonces el conteo del número de ausentismo el lunes sólo puede
ser 0, 1, 2, 3..., 100. Por lo regular, una variable aleatoria discreta es el resultado de un con-
teo. Por definición es:

VARIABLE ALEATORIA DISCRETA, Variable aleatoria que sólo puede asumir ciertos valo-
res claramente contables.

En algunos casos, una variable aleatoria discreta puede asumir valores fracciónales o
decimales. Estos valores se deben contar; es decir, debe haber distancia entre ellos. Por
ejemplo, las calificaciones que otorgan los jueces por las habilidades técnicas y las formas
artísticas en el patinaje artístico son valores decimales, como 7.2, 8.9 y 9.7. Dichos valores
son discretos ya que existe distancia entre las calificaciones 8i3 y 8.4. Por ejemplo, una cali-
ficación no puede ser 8.34 o 8.347.

Variable aleatoria continua


Por otro lado, si la variable aleatoria es continua, entonces la distribución es una distribu-
ción de probabilidad continua. Si tomamos una medida, como el ancho de una habitación,
la estatura de una persona o la presión de una llanta de un automóvil, la variable es una
variable aleatoria continua. Ésta puede asumir uno de un número infinito de valores, con
algunas limitaciones. Por ejemplo:

• Los tiempos de los vuelos comerciales entre Atlanta y Los Ángeles son de 4.67 horas,
5.13 horas y así sucesivamente. La variable aleatoria es el número de horas.
• La presión de las llantas, medida en libras por pulgada cuadrada (psi, por sus siglas en
inglés), para una Chevy Trail-blazer podría ser 32.78 psi, 33.07 psi y así sucesivamente.
En otras palabras, se podrían presentar valores entre 28 y 35. La variable aleatoria es la
presión de las llantas.

Lógicamente, si se organiza un conjunto de valores posibles de una variable aleatoria


discreta en una distribución de probabilidad, la distribución que se obtiene es una distribu-
ción de probabilidad discreta.
Las herramientas utilizadas, así como las interpretaciones de probabilidad, son diferen-
tes para las variables aleatorias continuas y para las discretas. Este capítulo se limita a las
distribuciones de probabilidad discreta. El siguiente capítulo mostrará dos tipos de distribu-
ciones de probabilidad continua.

La medía, la varianza y la desviación


estándar de una distribución de probabilidad
En el Capítulo 3 estudiamos las medidas de ubicación y variación para una distribución de
frecuencias. La media reporta la ubicación central de la información y la varianza describe la
dispersión en la información. De una manera similar, una distribución de probabilidad se
resume a través de su media y de su varianza. La media de una distribución de probabilidad
se identifica con la letra griega mu (μ) y la desviación estándar con la letra griega sigma (σ).

Media
La media es un valor típico que se utiliza para representar la ubicación central de una distri-
bución de probabilidad. También es el valor promedio prevaleciente de la variable aleatoria.
La media de una distribución de probabilidad también se describe como su valor espera-
do. Es un promedio calculado en el que los valores posibles de la variable aleatoria se miden
a través de las probabilidades correspondientes de ocurrencia.
Distribuciones discretas de probabilidad 185

La media de una distribución de probabilidad discreta se calcula a través de la siguiente


fórmula:

donde P(x) es la probabilidad de un valor particular de x. En otras palabras, multiplicar cada


valor de x por su probabilidad de ocurrencia y luego sumar estos productos.

Varianza y desviación estándar


Como ya dijimos, la media es un valor típico que se usa para resumir una distribución de la
probabilidad discreta. Sin embargo, ésta no describe la cantidad de dispersión (variación)
en una distribución. La varianza sí lo hace. La fórmula para la varianza de una distribución
de probabilidad es la siguiente:

Los pasos para calcularla son los siguientes:

1. Restar la media a cada valor y elevar al cuadrado esta diferencia.


2. Multiplicar cada diferencia elevada al cuadrado por su probabilidad.
3. Sumar los productos resultantes para obtener la varianza.

La desviación estándar, se obtiene al extraer la raíz cuadrada positiva de es de-


cir,

John Ragsdale vende automóviles nuevos para Peli-


can Ford. Por lo general, John vende el mayor número
de automóviles los sábados. Ragsdale obtiene la distri-
bución de probabilidad siguiente para el número de au-
tomóviles que espera vender un sábado en particular.

1. ¿Qué tipo de distribución es ésta?


2. En un sábado típico, ¿cuántos automóviles espe-
ra vender John?
3. ¿Cuál es la varianza de la distribución?

1. Ésta es una distribución de probabilidad discreta para la variable aleatoria llamada


"número de automóviles vendidos". Observe que John espera vender sólo un promedio
determinado de automóviles; no espera vender 5 o 50 automóviles. Además, no puede
vender la mitad de un automóvil. Sólo puede vender 0, 1, 2, 3 o 4 automóviles.
Asimismo, los resultados son mutuamente excluyentes, no puede vender un total de 3
y 4 automóviles el mismo sábado.
186 Capítulo 6

2. La media del número de automóviles vendidos se calcula al medir el número de auto-


móviles vendidos con la probabilidad de vender ese número y sumar o añadir los pro-
ductos, utilizando la fórmula (6-1):

Estos cálculos se resumen en la tabla siguiente:

¿Cómo interpretamos una media de 2.1? Este valor indica que, durante muchos sábados,
John Ragsdale espera vender una media de 2.1 automóviles por día. Por supuesto, no
puede vender exactamente 2.1 automóviles todos los sábados. Sin embargo, el valor
esperado puede utilizarse para pronosticar la media aritmética del número de automóviles
vendidos los sábados. Por ejemplo, si John trabaja 50 sábados al año, puede esperar
vender (50)(2.1) .o 105 automóviles sólo los sábados. Por tanto, en ocasiones la media
se llama valor esperado. 3. De nuevo, una tabla es útil para los cálculos de la varianza,
que es 1.290.

Recuerde que la desviación estándar, es la raíz cuadrada positiva de la varianza. En es-


te ejemplo, automóviles. ¿Cómo podemos interpretar una desvia-
ción estándar de 1.136 automóviles? Si Rita Kirsch, una vendedora, también vendió una
media de 2.1 automóviles los sábados, y la desviación estándar en sus ventas fue de 1.91
automóviles, podríamos llegar a la conclusión de que existe mayor dispersión en las ventas
del sábado de la señorita Kisch que en las del señor Ragsdale (ya que 1.91 > 1.136).

Autoevaluación 6-2 Pizza Palace ofrece tres tamaños de refresco de cola: chico, mediano y grande, para acompañar
las pizzas. Los refrescos de cola se venden a $0.80, $0.90 y $1.20, respectivamente. De los
pedidos, 30% son para el tamaño chico, 50% para el mediano y 20% para el grande. Organice
el tamaño de los refrescos de cola y la probabilidad de venta en una distribución de probabilidad.
(a) ¿Es una distribución de probabilidad discreta? Indique por qué sí o por qué no.
(b) Calcule la cantidad media cobrada por un refresco de cola.
(c) ¿Cuál es la varianza de la cantidad cobrada por un refresco de cola? ¿Cuál es la desvia
ción estándar?
Distribuciones discretas de probabilidad 187

Ejercicios
1. Calcule la media y la varianza de la siguiente distribución de probabilidad discreta:

2. Calcule la media y la varianza de la siguiente distribución de probabilidad discreta:

3. Las tres tablas siguientes muestran las "variables aleatorias" y sus "probabilidades". Sin
embargo, sólo una de éstas es en realidad una distribución de probabilidad. a. ¿Cuál es?

b. Utilizando la distribución de probabilidad correcta, encuentre la probabilidad en la que x


es:
(1) Exactamente 15. (2) No mayor que 10. (3) Mayor que 5.
c. Calcule la media, la varianza y la desviación estándar de esta distribución.
4. ¿Cuál de estas variables es discreta y cuáles son variables aleatorias continuas?
a. El número de cuentas nuevas abiertas por un vendedor al año.
b. El tiempo que transcurre entre la llegada de cada cliente a un cajero automático.
c. El número de clientes en la estética Big Nick.
d. La cantidad de gasolina en el tanque de su automóvil.
e. El número de personas en un jurado que pertenecen a una minoría.
f. La temperatura de hoy en el exterior.
5. Dan Woodward es el propietario y gerente de Dan's Truck Stop. Dan ofrece llenar la taza
tres veces en todas las órdenes de café y reunió la siguiente información sobre este servi
cio. Calcule la media, la varianza y la desviación estándar para la distribución del número de
veces que llenó las tazas.

6. El director de admisiones de Kinzua University en Nueva Escocia calculó la distribución de


la admisión de estudiantes para el segundo semestre del año basándose en experiencias
pasadas. ¿Cuál es el número esperado de admisiones para el segundo semestre? Calcule
la varianza y la desviación estándar del número de admisiones.
188 Capítulo 6

7. La tabla siguiente ilustra la distribución de probabilidad para los premios en efectivo de un


sorteo que se lleva a cabo en Lawson's Department Store.

Si usted compra un solo boleto, ¿cuál es la probabilidad de qué gane:


a. exactamente $100? b. por lo menos $10? c. no más de $100?
d. Calcule la media, la varianza y la desviación estándar de esta distribución. 8. Le piden que
seleccione tres canciones con los cantantes que hicieron famosas esas canciones. Si usted
adivina, la distribución de probabilidad para el número de elecciones correctas es:

¿Cuál es la probabilidad de que obtenga:


a. exactamente una correcta? b. al menos una correcta? c. exactamente dos correctas?
d. Calcule la media, la varianza y la desviación estándar de esta distribución.

Distribución de probabilidad binomial


La distribución de probabilidad binomial es una distribución de probabilidad discreta que
se presenta muy a menudo. Una de las características de la distribución binomial es que
existan sólo dos resultados posibles en una prueba
particular de un experimento. Por ejemplo, la afirma-
ción en una pregunta de verdadero/falso es verdadera
o es falsa. Los resultados son mutuamente excluyen-
tes, lo que significa que la respuesta para una pregun-
ta de verdadero/falso no puede ser verdadera y falsa
al mismo tiempo. Por ejemplo, el departamento de
control de calidad clasifica un producto como acepta-
ble o inaceptable, una persona se clasifica como em-
pleado o desempleado y una llamada de ventas hace
que el cliente compre el producto o que no lo compre.
Con frecuencia, clasificamos los dos resultados posi-
bles como "éxito" y "fracaso". Sin embargo, esta clasifi-
cación no implica que un resultado sea bueno y el otro
malo.
Otra característica de la distribución binomial es que
la variable aleatoria es el resultado del conteo. Es decir,
se cuenta el número de éxitos en el número total de
pruebas. Se lanza una moneda cinco veces y se cuenta
el número de veces que aparecen las caras; se selec-
cionan 10 empleados y se cuenta el número de empleados que tienen más de 50 años de
edad, o se seleccionan 20 cajas de Raisin Bran de Kellog y se cuenta el número de cajas que
pesan más de la cantidad indicada en el paquete.
Una tercera característica de una distribución binomial es que la probabilidad de éxito
es la misma en una prueba que en otra. A continuación se mencionan dos ejemplos:

• La probabilidad de que usted adivine la primera pregunta de una prueba de verda-


dero/falso (un éxito) es de un medio. Ésta es la primera "prueba". La probabilidad de
que usted adivine correctamente la segunda pregunta (la segunda prueba) también es
Distribuciones discretas de probabilidad 189

de un medio, la probabilidad de éxito en la tercera, prueba es de un medio, y así suce-


sivamente.
• Si las experiencias pasadas revelaron que el puente giratorio sobre Intracoastal Water-
way en Socastee se elevó una de cada 20 veces que usted se acercó, entonces la pro-
babilidad es de una vigésima parte de que éste se levantará (un "éxito") la próxima vez
que se acerque, de una vigésima parte la siguiente ocasión, y así sucesivamente.

La característica final de una distribución de probabilidad binomial es que cada prueba


es independiente de las demás. Independiente significa que no existen patrones para las
pruebas. El resultado de una prueba en particular no afecta el resultado de las demás. :

Características de una distribución


binomial
DISTRIBUCIÓN DE PROBABILIDAD BINOMIAL
1. Los resultados de cada prueba de un experimento se clasifican en una de dos
categorías exclusivas, un éxito o un fracaso.
2. La variable aleatoria cuenta el número de éxitos en un número fijo de pruebas o
ensayo.
3. La probabilidad de éxitos y fracasos permanece igual en todas las pruebas o
ensayos.
4. Las pruebas son independientes, lo que significa que el resultado de una prueba
o ensayo no afecta el resultado de cualquier otra.

¿Cómo se construye una distribución


de probabilidad binomial?
Para crear una distribución de probabilidad binomial especifica utilizamos (1) el número de
ensayos y (2) la probabilidad de éxitos en cada ensayo. Por ejemplo, si un examen al tér-
mino de un seminario de administración consiste en 20 preguntas de opción múltiple, el nú-
mero de ensayos es 20. Si cada pregunta tiene cinco opciones y sólo una opción es
correcta, la probabilidad de éxito en cada ensayo es de 0.20. Por tanto, la probabilidad de
que una persona sin conocimiento de la materia adivine correctamente la respuesta a la
pregunta es de 0.20. De manera que se cumplen las condiciones de la distribución binomial
antes mencionadas.
La distribución de probabilidad binomial se calcula a través de la siguiente fórmula:

donde:

denota una combinación.


es el número de pruebas.
es la variable aleatoria definida como el número de éxitos.
es la probabilidad de un éxito en cada prueba o ensayo.

Utilizamos la letra griega para denotar un parámetro de la población binomial. No lo


confunda con la constante matemática 3.1416.

Existen cinco vuelos diarios de US Airways entre Pittsburgh y el Aeropuerto Regional de


Bradford, Pennsylvania. Suponga que la probabilidad de que un vuelo llegue tarde es de 0.20.
¿Cuál es la probabilidad de que ningún vuelo llegue tarde hoy? ¿Cuál es la probabilidad de
que exactamente un vuelo llegue tarde hoy?

Podemos utilizar la Fórmula (6-3). La probabilidad de que un vuelo en particular llegue tarde
es de 0.20, de manera que Existen cinco vuelos, por tanto la variable
190 Capítulo 6

aleatoria, se refiere al número de éxitos. En este caso, un "éxito" es un avión que llega
tarde. Ya que no hay llegadas demoradas x = 0.

La probabilidad de que exactamente uno de los cinco vuelos llegue tarde hoy es de 0.4096,
calculada así:

Toda la distribución de probabilidad se muestra en la Tabla 6-2.

Distribución de probabilidad binomial para

La variable aleatoria en la Tabla 6-2 se representa en la Gráfica 6-2. Observe que la dis-
tribución del número de vuelos demorados tiene un sesgo positivo.

Distribución de la probabilidad binomial para

La media y la varianza de una distribución binomial se pueden calcular de una


manera "abreviada" a través de:
Distribuciones discretas de probabilidad 191

Para el ejemplo del número de vuelos demorados, recuerde que Por


tanto:

La media de 1.0 y la varianza de 0.80 se pueden verificar con las Fórmulas (6-1) y (6-2).
A continuación, presentamos la distribución de probabilidad en la Tabla 6-2 y los cálculos
detallados.

Tablas de probabilidad binomial


La Fórmula (6-3) se puede utilizar para crear una distribución de probabilidad binomial para
cualquier valor de n y de Sin embargo, para los valores mas grandes de n, los cálculos
llevan más tiempo. Para su comodidad, las tablas del Apéndice A muestran el resultado de
utilizar la fórmula para diferentes valores de n y de La Tabla 6-3 muestra una parte del
Apéndice A para n = 6 y diferentes valores de

Probabilidades binomiales para n = 6 y valores seleccionados de

Del total de los engranajes de tornillo producidos por una fresadora Carter-Bell automática
de alta velocidad, 5% están defectuosos. ¿Cuál es la probabilidad de que ninguno de seis
engranajes seleccionados al azar estén defectuosos? ¿Exactamente uno? ¿Exactamente
dos? ¿Exactamente tres? ¿Exactamente cuatro? ¿Exactamente cinco? ¿Exactamente seis
de seis?

Se cumplen las condiciones binomiales: (a) existen sólo dos resultados posibles (un engra-
naje en particular está defectuoso o no lo está), (b) existe un número fijo de pruebas (6), (c)
Existe una probabilidad constante de éxito (0.05) y (d) las pruebas son independientes.
192 Capítulo 6

Consulte la Tabla 6-3 para la probabilidad de exactamente cero engranajes defectuo-


sos. Descienda hacia el margen izquierdo para obtener una x de 0. Ahora muévase hori-
zontalmente hacia la columna que tiene un encabezado de una arde 0.05 para encontrar la
probabilidad. Ésta es de 0.735.
La probabilidad de exactamente uno defectuoso en una muestra de seis engranajes de
tornillo es de 0.232. La distribución de probabilidad binomial completa para
es la siguiente:

Por supuesto, existe una pequeña posibilidad de obtener exactamente 5 engranajes


defectuosos de 6 seleccionados al azar. Ésta es de 0.00000178, y se encontró al insertar
los valores adecuados en la fórmula binomial:

Para seis de seis, la probabilidad exacta es de 0.000000016. Por tanto, la probabilidad de


que se seleccionen cinco de seis engranajes defectuosos en una muestra de seis es muy
baja.
Se puede calcular la media o el valor esperado de la distribución del número de piezas
defectuosas de la siguiente manera:

El software MegaStat también calculará las probabilidades de una distribución binomial.


A continuación se muestra el resultado del ejemplo anterior. En el MegaStat la p se utiliza
para representar la probabilidad de éxito en lugar de la n. También se muestra la probabili-
dad acumulada, el valor esperado, la varianza y la desviación estándar.
Distribuciones discretas de probabilidad 193

Autoevaluación 6-3 De los empleados de la planta General Mills en Laskey Rd., 8% reciben sus salarios en forma
bimestral a través de transferencias de fondos electrónicos, conocidas también como depósi-
tos directos. Suponga que se selecciona una muestra al azar de siete personas.
(a) ¿Esta situación cumple con las suposiciones de la distribución binomial?
(b) ¿Cuál es la probabilidad de que los siete empleados utilicen el depósito directo?
(c) Utilice la fórmula (6-3) para determinar la probabilidad exacta de que cuatro de siete em
pleados de la muestra utilicen el depósito directo.
(d) Utilice el Apéndice A para verificar sus respuestas a los incisos (b) y (c).

El Apéndice A es limitado. Proporciona las probabilidades para los valores de n de 1 a


15 y los valores de 7rde 0.05, 0.10,..., 0.90 y 0.95. Un programa de software puede gene-
rar las probabilidades para un número específico de éxitos, proporcionadas para n y π. Los
resultados de Excel que se muestran a continuación proporcionan la probabilidad cuando n
= 40 y π = 0.09. Observe que el número de éxitos se detiene en 15 ya que las probabilida-
des del 16 al 40 están muy cercanas a 0.

Se deberían mencionar otros puntos adicionales en lo que respecta a la distribución de


probabilidad binomial.
1. Si n permanece igual pero aumenta de 0.05 a 0.95, la forma de la distribución cam-
bia. Observe la Tabla 6-4 y la Gráfica 6-3. Las probabilidades para de 0.05 presen-

TABLA 6-4 Probabilidad de 0, I, 2,... éxitos para una 7rde 0.05, 0.10, 0.20. 0.50 y 0.70, y una n de 10
194 Capítulo 6

tan un sesgo positivo. Mientras se aproxime a 0.50, la distribución se vuelve


simétrica. Mientras sobrepase 0,50 y se acerque a 0.95, la distribución de
probabilidad presenta un sesgo negativo. La Tabla 6-4 resalta las probabilidades
para n = 10 y de 0.05, 0.10, 0.20, 0.50 y 0.70. Las gráficas de estas distribuciones
de probabilidad se muestran en la Gráfica 6-3.

GRÁFICA 6-3 Representación gráfica de la distribución de la probabilidad binomial para una de 0.05, 0.10,
0.20, 0.50 y 0.70, y una n de 10

2. Si la probabilidad de éxito permanece igual, pero n se incrementa y la forma de la


distribución binomial se vuelve más simétrica. La Gráfica 6-4 muestra una situación
donde permanece constante en 0.10 pero n se incrementa de 7 a 40.

GRÁFICA 6-4 Gráfica que representa la distribución de la probabilidad binomial para una de 0.10 y una n
de 7. 12, 20 y 40.

Ejercicios
9. En una situación binomial n - 4 y = 0.25. Determine las probabilidades de los siguientes
eventos utilizando la fórmula binomial.
a. x=2. b. x= 3.
10. En una situación binomial n = 5 y = 0.40. Determine las probabilidades de los siguientes
eventos utilizando la fórmula binomial.
a. x= 1. b. x= 2.
Distribuciones discretas de probabilidad 195

11. Suponga que existe una distribución binomial' donde n = 3 y 0.60.


a. Consulte el Apéndice A y mencione las probabilidades para los valores de x de 0 a 3.
b. Determine la media y la desviación estándar de la distribución a partir de las definiciones
generales proporcionadas en las fórmulas (6-1) y (6-2).
12. Suponga que existe una distribución binomial donde n = 5 y 0.30.
a. Consulte el Apéndice A y mencione las probabilidades para los valores de x de 0 a 5.
b. Determine la media y la desviación estándar de la distribución a partir de las definiciones
generales proporcionadas en las fórmulas (6-1) y (6-2).
13. Un estudio de la American Society of Investprs encontró un 30% de inversionistas individua
les que habían utilizado un agente de descuentos. En una muestra aleatoria de nueve per
sonas, ¿cuál es la probabilidad de que:
a. exactamente dos personas hayan utilizado un agente de descuentos?
b. exactamente cuatro personas hayan utilizado un agente de descuentos?
c. ninguna persona haya utilizado un agente de descuentos?
14. El Servicio Postal de Estados Unidos informa que 95% de la correspondencia de primera
clase dentro de la misma ciudad se entrega en un periodo de dos días a partir del momen-
to en que se envía. Se enviaron seis cartas al azar a diferentes lugares.
a. ¿Cuál es la probabilidad de que las seis lleguen en un plazo de dos días?
b. ¿Cuál es la probabilidad de que exactamente cinco lleguen en un plazo de dos días?
c. Encuentre el número medio de cartas que llegarán en un plazo de dos días.
d. Calcule la varianza y la desviación estándar del número de cartas que llegarán en un pla-
zo de dos días.
15. Las normas de la industria sugieren que 10% de los vehículos nuevos requieren un servicio
de garantía en el primer año. Jones Nissan en Sumter, Carolina del Sur, vendió ayer 12
autos marca Nissan.
a. ¿Cuál es la probabilidad de que ninguno de estos vehículos requiera el servicio de garantía?
b. ¿Cuál es la probabilidad de que exactamente uno de estos vehículos requiera el servicio
de garantía?
c. Determine la probabilidad de que exactamente dos de estos vehículos requieran el ser
vicio de garantía. .
d. Calcule la media y la desviación estándar de esta distribución de probabilidad.
16. Un agente de telemarketing realiza seis llamadas telefónicas por hora y es capaz de concre-
tar una venta con 30% de estos contactos. Para las próximas dos horas, encuentre:
a. La probabilidad de realizar exactamente cuatro ventas.
b. La probabilidad de no realizar ninguna venta.
c. La probabilidad de realizar exactamente dos ventas.
d. El número medio de ventas en un periodo de dos horas.
17. Una investigación reciente de la American Accounting Association reveló que 23% de los
estudiantes graduados en contabilidad eligen el área de contabilidad pública. Suponga que
se selecciona una muestra de 15 graduados recientes.
a. ¿Cuál es la probabilidad de que dos elijan contaduría pública?
b. ¿Cuál es la probabilidad de que cinco seleccionen contabilidad pública?
c. ¿Cuántos graduados cree usted que seleccionarían contabilidad pública?
18. Suponga que 60% de toda la gente prefiere la Coca Cola a la Pepsi. Seleccionamos 18 per-
sonas para un estudio.
a. ¿Cuántas personas cree que prefieran Coca Cola?
b. ¿Cuál es la probabilidad de que 10 de las personas seleccionadas para este estudio pre-
fieran Coca Cola?
c. ¿Cuál es la probabilidad de que 15 personas prefieran Coca Cola?

Distribuciones de probabilidad binomial acumulada


Tal vez quisiéramos conocer la probabilidad de adivinar correctamente las respuestas a 6
o más preguntas de verdadero/falso de 10; o bien, podríamos estar interesados en la proba-
bilidad de seleccionar menos de dos defectos al azar en una producción durante la hora
anterior. En estos casos, necesitamos las distribuciones de frecuencia acumulada similares
a las desarrolladas en el Capítulo 2. Consulte la página 37. El ejemplo siguiente servirá de
ilustración.
196 Capítulo 6

Un estudio reciente de la American Highway Patrolman's Association reveló que 60% de los
conductores estadounidenses utilizan sus cinturones de seguridad. Se seleccionó una
muestra de 10 conductores en la autopista de peaje de Florida.
1. ¿Cuál es la probabilidad de que exactamente 7 conductores utilicen cinturón de seguri
dad?
2. ¿Cuál es la probabilidad de que 7 conductores o menos utilicen cinturón de seguridad?

Esta situación cumple con los requisitos binomiales, a saber:


• Un conductor en particular puede utilizar o no el cinturón de seguridad. Existen sólo dos
resultados posibles.
• Hay un número fijo de número de pruebas, 10 en este caso, ya que se revisó a 10 con
ductores.
• La probabilidad del "éxito" (uso del cinturón de seguridad) es la misma para todos los
conductores: 60%.
• Las pruebas son independientes. Si el cuarto conductor seleccionado en la muestra uti
liza cinturón de seguridad, por ejemplo, esto no influye en el hecho de que el quinto
conductor seleccionado utilice cinturón de seguridad.

1. Para encontrar la probabilidad de exactamente 7 conductores, utilizamos el Apéndice


A. Localice la página para n = 10. Luego encuentre la columna para y el ren-
glón para x= 7. El valor es 0.215. Por tanto, la probabilidad de encontrar 7 de 10 con-
ductores en la muestra realizada para los que utilizan sus cinturones de seguridad es
de 0.215. Por lo regular, lo anterior se escribe de la siguiente manera:

donde x se refiere al número de éxitos, n al número de pruebas, y a la probabilidad


de éxitos. La barra significa "dado que".
2. Para encontrar la probabilidad de que 7 conductores o menos estarán utilizando cintu-
rones de seguridad, aplicamos la regla especial de suma, Fórmula (5-2), del Capítulo
5. Puesto que los eventos son mutuamente excluyentes, se determina la probabilidad
de que de los 10 conductores que se detuvieron, ninguno utilizaba cinturón de seguri-
dad, 1 utilizaba cinturón de seguridad, 2 utilizaban cinturón de seguridad y así sucesi-
vamente para los 7 conductores. Las probabilidades de los ocho resultados posibles
ahora están totalizadas. Del Apéndice A,

De manera que la probabilidad de detener 10 automóviles al azar y de encontrar 7 con-


ductores o menos que utilicen el cinturón de seguridad es de 0.833.
Este valor también se puede determinar con menos cálculos utilizando la regla del
complemento. Primero, encuentre Esta probabili-
dad es 0.167, calculada así
probabilidad de que sea igual a 1 por tanto
la misma antes calculada.

Autoevaluación 6-4 Para un caso donde determine la probabilidad de que:


Distribuciones discretas de probabilidad 197

Ejercicios
19. En una distribución binomial n = 8 y = 0.30. Encuentre las probabilidades de los siguien-
tes eventos.
a. x = 2.
b. x < 2 (la probabilidad de que x sea igual o menor que 2).
c. x > 2 (la probabilidad de que x sea igual o mayor que 3).
20. En una distribución binomial n - 12 y = 0.60. Encuentre las siguientes probabilidades.
a. x= 5.
b. x< 5 .
c. x> 6.
21. En un estudio reciente se encontró que 90% de las familias en Estados Unidos tienen televi-
sores con pantalla grande. En una muestra de nueve familias, ¿cuál es la probabilidad de que:
a. las nueve tengan televisores con pantalla grande?
b. menos de cinco tengan televisores con pantalla grande?
c. más de cinco tengan televisores con pantalla grande?
d. al menos siete familias tengan televisores con pantalla grande?
22. Un fabricante de marcos para ventanas sabe por experiencia que el 5% de la producción
presentará un tipo de defecto mínimo que requerirá un ajuste. ¿Cuál es la probabilidad de
que en una muestra de 20 marcos para ventanas:
a. ninguno necesite ajuste?
b. por lo menos uno necesite ajuste?
c. más de dos necesiten ajuste?
23. La velocidad a la que las compañías de servicios pueden resolver problemas es muy impor-
tante. Georgetown Telephone Company, informa que puede resolver los problemas del cliente
el mismo día que éstos se reportan en 70% de los casos. Suponga que 15 casos reporta
dos hoy son representativos todas las quejas.
a. ¿Cuántos problemas esperaría.que se resolvieran el día de hoy? ¿Cuál es la desviación
estándar?
b. ¿Cuál es la probabilidad de que 10 de los problemas se resuelvan hoy?
c. ¿Cuál es la probabilidad de que 10 u 11 de los problemas se resuelvan hoy?
d. ¿Cuál es la probabilidad de que más de 10 de los problemas se resuelvan hoy?
24. Steele Electronics, Inc. vende marcas costosas de equipo estereofónico en varios centros
comerciales en toda la zona del noroeste de Estados Unidos. El departamento de Investiga
ción de Mercadotecnia reporta que 30% de los clientes que visitan las tiendas e indican que
están curioseando, al final, realizarán una compra. Suponga que los últimos 20 clientes que vi
sitaron la tienda son una muestra.
a. ¿Cuántos de estos clientes se podría esperar que realizarán una compra?
b. ¿Cuál es la probabilidad de que exactamente cinco de estos clientes realicen una compra?
c. ¿Cuál es la probabilidad de que diez o más de estos clientes realicen una compra?
d. ¿Es posible que al menos uno de estos clientes realice una compra?

Distribución de probabilidad hipergeométrica


Para que una distribución binomial sea aplicable, la probabilidad de un éxito debe ser la
misma para cada ensayo. Por ejemplo, la probabilidad de adivinar la respuesta correcta de
una pregunta verdadero/falso es de 0.50. La probabilidad sigue siendo la misma para cada
pregunta de un examen. De igual manera, suponga que 40% de los votantes registrados en
un distrito electoral son republicanos. Si 27 de los votantes registrados se seleccionan al
azar, la probabilidad de escoger un republicano en la primera selección es de 0.40. La posi-
bilidad de escoger un republicano en la siguiente selección es de 0.40, considerando que
el muestreo se hace con reemplazos, lo que significa que la persona seleccionada se regre-
sa a la población antes de que se seleccione a la siguiente.
Sin embargo, la mayor parte del muestreo se realiza sin reemplazos. Por tanto, si la
población es pequeña, la probabilidad de cada observación cambiará. Por ejemplo, si la po-
blación consta de 20 elementos, la probabilidad de seleccionar un elemento de esa población
es de 1/20. Si el muestreo se realiza sin reemplazos, después de la primera selección sólo
existen 19 elementos restantes; la probabilidad de seleccionar un elemento particular en la
segunda selección es sólo de 1/19. Para la tercera selección, la probabilidad es de 1/18, y
198 Capítulo 6

así sucesivamente. Esto supone que la población es finita, es decir, se conoce el número
de elementos de la población y es relativamente pequeño en cantidad. Ejemplos de pobla-
ción finita son 2 842 republicanos en un distrito electoral, 9 421 solicitudes para la escuela
de medicina y 18 Pontiac Vibes actualmente en existencia en North Charleston Pontiac.
Recuerde que uno de los criterios para la distribución binomial es que la probabilidad
de éxito permanezca igual en todas las pruebas. Ya que la probabilidad de éxito no es la
misma en todas las pruebas cuando se realiza un muestreo en una población relativamente
pequeña sin reemplazos, la distribución binomial no deberá utilizarse. En lugar de esto se
deberá aplicar la distribución hipergeométrica. Por tanto, (1) si se selecciona una muestra
de una población finita sin reemplazos y (2) si el tamaño de la muestra n es mayor de 5%
del tamaño de la población N, entonces la distribución hipergeométrica se utiliza para
determinar la probabilidad de un número específico de éxitos o fracasos. Esto es muy ade-
cuado cuando el tamaño de la población es pequeño.
La fórmula para la distribución de probabilidad hipergeométrica es la siguiente:

donde:
N es el tamaño de la población.
S es el número de éxitos en la población.
x es el número de éxitos en la muestra. Éste puede ser 0, 1, 2, 3...
n es el tamaño de la muestra o el número de pruebas.
C es el símbolo para una combinación.
En resumen, la distribución de probabilidad hipergeométrica tiene las siguientes carac-
terísticas:

DISTRIBUCIÓN DE PROBABILIDAD HIPERGEOMÉTRICA


1. Los resultados en cada prueba de un experimento se clasifican en una de dos
categorías exclusivas: un éxito o un fracaso.
2. La variable aleatoria es el número de éxitos en un número fijo de pruebas.
3. Las pruebas no son independientes.
4. Se supone que los muestreos se realizan con una población finita sin reemplazos.
Por tanto, la probabilidad de un éxito cambia en cada prueba.

El siguiente ejemplo ilustra los detalles al determinar una probabilidad utilizando la dis-
tribución de probabilidad hipergeométrica.

PlayTime Toys, Inc. emplea a 50 personas en el


Departamento de Ensamblaje. Cuarenta de los
empleados pertenecen a un sindicato y diez no.
Se seleccionan cinco empleados al azar para
formar un comité que va a hablar con la geren-
cia acerca a los horarios en que inician los
turnos. ¿Cuál es la probabilidad de que cuatro
de los cinco empleados seleccionados para el
comité pertenezcan a un sindicato?

En este caso, la población son los 50 empleados


del Departamento de Ensamblaje. Un empleado
puede ser seleccionado para el comité sólo una vez. De ahí que el muestreo se realice sin
reemplazos. Por tanto, la probabilidad de seleccionar un empleado sindicalizado, cambia de
un ensayo a otro. La distribución de probabilidad hipergeométrica es adecuada para deter-
minar la probabilidad. En este problema:
Distribuciones discretas de probabilidad 199

N es 50, el número de empleados.


S es 40, el número de empleados sindicalizados.
x es 4, el número de empleados sindicalizados seleccionados.
n es 5, el número de empleados seleccionados.

Deseamos encontrar la probabilidad de que 4 de los 5 miembros del comité sean sindi-
calizados.
Al insertar estos valores en la Fórmula (6-6):

Por tanto, la probabilidad de seleccionar 5 trabajadores de ensamblaje al azar de los 50 tra-


bajadores y encontrar que 4 de 5 sean sindicalizados es de 0.431.

La Tabla 6-5 muestra la distribución de probabilidad hipergeométrica de encontrar 0, 1,


2, 3, 4 y 5 empleados sindicalizados en el comité.

TABLA 6-5 Probabilidades hipergeométricas (n = 5, N = 50 y S = 40) para el número de empleados


sindicalizados en el comité

A fin de poder comparar las dos distribuciones de probabilidad, la Tabla 6-6 muestra las
probabilidades hipergeométricas y binomiales para el ejemplo de PlayTime Toys, Inc. Ya
que 40 de 50 empleados del Departamento de Ensamblaje pertenecen al sindicato, supon-
ga que π= 0.80 para la distribución binomial. Las probabilidades binomiales para la Tabla
6-6 provienen de la distribución binomial de n = 5 y = 0.80.

TABLA 6-6 Probabilidades hipergeométrica y binomial para el Departamento de Ensamblaje de


PlayTime Toys. Inc.

Cuando no se puede cumplir un requerimiento binomial de una probabilidad constante


de éxito, se debe utilizar la distribución de probabilidad hipergeométrica. Sin embargo, co-
mo lo muestra la Tabla 6-6, en ciertas condiciones los resultados de la distribución binomial
se pueden utilizar para calcular la hipergeométrica. Esto origina una regla general:
200 Capítulo 6

Si los elementos seleccionados no se regresan a la población, la distribución binomial


puede utilizarse para calcular la distribución hipergeométrica cuando n < 0.05 N. En otras
palabras, la binomial bastará si el tamaño de la muestra es menor que 5% de la población.
Una distribución hipergeométrica se puede crear utilizando Excel. Observe el siguiente
resultado. En la sección Comandos de software se proporcionan los pasos necesarios.

Autoevaluación 6-5 Horwege Discount Brokers planea contratar a 5 nuevos analistas financieros este año. Existe
un conjunto de 12 solicitantes aprobados y George Horwege, el propietario, decide selec-
cionar al azar a los que se va a contratar. Hay 8 hombres y 4 mujeres entre los solicitantes
aprobados. ¿Cuál es la probabilidad de que 3 de los 5 que contrate sean hombres?

Ejercicios
25. Una población consta de diez elementos, de los cuales seis están defectuosos. En una
muestra de tres elementos, ¿cuál es la probabilidad de que exactamente dos estén defec-
tuosos? Suponga que las muestras no se reponen.
26. Una población consta de 15 elementos, de los cuales 4 son aceptables. En una muestra de
4 elementos, ¿cuál es la probabilidad de que exactamente 3 sean aceptables? Suponga que
las muestras se obtienen sin reemplazo.
27. Kolzak Appliance Outlet acaba de recibir un cargamento de diez reproductores de DVD. Poco
después de recibirlo, el fabricante llamó para reportar que por error enviaron tres unidades
defectuosas. La Srita. Kolzac, propietaria de la tienda, decidió probar dos de los diez repro-
ductores de DVD que recibió. ¿Cuál es la probabilidad de que ninguno de los dos reproduc-
tores de DVD probados estén defectuosos? Suponga que las muestras son sin reemplazo.
28. El Departamento de Sistemas de Computación tiene ocho profesores, de las cuales seis
están ocupados. La doctora Vonder, la presidenta, desea establecer un comité de tres profe-
soresdel departamento para que revisen el plan de estudio. Si selecciona el comité al azar:
a. ¿Cuál es la probabilidad de que todos los miembros del comité estén ocupados?
b. ¿Cuál es la probabilidad de que al menos un miembro no esté ocupado? (Nota: Para esta
pregunta, utilice la regla complementaria.)
29. Keith's Florists tiene 15 camiones de entrega, que utiliza sobre todo para entregar flores y
arreglos florales en la zona de Greenville, Carolina del Sur. De estos 15 camiones, 6 tienen
problemas con los frenos. Se seleccionó al azar una muestra de 5 camiones. ¿Cuál es la
probabilidad de que 2 de esos camiones probados tengan frenos defectuosos?
30. El profesor Jon Hammer tiene un conjunto de 15 preguntas de opción múltiple relacionadas
con las distribuciones de probabilidad. Cuatro de estas preguntas se relacionan con la dis
tribución hipergeométrica. ¿Cuál es la probabilidad de que por lo menos una de estas pre
guntas sobre hipergeometría aparezca en un examen de cinco preguntas el lunes?
Distribuciones discretas de probabilidad 201

Distribución de probabilidad de Poisson


La distribución de probabilidad de Poisson describe el número de veces que ocurre un
evento durante un intervalo específico. El intervalo puede ser tiempo, distancia, área o vo-
lumen.
La distribución se basa en dos suposiciones. La primera es que la probabilidad es pro-
porcional a la duración del intervalo. La segunda es que los intervalos son independientes. En
otras palabras, mientras más largo sea el intervalo mayor será la probabilidad, y el número de
ocurrencias en un intervalo no afecta a los otros intervalos. La distribución también es una
forma limitante de la distribución binomial cuando la probabilidad de un éxito es muy pequeña
y n es grande. Por lo general se le llama "ley de eventos improbables", lo cual significa que la
probabilidad, de que ocurra un evento en particular es muy pequeña. La distribución de
Poisson es una distribución de probabilidad discreta porque ésta se genera al contar. En
resumen, una distribución de probabilidad de Poisson tiene tres características:

DISTRIBUCIÓN DE PROBABILIDAD DE POISSON


1. La variable aleatoria es el número de veces que ocurre un evento durante un
intervalo definido.
2. La probabilidad de un evento es proporcional al tamaño del intervalo.
3. Los intervalos no se superponen y son independientes.

Esta distribución tiene muchas aplicaciones. Se utiliza como un modelo para describir la dis-
tribución de errores en la entrada de la información, el número de rayones y otras imperfec-
ciones de las cabinas de los automóviles recién pintados, el número de partes defectuosas
en los envíos, el número de clientes que esperan ser atendidos en un restaurante o que es-
peran entrar en un juego de Disney World y el número de accidentes en la carretera I-75
durante un periodo de tres meses.
La distribución de Poisson se puede describir matemáticamente con la siguiente fór-
mula:

donde:

es el número de ocurrencias (éxitos) de la medida en un intervalo particular.


es la constante 2.71828 (base del sistema logarítmico naperiano).
es el número de éxitos.
es la probabilidad para un valor específico de x.

El número de éxitos de la media, se puede determinar con donde n es el número total


de pruebas y es la probabilidad de éxitos.

La varianza de Poisson es también igual a su media. Por ejemplo, si la probabilidad de que


un cheque cobrado en un banco rebote es de 0.003, y se cobran 10 000 cheques, entonces
la media y la varianza para el número de cheques rebotados es de 3.0, que se encontró con la
fórmula
Recuerde que para una distribución binomial existe un número fijo de pruebas. Por
ejemplo, para un examen de cuatro preguntas de opción múltiple sólo puede haber cero,
uno, dos, tres o cuatro éxitos (respuestas correctas). Sin embargo, la variable aleatoria, x,
para una distribución de Poisson, puede asumir un número infinito de valores, es decir, 0,
1, 2, 3, 4, 5... Sin embargo, las probabilidades se vuelven muy pequeñas después de los
primeros éxitos.
Para ilustrar el cálculo de la distribución de probabilidad de Poisson, suponga que en
pocas ocasiones Northwest Airlines pierde el equipaje. En la mayor parte de los vuelos no
202 Capítulo 6

se pierden maletas; en algunos se pierde una maleta; en unos cuantos se pierden dos ma-
letas; pocas veces en un vuelo se pierden tres maletas; y así sucesivamente. Suponga que
una muestra aleatoria de 1 000 vuelos presenta un total de 300 maletas perdidas. Por tan-
to, la media aritmética de maletas perdidas por vuelo es de 0.3, calculado así: 300/1 000.
Si el número de maletas perdidas sigue una distribución de Poisson con = 0.3, podemos
calcular las diferentes probabilidades utilizando la fórmula (6-7):

Por ejemplo, la probabilidad de no perder ninguna maleta es:

En otras palabras, 74% de los vuelos no tendrán maletas perdidas. La probabilidad de que
exactamente una maleta se pierda es de:

Por tanto, se esperaría encontrar exactamente una maleta perdida en 22% de los vuelos..
Las probabilidades de Poisson también se pueden encontrar en la tabla del Apéndice C.

Recuerde que en la ilustración anterior el número de maletas perdidas sigue una distribu-
ción de Poisson con un media de 0.3. Utilice el Apéndice C para encontrar la probabilidad
de que no se pierda ninguna maleta en un vuelo en particular. ¿Cuál es la probabilidad de
que exactamente una maleta se pierda en un vuelo en particular? ¿En qué momento el
supervisor determina que un vuelo presenta muchas maletas perdidas?

Una parte del Apéndice C se repite en la Tabla 6-7. Para encontrar la probabilidad de que
no haya maletas perdidas, localice la columna que tiene el encabezado "0.3" y recorra la
columna hasta encontrar la fila que tiene un "0" marcado. La probabilidad es de 0.7408.
Ésta es la probabilidad de no perder maletas. La probabilidad de que se pierda una maleta
es de 0.2222, que está en el siguiente renglón de la tabla en la misma columna. La proba-
bilidad de que se pierdan dos maletas es de 0.0333, en la fila de abajo; la de tres maletas
perdidas es de 0.0033; y de cuatro maletas es de 0.0003. Por tanto, el supervisor no
debería sorprenderse de encontrar una maleta perdida, pero rara vez debería esperar que
se pierda más de una maleta.

Tabla de Poisson para diversos valores de (del Apéndice C).

Estas probabilidades también se pueden encontrar utilizando el software MINITAB. Los


comandos necesarios se presentan al final del capítulo.

La distribución de probabilidad de Poisson siempre se representa de manera positiva.


Asimismo, la variable aleatoria de Poisson no tiene un límite específico mayor. La distribu-
Distribuciones discretas de probabilidad 203

ción de Poisson para la ilustración de las maletas perdidas, donde μ = 0.3, se representa
muy bien. Mientras más alta sea μ la distribución de Poisson se vuelve más simétrica. Por
ejemplo, la Gráfica 6-5 muestra las distribuciones del número de servicios de transmisión,
los reemplazos de mofle y los cambios de aceite por día en Avellino's Auto Shop. Éstos si-
guen una distribución de Poisson con medias de 0.7, 2.0 y 6.0, respectivamente.

GRÁFICA 6-5 Distribución de la probabilidad de Poisson para medias de 0.7, 2.0 y 6.0

Sólo se necesita ¡i para En resumen, la distribución de Poisson es en realidad una familia de distribuciones
construir Poisson discretas. Lo único que se necesita para construir una distribución de probabilidad de Poisson
es el número medio de defectos, errores, etcétera, designados como ¡x.

Autoevaluación 6-6 A partir de las tablas de actuaría, Washington Insurance Company determinó que la probabi-
lidad de que un hombre de 25 años muera en el transcurso del próximo año es de 0.0002. Si
Washington Insurance vende 4 000 pólizas a hombres de 25 años durante este año, ¿cuál es
la probabilidad de que paguen una póliza exactamente?

31. En una distribución de Poisson μ = 0.4.


a. ¿Cuál es la probabilidad de que x = 0? b. ¿Cuál es la probabilidad de que x> 0?
32. En una distribución de Poisson μ = 4.
a. ¿Cuál es la probabilidad de que x= 2?
b. ¿Cuál es la probabilidad de que x≤ 2?
c. ¿Cuál es la probabilidad de que x > 2?
33. La señorita Bergen es ejecutiva de préstamos del Coast Bank and Trust. Por sus años de
experiencia, ella calcula que la probabilidad de que un solicitante no pueda pagar su prés-
tamo inicial es de 0.025. El mes pasado ella realizó 40 préstamos.
a. ¿Cuál es la probabilidad de que no se paguen 3 préstamos?
b. ¿Cuál es la probabilidad de que por lo menos 3 préstamos queden sin pagar?
34. Los automóviles llegan a la salida de Elkhart de la autopista de Indiana en un promedio de
2 por minuto. La distribución de llegadas se aproxima a una distribución de Poisson.
a. ¿Cuál es la probabilidad de que ningún automóvil llegue en un minuto en particular?
b. ¿Cuál es la probabilidad de que llegue por lo menos un automóvil en un minuto en par
ticular?
35. Se calcula que 0.5% de quienes llaman al departamento de Servicios al Cliente de Dell, Inc.
recibirán una señal de línea ocupada. ¿Cuál es la probabilidad de que de los 1 200 indivi-
duos que llamaron el día de hoy, por lo menos 5 hayan recibido una señal de línea ocupada?
36. Los autores de los libros de texto y las editoriales trabajan mucho para minimizar el número
de errores en un libro. Sin embargo, algunos errores son inevitables. El señor J. A. Carmen,
editor de estadística, reporta que el número promedio de errores por capítulo es de 0.8. ¿Cuál
es la probabilidad de que se presenten menos de 2 errores en un capítulo en particular?
204 Capítulo 6

Resumen del capítulo


I. Una variable aleatoria es un valor determinado por el resultado de un experimento.
II. Una distribución de probabilidad es un listado de todos los resultados posibles de un
experimento y la probabilidad asociada con cada resultado.
A. Una distribución de probabilidad discreta puede asumir sólo ciertos valores. Las
características principales son;
1. La suma de las probabilidades es de 1.00.
2. La probabilidad de un resultado en particular oscila entre 0.00 y 1.00.
3. Los resultados son mutuamente excluyentes.
B. Una distribución continua puede asumir un número infinito de valores en un rango
específico.
III. La media y la varianza de una distribución de probabilidad se calculan de la siguiente
manera:
A. La media es igual a:

B. La varianza es igual a:

IV. La distribución binomial tiene las siguientes características:


A. Cada resultado se clasifica en una de dos categorías mutuamente excluyentes.
B. La distribución resulta de contar el número de éxitos en un número fijo de pruebas.
C. La probabilidad de un éxito permanece igual en todas las pruebas.
D. Cada prueba es independiente.
E. Una probabilidad binomial se determina de la siguiente manera:

F. La media se calcula de la siguiente manera:

G. La varianza es la siguiente:

V. La distribución de probabilidad hipergeométrica tiene las siguientes características:


A. Sólo existen dos resultados posibles.
B. La probabilidad de un éxito no es la misma para cada prueba.
C. La distribución resulta de contar el número de éxitos en un número fijo de pruebas.
D. Se utiliza al tomar muestras sin reemplazo de una población finita.
E. Una probabilidad hipergeométrica se calcula con la siguiente ecuación:

VI. La distribución de Poisson tiene las siguientes características:


A. Describe el número de veces que un evento ocurre durante un intervalo específico.
B. La probabilidad de un "éxito" es proporcional a la duración del intervalo.
C. Los intervalos son independientes.
D. Es una forma limitante de la distribución binomial cuando n es grande y π es pequeño.
E. Se utiliza cuando el tamaño de la muestra es mayor que 5% del tamaño de la población.
F. Una probabilidad de Poisson se determina con la siguiente ecuación:

6. La media y la varianza son las siguientes:


Distribuciones discretas de probabilidad 205

Ejercicios del capítulo


37. ¿Cuál es la diferencia entre una variable aleatoria y una distribución de probabilidad?
38. En cada uno de los siguientes incisos indique si la variable aleatoria es discreta o continua:
a. La duración de tiempo de un corte de cabello
b. El numero de automóviles que un corredor pasa todas las mañanas mientras corre
c. El numero de hits de un equipo femenil de preparatoria en un juego de softbol
d. El numero de pacientes atendidos por noche en el South Strand Medical Center entre
las 6 y las 10 P M
e. El numero de millas que su automóvil recomo con el ultimo tanque de gasolina
f. El numero de clientes de Wendy's que utilizaron las instalaciones en Oak Street
g. La distancia entre Gainesville, Florida, y todas las ciudades de Florida que tienen una
población por lo menos 50 000 habitantes
39. ¿Cuáles son los requisitos de una distribución de probabilidad binomial?
40. ¿En que condiciones las distribuciones de probabilidad binomial y la de Poisson dan los mis
mos resultados?
41. Samson Apartments, Inc tiene un gran numero de unidades disponibles para rentar cada
mes Una de las preocupaciones de la administración es el numero de departamentos
vacantes al mes Un estudio reciente revelo el porcentaje de tiempo que un número deter-
minado de departamentos pasa sin ocuparse Calcule la media y la desviación estándar de
los departamentos vacantes

42. Una inversión producirá $1 000, $2 000 o $5 000 al final del año. Las probabilidades de
estos valores son 0.25, 0.60 y 0.15, respectivamente. Determine la media y la varianza del
valor de la inversión.
43. El gerente de personal de Cumberland Pig Iron Company estudia el número de los acci-
dentes laborales durante un mes y desarrolló la siguiente distribución de probabilidad.
Calcule la medía, la varianza y la desviación estándar del número de accidentes en un mes.

44. Croissant Bakery Inc. ofrece pasteles con decorados especiales para cumpleaños, bodas y
otras ocasiones. La pastelería también tiene pasteles regulares. La siguiente tabla propor-
ciona el número total de pasteles vendidos por día y la probabilidad correspondiente. Calcule
la media, la varianza y la desviación estándar del número de pasteles vendidos por día.

45. Una máquina de esquila Tamiami produce 10% de piezas defectuosas, porcentaje que
resulta demasiado alto. El ingeniero de control de calidad revisa los resultados en casi todas
las muestras desde que detectó esta condición anormal. ¿Cuál es la probabilidad de que,
en una muestra de 10 piezas,
206 Capítulo 6

a. exactamente 5 estén defectuosas?


b. 5 o más estén defectuosas?
46. Del total de la población en una comunidad del suroeste de Estados Unidos 30% son esta-
dounidenses hispanoparlantes. Se acusó a un hispanoparlante de haber matado a un es
tadounidense que no hablaba español. De los primeros 12 jurados potenciales, sólo 2 son
estadounidenses hispanoparlantes y 10 no lo son. El abogado de la defensa se muestra en
contra de la elección del jurado, pues afirma que habrá un sesgo en contra de su cliente. El
fiscal no está de acuerdo y argumenta que la probabilidad de esta composición del jurado
es común. ¿Usted qué opina?
47. Un auditor de Health Maintenance Services of Georgia reporta que 40% de los asegurados
de 55 años de edad y mayores utilizan la póliza durante el año. Para los registros de la com-
pañía, se seleccionaron al azar quince asegurados.
a. ¿Cuántos asegurados cree que utilizaron la póliza durante el año pasado?
b. ¿Cuál es la probabilidad de que diez de los asegurados seleccionados hayan utilizado
la póliza el año pasado?
c. ¿Cuál es la probabilidad de que diez o más de los asegurados seleccionados hayan
usado la póliza el año pasado?
d. ¿Cuál es la probabilidad de que más de diez de los asegurados seleccionados hayan
usado la póliza el año pasado?
48. Tire and Auto Supply considera una división de 2 por 1 en el inventario. Antes de que fina
lice la transacción, por lo menos dos terceras partes de los 1 200 accionistas de la compa-
ñía deben aprobar la oferta. Para evaluar la probabilidad de que la oferta se apruebe, el
director de finanzas seleccionó una muestra de 18 accionistas. Contactó a cada uno de ellos
y encontró que 14 aprobaron la división ofrecida. ¿Cuál es la probabilidad de este evento,
suponiendo que dos terceras partes de los accionistas den su aprobación?
49. Un estudio federal reportó que 7.5% de la fuerza laboral de Estados Unidos tiene problemas
de drogadicción. Un oficial antidrogas para el estado de Indiana quiso investigar esta afir-
mación. En su muestra de 20 trabajadores:
a. ¿Cuántos empleados cree usted que presenten problemas de drogadicción? ¿Cuál es
la desviación estándar?
b. ¿Cuál es la probabilidad de que ninguno de los empleados de la muestra presente pro-
blemas de drogadicción?
c. ¿Cuál es la probabilidad de que al menos uno de los empleados de la muestra presente
problemas de drogadicción?
50. El Banco de Hawai reporta que 7% de sus clientes con tarjeta de crédito dejará de pagar en
algún momento. La sucursal de Hilo ya envió por correo 12 tarjetas nuevas el día de hoy.
a. ¿Cuántos clientes piensa que dejarán de pagar? ¿Cuál es la desviación estándar?
b. ¿Cuál es la probabilidad de que ninguno de los clientes deje de pagar?
c. ¿Cuál es la probabilidad de que al menos uno de los clientes deje de pagar?
51. Las estadísticas recientes sugieren que 15% de las personas que visitan un sitio de ventas
al detalle en la web realiza una compra. Un detallista desea verificar esta demanda. Para
hacerlo, seleccionó una muestra de 16 visitantes en su sitio y encontró que en realidad 4
realizaron una compra.
a. ¿Cuál es la probabilidad de que se realicen exactamente 4 compras?
b. ¿Cuántas compras debería considerar el detallista?
c. ¿Cuál es la probabilidad de que cuatro o más visitas resulten en una compra?
52. En el Capítulo 17 estudiamos la muestra de aceptación. El muestreo de aceptación se uti-
liza para supervisar la calidad de la materia prima que entra. Suponga que un comprador de
componentes electrónicos permite que 1 % de los componentes esté defectuoso. Para ase-
gurar la calidad de las partes que entran, casi siempre toman de muestra 20 partes y per-
miten un defecto.
a. ¿Cuál es la probabilidad de aceptar un lote que tenga 1% de defectos?
b. Si la calidad del lote recibido fue en realidad de 2%, ¿cuál es la probabilidad de que lo
acepten?
c. Si la calidad del lote recibido fue en realidad de 5%, ¿cuál es la probabilidad de que lo
acepten?
53. Hace poco, Colgate Palmolive Inc., desarrolló una nueva pasta para dientes con sabor a
miel. Se probó en un grupo de diez personas. Seis de ellas dijeron que les gustó el nuevo
sabor y las cuatro restantes dijeron que no les gustó. Cuatro de las diez personas se eligie-
Distribuciones discretas de probabilidad 207

ron para participar en una entrevista ¿Cual es la probabilidad de que de los seleccionados
7
para la entrevista dos aprueben el nuevo sabor y dos no lo aprueben
54. La doctora Richmond, una psicóloga estudia los hábitos de los estudiantes de preparatoria de
ver la televisión durante el día Ella cree que 45% de los estudiantes de preparatoria ve tele
novelas durante la tarde Para investigar mas a profundidad, selecciono una muestra de 10
a. Desarrolle una distribución de probabilidad para el numero de estudiantes de la mues-
tra que ve telenovelas
b. Encuentre la media y la desviación estándar de esta distribución
c ¿Cual es la probabilidad de encontrar exactamente cuatro estudiantes que ven teleno-
ve las?
d. ¿Cual es la probabilidad de que menos de la mitad de los estudiantes seleccionados
7
vean telenovelas
55. Un estudio reciente realizado por Penn, Shone y Borland, para LastMmute com, reveló que
52% de los viajeros de negocios planea su viaje en menos de dos semanas antes de su sa
lida El estudio se repitió en una zona de tres estados con una muestra de 12 viajeros de
negocios frecuentes
a. Desarrolle una distribución de probabilidad para el numero de viajeros que planea sus
viajes durante las dos semanas previas a su salida
b. Encuentre la media y la desviación estándar de esta distribución
c ¿Cual es la probabilidad de que exactamente 5 de los 12 viajeros de negocios selec-
7
cionados planeen sus viajes durante las dos semanas previas a su salida
d. ¿Cual es la probabilidad de que exactamente 5 o menos de los 12 viajeros de negocios
7
seleccionados planeen sus viajes durante las dos semanas previas a su salida
56. Suponga que 5 de 25 automóviles subcompactos de Ford requieren de un ajuste Se selec-
cionaron al azar cuatro subcampactos y queremos saber la probabilidad de que exacta-
mente uno requiera de un ajuste
a. Resuelva el problema suponiendo que las muestras se obtuvieron de los 25 subcom-
pactos sin reemplazos
b. Resuelva el problema suponiendo que el muestreo se realizo sin reemplazos
c. Suponiendo que hubo reemplazos, resuelva el problema utilizando la distribución de
Poisson
d. Compare los resultados de los incisos a, b y c Comente sus descubrimientos
57. El despacho de abogados de Hagel and Hagel se localiza en el centro de Cincinnati Existen
10 socios en la compañía siete viven en Ohio y tres en el norte de Kentucky La señorita
Wendy Hagel, socia administradora, desea reunir un comité de tres socios para conocer las
probabilidades de mudar el despacho al norte de Kentucky Si el comité se selecciona al
azar entre los diez socios ¿cual es la probabilidad de que
7
a. un miembro del comité viva en el norte de Kentucky y los otros vivan en Ohio
7
b. por lo menos un miembro del comité viva en el norte de Kentucky
58 Una información reciente publicada por la Agencia de Protección Ambiental de Estados Uni-
dos indica que Honda es el fabricante de cuatro de los nueve vehículos que mas ahorran
gasolina
a Determine la distribución de probabilidad para el numero de autos Honda en una mues-
tra de tres automóviles elegidos de la lista de los nueve
b ¿Cual es la probabilidad de que en una muestra de tres por lo menos se incluya un
7
Honda
59. El puesto de jefe de policía en la ciudad de Corry, Pennsylvama, esta vacante Un comité
de búsqueda formado por los residentes de Corry tiene la responsabilidad de recomendar al
alcalde de la ciudad a un nuevo jefe de policía Existen 12 candidatos, 4 de los cuales son
mujeres o miembros de una minoría El comité de búsqueda decide entrevistara los 12 can-
didatos Primero seleccionaron al azar a cuatro candidatos para entrevistarlos el primer día,
y ninguno de los cuatro resulto ser mujer ni miembro de una minoría El periódico local,
Corry Press sugiere la discriminación en una de sus columnas editoriales ¿Cuál es la
probabilidad de que la haya?
60. Una caja de seis tubos eléctricos para el cabello incluye dos que no funcionan correcta
mente Se seleccionaron 3 tubos de la caja
a. ¿Cual es la probabilidad de que uno no funcione correctamente?
b. ¿Cual es la probabilidad de que dos de los tres tubos seleccionados no funcionen
7
correctamente
208 Capitulo 6

61. Las ventas de los automóviles Lexus en la zona de Detroit siguen una distribución de
Poisson con una media de 3 por día.
a. ¿Cuál es la probabilidad de que ningún Lexus se venda en un día en particular?
b. ¿Cuál es la probabilidad de que durante 5 días consecutivos se venda por lo menos un
Lexus?
62. Suponga que 1.5% de las antenas de los nuevos teléfonos Nokia están defectuosas. Para
una muestra aleatoria de 200 antenas, encuentre la probabilidad de que:
a. Ninguna de las antenas esté defectuosa.
b. Tres antenas o más estén defectuosas.
63. Un estudio de las filas en las cajas registradoras de Safeway Supermarket en la zona de
South Strand reveló que entre 4 y 7 P.M., los fines de semana existe un promedio de cua-
tro clientes formados. ¿Cuál es la probabilidad de que usted visite Safeway a esa hora
durante este semestre y encuentre que:
a. no hay clientes esperando?
b. hay cuatro clientes esperando?
c. cuatro clientes o menos están esperando?
d. cuatro clientes o más están esperando?
64. Un estudio interno de Lahey Electronics, una compañía grande de desarrollo de software, reve-
ló que el tiempo promedio que tarda un correo electrónico en llegar a su destinatario fue de 2
segundos. Además, la distribución de los tiempos de llegada siguió la distribución de Poisson.
a. ¿Cuál es la probabilidad de que un mensaje tarde exactamente un segundo en llegar a
su destinatario?
b. ¿Cuál es la probabilidad de que un mensaje tarde más de cuatro segundos en llegar a
su destinatario?
c. ¿Cuál es la probabilidad de que un mensaje no tarde casi nada, por ejemplo "cero"
segundos, en llegar a su destinatario?
65. Los reportes de crímenes recientes indican que 3.1 de los robos de vehículos motorizados
ocurren cada minuto en Estados Unidos. Suponga que la distribución de los robos por mi-
nuto puede calcularse con la distribución de probabilidad de Poisson.
a. Calcule la probabilidad de que ocurran cuatro robos exactamente en un minuto.
b. ¿Cuál es la probabilidad de que no ocurran robos en un minuto?
c. ¿Cuál es la probabilidad de que por lo menos ocurra un robo en un minuto?
66. New Process Inc., un proveedor grande de ropa para dama que ofrece ventas por correo,
anuncia servicios de entrega inmediata en todos sus pedidos. Recientemente el surtido de
pedidos no ha funcionado como se había planeado, y se presentó un gran número de quejas.
Bud Owens, director del servicio a clientes, rediseñó por completo el método para manejar
los pedidos. La meta es tener menos de cinco pedidos sin surtir al final de 95% de los días
hábiles. Las revisiones frecuentes de los pedidos sin surtir al final del día revelaron que la dis-
tribución de éstos seguía una distribución de Poisson con una media de dos pedidos.
a. ¿New Process, Inc. alcanzó las metas internas deseadas? Mencione las pruebas.
b. Dibuje un histograma que represente la distribución de la probabilidad de Poisson de
los pedidos sin surtir.
67. La NASA ha experimentado dos desastres. El Challenger explotó sobre el Océano Atlántico
en 1986 y el Columbia explotó sobre el este de Texas en 2003. Se han realizado un total de
113 misiones espaciales. Utilice la distribución de Poisson para calcular la probabilidad de
exactamente dos fallas. ¿Cuál es la probabilidad de que no existan fallas?
68. De acuerdo con la "teoría de enero", si el mercado accionario sube durante el mes de enero,
entonces seguirá aumentando todo el año. Si no sube en enero, no lo hará durante el año. De
acuerdo con un artículo de The Wall Street Journal, esta teoría aplicó para 29 de los últimos
34 años. Suponga que esta teoría es falsa. ¿Cuál es la probabilidad de que esto suceda por
casualidad? (Probablemente va a necesitar un paquete de software como Excel o MINITAB.)
69. Durante la segunda ronda del torneo abierto de golf en Estados Unidos de 1989, cuatro
jugadores registraron un hoyo en uno al jugar el sexto hoyo. Se calcula que la probabilidad de
que un jugador profesional de golf registre un hoyo en uno es de 3 708 a 1, por tanto la proba
bilidad es de 1/3 709. Ese día, 155 jugadores de golf participaron en la segunda ronda. Calcule
la probabilidad de que cuatro jugadores de golf registren un hoyo en uno al jugar el sexto hoyo.
70. El 18 de septiembre del 2003, el huracán Isabel azotó la costa de Carolina del Norte provo-
cando muchos daños. Varios días antes de tocar tierra, el Centro Nacional de Huracanes
pronosticó que el huracán llegaría a las costas que se encuentran entre Cape Fear, Carolina
Distribuciones discretas de probabilidad 209

del Norte y la frontera de Carolina del Norte con Virginia. Se calculó que la probabilidad de
que el huracán azotara esta zona era de 0.95. De hecho, el huracán llegó a la orilla casi
exactamente como se pronosticó y estuvo en el centro de la zona afectada. Suponga que
el Centro Nacional de Huracanes pronostica que los huracanes azotarán la zona afectada
con un 0.95 de probabilidad. Responda las siguientes preguntas:
a. ¿Qué distribución de la probabilidad se aplica en este caso?
b. ¿Cuál es la probabilidad de que 10 huracanes toquen tierra en la zona afectada?
c. ¿Cuál es la probabilidad de que por lo menos 10 huracanes toquen tierra fuera de la
zona afectada?
71. Un estudio reciente de CBS News reportó que 67% de los adultos cree que el Departamento
del Tesoro de Estados Unidos debería seguir acuñando monedas de un centavo.

Suponga que se selecciona una muestra de quince adultos.


a. ¿Cuántos de ellos podemos esperar que indiquen que el Departamento del Tesoro
debe seguir acuñando monedas de un centavo? ¿Cuál es la desviación estándar?
b. ¿Cuál es la probabilidad de que exactamente 8 adultos indiquen que el Departamento
del Tesoro debe seguir acuñando monedas de un centavo?
c. ¿Cuál es la probabilidad de que por lo menos 8 adultos indiquen que el Departamento
debe seguir acuñando estas monedas?

Ejercicios de la base de datos


72. Consulte los datos Real Estate, que proporcionan información sobre las casas vendidas en
el área de Denver, Colorado, el año pasado.
a. Elabore una distribución de probabilidad para el número de habitaciones. Calcule la me
dia y la desviación estándar de esta distribución.
b. Elabore una distribución de probabilidad para el número de baños. Calcule la media y
la desviación estándar de esta distribución.
73. Consulte los datos Baseball 2002, que proporcionan información sobre la temporada de béis-
bol de las Ligas Mayores de 2002. Había 30 equipos y 5 de ellos tenían canchas caseras con
pasto artificial. Como parte de las negociaciones con el sindicato de jugadores, se realizará un
estudio de los daños en superficies de pasto natural comparadas con las de superficies de
pasto artificial. Se seleccionará al azar a cinco equipos. ¿Cuál es la probabilidad de que dos
de los cinco equipos seleccionados para el estudio jueguen en pasto artificial?

Comandos de software
1. Los comandos de MegaStat para crear la distribución
de la probabilidad binomial de la página 192 son:
a. Seleccione la opción MegaStat en la barra de he
rramientas, haga clic en Probability y en Discrete
Probability Distributions
b. En el cuadro de diálogo, seleccione Binomial, el
número de pruebas es 6, la probabilidad de un éxi
to es de 0.05. Si desea ver una gráfica, haga clic en
display graph.
210 Capítulo 6

2. Los comandos de Excel necesarios para determinar la d. En el segundo cuadro de diálogo seleccione los
distribución de probabilidad binomial de la página 193 cuatro elementos necesarios para calcular una pro-
son: babilidad hipergeométrica.
a. En una hoja de cálculo en blanco de Excel escriba 1. Introduzca 0 para el número de éxitos.
la palabra Éxito en la celda A1 y la palabra Proba- 2. Introduzca 5 para el número de pruebas.
bilidad en la celda B1. En la celdas A2 a A14 escri- 3. Introduzca 40 para la probabilidad de éxitos en
ba los números enteros del 0 al 12. Mantenga B2 una población.
como la celda activa. 4. Introduzca 50 para el tamaño de la población y
b. De la barra de herramientas seleccione Insert y haga clic en OK.
Functlon Wizard. 5. Excel calculará la probabilidad de 0 éxitos en 5
c. En el primer cuadro de texto seleccione Statistical pruebas (0.000118937) y almacenará el resulta
en la categoría de función y BINOMDIST en la cat- do en la celda B2.
egoría del nombre de la función, luego haga clic en e. Para encontrar la distribución de probabilidad com-
OK. pleta vaya a la barra de fórmulas y reemplace el 0
d. En el segundo cuadro de texto introduzca los cua- que está a la derecha del paréntesis abierto con
tro elementos necesarios para calcular una proba D6.D11.
bilidad binomial. f. Mueva el ratón hacia la esquina inferior derecha de
1. Introduzca 0 para el número de éxitos. la celda E6 y seleccione la columna B para la celda
2. Introduzca 40 para el número de pruebas. E11. Aparecerá la probabilidad de un éxito para los
3. Introduzca .09 para la probabilidad de un éxito. diferentes resultados.
4. Introduzca la palabra falso o el número 0 para
las probabilidades individuales y haga clic en
OK
5. Excel calculará la probabilidad de 0 éxitos en 40
pruebas, con una probabilidad de 0.09 de éxitos.
El resultado 0.02299618 se almacena en la cel
da B2.
e. Para encontrar la distribución de probabilidad com-
pleta vaya a la barra de fórmulas y reemplace el 0
que está a la derecha del paréntesis abierto con
A2;A14.
f. Mueva el ratón hacia la esquina inferior derecha de
la celda B2 y seleccione la columna B para la celda
4. Los comandos de MINITAB para generar la distribución
B14. Aparecerá la probabilidad de un éxito para los
de Poisson, de la página 202, son:
diferentes valores de la variable aleatoria.
a. Escriba la palabra Éxito en la columna C1 y la pa-
labra Probabilidad en la C2. En la primera columna
escriba los números enteros del 0 al 5.
b. Seleccione Cale, después Probability Distribu-
tions y Poisson.
c. En el cuadro de diálogo, haga clic en Probability,
establezca la media igual a .3 y seleccione C1 co-
mo la columna de entrada. Designe a C2 como la
columna de almacenamiento opcional, luego haga
clic en OK.

3. Los comandos de Excel necesarios para determinar la


distribución hipergeométrica de la página 200 son:
a. En una hoja de cálculo en blanco de Excel escriba
la palabra Éxito en la celda D5 y la palabra Proba
bilidad en la celda E5. En las celdas D6 a la D11
escriba los números enteros del 0 al 5. Introduzca
E6 como la celda activa.
b. En la barra de herramientas, seleccione Insert y
Function.
c. En el primer cuadro de diálogo seleccione Statisti
cal y HYPGEOMDIST, luego haga clic en OK.
Distribuciones discretas de probabilidad 211

C a p i t u l o 6 . Respuesta a las autoevaluaciones


Distribuciones
de probabilidad
continua

La mayor parte de las tiendas detallistas ofrecen sus propias tarjetas de crédito. En el
momento en que se solicita el crédito, el cliente se hace acreedor a un descuento de 10%
sobre su compra. El tiempo que toma llenar la solicitud de crédito sigue una distribución uni-
forme cuya duración varía entre 4 y 10 minutos. ¿Cuál es la desviación estándar para el
tiempo que dura el proceso? (Vea la Meta 2 y el Ejercicio 35.)
Distribuciones de probabilidad continua 213

Introducción
En el Capítulo 6 se inició el estudio de las distribuciones de probabilidad. Consideramos tres
distribuciones de probabilidad discreta: binomial, hipergeométrica y de Poisson. Estas distri-
buciones se basan en variables aleatorias discretas, que pueden suponer sólo valores clara-
mente separados. Por ejemplo, para un estudio, seleccionamos 10 pequeñas empresas que
iniciaron operaciones durante el año 2000. El número de las que aún están operando en el
2004 puede ser 0, 1, 2,.... 10. No puede haber 3.7, 12 ni -7 operando todavía en 2004. En es-
te ejemplo, sólo son posibles algunos resultados y están representados por valores claramen-
te separados. Además, por lo regular, el resultado se encuentra contando el número de éxitos.
Contamos el número de empresas incluidas en el estudio que todavía operan en 2004.
En este capítulo, continuamos con nuestro estudio de distribuciones de probabilidad ana-
lizando distribuciones de probabilidad continua, que por lo regular, resulta de medir algo; por
ejemplo, la distancia del dormitorio al salón de clases, el peso de una persona o la cantidad
de bonos que perciben los directores generales de empresas. Supongamos que selecciona-
mos cinco estudiantes y encontramos que la distancia que viajan, en millas, para asistir a cla-
ses es 12.2, 8.9, 6.7, 3.6 y 14.6. Cuando analizamos una distribución continua, casi siempre
nos interesa encontrar información como el porcentaje de estudiantes que viajan menos de
10 millas o el porcentaje de aquellos que viajan más de 8. En otras palabras, para una distri-
bución continua tal vez queremos conocer el número de observaciones que tienen lugar den-
tro de cierto rango. Por tanto, pensamos en la probabilidad de que una variable tenga un valor
dentro de un rango específico, más que en la probabilidad de un valor específico.
Consideramos dos familias de distribuciones de la probabilidad continua; la distribu-
ción de probabilidad uniforme y la distribución de probabilidad normal. Estas distribu-
ciones describen la posibilidad de que una variable aleatoria continua que tiene un número
infinito de valores posibles se encuentre dentro de un rango específico. Suponga, por ejem-
plo, que el tiempo para entrar a la página de McGraw-Hill en la red (www.mhhe.com) tiene
una distribución uniforme con un tiempo mínimo de 20 milésimas de segundo y un tiempo
máximo de sesenta milésimas de segundo. Entonces podemos determinar la probabilidad
de poder entrar en la página en 30 milésimas de segundo o menos. El tiempo de acceso se
mide en una escala continua.
La segunda distribución continua que analizamos en este capítulo es la distribución de
la probabilidad normal. La distribución normal se describe por su media y su desviación es-
tándar. Suponga, por ejemplo, que la vida útil de una batería Energizer tamaño C sigue una
distribución normal con una media de 45 horas y una desviación estándar de 10 horas cuan-
do se utiliza en un juguete en particular. Podemos determinar la posibilidad de que la bate-
ría dure más de 50 horas, entre 35 y 62 horas, o menos de 39 horas. La vida útil de la
batería se mide en una escala continua.

La familia de la distribución uniforme


La distribución de probabilidad uniforme es tal vez la distribución más sencilla para una va-
riable aleatoria continua. Esta distribución es rectangular en su configuración y se define por
medio de valores mínimo y máximo. A continuación presentamos algunos ejemplos que si-
guen una distribución uniforme.
• El tiempo para viajar en una aerolínea comercial
de Orlando, Florida, a Atlanta, Georgia, varía de
60 a 120 minutos. La variable aleatoria es el
tiempo de vuelo dentro de este intervalo. Obser-
ve que la variable de interés, tiempo de vuelo en
minutos, es continua dentro del intervalo de 60
a 120 minutos.
• Los voluntarios en la biblioteca pública Grand
Strand elaboran formas de impuestos sobre la
renta. El tiempo que lleva preparar la forma
1040-EZ, del gobierno estadounidense, sigue
una distribución uniforme en el intervalo de entre
214 Capítulo 7

10 y 30 minutos. La variable aleatoria es el número de minutos para terminar la forma,


puede suponer cualquier valor entre 10 y 30.

En la Gráfica 7-1 se muestra una distribución uniforme. La forma de la distribución es rec-


tangular y tiene un valor mínimo de a y uno máximo de b. Observe también en la Gráfica 7-
1 que la altura de la distribución es constante o uniforme para todos los valores entre a y b.
Esto implica que los valores dentro del rango son igualmente probables.

Una distribución continua uniforme

La media de una distribución uniforme se localiza en la mitad del intervalo entre los va-
lores mínimo y máximo. Se calcula como:

La desviación estándar describe la dispersión de una distribución. En la distribución unifor-


me, la desviación estándar también está relacionada con el intervalo entre los valores má-
ximo y mínimo.

La altura de la distribución, P(x), es igual para todos los valores de la variable aleatoria, x. La
altura de la distribución de probabilidad uniforme se puede calcular como:

Como se mostró en el Capítulo 6, las distribuciones de probabilidad son útiles para ha-
cer afirmaciones de probabilidad concernientes a los valores de una variable aleatoria. Pa-
ra distribuciones que describen una variable aleatoria continua, las áreas dentro de la
distribución representan probabilidades. En la distribución uniforme, su forma rectangular
nos permite aplicar la fórmula de área para un rectángulo. Recuerde que el área de un rec-
tángulo la encontramos al multiplicar su longitud por su altura. Para la distribución uniforme,
la altura del rectángulo es P(x), es decir, 1/(b - a). La longitud o base de la distribución es b-
a. Observe que si multiplicamos la altura de la distribución por la totalidad de su rango con
objeto de encontrar el área, el resultado siempre es 1.00. En otras palabras, el área total
dentro de una distribución de probabilidad continua es igual a 1.00. En términos generales:
Distribuciones de probabilidad continua 215

Por consiguiente, si una distribución uniforme varía entre 10 y 15, la altura es 0.20, que calcu-
lamos así: 1/(15 - 10). La base es 5, que se encuentra por medio de 15 - 10. El área total es:

Un ejemplo ilustra las características de una distribución uniforme y cómo calculamos pro-
babilidades utilizándola.

Southwest Arizona State University proporciona servicio de transporte en autobús a los es-
tudiantes mientras se encuentran en el campus. Durante los días hábiles, un autobús llega
a la parada ubicada en la esquina de la calle North Main y College Drive cada 30 minutos
entre las 6 A.M. y las 11 P.M. Los estudiantes llegan a la parada del autobús a horas alea-
torias. El tiempo que espera un estudiante tiene una distribución uniforme de 0 a 30 minutos.

1. Elabore una gráfica de esta distribución.


2. Demuestre que el área de esta distribución uniforme es 1.00.
3. ¿Cuánto tendrá que esperar "por lo general" un estudiante el autobús? En otras pala-
bras, ¿cuál es el tiempo de espera medio? ¿Cuál es la desviación estándar de los tiem-
pos de espera? .
4. ¿Cuál es la probabilidad de que un estudiante tenga que esperar más de 25 minutos?
5. ¿Cuál es la probabilidad de que un estudiante espere entre 10 y 20 minutos?

En este caso, la variable aleatoria es el tiempo que un estudiante tiene que esperar. El tiem-
po se mide en una escala continua,,y los tiempos de espera pueden vahar de 0 hasta 30
minutos.

1. En la Gráfica 7-2 se ¡lustra la distribución uniforme. La línea horizontal se dibuja a una


altura de 0.0333, que se encuentra al dividir 1/(30 - 0). El rango de esta distribución es
30 minutos.

Distribución de probabilidad uniforme de los tiempos de espera de los estudiantes

2. Las veces que un estudiante tiene que esperar el autobús es uniforme a lo largo del in-
tervalo de 0 a 30 minutos, por tanto en este caso a es 0 y b es 30.

3. Para encontrar la media, utilizamos la fórmula (7-1).

La media de la distribución es 15 minutos, por consiguiente el tiempo de espera típico


para el servicio de autobús es 15 minutos.
216 Capítulo 7

Para encontrar la desviación estándar de los tiempos de espera, utilizamos la fórmula

La desviación estándar de la distribución es 8.66 minutos y mide la variación en los


tiempos de espera del estudiante.
El área dentro de la distribución para el intervalo, 25 a 30, representa esta probabilidad
en particular. A partir de la fórmula de área:

Así, la probabilidad de que un estudiante espere entre 25 y 30 minutos es 0.1667. Esta


conclusión se muestra mediante la siguiente gráfica.

5. El área dentro de la distribución para el intervalo, 10 a 20, representa la probabilidad.

Esta probabilidad se ilustra como sigue:

Autoevaluación 7-1 Los perros pastores australianos tienen una vida relativamente corta. La duración de su vida
sigue una distribución uniforme entre 8 y 14 años.
(a) Elabore esta distribución uniforme. ¿Cuáles son los valores de altura y base?
(b) Demuestre que el área total debajo de la curva es 1.00.
(c) Calcule la media y la desviación estándar de esta distribución.
(d) ¿Cuál es la probabilidad de que un perro en particular viva entre 10 y 14 años?
(e) ¿Cuál es la probabilidad de que un perro viva menos de 9 años?

Ejercicios
1. Una distribución uniforme se define sobre el intervalo de 6 a 10.
a. ¿Cuáles son los valores para a y b?
b. ¿Cuál es la media de esta distribución uniforme?
c. ¿Cuál es la desviación estándar?
d. Demuestre que el área total es 1.00.
Distribuciones de probabilidad continua 217

e. Encuentre la probabilidad de un valor mayor que 7.-


f. Encuentre la probabilidad de un valor entre 7 y 9.
2. Una distribución uniforme se define a lo largo del intervalo de 2 a 5.
a. ¿Cuáles son los valores para a y b?
b. ¿Cuál es la media de esta distribución uniforme?
c. ¿Cuál es la desviación estándar?
d. Demuestre que el área total es 1.00.
e. Encuentre la probabilidad de un valor mayor que 2.6.
f. Encuentre la probabilidad de un valor entre 2.9 y 3.7.
3. America West Airlines informa que el tiempo de vuelo del Aeropuerto Internacional de Los
Ángeles a Las Vegas es de una hora con cinco minutos, o 65 minutos. Suponga que el tiem-
po de vuelo real tiene una distribución uniforme entre 60 y 70 minutos.
a. Muestre una gráfica de la distribución de probabilidad continua.
b. ¿Cuál es el tiempo medio de vuelo? ¿Cuál es la varianza de los tiempos de vuelo?
c. ¿Cuál es la probabilidad de que el tiempo de vuelo sea menor de 68 minutos?
d. ¿Cuál es la probabilidad de que el vuelo tome más de 64 minutos?
4. Según el Insurance Institute of America, una familia de cuatro miembros gasta entre $400 y
$3 800 al año en todo tipo de seguros. Suponga que el dinero gastado tiene una distribución
uniforme entre estas cantidades.
a. ¿Cuál es el monto medio gastado en seguros?
b. ¿Cuál es la desviación estándar del monto gastado?
c. Si escogemos una familia al azar, ¿cuál es la probabilidad de que gaste menos de $2 000
al año en seguros?
d. ¿Cuál es la probabilidad de que una familia gaste más de $3 000 al año?

La familia de las distribuciones


de probabilidad normal
A continuación, consideramos la distribución de probabilidad normal. A diferencia de la distri-
bución uniforme [vea la fórmula (7-3)], la distribución de probabilidad normal tiene una fórmula
muy compleja.

Sin embargo, no se moleste en discernir qué tan compleja es esta fórmula. Usted ya conoce
muchos de los valores. Los símbolos se refieren, como suele ocurrir, a la media y a la
desviación estándar. El valor de es la constante matemática de 3.1416, que conoció en
el álgebra del bachillerato. La letra e también es una constante matemática. Es la base del
sistema de logaritmos naturales y equivale a 2.718. X es el valor de una variable aleatoria
continua. Por consiguiente, una distribución normal está basada en su media y su des-
viación estándar; es decir, se define a través de ellas.
No necesitará realizar ningún cálculo a partir de la fórmula (7-4). En lugar de ello, utili-
zará una tabla, que se proporciona en el Apéndice D, para buscar las diversas probabilida-
des.
La distribución de la probabilidad normal presenta las características principales si-
guientes:

1. Tiene forma de campana y tiene una sola cima en el centro de la distribución. La me-
dia aritmética, la mediana y la moda son iguales y están ubicadas en el centro de la dis-
tribución. Como consecuencia, la mitad del área por debajo de la curva normal está a
la derecha de su punto central y la otra mitad se encuentra a la derecha de éste.
2. Es simétrica con respecto a la media. Si cortamos en sentido vertical la curva normal
en el valor central, las dos mitades serán imágenes espejo.
3. Cae ligeramente fuera en cualquier sentido con respecto al valor central. Es decir la dis-
tribución es asintótica: la curva se acerca más y más al eje de las X pero nunca lo to-
218 Capítulo 7

ca verdaderamente. Dicho en otros términos, los extremos de la curva se extienden de


manera indefinida en ambos sentidos.
4. La ubicación de una distribución normal se determina a través de la media, La dis-
persión o extensión de la distribución por medio de la desviación estándar,

Estas características se ilustran en la Gráfica 7-3.

GRÁFICA 7-3 Características de una distribución normal

No hay sólo una distribución de probabilidad normal, sino más bien una "familia" de
ellas. En la Gráfica 7-4, por ejemplo, pueden compararse las distribuciones de probabilidad
del tiempo de servicio de los empleados en tres plantas distintas. En la planta de Camden,
la media es de 20 años y la desviación estándar es 3.1 años. Hay otra distribución de pro-
babilidad normal para el tiempo de servicio en la planta de Dunkirk, donde 20 años
y = 3.9 años. En la planta de Elmira, 20 años y 5.0. Observe que las medias
son las mismas pero las desviaciones estándar son distintas.

Medias iguales, desviaciones


estándar diferentes.

GRÁFICA 7-4 Distribuciones de la probabilidad normales con medias iguales pero desviaciones
estándar diferentes

La Gráfica 7-5 ilustra la distribución de los pesos de las cajas de tres cereales diferen-
tes. Los pesos siguen una distribución normal con medias distintas pero desviaciones es-
tándar idénticas.
Por último, la Gráfica 7-6 muestra tres distribuciones normales que tienen medias y
desviación estándar diferentes. Ilustran la distribución de fuerzas de tensión, medidas en li-
bras por pulgada cuadrada (psi, por sus siglas en inglés), para tres tipos de cables.
Del Capítulo 6, recuerde que las distribuciones de probabilidad discreta muestran la po-
sibilidad específica de que se presente un valor discreto. En la página 189, por ejemplo, la
distribución binomial se utiliza para calcular la probabilidad de que ninguno de los cinco vue-
los que llegan al aeropuerto regional Bradford de Pennsylvania se retrase.
Distribuciones de probabilidad continua 219

Medias diferentes, significa


desviaciones iguales

GRÁFICA 7-5 Distribuciones de probabilidad normal que tienen medias diferentes pero desviaciones
estándar iguales

Medias diferentes,
desviaciones estándar
diferentes

GRÁFICA 7-6 Distribuciones de probabilidad normales con medias y desviaciones estándar diferentes

Con una distribución de probabilidad continua, las áreas por debajo de la curva definen
probabilidades. El área total por debajo de la curva normal es 1.0. Esto corresponde a to-
dos los resultados posibles. Como una distribución de probabilidad normal es simétrica, el
área por debajo de la curva a la izquierda de la media es 0.5 y el área por debajo de la cur-
va a la derecha de la media es 0.5. Aplique esto último a la distribución de Sugar Yummies
en la Gráfica 7-5. Tiene una distribución normal con una media de 283 gramos. Por tanto,
la probabilidad de llenar una caja con más de 283 gramos es 0.5 y la probabilidad de llenar
una caja con menos de 283 gramos es 0.5. También es posible determinar la probabilidad
de que una caja pese entre 280 y 286 gramos. No obstante, para determinar esta probabi-
lidad necesitamos saber acerca de la distribución de probabilidad normal estándar.

La distribución normal estándar


El número de distribuciones normales es ilimitado, cada una tendrá una media y una
desviación estándar distintas o ambas. Aun cuando es posible proporcionar tablas de
probabilidad para distribuciones discretas, como la binomial y la de Poisson, resulta impo-
sible proporcionar tablas para el número infinito de distribuciones normales. Por fortuna, un
miembro de la familia puede utilizarse para determinar las probabilidades de todas las dis-
tribuciones normales. Se le conoce como distribución normal estándar, y es única por-
que tiene una media de 0 y una desviación estándar de 1.
220 Capítulo 7

Cualquier distribución normal puede convertirse en una distribución normal estándar


restando la media de cada observación y dividiendo esta diferencia entre la desviación es-
tándar. A los resultados se les da el nombre de valores z. También se conocen valores tipi-
ficados.

Por consiguiente, un valor z es la distancia de la media, medida en unidades de la desvia-


ción estándar.
En términos de una fórmula:

donde:
es el valor de cualquier observación o medición en particular.
es la media de la distribución.
es la desviación estándar de la distribución.

Como señalamos en la definición anterior, un valor z expresa la distancia o diferencia


entre un valor particular de X y la media aritmética en unidades de la desviación estándar.
Una vez que se estandarizan las observaciones normalmente distribuidas, los valores z tie-
nen una distribución normal con una media de 0 y una desviación estándar de 1. La tabla
que aparece en el Apéndice D (así como en la contraportada del libro) enumera las proba-
bilidades para la distribución de la probabilidad normal estándar.
Con el fin de explicar, suponga de deseamos calcular la probabilidad de que las cajas
de Sugar Yummies pesen entre 283 y 285.4 gramos. A partir de la Gráfica 7-5, sabemos
que el peso de la caja de Sugar Yummies sigue la distribución normal con una media de
283 gramos y una desviación estándar de 1.6 gramos. Deseamos conocer la probabilidad
o área por debajo de la curva entre la media, 283 y 285.4 gramos. También podemos ex-
presar este problema utilizando simbología de probabilidad, similar al estilo que utilizamos
en el capítulo anterior: P(283 < peso < 285.4). Para encontrar la probabilidad, es necesario
convertir tanto 283 como 285.4 gramos a valores z utilizando la fórmula (7-5). El valor z co-
rrespondiente a 285.4 es 1.50 que se calcula así: (285.4 - 283)/1.6. A continuación, pasa-
mos a la tabla que aparece en el Apéndice D. Una parte de la tabla se repite como Tabla
7-1. Desplácese hacía abajo en la columna de la tabla que tiene por encabezado la letra z
hasta llegar a 1.5. Luego, desplácese en forma horizontal hacia la derecha y lea la proba-
bilidad que aparece bajo la columna denominada 0.00. Es 0.4332. Esto significa que el área

TABLA 7-1 Áreas por debajo de la curva normal


Distribuciones de probabilidad continua 221

por debajo de la curva entre 0.00 y 1.50 es 0.4332. Es la probabilidad de que una caja de
Sugar Yummies seleccionada al azar pese entre 283 y 285.4 gramos. Esto se ilustra en la
gráfica siguiente:

Aplicaciones de la distribución normal estándar


¿Cuál es el área por debajo de la curva entre la media y X para los siguientes valores z?
Verifique su respuesta contra los que se proporcionan. No todos los valores están disponi-
bles en la Tabla 7-5. Necesitará utilizar el Apéndice D o la tabla ubicada en la contraporta-
da interior del libro.

Los ingresos semanales de supervisores de turno en la industria del vidrio tienen una dis-
tribución normal con una media de $1 000 y una desviación estándar de $100. ¿Cuál es el
valor de z para el ingreso X de un supervisor que percibe $1 100 a la semana? ¿Para un
supervisor que gana $900 por semana?

Utilizando la fórmula (7-5), los valores de z para los dos valores X ($1 100 y $900) son:

El valor z de 1.00 indica que un ingreso semanal de $1 100 es una desviación están-
dar por arriba de la media, y el valor z de -1.00 muestra que una percepción de $900 está
una desviación estándar por debajo de la media. Observe que ambos ingresos ($1 100 y
$900) son la misma distancia ($100) respecto de la media.
222 Capítulo 7

Autoevaluación 7-2 Utilizando la información que aparece en el ejemplo anterior convierta:


(a) El ingreso semanal de $1 225 a un valor z.
(b) El ingreso semanal de $775 a un valor z.

La regla empírica
Antes de analizar más aplicaciones de la distribución de probabilidad normal estándar con-
sideraremos tres áreas por debajo de la curva normal que se utilizarán con mucha frecuen-
cia en los capítulos subsecuentes. En el Capítulo 3 estos hechos se denominaron como la
Regla Empírica, vea la página 80.

1. Alrededor del 68% del área por debajo de la curva normal se encuentra dentro de una
desviación estándar de la media. Esto puede escribirse como
2. Aproximadamente 95% del área por debajo de la curva normal se encuentra dentro de
dos desviaciones estándar de la media, escrito como
3. Prácticamente la totalidad del área por debajo de la curva normal está dentro de tres
desviaciones estándar de la media, escrita como

Esta información se resume en la gráfica que aparece a continuación:

Transformar las mediciones a valores normales estándar modifica la escala. En la grá-


fica también se muestran las conversiones. por ejemplo, se convierte en un valor z
de 1.00. De manera análoga, se transforma en un valor z de 2.00. Observe que en
centro de la desviación estándar es cero, lo cual indica que no hay desviación con respec-
to a la media,

Como parte de su programa de aseguramiento de la calidad, la compañía Autolite Battery


realiza pruebas sobre la vida útil de las baterías. La vida media para una batería de celda
alcalina D, es de 19 horas. La vida útil de la batería sigue una distribución normal con una
desviación estándar de 1.2 horas. Responda las preguntas siguientes.
1. ¿Dentro de qué par de valores se encuentra el 68% de las baterías?
2. ¿Dentro de qué par de valores se encuentra el 95% de las baterías?
3. ¿Entre qué par de valores se encuentran todas las baterías?

Para responder estas preguntas es posible utilizar los resultados de la Regla Empírica.
1. Alrededor de 68% de las baterías tienen una vida útil entre 17.8 y 20.2 horas, dato que
se encuentra por medio de 19.0 + 1(1.2) horas.
Distribuciones de probabilidad continua 223

2. Cerca de 95% de las baterías tienen una vida útil entre 16.6 y 21.4 horas, dato que se
encuentra por medio de 19.0 + 2(1.2) horas.
3. Virtualmente todas las baterías tienen una vida útil entre 15.4 y 22.6 horas, dato que se
encontró a través de 19.0 + 3(1.2) horas.

Esta información se resume en la siguiente gráfica:

Autoevaluación 7-3 La distribución de los ingresos anuales de un grupo de empleados de la gerencia media en
Compton Plastics se aproxima a una distribución normal con una media de $47 200 y una
desviación estándar de $800.
(a) ¿Entre qué par de valores se encuentran alrededor de 68% de los ingresos?
(b) ¿Entre qué par de valores se encuentran aproximadamente 95% de los ingresos?
(c) ¿Entre qué par de valores están casi todos los ingresos?
(d) ¿Cuáles son los ingresos medio y modal?
(e) ¿La distribución de los ingresos es simétrica?

Ejercicios
5. Explique lo que significa el siguiente enunciado: "No existe sólo una distribución de proba-
bilidad normal sino una 'familia' de ellas."
6. Enumere las características más importantes de una distribución de probabilidad normal.
7. La media de una distribución de probabilidad normal es 500; la desviación estándar es 10.
a. ¿Entre qué par de valores se encuentra alrededor del 68% de las observaciones?
b. ¿Entre qué par de valores se encuentra alrededor del 95% de las observaciones?
c. ¿Entre qué par de valores se encuentra prácticamente la totalidad de las observaciones?
8. La media de una distribución de probabilidad normal es 60; la desviación estándar es 5.
a. ¿Alrededor de qué porcentaje de las observaciones se encuentran entre 55 y 65?
b. ¿Alrededor de qué porcentaje de las observaciones se encuentran entre 50 y 70?
c. ¿Alrededor de qué porcentaje de las observaciones se encuentran entre 45 y 75?
9. La familia Kamp tiene gemelos, Rob y Rachel. Tanto Rob como Rachel se graduaron en la
universidad hace dos años, y cada uno gana ahora $50 000 al año. Rachel trabaja en la in
dustria de ventas al detalle donde el salario medio para ejecutivos con menos de cinco años
de experiencia es de 35 000 dólares con una desviación estándar de $8 000. Rob es inge-
niero. El salario medio para ingenieros con menos de cinco años de experiencia es de
$60 000 con una desviación estándar de $5 000. Calcule los valores z tanto para Rob como
para Rachel y comente sus hallazgos.
10. Un artículo reciente que apareció en el Cincinnati Enquirer informó que el costo medio de la
mano de obra para reparar un bomba de calefacción es de $90 con una desviación están-
dar de $22. Monte's Plumbing y Heating Services terminaron de reparar dos bombas de ca-
lefacción esta mañana. El costo de mano de obra para la primera fue de $75 y para la
segunda fue de $100. Calcule los valores de z para cada caso y comente sus hallazgos.
224 Capítulo 7

Cómo encontrar áreas por debajo de la curva normal


La siguiente aplicación de la distribución normal estándar implica encontrar el área en una
distribución normal entre la media y un valor seleccionado, que identificamos como X. El
ejemplo que se presenta a continuación ilustrará los detalles.

Recuerde que en un ejemplo anterior (véase página 221) informamos que el ingreso medio
semanal de un supervisor de turno en la industria del vidrio está normalmente distribuido con
una media de $1 000 y una desviación estándar de $100. Esto es,
¿Cuál es la posibilidad de seleccionar un supervisor cuyo ingreso semanal está entre $1 000
y $1 100? Utilizando simbología de probabilidad escribimos esta pregunta como:

Convertimos $1 100 en un valor z de 1.00 utilizando la fórmula (7-5). Para repetir:

La probabilidad relacionada con z igual a 1.00 está disponible en el Apéndice D. A conti-


nuación presentamos una parte del Apéndice D. Para ubicar la probabilidad, desplácese ha-
cia abajo en la columna de la izquierda hasta llegar a 1.0 y después desplácese en sentido
horizontal hasta la columna denominada con 0.00. El valor es 0.3413.

El área por debajo de la curva normal entre $1 000 y $1 100 es 0.3413. Podríamos decir
también que un porcentaje de 34.13 de los supervisores de turno en la industria del vidrio
perciben entre $1 000 y $1 100 a la semana, o que la probabilidad de seleccionar un super-
visor y encontrar que su ingreso está entre $1 000 y $1 100 es de 0.3413. Esta
información se resume en el diagrama siguiente:
Distribuciones de probabilidad continua 225

En el ejemplo anterior, nos interesa la probabilidad entre la media y un valor dado. Cam-
biemos la pregunta. En lugar de querer conocer la probabilidad de seleccionar al azar un su-
pervisor que ganó entre $1 000 y $1 100 suponga que deseamos averiguar la probabilidad
de seleccionar un supervisor que ganó menos de $1 100. Utilizando simbología de probabi-
lidad escribimos este enunciado como P(ingreso semanal < $1 100). El método de solución
es el mismo. Encontramos la probabilidad de seleccionar un supervisor que percibe entre
$1 000, la media y $1 100. Esta probabilidad es 0.3413. Luego, recuerde que la mitad del
área, o probabilidad, está por arriba de la media y la mitad se encuentra por debajo. Por tan-
to, la probabilidad de seleccionar un supervisor que gane menos de $1 000 es 0.5000. Por
último, sumamos las dos probabilidades, por consiguiente 0.3413 + 0.5000 = 0.8413. Alrede-
dor de 84% de los supervisores en la industria del vidrio gana menos de $1 100 al mes. Vea
el diagrama siguiente.

Excel calculará esta probabilidad. Los comandos necesarios aparecen en la sección Coman-
dos de software al final del capítulo. La respuesta es 0.8413, la misma que calculamos.

Consulte la información concerniente al ingreso semanal de los supervisores de turno en la


industria del vidrio. La distribución de los ingresos semanales sigue la distribución normal,
con una media de $1 000 y una desviación estándar de $100. ¿Cuál es la probabilidad de
seleccionar un supervisor de turno en la industria del vidrio cuyo ingreso es:

1. ¿Entre 790 y 1 000 dólares?


2. ¿Menos de $790?

Empezamos por encontrar el valor de z correspondiente a una percepción neta de $790. A


partir de la fórmula (7-5):
226 Capítulo 7

Vea el Apéndice D. Desplácese hacia abajo del margen izquierdo hasta la hilera 2.1 y a lo
largo de esa hilera hasta la columna denominada como 0.00. El valor es 0.4821. Por tanto,
el área por debajo de la curva estándar normal correspondiente a un valor z de 2.10 es 0.4821.
No obstante, debido a que la distribución normal es simétrica, el área entre 0 y un valor de
z negativo es el mismo que el que se encuentra entre 0 y el valor de z positivo correspon-
diente. La probabilidad de encontrar un supervisor que gane entre $790 y $1 000 es 0.4821.
En simbología de probabilidad escribimos P($790 < ingreso semanal < $1 000) = 0.4821.

La media divide la curva normal en dos mitades idénticas. El área por debajo de la mi-
tad a la izquierda de la media es 0.5000, y el área hacia la derecha también es 0.5000. De-
bido a que el área por debajo de la curva entre $790 y $1 000 es 0.4821, el área por debajo
de $790 es 0.0179, que se encuentra mediante 0.5000 - 0.4821. Utilizando simbología de
probabilidad escribimos P(ingreso semanal < $790) = 0.0179.
Esto significa que un porcentaje de 48.21 de los supervisores tienen ingresos semana-
les entre $790 y $1 000. Además, podemos anticipar que un porcentaje de 1.79 perciben
menos de $790 por semana. Esta información se resume en el diagrama siguiente.

Autoevaluación 7-4 Los empleados de Cartwright Manufacturing obtienen calificaciones por su eficiencia. La dis-
tribución de las calificaciones sigue una distribución normal. La media es 400, la desviación
estándar es 50.
(a) ¿Cuál es el área debajo de la curva normal entre 400 y 482? Exprese esta área en una
anotación de probabilidad.
(b) ¿Cuál es el área debajo de la curva normal para las calificaciones superiores a 482? Ex-
prese esta área con notación de probabilidad.
(c) Ilustre las facetas de este problema en una gráfica.

Ejercicios
11. Una población normal tiene una media de 20.0 y una desviación estándar de 4.0.
a. Calcule el valor de z asociado con 25.0.
b. ¿Qué proporción de la población está entre 20.0 y 25.0?
Distribuciones de probabilidad continua 227

c. ¿Qué proporción de la población es menor que 18.0?


12. Una población normal tiene una media de 12.2 y una desviación estándar de 2.5.
a. Calcule el valor de z relacionado con 14.3.
b. ¿Qué proporción de la población está entre 12.2 y 14.3?
c. ¿Qué proporción de la población es menor que 10.0?
13. Un estudio reciente de los salarios por hora de integrantes de equipos de mantenimiento de
las aerolíneas más importantes demostró que el salario medio por hora era de $20.50, con
una desviación estándar de $3.50. Si seleccionamos a un miembro de un equipo al azar
¿cuál es la probabilidad de que este individuo perciba:
a. entre $20.50 y $24 por hora?
b. más de $24 por hora?
c. menos de $19 por hora?
14. La media de una distribución normal es 400 libras. La desviación estándar es 10 libras.
a. ¿Cuál es el valor del área entre 415 libras y la media de 400 libras?
b. ¿Cuál es el valor del área entre la media y 395 libras?
c. ¿Cuál es la probabilidad de seleccionar un valor al azar y descubrir que tiene un valor
menor de 395 libras?

Otra aplicación de la distribución normal implica combinar dos áreas, o probabilidades.


Una de estas áreas está a la derecha de la media y la otra a la izquierda.

Recuerde la distribución de los ingresos semanales de los supervisores de turno en la in-


dustria del vidrio. Los ingresos semanales siguen la distribución normal con una media de
$1 000 y una desviación estándar de $100. ¿Cuál es el valor del área por debajo de esta
curva normal entre $840 y $1 200?

El problema se puede dividir en dos partes. Para el área entre $840 y la media de $1 000.

Para el área entre la media de $1 000 y $1 200.

El área por debajo de la curva de un valor de z igual a -1.60 es 0.4452 (del Apéndice D). El
área por debajo de la curva para un valor de z igual a 2.00 es 0.4772. Sumando las dos áreas:
0.4452 + 0.4772 = 0.9224. Por consiguiente, la probabilidad de seleccionar un ingreso entre
$840 y $1 200 es 0.9224. En simbología de probabilidad escribimos P($840) < ingreso sema-
nal < $1 200 = 0.4452 + 0.4772 = 0.9224. Para resumir, un porcentaje de 92.24 de los super-
visores tienen ingresos semanales entre $840 y $1 200. Esto se ilustra en un diagrama:

Otra aplicación de la distribución normal implica determinar el área entre valores sobre
el mismo lado de la media.
228 Capítulo 7

Regresando a la distribución del salario semanal de los supervisores de turno en la indus-


tria del vidrio ¿cuál es el valor del área por debajo de la curva nor-
mal entre $1 150 y $1 250?

La situación se divide de nuevo en dos partes,, y se utiliza la fórmula (7-5). Primero encon-
tramos el valor z asociado con un salario semanal de $1 250.

A continuación encontramos el valor zpara un salario semanal de $1 150.

Del Apéndice D, el área asociada con un valor de z igual a 2.50 es 0.4938. Por tanto,
la probabilidad de un salario semanal de entre $1 000 y $ 1 250 es 0.4938. De manera aná-
loga, el área asociada con un valor z de 1.50 es 0.4332, por consiguiente la probabilidad de
un salario semanal de entre $1 000 y $1 150 es 0.4332. La probabilidad de un salario se-
manal de entre $1 150 y $1 250 se encuentra restando el área asociada con un valor de
1.50 (0.4332) de aquella asociada con un z de 2.50 (0.4938). Por consecuencia, la proba-
bilidad de un salario entre $1 150 y $1 250 es 0.0606. En simbología de probabilidad escri-
bimos P($1 150 < ingreso semanal < $1 250) = 0.4938 - 0.4332 = 0.0606.

En resumen, existen cuatro situaciones para encontrar el área por debajo de la distri-
bución normal estándar.

1. Para encontrar el área entre 0 y z (o -z) vea la probabilidad directamente en la tabla.


2. Para encontrar el área más allá de z o (-z), localice la probabilidad de z en la tabla y
reste esa probabilidad de 0.5000.
3. Para encontrar el área entre dos puntos en lados distintos de la media, determine los
valores z y sume las probabilidades correspondientes.
4. Para encontrar el área entre dos puntos en el mismo lado distinto de la media, determi-
ne los valores de z y reste la probabilidad menor de la mayor.

Autoevaluación 7-5 Consulte el ejemplo anterior, donde la distribución de los ingresos semanales sigue la distri-
bución normal con una media de $1 000 y la desviación estándar es $100.
(a) ¿Qué porcentaje de los supervisores de turno perciben un ingreso semanal de entre $750
y $1 225? Trace una curva normal y sombree el área deseada en su diagrama.
(b) ¿Qué porcentaje de los supervisores de turno perciben un ingreso semanal de entre
$1 100 y $1 225? Trace una curva normal y sombree el área deseada en su diagrama.
Distribuciones de probabilidad continua 229

Ejercicios
15. Una distribución normal tiene una media de 50 y una desviación estándar de 4.
a. Calcule la probabilidad de un valor entre 44.0 y 55.0.
b. Calcule la probabilidad de un valor mayor que 55.0.
c. ^Calcule la probabilidad de un valor entre 52.0 y 55.
16. Una población normal tiene una media de 80.0 y una desviación estándar de 14.0.
a. Calcule la probabilidad de un valor entre 75.0 y 90.0.
b. Calcule la probabilidad de un valor de 75.0 o menos.
c. Calcule la probabilidad de un valor entre 55.0 y 70.0.
17. Una máquina expendedora de bebidas de cola está ajustada para servir un promedio de
7.00 onzas por vaso. La desviación estándar es 0.10 onzas. La distribución de cantidades
servidas sigue una distribución normal.
a. ¿Cuál es la probabilidad de que la máquina sirva entre 7.10 y 7.25 onzas de bebida de cola?
b. ¿Cuál es la probabilidad de que la máquina sirva 7.25 onzas o más?
c. ¿Cuál es la probabilidad de que la máquina sirva entre 6.80 y 7.25 onzas de bebida de cola?
18. Los montos de dinero que se piden en las solicitudes de préstamos caseros en Down River Fe-
deral Savings siguen la distribución normal con una media de $70 000 y una desviación están
dar de $20 000. Esta mañana se recibió una solicitud de préstamo. ¿Cuál es la probabilidad:
a. de que el monto solicitado sea $80 000 o más?
b. de que el monto solicitado esté entre $65 000 y $80 000?
c. de que él monto solicitado sea $65 000 o más?
19. WNAE, una estación de AM totalmente dedicada a transmitir noticias, encuentra que la dis-
tribución de tiempo que los radioescuchas sintonizan la estación sigue la distribución nor-
mal. La media de la distribución es 15.0 minutos y la desviación estándar es de 3.5. ¿Cuál
es la probabilidad de que un radioescucha en 'particular sintonice la estación en:
a. más de 20 minutos?
b. por 20 minutos o menos?
c. entre 10 y 12 minutos?
20. El salario inicial medio para graduados de la universidad en la primavera del año 2004 era
de 36 280 dólares. Suponga que la distribución de los salarios iniciales sigue la distribución
normal con una desviación estándar de $3 300. ¿Qué porcentaje de los graduados tienen
salario inicial de:
a. entre $35 000 y $40 000?
b. de más de $45 000?
c. entre $40 000 y $45 000?
Los ejemplos anteriores exigen encontrar el porcentaje de las observaciones ubicadas
entre dos observaciones o el porcentaje de las observaciones por arriba, o por abajo, de
una observación en particular X. Una aplicación más profunda de la distribución normal im-
plica encontrar el valor de la observación X cuando está dado el porcentaje por arriba o por
debajo de la observación.

La Compañía Layton and Rubber desea establecer


una garantía de millaje mínimo en su nuevo neumáti-
co MX100. Algunas pruebas revelan que el millaje mí-
nimo es de 67 900 millas con una desviación estándar
de 2 050 millas y que la distribución de millas sigue la
distribución normal. Quieren establecer el millaje míni-
mo garantizado de manera que no habrá que sustituir
más de 4% de los neumáticos. ¿Qué millaje mínimo
garantizado debe anunciar Layton?

Las facetas de este caso se muestran en el diagrama


siguiente, donde X representa el millaje mínimo garan-
tizado.
230 Capítulo 7

Al insertar estos valores en la fórmula (7-5) se obtiene:

Observe que hay dos incógnitas, X y z. Para encontrar X, primero encontramos z, y des-
pués despejamos X. Observe que el área por debajo de la curva normal a la izquierda de μ
es 0.5000. El área entre μ y X se encuentra mediante 0.5000 - 0.0400. Ahora consulte el
Apéndice D. Busque en el cuerpo de la tabla para el área más cercana a 0.4600. El área
más cercana es 0.4599. Desplácese a los márgenes de este valor y lea el valor z de 1.75.
Debido a que el valor está a la izquierda de la media, en realidad es -1.75. Estos pasos se
ilustran en la Tabla 7-2.
Areas seleccionadas por debajo de la curva normal

Sabiendo que la distancia entre ahora podemos


despejar X (el millaje mínimo garantizado).

Por tanto, Layton puede anunciar que reemplazará en forma gratuita cualquier neumático
que se desgaste antes de que llegue a 64 312 millas, y la empresa sabrá que sólo 4% de
los neumáticos se van a sustituir de acuerdo con este plan.

Excel también encontrará el valor del millaje. Véase la siguiente ventana en Excel. Los
comandos necesarios se proporcionan en la sección de Comandos de sofware que apa-
rece al final del capítulo.
Distribuciones de probabilidad continua 231

Autoevaluación 7-6 Un análisis de las calificaciones del examen final de Introducción a los negocios, revela que
las calificaciones siguen la distribución normal. La media de la distribución es 75 y la desvia-
ción estándar es 8. El profesor quiere recompensar con una A a los estudiantes cuyas califi-
caciones se encuentran dentro del 10% más alto. ¿Cuál es el punto de división para aquellos
estudiantes que merecen una A y los que merecen una B?

Ejercicios
21. Una distribución normal tiene una media de 50 y una desviación estándar de 4. Determine
el valor por debajo del cual ocurrirán 95% de las observaciones.
22. Una distribución normal tiene una media de 80 y una desviación estándar de 14. Determine
el valor por arriba del cual tendrán lugar 80% de las observaciones.
23. Las cantidades que sirve una máquina expendedora de bebida de cola siguen la distribución
normal con una media de 7 onzas y una desviación estándar de 0.10 onzas por vaso.
¿Cuánta bebida de cola se sirven con más del 1%en los vasos?
24. Remítase al Ejercicio 18, donde la cantidad solicitada para préstamos caseros siguió la dis-
tribución normal con una media de $70 000 y una desviación estándar de $20 000.
25. Suponga que el costo medio por hora de operar un avión comercial sigue la distribución nor-
mal con una media de $2 100 por hora y una desviación estándar de $250. ¿Cuál es el cos-
to de operación más bajo para el 3% de los aviones?
26. Las ventas mensuales de mofles en el área de Richmond, Virginia, siguen la distribución
normal con una media de 1 200 y una desviación estándar de 225. Al fabricante le gustaría
establecer niveles de inventario tales que exista una posibilidad de sólo 5% de que se ago
ten las existencias. ¿Dónde debería establecer el fabricante los niveles de inventario?

La aproximación de la
distribución normal a la binomial
El Capítulo 6 describe la distribución de probabilidad binomial, que es una distribución dis-
creta. La tabla de probabilidades binomiales que aparece en el Apéndice A se desplaza su-
cesivamente de una n igual a 1 a una n de valor 15. Si un problema implicó tomar una
muestra de 60, generar una distribución normal para un número tan considerable requeriría
de mucho tiempo. Un enfoque más eficaz consiste en aplicar una aproximación de la dis-
tribución normal a la binomial.
232 Capítulo 7

Utilizar la distribución normal (una distribución continua) como un sustituto para una dis-
tribución binomial (una distribución discreta) para valores considerables de n parece razo-
nable debido a que conforme se incrementa n, una distribución binomial se acerca cada vez
más a una distribución normal. La Gráfica 7-7 ilustra el cambio en la forma de una distribu-
ción binomial con 0.50 a partir de una n igual a 1, a una n de valor 3, a una n de
tamaño 20. Observe como el caso cuando n = 20 se aproxima a la forma de la distribución
normal. Esto es, compare el caso donde n = 20 con la curva normal que aparece en la
Gráfica 7-3 en la página 218.

GRÁFICA 7-7 Distribuciones binomiales para n de 1, 3 y 20, donde n- 0.50

Cuándo utilizar la ¿Cuándo podemos utilizar la aproximación normal a la binomial? La distribución de pro-
aproximación normal babilidad normal es una buena aproximación a la distribución de probabilidad binomial cuando
tiene valores mínimos de 5. Sin embargo, antes que apliquemos la distribución
normal, tenemos que asegurarnos de que nuestra distribución de interés es efectivamente
una distribución binomial. Recuerde del Capítulo 6 que tienen que cumplirse cuatro criterios:

1. Sólo hay dos resultados mutuamente excluyentes para un experimento: un "éxito" y un


"no éxito".
2. La distribución resulta de contar el número de éxitos en. un número fijo de intentos.
3. La probabilidad de éxito, p, no sufre ningún cambio de un ensayo a otro.
4. Cada intento es independiente.

Factor de corrección de continuidad


Para demostrar la aplicación de la aproximación normal a la binomial y la necesidad de contar
con un factor de corrección. Suponga que la administración del restaurante Santoni Pizza
encontró que un 70% de sus nuevos clientes regresan el establecimiento
para consumir alimentos de nuevo. Para una semana en la que 80 clientes
que acuden por primera vez a cenar en Santoni, ¿cuál es la probabilidad de
que 60 o más de los clientes regresen para consumir alimentos otra vez?
Observe que se cumplen las condiciones binomiales: (1) Sólo hay dos
resultados posibles, un cliente regresa para consumir alimentos de nuevo o
no lo, hace. (2) Es posible contar el número de éxitos, lo cual significa, por
ejemplo, que 57 de los 80 clientes regresaron. (3) Los ensayos son in-
dependientes, lo cual significa que si la persona número 34 regresa a con-
sumir alimentos por segunda vez, eso no afecta al que la persona número
58 regrese. (4) La probabilidad de que un cliente regrese se mantiene en
0.70 para los 80 clientes.
Por consiguiente, podríamos utilizar la fórmula binomial (6-3) que se describe en la pá-
gina 189.
Distribuciones de probabilidad continua 233

Para encontrar la probabilidad de que 60 o más clientes regresen para consumir otra
pizza, primero necesitamos encontrar la probabilidad de que regresen 60 clientes exacta-
mente. Esto es:

Después encontramos la probabilidad de que exactamente 61 clientes regresen. Esto es:

Continuamos este proceso hasta que tengamos la probabilidad de que regresen los 80
clientes en su totalidad. Por último, sumamos las probabilidades de 60 a 80. Resolver el pro-
blema anterior de esta manera resulta tedioso. También podemos utilizar un programa de
cómputo como por ejemplo MINITAB o Excel para encontrar las diversas probabilidades. A
continuación aparecen enumeradas las probabilidades binomiales para
x, el número de clientes que regresan entre 43 y 68. La probabilidad de que cualquier nú-
mero de clientes menor que 43 o mayor de 68 regresen es menor que 0.001. Podemos su-
poner que estas probabilidades son 0.000.

Podemos encontrar la probabilidad de que regresen 60 o más sumando 0.063 + 0.048


+ ... + 0.001, que es 0.197. Sin embargo, un vistazo a la gráfica siguiente muestra la simili-
tud de esta distribución con una distribución normal. Todo lo que necesitamos es "suavizar"
las probabilidades discretas hasta llegar a una distribución continua. Además, trabajar con
una distribución normal implicará efectuar mucho menos cálculos que trabajar con la distri-
bución binomial.
El artificio radica en permitir que la probabilidad discreta correspondiente a 56 clientes
sea representada por un área por debajo de la curva continua entre 55.5 y 56.5. Después,
permitir que la probabilidad correspondiente a 57 clientes sea representada por un área en-
tre 56.5 y 57.5 y así sucesivamente. Esto es simplemente lo contrario a redondear las cifras
a un número entero.
234 Capítulo 7

Como utilizamos la distribución normal para determinar la probabilidad binomial de 60


o más éxitos, tenemos que restar, en este caso, 0.5 a 60. El valor 0.5 se denomina como
factor de corrección de continuidad. Este ajuste mínimo se tiene que hacer porque una
distribución continua (la distribución normal) se utiliza para aproximar una distribución dis-
creta (la distribución binomial). Restar, 60 - 0.5 = 59.5.

FACTOR DE CORRECCIÓN DE CONTINUIDAD El valor 0.5 restado o sumado, dependien-


do de la pregunta, a un valor seleccionado cuando una distribución de probabilidad
discreta se calcula por medio de una distribución de probabilidad continua.

Cómo aplicar el factor de corrección


Sólo se pueden presentar cuatro casos, que son:
1. Para la probabilidad de que al menos X ocurra, utiliza el área por arriba de (X- 0.5).
2. Para la probabilidad de que a lo más ocurra X, utilice el área por arriba de (X+ 0.5).
3. Para la probabilidad de que por lo menos ocurra X, utilice el área por debajo de (X+0.5).
4. Para la probabilidad de que por lo más ocurra X, utilice el área por debajo de (X- 0.5)
Para utilizar la distribución normal para calcular la probabilidad de que regresen 60 o
más de los 80 clientes de Santoni que acuden al restaurante por primera vez, siga el pro-
cedimiento que mostramos continuación.
Paso 1. Encuentre el valor de z correspondiente a un valor de X igual a 59.5 utilizan-
do la fórmula (7-5), y las fórmulas (6-4) y (6-5) para la media y la varianza de
una distribución binomial:

Paso 2. Determine al área por debajo de la curva normal entre un


Por el paso 1, sabemos que el valor z correspondiente a 59.5 es 0.85. Por tan-
to, nos referimos al Apéndice D y leemos hacia abajo del margen izquierdo has-
ta 0.8 y luego nos desplazamos en sentido horizontal hasta el área por debajo
de la columna que lleva como encabezado 0.05. Esa área es 0.3023.
Paso 3. Calcule el área más allá de 59.5 restando 0.3023 a 0.5000 (0.5000 - 0.3023 =
0.1977). Por consiguiente, 0.1977 es la probabilidad de que 60 o más, de 80
clientes que acuden por primera vez a Santoni, regresen para consumir alimen-
tos de nuevo. Utilizando simbología de probabilidad, P(clientes > 59.5) = 0.5000
- 0.3023 = 0.1977. Las facetas de este problema se muestran en forma gráfica:
Distribuciones de probabilidad continua 235

Sin duda alguna, estará usted de acuerdo en que utilizar la aproximación normal a la
binomial es un método más eficaz para estimar la probabilidad de que 60 o más de los clien-
tes que acuden por primera vez regresen. El resultado se compara en términos favorables
con el que se calculó en la página 233, utilizando la distribución binomial. La probabilidad
utilizando la distribución binomial es 0.197, en tanto que utilizando la aproximación normal
la probabilidad es 0.1977.

Autoevaluación 7-7
Un estudio que realizó la compañía Great Home Insurance reveló que ninguno de los bienes
robados fueron recuperados por sus dueños en 80% de los robos que se reportaron.
(a) Durante un periodo en el que ocurrieron 200 robos, ¿cuál es la probabilidad de que los
bienes robados no se recuperaran en 170 o más de los casos?
(b) Durante un periodo en el que se cometieron 200 robos, ¿cuál es la probabilidad de que
no se recuperaran los bienes robados en 150 o más de los casos?

Ejercicios
27. Suponga una distribución de probabilidad binomial con Calcule lo siguiente:
a. La desviación media y la desviación estándar de la variable aleatoria.
b. La probabilidad de que X sea 15 o menor.
c. La probabilidad de que X sea 10 o menor.
28. Suponga una distribución de probabilidad binomial con Calcule lo siguiente:
a. La desviación media y la desviación estándar de la variable aleatoria.
b. La probabilidad de que X sea 25 o mayor.
c. La probabilidad de que X sea 15 o menor.
d. La probabilidad de que X esté entre 15 y 25 inclusive.
29. Dottie's Tax Service se especializa en declaraciones de impuesto sobre la renta de clientes
profesionistas, como médicos, dentistas, contadores y abogados. Una auditoría reciente de
las declaraciones que elaboraba que llevó a cabo el IRS (Sistema de Administración Tribu
taria de Estados Unidos) indicó que en 5% de las declaraciones que había elaborado duran
te el último año tenían errores. Suponiendo que este índice continúe hacia el año en curso
y que Dottie's elabora 60 declaraciones, ¿cuál es la probabilidad de que cometa errores en:
a. más de seis declaraciones?
b. seis declaraciones cuando menos?
c. seis declaraciones exactamente?
30. Shorty's Muffler anuncia que pueden instalar un mofle nuevo en 30 minutos o menos. Sin em
bargo, hace poco el departamento de estándares laborales de las oficinas corporativas reali
zó un estudio y encontró que 20% de los mofles no se instalaban en 30 minutos o menos. La
división Maumee instaló 50 mofles en el último mes. Si el informe corporativo es correcto:
a. ¿Cuántas de las instalaciones en la división Maumee se esperaría que tardaran más de
30 minutos?
b. ¿Cuál es la probabilidad de que menos de ocho instalaciones requieran de más de 30 mi-
nutos?
c. ¿Cuál es la probabilidad de que ocho o menos instalaciones tomen 30 minutos?
d. ¿Cuál es la probabilidad de que exactamente ocho de las 50 instalaciones tarden más de
30 minutos?
31. Un estudio realizado por Taurus Health Club, famoso a nivel nacional, reveló que 30% de
sus nuevos miembros están muy pasados de peso. Una campaña de promoción de mem-
bresías en un área metropolitana dio por resultado 500 nuevos miembros.
a. Se ha sugerido utilizar la aproximación normal a la binomial para determinar la probabili-
dad de que 175 o más de los nuevos miembros estén muy pasados de peso. ¿Este pro-
blema es de tipo binomial? Explique.
b. ¿Cuál es la probabilidad de que 175 o más de los miembros estén muy pasados de peso?
c. ¿Cuál es la probabilidad de que 140 o más de los nuevos miembros estén muy pasados
de peso?
32. Un número reciente de Bride Magazine sugirió que las parejas que están planeando su bo-
da deben esperar que dos terceras partes de las personas a las que se les envía una invi-
tación respondan que sí asistirán. Rich y Stacy tienen planeado casarse más adelante en
este año y piensan enviar 197 invitaciones.
236 Capítulo 7

a. ¿Cuántos invitados deben esperar que acepten la invitación?


b. ¿Cuál es la desviación estándar?
c. ¿Cuál es la probabilidad de que 14 o más acepten la invitación?
d. ¿Cuál es la probabilidad de que 140 exactamente acepten la invitación?

Resumen del capítulo


La distribución uniforme es una distribución de probabilidad con las características
siguientes:
A. Es de forma rectangular.
B. La media y la mediana son iguales.

C. Se describe en su totalidad por su valor mínimo a y su valor máximo b


D. También se describe por la siguiente ecuación correspondiente a la región de a a b.

E. La media y la desviación estándar de una distribución uniforme se calculan como se ex-


plica a continuación:

II. La distribución normal es una distribución continua con las siguientes características.
A. Tiene forma de campana y tiene una sola cima en el centro de la distribución.
B. La distribución es simétrica
C. Es asintótica, lo cual significa que la curva se acerca al eje X, peto nunca lo toca.
D. La describen totalmente la media y te desviación estándar.
E. Hay una familia de distribuciones normales.
1. Cuando se cambia te desviación media o la estándar se genera otra distribución
normal.
2. La fórmula siguiente describe una distribución normal.

III. La distribución normal estándar es una distribución normal particular.


A. Tiene una media de 0 y una desviación estándar de 1.
B. Cualquier distribución normal puede convertirse a la distribución normal estándar por
medio de la siguiente fórmula.

C. Al estandarizar una distribución normal, podemos reportar la distancia de MÍ wfcr«ii*s«f


de (a media en unidades de la desviación estándar.
IV. La distribución normal se puede aproximar a una distribución binomial en ciertas condiciones.
A, tienen que ser cuando menos 5.
1. n es el número de observaciones.
2. es la probabilidad de un éxito.
1. Las cuatro condiciones para una distribución binomial son:
1. Sólo hay dos resultados posibles.
2. permanece sin cambio de un intento a otro.
3. Los intentos son independientes.
4. La distribución es el resultado de un conteo al número de tos éxitos en un número
entero de ensayos.
Distribuciones de probabilidad continua 237

C. La media y la varianza de una distribución binomial se calculan como se explica a con-


tinuación:

D. El factor de corrección de continuidad de 0.5 se utiliza para extender el valor continuo


de X en 0.5 en cualquier sentido. Esta corrección compensa la aproximación a una dis-
tribución discreta por medio de una distribución continua.

33. La cantidad de bebida de cola en una lata de 12 onzas está uniformemente distribuida en
tre 11.96 y 12.05 onzas.
a. ¿Cuál es la cantidad media por tata?
b. ¿Cuál es la cantidad de desviación estándar por (ata?
c. ¿Cuál es la probabilidad de seleccionar una lata de bebida de cola y encontrar que tiene
menos de 12 onzas?
d. ¿Cuál es la probabilidad de seleccionar una lata de bebida de cola y encontrar que tiene
más de 11.98 onzas?
e. ¿Cuál es la probabilidad de seleccionar una lata de bebida de cola y encontrar que tiene
más de 11.00 onzas?
34. Un tubo de pasta dentrífica para el control del sarro contiene 4.2 onzas. A medida que la gen-
te utiliza la pasta, la cantidad restante en cualquier tubo es aleatoria. Suponga que la cantidad
de pasta que queda en el tubo sigue una distribución uniforme. A partir de esta información,
podemos determinar la información siguiente acerca de la cantidad remanente en un tubo de
pasta dental sin invadir la privacidad de ninguna persona.
a. ¿Cuánta pasta esperaría que quede en el tubo?
b. ¿Cuál es la desviación estándar de la pasta que resta en el tubo?
c. ¿Cuál es la posibilidad de que en el tubo resten menos de 3.0 onzas?
á. ¿Cuál es la probabilidad de que en el tubo queden más de 1.5 onzas?
35. Muchas tiendas minoristas ofrecen sus propias tarjetas de crédito. En el momento en que
hace la solicitud de crédito, el cliente recibe un descuento de 10% sobre la compra. El tiem-
po que se requiere para el proceso de la solicitud de crédito sigue una distribución normal
con una variación entre los tiempos de entre 4 y 10 minutos.
a. ¿Cuál es el tiempo medio para el proceso de la solicitud?
b. ¿Cuál es la desviación estándar del tiempo de proceso?
c. ¿Cuál es la probabilidad de que una solicitud en particular tome menos de 6 minutos?
d. ¿Cuál es la probabilidad de que una aplicación se demore más de 5 minutos?
36. El tiempo que los huéspedes del hotel Grande Dunes en Bahamas pasan esperando el as
censor sigue una distribución uniforme de entre 0 y 3.5 minutos.
a. Demuestre que el área por debajo de la curva es 1.00.
b. ¿Cuánto espera el cliente típico por el servicio de ascensor?
0. ¿Cuál es la desviación estándar del tiempo de espera?
d. ¿Qué porcentaje de los huéspedes espera menos de un minuto?
e. ¿Qué porcentaje de (os huéspedes espera más de dos minutos?
37. Las ventas netas y el numero de empleados para fabricantes de aluminio con característi-
cas similares están organizados dentro de frecuencias de distribución. Ambos estén nueva-
mente distribuidos. La media para las ventas netas es $180 millones y la desviación estándar
es $25 millones. Para el número d© empleados, la media es 1 500 y la desviación estándar es
120. Clarion Fabricators tuvo ventas por $170 millones y 1 850 empleados.
a. Convierta las ventas y el número de empleados de Clarion a valores de z.
b. Localice los dos valores de z.
c. Compare las ventas de Clarion y su número de empleados con las de otros fabricantes,
38. El departamento de contabilidad de Weston Materials Inc., un fabricante nacional de coche
ras desmontables, informa que a dos trabajadores de la construcción les lleva una medía
«te
32 horas y una desviación estándar de dos horas armar el modelo Red Barrí. Suponga qu®
los tiempos de montaje siguen ta distribución normal.
a. Determine los valores de z para 29 y 34 horas. ¿Qué porcentaje de las cocheras requie-
re entre 32 y 34 horas para armarse?
238 Capítulo 7

b. ¿Qué porcentaje de las cocheras requieren de entre 29 y 34 horas para armarse?


c. ¿Qué porcentaje de las cocheras requieren de 28.7 horas o menos para armarse?
d. ¿Cuántas horas se requieren para armar 5% de las cocheras?
39. Un informe que apareció publicado en el periódico USA Today indicaba que una familia tí-
pica de cuatro miembros gasta $490 al mes en comida. Suponga que la distribución de gas
tos en comida para una familia de cuatro miembros sigue la distribución normal, con una
media de $490 y una desviación estándar de $90.
a. ¿Qué porcentaje de las familias gasta más de $30 pero menos de $490 en comida al
mes?
b. ¿Qué porcentaje de las familias gasta menos de $430 al mes en comida?
c. ¿Qué porcentaje de las familias gasta entre $430 y $600 por mes en comida?
d. ¿Qué porcentaje de las familias gasta en comida entre $500 y $600 por mes?
40. Un estudio de llamadas telefónicas de larga distancia que se hizo desde las oficinas corpo-
rativas de Pepsi Bottling Group, Inc., en Sommers, Nueva York, demostró que las llamadas
siguen la distribución normal. El lapso de tiempo promedio por llamada fue de 4.2 minutos
y la desviación estándar fue 0.60 minutos.
a. ¿Qué porcentaje de las llamadas duró entre 4.2 y 5 minutos?
b. ¿Qué porcentaje de las llamadas duró más de 5 minutos?
c. ¿Qué porcentaje de las llamadas duró entre 5 y 6 minutos?
d. ¿Qué porcentaje de las llamadas duró entre 4 y 6 minutos?
e. Como parte de su informe al presidente, el director de Comunicaciones quisiera repor-
tar la duración de 4% de las llamadas más largas (en duración). ¿Cuál es este tiempo?
41. Shaver Manufacturing, Inc., ofrece seguros de atención odontológica a sus empleados. Un
estudio reciente que realizó el director de Recursos Humanos demuestra que el costo anual
por empleado siguió la distribución normal, con una media de $1 280 y una desviación es
tándar de $420 al año.
a. ¿Qué porcentaje de los empleados costó más de $1 500 al año en gastos odontológicos?
b. ¿Qué porcentaje de los empleados costó entre $1 500 y $2 000 al año en gastos odon-
tológicos?
c. Estime el porcentaje que no tuvo gastos por atención odontológica.
d. ¿Cuál fue el costo del 10% de los empleados que incurrieron en los gastos por atención
odontológica más altos?
42. Las comisiones anuales que percibieron los representantes de ventas de Machine Products,
Inc., un fabricante de maquinaria ligera, sigue la distribución normal. El monto anual medio
percibido es $40 000 y la desviación estándar es $5 000.
a. ¿Qué porcentaje de los representantes de ventas percibe más de $42 000 al año?
b. ¿Qué porcentaje de los representantes de ventas gana entre $32 000 y $42 000 al arto?
c. ¿Qué porcentaje de los representantes de ventas percibe entre $32 000 y 35 000 al año?
d. El gerente de ventas quiere recompensar a aquellos representantes de ventas que ga-
nan las comisiones más considerables con un bono de $1 000. Puede concederle un
bono al 20% de los representantes. ¿Cuál es el punto de corte entre aquellos que per-
ciben un bono y los que no lo obtienen?
43. Los pesos de las latas de peras Monarch siguen la distribución normal con una media de 1 000
gramos y una desviación estándar de 50 gramos. Calcule el porcentaje de las latas que pesan:
a. Menos de 860 gramos.
b. Entre 1 055 y 1 100 gramos.
c. Entre 860 y 1 055 gramos.
44. El número de pasajeros a bordo del buque Camival Sensation en cruceros de una semana
por el Caribe sigue la distribución normal. El número medio de pasajeros por crucero es
1 820 y la desviación estándar es 120.
a. ¿Qué porcentaje de los cruceros tendrá entre 1 820 y 1 970 pasajeros?
b. ¿Qué porcentaje de los cruceros tendrá 1 970 pasajeros o más?
c. ¿Qué porcentaje de los cruceros tendrá 1 600 o menos pasajeros?
d. ¿Cuántos pasajeros se encuentran a bordo de los cruceros con 25% más bajo de ocu-
pación?
45. La administración de Gordon Electronics considera adoptar un sistema de bonos para incre-
mentar la producción. Una sugerencia consiste en pagar un bono sobre el 5% más alto de
la producción con base en la experiencia previa. Los registros anteriores indican que la pro-
ducción semanal sigue la distribución normal. La media de esta distribución es 4 000 unida-
Distribuciones de probabilidad continua 239

des a la semana y la desviación estándar es 60 unidades por semana. Si el bono se paga


sobre el 5% más alto de la producción, ¿sobre cuántas unidades o más se pagará el bono?
46. Fast Service Truck Lines utiliza el Ford Super Duty F-750 exclusivamente. La administración
hizo un estudio de los costos de mantenimiento y determinó que el número de millas que
viajaron durante el año seguía la distribución normal. La media de la distribución fue 60 000
millas y la desviación estándar 2 000 millas.
a. ¿Qué porcentaje de los Ford Super Duty F-750 registraron en su bitácora 65 200 millas
o más?
b. ¿Qué porcentaje de los Ford Super Duty F-750 registraron en su bitácora más de 57 060
millas pero menos de 58 280?
c. ¿Qué porcentaje de los Ford Super Duty F-750 viajaron 62 000 millas o menos duran
te el año?
d. ¿Es razonable concluir que ninguno de los camiones recorrió más de 70 000 millas?
47. Best Electronics, Inc., ofrece una política de devoluciones "sin averiguaciones". El número
de artículos regresados por día sigue la distribución normal. El número medio de devolucio-
nes de clientes es 10.3 al día y la desviación estándar es 2.25 al día.
a. ¿En qué porcentaje de los días hay ocho o menos clientes que regresan artículos?
b. ¿En qué porcentaje de los días hay entre 12 y 14 clientes que regresan artículos?
c. ¿Existe alguna probabilidad de que haya un día sin devoluciones?
48. Un informe reciente que apareció en Business Week indicaba que 20% de todos los emplea
dos cometen latrocinio en su empresa cada año. Si una compañía emplea 50 personas,
¿cuál es la probabilidad de que:
a. menos de 5 empleados cometan latrocinio?
b. más de 5 empleados cometan latrocinio?
c. 5 empleados exactamente cometan latrocinio?
d. más de 5, pero menos de 15 empleados cometan latrocinio?
49. El periódico Orange County Register, como parte de su suplemento dominical sobre salud,
informó que 64% de los hombres estadounidenses por arriba de la edad de 18 años consi-
dera la nutrición como una prioridad máxima en sus vidas. Suponga que seleccionamos una
muestra de 60 hombres. ¿Cuál es la probabilidad de que:
a. 32 hombres o más consideren que la nutrición es importante?
b. 44 hombres o más consideren que la nutrición es importante?
c. más de 32, pero menos de 43 consideren que la nutrición es importante?
d. exactamente 44 hombres consideren que la nutrición es importante?
50. Se calcula que 10% de aquellos alumnos que presenten la parte de métodos cuantitativos
del examen CPA reprobarán esa sección. Este sábado harán el examen 60 estudiantes:
a. ¿Cuántos esperaría usted que reprueben? ¿Cuál es la desviación estándar?
b. ¿Cuál es la probabilidad de que reprueben dos estudiantes exactamente?
c. ¿Cuál es la probabilidad de que por lo menos reprueben dos estudiantes?
51. La División de Tráfico de Georgetown, California del Sur, informó que 40% de las persecu-
ciones en las que se ve involucrado algún automóvil resultan en un accidente severo o le
ve. Durante un mes en el que ocurren 50 persecuciones a alta velocidad, ¿cuál es la
probabilidad de que 25 o más resulten en un accidente severo o leve?
52. Los cruceros de la línea Royal Viking informan que 80% de sus habitaciones están ocupa
das durante el mes de septiembre. Para un crucero que tiene 800 habitaciones, ¿cuál es la
probabilidad de que 665 de ellas estén ocupadas en el mes de septiembre?
53 El objetivo de los aeropuertos de Estados Unidos que manejan vuelos internacionales es au-
torizar estos vuelos dentro de un lapso de 45 minutos. Interpretemos esto como que 95% de
los vuelos se autorizan dentro de un periodo de 45 minutos, por tanto la autorización de 5%
de los vuelos lleva más tiempo. Supongamos asimismo que la distribución es aproximada-
mente normal.
a. Si la desviación estándar del tiempo que lleva autorizar un vuelo internacional es de 5
minutos, ¿cuál es el tiempo medio para autorizar un vuelo?
b. Suponga que la desviación estándar es 10 minutos, no los 5 minutos que se sugieren
en el inciso a. ¿Cuál es la nueva media?
c. Un cliente tiene 30 minutos para subir a su limusina contados a partir del momento en
que aterrizó su avión. Suponiendo una desviación estándar de 10 minutos, ¿cuál es la
probabilidad de que tenga tiempo suficiente para subir a la limusina?
54. Jon Molnar se graduará en Carolina Forest High School este año. Sustentó el American Co-
llege Test (ACT) para su admisión a la universidad y recibió una calificación de 30. El director
240 Capítulo 7

de la preparatoria le informó que sólo 2% de los estudiantes que hicieron el examen recibie-
ron una calificación más alta. La calificación media para todos los estudiantes que hacen el
examen es 18.3. Los amigos de Jon, Karrie y George, también hicieron el examen pero el di-
rector no les dio ninguna información aparte de sus calificaciones. Karrie obtuvo 25 y George
18. Con base en esta información, ¿cuáles fueron las clasificaciones en percentiles de Karrie
y George? Suponga que la distribución de calificaciones sigue la distribución normal.
55. Los pesos de los jamones enlatados que se procesan en la compañía Henline Ham siguen
la distribución normal, con una media de 9.20 libras y una desviación estándar de 0.25 li-
bras. En la etiqueta se especifica un peso de 9.00 libras.
a. ¿Qué proporción de los jamones pesan en realidad menos que lo especificado en la eti-
queta?
b. El dueño, Glen Henline está considerando dos propuestas para reducir la proporción de
jamones por abajo del especificado en la etiqueta. Puede incrementar el peso medio a
9.25 y dejar igual la desviación estándar, o puede dejar el peso medio en 9.20 y redu-
cir la desviación estándar de 0.25 a 0.15 libras. ¿Qué cambio recomendaría usted?
56. Como parte de su suplemento dominical de negocios, el periódico Cincinnati Enquirer, infor-
mó que el número medio de horas trabajadas a la semana por aquellos que trabajan tiem-
po completo es de 43.9. El artículo informó además que alrededor de una tercera parte de
aquellos que trabajan de tiempo completo laboran menos de 40 horas a la semana.
a. Dada esta información, y suponiendo que el numero de horas trabajadas sigue la dis-
tribución normal, ¿cuál es la desviación estándar del número de horas trabajadas?
b. El artículo indicó a su vez que 20 de los que trabajan tiempo completo trabajan más de
49 horas a la semana. Con esta información, determine la desviación estándar. ¿Son
similares los dos estimados de la desviación estándar? ¿Cuál sería su conclusión?
57. La mayor parte de los arrendamientos de automóviles a cuatro años permiten hasta 60 000
millas. Si el arrendador rebasa esa cantidad, se agrega una sanción de 20 centavos por mi-
lla al costo del arrendamiento. Suponga que la distribución de millas manejadas en arrenda-
mientos a cuatro años sigue la distribución normal. La media es 52 000 millas y la desviación
estándar es 5 000 millas.
a. ¿Qué porcentaje de los arrendamientos generará una sanción debido a un exceso en
el millaje?
b. Si la compañía automotriz quisiera cambiar los términos del arrendamiento de manera
tal que 25 de los arrendamientos rebasaran el límite, ¿dónde debería establecerse el
nuevo límite superior?
c. Una definición de un automóvil de bajo millaje es uno con cuatro años de antigüedad y
ha sido manejado a lo largo de menos de 45 000 millas. ¿Qué porcentaje de los carros
devueltos son considerados como de bajo millaje?
58. El precio de las acciones del Banco de Florida al final de cada jornada de comercialización
del año pasado siguió la distribución normal. Suponga que durante el año hubo 240 jorna-
das de comercialización. El precio medio fue de 42 dólares y la desviación estándar $2.25
por acción.
a. ¿Qué porcentaje de jornadas estuvo el precio por arriba de $45? ¿Cuántas jornadas es
timaría usted?
b. ¿Qué porcentaje de jornadas estuvo el precio entre $38 y $40?
c. ¿Cuál fue el precio de las acciones en el 15% más alto de los días?
59. Las ventas anuales de novelas románticas siguen la distribución normal. Sin embargo, no
se conocen la media ni la desviación estándar. Cuarenta por ciento del tiempo las ventas son
mayores que 470 000 y 10% del tiempo son mayores que $500 000. ¿Cuáles son la media
y la desviación estándar?
60. Al establecer garantías sobre aparatos HDTV, el fabricante quiere establecer los límites de
tal manera que pocos aparatos necesitarán reparación con cargo al fabricante. Por otra parte,
el periodo de garantía debe ser los suficientemente prolongado para hacer atractiva la com-
pra para el comprador. El número medio de meses hasta el cual se requieren reparaciones
para un HDTV es 36.84 con una desviación estándar es de 3.34 meses. ¿Dónde deben es-
tablecerse los límites de la garantía de manera que sólo 10% de los televisores necesiten
reparaciones con cargo al fabricante?
61. DeKorte Tele-Marketing, Inc., considera comprar una máquina que selecciona de manera alea-
toria y marca en forma automática números telefónicos. Dekorte Tele-Marketing hace la mayor
parte de sus llamadas durante la noche, por consiguiente las llamadas a teléfonos de empre-
sas se desperdician. El fabricante de la máquina afirma que su programación reduce las llama-
Distribuciones de probabilidad continua 241

das a números de empresas a 15% del total de las llamadas. Para probar esta afirmación, el di-
rector de Compras de Dekorte programó la máquina para que seleccionara una muestra de 150
números telefónicos. ¿Cuál es la probabilidad de que 30% de los números telefónicos seleccio-
nados sean de empresas, suponiendo que la afirmación del fabricante es correcta?

Ejercicios de la base de datos


62. Consulte los datos Real Estate, que proporcionan información acerca de las casas vendidas
en el área de Denver, Colorado, durante el último año.
a. El precio medio de venta (en miles de dólares) de las casas se calculó anteriormente en
$221.10, con una desviación estándar de $47.11. Utilice la distribución normal para estimar
el porcentaje de casas que se venden en más de $280.0. Compare esto con los resultados
reales. ¿La distribución normal genera una buena aproximación de los resultados reales?
b. La distancia media desde el centro de la ciudad es 14.629 millas con una desviación es-
tándar de 4.874 millas. Utilice la distribución normal para estimar el número de casas
ubicadas a 18 o más millas pero menos de 22 del centro de la ciudad. Compare esto con
los resultados reales. ¿La distribución normal genera una buena aproximación de los
resultados reales?
63. Consulte los datos Baseball 2002, que proporcionan información acerca de los 30 equipos
de la Liga Mayor de béisbol para la temporada del año 2002.
a. La asistencia media por equipo para la temporada fue de 2 265 (en 000) con una des-
viación estándar de 753 (en 000). Utilice la distribución normal para estimar el número
de equipos con asistencia de más de 3.5 millones. Compare ese estimado con el nú-
mero real. Comente acerca de la exactitud de su cálculo.
b. El salario medio por equipo fue de 83.55 millones de dólares con una desviación están
dar de 29.15 millones. Utilice la distribución normal para estimar el número de equipos
con un salario por equipo de más de $50 millones. Compare ese estimado con el nú
mero real. Comente acerca de la exactitud de su estimado.
64. Consulte los datos CÍA, que proporcionan información demográfica y económica acerca de
46 países.
a. La media del PIB per cápita variable es 16.58, con una desviación estándar de 9.27. Uti-
lice la distribución normal para calcular el porcentaje de países con exportaciones por
arriba de 24. Compare este estimado con la proporción real. ¿Parece ser precisa la dis-
tribución normal en este caso? Explique.
b. La media de las exportaciones es 116.3 con una desviación estándar de 157.4. Utilice la
distribución normal para estimar el porcentaje de países con exportaciones por arriba de
170. Compare este cálculo con la proporción real. ¿Parece ser precisa la distribución nor-
mal en este caso? Explique.

Comandos de software
1. Los comandos de Excel que se necesitan para generar a. Seleccionar Insert y Function, en el recuadro se-
la pantalla de la página 225 son: leccione Statistical y NORMINV y haga c//cen OK.
a. Seleccione Insert y Function, luego en el recuadro b. En el cuadro de diálogo escriba en Probability en
seleccione Statistical y NORMDIST y haga clic en 0.04, en Mean en 67 900, y en Standard__dev en
OK. 2 050.
b. En el cuadro de diálogo escriba 1100 en el recua- c. Los resultados aparecerán en el cuadro de diálogo.
dro correspondiente a X, 1000 para la Mean, 100 Observe que la respuesta es diferente a la que
para la Standard_dev, Verdadero en el recuadro aparece en la página 230 debido al redondeo. Si
Cumulative y haga clic en OK. hace clic en OK, también aparece la respuesta en
c. El resultado aparecerá en el cuadro de diálogo. Si su hoja de cálculo.
hace clic en OK, la respuesta aparecerá en la hoja d. Trate de insertar 0.04 en Probability, de cero en
de cálculo. Mean y en uno Standard_dev. Se calculará el va-
2. Los comandos de Excel necesarios para generar la lor z.
pantalla de la página 231 son:
242 Capítulo 7

Capitulo 7 Respuestas a las autoevaluaciones


Sección 2 243

Revisión de los capítulos 5 al 7


Esta sección es un repaso de los conceptos, términos, símbolos y ecuaciones más importantes que se intro-
dujeron en los Capítulos .5, 6 y 7. Estos tres capítulos abordan los métodos para manejar la incertidumbre.
Como ejemplo de la incertidumbre en los negocios, considere el papel del departamento de aseguramiento
de la calidad en casi todas las empresas de producción masiva. El departamento, por lo regular, no tiene el
personal ni el tiempo para verificar, digamos, los 200 módulos con conexión que se producen durante un pe-
riodo de dos horas. Quizás el procedimiento de operación convencional exija seleccionar una muestra de cin-
co módulos y enviar los 200 módulos en su totalidad si los cinco funcionan en forma correcta. No obstante,
si uno o más de los elementos que integran la muestra están defectuosos, se verifican los 200. Suponiendo
que los cinco funcionan en forma correcta el personal de aseguramiento de la calidad no puede estar total-
mente seguro de que su acción (permitir el envío de los módulos) sea la correcta. ¡Podría ser que sólo los
cinco seleccionados al azar sean los únicos dejos 200 que funcionan como es debido! La teoría de la proba-
bilidad nos permite medir la incertidumbre implícita, en este caso, en enviar módulos defectuosos. La probabi-
lidad como medida de la incertidumbre entra en juego, a su vez, cuando Gallup, Harris y otras empresas que
se dedican a hacer encuestas de opinión, predicen que Jim Barstow ganará la curul senatorial vacante en el
estado de Georgia.
El Capítulo 5 destaca que una probabilidad es un valor entre 0 y 1, inclusive, que expresa la creencia
de alguna persona de que un suceso en particular ocurrirá. Un especialista en formular pronósticos del cli-
ma quizás afirme que la probabilidad de que llueva mañana es 0.20. El director de proyectos de una empre-
sa que está participando en una licitación para construir una estación del metro en Bangkok puede evaluar
que la probabilidad de que la empresa obtenga el contrato es 0.50. Analizamos las formas posibles de com-
binar las probabilidades utilizando las reglas de la adición y la multiplicación, algunos principios para hacer
conteos y la importancia del teorema de Bayes.
El Capítulo 6 presenta las distribuciones de la probabilidad discreta: la distribución binomial, la distribu-
ción hipergeométrica y la distribución de Poisson. En capítulos subsecuentes analizaremos otras distribucio-
nes de probabilidad (la distribución t, la distribución de ji cuadrada, etc.). Las distribuciones de probabilidad
son listados de todos los resultados posibles de un experimento y de la probabilidad asociada con cada re-
sultado. Una distribución de probabilidad nos permite evaluar resultados de muestras.
El Capítulo 7 describe dos distribuciones de probabilidad continua, la distribución de probabilidad unifor-
me y la distribución de probabilidad normal. La distribución uniforme se utiliza para describir fenómenos que
son por igual probables a lo largo de un rango de valores. Su configuración es rectangular, su media y su
mediana son iguales y no tiene una moda. La distribución uniforme está descrita en su totalidad por sus va-
lores mínimo y máximo. Además, los valores mínimo y máximo de la distribución se utilizan para calcular las
probabilidades de cualquier evento.
Una distribución de probabilidad normal se utiliza para describir fenómenos que siguen una distribución
normal en forma de campana, como por ejemplo la fuerza tensora de cables y los pesos de volúmenes de
latas y botellas. En realidad, existe una familia de distribuciones normales, cada una con sus propias media
y desviación estándar. Hay, por ejemplo, una distribución normal para una media de $100, y una desviación
estándar de $5, otra para una media de $149 y una desviación estándar de $5.26, y así sucesivamente. Se
señaló que una distribución de probabilidad normal es simétrica con respecto a su media y que las colas de
la curva normal se extienden de forma infinita en cualquier sentido.
Como no existe un número limitado de distribuciones normales, resulta difícil asignar probabilidades. En
lugar de ello, cualquier distribución normal puede cambiarse a una distribución normal estándar calculando
valores de z. La distribución normal estándar tiene una media de 0 y una desviación estándar de 1. Es de
utilidad porque la probabilidad de cualquier evento a partir de una distribución normal puede calcularse utili-
zando tablas de probabilidad normal estándar.

Glosario
Capitulo 5.
Fórmula para las combinación Fórmula para contar el nú-
Evento Conjunto de uno o más resultados de un experimen- mero de resultados posibles. Si el orden a, b, c se conside-
to. Un evento, por ejemplo, puede ser tres válvulas defectuo- ra igual que b, a, c, o c, b, a, y así sucesivamente, el número
sas en un embarque para un motor Ford de 3.8 litros. de arreglos se encuentra por medio de:
Experimento Actividad que se observa o se mide. Un ex-
perimento puede ser, por ejemplo, contar el número de res-
puestas correctas a una pregunta.
244 Revisión de los capítulos 5 al 7

Fórmula de la multiplicación Una de las fórmulas que se


utilizan para contar el número de resultados posible de un
experimento. Establece que si hay m formas de hacer una
cosa y n maneras de hacer otra, hay mx n formas de hacer Regla general de la adición Se utiliza para encontrar las
ambas. Por ejemplo: una tienda de artículos deportivos ofre- probabilidades de eventos complejos compuestos por Ao B.
ce dos chaquetas deportivas y tres pantalones deportivos
combinados en $400. ¿Cuántos trajes completos distintos
puede haber? La respuesta es: m x n - 2 x 3 = 6. Fórmula Regla general de la multiplicación Se utiliza para encontrar
para las permutaciones Fórmula para contar el número de las probabilidades de eventos complejos compuestos por A y
resultados posibles. Si a, b, c, es un arreglo (o una 6. Por ejemplo: se sabe que hay tres radios defectuosos ' en
disposición), b, a, c, otro, c, a, b, otro, y así sucesivamente, el una caja que contiene 10 de estos aparatos. ¿Cuál es la
número total de arreglos se determina por medio de probabilidad de seleccionar dos radios defectuosos en las
dos primeras veces que se escogen radios de la caja?

Independiente La ocurrencia de un objeto no surte impacto Donde P(B\A) es la probabilidad condicional y significa "la
alguno sobre la probabilidad de que ocurra otro evento. probabilidad de que ocurra B dado que A ya sucedió".
Probabilidad Valor entre 0 y 1, inclusive, que informa la pro- Resultado Observación o medición particular de un experi-
babilidad de que ocurra un evento específico. mento.
Probabilidad clásica Probabilidad basada en el supuesto Teorema de Bayes Desarrollado por el reverendo Bayes
de que cada uno de los resultados es igualmente probable. en el siglo XVIII, está diseñado para encontrar la probabilidad
Según este concepto de probabilidad, si hay n resultados de algún evento, A, que se presenta, dado que otro evento,
posibles, la probabilidad de un resultado en particular es 1/n. B, ya ocurrió.
Por tanto, al lanzar una moneda al aire, la probabilidad de
que caiga cara es 1/n = 1/2. Capitulo 6
Probabilidad condicional Posibilidad de que ocurra un
evento dado que otro ha sucedido.
Distribución de Poisson Distribución que se utiliza con
Probabilidad empírica Concepto de probabilidad basado
frecuencia para aproximar probabilidades binomiales cuan-
en la experiencia previa. La compañía Metropolitan Life In-
surance, por ejemplo, informó que durante el año, 100.2 de do n es grande y ;res pequeño. Qué se entiende por "gran-
cada 100 000 personas en el estado de Wyoming murieron de" o "pequeño" no está definido con precisión, pero una
de causas accidentales (accidentes de vehículos automotri- norma general es que n debe ser igual a o mayor que 20 y
ces, caídas, ahogados, armas de fuego, etc.). Con base en igual a o menor que 0.05. Distribución de probabilidad
esta experiencia, Metropolitan puede estimar la probabilidad Relación de los posibles resultados de un experimento y la
de una muerte accidental para una persona en particular en probabilidad asociada con cada resultado.
Wyoming: 100.2/100 000 = 0.001002. Distribución de probabilidad hipergeométrica Distribu-
Probabilidad subjetiva La posibilidad de que ocurra un ción de probabilidad que se basa en una variable aleatoria
evento con base en cualquier información que esté disponi- discreta. Sus características más importantes son:
ble, presentimientos, opinión personal, opiniones de otras
personas, etcétera. 1. Hay un número fijo de intentos.
Regla especial de la adición Para que esta regla pueda 2. La probabilidad de éxito no es la misma de una prueba
aplicarse, los eventos tienen que ser mutuamente excluyen- a otra.
tes. Para dos eventos, las probabilidad de que ocurra A o B 3. Sólo hay dos resultados posibles.
se encuentra mediante: Probabilidad de distribución binomial Variable aleatoria
discreta con las siguientes características:
1. Cada resultado se puede clasificar en una de dos cate-
Por ejemplo: la probabilidad de que al lanzar un dado caiga gorías mutuamente excluyentes.
uno o dos.
2. La distribución es el resultado de contar el número de
éxitos.
3. Cada intento es independiente, lo cual significa que la
respuesta del intento 1 (correcta o errónea) no afecta en
Regla especial de la multiplicación Si dos eventos no es- forma alguna a la respuesta del intento 2.
tán relacionados entre sí (es decir, son independientes) esta 4. La probabilidad de un éxito permanece igual de un in
regla puede aplicarse para determinar la probabilidad de tento a otro.
que ocurran en forma conjunta.
Variable aleatoria Valor que se obtiene de un experimento
que puede, por casualidad, resultar en diferentes valores.
Por ejemplo: la probabilidad de que caiga dos veces cara al Por ejemplo, un conteo del número de accidentes (el expe-
lanzar una moneda al aire en dos ocasiones es:
Sección 2 245

rimento) en la carretera 1-75 durante una semana puede ser se extiende en forma indefinida en cualquier sentido; y, nun-
10, 11 o 12, o bien, algún otro número. ca toca el eje de las X.
Variable aleatoria continua Variable aleatoria que puede Distribución de probabilidad uniforme Distribución conti-
suponer un número infinito de valores dentro de un rango nua de forma' rectangular. Es descrita en su totalidad utili-
dado. zando los valores mínimo y máximo de la distribución para
Variable aleatoria discreta Variable aleatoria que puede calcular la media y la desviación estándar. A su vez, los va-
suponer sólo ciertos valores independientes. lores mínimo y máximo se utilizan para calcular la probabili-
.dad de cualquier evento.
Factor de corrección de continuidad Se utiliza para me-
Capítulo 7 jorar la exactitud de la aproximación de una distribución dis-
creta por medio de una distribución continua. Valor de z
Distribución de probabilidad normal Distribución conti- Distancia entre un valor seleccionado y la media de la
nua que tiene forma de campana, con la media dividiendo la población medida en unidades de la desviación estándar en
distribución en dos partes iguales. Además, la curva normal una distribución de probabilidad normal estándar.

Ejercicios
Parte I. Opción múltiple
1. Con base en su evaluación del mercado accionario, usted determina que la probabilidad de
que los precios de las acciones empiecen a bajar dentro de dos meses son 50-50. A este
concepto de probabilidad con base en su criterio se le llama:
a. Probabilidad clásica
b. Probabilidad empírica
c. Probabilidad subjetiva
d. Independencia
2. Se está llevando a cabo, un estudio acerca del ausentismo en el salón de clases. En térmi-
nos de estadística, al estudio se le denomina como:
a. Un experimento
b. Un evento
c. Un resultado
d. Una probabilidad conjunta
3. En un estudio sobre el ausentismo los resultados mostraron que el lunes por la mañana se
ausentaron 126 estudiantes. A este número (126) se le denomina como:
a. Un experimento
b. Un evento
c. Un resultado
d. Una probabilidad conjunta
4. Para aplicar la regla de la adición, P(A o Bo C) = P{A) + P(B) + P(C), los eventos tienen que
ser
a. Eventos conjuntos
b. Eventos condicionales
c. Eventos mutuamente excluyentes
d. Eventos independientes
5. La administración afirma que la probabilidad de un relevador defectuoso es de sólo 0.001, la re-
gla que se utiliza para encontrar la probabilidad de que el relevador no esté defectuoso es la
a. Regla de la adición
b. Regla de la multiplicación
c. Regla complementaria
d. Regla especial de la probabilidad
6. La administración afirma que la probabilidad de un relevador defectuoso es de sólo 0.001. La
probabilidad de que el relevador no esté defectuoso es
a. 0.002
b. 0.000001
c. 0.999
d. 1.0
7. Para una distribución de probabilidad, la suma de las probabilidades de todos los resultados
posibles tiene que ser igual a
a. 0.5
b. 1.0
246 Revisión de los capítulos 5 al 7

c. 1.5
d. 1.0
8. Las distribuciones de probabilidad binomial y de Poisson son
a. Continuas
b. Ya sea discretas o continuas
c. Discretas
d. Normales
9. Una distribución de probabilidad normal es
a. Simétrica alrededor de la media.
b. En forma de campana
c. Asintótica con respecto al eje X.
d. Todo lo anterior.
10. Una distribución de probabilidad normal es
a. Simétrica alrededor de la media
b. En forma de campana
c. Asintótica con respecto al eje X
d. Todo lo anterior
11. Para la distribución de probabilidad uniforme y la distribución de probabilidad normal,
a. Las áreas dentro de la distribución son iguales a 1.0
b. Las modas están ubicadas en el centro de la distribución
c. Los rangos de una variable aleatoria son infinitos
d. Es posible utilizar calificaciones z para convertir cada distribución a una distribución nor-
mal estándar
12. Si utilizamos valores de z para convertir cualquier distribución normal, la nueva distribución
es
a. Una distribución normal con una media de 0 y una desviación estándar
b. Una distribución normal estándar con una media igual a 0 y una desviación estándar de 1
c. Una distribución normal estándar con una media de
d. Una distribución de Poisson con media 0

Problemas de la parte II
13. A todos los empleados de TMC Electronics se les ofreció un curso de autoestudio sobre prin-
cipios de administración. Al final del periodo, los empleados hicieron un examen, con los re-
sultados siguientes:

¿Cuál es la probabilidad de un estudiante seleccionado al azar:


a. obtenga una A?
b. obtenga una C o algo mejor?
c. no repruebe o se retire?
14. Se afirma que Proactine, un nuevo medicamento para el acné, es 80% efectivo, esto es, de
cada 100 personas que se la aplican, 80 muestran una importante mejoría. Se aplica al área
afectada de un grupo de 15 personas. ¿Cuál es la probabilidad de que:
a. los 15 en su totalidad muestren una sensible mejoría?
b. menos de 9 de 15 manifiesten una mejoría significativa?
c. que 12 o más personas muestren una mejoría significativa?
15. First National Bank investiga de manera minuciosa a aquellas personas que solicitan prés-
tamos para hacer pequeñas mejoras en sus viviendas. Sus calificaciones de omisión son
muy impresionantes: la probabilidad de que un propietario de una vivienda omita cumplir con
sus pagos es de sólo 0.005. El banco ha aprobado 400 préstamos para el propósito men-
cionado. Suponiendo que la distribución de Poisson es aplicable a este problema:
Sección 2 247

a. ¿Cuál es la probabilidad de que ninguno de los 400 propietarios de viviendas incurra en


omisión?
b. ¿Cuántos de los 400 podríamos esperar que incurran en omisión?
c. ¿Cuál es la probabilidad de que tres o más de los propietarios de viviendas incurran en
omisión de pagos con respecto a sus préstamos para hacer mejoras en sus viviendas?
16. Un estudio sobre la asistencia de aficionados a los juegos de baloncesto en University of
Alabama reveló que la distribución de la asistencia tiene una distribución normal con una
media de 10 000 y una desviación estándar de 2 000.
a. ¿Cuál es la probabilidad de que un juego en particular registre una asistencia de 13 500
o más espectadores?
b. ¿Qué porcentaje de los juegos registra una asistencia de entre 8 000 y 11 500 aficionados?
c. ¿Un 10% de los juegos registra una asistencia de cuánto más o menos?
17. La tabla siguiente muestra un desglose de los 108 miembros del Congreso de los Estados
Unidos por afiliación a algún partido.

a. Un miembro del Congreso se selecciona al azar. ¿Cuál es la probabilidad de escoger a


un republicano?
b. Dado que la persona seleccionada es un miembro de la Cámara de Representantes:
¿Cuál es la probabilidad de que sea un republicano?
c. ¿Cuál es la probabilidad de elegir a un miembro de la Cámara de Representantes o a
un demócrata?
18. El Internal Revenue Service (el Sistema de Administración Tributaria de los Estados Unidos)
ha apartado 200 declaraciones fiscales en las que el monto de las contribuciones caritativas
parece ser excesivo. Del grupo se selecciona una muestra de seis declaraciones. Si dos o
más de este grupo registran montos "excesivos" deducidos de contribuciones caritativas, to-
do el grupo será sometido a una auditoría. ¿Cuál es la probabilidad de que la totalidad del
grupo sea auditado, si la proporción real de deducciones "excesivas" es del 20%? ¿Cuál es
si la proporción real es 30%?
19. La compañía de seguros Daniel-James asegurará una plataforma marítima de producción
de Mobil Oil contra pérdidas ocasionadas por el clima a lo largo de un año. El presidente de
la aseguradora estima las pérdidas siguientes para esa plataforma (en millones de dólares)
con las probabilidades anexas.

a. ¿Cuál es el monto esperado que tendrá que pagar Daniel-James a Mobil por concepto
de demandas?
b. ¿Cuál es la probabilidad de que Daniel-James en realidad pierda menos del monto es-
perado?
c. Daniel-James sufre una pérdida, así que ¿cuál es la probabilidad de que sea de $300
millones?
d. Daniel-James fijó la prima anual en 2.0 millones de dólares. ¿Ésa parece ser una prima
equitativa? ¿Cubrirá su riesgo?
20. La distribución del número de niños en edad escolar por familia en el área de Whitehall Es-
tates de Boise, Idaho, es:
248 Revisión de los capítulos 5 al 7

a. Determine la media y la desviación estándar del número de infantes en edad escolar


por familia en la región de Whitehall Estates.
b. Está planeada una nueva escuela en la región de Whitehall Estates. Se necesita un es
timado del número de niños en edad escolar. Hay 500 unidades familiares. ¿Cuántos
niños estimaría usted?
c. Se necesita alguna información adicional sólo acerca de las familias que tienen niños.
Convierta la información anterior a una para familias con niños. ¿Cuál es el número me
dio de niños entre las familias que los tienen?

Casos
A. Century National Bank Utilice los datos para evaluar las dos propuestas de Sa-
ra. Calcule la probabilidad de rechazar una página al ampa-
Consulte los datos relativos a Century National Bank. ¿Es ra- ro de cada uno de los enfoques. ¿Obtendría casi los mismos
zonable que la distribución para verificar los balances de las resultados analizando cada firma en lo individual? Proponga
cuentas se aproxime a una distribución, normal? Determine la su propio plan y analice por qué sería mejor o peor que los
media y la desviación estándar para la muestra de 60 clientes. dos planes que sugiere Sara.
Compare la distribución real con la distribución teórica. Men-
cione algunos ejemplos específicos y comente sus hallazgos.
Divida los balances de las cuentas en tres grupos, de 20
cada uno, con la tercera parte más pequeña de los balances
en el primer grupo, el tercio medio en el segundo grupo y
aquellas que tienen el balance más considerable en el tercer
grupo. Después, formule una tabla en la que muestre el nú-
mero de cada una de las categorías de los balances de las
cuentas por división. ¿Parece ser que las cuentas estén re-
lacionadas con la división correspondiente? Enumere algu-
nos ejemplos y comente lo que encontró.

B. Auditor de elecciones
Un asunto como el aumento de los impuestos, la revocación
de funcionarios electos, o una expansión de los servicios pú-
blicos pueden someterse a un referéndum si se recaban las
firmas válidas suficientes para respaldar la petición. Desa-
fortunadamente, muchas personas firmarán la petición aun-
que no estén registrados en ese distrito en particular, o fir-
marán la petición más de una vez.
Sara Ferguson, la auditora de elecciones en el condado C. Geoff "aplica" su educación
de Venango tiene que certificar la validez de estas firmas an- Geoff Brown es el gerente de una pequeña empresa de te-
tes que la petición se presente oficialmente. No es de sor- lemarketing y está evaluando la tasa de ventas de sus tra-
prender que su personal tenga una excesiva carga de traba- bajadores experimentados a fin de establecer estándares
jo, por consecuencia está considerando la posibilidad de mínimos para nuevas contrataciones. A lo largo de las últi-
utilizar métodos estadísticos para validar los documentos mas semanas, ha registrado el número de llamadas exitosas
que contienen 200 firmas, en lugar de validar cada firma en por hora del personal. Estos datos aparecen enseguida jun-
lo individual. Durante una reunión profesional reciente, des- to con algunas estadísticas resumidas que formuló con ayu-
cubrió que en algunas comunidades del estado, los funcio-
da de un programa de computación de estadística. Geoff es-
narios electorales estaban verificando sólo cinco firmas de
tudió en la universidad de la comunidad y ha escuchado
cada página, rechazando la página completa si dos o más
acerca de distintos tipos de distribuciones de probabilidad
firmas eran invalidadas. A algunas personas les preocupa
(binomial, normal, hipergeométrica, de Poisson etc.). ¿Po-
que cinco firmas no sean suficientes para tomar una buena
dría usted dar algunos consejos a Geoff en cuanto a cuál
decisión. Ellos sugieren que usted debe verificar 10 firmas y
distribución utilizar para adaptarse a estos datos lo mejor po-
rechazar la página si se invalidan tres o más firmas.
sible y cómo decidir cuándo aceptar a un empleado que está
Con el objeto de investigar estos métodos, Sara le pide
a prueba una vez que alcanza el mayor grado de produc-
a su personal que extraiga los resultados de la última elec-
tividad? Esto es importante porque significa un incremento
ción y tome una muestra de 30 páginas. Sucede que el per-
salarial para el empleado y, en el pasado, algunos trabaja-
sonal escogió 14 páginas, del distrito Avondale, nueve de
Midway y siete de Kingston. Cada página contenía 200 fir- dores a prueba abandonaron el empleo debido a que se de-
mas, y los datos que aparecen a continuación muestran el salentaron porque no cumplieron con el estándar.
número de firmas invalidadas en cada una. Llamadas de ventas exitosas por hora durante la sema-
na del 14 de agosto:
Sección 2 249

La calificación es la suma de los puntos en los seis rubros.


Sushi Brown tiene menos de 25 años (12 puntos), ha vivido
en la misma dirección durante dos años (10 puntos), es due-
ña de un automóvil con cuatro años de antigüedad (13 pun-
tos), por el que realiza pagos de $75 (6 puntos), gastos do-
mésticos de $200 y una cuenta de cheques (3 puntos). La
calificación que obtendría es 44.
Luego se utiliza una segunda tabla para convertir califi-
caciones a probabilidades de ser un cliente rentable. A con-
tinuación aparece una tabla de este tipo.

¿Qué distribución cree usted que debería utilizar Geoff para


este análisis?
La calificación de Sushi de 44 se traduciría en una probabi-
D. Tarjeta de crédito del Banco CNP lidad de ser rentable de aproximadamente 0.81. En otras pa-
labras, 81% de los clientes parecidos a Sushi le generarían
Antes de que los bancos emitan una tarjeta de crédito, por
dinero a las operaciones del banco con tarjeta.
lo general clasifican o califican al cliente en términos de su
A continuación se muestran los resultados de las entre-
probabilidad proyectada de ser un cliente rentable. A conti-
vistas para tres clientes potenciales.
nuación se muestra una tarjeta de calificación típica.

a. Califique a cada uno de estos clientes y estime su pro


babilidad de ser rentables.
b. ¿Cuál es la probabilidad de que los tres sean rentables?
c. ¿Cuál es la probabilidad de que ninguno de ellos sea
rentable?
d. Encuentre la distribución de probabilidad total para el
número de clientes rentables entre este grupo de tres.
Métodos de muestreo
y el teorema del
límite central

En la oficina del centro de la ciudad del First National City Bank hay cinco cajeros automáticos.
¿Cuántas muestras diferentes de dos cajeros son posibles? (Vea la Meta 3 y el Ejercicio 28.)
Métodos de muestreo y el teorema del límite central 251

Introducción
Los Capítulos 1 al 4 enfatizaron las técnicas para describir datos. A fin de ilustrar estas téc-
nicas, organizamos los precios de los 80 vehículos que se vendieron durante el mes pasado
en Whitner Autoplex en una distribución de frecuencia y calculamos diversas medidas de ubi-
cación y dispersión. Medidas como la media y la desviación estándar describen el precio tí-
pico de venta y la dispersión en los precios de venta. En estos capítulos el énfasis se centró
en describir la condición de la información. Es decir, describimos algo que ya sucedió.
El Capítulo 5 empieza por definir los fundamentos de la inferencia estadística con el estu-
dio de la probabilidad. Recuerde que nuestro objetivo en la inferencia estadística es determinar
algo acerca de una población con base sólo en una muestra. La población es la totalidad del
grupo de individuos u objetos que se someten a consideración, y la muestra es una parte o un
subconjunto representativo de esa población. El Capítulo 6 amplía los conceptos de probabili-
dad al describir tres distribuciones de probabilidad discreta: la binomial, la hipergeométrica y la
de Poisson. El Capítulo 7 describe la distribución de probabilidad uniforme y la distribución de
probabilidad normal. Estas dos son distribuciones continuas. Las distribuciones de probabilidad
abarcan todos los resultados posibles de un experimento y la probabilidad relacionada con ca-
da resultado. Utilizamos las distribuciones de probabilidad para evaluar la posibilidad de que al-
go ocurra en el futuro.
En este capítulo empezamos a estudiar el muestreo. Una muestra es una herramienta
para inferir algo acerca de una población. Iniciamos el presente capítulo con un análisis de
los métodos de selección de una muestra de una población. Luego, construimos una distri-
bución muestral de medias para entender la manera en que las medias de la muestra sue-
len hacinarse alrededor de la media de la población. Por último, demostramos que para
cualquier población la forma de esta distribución de muestreo tiende a seguir la distribución
de probabilidad normal.

Métodos de muestreo
En el Capítulo 1 dijimos que el propósito de la estadística inferencial es averiguar algo acer-
ca de una población con base en una muestra. Una muestra es una porción o parte repre-
sentativa de la población de interés. En muchos casos, el muestreo es más viable que estudiar
a la población en su totalidad. En esta sección demostramos los motivos principales para rea-
lizar un muestreo, y después diversos métodos para seleccionar una muestra.

Razones del muestreo


Cuando se estudian las características de una población, existen muchas razones de tipo
práctico por las que preferimos seleccionar muestras de una población para observar y me-
dir. Algunas de las razones del muestreo son las siguientes.

1. Establecer contacto con la totalidad de la población requeriría de demasiado


tiempo. Es posible que un candidato a algún puesto federal de elección popular quie-
ra determinar las posibilidades que tiene de resultar electo. Una encuesta de muestreo
utilizando el personal y las entrevistas de campo convencionales de una empresa es-
pecializada en encuestas tardaría sólo uno o dos días. Utilizando el mismo personal y
los mismos entrevistadores y trabajando siete días a la semana, ¡se necesitarían casi
200 años para ponerse en contacto con la totalidad de la población en edad de votar!
Aunque fuera posible reunir a un numeroso equipo de encuestadores, quizá no valdría
la pena contactar a todos los votantes.
2. El costo de estudiar todos los elementos en una población puede resultar prohibiti-
vo. Las organizaciones que realizan encuestas de opinión pública y pruebas entre los con-
sumidores, como Gallup Polis y Roper ASW, por lo regular establecen contacto con menos
de 2 000 de las casi 60 millones de familias que viven en Estados Unidos. Una organiza-
ción tipo panel de consumidores cobra cerca de 40 000 dólares por enviar muestras por
correo y tabular las respuestas a fin de probar un producto (como cereal para el desayu-
no, alimento para gato o algún perfume). La misma prueba de producto utilizando la tota
lidad de las 60 millones de familias costaría alrededor de 1 000 millones de dólares.
252 Capítulo 8

3. La imposibilidad física de verificar todos los elementos de la población. Las po-


blaciones de peces, aves, serpientes, mosquitos y similares son muy numerosas y se
desplazan, nacen y mueren en forma constante. En lugar de intentar contar todos los
patos que existen en Canadá o todos los peces que habitan en el lago Erie, hacemos
cálculo empleando diversas técnicas, como contar todos los patos que viven en un es-
tanque elegido al azar, revisando las cestas de los cazadores o colocando redes en lu-
gares predeterminados en el lago.
4. La naturaleza destructiva de algunas pruebas. Si los catadores de vino de Sutter Ho-
me Winery, en California, se tomaran todo el vino para evaluar la vendimia, consumirían
la totalidad de la cosecha y no quedaría nada disponible para vender. En el área de la
producción industrial, las placas de acero, los cables y productos similares deben tener
cierta resistencia mínima a la tensión. Para asegurar que el producto cumple con las es-
pecificaciones mínimas, el Departamento de Aseguramiento de la Calidad selecciona una
muestra de la producción actual. Cada pieza se estira hasta que se rompe, y se registra
el punto de fractura (por lo regular en libras por pulgada cuadrada). Es evidente que si to-
do el cable o todas las placas se sometieran a pruebas de resistencia a la tensión no ha-
bría productos disponibles para la venta o para utilizarlos. Por el mismo motivo, Kodak
sólo selecciona una muestra de película fotográfica y la somete a pruebas para determi-
nar la calidad de todos los rollos que se producen y sólo unas cuantas semillas se some-
ten a pruebas de germinación en Burpee antes de la temporada de siembra.
5. Los resultados de la muestra son adecuados. Aunque se dispusiera de recursos su-
ficientes, dudamos que la precisión adicional de una muestra del 100% (es decir, estu-
diar a toda la población) sea de importancia fundamental en la mayor parte de los
problemas. El gobierno federal de Estados Unidos, por ejemplo, utiliza una muestra de
supermercados repartidos por todo el país para determinar el índice mensual de pre-
cios de alimentos. En el índice se incluyen los precios del pan, los frijoles, la leche y
otros productos alimenticios. Es poco probable que la inclusión de todos los supermer-
cados de Estados Unidos afecte el índice en términos significativos, porque los precios
de la leche, el pan y otros alimentos no suelen vahar más que unos cuantos centavos
de una cadena de tiendas a otra.

Al seleccionar una muestra, los investigadores o analistas deben prestar


mucha atención en que la muestra sea una representación imparcial de la po-
blación. En otras palabras, la muestra debe estar libre de influencias o sesgos.
En el Capítulo 1, un ejemplo del abuso de la estadística es la selección
intencional de los dentistas para reportar que "dos de cada tres dentistas en-
trevistados indicaban que recomendarían la pasta dentífrica marca X a sus
pacientes". Es evidente que la gente puede seleccionar una muestra que res-
palde sus propias influencias o sesgos. El aspecto ético de la estadística exige
siempre que las muestras estén libres de influencias o sesgos y que los
informes acerca de los resultados se elaboren en forma objetiva. A continua-
ción, varios métodos de muestre© ilustran cómo seleccionar una muestra im-
parcial y libre de influencias de una población.

Muestreo aleatorio simple


El tipo de muestreo que más se utiliza es el muestreo aleatorio simple.

MUESTRA ALEATORIA SIMPLE Muestra seleccionada de modo que cada elemento o


persona en la población tiene la misma oportunidad de resultar seleccionado.

Para ilustrar el muestreo aleatorio simple y la selección, supongamos que una pobla-
Una tabla de números ción consiste en 845 empleados de Nitra Industries. Se va a seleccionar una muestra de 52
aleatorios es una forma empleados de esa población. Una forma de asegurar que todos los empleados en la pobla-
eficiente de seleccionar a los ción tienen la misma posibilidad de ser electos consiste en escribir el nombre de cada em-
miembros de una muestra. pleado en un trozo de papel pequeño y depositar todos los trozos en una caja. Una vez que
Métodos de muestreo y el teorema del límite central 253

los pedazos de papel se han mezclado bien, se hace la primera selección extrayendo una
papeleta de la caja sin verla. Este proceso se repite hasta terminar de elegir el tamaño de
la muestra de 52.
Un método más conveniente para seleccionar una muestra aleatoria simple consiste en
utilizar el número de identificación de cada uno de los empleados y una tabla de números
aleatorios como la que aparece en el Apéndice E. Como su nombre lo dice, estos núme-
ros se generaron a través de un proceso aleatorio (en este caso por medio de una compu-
tadora). La probabilidad de 0, 1, 2, ..., 9 es la misma para cada dígito de un número. Por
consecuencia, la probabilidad de que se seleccione el empleado 011 es la misma que la del
empleado 722 o el 382. Al utilizar números aleatorios para seleccionar empleados, se eli-
mina la influencia o sesgo del proceso de selección.
En la ilustración siguiente aparece una porción de una tabla de números aleatorios. Para
seleccionar una muestra de empleados, elija primero un punto de partida en la tabla;
cualquier punto es adecuado. Suponga que la hora que marca nuestro reloj es 3:04. Pue-
de observar la tercera columna y luego desplazarse hacia abajo hasta el cuarto conjunto de
números. El número es 03759. Como sólo hay 845 empleados, utilizaremos los tres prime-
ros dígitos de un número aleatorio de cinco dígitos. Por tanto, 037 es el número del primer
empleado que será miembro de la muestra. Otra manera de elegir el punto de partida con-
siste en cerrar los ojos y señalar un número en la tabla. Para seguir escogiendo emplea-
dos, podría desplazarse en cualquier sentido. Suponga que lo hace hacia la derecha. Los
primeros tres dígitos del número a la derecha de 03759 son 447, el número del empleado
seleccionado en segundo término para integrar la muestra. El siguiente número de tres dí-
gitos a la derecha es 961. Omita 961 porque sólo hay 845 empleados. Continúe hacia la de-
recha y seleccione el empleado 784, después 189 y así sucesivamente.

Autoevaluación 8-1 La siguiente lista de alumnos presenta los estudiantes que se inscribieron a una clase de induc-
ción a la estadística administrativa. Se van a seleccionar tres estudiantes al azar a los que se les
van a hacer varias preguntas acerca del contenido del curso y el método de enseñanza.
(a) Los números 00 a 45 se escriben a mano en papeletas y se colocan en un recipiente. Los tres
números seleccionados son 31, 7 y 25. ¿Qué estudiantes se van a incluir en la muestra?
(b) Ahora utilice la tabla de dígitos aleatorios, Apéndice E, para seleccionar su propia muestra.
(c) ¿Qué haría si encontrara el número 59 en la tabla de números aleatorios? (Ver tabla de
la página siguiente.)

Muestreo aleatorio sistemático


El procedimiento de muestreo aleatorio simple puede resultar complicado en algunas situa-
ciones de investigación Suponga, por ejemplo, que la división de ventas de Computers
Printers Unlimited necesita estimar rápidamente el ingreso medio en dólares por venta du-
rante el mes pasado Encontraron que se habían registrado 2 000 recibos de ventas y se
habían almacenado en cajones de un archivero, y decidieron seleccionar 100 recibos para
calcular el ingreso medio en dólares El muestreo aleatorio simple requiere que se numere
cada recibo antes de utilizar la tabla de números aleatorios para seleccionar los 100 reci-
bos El proceso de numeración puede tardar mucho En lugar de ello, es posible utilizar el
muestreo aleatorio sistemático
254 Capítulo 8

Primero, se calcula k que es el resultado de dividir el tamaño de la población entre el ta-


maño de la muestra. Para Computers Printers Unlimited, seleccionaríamos cada 20 recibos
(2 000/100) de los cajones del archivero; al hacerlo evitamos el proceso de numerar. Si /cno
es un número completo, hay que redondearlo.
En la selección del primer recibo se utiliza el muestreo aleatorio simple. Por ejemplo,
se seleccionará un número de una tabla de números aleatorios entre 1 y /c, o sea 20. Diga-
mos que el número aleatorio resultó ser 18; entonces, empezando por el recibo 18, cada 20
recibos (18, 38, 58, etc.) se seleccionará como la muestra.
Antes de utilizar el muestreo aleatorio sistemático, debemos observar con todo cuida-
do el orden físico de la población. Cuando el orden físico se relaciona con la característica
de la población, entonces no se debe utilizar el muestreo aleatorio sistemático. Por ejem-
plo, si los recibos que se mencionan en el ejemplo se archivaran en orden de incremento
en ventas, el muestreo aleatorio sistemático no garantizaría una muestra aleatoria. Debe-
mos utilizar otros métodos de muestreo.

Muestreo aleatorio estratificado


Cuando una población es susceptible de dividirse en grupos con base en algunas caracte-
rísticas, se puede utilizar el muestreo aleatorio estratificado para garantizar que cada
grupo esté representado en la muestra. A los grupos también se les llama estratos. Los es-
tudiantes universitarios, por ejemplo, se pueden agrupar como de tiempo completo o medio
tiempo, de sexo masculino o femenino, regulares o no regulares. Una vez que se han defi-
nido los estratos, podemos aplicar el muestreo aleatorio simple en cada grupo o estrato para
formar la muestra.

MUESTRA ALEATORIA ESTRATIFICADA Una población se. divide en subgrupos, llamados


estratos, y selecciona al azar un elemento de cada estrato.
Métodos de muestreo y el teorema del límite central 255

Por ejemplo, podríamos estudiar los gastos en publicidad de las 352 empresas más
grandes de Estados Unidos. Suponga que el objetivo del estudio es determinar si las com-
pañías con altos rendimientos sobre el capital (una medida de la productividad) gastan una
mayor parte del dinero ganado en las ventas en propaganda que aquellas empresas que
registran un bajo rendimiento o un déficit. Para asegurarse de que la muestra es una repre-
sentación imparcial de las 352 empresas, las compañías se agrupan de acuerdo con su ren-
dimiento porcentual sobre el capital. La Tabla 8-1 incluye los estratos y las frecuencias
relativas. Si se utilizara el muestreo aleatorio simple, observe que las compañías que se en-
° °
cuentran en los estratos 3 y 4 tienen una alta probabilidad de ser seleccionadas (una pro-
babilidad de 0.87), mientras que aquellas que aparecen en los otros estratos tienen pocas
probabilidades de resultar seleccionadas (probabilidad de 0.13). Podríamos no elegir ningu-
na de las empresas que aparecen en los estratos 1 o 5 simplemente por casualidad. Sin
embargo, el muestreo aleatorio estratificado garantizará que por lo menos una empresa de
los estratos 1 y 5 estén representadas en la muestra. Digamos que se seleccionan 50 com-
pañías para efectuar un estudio minucioso. Entonces se seleccionará 1 (0.02 x 50) empresa
del estrato 1 en forma aleatoria, 5 (0.10 x 50) del estrato 2 y así sucesivamente. En este
caso, el número de empresas de cada estrato es proporcional a la frecuencia relativa del
estrato en la población. El muestreo estratificado ofrece la ventaja de que, en algunos ca-
sos, refleja con mayor precisión las características de la población que el muestreo aleato-
rio simple o el muestreo aleatorio sistemático.

Muestreo por conglomerados


Otro tipo de muestreo común es el muestreo por conglomerados. Éste se utiliza a menu-
do a fin de reducir el costo del muestreo de una población dispersa en una región geográ-
fica extensa.

MUESTREO POR CONGLOMERADOS, Una población se divide en grupos o conglomera-


dos utilizando los límites naturales geográficos o de otros tipos. Luego, los grupos se
seleccionan al azar y se recopila una muestra al elegir en forma aleatoria elementos
de cada grupo.

Suponga que desea determinar las opiniones de los residentes en algún estado en par-
ticular acerca de las políticas federales y estatales de protección del ambiente. Seleccionar
una muestra aleatoria de residentes en el estado y contactar personalmente a cada persona
requeriría demasiado tiempo y resultaría muy costoso. En lugar de ello, podría utilizar el
muestreo por conglomerado subdividiendo el estado en unidades pequeñas, ya sea conda-
dos o regiones, que con frecuencia se conocen como unidades primarias.
Suponga que dividió el estado en 12 unidades primarias, luego seleccionó al azar cua-
tro regiones, 2, 7, 4 y 12, y posteriormente centrar sus esfuerzos en estas unidades prima-
rias. Podría tomar una muestra aleatoria de los residentes en cada una de estas regiones y
entrevistarlos. (Observe que ésta es una combinación de muestreo por aglomerado y mues-
treo aleatorio simple.)
256 Capítulo 8

Muchos otros métodos de El análisis de los métodos de muestreo en las secciones anteriores no incluyó todos los
muestreo. métodos de muestreo que tiene a su disposición un investigador. Si usted participara en un
importante proyecto de investigación sobre mercadotecnia, finanzas, contabilidad u otras
áreas, necesitaría consultar libros dedicados a la teoría del muestreo y al diseño de muestras.

Autoevaluación 8-2 Consulte la Autoevaluación 8-1 (página 253) y la lista de alumnos en la página 254. Suponga
que un muestreo aleatorio sistemático va a seleccionar a cada noveno estudiante inscrito en
el curso. En un principio, se eligió al azar al cuarto alumno de la lista, y se le da el número 03.
Sin olvidar que los números aleatorios empiezan con el 00, ¿qué estudiantes se van a elegir
como miembros de la muestra? . ,

Ejercicios
1. La siguiente es una lista de las tiendas de Marco's Pizza en el condado de Lucas. También
indica si la tienda es de propiedad corporativa (C) o propiedad del administrador (A). Se va
a seleccionar y a inspeccionar una muestra de cuatro establecimientos en cuanto a la con-
veniencia para el cliente, seguridad, higiene y otras características.

a. Los números aleatorios seleccionados son 08, 18, 11, 54, 02, 41 y 54. ¿Qué tiendas se
seleccionaron?
b. Utilice la tabla de números aleatorios para seleccionar su propia muestra de estableci-
mientos.
c. Una muestra debe consistir de cada 7- establecimiento. El número 03 es el punto de par-
tida. ¿Qué establecimientos se incluirán en la muestra?
d. Suponga que una muestra debe consistir de tres establecimientos, de los cuáles dos son
de propiedad corporativa y uno es propiedad del administrador. Seleccione una muestra
apropiada.
2. La siguiente es una lista de hospitales en las regiones de Cincinnati (Ohio) y de la región
norte de Kentucky. También, indica si el hospital es general médico/quirúrgico (M/Q) o de es-
pecialidades (E). Nos interesa calcular el número promedio de enfermeras que trabajan me-
dio tiempo y tiempo completo en los hospitales del área.
a. Se va a seleccionar una muestra de cinco hospitales en forma aleatoria. Los números
aleatorios son 09, 16, 00, 49, 54, 12 y 04. ¿Qué hospitales se incluyen en la muestra?
Métodos de muestreo y el teorema del límite central 257

b. Utilice una tabla de números aleatorios para desarrollar su propia muestra de cinco hos-
pitales.
c. Una muestra debe incluir cada 5- establecimiento. Seleccionamos 02 como el punto de
partida. ¿Qué hospitales se incluirán en la muestra?
d. Una muestra debe consistir en cuatro hospitales médico/quirúrgicos y un hospital de es-
pecialidades. Seleccione una muestra adecuada.
3. A continuación, presentamos una lista de los 35 miembros de la Metro Toledo Automobile Dea-
lers Association. Quisiéramos estimar el ingreso medio de los departamentos de servicios
de los distribuidores.
258 Capítulo 8

a. Queremos seleccionar una muestra aleatoria de cinco distribuidores. Los números alea
torios son: 05, 20, 59, 21, 31, 28, 49, 38, 66, 08, 29 y 02. ¿Qué distribuidores se van a
incluir en la muestra?
b. Utilice la tabla de números aleatorios para seleccionar su propia muestra de cinco distri-
buidores.
c. Una muestra debe consistir en cada 7- distribuidor. Se selecciona como punto de parti-
da el número 04. ¿Qué distribuidores se incluyen en la muestra?
4. A continuación se enumeran los 27 agentes de seguros de Nationwide Insurance en el área
metropolitana de Toledo, Ohio. Queremos calcular el número medio de años que han traba-
jado en Nationwide.

a. Deseamos seleccionar una muestra aleatoria de cuatro agentes. Los números aleatorios
son: 02, 59, 51, 25,145, 29, 77, 69 y 18. ¿Qué distribuidores se van a incluir en la muestra?
b. Utilice la tabla de números aleatorios para seleccionar su propia muestra de cuatro agentes.
°
c. Una muestra consiste de cada 7 distribuidor. El número 04 se selecciona como punto de
partida. ¿Qué agentes se van a incluir en la muestra?

"Error" de muestreo
En la sección anterior se analizaron métodos de muestreo que pueden utilizarse para se-
leccionar una muestra que es una representación imparcial o sin sesgos de la población.
En cada método es importante señalar que la selección de cualquier muestra posible de un
tamaño específico de una población tiene una posibilidad o probabilidad conocida. Ésta es
otra forma de describir un método de muestreo sin sesgo.
Las muestras se utilizan para estimar características de la población. Por ejemplo, la
media de una muestra se utiliza para estimar la media de la población. Sin embargo, como
la muestra es una parte o porción representativa de la población, es poco probable que la me-
dia de la muestra sea exactamente igual a la media de la población. De manera análoga,
es poco probable que la desviación estándar de la muestra sea exactamente iguala la des-
viación estándar de la población. Por tanto, podemos esperar una diferencia entre el esta-
dístico de una muestra y el parámetro de la población correspondiente. A la diferencia se le
llama error de muestreo.

ERROR DE MUESTRÉO La diferencia entre un estadístico de la muestra y el parámetro


de la población correspondiente.

Tome la población formada por cinco empleados de Kiser Industries. La semana pasa-
da, la producción de cada empleado fue 97, 103, 96, 99 y 105 unidades. Suponga que se-
leccionamos una muestra de dos empleados y que la producción de los dos fue 97 y 105,
respectivamente. La media de esta muestra es 101, que se encuentra por medio de (97 +
105)/2. Otra muestra de dos empleados dio como resultado producciones de 103 y 96; por
tanto, la media de esta muestra es 99.5. No obstante, la media de todas las producciones
(la media de la población) es 100, que se calcula así
Métodos de muestreo y el teorema del límite central 259

El error de muestreo para la primera muestra es 1.0, calculado =101 - 100. El error de
muestreo para la segunda muestra es -0.5, calculado Cada una de estas
diferencias, 1.0 y -0.5, es el error de muestreo que se cometió al estimar la media de la pobla-
ción con base en la media de la muestra. Estos errores de muestreo se deben a la casualidad.
En este ejemplo, cada una de las 10 muestras posibles de tamaño 2 [véase la fórmula
(5-10)], correspondiente a la regla de la combinación, que aparece en la página 168) tiene
la misma posibilidad de ser seleccionada. Cada muestra puede tener una media de la
muestra distinta y un error de muestreo diferente. El valor del error de muestreo se basa en
la selección aleatoria de una muestra. Por tanto, los errores de muestreo son aleatorios y
ocurren por casualidad.
Ahora que hemos descubierto la posibilidad de que ocurra un error de muestreo cuan-
do los resultados de un muestreo se utilizan para estimar un parámetro de una población,
¿cómo podemos hacer una proyección precisa acerca del posible éxito de una pasta den-
tífrica o de otro producto recién desarrollado con base en los resultados de la muestra úni-
camente? ¿Cómo puede el departamento de aseguramiento de la calidad de una empresa
de producción en serie liberar un embarque basándose sólo en una muestra de 10 chips?
¿Cómo pueden las organizaciones que levantan encuestas de CNN/USA Today o ABC
News/Washington Post hacer un pronóstico exacto acerca de una elección presidencial con
base en una muestra de 2 000 votantes registrados de una población de casi 90 millones
de votantes? Para responder estas preguntas, primero desarrollamos una distribución de
muestral de medias.

Distribución
muestral de medias
Las medias de la muestra El resultado de producción en el ejemplo anterior demostró que las medias para muestras
varían en cada muestra. de un tamaño específico varían de una muestra a otra. La producción media de la primera
muestra de dos empleados fue 101, y la media de la segunda muestra fue 99.5. Es proba-
ble que una tercera muestra dé como resultado una media distinta. La media de la pobla-
ción fue 100. Si organizamos las medias de todas las muestras posibles de dos empleados
en una distribución de probabilidad, obtendremos la distribución muestral de medias.

El ejemplo siguiente ilustra la construcción de una distribución muestral de medias.

Tartus Industries cuenta con siete empleados de producción (se considera como la pobla-
ción). En la Tabla 8-2 se proporcionan los ingresos por hora de cada empleado.

Ingresos por hora de producción de Tartus Industries

1. ¿Cuál es la media de la población?


2. ¿Cuál es la distribución distribución muetral de medias para muestras de tamaño 2?
260 Capítulo 8

3. ¿Cuál es la media de la distribución muestral de medias?


4. ¿Qué observaciones pueden hacerse acerca de la población y de la distribución mues-
tral de medias?

1. La media de la población es $7.71, que se encuentra por medio de:

Identificamos la media de la población mediante la letra griega La política que esta-


blecemos en los Capítulos 1, 3 y 4 es identificar los parámetros de población con letras
griegas.
2. Para llegar a la distribución muestral de medias, todas las muestras posibles de tamaño
2 se seleccionaron sin reemplazos en la población, y se calcularon sus medias. Hay 21
muestras posibles, que se encontraron utilizando la fórmula (5-10) que presentamos en
la página 168.

donde N = 7 es el número de elementos en la población y n = 2 es el número de ele-


mentos en la muestra.
En la Tabla 8-3 se ilustran las 21 medias de muestra de todas las muestras posi-
bles de tamaño 2 que se pueden extraer de la población. Estas 21 muestras se utilizan
para construir una distribución de probabilidad que es la distribución muestral de me-
dias y se resume en la Tabla 8-4.

Medias de las muestras de todas las muestras de tamaño 2 de los empleados posibles

Distribución muestral de medias para n = 2

3. La media de la distribución muestral de medias se obtiene al sumar las diversas medias


de la muestra y dividiendo la suma entre el número de muestras. La media de todas las
medias de la muestra casi siempre se expresa como nos recuerda que es un va-
lor de población porque hemos considerado todas las muestras posibles. El subíndice
indica que es la distribución muestral de medias.
Métodos de muestreo y el teorema del límite 261
central

La media de la población es
igual a la media de las medias
de las muestras.

Consulte la Gráfica 8-1, que ilustra tanto la distribución de la población como la distri-
bución de las medias de las muestras. Estas observaciones se pueden hacer en: a.
La media de la distribución de las medias de las muestras ($7.71) es igual a la me-

b. La dispersión en la distribución de las medias de las muestras es menor que la disper-


sión en los valores de población. La media de las muestras varía entre $7.00 y $8.50,
en tanto que los valores de población varían entre $7.00 y $9.00. De hecho, la desvia-
ción estándar de la distribución de la media deja muestra es igual a la desviación es-
tándar de la población dividida entre la raíz cuadrada del tamaño de la muestra. Por
tanto, la fórmula para la desviación estándar de la distribución de las medias de las
Observe que conforme aumenta el tamaño de la muestra, se hace
más pequeña la dispersión de la distribución de las medias de las muestras,
c. La forma de la distribución muestral de medias y la forma de la distribución de fre-
cuencia de los valores de la población son diferentes. La distribución de las medias
de las muestras suele tener más forma de campana y se aproxima a la distribución
de probabilidad normal.

Distribución de los valores de la población y las medias de las muestras

En resumen, tomamos todas las muestras aleatorias posibles de una población y pa-
ra cada una calculamos su media (el ingreso medio recibido). Este ejemplo ilustra rela-
ciones importantes entre la distribución de la población y la distribución muestral de
medias.
1. La media de las medias de las muestras es exactamente igual a la media de la población.
2. La dispersión de la distribución muestral de medias es más estrecha que la distribución
de la población.
3. La distribución muestral de medias suele tener forma de campana y se aproxima a la
distribución de probabilidad normal.
Dada una distribución de probabilidad con forma de campana o normal, estaremos en
posibilidad de aplicar conceptos del Capítulo 7 para determinar la probabilidad de seleccio-
nar una muestra con una media específica. En la sección siguiente, demostraremos la im-
portancia del tamaño de la muestra según se relaciona con la distribución muestral de
medias.

Ejercicios
5. Una población esta formada por los cuatro valores siguientes: 12, 12, 14 y 16.
a. Enumere todas las muestras de tamaño 2 y calcule la media de cada muestra.
b. Calcule la media de la distribución muestral de medias y la media de la población. Com-
pare los dos valores.
262 Capítulo 8

Autoevaluación 8-3 Los tiempos de servicio de todos los ejecutivos que trabajan en Standard Chemicals son:

(a) Utilizando la fórmula de combinación, ¿cuántas muestras tamaño 2 son posibles?


(b) Mencione todas las muestras posibles de tamaño 2 ejecutivos de la población y calcule sus
medias.
(c) Organice las medias en una distribución muestral de medias.
(d) Compare la media de la población y la media de las medias de las muestras.
(e) Compare la dispersión en la población con aquella en la distribución muestral de medias.
(f) A continuación, presentamos una gráfica que ilustra los valores de la población. ¿La
dis-

(g) ¿La distribución muestral de medias que se calculó en la parte (c) empieza a indicar cierta
tendencia hacia una forma de campana?

c. Compare la dispersión en la población con aquella de las medias de las muestras.


6. Una población consiste en los cinco valores siguientes: 2, 2, 4, 4, y 8.
a. Enumere todas las muestras de tamaño 2, y calcule la media de cada muestra.
b. Calcule la media de la distribución muestral de medias y la media de la población. Com-
pare los dos valores.
c. Compare la dispersión en la población con aquella de las medias de las muestras.
7. Una población consiste en los cinco valores siguientes: 12, 12, 14, 15 y 20. .
a. Enumere todas las muestras de tamaño 3 y calcule la media de cada muestra.
b. Calcule la media de la distribución muestral de medias y la media de la población. Com-
pare los dos valores.
c. Compare la dispersión en la población con aquella de las medias de las muestras.
8. Una población consiste en los cinco valores siguientes: 0, 0, 1, 3, 6.
a. Enumere todas las muestras de tamaño 3 y calcule la media de cada una.
b. Calcule la media de la distribución muestral de medias y la media de la población. Com-
pare los dos valores.
c. Compare la dispersión en la población con aquella de las medías de las muestras.
9. En el despacho legal Tybo and Associates, hay seis socios. A continuación, presentamos el
número de casos que realmente manejó cada socio en los tribunales durante el último mes.
Métodos de muestreo y el teorema del límite central 263

a. ¿Cuántas muestras distintas de tamaño 3 son posibles?


b. Enumere todas las muestras posibles de tamaño 3 y calcule la media de cada muestra.
c. Compare la media de la distribución muestral de medias con la media de la población.
d. En una gráfica similar a la Gráfica 8-1, compare la dispersión en la población con aque-
lla en la distribución muestral de medias.
10. En Mid-Motors Ford hay cinco vendedores. Los cinco representantes de ventas y el número
de automóviles que vendieron durante la última semana son:

a. ¿Cuántas muestras diferentes de tamaño 2 son posibles?


b. Enumere todas las muestras posibles de tamaño 2 y calcule la media de cada una.
c. Compare la media de la distribución muestral de medias con aquella de la población.
d. En una gráfica similar a la Gráfica 8-1, compare la dispersión en las medias de las mues-
tras con aquella en la población.

El teorema del límite central


En esta sección, analizamos el teorema del límite central. Su aplicación a la distribución
muestral de medias, que presentamos en la sección anterior, nos permite utilizar la distribu-
ción de probabilidad normal a fin de crear intervalos de confianza para la media de la po-
blación (que se describe en el Capítulo 9) y efectuar pruebas de hipótesis (que se describen
en el Capítulo 10). El teorema del límite central establece que, para muestras aleatorias
grandes, la forma de la distribución muestral de medias se aproxima a una distribución de
probabilidad normal. La aproximación es más precisa para muestras de gran tamaño que
para muestras pequeñas. Ésta es una de las conclusiones más útiles de la estadística. Po-
demos razonar acerca de la distribución muestral de medias sin ninguna información acer-
ca de la forma de la distribución de la población de la que se toma la muestra. En otras
palabras, el teorema del límite central es verdadero para todas las distribuciones. A
continuación se presenta un enunciado del teorema del límite central.

TEOREMA DEL LÍMITE CENTRAL Si todas las muestras de un tamaño en particular se


seleccionan de cualquier población, la distribución muestral de medias se aproxima a
una distribución normal. Esta aproximación mejora con muestras más grandes.

Si la población sigue una distribución de probabilidad normal, entonces para cualquier


tamaño de muestra la distribución muestral de medias también será normal. Si la distribu-
ción de la población es simétrica (pero no normal), observará cómo surge la forma normal
de la distribución muestral de medias con muestras tan pequeñas como, por ejemplo, 10.
Por otro lado, si empieza con una distribución con sesgo, o que tiene colas o extremos grue-
sos, es posible que requiera muestras de 30 o más para observar la característica de nor-
malidad. Este concepto se resume en la Gráfica 8-2. Observe la convergencia hacia una
distribución normal independientemente de la forma de la distribución de población. La ma-
yoría de los especialistas en estadística consideran que una muestra de 30 o más es lo su-
ficientemente grande para utilizar el teorema del límite central.
La idea de que la distribución de las medias de las muestras de una población que no
es normal convergerá con la normalidad se ilustra en las Gráficas 8-3, 8-4 y 8-5. En breve
264 Capítulo 8

Resultados del teorema de límite central para varias poblaciones.

analizaremos este ejemplo con mayor detalle, pero la Gráfica 8-3 es una gráfica de una dis-
tribución de probabilidad discreta que tiene un sesgo positivo. Existen muchas muestras po-
sibles de 5 que se pueden seleccionar de esta población. Suponga que seleccionamos al
azar 25 muestras de tamaño 5 cada una y calculamos la media de cada muestra. Estos re-
sultados se ilustran en la Gráfica 8-4. Observe que la forma de la distribución de las medias
de las muestras ha cambiado de la forma de la población original aunque seleccionamos
sólo 25 de las muchas muestras posibles. En otras palabras, seleccionamos 25 muestras
aleatorias de tamaño 5 de una población que tiene un sesgo positivo y encontramos que la
distribución de las medias de las muestras cambió en cuanto a la forma de la población. A
medida que tomamos muestras más grandes, es decir, n = 20 en lugar de n = 5, encontra-
mos que la distribución de las medias de las muestras se aproxima a la distribución normal.
La Gráfica 8-5 ilustra los resultados de 25 muestras aleatorias de 20 observaciones cada
una de la misma población. Observe la clara tendencia hacia la distribución de probabilidad
normal. Éste es el punto del teorema del límite central. El ejemplo siguiente subraya esta
condición.

Ed Spence inició su negocio de engranes hace 20 años. El negocio ha crecido a lo largo de


los años y ahora tiene 40 empleados. Spence Sprockets Inc. enfrenta algunas decisiones
importantes relativas a la atención médica de sus empleados. Antes de tomar una decisión
Métodos de muestreo y el teorema del límite central 265

definitiva sobre el programa de atención médica que va a comprar, Ed decide formar un co-
mité de cinco empleados representativos y pedirle que estudie con detenimiento el asunto
de la atención médica y haga recomendaciones en cuanto a qué plan se adapta mejor a las
necesidades de los empleados. Ed siente que las opiniones de aquellos empleados que lle-
van menos tiempo trabajando en su empresa puede diferir de aquellas de los empleados
con más experiencia. Si Ed selecciona al azar este comité, ¿qué puede esperar en térmi-
nos de la media de años que los empleados que integran el comité han trabajado en Spen-
ce Sprockets? ¿Cómo se compara la forma de la distribución de años de experiencia de
todos los empleados (la población) con la forma de la distribución muestral de medias? Los
periodos de servicio (redondeados al año más cercano) de los 40 empleados que en la ac-
tualidad forman parte de la nómina de Spence Sprockets, Inc., son los siguientes:

La Gráfica 8-3 muestra la distribución de los años de experiencia de la población de los 40


empleados actuales. Esta distribución de periodos de servicio tiene un sesgo positivo porque
hay pocos empleados que han trabajado durante un periodo más prolongado en Spence
Sprockets. En particular, seis empleados han estado en la compañía 10 años o más. Sin em-
bargo, como la empresa ha crecido, a lo largo de los últimos años se ha incrementado el nú-
mero de empleados. De los 40,18 empleados han estado en la compañía dos años o menos.
Consideremos el primero de los problemas que enfrenta Ed Spence. Quiere formar un
comité de cinco empleados para que revise el asunto deja atención médica y sugiera qué
tipo de cobertura de gastos médicos resultaría más adecuado para la mayoría de los traba-
jadores. ¿Cómo debe seleccionar el comité? Si lo selecciona al azar, ¿qué puede esperar
en términos del periodo medio de servicio para aquellos que integran el comité?
Para empezar, Ed escribe los periodos de servicio correspondientes a cada uno de los
empleados en pedazos de papel y los deposita en una vieja gorra de béisbol. Luego los re-
vuelve y selecciona al azar cinco papeletas. Los periodos de servicio que corresponden a
estos cinco empleados son 1,9, 0,19 y 14 años. Por tanto, el periodo medio de servicio pa-
ra estos cinco empleados es de 8.60 años. ¿Cómo se compara con la media de la pobla-
ción? En este momento Ed no conoce la media de la población, pero el número de
empleados en la población es de sólo 40, por tanto decide calcular el periodo medio de ser-
vicio para todos los empleados. Es 4.8 años, calculados al sumar los periodos de servicio
correspondientes a todos los empleados y dividiendo la suma entre 40.

Tiempo de servicio de los empleados de Spence Sprockets, Inc.


266 Capítulo 8

La diferencia entre la media de la muestra v la media de la población se cono-


ce como error de muestreo. En otras palabras, la diferencia de 3.80 años entre la media
de la población de 4.80 y la media de la muestra de 8.60 es el error de muestreo, y se de-
be a la casualidad. Por consiguiente, si Ed seleccionó a estos cinco empleados para cons-
tituir el comité, su periodo medio de servicio será mayor que la media de la población.
¿Qué sucedería si Ed colocara los cinco pedazos de papel de nuevo en la gorra y se-
leccionara otra muestra? ¿Esperaría usted que la media de esta segunda muestra fuera
exactamente igual a la anterior? Supongamos que selecciona otra muestra de cinco em-
pleados y encuentra que los periodos de servicio en esta muestra son 7, 4, 4, 1 y 3. La me-
dia de esta muestra es 3.80 años. El resultado de seleccionar 25 muestras de cinco
empleados cada una se ilustra en la Tabla 8-5 y en la Gráfica 8-4. En realidad hay 658 008
muestras posibles de 5 de la población de 40 empleados, que se encuentran mediante la
fórmula de combinación (5-10) para 40 que se toman de 5 en 5. Observe la diferencia en la
forma de la población y la distribución muestral de medias. La población de los periodos de
servicio correspondientes a los empleados (Gráfica 8-3) tiene un sesgo positivo, pero la dis-
tribución de estas 25 muestras no refleja el mismo sesgo positivo. También hay una dife-
rencia en el rango de las medias de la muestra comparado con el rango de la población. La
población varía entre 0 y 19 años, en tanto que las medias de las muestras variaron entre
1.6 y 8.6 años.
La Tabla 8-6 reporta los resultados de seleccionar 25 muestras de 20 empleados cada
una y calcular las medias de la muestra. Estas últimas se ilustran en la Gráfica 8-5. Compare
la forma de esta distribución de la población (Gráfica 8-3) con la distribución muestral de me-
dias donde la muestra es n = 5 (Gráfica 8-4). Debe observar dos características importantes:

1. La forma de la distribución muestral de medias es distinta a la de la población. En la


Gráfica 8-3 la distribución de todos los empleados tiene un sesgo positivo. Sin embar-

Veinticinco muestras aleatorias de cinco empleados


Métodos de muestreo y el teorema del límite central 267

Histograma de los tiempos de servicio medios para 25 muestras de 20 empleados

Muestras aleatorias y medias de la muestra de 25 muestras de 20 empleados de Spence Sprockets, Inc.


268 Capítulo 8

go, conforme seleccionamos muestras aleatorias de esta población, cambia la forma de


la distribución de la media de la muestra. A medida que incrementamos el tamaño de
la muestra, la distribución muestral de medias se aproxima a la distribución de proba-
bilidad normal. Lo anterior ilustra el teorema del límite central.
2. Hay menos dispersión en la distribución muestral de medias que en la distribución de
la población. En la población, los periodos de servicio variaron entre 0 y 19 años. Cuan-
do seleccionamos muestras de tamaño 5, las medias de las muestras variaron de 1.6
a 8.6 años, y cuando seleccionamos muestras de 20, las medias vaharon de 3.05 a
7.10 años.

También podemos comparar la media de las medias de las muestras con la media de
la población. La media de las 25 muestras que se reportan en la Tabla 8-6 es 4.676 años.

Utilizamos el símbolo para identificar la media de la distribución muestral de medias. Se


Observamos que la media de las medias de la muestra, 4.676
años, está muy cerca de la media de la población de 4.80.

¿A qué conclusión debemos llegar con base en este ejemplo? El teorema del límite
central indica que, independientemente de la forma de la distribución de población, la dis-
tribución muestral medias se aproximará a la distribución de probabilidad normal. Cuanto
mayor sea el número de observaciones en cada muestra, más sólida será la convergencia.
El ejemplo de Spence Sprockets, Inc. demuestra la manera en que funciona el teorema del
límite central. Empezamos con una población que tiene un sesgo positivo (Gráfica 8-3).
Después, seleccionamos 25 muestras aleatorias de 5 observaciones, calculamos la media
de cada muestra y, por último, organizamos estas 25 medias de muestra en una gráfica
(Gráfica 8-4). Observamos un cambio en la forma de la distribución muestral de medias de
la muestra con respecto a aquella de la población. El desplazamiento es de una distribución
con sesgo positivo a otra que tiene la forma de la distribución de probabilidad normal.
Para ilustrar con más detalle los efectos del teorema del límite central, aumentamos el
número de observaciones en cada muestra de 5 a 20. Seleccionamos 25 muestras de 20 ob-
servaciones cada una y calculamos la media de cada muestra. Por último, organizamos es-
tas medias de muestra en una gráfica (Gráfica 8-5). Es evidente que la forma del histograma
que aparece en la Gráfica 8-5 se desplaza hacia la distribución de probabilidad nominal.
Si volvemos al Capítulo 6 donde, en la Gráfica 6-4, se muestran varias distribuciones
nominales con una proporción de "éxito" de 0.10, observará una demostración más del teo-
rema del límite central. Observe que a medida que n aumenta de 7 a 12 y de 20 hasta 40,
el perfil de las distribuciones de probabilidad se desplaza acercándose cada vez más a una
distribución de probabilidad normal. La Gráfica 7-5, que se encuentra en la página 263, ilus-
tra también la convergencia hacia la normalidad a medida que n se incrementa. Esto refuer-
za el hecho de que conforme se incluyen más observaciones en la muestra de cualquier
distribución de población, la forma de la distribución de probabilidad de la media de la mues-
tra se acercará cada vez más a una distribución normal.
El teorema del límite central en sí (lea otra vez la definición que se encuentra en la pá-
gina 263) no dice nada acerca de la dispersión de la distribución muestral de medias o acer-
ca de la comparación de la muestra de la distribución muestral de medias con respecto a la
media de la población. Sin embargo, en nuestro ejemplo, observamos que había menos dis-
persión en la distribución muestral de medias que en la distribución de la población al se-
ñalar la diferencia en el rango en la población y en el rango de las medias de las muestras.
Observamos que la medias de las medias de las muestras está cerca de la media de la po-
blación. Es posible demostrar que la media de la distribución muestral de medias de la po-
blación, es decir, y si la desviación estándar en la población es la desviación
estándar de las medias dé las muestras es donde n es el número de observaciones
Métodos de muestreo y el teorema del límite central 269

en cada muestra. Nos referimos a como el error estándar de la media. En realidad,


su nombre más largo es la desviación estándar de la distribución muestra! de medias.

En esta sección también llegamos á otras conclusiones importantes.


1. La media de la distribución muestral de medias será exactamente igual a la media de
la población, si somos capaces de seleccionar todas las muestras posibles del mismo
tamaño de una población dada. Esto es:

Aunque no seleccionemos todas las muestras, podemos esperar que la media de la dis-
tribución muestral de medias se aproxime a la media de la población. 2. Habrá menos
dispersión en la distribución muestral de medias que en la población. Si la desviación
estándar de la población es o, la desviación estándar de la distribución muestral de
medias es Observe que cuando aumentamos el tamaño de la muestra disminuye
el error estándar de la media.

Autoevaluación 8-4 Consulte los datos de Spence Sprockets, Inc. en la página 265. Seleccione 10 muestras alea-
torias de 5 empleados cada una. Utilice los métodos que se describen anteriormente en este
capítulo y la Tabla de números aleatorios (Apéndice E) para encontrar los empleados que va
a incluir en la muestra. Calcule la media de cada muestra e ilustre cada una en una gráfica
similar a la Gráfica 8-3. ¿Cuál es la media de las medias de sus diez muestras?

Ejercicios
11. El Apéndice E es una tabla de números aleatorios. Por consecuencia, cada dígito de 0 a 9
tiene la misma posibilidad de ocurrencia.
a. Dibuje una gráfica en la que ilustre la distribución de población. ¿Cuál es la media de la
población? ¿Éste es un ejemplo de distribución uniforme?
b. A continuación, presentamos las 10 primeras hileras de cinco dígitos del Apéndice E. Su
ponga que estos son 10 ejemplos aleatorios de cinco valores cada uno. Determine la me
dia de cada muestra e ilustre las medias en una gráfica similar a la Gráfica 8-3. Compare
la media de la distribución de probabilidad de las medias de la muestra con la media de
la población.

12. La compañía Scrapper Elevator tiene 20 representantes de ventas que venden su producto
en Estados Unidos y Canadá. A continuación presentamos el número de unidades vendidas
por cada representante. Suponga que estás cifras de ventas son los valores de la población.
270 Capítulo 8

a. Dibuje una gráfica en la que muestre la distribución de la población.


b. Calcule la media de la población.
c. Seleccione cinco ejemplos aleatorios de 5 cada uno. Calcule la media de cada muestra.
Utilice los métodos que se describen en este capítulo y en el Apéndice E para determi-
nar los elementos que va a incluir en la muestra.
d. Compare la media de la distribución muestral de medias con la media de la población.
¿Podemos esperar que los dos valores sean casi iguales?
e. Dibuje un histograma de las medias de la muestra. ¿Observa alguna diferencia en la for-
ma de la distribución muestral de medias comparada con la forma de la distribución de la
población?
13. Considere que todas las monedas (de un centavo, cinco, veinticinco centavos, etcétera) que
tiene en su bolsillo o bolsa de mano constituyen una población. Haga una tabla de frecuen-
cia empezando por el año en curso y contando hacia atrás para registrar la edad (en años)
de las monedas. Por ejemplo, si el año en curso es 2005, entonces una moneda que tiene
la fecha 2002 estampada tiene dos años de antigüedad.
a. Trace un histograma u otra gráfica en la que muestre la distribución de la población.
b. Seleccione en forma aleatoria cinco monedas y registre la antigüedad media de las mo-
nedas de la muestra. Repita 20 veces este proceso de muestreo. Ahora dibuje un histogra-
ma u otra gráfica en la que ilustre la distribución de las medias de la muestra.
c. Compare las formas de los dos histogramas.
14. Considere que los dígitos de los números telefónicos que aparecen en una página seleccio-
nada al azar de su directorio telefónico local constituyen una población. Haga una tabla de
frecuencia para el dígito final de 30 números telefónicos seleccionados al azar. Por ejemplo,
si un número telefónico es 555-9704, registre 4.
a. Dibuje un histograma u otra gráfica de esta distribución de la población. Utilizando la distri-
bución uniforme, calcule la media de la población y la desviación estándar de la población.
b. Registre también la media de la muestra de los cuatro últimos dígitos (9704 conduciría a
una media de 5). Ahora, dibuje un histograma u otra gráfica en la que ilustre la distribu-
ción muestral de medias.
c. Compare las formas de los dos histogramas.

Uso de la distribución
muestral de medias
El análisis anterior es importante debido a que la mayor parte de las decisiones de nego-
cios se toman con base en los resultados de un muestreo. A continuación presentamos al-
gunos ejemplos.

1. Arm and Hammer Company desea asegurarse de que su detergente para lavandería
en realidad contiene 100 onzas líquidas, como se indica en la etiqueta. Los re-
súmenes históricos de los procesos de llenado indican que la cantidad media
por recipiente es de 100 onzas líquidas y que la desviación estándar es 2 on-
zas líquidas. Durante la verificación de las 10 A.M. que realiza el técnico de ca-
lidad en 40 recipientes, encuentra que la cantidad media por recipiente es 99.8
onzas líquidas. ¿El técnico debe interrumpir el proceso de llenado o el error de
muestreo es razonable?
2. A.C. Nielsen Company proporciona información a aquellas empresas que se
anuncian en la televisión. Las investigaciones previas indican que en promedio
los adultos estadounidenses ven televisión 6.0 horas al día. La desviación es
tándar es 1.5 horas. Para una muestra de 50 adultos que viven en el área
Greater de Boston, ¿sería razonable que pudiéramos seleccionar una muestra
al azar y encontrar que en promedio ven televisión 6.5 horas al día?
3. Haughton Elevator Company desea formular especificaciones con respecto al
número de personas que pueden desplazarse en un elevador nuevo de gran
capacidad. Suponga que el peso medio para un adulto es 160 libras y que la
desviación estándar es 15 libras: Sin embargo, la distribución de los pesos no
sigue la distribución de probabilidad normal. Tiene un sesgo positivo. ¿Cuál es
Métodos de muestreo y el teorema del límite central 271

la probabilidad de que para una muestra de 30 adultos su peso medio sea 170
libras o más?

En cada una de estas situaciones tenemos una población de la que contamos con cierta infor-
mación. Tomamos una muestra de esa población y queremos saber si el error de muestreo,
es decir, la diferencia entre el parámetro de población y la muestra estadística, obedece a
la casualidad.
Utilizando los conceptos que se analizaron en la sección anterior, podemos calcular la
probabilidad de que la media de una muestra se encuentre dentro de cierto rango. Sabe-
mos que la distribución de muestreo seguirá la distribución de probabilidad normal en dos
condiciones:

1. Cuando las muestras se toman de poblaciones que se sabe siguen la distribución nor-
mal. En este caso el tamaño de la muestra no es un factor.
2. Cuando no se conoce la forma de la distribución de población o se sabe que es anor-
mal, pero la muestra contiene por lo menos 30 observaciones.
Podemos utilizar la fórmula (7-5), del capítulo anterior, para convertir cualquier distribu-
ción normal en una distribución estándar normal. A esto también se le denomina como un
valor z. Entonces podemos utilizar la tabla estándar normal, del Apéndice D, para encontrar
la probabilidad de seleccionar una observación que caerá dentro de un rango específico. La
fórmula para encontrar un valor z es: '

En esta fórmula, X es el valor de la variable aleatoria, es la media de la población y es la


desviación estándar de la población.
Sin embargo, la mayor parte de las decisiones de negocios se refieren a una muestra,
no a una sola observación. Por tanto, nos interesa la distribución de la media de la mues-
tra, en lugar de X, el valor de una observación. Éste es el primer cambio que hacemos en
la fórmula (7-5). El segundo consiste en que utilizamos el error estándar de la media de n
observaciones en lugar de la desviación estándar de la población. Es decir, utilizamos
en el denominador en lugar de a. Por tanto, para encontrar la probabilidad de una media de
muestra con un rango específico, primero utilizamos la fórmula siguiente para encontrar el
valor z correspondiente. Luego utilizamos el Apéndice D para ubicar la probabilidad.

El ejemplo siguiente demostrará la aplicación.

El Departamento de Aseguramiento de la Calidad de Cola, Inc. mantiene registros sobre a


la cantidad de la bebida de cola en su botella "Jumbo". La cantidad real de bebida en cada
botella es de fundamental importancia, pero varía en una mínima cantidad de una botella a
otra. Cola, Inc. no quiere llenar las botellas con menos líquido del debido, porque tendría
problemas en cuanto a la veracidad de lo que especifica la etiqueta. Por otro lado, no pue-
de llenar en exceso las botellas debido a que regalaría bebida y así reduciría sus utilidades.
Sus registros indican que la cantidad de bebida de cola sigue la distribución de probabilidad
normal. La cantidad media por botella es 31.2 onzas, y la desviación estándar de la pobla-
ción es 0.4 onzas. El día de hoy a las 8 A.M. el técnico en calidad seleccionó al azar 16 bo-
tellas de la línea de llenado. La cantidad media de bebida que contienen las botellas es 31.8
onzas. ¿Éste es un resultado poco probable? ¿Es probable que el proceso sirva demasia-
da bebida en las botellas? En otras palabras, ¿el error de muestreo de 0.18 onzas es poco
común?
272 Capítulo 8

Podemos utilizar los resultados de la sección anterior para encontrar la probabilidad de po-
der seleccionar una muestra de 16 (n) botellas de una población normal con una media de
31.2 onzas y una desviación estándar de la población de 0.4 onzas y encontrar que
la media de la muestra es Utilizamos la fórmula (8-2) para encontrar el valor de z.

El numerador de esta ecuación, es el error de muestreo. El


denominador, es el error estándar de la distribución de muestreo de la media de la
muestra. Por tanto, los valores z expresan el error de muestreo en unidades estándar, en
otras palabras, el error estándar.
Después, calculamos la probabilidad de un valor z mayor que 1.80. En el Apéndice D
encontramos la probabilidad correspondiente a un valor z de 1.80; es 0.4641. La probabili-
dad de un valor z mayor que 1.80 es 0.0359, que se encuentra calculando 0.5000 - 0.4641.
¿A qué conclusión llegamos? Es poco probable, una probabilidad menor a 4%, que pu-
diéramos seleccionar una muestra de 16 observaciones de una población normal con una
media de 31.2 onzas y una desviación estándar de la población de 0.4 onzas, y encontra-
mos que la media de la muestra es igual a, o mayor que, 31.38 onzas. Llegamos a la con-
clusión de que el proceso sirve demasiada bebida en las botellas. El técnico de calidad
debe hablar con el supervisor de producción acerca de reducir la cantidad de bebida en ca-
da botella. Esta información se resume en la Gráfica 8-6.

Distribución de muestreo de la cantidad media de refresco de cola en una botella jumbo

Autoevaluación 8-5 Consulte la información sobre Cola, Inc. Suponga que el técnico de calidad seleccionó una
muestra de 16 botellas Jumbo que tenían un promedio de 31.08 onzas. ¿A qué conclusión lle-
ga acerca del proceso de llenado?

Hay muchas situaciones de muestreo en las que deseamos hacer una inferencia acer-
ca de la población, pero no sabemos mucho acerca de ésta. En este caso, resulta útil el teo-
rema del límite central. Sabemos que, para cualquier forma de la distribución de la
población, si seleccionamos una muestra lo suficientemente grande, la distribución de
muestreo de la media de la muestra seguirá la distribución normal. La teoría estadística ha
señalado que las muestras de por lo menos 30 elementos son lo suficientemente grandes
como para permitirnos suponer que la distribución de muestreo sigue la distribución normal.
A menudo no conocemos el valor de la desviación estándar de la población, o. De nue-
vo, como la muestra es por lo menos de 30, calculamos la desviación estándar de la pobla-
ción, con la desviación estándar de la muestra. La distribución real de la estadística es la
Métodos de muestreo y el teorema del límite central 273

Distribución de Student, que estudiaremos en el capítulo siguiente. Cuando utilizamos s


para sustituir la nueva fórmula para encontrar el valor de z es:

La Metropolitan Nueva York Gas Station Dealers' As-


sociation calcula que el número medio de galones de
gasolina que vende al día una gasolinera es 20 000.
Se desconoce la forma de esta distribución. Ayer, una
muestra de 70 distribuidores reveló que el número
medio de galones vendidos fue 19 480. La desviación
estándar de la muestra de 70 distribuidores fue 4 250
galones. ¿Es razonable la afirmación de que la media
de la población es 20 000 galones7 ¿Cuál es la pro-
babilidad de encontrar una muestra con las estadísti-
cas dadas acerca de la población propuesta? ¿Qué
suposiciones necesita hacer?

No estamos seguros de la forma de la población de


valores vendidos. Sin embargo, la muestra es lo sufi-
cientemente grande como para permitirnos suponer
que la distribución de muestreo de la media de la
muestra sigue la distribución normal. El teorema del lí-
mite central aporta la teoría estadística necesaria. Una
vez más, debido al tamaño de la muestra, podemos sustituir la desviación estándar de la
muestra por la desviación estándar de la población. La fórmula (8-3) es adecuada para en-
contrar el valor z.

Al consultar el Apéndice D, la posibilidad de encontrar un valor z entre 0 y -1.02 es


0.3461. La probabilidad de encontrar una media de la muestra de 19 480 galones o menos
de la población especificada es 0.1539, que se encuentra calculando 0.5000 - 0.3461. En
otras palabras, existe una probabilidad de 15% de poder seleccionar una muestra de 70 ga-
solineras y encontrar que la media de esta muestra es 19 480 galones o menos, cuando la
media de la población es 20 000. Es razonable llegar a la conclusión de que la media de la
población es 20 000 galones. Esta información se resume en la Gráfica 8-7

Distribución de muestreo para la media de la muestra del número de galones vendidos poi
día
274 Capítulo 8

Autoevaluación 8-6 El salario medio por hora para los plomeros en la región de Atlanta, Georgia, es $28.00. ¿Cuál
es la probabilidad de que podamos seleccionar una muestra de 50 plomeros con un salario
medio de $28.50 o más? La desviación estándar de la muestra es $2.00 por hora.

Ejercicios
15. Una población normal tiene una media de 60 y una desviación estándar de 12. Usted selec-
cionó una muestra aleatoria de tamaño 9. Calcule la probabilidad de que las medias mués-
trales sea:
a. Mayor que 63.
b. Menor que 56.
c. Entre 56 y 63.
16. Una población cuya forma no se conoce tiene una media de 75. Usted selecciona una mues-
tra de 40. La desviación estándar de la media es 5. Calcule la probabilidad de que la media
de las medias muéstrales sea:
a. Menor que 74.
b. Entre 74 y 76.
c. Entre 76 y 77.
d. Mayor que 77.
17. La renta media de un departamento de dos recámaras en el sur de California es de 2 200
dólares al mes. La distribución de los costos mensuales no sigue la distribución normal. De
hecho, tiene un sesgo positivo. ¿Cuál es la probabilidad de seleccionar una muestra de 50
departamentos de una recámara y encontrar que la media es por lo menos $1 950 al mes?
La desviación estándar de la media es $250.
18. Según un estudio que hizo el IRS, los contribuyentes tardan 330 minutos en promedio en
preparar, copiar y archivar en un medio electrónico la forma fiscal número 1040. Una orga-
nización que vigila a los consumidores selecciona una muestra aleatoria de 40 contribuyen-
tes y encuentra que el tiempo requerido para preparar, copiar y archivar la forma número
1040 es de 80 minutos.
a. ¿Cuál es el error estándar de la media en este ejemplo?
b. ¿Cuál es la probabilidad de que la media de las medias muéstrales sea mayor que 320
minutos?
c. ¿Cuál es la probabilidad de que la media de las medias muéstrales se encuentre entre
320 y 350 minutos?
d. Cuál es la probabilidad de que la media de la muestra sea mayor que 350 minutos?

Resumen del capítulo


I. Hay muchos motivos para realizar un muestreo de una población.
A. Los resultados de una muestra pueden estimar en forma adecuada el valor del paráme-
tro de población, ahorrando asi tiempo y dinero.
B. Contactar a todos los miembros de una población puede requerir demasiado tiempo.
C. Tal vez sea Imposible verificar o ubicar a todos ios miembros de una poblador».
D. Ei costo de estudiar todos los elementos en la población puede ser prohibitivo.
E. Con frecuencia, durante las pruebas se destruye el elemento de la muestra y no se pue-
de regresar a la población.
II. En una muestra sin sesgo, todos los miembros de la población tienen una posibilidad de
ser seleccionados para la muestra. Existen varios métodos de muestreo de probabilidad.
A. En una muestra aleatoria simple, todos tos miembros de la población tienen la misma
posibilidad de ser seleccionados para la muestra.
B. En una muestra sistemática, se selecciona un punto de partida aleatorio, y después ca-
da k elemento subsecuente se selecciona de población para formar la muestra.
C. En una muestra estratificada, la población se divide en varios grupos, a los que se fama
estratos, y después se selecciona un elemento aleatorio de cada estrato.
Métodos de muestreo y el teorema del límite central 275

D. En el muestreo por conglomerado, la población se divide en unidades primarias y


luego se extraen elementos de las unidades primarias para conformar la muestra
III. El error de muestreo es la diferencia entre un parámetro de población y una muestra esta-
dística.
IV. La distribución muestra! de medias es una distribución de probabilidad de todas las medias
de las muestras posibles del mismo tamaño,
A. Para un tamaño de muestra dado, la media de todas las metías posibles es igual a la
media de la población.
B. Hay menos variación en la distribución muestra! de medias que en la distribución de la
población.
1. EL error estándar de la media mide la variación en la distribución muestral de medias.
a. Si conocemos la desviación estándar de te población, el error estándar es

b. SI no conocemos la desviación estándar de la población, el error estándar se


estima mediante

C. Si la población sigue una distribución normal, la distribución muestral de medias también


seguirá la distribución normal pala muestras de cualquier tamaño. Suponga que se cono-
ce la desviación estándar de la población. Para determinar la probabilidad de que la me
día de una muestra se encuentre en una reglen en particular, utilice la fórmula siguiente.

D. Si la población no tiene una distribución normal pero te muestra es de 30 observaciones


por lo menos, la distribución muestral de medias es aproximadamente normal. Suponga
que no se conoce la desviación estándar de la población. Para determinar la probabili-
dad de que una media de una muestra se encuentre en una región en particular, utilice
la distribución normal y la siguiente fórmula de estandarización.

Clave de pronunciación

Ejercicios del capítulo


19. Las tiendas de ventas al detalle que están en el centro comercial North Town Square son:
276 Capítulo 8

a. Si se seleccionan los siguientes números aleatorios, ¿qué tiendas detallistas deben


contactar para realizar una encuesta? 11. 65. 86, 62, 06, 10, 12, 77 y 04.
b. Seleccione una muestra aleatoria de cuatro tiendas al detalle. Utilice el Apéndice E.
c. Se debe utilizar un procedimiento de muestreo sistemático. Es necesario contactar a la pri-
mera tienda y después a cada tercer establecimiento. ¿Qué tiendas se van a contactar?
20. Medical Mutual Insurance investiga el costo de una visita de rutina a consultorios de médi-
cos familiares en al área de Rochester. Nueva York. La siguiente es una lista de médicos fa-
miliares en la región. Los doctores se van a seleccionar en forma aleatoria y se va a
establecer comunicación con ellos para conocer cuáles son sus honorarios. Los 39 médicos
se codificaron del 00 al 38. También se indica si tienen un consultorio propio (P), si tienen
un socio (S) o si tienen un consultorio en grupo (G).

a. Los números aleatorios que se obtuvieron del Apéndice E son: 31, 94, 43, 36, 03, 24,
17 y 09. ¿Con qué médicos se debe establecer contacto?
b. Seleccione una muestra aleatoria utilizando los números aleatorios del Apéndice E.
c. Una muestra debe incluir a cada quinto médico. El número 04 se selecciona como pun-
to de partida. ¿Con qué médicos se debe establecer contacto?
d. Una muestra debe consistir en dos médicos que tienen consultorio propio (P), dos que
tienen un socio (S) y uno que tiene un consultorio en grupo (G). Seleccione la muestra
correspondiente. Explique su procedimiento.
21. ¿Qué es el error de muestreo? ¿El valor de una muestra puede ser cero? Si fuera cero,
¿qué significaría?
22. Mencione las razones del muestreo y dé un ejemplo de cada una.
23. Se va a realizar una encuesta entre los bancos comerciales en la Región III. Algunos de
ellos son muy grandes, con activos superiores a $500 millones; otros son medianos, con ac-
tivos entre $100 millones y S500 millones; y los bancos restantes tienen activos menores de
$100 millones. Explique cómo seleccionaría una muestra de estos bancos.
24. Urban Plastic Products, Inc., se preocupa por el diámetro interno de la tubería de plástico
que produce. Una máquina extruye la tubería que después se corta en tramos de 10 pies de
largo. Durante un lapso de dos horas, se producen alrededor de 720 tuberías por máquina.
¿Cómo procedería para tomar una muestra del periodo de producción de dos horas?
25. Un estudio acerca de las instalaciones en los moteles de Rock Hills, Carolina del Sur, de
mostró que hay 25 instalaciones. La oficina de convenciones y visitantes de la ciudad está
estudiando el número de habitaciones con que cuenta cada instalación. A continuación apa
recen los resultados:
Métodos de muestreo y el teorema del límite central 277

a. Utilizando una labia de números aleatorios (Apéndice E), seleccione una muestra alea
toria de cinco motetes de esta población.
b. Obtenga una muestra aleatoria seleccionando al azar un punto de partida entre tos pri-
meros cinco moteles y después seleccione cada quinto motel.
c. Suponga que los últimos cinco motetes son establecimientos con "tarifas rebajadas”.
Describa cómo seteeclonarfa uria muestra aleatoria de tres moteles con tarifas conven
cionales y dos motetes con tarifas rebajadas.
26. Como parte de su programa de servicio a clientes, United Airlines seleccionó en forma alea-
toria 10 pasajeros de vuelo del día de hoy Chicago-Tampa de las nueve de la mañana. A
cada pasajero en la muestra se te hará una entrevista a fondo con respecto a instalaciones,
servicios, alimentos, etcétera, en tos aeropuertos. Para identificar la muestra, a cada pasa-
jera se le proporciono un número al abordar la aeronave. Los números comenzaron por el
001 y terminaron con el 250.
a. Seleccione al azar 10 números utilizando el Apéndice E.
b. La muestra de 10 podría Haberse seleccionado utilizando una muestra sistemática. Es-
coja el primer número usando el Apéndice E, y luego mencione los números a los que
se va a entrevistar.
c. Evalúe los dos métodos mencionando (as ventajas y las posibles desventajas.
d. ¿De qué otra manera se podría seleccionar una muestra aleatoria de los 250 pasajeros?
27. Suponga que m profesor de estadística le hizo seis exámenes a lo largo del semestre. Us-
ted recibió las siguientes calificaciones (porcentaje corregido): 79, 64,84, 82, 92 y 77. En lu-
gar de promediar las seis calificaciones, el profesor le indicó que escogería dos de ellas al
azar y reportaría esa catitearon a la oficina de registro de calificaciones de los estudiantes.
a. ¿Cuántas muestras distintas de dos calificaciones son posibles?
b. Mencione todas las muestras posibles de tamaño dos y calcule la media de cada una.
c. Calcule la media de las medias de la muestra y compárela con la media de la población.
e. Si usted fuera estudiante, ¿le gustaría éste arreglo? ¿Sería diferente el resultado al eli-
minar la calificación más baja? Redacte un informe breve.
28. En la oficina del centro de la ciudad del First National Bank hay cinco cajeros automáticos,
La semana pasada cada uno de los cajeros cometieron el siguiente número de errores: 2,
3,5,
a. ¿Cuántas muestras distintas de dos cajeros son posibles?
b. Escriba todas las muestras posibles de tamaño 2 y calcule la media de cada una.
c. Calcule te media de las medias de las muestras y compárela con la media de la población
21. El departamento de control de calidad emplea a cinco técnicos durante el turno matutino. A
continuación presentamos el número de veces que cada técnico le ordenó al supervisor
de producción que interrumpiera el proceso de producción durante la última semana.

a. ¿Cuántas muestras diferentes de dos técnicos son posibles de esta población?


b. Mencione todas las muestras posibles de dos observaciones cada una y calcule la me-
dia de cada muestra.
c. Compare la media de las medias de las muestras con la media de la población.
ú. Compare la forma de la distribución de la población con la forma de la distribución de
las medias de las muestras.
30. The Appliance Center cuenta con seis representantes de ventas en su sucursal del norte de
Jaeksonvilte. A continuación presentamos el número de refrigeradores que vendió cada re-
presentante en el último mes.
278 Capítulo 8

a. ¿Cuántas muestras de tamaño 2 son posibles?


b. Seleccione todas las muestras posibles de tamaño 2 y calcule el número medio de re-
frigeradores vendidos.
c. Organice las medias de la muestra en una distribución de frecuencia.
d. ¿Cuál es la media de la población? ¿Cuál es la media de las medias de las muestras?
e. ¿Cuál es la forma de la distribución de población?
f. ¿Cuál es la forma de la distribución de las medias de las muestras?
31. The Sony Corporation produce una grabadora Walkman que necesita dos baterías AA. La vi-
da media de estas baterías en este producto es 35.0 horas. La distribución de las vidas de las
baterías se aproxima a la distribución de probabilidad normal con una desviación estándar de
5.5 horas. Como parte de su programa, Sony somete a pruebas muestras de 25 baterías.
a. ¿Qué puede usted decir acerca de la forma de la distribución de la media de la muestra?
b. ¿Cuál es al error estándar de la distribución muestral de medias?
c. ¿Qué proporción de las muestras tendrá una vida útil media de más de 36 horas?
d. ¿Que proporción de la muestra tendrá una vida útil media mayor que 34.5 horas?
e. ¿Que proporción de la muestra tendrá una vida útil media de entre 34.5 y 36.0 horas?
32. CRA CDs, Inc. quiere que los lapsos medios de los "cortes" en un CD sean de 135 segundos (2
minutos con 15 segundos). Esto permitirá a los discjockeys disponer de tiempo suficiente para
comerciales dentro de cada segmento de 10 minutos. Suponga que la distribución de los lapsos
de los cortes sigue la distribución normal con una desviación estándar de 8 segundos. Suponga
que seleccionamos una muestra de 16 cortes de diversos CD que vende CRA CDs, Inc.
a. ¿Qué podemos decir acerca de la forma de la distribución de la media de la muestra?
b. ¿Cuál es el error estándar de la media?
c. ¿Qué porcentaje de las medias de la muestra será mayor a 140 segundos?
d. ¿Qué porcentaje de las medias de la muestra será mayor que 128 segundos?
e. ¿Qué porcentaje de las medias de la muestra será mayor que 128 segundos pero me-
nor que 140 segundos?
33. Estudios recientes indican que una mujer típica mayor de 50 años gasta $350 al año en produc-
tos de cuidado personal. La distribución de las cantidades que gastan tiene un sesgo positivo.
Seleccionamos una muestra de 40 mujeres. La cantidad media gastada para las mujeres de la
muestra es $335, y la desviación estándar de la muestra es $45. ¿Cuál es la posibilidad de en
contrar una media de la muestra de este tamaño o más grande de la población específica?
34. La información del American Institute of Insurance indica que la cantidad media de seguros
de vida por familia en Estados Unidos es $110 000. Esta distribución tiene un sesgo positi-
vo. No se conoce la desviación estándar de la población.
a. Una muestra aleatoria de 50 familias reveló una media de $112 000 y una desviación
estándar de $40 000. ¿Cuál es el error estándar de la media?
b. Suponga que seleccionó 50 muestras de familias. ¿Cuál es la forma esperada de la dis-
tribución de la media de la muestra?
c. ¿Cuál es la probabilidad de seleccionar una muestra con una media mayor que $112 000?
d. ¿Cuál es la probabilidad de seleccionar una muestra con una media mayor que $100 000?
e. Encuentre la probabilidad de seleccionar una muestra con una media mayor que $100 000
pero menor que S112 000.
35. La edad media en la que los hombres en Estados Unidos se casan por primera vez es 24.8
años. La forma y la desviación estándar de la población no se conocen. Para una muestra alea-
toria de 60 hombres, ¿cuál es la probabilidad de que la edad a la que se casaron por primera
vez sea menor que 25.1 años? Suponga que la desviación estándar de la muestra es 2.5 años.
36. Un estudio reciente de la Greater Los Angeles Taxi Drivers Association demostró que la ta-
rifa media que cobran de Hermosa Beach al Aeropuerto Internacional de Los Ángeles es
$18.00 y la desviación estándar es S3.50. Seleccionamos una muestra de 15 tarifas.
Métodos de muestreo y el teorema del límite central 279

a. ¿Cuál es la probabilidad de que la media de las muestras esté entre $17 y $20?
b. ¿Qué debe suponer para hacer el cálculo anterior?
37. Crossett Trucking Company afirma que el peso medio de sus camiones cuando están total
mente cargados es 6 000 libras, y la desviación estándar es 150 libras. Suponga que la po-
blación sigue la distribución normal. Se seleccionan al azar 40 camiones y se pesan.
¿Dentro de qué límites ocurrirá 95% de las medias de la muestra?
38. La cantidad media de abarrotes que compra cada cliente en Churchill Grocery Store es
$23.50. La población tiene un sesgo positivo y no se conoce la desviación estándar. Res
ponda las siguientes preguntas para una muestra de 50 clientes.
a. Si la desviación estándar de la muestra es $5.00, ¿cuál es la probabilidad de que la me
dia de las muestras sea por lo menos $25.00?
b. Una vez más, suponga que la desviación estándar de la media es $5. ¿Cuál es la pro-
babilidad de que la media de la muestra sea mayor que $22.50 pero menor que $25.00?
c. Otra vez. suponga que la desviación estándar de la media es $5. ¿Dentro de qué lími-
tes ocurrirá 90% de las medias de las muestras?
39. La calificación SAT media para estudiantes atletas es 947 con una desviación estándar de
205. Sí selecciona una muestra aleatoria de 60 de estos estudiantes, ¿cuál es la probabili-
dad de que la media esté por debajo de 900?
40. Suponga que lanzamos un dado en dos ocasiones.
a. ¿Cuántas muestras posibles hay?
b. Escriba cada una de las muestras posibles y calcule la media.
c. En una gráfica similar a la Gráfica 8-1. compare la distribución de las medias de las
muestras con la distribución de la población.
d. Calcule la media y la desviación estándar de cada distribución y compárelas.
41. La siguiente tabla menciona los datos más recientes disponibles acerca de los ingresos per-
sonales per cápita (en dólares) para cada uno de los 50 estados.

a. Quiere seleccionar un rango de 8 de esta lista. Los números aleatorios seleccionados son
45. 15, 81. 09. 39, 43, 90, 26, 06, 45, 01 y 42. ¿Qué estados se incluyen en la muestra?
b. Quiere utilizar una muestra sistemática de cada sexto elemento y el dígito 02 se esco
ge como punto de partida. ¿Qué estados se incluyen?
c. Se va a seleccionar una muestra con un estado de cada región. Describa con detalle
cómo efectuaría el proceso de muestreo. Es decir, mencione los números aleatorios
que seleccionó y los estados correspondientes que incluye en su muestra.
280 Capítulo 8

exercises.com
42. Necesita encontrar el dividendo anual "típico" o medio por acción para bancos de gran ta-
maño. Usted decidió manejar una muestra de 6 bancos que aparecen en la Bolsa de Valo-
res de Nueva York. A continuación se presentan estos bancos y su símbolo comercial.

a. Después de numerar los bancos de 01 a 26, ¿qué bancos se incluirían en la muestra si los
números aleatorios fueran 14, 08, 24, 25, 05, 44, 02 y 227? Visite el siguiente sitio en la
Web: http://www.quicken.com. Ingrese el símbolo comercial correspondiente a cada uno
de los bancos de la muestra y registre el Dividendo Anual por acción (dividendo anual/par-
ticipación). Determine el dividendo anual medio por acción para la muestra de bancos.
b. ¿Qué bancos se seleccionan si utiliza una muestra sistemática de cada cuarto banco
empezando por el número aleatorio 03?
43. Existen varios sitios web que reportan las 30 acciones que componen el índice Industrial Dow
Jones (DJIA, por sus siglas en inglés). Uno de éstos es www.dbc.com/dbcfiles/dowt.html. Cal-
cule la media de las 30 acciones.
a. Utilice una tabla de números aleatorios, como el Apéndice E, para seleccionar una
muestra aleatoria de cinco compañías que componen el DJIA. Calcule la media de la
muestra. Compare la media de la muestra con la media de la población. ¿Qué encon
tró? ¿Qué esperaba encontrar?
b. No debe esperar encontrar que la media de estas 30 acciones sea la misma que el DJIA
actual. Visite el sitio web del Dow Jones en http://averages.dowjones.com/j-p/index.jsp
y lea los motivos.

44. Consulte los datos Real Estáte, que proporcionan información acerca de las casas que se
vendieron en el área de Denver durante el último año.
a. Calcule la media y la desviación estándar de la distribución de los precios de venta de
las casas. Suponga que ésta es la población. Desarrolle un histograma de los datos.
Con base en este histograma, ¿parecería razonable llegar a la conclusión de que la po-
blación de precios de venta sigue la distribución normal?
b. Supongamos una población normal. Seleccione una muestra de 10 casas. Calcule la
media y la desviación estándar de la muestra. Determine la posibilidad de encontrar una
media de la muestra de este tamaño o más grande con respecto a la población.
45. Consulte los datos CÍA, que reportan información demográfica y económica acerca de 46
países. Seleccione una muestra aleatoria de 10 países. Calcule para esta muestra el pro-
ducto interno bruto (PIB) per cápita. Repita este proceso de muestreo y cálculo cinco veces
más. Luego, encuentre la media y la desviación estándar de sus seis medias de la muestra.
a. Compare esta media y esta desviación estándar con la media y la desviación estándar
de la "población" original de 46 países
b. Elabore un histograma de las seis medias y analice si la distribución es normal.
c. Suponga que la distribución de la población es normal. Para la primera media de la
muestra que calculó, determine la posibilidad de encontrar una media de la muestra de
este tamaño o más grande con respecto a la población.
Métodos de muestreo y el teorema del límite central 281

Capítulo 8 Respuestas a las autoevaluaciones


Estimación e intervalos
de confianza

La American Restaurant Association recopiló información sobre el número de comidas a la


semana que los matrimonios jóvenes hacen fuera de casa. Una encuesta entre 60 parejas
demostró que el número medio de comidas fuera de casa fue de 2.76 a la semana. Elabore
un intervalo de confianza de 97% para la media de la población. (Vea la Meta 3 y el
Ejercicio 36.)
Estimación e intervalos de confianza 283

Introducción
En el capítulo anterior empezamos a estudiar la inferencia estadística; en él se introdujeron
las razones y métodos del muestreo. Las razones del muestreo son:
• Estudiar toda la población tomaría mucho tiempo.
• El costo de estudiar todos los elementos de la población a menudo es muy alto.
• Casi siempre, los resultados de la muestra son adecuados.
• La naturaleza destructiva de ciertas pruebas.
• La imposibilidad física de revisar todos los elementos.
Hay varios métodos de muestreo. El muestreo aleatorio simple es el que se utiliza con
mayor frecuencia. Con éste, cada miembro de la población tiene la misma oportunidad de
que se le seleccione como parte de la muestra. Otros métodos de muestreo incluyen mues-
treo sistemático, muestreo estratificado y muestreo por conglomerados.
El Capítulo 8 supone información acerca de la población, como la media, la desviación
estándar o la forma de la población. En la mayor parte de las situaciones de negocios, esta
información no está disponible. De hecho, el propósito del muestreo puede ser calcular
algunos de estos valores. Por ejemplo, usted selecciona una muestra de una población y
usa la media de la muestra para calcular la media poblacional.
Este capítulo considera varios aspectos importantes del muestreo. Empezamos por estu-
diar los estimadores puntuales. Un estimador puntual es un valor en particular que se utiliza
para calcular el valor de una población. Por ejemplo, suponga que seleccionamos una mues-
tra de 50 ejecutivos y preguntamos a cada uno el número de horas que trabajó la semana pa-
sada. Calcule la media de esta muestra de 50 y use su valor como estimador puntual de la
media poblacional desconocida. Sin embargo, un estimador puntual es un solo valor. Una ma-
nera más práctica es presentar un rango de valores en los que esperamos que ocurra el pa-
rámetro de la población. Este rango de valores se conoce como intervalo de confianza.
Con frecuencia, en los negocios, necesitamos determinar el tamaño de una muestra.
¿Cuántos votantes debe contactar una compañía de encuestas para proyectar los resulta-
dos de las elecciones? ¿Cuántos productos necesitamos examinar para garantizar nuestro
nivel de calidad? Este capítulo también desarrolla una estrategia para determinar el tama-
ño apropiado de la muestra.

Estimadores puntuales e intervalos de confianza


σ conocida o para una muestra grande
En el capítulo anterior, los datos sobre el tiempo de servicio de los empleados de Spence
Sprockets, que presentamos en la página 264, es una población porque mostramos el tiem-
po de servicio de los 40 empleados. En ese caso, podemos calcular con facilidad la media
de la población. Tenemos toda la información y la población no es muy numerosa. Sin em-
bargo, en casi todas las situaciones, la población es numerosa o es difícil identificar a todos
sus miembros, de modo que necesitamos manejar una muestra. En otras palabras, no co-
nocemos el parámetro poblacional y, por tanto, queremos estimar el valor a partir de un es-
tadístico de la muestra. Considere las siguientes situaciones de negocios.

1. El turismo es una fuente importante de ingresos para muchos países del Caribe, como
Barbados. Supongamos que la Oficina de Turismo de Barbados quiere un estimado de
la cantidad media que gastan los turistas que visitan el país. Por tanto, 500 turistas se
seleccionan al azar en el momento en que salen del país y se les preguntan los deta-
lles de los gastos que hicieron durante su visita a la isla. La cantidad media que gasta
la muestra de 500 turistas es un estimado del parámetro poblacional desconocido. Es
decir, la media de la muestra, sirve como estimado de la media poblacional,
2. Centex Home Builders, Inc., construye casas de calidad en la región sureste de Esta
dos Unidos. Una de las principales preocupaciones de los compradores es la fecha en
que las casas se van a terminar de construir. En fechas recientes, Centex ha dicho a
sus clientes: "Su casa estará lista 45 días hábiles a partir de la fecha en que empece-
284 Capítulo 9

mos a construir los muros." El departamento de atención al cliente de


Centex quiere comparar este ofrecimiento con experiencias recientes. Una
muestra de 50 casas que se terminaron de construir este año reveló que el
número medio de días hábiles a partir de que se empezaron a construir los
cimientos hasta la terminación de la casa fueron 46.7 días. ¿Parece
razonable llegar a la conclusión de que la media de la población sigue
siendo 45 días y que la diferencia entre la media de la muestra (46.7) y la
media de la población es un error de muestreo? 3. Estudios médicos
recientes indican que el ejercicio es parte importante de la salud general de
una persona. El director de recursos humanos de OCF, gran fabricante de
vidrio, quiere un estimado del número de horas a la semana que los empleados
invierten en hacer ejercicio. Una muestra de 70 empleados revela que el número
medio de horas de ejercicio la semana pasada fue 3.3. La media de la muestra de 3.3
horas calcula la media poblacional desconocida, la media de horas de ejercicio para
todos los empleados.
Un estimador puntual es un estadístico que se utiliza para calcular el parámetro de una
población. Supongamos que Best Buy, Inc., quiere calcular la edad media de los compra-
dores de televisores de alta definición. Selecciona un muestra aleatoria de 50 compradores
recientes, determina la edad de cada uno y calcula la edad media de los compradores en
la muestra. La media de esta muestra es un estimador puntual de la media poblacional.

TIMADOR PUNTUAL Estadístico que se calcula a partir de la información de la mues-


tra y se utiliza para estimar el parámetro de la población.

La media de la muestra, es un estimador puntual de la media poblacional, p, una


proporción de la muestra, es un estimador puntual de la proporción de la población, y
s, la desviación estándar de la muestra, es un estimador puntual de a, la desviación
estándar de la población.
Sin embargo, un estimador puntual indica sólo parte de la historia. Aunque esperamos
que el estimador puntual se aproxime al parámetro poblacional, queremos medir qué tanto
se acerca realmente. Un intervalo de confianza sirve para ello.

INTERVALO DE CONFIANZA Rango de valores creado a partir de los datos de la mues-


tra, de modo que el parámetro poblacional es probable que ocurra dentro de ese ran-
go en una probabilidad específica. Esta última se llama nivel de confianza.

Por ejemplo, calculamos que el ingreso anual promedio para los trabajadores de la
construcción en el área de Nueva York y Nueva Jersey es $65 000. El rango de este esti-
mador puede ser de $61 000 a $69 000. Podemos describir la confianza que tenemos en
que el parámetro de la población se encuentre en el intervalo haciendo una declaración de
probabilidad. Podemos decir, por ejemplo, que estamos 90% seguros de que el ingreso
anual medio de los trabajadores de la construcción en Nueva York y Nueva Jersey es en-
tre $61 000 y $69 000.
La información desarrollada acerca de la forma de la distribución muestral de medias,
es decir, la distribución de muestreo de nos permite ubicar un intervalo que tiene una
probabilidad específica de contener la media poblacional, Para muestras
razonablemente grandes, los resultados del teorema del límite central nos permiten
afirmar lo siguiente:
1. Del total de las medias de las muestras de una población 95% estarán a ± 1.96 desvia-
ciones estándar de la media poblacional
2. Del total de las medias de las muestras 99% se encontrarán a ± 2.58 desviaciones es-
tándar de la media poblacional.
La desviación estándar a la que aquí nos referimos es la desviación estándar de la dis-
tribución muestral de medias. Por lo regular, se conoce como "error estándar". A los inter-
valos calculados de esta manera se les llama intervalo de confianza de 95% e intervalo
Estimación e intervalos de confianza 285

de confianza de 99%. ¿Cómo se obtienen los valores de 1.96 y 2.58? Los valores 95% y 99%
se refieren a intervalos creados en forma similar que incluyen el parámetro que se va a calcular.
Por ejemplo, 95% se refiere al 95% intermedio de las observaciones. Por tanto, el 5% restante
se divide en dos partes iguales entre las dos colas. Vea el diagrama siguiente.

El teorema del límite central, que estudiamos en el capítulo anterior, establece que la
distribución muestral de medias es aproximadamente normal cuando la muestra contiene
por lo menos 30 observaciones. Por tanto, podemos utilizar el Apéndice D para encontrar
los valores de z apropiados. Localice 0.4750 en el cuerpo de la tabla. Lea los valores de hi-
lera y columna correspondientes. El valor es 1.96. Por tanto, la probabilidad de encontrar
un valor de z entre 0 y 1.96 es 0.4750. De modo similar, la probabilidad de que esté en el
intervalo entre -1.96 y 0 también es 0.4750. Al combinar estas dos, la probabilidad de que
esté en el intervalo -1.96 a 1.96 es 0.9500. En la página siguiente, se encuentra una parte
del Apéndice D. El valor de z para el nivel de confianza del 90% se determina en forma si-
milar y es 1.65. Para un nivel de confianza de 99%, el valor de z es 2.58.
¿Cómo calcula usted un intervalo de confianza del 95%? Suponga que su investigación
comprende el salario inicial anual de los estudiantes de contabilidad con licenciatura. Cal-
cule que la media de la muestra es $39 000 y la desviación estándar (es decir, el "error es-
tándar") de la media de la muestra es $200. Supongamos que su muestra contiene por lo
menos 30 observaciones. El intervalo de confianza de 95% está entre $38 608 y $39 392,
calculado así: $39 000 ± 1.96($200). Si se seleccionaran 100 muestras del mismo tamaño
de la población de interés y se determinaran los 100 intervalos de confianza determinados,
podremos encontrar la media de la población en 95 de los 100 intervalos de confianza.
En el ejemplo anterior, el error estándar de la distribución muestral de medias es $200.
Desde luego, éste es el error estándar de las medias de la muestra, que estudiamos en el
capítulo anterior. Vea la fórmula (8-1) para los casos en los que está disponible la desvia-
ción estándar de la población. En la mayor parte de las situaciones aplicadas, la desviación
estándar de la población no está disponible, de modo que la calculamos como sigue:

El tamaño del error estándar se ve afectado por dos valores. El primero es la desviación es-
tándar. Si ésta es grande, el error estándar también lo será. Sin embargo, el error estándar
también se ve afectado por el tamaño de la muestra. Conforme aumenta este último, el error
estándar disminuye, indicando que hay menos variabilidad en la distribución de la muestra
de la media de la muestra. Esta conclusión es lógica, porque un estimado que se hace con
una muestra grande debe ser más preciso que aquel que se hace a partir de una muestra
pequeña.
286 Capítulo 9

Como dijimos en el Capítulo 8, cuando el tamaño de la muestra, n, es por lo menos de


30, el consenso general es que el teorema del límite central garantiza que la media de la
muestra sigue la distribución normal. Ésta es una consideración importante. Si la media de
la muestra tiene una distribución normal, en nuestros cálculos podemos utilizar la distribu-
ción normal estándar, es decir, z.
El intervalo de confianza del 95% se calcula como sigue, cuando el número de obser-
vaciones en la muestra es por lo menos 30.

De manera similar, el intervalo de confianza del 99% se calcula como sigue. Una vez más,
suponemos que el tamaño de la muestra es por lo menos de 30.

Como dijimos antes, los valores 1.96 y 2.58 son los valores de z que corresponden al 95%
intermedio y al 99% intermedio de las observaciones, respectivamente.
Podemos utilizar otros niveles de confianza. Para esos casos, el valor de z cambia en
forma correspondiente. En general, un intervalo de confianza para la media de la población
se calcula así:

donde z depende del nivel de confianza. Por tanto, para un nivel de confianza de 92%, el
valor de zen la fórmula (9-1) es 1.75. El valor de zse toma del Apéndice D. Esta tabla se
Estimación e intervalos de confianza 287

basa en la mitad de la distribución normal, de modo que 0.9200/2 = 0.4600. El valor más
cercano en el cuerpo de la tabla es 0.4599 y el valor z correspondiente es 1.75.
Con frecuencia, también utilizamos el nivel de confianza de 90%. En este caso, quere-
mos que el área entre 0 y z sea 0.4500, que se calcula así: 0.9000/2. A fin de encontrar el
valor z para este nivel de confianza, muévase hacia abajo en la columna de la izquierda del
Apéndice D hasta 1.6 y luego por las columnas con los encabezados 0.04 y 0.05. El área
que corresponde a un valor z de 1.64 es 0.4495, y para 1.65 es 0.4505. Para ser conserva-
dores, utilizamos 1.65. Trate de buscar los niveles de confianza siguientes y verifique sus
respuestas con los valores z correspondientes que se dan del lado derecho.

El ejemplo siguiente muestra los detalles para calcular un intervalo de confianza e in-
terpretar el resultado.

La American Management Association quiere tener información sobre el ingreso medio de


los gerentes intermedios en la industria detallista. Una muestra aleatoria de 256 gerentes
revela una media de la muestra de $45 420. La desviación estándar de esta muestra es
$2 050. La asociación busca las respuestas a las preguntas siguientes:

1. ¿Cuál es la media de la población?


2. ¿Cuál es un rango razonable de valores para la media poblacional?
3. ¿Qué significan estos resultados?

En general, las distribuciones de los salarios e ingresos tienen un sesgo positivo, ya que po-
cos individuos ganan mucho más que otros, por lo que la distribución tiene un sesgo en di-
rección positiva. Por suerte, el teorema del límite central señala que si seleccionamos una
muestra grande, la distribución de las medias de ésta seguirá la distribución normal. En este
ejemplo, con una muestra de 256 gerentes intermedios (recuerde que, por lo general, 30
son suficientes), podemos tener la seguridad de que la distribución de la muestra seguirá la
distribución normal.
Otro aspecto es que la desviación estándar poblacional no se conoce. Una vez más, es
práctica común utilizar la desviación estándar de la muestra cuando tenemos una muestra
grande. Ahora, para responder a las preguntas que se formulan en el problema:

1. ¿Cuál es la media de la población? En este caso, no lo sabemos. Lo que sí sabemos


es que la media de la muestra es $45 420. De ahí que nuestro mejor estimado del va-
lor desconocido de la población sea la estadística de la muestra correspondiente. Por
tanto, la media de la muestra de $45 420 es el estimador puntual de la media poblacio-
nal desconocida.
2. ¿Cuál es el rango de valores razonable para la media de la población? La Asocia
ción decide utilizar el nivel de confianza de 95%. Para determinar el intervalo de con
fianza correspondiente, utilizamos la fórmula (9-1).

La práctica común consiste en redondear estos puntos extremos a $45 169 y $45 671.
Estos puntos se conocen como límites de confianza. El grado de confianza o el nivel de
confianza es 95% y el intervalo de confianza es de $45 169 a $45 671. 3.
¿Qué significan estos resultados? Supongamos que seleccionamos varias muestras de
256 gerentes, quizá varios cientos. Para cada muestra, calculamos la media y la
288 Capítulo 9

desviación estándar y luego creamos un intervalo de confianza del 95%, como lo hici-
mos en la sección anterior. Podríamos esperar que alrededor del 95% de estos inter-
valos de confianza contengan el ingreso anual medio de la población. Alrededor de 5%
de los intervalos contendrán el ingreso anual medio poblacional, que es μ. Sin embar-
go, un intervalo de confianza en particular contiene o no el parámetro poblacional. El
diagrama siguiente ilustra los resultados de seleccionar muestras de la población de
gerentes intermedios en la industria detallista, calculando la media de la desviación es-
tándar de cada una y utilizando la fórmula (9-1) para determinar un intervalo de con-
fianza del 95% para la media poblacional. Los dos puntos extremos de la quinta
muestra son menores que la media de la población. Lo anterior lo atribuimos al error de
muestreo, y es el riesgo que corremos al seleccionar el nivel de confianza.

Simulación por computadora


Con la ayuda de una computadora, podemos seleccionar al azar muestras de una pobla-
ción, calcular con rapidez el intervalo de confianza y mostrar de qué manera los intervalos
de confianza por lo regular, mas no siempre, incluyen el parámetro de la población. El ejem-
plo nos ayudará a explicar lo siguiente.

Tras varios años de participar en el negocio de renta de autos, Town Bank sabe que la
distancia media recorrida en una renta durante cuatro años es de 50 000 millas y la desvia-
ción estándar es 5 000. Supongamos que, con el uso del software estadístico MINITAB,
queremos encontrar la proporción de los intervalos de confianza de 95% que va a incluir la
media de la población de 50. Para facilitar los cálculos, realizaremos el estudio en miles de
millas, en lugar de millas. Seleccionamos 60 muestras aleatorias de 30 de una población
con una media de 50 y una desviación estándar de 5.

Los resultados de 60 muestras aleatorias de 30 automóviles cada una se resumen en la tabla


siguiente. De los 60 intervalos de confianza con un nivel de confianza de 95%, dos, o 3.33%,
Estimación e intervalos de confianza 289

no incluían la media poblacional de 50. Los intervalos (C3 y C59) que no incluyen la media de
la población están marcados. El porcentaje de 3.33 se aproxima al estimado de que 5% de
los intervalos no incluyen la media de la población, y 58 de 60, o 96.67%, se aproximan a 95%.
Para explicar el primer cálculo con mayor detalle: MINITAB empezó por seleccionar una
muestra aleatoria de 30 observaciones de una población con una media de 50 y una des-
viación estándar de 5. La media de estas observaciones es 50.053. El error de muestreo es
0.053, calculado asi: Los puntos extremos del intervalo de con-
fianza son 48.264 y 51.842. Estos puntos extremos se determinan utilizando la formula (9-1),
pero utilizando σ en lugar de s.
290 Capítulo 9

Autoevaíuación 9-1 Las ventas diarias medias en Bun-and-Run, un restaurante de comida rápida, son de $20 000
para una muestra de 40 días. La desviación estándar de la muestra es $3 000.
(a) ¿Cuáles son las ventas diarias medias estimadas de la población? ¿Cómo se llama el es
timador?
(b) ¿Cuál es el intervalo de confianza de 99%?
(c) Interprete sus resultados.

Ejercicios
1. Una muestra de 49 observaciones se toma de una población normal. La media de la muestra
es 55, y la desviación estándar de la muestra es 10. Determine el intervalo de confianza de
99% para la media de la población.
2. Una muestra de 10 observaciones se selecciona de una población normal para la que se sa-
be que la desviación estándar poblacional es 5. La media de la muestra es 20.
a. Determine el error estándar de la media.
b. Explique por qué podemos utilizar la fórmula (9-1) para determinar el intervalo de con
fianza de 99% aun cuando la muestra sea menor que 30.
c. Determine el intervalo de confianza de 95% para la media de la población.
4. Suponga que quiere un nivel de confianza de 85%. ¿Qué valor de z utilizaría para multipli-
car el error estándar de la media?
5. Una empresa de investigación realizó una encuesta para determinar la cantidad media que
los fumadores gastan en cigarrillos durante una semana. Una muestra de 49 fumadores re-
veló que $20 y s = $5.
a. ¿Cuál es el estimador puntual de la media de la población? Explique qué indica.
b. Utilizando el nivel de confianza de 95%, determine el intervalo de confianza para μ. Ex-
plique qué indica.
6. Refiérase al ejercicio anterior. Suponga que la muestra es de 64 fumadores (en lugar de 49),
y que la media y la desviación estándar de la muestra siguen siendo las mismas ($20 y $5,
respectivamente).
a. ¿Cuál es el estimador de ¡i que corresponde al intervalo de confianza de 95%?
b. Explique por qué este intervalo de confianza es más angosto que el que determinamos
en el ejercicio anterior.
7. Bob Nale es el propietario de Nale's Texaco GasTown. Bob quiere estimar el número medio
de galones de gasolina vendidos a sus clientes. De sus registros, selecciona una muestra
aleatoria de 60 ventas y encuentra que el número medio de galones vendidos es 8.60 y la
desviación estándar es 2.30 galones.
Estimación e intervalos de confianza 291

a. ¿Cuál es el estimador puntual de la media de la población?


b. Desarrolle un intervalo de confianza del 99% para la media de la población.
c. Interprete el significado del punto b.
8. El doctor Patton es profesor de inglés. Hace poco contó el número de palabras con faltas de
ortografía en un grupo de ensayos de sus estudiantes. Para su clase de 40 alumnos, el nú-
mero medio de palabras con faltas de ortografía fue 6.05 y la desviación estándar 2.44 por
ensayo. Elabore un intervalo de confianza de 95% para el número medio de palabras con
faltas de ortografía en la población de ensayos de los estudiantes.

Desviación estándar de una población desconocida


y una muestra pequeña
En la sección anterior, utilizamos una distribución normal estándar para expresar el nivel de
confianza. Supusimos que:

1. La distribución de la población seguía una distribución normal y que la desviación es-


tándar poblacional era conocida, o bien,
2. La forma de la población era desconocida, pero el número de observaciones en la
muestra era por lo menos de 30.

¿Qué hacemos si la muestra es menor que 30 y no conocemos la desviación estándar de


la población? Los resultados del teorema del límite central no cubren esta situación, pero
existe en muchos casos. A menudo, podemos razonar que la población es normal o apro-
ximada a una distribución normal. En estas condiciones, el procedimiento estadístico co-
rrecto consiste en reemplazar la distribución normal estándar con la distribución t. Esta
última es una distribución continua que presenta muchas similitudes con la distribución nor-
mal estándar. William Gosset, un experto cervecero, fue el primero en estudiar la distribu-
ción t. Gosset realizó su trabajo a principios de la década de 1900. La cervecería donde
trabajaba prefería que sus empleados utilizaran seudónimos al publicar sus trabajos. Por
esta razón, el trabajo de Gosset se publicó bajo el seudónimo de "Student". De ahí que, con
frecuencia, encontrará referencias a esta distribución como la f de Student. A Gosset le
preocupaba el comportamiento del término siguiente:

s es un estimador de σ. En especial, se preocupaba por la discrepancia entre s y a cuando


s se calculaba a partir de una muestra muy pequeña. La distribución t y la distribución nor-
mal estándar se ilustran en la Gráfica 9-1. Observe que la distribución t es más plana, más
extendida, que la distribución normal estándar. Esto se debe a que la desviación estándar
de la distribución t es mayor que la distribución normal estándar.

GRÁFICA 9-1 La distribución normal estándar y la distribución t de Student

Las siguientes características de la distribución í se basan en la suposición de que la


población de interés es normal, o casi normal.
292 Capítulo 9

1. Al igual que la distribución normal, es una distribución continua.


2. Al igual que la distribución normal, es simétrica y tiene forma de campana.
3. No hay una sola distribución t, sino más bien una "familia" de distribuciones t Todas tie-
nen una media de 0, pero sus desviaciones estándar difieren según el tamaño de la
muestra, n. Hay una distribución t para un tamaño de muestra de 20, otra para un ta-
maño de muestra de 22, y así sucesivamente. La desviación estándar para una distri-
bución t con 5 observaciones es mayor que aquella para una distribución t con 20
observaciones.
4. La distribución t es más extendida y plana en el centro que la distribución normal es-
tándar (vea la Gráfica 9-1). Sin embargo, conforme aumenta el tamaño de la muestra,
la distribución t se asemeja más a la distribución normal estándar, debido a que los
errores al utilizar s para estimar a disminuyen con las muestras más grandes.

Debido a que la distribución t de Student tiene mayor extensión que la distribución normal,
el valor para t en un nivel de confianza determinado es mayor que los valores de z corres-
pondientes. La Gráfica 9-2 muestra los valores de z para un nivel de confianza del 95% y
de t para el mismo nivel de confianza cuando el tamaño de la muestra es n = 5. En breve
explicaremos cómo obtuvimos el valor real de t. Por el momento, observe que, para el mis-
mo nivel de confianza, la distribución t es más plana y extendida que la distribución normal
estándar.

GRÁFICA 9-2 Valores de z y t para el nivel de confianza del 95%

A fin de desarrollar un intervalo de confianza para la media de la población utilizando la


distribución t, ajustamos la fórmula (9-1) como sigue:
Estimación e intervalos de confianza 293

En otras palabras, a fin de desarrollar un intervalo de confianza para la media de la po-


blación con una desviación estándar poblacional desconocida:

1. Suponemos que la muestra es de una población con tendencia normal.


2. Calculamos la desviación estándar de la población con la estimación de la desvia-
ción estándar de la muestra (s).
3. Utilizamos la distribución f, en lugar de la distribución normal.

Por lo general, usamos la distribución normal estándar cuando el tamaño de la muestra es


de por lo menos 30. Estrictamente hablando, debemos basar la decisión de usar z o t en el
hecho de si es conocida o no. Cuando es conocida, utilizamos z, cuando es
desconocida, usamos t La regla de usar z cuando la muestra es de 30 o más se basa en
el hecho de que la distribución t se aproxima a la distribución normal conforme aumenta el
tamaño de la muestra. Cuando la muestra llega a 30, hay poca diferencia entre los valores
zy t, de modo que podemos ignorarla y utilizar z. Demostraremos esto cuando estudiemos
los detalles de la distribución t y cómo calcular los valores en una distribución t La Gráfica
9-3 resume el proceso de la toma de decisiones.

GRÁFICA 9-3 Cómo determinar cuándo utilizar la distribución normal o la distribución t

El ejemplo siguiente ilustra un intervalo de confianza para una media de la población cuan-
do se conoce la desviación estándar poblacional y cómo encontrar el valor de t en una tabla.

Un fabricante de llantas quiere investigar la duración de sus productos. Una muestra de 10


llantas que se usaron para recorrer 50 000 millas reveló una media de la muestra de 0.32
pulgadas de cuerda restante con una desviación estándar de 0.09 pulgadas. Elabore un in-
tervalo de confianza de 95% para la media de la población. ¿Sería razonable que el fabri-
cante llegara a la conclusión de que después de 50 000 millas la cantidad media poblacional
de cuerda restante es 0.30 pulgadas?

Para empezar, suponemos que la distribución de la población es normal. En este caso, no


tenemos muchas evidencias, pero quizá la suposición sea razonable. No conocemos la
desviación estándar de la población, pero sí la desviación estándar de la muestra, que es
de 0.09 pulgadas. Para utilizar el teorema del límite central, necesitamos una muestra gran-
de, es decir, una muestra de 30 o más. En este caso, sólo hay 10 observaciones en la
muestra. De ahí que no podamos utilizar el teorema del límite central. Es decir, la fórmula
(9-1) no se puede aplicar; en vez de ésta, usamos la fórmula (9-2):
294 Capítulo 9

A partir de la información dada, Para encontrar el valor de t uti-


lizamos el Apéndice F, una parte de ésta se reproduce a continuación en la Gráfica 9-4. El
Apéndice F también se reproduce en la contraportada interna del libro. El primer paso para
localizar t es moverse a lo largo de la hilera identificada como "Intervalos de confianza" has-
ta el nivel requerido. En este caso queremos el nivel de confianza del 95%, de modo que
nos movemos hasta la columna con el encabezado "95%". La columna en el margen iz-
quierdo se identifica como "gl", este nombre se refiere al número de grados de libertad. Éste
es el número de observaciones en la muestra menos el número de muestras, expresado n -
1,1 En este caso es 10 - 1 = 9. Para un nivel de confianza del 95% y 9 grados de libertad,
seleccionamos la hilera con 9 grados de libertad. El valor de t es 2.262.

GRÁFICA 9-4 Una parte de la distribución

Para determinar el intervalo de confianza, sustituimos los valores en la fórmula (9-2).

Los puntos extremos del intervalo de confianza son 0.256 y 0.384. ¿Cómo interpretamos
este resultado? Es razonable llegar a la conclusión de que la media de la población está en
este intervalo. El fabricante puede estar seguro (confianza de 95%) de que la profundidad
media de las cuerdas es entre 0.256 y 0.384 pulgadas. Debido a que el valor de 0.30 se en-
cuentra en este intervalo, es posible que la media de la población sea 0.30.

Éste es otro ejemplo para explicar el uso de los intervalos de confianza. Suponga que
un artículo publicado en el periódico de su localidad informa que el tiempo medio para ven-
der una propiedad residencial en el área es de 60 días. Usted selecciona una muestra alea-
toria de 20 casas vendidas durante el último año y encuentra que el tiempo de venta medio
es de 65 días. Con base en los datos de la muestra, usted desarrolla un intervalo de con-
Estimación e intervalos de confianza 295

fianza del 95% para la media de la población, y encuentra que los puntos extremos son 62
y 68 días. ¿Cómo interpreta este resultado? Puede tener la confianza de que la media de la
población se encuentra en este rango. El valor propuesto para la media de la población, es
decir 60 días, no se incluye en el intervalo. No es probable que la media de la población sea
60 días. Las evidencias indican que la afirmación del periódico local puede no ser correcta.
En otras palabras, parece poco razonable obtener la muestra de una población que tenía
un tiempo de venta medio de 60 días.
El ejemplo siguiente ilustra detalles adicionales para determinar e interpretar un inter-
valo de confianza. Utilizamos MINITAB para realizar los cálculos.

El gerente de Inlet Square Mall, cerca de Ft. Myers, Florida,


quiere estimar la cantidad media que gastan los clientes que vi-
sitan el centro comercial. Una muestra de 20 clientes revela las
siguientes cantidades gastadas.

¿Cuál es el mejor estimado de la media de la población? De-


termine un intervalo de confianza del 95%. Interprete el resul-
tado. ¿Sería razonable llegar a la conclusión de que la media
de la población es $50? ¿Qué tal $60?

El gerente del centro comercial supone que la población de las cantidades gastadas por los
clientes sigue la distribución normal. En este caso ésta es una suposición razonable. Además,
la técnica del intervalo de confianza es muy poderosa y tiende a incluir cualquier error en el
lado conservador si la población no es normal. No debemos suponer una condición normal
cuando la población presenta un sesgo muy pronunciado o cuando la distribución tiene "colas
gruesas". En el Capítulo 16, presentamos los métodos para manejar este problema en caso
de no poder suponer una condición normal. En este caso, esta suposición es razonable.
La desviación estándar de la población no se conoce y el tamaño de la muestra es me-
nor que 30. De ahí que sea apropiado usar la distribución t y la fórmula (9-2) para encon-
trar el intervalo de confianza. Utilizamos el sistema MINITAB para encontrar la media y la
desviación estándar de esta muestra. Los resultados se muestran a continuación.
296 Capítulo 9

El gerente del centro comercial no conoce la media de la población. Ésta es la mejor


estimación de ese valor. En la pantalla de MINITAB anterior, la media es $49.35, que es el
mejor estimador, el estimador puntual, de la media de la población desconocida.
Utilizamos la fórmula (9-2) para encontrar el intervalo de confianza. El valor de t está
disponible en el Apéndice F. Hay n - 1 =20-1 = 19 grados de libertad. Nos movemos por
la hilera con 19 grados de libertad hacia la columna para el nivel de confianza del 95%. El
valor en esta intersección es de 2.093. Sustituimos estos valores en la fórmula (9-2) para
encontrar el intervalo de confianza.

Los puntos extremos del intervalo de confianza son $45.13 y $53.57. Es razonable llegar a
la conclusión de que la media de la población se encuentra en ese intervalo.
El gerente de Inlet Square se preguntaba si la media de la población podría ser $50 o
$60. El valor de $50 se encuentra en el intervalo de confianza; por lo que es razonable que
la media de la población sea $50. El valor de $60 no está en el intervalo de confianza. Por
tanto, llegamos a la conclusión de que no es probable que la media de la población sea $60.

Autoevaluación 9-2 Dottie Kleman es la "Cookie Lady". Hornea y vende galletas en 50 lugares diferentes del área
de Filadelfia. La señora Kleman se preocupa por el ausentismo entre sus trabajadores. La in-
formación siguiente reporta el número de ausencias para una muestra de 10 empleados du-
rante el último periodo de pago de dos semanas.

(a) Determine la media y la desviación estándar de la muestra.


(b) ¿Cuál es la media de la población? ¿Cuál es el mejor estimador de ese valor?
(c) Desarrolle un intervalo de confianza del 95% para la media de la población.
(d) Explique por qué la distribución t se utiliza como parte del intervalo de confianza.
(e) ¿Es razonable llegar a la conclusión de que el trabajador típico no falta ningún día duran
te un periodo de pago?

Ejercicios
9. Use el Apéndice F para localizar el valor de t en las siguientes condiciones.
a. El tamaño de la muestra es 12 y el nivel de confianza es 95%.
b. El tamaño de la muestra es 20 y el nivel de confianza es 90%.
c. El tamaño de la muestra es 8 y el nivel de confianza es 99%.
10. Utilice el Apéndice F para localizar el valor de t en las condiciones siguientes.
a. El tamaño de la muestra es 15 y el nivel de confianza es 95%.
b. El tamaño de la muestra es 24 y el nivel de confianza es 98%.
c. El tamaño de la muestra es 12 y el nivel de confianza es 90%.
11. El dueño de Brittne's Egg Farm quiere calcular el número medio de huevos que pone una
gallina. Una muestra de 20 gallinas indica que ponen un promedio de 20 huevos al mes con
una desviación estándar de 2 huevos por mes.
a. ¿Cuál es el valor de la media de la población? ¿Cuál es el mejor estimador de este valor?
b. Explique por qué necesitamos usar la distribución t ¿Qué suposición debe hacer?
c. Para un intervalo de confianza del 95%, ¿cuál es el valor de t?
d. Desarrolle el intervalo de confianza del 95% para la media de la población.
e. ¿Sería razonable llegar a la conclusión de que la media de la población es 21 huevos?
¿Qué tal 25 huevos?
12. La American Sugar Producers Association quiere calcular el consumo de azúcar medio
anual. Una muestra de 16 personas revela que el consumo medio anual es de 60 libras con
una desviación estándar de 20 libras.
Estimación e intervalos de confianza 297

a. ¿Cuál es el valor de la media de la población? ¿Cuál es el mejor estimador de este valor?


b. Explique por qué necesitamos usar la distribución í. ¿Qué suposición debemos hacer?
c. Para un intervalo de confianza del 90%, ¿cuál es el valor de f?
d. Desarrolle el intervalo de confianza del 90% para la media de la población.
e. ¿Sería razonable llegar a la conclusión de que la media de la población es 63
libras?
13. Merrill Lynch Securities y Health Care Retirement, Inc., son dos grandes empresas que es-
tán en el centro de Toledo, Ohio. En forma conjunta, consideran la posibilidad de ofrecer ser
vicio de guardería para los hijos de sus empleados. Como parte del estudio de probabilidad,
quieren estimar el costo medio semanal que el cuidado de sus hijos representa para los em-
pleados. Una muestra de 10 empleados que utilizan este servicio revela las siguientes can-
tidades gastadas la semana pasada.

Desarrolle un intervalo de confianza del 90% para la media de la población. Interprete el re-
sultado.
14. The Greater Pittsburgh Área Chamber of Commerce quiere estimar el tiempo medio que los
empleados que trabajan en el centro de la ciudad tardan en llegar a su trabajo. Una mues-
tra en 15 empleados reveló los siguientes minutos.

Desarrolle un intervalo de confianza del 98% para la media de la población. Interprete el re-
sultado.

Intervalo de confianza para una proporción


El material presentado hasta aquí en este capítu-
lo utiliza la escala de medición de razón. Es decir,
usamos variables como ingresos, pesos, distan-
cias y edad. Ahora, queremos considerar situa-
ciones como las siguientes:
• El director de servicios profesionales de
Southern Technical Institute reporta que 80%
de sus graduados entran en el mercado labo-
ral en un puesto relacionado con su área de
estudio.
• Un representante de la compañía afirma que
45% de las ventas de Burger King se realizan
en la ventana de servicio en el auto.
• Un estudio de las casas en el área de Chicago indicó que 85% de las construcciones
nuevas tienen sistema de aire acondicionado central.
• Una encuesta reciente entre hombres casados de 35 a 50 años de edad descubrió que
63% sienten que ambos cónyuges deben aportar dinero.

Estos ejemplos ilustran la escala de medición nominal. En ésta, una observación se clasifi-
ca en uno de dos o más grupos mutuamente excluyentes. Por ejemplo, un alumno gradua-
do de Southern Tech puede entrar en el mercado en un puesto relacionado con su área de
estudio o no. Un cliente de Burger King en particular puede hacer una compra en la venta-
na de servicio en el auto o no. Sólo hay dos posibilidades y el resultado se debe clasificar
en uno de los dos grupos.

PROPORCIÓN Fracción, razón o porcentaje que indica la parte de la muestra o la po-


blación que tiene un rasgo de interés en particular.
298 Capítulo 9

Como ejemplo de una proporción, una encuesta reciente indicó que 92 de cada 100 en-
trevistados estuvieron a favor del uso continuo de la hora de verano para ahorrar energía.
La proporción de la muestra es 92/100, o 0.92, o 92%. Si p representa la proporción de la
muestra, X el número de "éxitos" y n el número de elementos en la muestra, podemos de-
terminar la proporción de la muestra como sigue.

La proporción de la población se identifica con Por tanto, se refiere al


porcentaje de éxitos en la población. Recuerde que en el Capítulo 6 vimos que es la
probabilidad de "éxitos" en una distribución binomial. Así, continuamos con la práctica de
utilizar letras griegas para identificar los parámetros de la población y letras romanas para
las estadísticas de muestra.
A fin de desarrollar un intervalo de confianza para una proporción, necesitamos cumplir
con las suposiciones siguientes.

1. Las condiciones binomiales, que estudiamos en el Capítulo 6, se cumplieron. En resu


men, estas condiciones son:
a. La información de la muestra es el resultado de los conteos.
b. Sólo hay dos resultados posibles. (Por lo general, decimos que uno de ellos es "éxi
to" y el otro "fracaso".
c. La probabilidad de un éxito sigue siendo la misma de un intento al otro.
d. Los ensayos son independientes. Esto significa que el resultado de un ensayo no
afecta el resultado de otro.
2. Los valores deben ser mayores o iguales a 5. Esta condición nos permi
te recurrir al teorema del límite central y utilizar la distribución normal estándar, es de
cir, z, para completar un intervalo de confianza.

El desarrollo de un estimador puntual para la proporción de la población y un intervalo


de confianza para la proporción de la población es similar a hacerlo para una media. Para
ilustrar, John Gail es candidato para representar en el Congreso al tercer distrito de Nebras-
ka. De una muestra aleatoria de 100 votantes en el distrito, 60 indican que planean votar
por él en las próximas elecciones. La proporción es 0.60, pero la proporción de la población
se desconoce. Es decir, sabemos cuál es la proporción de votantes en la población que van
a votar por el señor Gail. El valor de la muestra, 0.60, es el mejor estimador que tenemos
del parámetro de la población desconocido. Entonces, sea p, que es 0.60, un estimador de
n, que desconocemos.
A fin de desarrollar un intervalo de confianza para una proporción de la población, cam-
biamos ligeramente la fórmula (9-1):

El término es el "error estándar" de la proporción. Mide la variabilidad en la distribución


de muestreo de la proporción de la muestra.

Así, podemos construir el intervalo de confianza para la proporción de una población a


partir de la fórmula siguiente.
Estimación e intervalos de confianza 299

El sindicato que representa a Bottle Blowers of America (BBA) considera la propuesta de


fusión con Teamsters Union. Según el reglamento del sindicato BBA, por lo menos tres
cuartas partes de sus miembros deben aprobar cualquier fusión. Una muestra aleatoria de
2 000 miembros actuales de BBA revela que 1 600 planean votar a favor de la propuesta.
¿Cuál es el estimador de la proporción de la población? Desarrolle un intervalo de confian-
za del 95% para la proporción de la población. Basando su decisión en esta información de
la muestra, ¿puede llegar a la conclusión de que la proporción necesaria de miembros del
BBA están a favor de la fusión? ¿Por qué?

Primero, calcule la proporción de la muestra a partir de la fórmula (9-3). Es 0.80, que se calculó
como sique:

Por tanto, calculamos que 80% de la población está a favor de la propuesta de fusión. De-
terminamos el intervalo de confianza del 95% utilizando la fórmula (9-6). El valor de z que
corresponde al nivel de confianza del 95% es 1.96.

Los puntos extremos del intervalo de confianza son 0.782 y 0.818. El punto extremo más
bajo es mayor que 0.75. De modo que llegamos a la conclusión de que es probable que se
apruebe la propuesta de la fusión porque el estimador del intervalo incluye valores mayo-
res al 75% de los miembros del sindicato.

Autoevaluación 9-3 Se realizó una encuesta de mercado para calcular la proporción de amas de casa que reco-
nocen la marca de un limpiador con base en la forma y el color del envase. De las 1 400 amas
de casa en la muestra, 420 identificaron la marca por su nombre.
(a) Calcule el valor de la proporción de la población.
(b) Calcule el error estándar de la proporción.
(c) Desarrolle un intervalo de confianza del 99% para la proporción de la población.
(d) Interprete sus resultados.

Ejercicios
15. El dueño de West End Kwick Fill Gas Station quería determinar la proporción de clientes que
usan tarjeta de crédito o débito para pagar la gasolina en el área de bombas. Entrevistó a
100 clientes y descubrió que 80% pagaron en el área de bombas.
a. Calcule el valor de la proporción de la población.
b. Calcule el error estándar de la proporción.
c. Desarrolle un intervalo de confianza del 95% para la proporción de la población.
d. Interprete sus resultados.
16. La señorita Maria Wilson considera la posibilidad de postularse para alcalde de la ciudad de
Bear Gulch, Montana. Antes de solicitar la postulación, decide realizar una encuesta entre
los votantes de Bear Gulch. Una muestra de 400 votantes revela que 300 la apoyarían en
las elecciones de noviembre.
a. Calcule el valor de la proporción de la población.
b. Calcule el error estándar de la proporción.
c. Desarrolle un intervalo de confianza del 99% para la proporción de la población.
d. Interprete sus resultados.
17. La red Fox TV considera el reemplazo de uno de sus programas de investigación criminal
que pasa en las horas de mayor rating con un programa de comedia nuevo orientado hacia
la familia. Antes de tomar una decisión definitiva, los ejecutivos de la red estudian una mues-
tra de 400 televidentes. Después de ver el programa de comedia, 250 señalaron que lo ve-
rían y sugirieron reemplazar el programa de investigación criminal.
a. Calcule el valor de la proporción de la población.
b. Calcule el error estándar de la proporción.
300 Capítulo 9

c. Desarrolle un intervalo de confianza del 99% para la proporción de la población.


d. Interprete sus resultados.
18. Schadek Silkscreen Printing, Inc., compra tazas de plástico para imprimirles logotipos de
eventos deportivos, graduaciones, cumpleaños y otras ocasiones especiales. Zack Schadek,
el propietario, recibió un envío importante esta mañana. Para asegurarse de la calidad del en-
vío, seleccionó una muestra aleatoria de 300 tazas y descubrió 15 unidades defectuosas.
a. ¿Cuál es la proporción estimada de tazas defectuosas en la población?
b. Desarrolle un intervalo de confianza del 95% para la proporción de tazas defectuosas.
c. Zack tiene un acuerdo con su proveedor de que va a devolver los lotes en los que haya
10% o más de unidades defectuosas. ¿Debe regresar este lote? Explique su decisión.

Factor de corrección para una población finita


Las poblaciones de las que hemos tomado muestras hasta el momento han sido muy
grandes o infinitas. ¿Qué sucede cuando la población de la que se toma la muestra no es
muy grande? Necesitamos realizar algunos ajustes en la forma en que calculamos el error
estándar de las medias de la muestra y el error estándar de las proporciones de la muestra.
Una población que tiene un límite superior fijo es finita. Por ejemplo, hay 21 376 estu-
diantes inscritos en la Eastern Illinois University, hay 40 empleados en Spence Sprockets,
ayer DaimlerChrysIer armó 917 Jeep Wranglers en la planta de Alexis Avenue o ayer había
65 pacientes programados para cirugía en el St. Rose Memorial Hospital en Sarasota. Una
población finita puede ser pequeña; pueden ser todos los estudiantes registrados para una
clase. Pero también puede ser grande, como todas las personas de la tercera edad que vi-
ven en Florida.
Para una población finita, donde el número total de objetos es N y el tamaño de la
muestra es n, se realiza el ajuste siguiente a los errores estándar de las medias y propor-
ciones de la muestra:

Este ajuste se conoce como factor de corrección para poblaciones finitas. ¿Por qué es
necesario aplicar un factor y qué efecto tiene? Lógicamente, si la muestra es un porcentaje
significativo de la población, el estimador es más preciso. Observe el efecto del término (N
- n)l(N- 1). Suponga que la población es 1 000 y la muestra es 100. Entonces, esta razón
es (1 000 - 100)/(1 000 - 1), o 900/999. La raíz cuadrada da el factor de corrección,
0.9492. Si multiplicamos este factor de corrección por el error estándar este último se redu-
ce alrededor de 5% (1 - 0.9492 = 0.0508). Esta reducción en el tamaño del error estándar
produce un rango de valores más pequeño al estimar la media de la población o la propor-
ción de la población. Si la muestra es 200, el factor de corrección es 0.8949, que significa
que el error estándar se redujo más de 10%. La tabla 9-1 muestra los efectos de los distin-
TABLA 9-1 Factor de corrección de la población finita para muestras seleccionadas cuando la población
es 1 000
Estimación e intervalos de confianza 301

tos tamaños de muestra. Observe que cuando la muestra es menor de 5% de la población,


el impacto del factor de corrección es muy bajo. La regla común es que si la razón de n/N
es menor que 0.05, se ignora el factor de corrección.

En Scandia, Pennsylvania, hay 250 familias. Una encuesta entre 40 familias revela que la
contribución media anual a la iglesia es de $450, con una desviación estándar de $75. Ela-
bore un intervalo de confianza del 90% para la contribución media anual.

Primero, observe que la población es finita. Es decir, hay un límite para el número de per-
sonas en Scandia. En segundo lugar, observe que la muestra constituye más de 5% de la
población; es decir, n/N - 40/250 = 0.16. Por consiguiente, utilizamos el factor de correc-
ción de población finita. El intervalo de confianza del 90% se construye como sigue, utili-
zando la fórmula (9-7).

Los puntos extremos del intervalo de confianza son $432.03 y $467.97. Es probable que la
media de la población se encuentre en este intervalo.

Autoevaluación 9-4 El mismo estudio de las contribuciones a la iglesia en Scandia reveló que 15 de las 40 fami-
lias de la muestra asisten a la iglesia en forma regular. Elabore un intervalo de confianza del
95% para la proporción de familias que asisten a la iglesia regularmente. ¿Se debe usar el
factor de corrección de población finita? ¿Por qué sí o por qué no?

Ejercicios
19. De una población de 300 se selecciona una muestra al azar de tamaño 36. La media de la
muestra es 35 y la desviación estándar de la muestra es 5. Desarrolle un intervalo de con
fianza del 95% para la media de la población.
20. De una población de 550 se selecciona una muestra al azar de tamaño 45. La media de la
muestra es 40 y la desviación estándar de la muestra es 9. Desarrolle un intervalo de con
fianza del 99% para la media de la población.
21. Anoche la asistencia al juego de la liga menor de béisbol de los Savannah Colts fue de 400.
Una muestra aleatoria de 50 personas que asistieron reveló que el número medio de refres-
cos consumidos por cada una fue 1.86, con una desviación estándar de 0.50. Desarrolle un
intervalo de confianza del 99% para el número medio de refrescos consumidos por persona.
22. Hay 300 soldadores empleados en Maine Shipyards Corporation. Una muestra de 30 solda-
dores reveló que 18 se graduaron en un curso de soldadura. Elabore el intervalo de confian-
za del 95% para la proporción de soldadores que se graduaron en el curso de soldadura.

Elección del tamaño apropiado de una muestra


Una preocupación que surge a menudo al diseñar un estudio estadístico es: "¿Cuántos ele-
mentos debe haber en una muestra?" Si la muestra es demasiado grande, se gasta mucho
dinero en recopilar la información. De modo similar, si la muestra es demasiado pequeña,
las conclusiones resultantes serán inciertas. El tamaño apropiado de la muestra depende
de tres factores:
1. El nivel de confianza deseado.
2. El margen de error que el investigador va a tolerar.
3. La variabilidad en la población que se estudia.
302 Capítulo 9

El primer factor es el nivel de confianza. Aquellos que diseñan el estudio seleccionan


el nivel de confianza. Los niveles de confianza del 95% y 99% son los más comunes, pero
cualquier valor entre 0% y 100% es posible. El nivel de confianza del 95% corresponde a
un valor z de 2.58. Cuanto más grande sea el nivel de confianza seleccionado, mayor será
e! tamaño de la muestra correspondiente.
El segundo factor es el error admisible. El error máximo admisible, designado como E,
es la cantidad que se suma y resta de la media de la muestra (o la proporción de la mues-
tra) para determinar los puntos extremos del intervalo de confianza. Es la cantidad de error
que las personas que realizan el estudio están dispuestas a tolerar. Asimismo, tiene la mi-
tad del ancho del intervalo de confianza correspondiente. Un error admisible bajo requiere
de una muestra grande. Un error admisible alto permite una muestra más pequeña.
El tercer factor al determinar el tamaño de una muestra es la desviación estándar de la
población. Si la población está muy dispersa, se requiere de una muestra grande. Por otro
lado, si la población está concentrada (es homogénea), el tamaño de la muestra requerido
será menor. Sin embargo, tal vez sea necesario usar un estimador para la desviación es-
tándar de la población. Éstas son algunas sugerencias para calcular ese estimador.
1. Utilice un estudio comparativo. Emplee esta estrategia cuando haya disponible un
estimador de la dispersión de otro estudio. Suponga que queremos calcular el número
de horas que los obreros trabajan a la semana. La información de ciertos organismos
estatales o federales que toman muestras regulares de la fuerza laboral podría ser útil
para dar un estimado de la desviación estándar. Si la desviación estándar observada
en un estudio previo se considera confiable, se puede utilizar en el estudio actual para
tener un tamaño aproximado de la muestra.
2. Emplee una estrategia basada en el rango. Para esto necesitamos saber o tener un es
timador de los valores más alto y más bajo en la población. Recuerde que en el Capítulo
3, donde describimos la Regla empírica, dijimos que prácticamente se puede esperar que
todas las observaciones estén a más o menos 3 desviaciones estándar de la media, su
poniendo que la distribución sea aproximadamente normal. Por tanto, la distancia entre
los valores más alto y más bajo es 6 desviaciones estándar. Podríamos calcular la des
viación estándar como una sexta parte del rango. Por ejemplo, la directora de operacio
nes de University Bank quiere un estimado del número de cheques que expiden los
estudiantes universitarios cada mes. La directora cree que la distribución es aproximada
mente normal, el número mínimo de cheques que se expiden es 2 al mes y el máximo es
50. El rango del número de cheques expedidos al mes es 48, calculado al restar 50 - 2.
Entonces el estimador de la desviación estándar sería 8 cheques al mes, 48/6.
3. Realice un estudio piloto. Éste es el método más común. Suponga que queremos un
estimado del número de horas a la semana que trabajan los estudiantes inscritos en la
Facultad de Administración de la University of Texas. Para probar la validez de nuestro
cuestionario, usamos una muestra pequeña de estudiantes. A partir de ésta, calcula
mos la desviación estándar del número de horas trabajadas y el uso de este valor pa
ra determinar el tamaño apropiado de la muestra.
En la fórmula siguiente podemos expresar la interacción entre estos tres factores y el
tamaño de la muestra.

Al despejar esta ecuación para n, obtenemos el resultado siguiente.

donde:
n es el tamaño de la muestra.
z es el valor normal estándar correspondiente al nivel de confianza deseado.
s es un estimado de la desviación estándar de la población.
E es el error máximo admisible.
Estimación e intervalos de confianza 303

El resultado de este cálculo no siempre es un número entero. Cuando el resultado no es un


número entero, la práctica común consiste en redondear cualquier resultado fraccionario.
Por ejemplo, 201.22 se redondea a 202.

Un estudiante de administración pública quiere determinar la cantidad media que los miem-
bros de los consejos ciudadanos de las grandes ciudades ganan al mes como remunera-
ción. El error al estimar la media debe ser menor de $100, con un intervalo de confianza del
95%. El estudiante encontró un informe del Departamento del Trabajo en el que la desvia-
ción estándar se calcula en $1 000. ¿Cuál es el tamaño de la muestra requerido?

El error máximo admisible, E, es $100. El valor de z para un nivel de confianza del 95% es
1.96 y el estimador de la desviación estándar es $1 000. Si sustituimos estos valores en la
fórmula (9-9) el tamaño de la muestra requerido es:

El valor calculado de 384.16 se redondea a 385. Para cubrir las especificaciones, se requiere
de una muestra de 385. Si el estudiante quiere aumentar el nivel de confianza, por ejemplo
al 99%, necesitará una muestra más grande. El valor de z que corresponde al nivel de
confianza del 99% es 2.58.

Recomendamos una muestra de 666. Observe el grado en que el cambio en el nivel de con-
fianza afectó el tamaño de la muestra. Un incremento del 95% a 99% en el nivel de confian-
za dio como resultado un aumento de 281 observaciones. Esto podría aumentar en gran
medida el costo del estudio, tanto en términos de tiempo como de dinero. De ahí que el ni-
vel de confianza se deba considerar con detenimiento.

El procedimiento que acabamos de describir se puede adaptar para determinar el tama-


ño de la muestra para una proporción. Una vez más, es necesario especificar tres elementos:

1. El nivel de confianza deseado.


2 El margen de error en la proporción de la población.
3. Un estimado de la proporción de la población.

La fórmula para determinar el tamaño de la muestra de una proporción es:

Si está disponible un estimador de π de un estudio piloto o de alguna otra fuente, se


puede utilizar. De lo contrario, se usa 0.50 porque el término p(1 - p) nunca puede ser
mayor de 0.50. Por ejemplo, si p = 0.30, entonces p(1 - p) = 0.3(1 - 3) = 0.21, pero cuando
p = 0.50, p(1 - p) = 0.5(1 - 5) = 0.25.

El estudio en el ejemplo anterior también calcula la proporción de las ciudades que tienen
recolectores de basura privados. El estudiante quiere que el estimador esté en 0.10 de la
proporción de la población, que el nivel de confianza sea del 90% y no tomar ninguna esti-
mación disponible para la proporción de la población. ¿Cuál es el tamaño de la muestra que
se requiere?
304 Capítulo 9

El estimador de la proporción de la población está en 0.10, de modo que E= 0.10. El nivel


de confianza deseado es 0.90, que corresponde a un valor z de 1.65. Como no está dispo-
nible ningún estimador de la proporción de la población, utilizamos 0.50. El número reco-
mendado de observaciones es

El estudiante necesita una muestra aleatoria de 69 ciudades.

Autoevaluación 9-5 ¿Le ayudaría usted al secretario académico de la universidad a determinar cuántas boletas
tiene que estudiar? El secretario quiere calcular el promedio medio aritmético de todos los es-
tudiantes que se graduaron durante los 10 años pasados. Los promedios varían entre 2.0 y
4.0. El promedio medio se va a calcular en 0.05 más o menos de la media de la población. La
desviación estándar se calcula en 0.279. Utilice el nivel de confianza del 99%.

Ejercicios
23. Se calcula que una población tiene una desviación estándar de 10. Queremos estimar la media
de la población en 2 unidades de error máximo admisible, con un nivel de confianza del 95%.
¿Qué tan grande debe ser la muestra?
24. Queremos calcular la media de la población en 5 unidades, con un nivel de confianza del
99%. Se estima que la desviación estándar de la población es 0.05 más o menos, con un
nivel de confianza del 95%. El mejor estimador para la proporción de la población es 0.45.
¿Qué tan grande debe ser la muestra?
25. El estimador de la proporción de la población debe estar entre 0.05 más o menos, con un
nivel de confianza del 95%. El mejor estimador de la proporción de la población es 0.15.
¿Qué tan grande debe ser la muestra?
26. El estimador de la proporción de la población debe estar entre 0.10 más o menos, con un
nivel de confianza del 99%. El mejor estimador de la proporción de la población es 0.45.
¿Qué tan grande debe ser la muestra?
27. Se planea realizar una encuesta para determinar la cantidad media de tiempo que los eje
cutivos corporativos ven televisión. Una encuesta piloto indicó que el tiempo medio por se
mana es de 12 horas, con una desviación estándar de 3 horas. Queremos calcular la media
del tiempo en un cuarto de hora como error máximo admisible. Se va a utilizar un nivel de
confianza del 95%. ¿A cuántos ejecutivos tenemos que entrevistar?
28. Un procesador de zanahorias corta las hojas de cada una, lava las zanahorias y las inserta en
un paquete. En una caja se guardan veinte paquetes para su envío. Para controlar el peso de
las cajas, se revisaron unas cuantas. El peso medio fue de 20.4 libras, la desviación estándar
de 0.5 libras. ¿Cuántas cajas debe incluir la muestra para tener una confianza del 95% de que
la media de la muestra no difiere de la media de la población en más de 0.2 libras?
29. Suponga que el presidente quiere un cálculo de la proporción de la población que apoyan
su política actual acerca del control de armas. El presidente quiere que el cálculo esté a 0.04
unidades de la proporción real. Suponga un nivel de confianza del 95%. Los consejeros po-
líticos del presidente calculan que la proporción que apoya la política actual es de 0.60.
a. ¿Qué tamaño de muestra se requiere?
b. ¿Qué tan grande debe ser una muestra si no hay un estimador de la proporción que apo-
ya la política actual?
30. Las encuestas anteriores revelan que 30% de los turistas que van a Las Vegas a jugar du-
rante un fin de semana gastan más de $1 000. La administración quiere actualizar este por-
centaje.
a. El nuevo estudio va a utilizar el nivel de confianza del 90%. El estimador debe estar en
1% de la proporción de la población. ¿Cuál es el tamaño de la muestra necesario?
b. La administración dijo que el tamaño de la muestra que se determinó anteriormente es
muy grande. ¿Qué podemos hacer para reducir la muestra? Con base en su sugerencia,
vuelva a calcular el tamaño de la muestra.
Estimación e intervalos de confianza 305

Resume n del c apítulo


I. Un estimador puntual es un solo valor (estadístico) que se utiliza para calcular un valor de
la población (parámetro).
II. Un intervalo de confianza es un rango de valores dentro del cual se espera que ocurra el
parámetro de la población.
A. Los factores que determinan el ancho de un intervalo de confianza para una media son:
1. El número de observaciones en la muestra, n.
2. La variabilidad en la población, que casi siempre se calcula mediante la desviación
estándar de la muestra, s.
3. El nivel de confianza.
a. Para determinar los límites de confianza cuando se conoce la desviación estándar
de la población o la muestra es 30 o más, utilizamos la distribución normal
estándar. La fórmula es

b. Para determinar los límites de confianza cuando la desviación estándar de la población


se desconoce y la muestra es menor de 30, usamos la distribución t La fórmula es

III. Las principales características de la distribución t son:


A. Es una distribución continua.
B. Tiene forma de campana y es simétrica.
C. Es más plana, o más extendida, que la distribución normal estándar.
D. Hay una familia de distribuidores t, dependiendo del número de grados de libertad.
IV. Una proporción es una razón, fracción o porcentaje que indica la parte de la muestra o po-
blación que tiene una característica en particular,
A. La proporción de una muestra se encuentra por X, el número de éxitos, dividido entre n,
el número de observaciones.
B. El error estándar de la proporción de la muestra reporta la variabilidad en la distribución
de las proporciones de la muestra. Se calcula

C. A partir de la fórmula siguiente, elaboramos un intervalo de confianza para la proporción


de una muestra.

V. Podemos determinar un tamaño de muestra apropiado para estimar tanto las medias como
las proporciones.
A. Hay tres factores que determinan el tamaño de la muestra cuando queremos estimar la
media.
1. El nivel de confianza deseado, que casi siempre se expresa como z.
2. El máximo error admisible, E.
3. La variación en la población, que se expresa con s.
4. La fórmula para determinar el tamaño de la muestra para la media es

B. Hay tres factores que determinan el tamaño de la muestra cuando queremos estimar
una proporción.
1. El nivel de confianza deseado, que casi siempre se expresa con z.
2. El máximo error admisible, E.
3. Un estimador de la proporción de la población. Si no hay estimador disponible, utilice 0.50.
4. La fórmula para determinar el tamaño de la muestra para una proporción es

VI. Para una población finita, el error estándar se ajusta por el factor
306 Capítulo 9

Clave de pronunciación.

Ejercicios del capítulo


31. Una muestra aleatoria de 85 líderes de grupo, supervisores y empleados similares de Gene-
ral Motors reveló que, en promedio, pasan 6.5 años en su trabajo antes de tener un ascen-
so. La desviación estándar de la muestra fue 1.7 años. Construya un intervalo de confianza
del 95%.
32. Un inspector de carne de lowa tiene la tarea de calcular el peso neto medio de los paque-
tes de carne molida cuya etiqueta dice "3 libras". Desde luego, se da cuenta de que los pe-
sos no pueden ser de 3 libras exactas. Una muestra de 36 paquetes revela que el peso
medio es de 3.01 libras, con una desviación estándar de 0.03 libras.
a. ¿Cuál es la media de la población estimada?
b. Determine un intervalo de confianza del 95% para la media de la población.
33. Un estudio reciente de 50 gasolineras de autoservicio en el área metropolitana de Greater
Cincinnati-Northern Kentucky reveló que el precio medio de la gasolina sin plomo era de
$1.519 por galón. La desviación estándar de la muestra fue $0.03 por galón.
a. Determine un intervalo de confianza del 99% para el precio medio de la población.
b. ¿Sería razonable llegar a la conclusión de que la media de la población es $1.50? ¿Por
qué sí o por qué no?
34. Un estudio reciente de 50 ejecutivos a los que se despidió de su trabajo anterior reveló que
tardaron una media de 26 semanas en encontrar otro empleo. La desviación estándar de la
muestra fue 6.2 semanas. Construya un intervalo de confianza del 95% para la media de la
población. ¿Sería razonable que la media de la población es 28 semanas? Justifique su res
puesta.
35. The Badik Construction Company limita su negocio a la construcción de plataformas. El
tiempo medio para construir una plataforma estándar es de 8 horas con un equipo de dos
personas. La información se basa en una muestra de 40 plataformas construidas reciente
mente. La desviación estándar de la muestra es 3 horas.
a. Determine un intervalo de confianza del 90% para la media de la población.
b. ¿Sería razonable llegar a la conclusión de que la media de la población es en realidad
9 horas? Justifique su respuesta.
36. La American Restaurant Association recopiló información sobre el número de comidas que
los matrimonios jóvenes hacen fuera de casa a la semana. Un encuesta entre 60 parejas in
dicó que el número medio de la muestra de comidas fuera de casa es 2.76 comidas a la se
mana, con una desviación estándar de 0.75 comidas por semana. Construya un intervalo de
confianza del 97% para la media de la población.
37. La National Collegiate Athletic Association (NCAA) reportó que el número medio de horas a
la semana que los entrenadores asistentes de fútbol invierten en el entrenamiento y el reclu-
tamiento durante la temporada es 70. Una muestra aleatoria de 50 entrenadores asistentes
indicó que la media de la muestra es 68.6 horas, con una desviación estándar de 8.2 horas.
a. Utilizando los datos de la muestra, construya un intervalo de confianza del 95% para la
media de la población.
b. ¿El intervalo de confianza incluye el valor que sugiere la NCAA? Interprete este resultado.
c. Suponga que decidió cambiar el intervalo de confianza del 99% a 95%. Sin realizar nin-
gún cálculo ¿el intervalo aumentará, se reducirá o permanecerá igual? ¿Qué valores de
la fórmula van a cambiar?
38. El Departamento de Relaciones Humanas de Electronics, Inc., quiere incluir un plan dental
como parte del paquete de prestaciones. La pregunta es: ¿cuánto invierten un empleado tí-
pico y su familia en gastos dentales al año? Una muestra de 45 empleados revela que la
cantidad media invertida el año pasado fue $1 820, con una desviación estándar de $660.
a. Construya un intervalo de confianza del 95% para la media de la población.
b. El presidente de Electronics, Inc., proporcionó la información de la parte (a), e indicó
que puede pagar $1 700 de los gastos dentales por empleado. ¿Es posible que la me-
dia de la población sea de $1 700? Justifique su respuesta.
Estimación e intervalos de confianza 307

39. Un estudiante dirigió un estudio y reportó que el intervalo de confianza del 95% para la me-
dia varía entre 46 y 54. Estaba seguro de que la media de la muestra es 50, que la desvia-
ción estándar de la muestra es 16 y que la muestra es de por lo menos 30, pero no recordó
el número exacto. ¿Puede ayudarle a calcularlo?
40. Un estudio reciente que llevó a cabo la American Automobile Dealers Association reveló que
la cantidad media de ganancias por auto vendido para una muestra de 20 distribuidores es
$290, con una desviación estándar de $125. Desarrolle un intervalo de confianza del 95%
para la media de la población.
41. Un estudio de 25 graduados de carreras de 4 años que llevó a cabo la American Banker's
Association reveló que la cantidad media que un estudiante tenía en préstamos era $14 381.
La desviación estándar de la muestra es de $1 892. Construya un intervalo de confianza del
90% para la media de la población. ¿Sería razonable llegar a la conclusión de que la media
de la población es en realidad $15 000? Indique por qué sí o por qué no.
42. Un importante factor en la venta de propiedades residenciales es el número de personas
que conocen las casas. Una muestra de 15 casas vendidas recientemente en el área de Buf-
falo, Nueva York, reveló que el número medio de personas que ve cada casa es 24 y la des-
viación estándar de la muestra es 5 personas. Desarrolle un intervalo de confianza del 98%
para la media de la población.
43. En su informe anual, The Warren County Telephone Company afirma que "el cliente típico
gasta $60 al mes en el servicio local y de larga distancia". Una muestra de 12 suscriptores
reveló las cantidades siguientes gastadas el mes pasado.

a. ¿Cuál es el estimador puntual de la media de la población?


b. Desarrolle un intervalo de confianza del 90% para la media de la población.
c. ¿Es razonable la afirmación de la compañía de que el "cliente típico" gasta $60 ai mes?
Justifique su respuesta.
44. El fabricante de una nueva línea de impresoras de inyección de tinta quiere incluir como par-
te de su publicidad el número de páginas que un usuario podría imprimir con un cartucho de
tinta. Una muestra de 10 cartuchos reveló el siguiente número de páginas impresas.

a. ¿Cuál es el estimador puntual de la media de la población?


b. Desarrolle un intervalo de confianza del 95% para la media de la población.
45. La doctora Susan Benner es psicóloga industrial. En la actualidad, estudia el estrés entre los
ejecutivos de las compañías en Internet. Benner desarrolló un cuestionario que considera
que mide el estrés. Una calificación superior a 80 indica un nivel peligroso de estrés. Una
muestra aleatoria de 15 ejecutivos reveló las siguientes calificaciones del nivel de estrés.

a. Encuentre el nivel medio de estrés para esta muestra. ¿Cuál es el estimador puntual de
la media de la población?
b. Construya un nivel de confianza del 95% para la media de la población.
c. ¿Sería razonable concluir que los ejecutivos de Internet tienen un nivel medio de estrés
peligroso, según la prueba de la doctora Benner?
46. Furniture Land South entrevistó a 600 consumidores y descubrió que 414 mostraban entu-
siasmo por la decoración de una casa que planea exhibir en su tienda de High Point, Caroli-
na del Norte. Construya un intervalo de confianza del 99% para la proporción de la población.
47. En York County, Carolina del Sur, hay 20 000 votantes. Una muestra aleatoria de 500 vo-
tantes de York County reveló que 350 planean votar por el regreso de Louella Miller al se
nado. Construya un intervalo de confianza del 99% para la proporción de votantes en el
condado que planean votar por la señorita Miller. A partir de la información de esta muestra,
¿es posible confirmar que se va a reelegir?
48. En una encuesta para medir la popularidad del presidente, a cada persona en una muestra
aleatoria de 1 000 votantes se le pidió que marcara una de las afirmaciones siguientes:
1. El presidente hace un buen trabajo.
2. El presidente hace un trabajo deficiente,
3. Prefiero no opinar.
308 Capítulo 9

Un total de 560 entrevistados eligieron la primera afirmación, indicando que consideran que
el presidente hace un buen trabajo.
a. Construya un intervalo de confianza del 95% para la proporción de entrevistados que
piensan que el presidente hace un buen trabajo.
b. Con base en su intervalo en la parte (a), ¿sería razonable llegar a la conclusión de que la
mayoría (más de la mitad) de la población cree que el presidente hace un buen trabajo?
49. Aaron Ard, jefe de policía de River City reporta que el mes pasado se levantaron 500 infrac-
ciones de tránsito. Una muestra de estas 35 infracciones indicaron que la cantidad media de
las multas fue de $54f con una desviación estándar de $4.50. Construya un intervalo de con
fianza del 95% para la cantidad de media de una multa en River City.
50. The First National Bank of Wilson tiene 650 clientes con cuentas de cheques. Una muestra
reciente de 50 de estos clientes indicó que 26 tienen una tarjeta Visa con el banco. Cons-
truya el intervalo de confianza del 99% para la proporción de clientes con cuentas de che-
ques que tienen una tarjeta Visa con el banco.
51. Se calcula que 60% de los hogares estadounidenses están suscritos a un servicio de tele-
visión por cable. Usted quiere verificar esta afirmación para su clase de comunicación ma-
siva. Sí desea que su estimador sea de 5 puntos porcentuales, con un nivel de confianza del
95%, ¿qué tan grande debe ser la muestra?
52. Tiene que estimar el número medio de días al año que están de viaje los vendedores exter-
nos. La media de un estudio piloto menor fue 150 días, con una desviación estándar de 14
días. Si debe estimar la media de la población en 2 días, ¿cuántos vendedores debe incluir
su muestra? Utilice el nivel de confianza del 90%.
53. Va a estudiar una muestra para determinar el ingreso familiar medio en un área rural del
centro de Florida. La pregunta es: ¿cuántas familias se deben incluir en la muestra? En una
muestra piloto de 10 familias, la desviación estándar de la muestra fue $500. El patrocina-
dor de la encuesta quiere utilizar un nivel de confianza del 95%. El estimador deberá ser de
$100. ¿A cuántas familias deberán entrevistar?
54. Planea realizar una encuesta para saber qué proporción de la fuerza laboral tiene dos o más
empleos. Usted decide un nivel de confianza del 95% y afirma que la proporción estimada
debe ser 2% de la proporción de la población. Una encuesta piloto revela que 5 de los 50
participantes en la muestra tienen dos o más empleos. ¿A cuántos miembros de la fuerza
laboral debe entrevistar para cubrir sus requerimientos?
55. La proporción de contadores públicos que han cambiado de empresa en los últimos tres
años se debe calcular en 3%. Es preciso usar el nivel de confianza del 95%. Un estudio rea-
lizado hace varios años reveló que el porcentaje de contadores públicos que cambió de
compañías en tres años fue 21.
a. Para actualizar este estudio, ¿cuál es el número de expedientes de contadores públi-
cos que se deben estudiar?
b. ¿A cuántos contadores públicos se debe contactar si no están disponibles estimadores
anteriores de la proporción de la población?
56. The Huntington National Bank, como la mayoría de los bancos grandes, descubrió que el
uso de los cajeros automáticos reduce el costo de las operaciones bancarias de rutina. Hun-
tington instaló un cajero automático en la oficinas corporativas de Fun Toy Company. Este
cajero es para uso exclusivo de los 605 empleados de Fun. Después de varios meses de
funcionar, una muestra de 100 empleados reveló el siguiente uso del cajero por parte de los
empleados de Fun en un mes.

a. ¿Cuál es el estimado de la proporción de empleados que no utilizan el cajero automá-


tico en un mes?
b. Desarrolle un intervalo de confianza del 95% para este estimador. ¿Huntington puede
tener la certeza de que por lo menos 40% de los empleados de Fun Toy Company uti-
lizarán el cajero?
c. ¿Cuántas operaciones hacen los empleados de Fun al mes?
Estimación e intervalos de confianza 309

d. Desarrolle un intervalo de confianza del 95% para el número medio de transacciones a! mes.
e. ¿Es posible que la media de la población sea 0? Explique su respuesta.
57. En una encuesta reciente de Zogby entre 1 000 adultos en todo el país, 613 dijeron que creen
en la existencia de otras formas de vida en alguna otra parte del universo. Construya el inter-
valo de confianza del 99% para la proporción de la población de aquellos que creen en la
existencia de vida en otro lugar del universo. ¿El resultado que obtuvo significa que la mayo-
ría de los estadounidenses creen en la existencia de otra forma de vida fuera de la Tierra?
58. Como parte de una revisión anual de sus cuentas, un corredor selecciona una muestra alea
toria de 36 clientes. Sus cuentas se revisan y se calculó una media de $32 000, con una
desviación estándar de la muestra de $8 200. ¿Cuál es el intervalo de confianza de! 90%
para el valor medio de las cuentas de la población de clientes?
59. Una muestra de 352 suscriptores a la revista Wíred indicó que el tiempo medio invertido en
e! uso de Internet es 13.4 horas por semana, con una desviación estándar de 6.8 horas. En
cuentre el intervalo de confianza del 95% para el tiempo medio que los suscriptores pasan
en Internet.
60. El Tennessee Tourism Institute (TTI) planea manejar la información que proporcione una
muestra de los visitantes que entran al estado para saber cuántos de ellos van a acampar
en el estado. Los cálculos actuales son que 35% de los visitantes acampan. ¿Qué tan gran
de debe ser una muestra para calcular la proporción de la población con un nivel de confian-
za del 95% y un error admisible de 2%?

exercises.com
61. Hoover es una excelente fuente de información de negocios. Incluye resúmenes diarios, así
como datos sobre diversas industrias y compañías específicas. Visite el sitio en
vers.com. Haga cite en Companies and Industries. Luego en Industries en e! siguiente
menú y vaya a Sector y seleccione un Industry Sector, como químicos o ventas al detalle.
Después, elija una industria en el sector Químico. Se abrirá una lista de compañías. Utilice
una tabla de números aleatorios, como en el Apéndice E, para seleccionar al azar de 5 a 10
compañías en la lista. Haga clic en Capsule, y luego en el separador Financiáis para obte-
ner información acerca de las compañías seleccionadas. Una sugerencia es encontrar las
ganancias por acción. Calcule la media de cada muestra, y luego desarrolle un intervalo de
confianza para las ganancias medias por acción. Como la media es una parte importante de la
población, querrá incluir el factor de corrección. Interprete los resultados.
62. La edición en línea del Information Please Almanac es una valiosa fuente de información de
negocios. Vaya al sitio Web en www.infoplease.com. Haga clic en Business. Luego en Al
manac Section, en Taxes y en State Taxes on Individuáis. El resultado es una lista de los
50 estados y el Distrito de Columbia. Utilice una tabla de números aleatorios para seleccio-
nar al azar de 5 a 10 estados. Calcule la tasa fiscal estatal media. Desarrolle un intervalo de
confianza para la cantidad media. Como la muestra es una parte importante de la población,
querrá incluir el factor de corrección de la población finita. Interprete su resultado. Como ejer-
cicio adicional podría descargar toda la información y usar Excel o MINITAB para calcular la
media de la población. Compare ese valor con los resultados de su intervalo de confianza.

Ejercicios de la base de datos


63. Consulte los datos Real Estate, que proporcionan información sobre las casas vendidas en
Denver, Colorado, el año pasado.
a. Desarrolle un intervalo de confianza del 95% para el precio de venta medio de las casas.
b. Desarrolle un intervalo de confianza del 95% para la distancia media de la casa al cen-
tro de la ciudad.
c. Desarrolle un intervalo de confianza del 95% para la proporción de casas que tienen co-
chera.
64. Consulte los datos Baseball 2002, que proporcionan información sobre los 30 equipos de la
Liga Mayor de Béisbol para la temporada 2002.
a. Desarrolle un intervalo de confianza del 95% para el número medio de jonrones por equipo.
b. Desarrolle un intervalo de confianza del 95% para el número medio de errores cometi-
dos por cada equipo.
c. Desarrolle un intervalo de confianza del 95% para el número medio de bases robadas
para cada equipo.
310 Capítulo 9

65. Consulte los datos Wage, que proporcionan información sobre los salarios anuales para una
muestra de 100 trabajadores. También se incluyen las variables relacionadas con la indus-
tria, los años de educación y el género de cada trabajador.
a. Desarrolle un intervalo de confianza del 95% para el salario medio de los trabajadores.
¿Sería razonable llegar a la conclusión de que la media de la población es $35 000?
b. Desarrolle un intervalo de confianza del 95% para el número medio de años de educa-
ción. ¿Sería razonable pensar que la media de la población es 13 años?
c. Desarrolle un intervalo de confianza del 95% para la edad media de los trabajadores.
¿Podría ser de 40 años?
66. Consulte los datos CÍA, que proporcionan información demográfica y económica sobre 46
países.
a. Desarrolle un intervalo de confianza del 90% para el porcentaje medio de la población
que tiene más de 65 años.
b. Desarrolle un intervalo de confianza del 90% para el Producto Interno Bruto (PIB) per-
cápita.
c. Desarrolle un intervalo de confianza del 90% para la media de las importaciones.

Comandos de software
1. Los comandos de MINITAB para las 60 columnas de 30
números aleatorios utilizados en el Ejemplo/Solución de
la página 289 son:
a. Seleccione Cale, Random Data y luego haga clic
en Normal.
b. En el cuadro de diálogo, haga clic en Generate y
escriba 30 para el número de hileras de datos.
Guarde en C1-C60, la media es 50, la desviación
estándar es 5.0 y por último haga clic en OK.

4. Los comandos de MINITAB para los intervalos de con-


fianza para la cantidad gastada en la Inlet Square Malí
de la página 95 son:
a. Escriba las 20 cantidades gastadas en la columna
d y localice los datos en el disco de datos del estu-
diante. Se llama "Shopping" y se encuentra en la
carpeta del Capítulo 8.
b. En la barra de herramientas seleccione Stat, Basic
Statistics y haga clic en 1-Sample t.
2. A continuación, incluimos los comandos de MINITAB c. Seleccione Amount como la variable y dé clic en OK.
para los 60 intervalos de confianza en la página 289.
a. Seleccione Stat, Basic Statistics y luego haga clic
en 1-Sample-z.
b. En el cuadro de diálogo, indique que las Variables
son C1-C60 y que Sigma es 5.0, Haga clic en Op-
tions en la esquina inferior derecha, en el siguien
te cuadro de diálogo indique que el Nivel de
confianza es 95,0 y haga cite en OK. Haga clic en
OK en el cuadro de diálogo principal.
3, Los comandos de MINITAB para la estadística descrip
tiva de la página 295 son los mismos que se utilizaron
en la página 78 del Capítulo 3. Escriba la información en
la primera columna y llámela Amount En la barra de he
rramientas, seleccione Stat, Basic Statistics y Display
Basic Statistics, En el cuadro de diálogo, seleccione
Amount como la Variable y haga clic en OK.
Estimación e intervalos de confianza 311

Capítulo 9 Respuestas a las autoevaluaciones


312 Sección 3

Revisión de los capítulos 8 y 9


El Capítulo 8 empieza por describir las razones por las que el muestreo es necesario. Manejamos una mues-
tra porque a menudo es imposible estudiar cada elemento o individuo en algunas poblaciones. Por ejemplo,
sería demasiado costoso y tomaría mucho tiempo contactar a los ejecutivos de todos los bancos de Estados
Unidos y registrar sus ingresos anuales. Asimismo, con frecuencia, las pruebas destruyen los productos. Un
fabricante de medicamentos no puede probar las propiedades de cada tableta producida, porque no le que-
daría ninguna para vender. Por tanto, para estimar el parámetro de una población, tomamos una muestra de
la población. Una muestra forma parte de la población. Es preciso asegurarnos de que cada miembro de
nuestra población tiene la oportunidad de ser seleccionado; de lo contrario, las conclusiones podrían tener
un sesgo. Se pueden utilizar varios métodos de muestreo del tipo de una probabilidad, entre los que se in-
cluyen muestreo aleatorio simple, sistemático, estratificado y por conglomerados.
Independientemente del método de muestreo seleccionado, la estadística de un muestra rara vez es
igual al parámetro de la población correspondiente. Por ejemplo, la media de una muestra casi nunca es igual
a la media de la población. La diferencia entre el estadístico de la muestra y el parámetro de la población es
el error de muestreo.
En el Capítulo 8, demostramos que si seleccionamos todas las muestras posibles de un tamaño espe-
cífico de una población y calculamos la media de estas muestras, será exactamente igual a la media de la
población. También mostramos que la dispersión en la distribución de las medias de las muestras es igual a
la desviación estándar de la población dividida entre la raíz cuadrada del tamaño de la muestra. Por consi-
guiente, llegamos a la conclusión de que hay menos dispersión en la distribución de las medias de las mues-
tras que en la población. Además, al incrementar el número de observaciones en cada muestra, reducimos
la variación en la distribución muestral de medias.
El teorema del límite central es la base de la inferencia estadística. Afirma que si la población de la cual
seleccionamos las muestras sigue una distribución normal, la distribución de las medias de las muestras tam-
bién la seguirá. Si la población no es normal, se aproximará a la distribución normal conforme aumentamos
el tamaño de la muestra. Desde un punto de vista práctico, cuando la muestra contiene por lo menos 30 ob-
servaciones, llegamos a la conclusión de que la distribución de la muestra significa que seguirá una distribu-
ción normal.
En el Capítulo 9, nos concentramos en los estimadores puntuales y los estimadores de intervalo. Un es-
timador puntual es un solo valor que se utiliza para calcular un parámetro de la población. Un estimado de
intervalo es un rango de valores dentro del cual esperamos que ocurra el parámetro de la población. Por
ejemplo, con base en una muestra, calculamos que el ingreso medio anual de todos los pintores de casas
en Atlanta, Georgia (la población), es $45 300. Este estimado se conoce como estimador puntual. Si afirma-
mos que la media de la población se encuentra quizá en el intervalo entre $45 200 y $45 400, ese estima-
dor se conoce como estimador por intervalo. Los dos puntos extremos ($45 200 y $45 400) son los límites
de confianza para la media de la población. Describimos el procedimiento para establecer un intervalo de
confianza para medias de muestras grandes y pequeñas, así como para la proporción de la muestra. En es-
te capítulo también explicamos un método para determinar el tamaño necesario de la muestra con base en
la dispersión de la población, el nivel de confianza deseado y la precisión del estimador deseada.

Glosario
Distribución muestral de medias Distribución de probabi- ción. Ejemplo: si la media de la muestra es 1 020 psi, es el
lidad que consiste en todas las medias posibles de las mejor estimado de la fuerza de tensión media de la población.
muestras de un tamaño determinado seleccionadas de la Muestra probabilística Una muestra de elemento o indivi-
población. duos elegidos de modo que cada miembro de la población
Error de muestreo Diferencia entre un estadístico de mues- tiene la oportunidad de que se le incluya en la muestra.
tra y el parámetro de la población correspondiente. Ejemplo: el Muestreo aleatorio estratificado Una población se divide
ingreso medio de la muestra es $22 100; la media de la pobla- primero en subgrupos llamados estratos. Luego, se seleccio-
ción es $22 000. El error de muestreo es $22 100 - $22 000 na un elemento de cada estrato para formar la muestra. Si,
= $100. Este error se puede atribuir al muestreo, es decir, al por ejemplo, la población de interés consistía en estudiantes
azar de último año, el diseño de la muestra quizá necesite 62 es-
Estimador de intervalo Intervalo en el cual es probable tudiantes de primer año, 51 de segundo, 40 de tercero y 39
que se encuentre el parámetro de la población, con base en de último año.
la información de la muestra. Ejemplo: de acuerdo con los Muestreo aleatorio simple Esquema de muestreo en el
datos de la muestra, la media de la población está en el in- que cada miembro de la población tiene la misma oportuni-
tervalo entre 1.9 y 2.0 libras. dad de que se le seleccione como parte de la muestra.
Estimador puntual Un solo valor calculado a partir de una Muestreo aleatorio sistemático Suponiendo que la pobla-
muestra y utilizado para estimar el parámetro de una pobla- ción esté ordenada de alguna manera, como por orden alfa-
Revisión de los capítulos 8 y 9 313

bético, por estatura o en el cajón de un archivero, se selec- manzanas, etc.) llamadas unidades primarias. Luego, se se-
ciona un punto de inicio aleatorio y cada k elemento se con- leccionan unas cuantas unidades primarias y un elemento
vierte en un miembro de la muestra. Si el diseño de la aleatorio de cada grupo.
muestra requiere de entrevistar cada novena familia en la ca- Sesgo Una posible consecuencia si a ciertos miembros de
lle Main empezando en el número 932, la muestra consistirá una población se les niega la posibilidad de resultar selec-
en las casas con los números 932, 941, 950 y demás de la cionados para la muestra. Como resultado de ello, es proba-
calle Main. ble que la muestra no sea representativa de la población.
Muestreo por conglomerados Método que con frecuencia Teorema del límite central Si el tamaño de la muestra es
se utiliza para bajar el costo del muestreo si la población se suficientemente grande, la distribución muestral de medias
encuentra dispersa en una extensa área geográfica. El área se aproximará a la distribución normal sin importar la forma
se divide en unidades más pequeñas (condados, distritos, de la población.

Ejercicios
Parte I. Opción múltiple

1. A cada empleado nuevo se le da un número de identificación. Los archivos de personal se


ordenan en secuencia empezando con el empleado número 0001. Para tomar una muestra
de los empleados, se seleccionó primero el número 0153. Luego, los números 0253, 0353,
0453, etc., se convirtieron en miembros de la muestra. A este tipo de muestreo se le llama:
a. Muestreo aleatorio simple.
b. Muestreo sistemático.
c. Muestreo aleatorio estratificado.
d. Muestreo por conglomerados.
2. Usted divide un barrio en manzanas; luego selecciona 12 manzanas al azar y concentra sus
esfuerzos de muestreo en esas 12 manzanas. Este tipo de muestreo se llama:
a. Muestreo aleatorio simple.
b. Muestreo sistemático.
c. Muestreo aleatorio estratificado.
d. Muestreo por conglomerados.
3. El error de muestreo es:
a. Igual a la media de la población.
b. Un parámetro de la población.
c. Siempre positivo.
d. La diferencia entre el estadístico de la muestra y el parámetro de la población.
4. ¿Cuál de las afirmaciones siguientes son correctas al referirnos a los intervalos de confianza?
a. No pueden contener números negativos.
b. Siempre se basan en la distribución normal estándar.
c. Siempre deben incluir el parámetro de la población.
d. Ninguna de las afirmaciones anteriores es siempre correcta.
5. Los puntos extremos de un intervalo de confianza se llaman:
a. Niveles de confianza.
b. Las estadísticas de prueba.
c. Los grados de confianza.
d. Los límites de confianza.
6. Calculamos la media y la desviación estándar de una muestra de 50 observaciones de una
población que tiene un sesgo positivo. Queremos desarrollar un intervalo de confianza para
la media. ¿Cuál de las siguientes afirmaciones es correcta?
a. No podemos desarrollar un intervalo de confianza porque la población no es normal.
b. No podemos utilizar la distribución normal porque no conocemos la desviación están
dar de la población.
c. Podemos utilizar la distribución normal porque el teorema del límite central indica que
la distribución muestral de medias se va a aproximar a la distribución normal.
d. Ninguna de las afirmaciones anteriores es correcta.
7. ¿Cuál de las siguientes no es una afirmación correcta acerca de la distribución f?
a. Tiene un sesgo positivo.
b. Es una distribución continua.
c. Tiene una media de 0.
d. Hay una familia de distribuciones f.
314 Sección 3

8. Conforme el número de grados de libertad aumenta en la distribución f.


a. Se aproxima a la distribución normal estándar.
b. El nivel de confianza aumenta.
c. Se convierte en una distribución continua.
d. Se vuelve más plana.
9. Los grados de libertad son:
a. El número total de observaciones.
b. El número de observaciones menos el número de muestras.
c. El número de muestras.
d. El número de muestras menos uno.
10. Seleccionamos una muestra de 15 observaciones de una población normal y queremos de-
sarrollar un intervalo de confianza del 98% para la media. El valor apropiado de t es:
a. 2.947
b. 2.977
c. 2.624
d. Ninguno de los anteriores.

Parte II. Problemas


11. Un estudio reciente indicó que las mujeres tomaron un promedio de 8.6 semanas sin goce
de sueldo después del nacimiento de su hijo. Suponga que esta distribución sigue la distri-
bución normal de la probabilidad con una desviación estándar de 2.0 semanas. Selecciona-
mos una muestra de 35 mujeres quienes hace poco regresaron a trabajar después del
nacimiento de su hijo. ¿Cuál es la probabilidad de que la media de esta muestra sea por lo
menos 8.8 semanas?
12. El gerente de Tee Shirt Emporium reporta que el número medio de camisas vendido por se-
mana es 1 210, con una desviación estándar de 325. La distribución de las ventas sigue la
distribución normal. ¿Cuál es la probabilidad de seleccionar una muestra de 25 semanas y
encontrar que la media de la muestra es 1 100 o menos?
13. El propietario de Gulf Stream Café quería calcular el número medio de clientes para el al-
muerzo al día. Una muestra de 40 días reveló una media de 160 por día, con una desvia-
ción estándar de 20 al día. Desarrolle un intervalo de confianza del 92% para el número
medio de clientes por día.
14. El gerente de Hamburguer Express quiere calcular el tiempo medio que los clientes pasan
en la ventana del servicio en el auto. Una muestra de 80 clientes experimentó un tiempo de
espera medio de 2.65 minutos, con una desviación estándar de 0.45 minutos. Desarrolle un
intervalo de confianza del 85% para el tiempo de espera medio.
15. El gerente de oficina de una compañía grande estudia el uso de sus copiadoras. Una mues-
tra aleatoria de seis copiadoras reveló el siguiente número de copias (reportado en 000) que
se sacaron ayer.

Desarrolle un intervalo de confianza del 95% para el número medio de copias por máquina. 16.
John Kleman es el anfitrión del programa de noticias KXYZ Radio 55 AM en Chicago. Durante
su programa matutino, John pide a los radioescuchas que llamen y comenten sobre las noticias
nacionales y locales. Esta mañana, John quiso saber el número de horas al día que los niños
de menos de 12 años de edad ven televisión. Las cinco últimas personas que llamaron
reportaron que, la noche anterior, sus hijos vieron televisión el número siguiente de horas.

¿Sería razonable desarrollar un intervalo de confianza a partir de estos datos para indicar el
número medio de horas que vieron televisión? Si su respuesta es afirmativa, ¿por qué no
sería apropiado un intervalo de confianza?
17. Widgets Manufacturing, Inc. produce 250 partes al día. Hace poco, el nuevo dueño compró
una máquina nueva para fabricar más partes por día. Un muestra de la producción de 16
días reveló unas medias de 240 unidades con una desviación estándar de 35. Elabore un
intervalo de confianza para el número medio de partes producidas por día. ¿Parecería razo-
Revisión de los capítulos 8 y 9 315

nable llegar a la conclusión de que la producción media diaria ha aumentado? Justifique sus
conclusiones.
18. El fabricante de un chip que se utiliza en aparatos estéreo costosos quiere estimar la vida
útil del chip (en miles de horas). El estimador debe ser 0.10 (100) horas. Suponga un nivel
de confianza del 95% y que la desviación estándar de la vida útil del chip es 0.90 (900 ho-
ras). Determine el tamaño de la muestra requerido.
19. El gerente de una tienda de artículos para el arreglo de la casa quiere calcular la cantidad
media de dinero que se gasta en la tienda. El estimador debe ser $4.00 con un nivel de con
fianza del 95%. El gerente no conoce la desviación estándar de las cantidades gastadas. Sin
embargo, si calcula que el rango es de $5.00 a $155.00, ¿qué tan grande es la muestra que
necesita?
20. En una muestra de 200 residentes de Georgetown Country, 120 reportaron que creen que
el impuesto predial en el condado es muy alto. Desarrolle un intervalo de confianza del 95%
para la proporción de residentes que creen que el impuesto es muy elevado. ¿Sería razo-
nable llegar a la conclusión de que la mayoría de los contribuyentes consideran que el im-
puesto predial es muy alto?
21. En fechas recientes, el porcentaje de consumidores que adquieren un vehículo nuevo a tra-
vés de Internet ha sido tan alto que a los distribuidores automotrices locales les preocupa el
impacto de esta situación en su negocio. La información necesaria es un estimador de la
proporción de compras a través de Internet. ¿Qué tan grande debe ser la muestra de com-
pradores para que el estimador se encuentre a 2 puntos porcentuales con un nivel de con-
fianza del 98%? La suposición actual es que alrededor de 8% de los vehículos se compran
a través de Internet.
22. La proporción de adultos mayores de 24 años de edad que fuman ha sido de 0.30. En años
recientes, se ha publicado y transmitido por radio y televisión gran cantidad de información
acerca de que el tabaquismo no es bueno para la salud. Una muestra de 500 adultos reve-
ló que sólo 25% de los entrevistados fumaban. Desarrolle un intervalo de confianza del 98%
para la proporción de adultos que fuman actualmente. ¿Estaría de acuerdo en que la pro-
porción es menos de 30%?
23. El auditor del Estado de Ohio necesita un estimador de la proporción de residentes que jue-
gan regularmente a la lotería estatal. De acuerdo con registros anteriores, alrededor de 40%
juegan en forma regular, pero el auditor quiere conocer información actualizada. ¿Qué tan
grande debe ser la muestra para que el estimador se encuentre a 3 puntos porcentuales,
con un nivel de confianza del 98%?

Caso
Century National Bank zaba. Al señor Selig le gustaría actualizarse sobre el uso de
estas tarjetas. Desarrolle un intervalo de confianza del 95%
Consulte la descripción del Century National Bank al final del para la proporción de clientes que las utilizan. Con base en
repaso de los capítulos 1 al 4, en la página 137. Cuando el el intervalo de confianza, ¿sería razonable llegar a la conclu-
señor Selig tomó el cargo como presidente de Century hace sión de que más de la mitad de los clientes usan una tarjeta
varios años, el uso de las tarjetas de débito apenas empe- de débito? Interprete los resultados.
Pruebas de hipótesis
de una muestra

Muchos supermercados y grandes tiendas detallistas, como Wal-Mart y K-Mart, han instalado
sistemas de autopago a fin de que los clientes puedan registrar sus artículos y pagarlos. Una
muestra de los clientes que utilizan el servicio se tomó durante 15 días en la tienda Wal-Mart que
está en la carretera 544 en Surfside Beach, Carolina del Sur, para saber con qué frecuencia se
usa. Utilizando el nivel de significancia 0.05, ¿sería razonable llegar a la conclusión de que el
número medio de clientes que usa el sistema es más de 100 al día? (Vea la Meta 4 y el Ejercicio
51.)
Pruebas de hipótesis de una muestra 317

Introducción
En el Capítulo 8 empezó nuestro estudio de la inferencia estadística. Describimos cómo
podemos seleccionar una muestra aleatoria y, a partir de ésta, calcular el valor de un
parámetro de la población. Por ejemplo, seleccionamos una muestra de 5 empleados de
Spence Sprockets, encontramos el número de años de servicio para cada empleado en la
muestra, calculados la media de los años de servicio y utilizamos esta media muestral para
calcular la media de los años de servicio para todos los empleados. En otras palabras, esti-
mamos un parámetro de la población a partir de un estadístico de muestra.
En el Capítulo 9 continuamos nuestro estudio de la inferencia estadística al desarrollar
un intervalo de confianza. Éste es un rango de valores en el cual esperamos que ocurra el
parámetro de la población. En este capítulo, en lugar de desarrollar ese rango de valores,
desarrollamos un procedimiento para probar la validez de una afirmación acerca de un
parámetro de la población. Algunos ejemplos de las afirmaciones que tal vez queremos pro-
bar son:

• La velocidad media de los automóviles que pasan la marca en la milla 150 de la carre-
tera West Virginia Turnpike es de 68 millas por hora.
• El número medio de millas recorridas por aquellas personas
que rentan una camioneta Chevy Trail Blazer durante tres
días es 32 000 millas.
• El tiempo medio que una familia estadounidense vive en una
vivienda en particular es 11.8 años.
• El salario inicial medio para los graduados en las carreras
administrativas es de $3 200 al mes.
• Los jubilados en el medio oeste de Estados Unidos, 35%
vende su casa y se muda a un clima cálido a un año de
haberse jubilado.
• Las personas que juegan en loterías estatales, 80% nunca
gana más de $100 en un sorteo determinado.

Este capítulo y varios de los siguientes se ocupan de las


pruebas de hipótesis estadísticas. Empezamos por definir lo que queremos decir con los
términos hipótesis estadísticas y pruebas de hipótesis estadística. A continuación, resumi-
mos los pasos de este tipo de pruebas. En la última sección del capítulo, describimos posi-
bles errores debidos al muestreo en las pruebas de hipótesis.

¿Qué es una hipótesis?


Una hipótesis es una Una hipótesis es una declaración acerca de una población. La información se utiliza para
afirmación acerca de un verificar si la afirmación es razonable. Para empezar, necesitamos definir la palabra hipóte-
parámetro de la población. sis. En el sistema legal estadounidense, una persona es inocente hasta que se prueba lo
contrario. Un jurado maneja la hipótesis de que una persona a la que se culpa de un crimen
es inocente y somete tal hipótesis a verificación revisando las evidencias y los testimonios
antes de dar un veredicto. En forma similar, un paciente consulta a un médico y le reporta
diversos síntomas. Con base en ellos, el médico ordena ciertos exámenes de diagnóstico y
posteriormente, según los síntomas y los resultados de los exámenes, determina el
tratamiento a seguir.
En el análisis estadístico, hacemos una afirmación, es decir, establecemos una hipóte-
sis, recopilamos la información y la utilizamos para probar lo que afirmamos. La hipótesis
estadística se define como sigue:

HIPÓTESIS, Afirmación acerca de un parámetro de la población que se desarrolla para


propósitos de prueba.
318 Capítulo 10

En la mayor parte de los casos la población es tan grande que no es factible estudiar todos
los elementos, objetos o personas en ella. Por ejemplo, no sería posible contactar a todos
los analistas de sistemas en Estados Unidos para investigar cuál es su ingreso mensual. De
modo similar, el departamento de aseguramiento de la calidad de Cooper Tire no puede
revisar cada llanta producida para determinar si va a durar más de 60 000 millas.
Como señalamos en el Capítulo 8, una alternativa para medir o entrevistar a toda la
población consiste en tomar una muestra de ésta. Por tanto, es posible poner a prueba una
afirmación para determinar si la muestra apoya o no lo que decimos acerca de la población.

¿Qué es la prueba de hipótesis?


Los términos prueba de hipótesis y probar una hipótesis se utilizan de manera indistinta. La
prueba de hipótesis empieza con una afirmación, o suposición, acerca de un parámetro de
la población, como la media poblacional. Como ya dijimos, esta afirmación se conoce como
hipótesis. Una hipótesis puede ser que la comisión media mensual de los vendedores de
tiendas de aparatos electrónicos al detalle, como Circuit City, es de $2 000. No podemos
hablar con todos ellos para tener la certeza de que la media es realmente $2 000. El costo
por localizar y entrevistar a todos los vendedores de aparatos electrónicos en Estados
Unidos sería exorbitante. Para probar la validez de la suposición debemos
seleccionar una muestra de la población de todos los vendedores de aparatos electrónicos,
calcular el estadístico muestral y, con base en ciertas reglas de decisión, aceptar o recha-
zar la hipótesis. Una media de la muestra de $1 000 para los vendedores de aparatos elec-
trónicos desde luego provocaría el rechazo de la hipótesis. Sin embargo, suponga que la
media de la muestra es $1 995. ¿Se aproxima lo suficiente a $2 000 para que aceptemos
la suposición de que la media poblacional es $2 000? ¿Podemos atribuir la diferencia de $5
entre las dos medias a un error de muestreo, o esa diferencia es estadísticamente signi-
ficativa?

Procedimiento de cinco pasos


para probar una hipótesis
Hay un procedimiento de cinco pasos que sistematiza la prueba de una hipótesis; al llegar
al paso 5, estamos listos para rechazarla o no. Sin embargo, la prueba de una hipótesis,
como la usan los profesionales de las estadísticas, no ofrece ninguna evidencia de que algo
es cierto, de la misma forma en que un matemático "comprueba" una afirmación. Lo que sí
ofrece es una "prueba más allá de la duda razonable", a la manera de los veredictos emiti-
dos en las cortes. De ahí que existan reglas de evidencia específicas, o procedimientos que
se deben seguir. Los pasos que se muestran en el siguiente diagrama los analizaremos con
detalle.
Pruebas de hipótesis de una muestra 319

Paso 1: Establecer la hipótesis nula (H0) y la hipótesis


alternativa (H1)
Procedimiento sistemático en El primer paso es establecer la hipótesis que se va a probar, se conoce como hipótesis
cinco pasos. nula, se expresa H0 y se lee "H subíndice cero”. La H mayúscula significa hipótesis y el sub-
índice cero implica "sin diferencia". Por lo general, hay un "no" en la hipótesis nula, que
quiere decir que "no hay cambio". Por ejemplo, la hipótesis nula es que el número medio de
millas recorridas con las llantas con cinturones de acero no son diferentes a 60 000. La
hipótesis nula se expresaría En términos generales, la hipótesis nula se
desarrolla para los propósitos de las pruebas; y ésta se rechaza o no se rechaza. La hipóte-
sis nula es una afirmación que no se rechaza a menos que la información de la muestra
ofrezca evidencias convincentes de que es falsa.
Debemos enfatizar que si la hipótesis nula no se rechaza con base en los datos de la
muestra, no podemos decir que la hipótesis nula sea verdadera. En otras palabras, el hecho
de no rechazar una hipótesis no prueba que H0 sea verdadera, significa que no rechazamos
H0. Para probar sin duda alguna que la hipótesis nula es verdadera, es preciso que el
parámetro poblacional sea conocido. Para determinarlo realmente, tendríamos que probar,
entrevistar o contar a todos los elementos en la población; y, por lo general, esto no es
factible. La alternativa es tomar una muestra poblacional.
Establecer la hipótesis nula y la Asimismo, debemos hacer notar que a menudo empezamos la hipótesis nula afirman-
hipótesis alternativa. do: "No hay diferencia significativa entre...", o "La resistencia media del vidrio a los impactos
no es muy diferente de..." Al seleccionar una muestra de una población, el estadístico
muestral casi siempre es numéricamente distinto del parámetro poblacional hipotético.
Como ilustración, suponga que la resistencia a los impactos de un platón de vidrio es 70
psi, y la resistencia media al impacto de una muestra de 12 platones de vidrio es 69.5 psi.
Debemos tomar una decisión acerca de la diferencia de 0.5 psi. ¿Es una diferencia real, es
decir, una diferencia significativa, o la diferencia entre el estadístico muestral (69.5) y el
parámetro de la población hipotético (70.0) se debe a la casualidad (error de muestreo)?
Como ya dijimos, para responder esta pregunta realizamos una prueba de significancia, que
por lo regular se conoce como prueba de hipótesis. Para definir lo que queremos decir con
hipótesis nula:

HIPÓTESIS NULA. Afirmación acerca del valor de un parámetro de la población.

La hipótesis alternativa describe sus conclusiones en caso de rechazar la hipótesis


nula. Se expresa H1 y se lee "H subíndice uno". También se conoce como hipótesis de
investigación. La hipótesis alternativa se acepta si los datos de la muestra nos proporcio-
nan suficientes evidencias estadísticas de que la hipótesis nula es falsa.

HIPÓTESIS ALTERNATIVA, Afirmación que se acepta si los datos de la muestra propor-


ciona suficiente evidencia de que la hipótesis nula es falsa.

El ejemplo siguiente ayuda a aclarar lo que queremos decir con hipótesis nula y alter-
nativa. Un artículo reciente indica que la edad media de los aviones comerciales esta-
dounidenses es de 15 años. Para realizar una prueba estadística acerca de esta afirmación,
el primer paso es determinar las hipótesis nula y la alternativa. La hipótesis nula represen-
ta la condición actual o reportada, y se expresa , La hipótesis alternativa es la afir-
mación que no es cierta, es decir, Es necesario recordar que no
importa cómo se plantee el problema, la hipótesis nula siempre va a contener el signo de
igual. Este signo (=) nunca va a aparecer en la hipótesis alternativa. ¿Por qué? Porque ésta
es la afirmación que se va a probar, y necesitamos un valor específico para incluirlo en
nuestros cálculos. Recurrimos a la hipótesis alternativa sólo si la información sugiere que la
hipótesis nula no es cierta.
320 Capítulo 10

Paso 2: Seleccionar un nivel de significancia


Seleccionar un nivel de Después de establecer las hipótesis nula y alternativa, el paso siguiente es establecer el
significancia o riesgo. nivel de significancia.

NIVEL DE SIGNIFICANCIA. La probabilidad de rechazar la hipótesis nula cuando es ver-


dadera.

El nivel de significancia se expresa con la letra griega alfa a, y en ocasiones también


se conoce como nivel de riesgo. Éste quizá es un término más apropiado porque es el ries-
go que se corre de rechazar la hipótesis nula cuando es verdadera.
No hay ningún nivel de significancia que se aplique a todas las pruebas. Se toma la
decisión de utilizar el nivel 0.05 (expresado a menudo como nivel de 5%), el nivel 0.01, el
nivel 0.10 o cualquier otro nivel entre 0 y 1. Por lo regular, el nivel 0.05 se selecciona para
los proyectos de investigación del consumidor, el nivel 0.01 para el aseguramiento de la
calidad y el 0.10 para encuestas políticas. Usted, como investigador, debe decidir el nivel
de significancia antes de formular una regla de decisión y recopilar los datos de la muestra.
Para ilustrar cómo es posible rechazar una hipótesis verdadera, suponga que una
empresa que fabrica computadoras personales utiliza gran cantidad de tarjetas con circuitos
impresos. Los proveedores participan
en una licitación y el que presenta la
cotización más baja obtiene un
contrato considerable. Suponga que
el contrato especifica que el
departamento de aseguramiento de
la calidad del fabricante de com-
putadoras tomará una muestra de
todos los envíos que llegan. Si más
de 6% de las tarjetas de la muestra
no cumple con las normas, el envío
se rechaza. La hipótesis nula es que el
envío de tarjetas contiene 6% o
menos tarjetas que no cumplen con
las normas. La hipótesis alternativa
es que más del 6% de las tarjetas
están defectuosas.
Una muestra de 50 tarjetas de circuitos de Allied Electronics que se recibieron el 21 de
julio reveló que 4 de ellas, es decir, 8%, no cumplían con las normas. El envío se rechazó
porque excedía el máximo de 6% de tarjetas que no cumplen con las normas. Si en reali-
dad, el envío no cumplía con las normas, la decisión de regresar las tarjetas al proveedor
fue correcta. Sin embargo, suponga que las 4 tarjetas seleccionadas en la muestra de 50
eran las únicas que no cumplían con las normas en un envío de 4 000 tarjetas. Entonces,
sólo el .1 % eran defectuosas (4/4 000 = 0.001). En ese caso, menos de 6% de todo el envío
no cumplía con las normas y rechazarlo fue un error. En términos de la prueba de la hipóte-
sis, rechazamos la hipótesis nula de que el envío cumplía con las normas cuando
deberíamos haber aceptado la hipótesis nula. Al rechazar la hipótesis nula, cometimos un
error Tipo I. La probabilidad de cometer este tipo de error es α.

EROR TIPO I. Rechazar la hipótesis nula, Ho, cuando es verdadera.

La probabilidad de cometer otro tipo de error, conocido como error Tipo II, se expresa
con la letra griega beta (β).

ERROR TIPO II. Aceptar la hipótesis nula cuando es falsa.


Pruebas de hipótesis de una muestra 321

La empresa que fabrica computadoras personales cometería un error Tipo II si, con
desconocimiento del fabricante, un envío de tarjetas de Allied Electronics contiene 15% de
tarjetas que no cumplen con las normas, y sin embargo, lo aceptara. ¿Cómo podría suced-
er esto? Suponga que 2 de las 50 tarjetas en la muestra (4%) probada no cumplen con las
normas, y 48 de las 50 son aceptables. Según el procedimiento mencionado, como la
muestra contiene menos de 6% de tarjetas que no cumplen con las normas, el envío se
acepta. ¡Podría ser que, por casualidad, las 48 tarjetas aceptables seleccionadas en la
muestra son las únicas en todo el cargamento, que consta de miles de tarjetas!
En retrospectiva, el investigador no puede estudiar cada elemento o individuo en la
población. Por tanto, existe la posibilidad de dos tipos de error: un error Tipo I, en el que la
hipótesis nula se rechaza cuando en realidad debería aceptarse, y un error Tipo II, en el que
la hipótesis nula se acepta cuando en realidad se debería rechazar.
A menudo nos referimos a la probabilidad de estos dos errores posibles como alfa, α,
y beta, β. Alfa (α) es la probabilidad de cometer un error Tipo I y beta (β) es la probabilidad
de cometer un error Tipo II.
La tabla siguiente resume las decisiones que el investigador podría tomar y sus posi-
bles consecuencias.

Paso 3: Seleccionar el estadístico de prueba


Hay muchas estadísticas de prueba. En este capítulo, utilizamos tanto z como t como el
2
estadístico de prueba. En otros capítulos, vamos a usar F y X , conocida como ji cuadrada.

ESTADÍSTICO DE PRUEBA, Valor, determinado a partir de la información de la muestra,


que se utiliza para determinar si se va a rechazar la hipótesis nula.

En la prueba de hipótesis para la media (μ) cuando σ es conocida o el tamaño de la muestra es


grande, la estadística de prueba z se calcula así:

El valor z se basa en la distribución del muestreo de que sigue la distribución normal


cuando la muestra es razonablemente qrande con una media igua l a μ y un a
desviación estándar que es igual a Así, podemos determinar si la diferencia entre
es estadísticamente significativa al encontrar el número de desviaciones estándar que
separan a utilizando la fórmula (10-1).

Paso 4: Formular la regla de decisión


La regla de decisión establece Una regla de decisión es una afirmación de las condiciones específicas en las que la hipóte-
las condiciones cuando H0 se sis nula se rechaza y aquellas en las que se acepta. La región o área de rechazo define la
rechaza. ubicación de todos esos valores que son tan grandes o tan pequeños que la probabilidad
de su ocurrencia bajo una hipótesis nula verdadera es más bien remota.
322 Capítulo 10

La Gráfica 10-1 ilustra la región de rechazo para una prueba de significancia que se
realizará más adelante en este capítulo.

GRÁFICA 10-1 Distribución de muestreo del valor estadístico z, prueba de una cola a la derecha, nivel de
significancia 0.05

Observe que en la gráfica:

1. El área en que la hipótesis nula se acepta está a la izquierda de 1.65. En breve expli-
caremos cómo se obtiene el valor 1.65.
2. El área de rechazo se encuentra a la derecha de 1.65.
3. Se aplica una prueba de una cola. (Esto también se explicará más adelante.)
4. Se eligió el nivel de significancia 0.05.
5. La distribución muestral del valor estadístico z tiene una distribución normal.
6. El valor 1.65 separa las regiones donde la hipótesis nula se rechaza y donde se acepta.
7. El valor 1.65 es el valor crítico.

VALOR CRITICO. El punto divisor entre la región en la que la hipótesis nula se


rechaza y aquella en la que se acepta.

Paso 5: Tomar una decisión


El quinto y último paso en la prueba de hipótesis es calcular el estadístico de la prueba,
comparándola con el valor crítico y tomando la decisión de rechazar o no la hipótesis nula.
Refiriéndonos a la Gráfica 10-1, si, con base en la información de la muestra, se calcula que
z es 2.34, la hipótesis nula se rechaza con un nivel de significancia del 0.05. La decisión de
rechazar H0 se tomó porque 2.34 se encuentra en la región de rechazo; es decir, más allá
de 1.65. Rechazaríamos la hipótesis nula, pensando que es muy improbable que un valor
z tan alto se deba a la variación de muestreo (casualidad).
Si el valor calculado hubiera sido 1.65 o menos, digamos 0.71, la hipótesis nula se
habría aceptado. Habríamos pensado que un valor calculado tan bajo no se atribuye a la
casualidad, es decir, a la variación de muestreo.
Como dijimos, en la prueba de hipótesis, sólo una de las dos decisiones es posible:
aceptar o rechazar la hipótesis nula. En lugar de "aceptar" la hipótesis nula, Ho, algunos
Pruebas de hipótesis de una muestra 323

investigadores prefieren expresar la decisión como: "no rechazar H0", "decidimos no recha-
zar H0" o "los resultados de la muestra no nos permiten rechazar H0".
Debemos enfatizar el hecho de que siempre hay una posibilidad de que la hipótesis
nula se rechace cuando en realidad no se debería rechazar (un error Tipo I). Asimismo, hay
una probabilidad de que la hipótesis nula se acepte cuando en realidad se debería recha-
zar (un error Tipo II).
Antes de realizar una prueba de hipótesis, vamos a diferenciar entre una prueba de sig-
nificancia de una cola y una prueba de dos colas.

RESUMEN DE LOS PASOS EN LA PRUEBA DE HIPÓTESIS


1. Establecer la hipótesis nula (Ho) y la hipótesis alternativa (H1).
2. Seleccionar el nivel de significancia, es decir α.
3. Seleccionar un estadístico de prueba apropiado.
4. Formular una regla de decisión basada en los pasos 1, 2 y 3 anteriores.
5. Tomar una decisión en cuanto a la hipótesis nula con base en la información de la
muestra. Interpretar los resultados de la prueba.

Pruebas de significancia de una y dos colas


Consulte la Gráfica 10-1, que ilustra una prueba de una cola. La región de rechazo se
encuentra sólo en la cola derecha (superior) de la curva. Para explicar, suponga que el
departamento de empaque de General Foods Corporation se preocupa porque algunas
cajas de Grape Nuts exceden el peso por amplio margen. El cereal se empaca en cajas de
453 gramos, de modo que la hipótesis nula es H 0 : que se lee: "la media de la
población es igual o menor que 453". Por tanto, la hipótesis alternativa es
que se lee, es mayor que 453". Observe que el signo de desigualdad en la hipótesis
alternativa (>) señala hacia la región de rechazo en la cola superior. (Vea la Gráfica 10-1.)
Observe asimismo que la hipótesis nula incluye el signo igual. Es decir, ι La
condición de igualdad siempre aparece en H0, y nunca en H1
La Gráfica 10-2 representa una situación en la que la región de rechazo se encuentra
en la cola izquierda (inferior) de la distribución normal. Como ejemplo, piense en el proble-
ma de los fabricantes automotrices, las grandes compañías arrendadoras de autos y otras
organizaciones que compran grandes cantidades de llantas. Quieren que las llantas duren un
promedio, digamos, de 60 000 millas en condiciones de uso normal. Por tanto, van a rechazar
un envío de llantas si las pruebas revelan que la vida de éstas es mucho menor de 60 000
millas en promedio. ¡Con gusto aceptarán el envío si la vida media es mayor de 60 000 millas!
Sin embargo, esta posibilidad no les preocupa; sólo si tienen evidencias de la muestra sufi-
cientes para llegar a la conclusión de que las llantas tendrán un promedio de vida útil infe-

GRÁFICA 10-2 Distribución de muestreo para el estadístico z, prueba de cola izquierda, nivel
de significancia 0.05
324 Capítulo 10

rior a de 60 000 millas. Por tanto, el planteamiento de la prueba es responder a la preocu-


pación de los fabricantes automotrices de que la vida media de las llantas sea menor de
60 000 millas. Las hipótesis nula y alternativa en este caso se escriben

Una forma de determinar la ubicación de la región de rechazo es buscar la dirección


hacia la que apunta el signo de desigualdad en la hipótesis alternativa (ya sea < o >). En
este problema, señala hacia la izquierda, por lo que la región de rechazo está en la cola
izquierda.
En resumen, una prueba es de una cola cuando la hipótesis alternativa, Hv establece
una dirección, como:

el ingreso medio de las corredoras de bolsa es menor o igual a $65 000 al año.
el ingreso medio de las corredoras de bolsa es mayor a $65 000 al año.

Si en la hipótesis alternativa no se especifica ninguna dirección, utilizamos una prueba de


dos colas. Si cambiamos el problema anterior para ilustrar, podemos decir:

el ingreso medio de las corredoras de bolsa es $65 000 al año.


el ingreso medio de las corredoras de bolsa no es igual a $65 000 al año.

Si se rechaza la hipótesis nula y H, se acepta en el caso de las dos colas, el ingreso medio
podría ser mucho mayor a $65 000 anuales, o mucho menor a $65 000 por año. Para abar-
car estas dos posibilidades, el área de rechazo de 5% se divide en dos colas iguales de la
distribución de la muestra (2.5% cada una). La Gráfica 10-3 ilustra las dos áreas y los valo-
res críticos. Observe que el área total en la distribución normal es 1.000, que se calcula
0.9500 + 0.0250 + 0.0250.

GRÁFICA 10-3 Regiones de aceptación y rechazo para una prueba de dos colas,
con nivel de significancia 0.05

Pruebas para la media de una población donde la


desviación estándar de la población es conocida

Una prueba con dos colas


Un ejemplo ¡lustrará los detalles del procedimiento de prueba de hipótesis en cinco pasos.
Asimismo, queremos utilizar una prueba de dos colas. Es decir, no nos preocupa si los
resultados de la muestra son mayores o menores que la media poblacional propuesta. En
vez de ello, nos interesa saber si es diferente del valor propuesto para la media poblacional.
Como hicimos en el capítulo anterior, empezamos con una situación en la que tenemos
información histórica acerca de la población y conocemos su desviación estándar.
Pruebas de hipótesis de una muestra 325

La Jamestown Steel Company fabrica y arma


escritorios y otros muebles para oficina en diver-
sas plantas en el oeste del estado de Nueva
York. La producción semanal del escritorio mode-
lo A325 en la planta de Fredonia tiene una dis-
tribución normal, con una media de 200 y una
desviación estándar de 16. Hace poco, debido a
la expansión del mercado, se introdujeron nuevos
métodos de producción y se contrataron emplea-
dos nuevos. El vicepresidente de fabricación quie-
re investigar si ha habido algún cambio en la
producción semanal del escritorio modelo A325.
En otras palabras, ¿el número medio de escritorios producidos en la planta de Fredoni es
diferente de 200 con un nivel de significancia 0.01?

Empleamos el procedimiento de prueba de hipótesis estadística para investigar si ha cam-


biado el índice de producción de 200 escritorios a la semana.

Paso 1: Establezca las hipótesis nula y alternativa. La hipótesis nula es "La media
de la población es 200". La hipótesis alternativa es "La media es diferente de
200" o "La media no es 200". Estas dos hipótesis se expresan:

Ésta es una prueba con dos colas porque la hipótesis alternativa no


establece una dirección. En otras palabras, no establece si la producción
media es mayor de 200 o menor de 200. El vicepresidente sólo quiere saber
si la tasa de producción es diferente de 200.
Paso 2: Seleccionar el nivel de significancia. Como ya dijimos, se utiliza el nivel de

la probabilidad de rechazar una hipótesis nula verdadera.


Paso 3: Seleccionar el estadístico de prueba. El estadístico de prueba para una
muestra grande es z; este punto se estudió con detalle en el Capítulo 7. La
transformación de los datos de producción en unidades estándar (valores z)
permite su uso no sólo en este problema, sino también en otros problemas
de prueba de hipótesis. La Fórmula (10-1) para z se repite a continuación
identificando las distintas letras.

Paso 4: Formular la regla de decisión. La regla de decisión se formula al encontrar


los valores críticos de z a partir del Apéndice D. Como se trata de una prue-
ba de dos colas, la mitad de 0.01, o 0.005, se coloca en cada cola. Por tanto,
es el área en la que H0 se acepta, que se localiza entre las dos colas, es 0.99.
El Apéndice D se basa en la mitad del área debajo de la curva, o 0.5000.
Entonces, 0.5000 - 0.0050 es 0.4950, de modo que 0.4950 es el área entre
0 y el valor crítico. Encuentre 0.4950 en el cuerpo de la tabla. El valor más
cercano a 0.4950 es 0.4951. Luego, lea el valor crítico en la fila y la columna
correspondientes a 0.4951. Es 2.58. Para su comodidad, el Apéndice D,
Áreas debajo de la curva normal, se repite en el interior de la contraportada
de este libro.
326 Capítulo 10

Todas las facetas de este problema se ilustran en el diagrama de la


Gráfica 10-4.

GRÁFICA 10-4 Regla de decisión para el nivel de significancia 0.01

Por tanto, la regla de decisión es: rechazar la hipótesis nula y aceptar la


hipótesis alternativa (que establece que la media de la población no es 200)
si el valor z calculado no se encuentra entre -2.58 y +2.58. Aceptar la hipóte-
sis nula si z se encuentra entre -2.58 y +2.58.
Paso 5: Tomar una decisión e interpretar el resultado. Tome una muestra de la
población (producción semanal), calcule z, aplique la regla de decisión y
llegue a la decisión de rechazar H0 o de aceptar H0. El número medio de
escritorios producidos durante el último año (50 semanas, porque la planta
estuvo cerrada 2 semanas en las vacaciones) es 203.5. La desviación están-
dar de la población es 16 escritorios por semana. El valor z se calcula a par-
tir de la fórmula (10-1):

Como 1.55 no se encuentra en la región de rechazo, H0 se acepta.


Llegamos a la conclusión de que la media de la población no es diferente de
200. De modo que reportamos al vicepresidente de fabricación que la eviden-
cia de la muestra no indica que la tasa de producción de 200 por semana en
la planta de Fredonia haya cambiado. La diferencia de 3.5 unidades entre la
tasa de producción semanal histórica y la del año pasado se pueden atribuir
al error de muestreo. Esta información se resume en la gráfica siguiente.
Pruebas de hipótesis de una muestra 327

¿Probamos que la tasa de producción sigue siendo 200 a la semana? En realidad, no.
Técnicamente, lo que hicimos fue no desaprobar la hipótesis nula. No desaprobar la hipóte-
sis de que la media de la población es 200 no quiere decir que sea cierta. Como sugerimos
en la introducción del capítulo, la conclusión es análoga al sistema judicial estadounidense.
Para explicar, suponga que a una persona se le acusa de un crimen, pero que el jurado la
exonera. Si a una persona se le exonera de un crimen, la conclusión es que no hay evi-
dencias suficientes para probar su culpabilidad. El juicio no probó que el individuo sea
inocente, sólo que no hay evidencias suficientes para probar su culpabilidad. Eso es lo que
hacemos en la prueba de hipótesis estadística cuando no rechazamos la hipótesis nula. La
interpretación correcta es que no desaprobamos la hipótesis nula.
En este caso, elegimos el nivel de significancia 0.01, antes de establecer la regla de
decisión y el muestreo de la población. Ésta es la estrategia apropiada. El investigador debe
establecer el nivel de significancia, pero éste se debe determinar antes de recopilar las evi-
dencias de la muestra y no cambiar con base en esas evidencias.
¿En qué se parece el procedimiento de prueba de hipótesis que acabamos de describir
a aquel de los intervalos de confianza que estudiamos en el capítulo anterior? Cuando reali-
zamos la prueba de hipótesis acerca de la producción de escritorios cambiamos las uni-
dades de escritorios por semana a un valor z. Luego, comparamos el valor calculado del
estadístico de prueba (1.55) con el de los valores críticos (-2.58 y 2.58). Como el valor
calculado se encontraba en la región en que la hipótesis nula se acepta, llegamos a la con-
clusión de que la media de la población podría ser 200. Por otra parte, para utilizar el
enfoque del intervalo de confianza, desarrollaríamos un intervalo de confianza, con base en
la fórmula (9-1). Vea la página 286. El intervalo sería de 197.66 a 209.34, que se calcula
Observe que el valor propuesto de la población, 200, se encuentra en
este intervalo. De ahí que lleguemos a la conclusión de que la media de la población puede
ser 200.
En general, H0 se rechaza si el intervalo de confianza no incluye el valor hipotético. Si
el intervalo de confianza comprende este valor, H0 se acepta. De modo que la "región de
aceptación" para una prueba de hipótesis equivale al valor propuesto de la población que
ocurre en el intervalo de confianza. La diferencia principal entre un intervalo de confianza y
la región de "aceptación" para una prueba de hipótesis es si el intervalo se centra en el
estadístico de la muestra, tal como en el intervalo de confianza, o alrededor de 0,
como en la prueba de la hipótesis.

Autoevaluación 10-1 La tasa media anual de resurtido del frasco de 200 aspirinas de Bayer es 6.0 con una
desviación estándar de 0.50. (Esto indica que las existencias de Bayer cambian en los
anaqueles de las farmacias alrededor de 6 veces por año.) Se cree que el resurtido medio
cambió y ya no es 6.0. Utilice el nivel de significancia 0.05.
(a) Establezca la hipótesis nula y la hipótesis alternativa.
(b) ¿Cuál es la probabilidad de un error Tipo I?
(c) Dé la fórmula para el estadístico de prueba.
(d) Establezca la regla de decisión.
(e) Una muestra aleatoria de 64 frascos de 200 aspirinas de Bayer indicó una tasa de
resurtido medio de 5.84. ¿Debemos rechazar la hipótesis de que la media de la población
es 6.0? Interprete el resultado.

Prueba con una cola


En el ejemplo anterior, enfatizamos el hecho de que sólo nos preocupaba reportar al vice-
presidente si había algún cambio en el número medio de escritorios armados en la planta
de Fredonia. No nos preocupaba saber si el cambio era un incremento o una reducción en
la producción.
Para ilustrar una prueba de una cola, cambiemos el problema. Suponga que el
vicepresidente quiere saber si hay un incremento en el número de unidades armadas. En
otras palabras, en vista de una mejora en los métodos de producción, ¿podemos llegar a la
328 Capítulo 10

conclusión de que el número medio de escritorios armados en las últimas 50 semanas fue
más de 200? Observe la forma diferente de plantear el problema. En el primer caso,
queríamos saber si había una diferencia en el número medio de escritorios armados, pero
ahora queremos saber si hay un incremento. Como investigamos diferentes aspectos,
debemos formular las hipótesis de manera diferente. La mayor diferencia ocurre en la
hipótesis alternativa. Antes, formulamos la hipótesis alternativa como "diferente de"; ahora
queremos establecer que es "mayor que". En símbolos:

Los valores críticos para una prueba de una cola son diferentes de los de una prueba de
dos colas en el mismo nivel de significancia. En el ejemplo anterior, dividimos a la mitad el
nivel de significancia y colocamos una mitad en la cola inferior y la otra en la superior. En una
prueba de una cola, colocamos toda la región de rechazo en una cola. Vea la Gráfica 10-5.

GRÁFICA 10-5 Regiones de rechazo para pruebas de dos y una colas, a = 0.01

Para la prueba de una cola, el valor crítico es 2.33, que se calcula así: (1) restando 0.01 de
0.5000 y (2) encontrando el valor z que corresponde a 0.4900.

El valor p en la prueba de hipótesis


Al probar una hipótesis, comparamos el estadístico de prueba con un valor crítico. Se toma
la decisión ya sea de rechazar la hipótesis nula o de aceptarla. De modo que si, por ejem-
plo, el valor crítico es 1.96 y el valor calculado del estadístico de prueba es 2.19, la decisión
es rechazar la hipótesis nula.
En años recientes, debido a la disponibilidad de software de computadora, a menudo se
reporta información adicional sobre la fuerza del rechazo o la aceptación. Es decir, ¿con
cuánta seguridad rechazamos la hipótesis nula? Este enfoque reporta la probabilidad
(suponiendo que la hipótesis nula es verdadera) de obtener un valor del estadístico de prue-
ba por lo menos tan extremo como el valor que se obtuvo realmente. Este proceso compara
la probabilidad, llamada valor p, con el nivel de significancia. Si el valor p es menor que el
nivel de significancia, H0 se rechaza. Si es mayor que el nivel de significancia, H0 se acepta.

Determinar el valor p no sólo da como resultado una decisión en cuanto a H0, sino que
además nos ofrece una perspectiva adicional de la fuerza de la decisión. Un valor p muy
pequeño, como 0.0001, indica que hay pocas probabilidades de que H0 sea verdadera. Por
Pruebas de hipótesis de una muestra 329

otra parte, un valor p de 0.2033 significa que H0 se acepta y hay pocas probabilidades de
que sea falsa.
¿Cómo calculamos el valor p? Para ilustrar vamos a utilizar el ejemplo en el que
probamos la hipótesis nula de que el número medio de escritorios producidos por semana
en Fredonia es 200. No rechazamos la hipótesis nula, porque el valor z de 1.55 se encuen-
tra en la región entre -2.58 y 2.58. Acordamos aceptar la hipótesis nula si el valor z calcu-
lado quedaba en esta región. La probabilidad de encontrar un valor z de 1.55 o más es
0.0606, calculada por 0.5000 - 0.4394. En otras palabras, la probabilidad de obtener una
mayor que 203.5 si Para calcular el valor p, necesitamos preocuparnos
por la región menor a -1.55, así como los valores mayores que 1.55 (porque la región de
rechazo está en ambas colas). El valor p de dos colas es 0.1212, que se calcula así:
2(0.0606). El valor de p es 0.1212 es mayor que el nivel de significancia de 0.01 que se
decidió en un principio, de modo que Ho se acepta. Los detalles se muestran en la gráfica
siguiente. En general, el área se duplica como en una prueba de dos colas. El valor p se
puede comparar fácilmente con el nivel de significancia. Se utiliza la misma regla de
decisión que en la prueba de una cola.

Un valor p es una forma de expresar la probabilidad de que H0 sea falsa. Pero ¿cómo
interpretamos un valor p? Ya dijimos que si el valor p es menor que el nivel de significancia,
rechazamos H0; si es mayor que el nivel de significancia, aceptamos H0. Asimismo, si el valor
p es muy alto, es probable que Ho no sea verdadera. Si el valor p es pequeño, es probable
que H0 no sea verdadera. El recuadro siguiente le ayudará a interpretar los valores p.

Prueba para la media de la población:


muestra grande y desviación estándar
de la población desconocida
En el ejemplo anterior, conocíamos a, la desviación estándar de la población. Sin embargo,
en la mayor parte de los casos, la desviación estándar de la población se desconoce. Por
tanto, a se debe basar en estudios anteriores o se debe calcular por medio de la desviación
estándar de la muestra, s. La desviación estándar de la población en el ejemplo siguiente no
es conocida, de modo que la desviación estándar muestral se utiliza para calcular
que el tamaño de la muestra, n, sea por lo menos 30, s se puede sustituir con como se
ilustra en la formula siguiente:
330 Capítulo 10

The Thompson's Discount Appliance Store emite una tarjeta de crédito propia. El gerente de
crédito quiere saber si el saldo medio insoluto mensual es mayor de $400. El nivel de signi-
ficancia se establece en 0.05. Una revisión aleatoria de 172 saldos insolutos reveló que la
media de la muestra es $407 y la desviación estándar de la muestra es $38. ¿El gerente de
crédito debe llegar a la conclusión de que la media de la población es mayor de $400, o sería
razonable pensar que la diferencia de $7 ($407 - $400 = $7) se debe a la casualidad?

Las hipótesis nula y alternativa son:

Como la hipótesis alternativa establece una dirección, se aplica la prueba de una cola. El
valor crítico de z es 1.65. El valor calculado de z es 2.42, que se encuentra utilizando la fór-
mula (10-2):

La regla de decisión se ilustra en la gráfica siguiente.

Como el valor calculado de la estadística de prueba (2.42) es mayor que el valor críti-
co (1.65), la hipótesis nula se rechaza. El gerente de crédito puede llegar a la conclusión de
que el saldo insoluto medio es mayor de $400.
El valor p ofrece una perspectiva adicional de la decisión. Recuerde que el valor p es
la probabilidad de encontrar un estadístico de prueba tan alto o más que el que se obtuvo,
cuando la hipótesis nula es verdadera. De modo que encontramos la probabilidad de un
valor z mayor a 2.42. Según el Apéndice D, la probabilidad de un valor z entre 0 y 2.42 es
0.4922. Queremos determinar la probabilidad de un valor mayor a 2.42, de modo que
0.5000 - 0.4922 = 0.0078. Llegamos a la conclusión de que la posibilidad de encontrar un
valor z de 2.42 o mayor, cuando la hipótesis nula es verdadera, es 0.78%. Por tanto, es
poco probable que la hipótesis nula sea verdadera.

Autoevaluación 10-2 Consulte la Autoevaluación 10-1.


(a) Suponga que el problema de prueba de hipótesis se cambió a una prueba de una cola.
¿Cómo se escribiría simbólicamente la hipótesis nula si dijera: "La media de la población
es igual o mayor que 6.0"?
(b) ¿Cómo se escribiría simbólicamente la hipótesis alternativa si dijera: "La media de la
población es menor de 6.0"?
(c) Ilustre gráficamente la regla de decisión. Muestre la región de rechazo e indique el valor
crítico.
(d) Calcule el valor p. Recuerde que en la Autoevaluación 10-1 de la página 327: z = -2.56.
Pruebas de hipótesis de una muestra 331

Ejercicios
Para los ejercicios 1 a 4 responda las preguntas: (a) ¿Es una prueba de una o de dos colas?
(b) ¿Cuál es la regla de decisión? (c) ¿Qué valor tiene el estadístico de prueba? (d) ¿Cuál es su
decisión acerca de H0? (e) ¿Cuál es el valor p? Interprete sus respuestas.

1. Tenemos la información siguiente.

La media de la muestra es 49 y el tamaño de la muestra es 36. La desviación estándar de la


población es 5. Utilice el nivel de significancia 0.05. 2. Tenemos la información siguiente.

La media de la muestra es 12 para una muestra de 36. La desviación estándar de la


población es 3. Utilice el nivel de significancia 0.02.
3. Una muestra de 36 observaciones se selecciona de una población normal. La media de la
muestra es 21 y la desviación estándar de la muestra es 5. Realice la siguiente prueba de
hipótesis usando el nivel de significancia 0.05.

4. Una muestra de 64 observaciones se selecciona de un población normal. La media de la


muestra es 215 y la desviación estándar de la muestra es 15. Realice la siguiente prueba
de hipótesis utilizando el nivel de significancia 0.03.

Para los ejercicios 5 a 8: (a) Formule la hipótesis nula y la hipótesis alternativa, (b) Esta-
blezca la regla de decisión, (c) Calcule el valor del estadístico de prueba, (d) ¿Cuál es su
decisión acerca de H0? (e) ¿Cuál es el valor p? Interprete sus respuestas.
5. El fabricante de las llantas radiales con cinturón de acero X-15 para camiones afirma que el
millaje medio que la llanta recorre antes de que se desgasten las cuerdas es 60 000 millas.
La desviación estándar del millaje son 5 000 millas. La Crosset Truck Company compró 48
llantas y encontró que el millaje medio para sus camiones es 59 500 millas. ¿La experien
cia de Crosset es diferente de lo que afirma el fabricante en el nivel de significancia 0.05?
6. La cadena de restaurantes MacBurger afirma que el tiempo de espera para el servicio tiene
una distribución normal, con una media de 3 minutos y una desviación estándar de 1 minu
to. El departamento de aseguramiento de la calidad descubrió en una muestra de 50 clientes
en el MacBurger de Warren Road que el tiempo medio de espera es de 2.75 minutos. En el
nivel de significancia de 0.05 ¿podemos llegar a la conclusión de que el tiempo de espera
medio es menos de 3 minutos?
7. Una encuesta reciente en todo el país reveló que los estudiantes de secundaria ven un
promedio (media) de 6.8 películas en DVD al mes. Una muestra aleatoria de 36 estudiantes
universitarios reveló que el número medio de DVD que vieron el mes pasado es 6.2, con una
desviación estándar de 0.05. En el nivel de significancia 0.05, ¿podemos llegar a la con
clusión de que los universitarios ven menos DVD al mes que los estudiantes de secundaria?
8. En el momento en que la contrataron como mesera en el Grumney Family Restaurant, a Beth
Bridgen le dijeron: "Puedes ganar un promedio de más de $20 al día en propinas." Durante los
primeros 35 días que trabajó en el restaurante, la cantidad media diaria de sus propinas fue
$24.85, con una desviación estándar de $3.24. En el nivel de significancia 0.01, ¿la señorita
Brigden puede llegar a la conclusión de que gana un promedio de más de $20 en propinas?

Pruebas relacionadas con las proporciones


En el capítulo anterior analizamos los intervalos de confianza para las proporciones.
También podemos realizar la prueba de hipótesis para una proporción. Recuerde que una
332 Capítulo 10

proporción es la razón del número de éxitos con el número de observaciones. Supongamos


que X se refiere al número de éxitos y n al número de observaciones, de modo que la pro-
porción de éxitos en un número fijo de pruebas es X/n. Así, la fórmula para calcular una
proporción de muestra, p, es p = X/n. Considere las siguientes situaciones potenciales de
prueba de hipótesis.
• Históricamente, General Motors reporta que el 70% de los vehículos rentados se regre-
san con menos de 36 000 millas. En una muestra reciente de 200 vehículos regresa
dos al final del periodo de arrendamiento, 158 tenían menos de 36 000 millas. ¿La
proporción se ha incrementado?
• La American Association of Retired Persons (AARP) reporta que el 60% de las personas
jubiladas menores de 65 años regresarían a trabajar de tiempo completo si encontraran
un empleo adecuado. Una muestra de 500 jubilados menores de 65 años reveló que 315
regresarían a trabajar. ¿Podemos llegar a la conclusión de que más del 60% volvería a
trabajar?
• Able Moving and Storage, Inc. anuncia a sus clientes que, en el caso de mudanzas resi-
denciales a largas distancias, sus cosas llegarán en un periodo de 3 a 5 días a partir
de que las recojan. Los registros de Able muestran que 90% de las veces cumplen su
promesa. Una auditoría reciente reveló que tuvieron éxito 190 de 200 veces. ¿Puede
llegar a la conclusión de que su índice de éxitos aumentó?
Podemos hacer algunas suposiciones y algunas condiciones antes de probar la pro-
porción de una población. Para probar una hipótesis acerca de la proporción de una
población, se elige una muestra aleatoria de la población. Se supone que se cumplen las
suposiciones binomiales que se analizan en el Capítulo 6: (1) la información recopilada de
la muestra es el resultado de conteos; (2) el resultado de un experimento se clasifica en una
de dos categorías mutuamente excluyentes: un "éxito" o un "fracaso"; (3) la probabilidad de
un éxito es la misma para cada intento, y (4) los intentos son independientes, lo que signi-
fica que el resultado de uno no afecta el resultado de ningún otro. La prueba que realizare-
mos en breve es apropiada cuando tanto son por lo menos 5. n es el
tamaño de la muestra y p es la proporción de la población. Aprovechar el hecho de que una
distribución binomial se puede aproximar mediante la distribución normal.

Suponga que las elecciones anteriores en un estado indicaron que es necesario que un can-
didato a gobernador reciba por lo menos 80% de los votos en la sección norte del estado a
fin de que resulte electo. El gobernador actual está interesado en evaluar sus posibilidades
de regresar a su cargo y planea realizar una encuesta entre 2 000 votantes registrados en la
sección norte del estado
Utilizando el procedimiento de prueba de hipótesis, evalué las probabilidades de reelec-
ción para el gobernador.

La siguiente prueba de hipótesis se puede realizar porque tanto son mayo-


res de 5 En este caso, es la proporción del voto en el norte del esta-
do, o sea 80%, necesaria para que se reelija) Por tanto,
Tanto 1 600 como 400 son mayores que 5
Paso 1: Formular la hipótesis nula y la hipótesis alternativa. La hipótesis nula,
es que la proporción de la población es 0.80 o mayor. La hipótesis alterna-
tiva, es que la proporción es menor de 0.80 Desde un punto de vista prac-
tico, el gobernador actual se preocupa sólo cuando la proporción es menor de
0 80 Si es igual o mayor de 0.80, no tendrá ningún problema, es decir, la infor-
mación de la muestra indicaría que es probable que resulte reelecto Estas
1
hipótesis se escriben simbólicamente como

H1 establece una dirección. Por tanto, como dijimos antes, la prueba es de


una cola con el signo de desigualdad señalando hacia la cola de la distribu-
ción que contiene la región de rechazo.
Pruebas de hipótesis de una muestra 333

Paso 2: Seleccionar el nivel de significancia. El nivel de significancia es 0.05. Ésta


es la probabilidad de que se rechace una hipótesis verdadera.
Paso 3: Seleccionar el estadístico de prueba, z es el estadístico apropiado, encon-
trado así:

es la proporción de la población,
es la proporción de la muestra,
es el tamaño de la muestra.
es el error estándar de la proporción. Se calcula mediante
de modo que la fórmula para z se vuelve:

Encontrar el valor crítico. Paso 4: Formular la regla de decisión. El valor o valores críticos de z forman el punto
divisorio entre las regiones donde Ho se rechaza y donde se acepta. Como la
hipótesis alternativa establece una dirección, ésta es una prueba de una cola.
El signo de desigualdad señala hacia la izquierda, de modo que sólo se utiliza
el lado izquierdo de la curva. (Vea la Gráfica 10-6.) El nivel de significancia se
dio como 0.05 en el paso 2. Esta probabilidad se encuentra en la cola izquier-
da y determina la región de rechazo. El área entre cero y el valor crítico es
0.4500, que se encuentra así: 0.5000 - 0.0500. Si vemos el Apéndice D y bus-
camos 0.4500, encontramos que el valor crítico de z es 1.65. Por tanto, la
regla de decisión es: rechazar la hipótesis nula y aceptar la alternativa si el
valor calculado de z se encuentra a la izquierda de -1.65; de lo contrario,
aceptar Ho.

GRÁFICA 10-6 Región de rechazo para el nivel de significancia 0.5, prueba de una cola

Paso 5: Tomar una decisión e interpretar el resultado. Seleccione una muestra y


tome una decisión acerca de H0. Una encuesta entre 2 000 votantes poten-
ciales en el norte del estado reveló que 1 550 planeaban votar por el gober-
nador actual. ¿La proporción de la muestra de 0.775 (calculada mediante
1 550/2 000) se aproxima a 0.80 lo suficiente para llegar a la conclusión de
que la diferencia se debe al error de muestreo? En este caso:
334 Capítulo 10

es 0.775, la proporción de la muestra que planea votar por el gober-


nador.
es 2 000, el número de votantes entrevistados, es 0.80, la proporción
hipotética de la población, es la estadística de prueba con una
distribución normal cuando la hipótesis no es verdadera y las otras
suposiciones sí lo son.

Si utilizamos la fórmula (10-4) y calculamos z obtenemos

El valor calculado de z (-2.80) se encuentra en la región de rechazo, de


modo que la hipótesis nula se rechaza en el nivel 0.05. La diferencia de 2.5
puntos porcentuales entre el porcentaje de la muestra (77.5%) y el porcenta-
je hipotético de la población en la parte norte del estado (80%) es estadísti-
camente significativa, y quizá se debe a la variación del muestreo. En otras
palabras, en este punto, las evidencias no apoyan la afirmación de que el
gobernador actual va a regresar a su puesto durante otros cuatro años.
El valor p es la probabilidad de encontrar un valor z menor de -2.80. Según
el Apéndice D, la probabilidad de un valor z entre cero y -2.80 es 0.4974. De
modo que el valor p es 0.0026, encontrado mediante 0.5000 - 0.4974. El
gobernador no debe confiar en la reelección porque el valor p es menor que el
nivel de significancia.

Autoevaluación 10-3 Un reporte reciente de la industria de los seguros indicó que 40% de las personas que
participaron en accidentes de tránsito menores este año sufrieron por lo menos otro accidente
de tránsito en los últimos cinco años. Un grupo de asesores decidió investigar esta afirmación,
pues considera que no es exacta. Una muestra de 200 accidentes de tránsito en este año
reveló que 74 personas también participaron en otro accidente en los últimos cinco años.
Utilice el nivel de significancia 0.01.
(a) ¿Podemos usar z como el estadístico de prueba? Indique por qué sí o por qué no.
(b) Formule la hipótesis nula y la hipótesis alternativa.
(c) Ilustre la regla de decisión en forma gráfica.
(d) Calcule el valor de z y establezca su decisión en cuanto a la hipótesis nula.
(e) Determine e interprete el valor p.

Ejercicios
Se formulan las hipótesis siguientes.

Una muestra de 100 observaciones reveló que p = 0.75. En el nivel de significancia 0.05, ¿la
hipótesis nula se puede rechazar?
a. Establezca la regla de decisión.
b. Calcule el valor del estadístico de prueba.
c. ¿Cuál es su decisión en cuanto a la hipótesis nula?
Se dan las hipótesis siguientes.
Pruebas de hipótesis de una muestra 335

Una muestra de 120 observaciones reveló que p = 0.30. En el nivel de significancia 0.05, ¿la
hipótesis nula se puede rechazar?
a. Establezca la regla de decisión.
b. Calcule el valor del estadístico de prueba.
c. ¿Cuál es su decisión en cuanto a la hipótesis nula?

Nota: Se recomienda utilizar el procedimiento de prueba de hipótesis en cinco pasos para solu-
cionar los problemas siguientes.

11. El National Safety Council reportó que 52% de los conductores en las carreteras esta
dounidenses son hombres. Una muestra de 300 autos que ayer viajaron hacia el sur por la
New Jersey Turnpike reveló que 170 iban conducidos por un hombre. En el nivel de signifi-
cancia 0.01, ¿podemos llegar a la conclusión de que por la New Jersey Turnpike conducía
una proporción de hombres mayor que la indicada por las estadísticas nacionales?
12. Un artículo reciente que se publicó en USA Today reportó que sólo hay un empleo para uno
de cada tres graduados de la universidad. Según el artículo, las razones principales son la
abundancia de graduados de las universidades y una economía débil. Una encuesta entre
200 graduados de su escuela reveló que 80 estudiantes tenían empleo. En el nivel de sig-
nificancia 0.02, ¿podemos llegar a la conclusión de que una proporción mayor de estudian
tes de su escuela tienen trabajo?
13. Chicken Delight afirma que 90% de sus pedidos se entregan 10 minutos después de que se
hacen. Una muestra de 100 pedidos reveló que 82 se entregaron en el tiempo prometido.
En el nivel de significancia 0.10, ¿podemos llegar a la conclusión de que menos de 90% de
los pedidos se entregan en menos de 10 minutos?
14. Las investigaciones en la Universidad de Toledo indican que 50% de los estudiantes cam-
bian de carrera después de un año en el programa. Una muestra aleatoria de 100 estudian
tes en la Facultad de Administración reveló que 48 habían cambiado de carrera después de
su primer año en el programa. ¿Se ha presentado una reducción significativa en la propor-
ción de estudiantes que cambian de carrera después de su primer año en el programa?
Realice la prueba en el nivel de significancia 0.05.

Prueba para la media de la población:


muestra pequeña y desviación estándar
de la población desconocida
Podemos utilizar la distribución normal estándar, es decir z, si se cumplen dos condiciones:

1. Se sabe que la población sigue una distribución normal y se conoce la desviación


estándar de la población, o
2. Se desconoce la forma de la población, pero el número de observaciones en la mues-
tra es de por lo menos 30.

¿Qué hacemos cuando la muestra es menor a 30 y no conocemos la desviación estándar


de la población? Enfrentamos esta misma situación cuando elaboramos los intervalos de
confianza en el capítulo anterior. Vea las páginas 291 a 293 en el Capítulo 9. La Gráfica 9-3
de la página 293 resume este problema. En estas condiciones, el procedimiento estadísti-
co correcto es reemplazar la distribución normal estándar con la distribución í. Para repasar,
las principales características de la distribución f son:

1. Es una distribución continua.


2. Tiene forma de campana y es simétrica.
3. Hay una familia de distribuciones t. Cada vez que los grados de libertad cambian, se
crea una distribución nueva.
4. Conforme aumenta el número de grados de libertad, la forma de la distribución t se ase-
meja más a aquella de una distribución normal estándar.
5. La distribución t es más plana, o más extendida, que la distribución normal estándar.
336 Capítulo 10

Para realizar una prueba de la hipótesis utilizando la distribución t ajustamos la fórmula (10-2)
como sigue.

es la media de la muestra.
es la media hipotética de la población.
es la desviación estándar de la muestra.
es el número de observaciones en la muestra.

El ejemplo siguiente explica los detalles.

El Departamento de Quejas de McFarland Insurance Company reporta que el costo medio


de procesar una queja es $60. Una comparación en la industria reveló que esta cantidad es
más alta que la de la mayor parte de las demás compañías de seguros, de modo que insti-
tuyeron medidas para reducir costos. A fin de evaluar el efecto de estas medidas, el super-
visor del departamento seleccionó una muestra aleatoria de 26 quejas procesadas el mes
pasado. A continuación, presentamos la información de la muestra.

En el nivel de significancia 0.01 ¿sería razonable llegar a la conclusión de que el costo


medio de procesar una queja ahora es menor de $60?

Vamos a utilizar el procedimiento de prueba de hipótesis en cinco pasos.

Paso 1: Formule la hipótesis nula y la hipótesis alternativa. La hipótesis nula es


que la media de la población es por lo menos $60. La hipótesis alternativa es
que la media de la población es menor de $60. Podemos expresar las hipóte-
sis nula y alternativa como sigue:

La prueba es de una cola porque queremos determinar si el costo ha experi-


mentado una reducción. La desigualdad en la hipótesis alternativa señala
hacia la región de rechazo en la cola izquierda de la distribución.
Paso 2: Seleccionar un nivel de significancia. Decidimos que el nivel de significan-
cia es de 0.01.
Paso 3: Seleccionar el estadístico de prueba. En este caso, el estadístico de prue-
ba es la distribución t. ¿Por qué? En primer lugar, es razonable llegar a la con-
clusión de que la distribución del costo por queja sigue la distribución normal.
Podemos confirmar lo anterior en el histograma que está del lado derecho de
la pantalla de MINITAB que presentamos en la página siguiente. Observe la
distribución normal superpuesta en la distribución de la frecuencia.
No conocemos la desviación estándar de la población. De modo que
sustituimos la desviación estándar de la muestra. Cuando la muestra es
grande, podemos hacer la sustitución y aun así utilizar la distribución normal
estándar. Por lo general, grande quiere decir 30 o más observaciones. En este
caso, hay sólo 26 observaciones. Por consiguiente, no podemos utilizar la dis-
Pruebas de hipótesis de una muestra 337

tribución normal estándar. En vez de ésta, usamos t. El valor del estadístico


de prueba se calcula por medio de la fórmula (10-5):

Paso 4: Formular la regla de decisión. Los valores críticos de t se dan en el Apéndice


F, parte del cual se incluye en la Tabla 10-1. Este Apéndice también se repite
en la contraportada del libro. La columna de la extrema izquierda de la tabla
tiene el encabezado "gl" grados de libertad. El número de grados de libertad es
el número total de observaciones en la muestra menos el número de muestras,
que se escribe n- 1. En este caso, el número de observaciones en la muestra
es 26, de modo que hay 26 - 1 = 25 grados de libertad. Para encontrar el valor
crítico, localice primero la fila con los grados de libertad apropiados. Esta fila
aparece sombreada en la Tabla 10-1. Después, determine si la prueba es de
una o dos colas. En este caso, tenemos una prueba de una cola, de modo que

Una parte de la tabla de la distribución t


338 Capítulo 10

debe buscar la parte de la tabla con el encabezado "una cola" y, a continua-


ción, busque la columna con el nivel de significancia seleccionado. En este
ejemplo, el nivel de significancia es 0.01. Desplácese hacia abajo en la colum-
na que dice "0.01" hasta su intersección con la fila que tiene 25 grados de liber-
tad. El valor es 2.485. Como ésta es una prueba de una cola y la región de
rechazo se encuentra en la cola izquierda, el valor crítico es negativo. La regla
de decisión es rechazar H0 si el valor de t es menor de -2.485.

Región de rechazo, distribución t. nivel de significancia 0.01

Paso 5: Tome una decisión e interprete el resultado. Según la pantalla de MINITAB


en la página 337, junto al histograma, el costo medio por queja para la muestra
de 26 observaciones es $56.42. La desviación estándar de esta muestra es
$10.04. Insertamos estos valores en la fórmula (10-5) y calculamos el valor de t

Como -1.818 se encuentra en la región a la derecha del valor crítico de -


2.485, la hipótesis nula se acepta con un nivel de significancia de 0.01. No
hemos demostrado que las medidas de reducción de costos hayan bajado el
costo medio por queja a menos de $60. En otras palabras, la diferencia de
$3.58 ($56.42 - $60) entre la media de la muestra y la media de la población
quizá se debe a un error de muestreo. El valor calculado de f se ilustra en la
Tabla 10-7, y se encuentra en la región donde la hipótesis nula se acepta.

En el ejemplo anterior, la media y la desviación estándar se incluyeron en el problema. El


ejemplo siguiente requiere de esta información para calcularlo a partir de los datos de la
muestra.

La longitud media de una pequeña barra de contrapeso es 43 milímetros. Al supervisor de


producción le preocupa que los ajustes hechos a la máquina que produce las barras hayan
cambiado la longitud de las barras y pide al Departamento de Ingeniería que investigue.
El Departamento de Ingeniería selecciona un muestra aleatoria de 12 barras y mide
cada una. Los resultados se reportan a continuación en milímetros.

¿Sería razonable llegar a la conclusión de que ha ocurrido un cambio en la longitud media


de las barras? Utilice el nivel de significancia de 0.02.
Pruebas de hipótesis de una muestra 339

Empezamos por formular la hipótesis nula y la hipótesis alternativa.

La hipótesis alternativa no establece una dirección, de modo que es una prueba de dos
colas. Hay 11 grados de libertad, que se encuentran mediante n—1 =12 — 1 = 11. El valor
de f es 2.718, que encontramos al consultar el Apéndice F para una prueba de dos colas,
utilizando el nivel de significancia 0.02, con 11 grados de libertad. La regla de decisión es:
rechazar la hipótesis nula si la t calculada se encuentra a la izquierda de -2.718 o a la
derecha de 2.718. Esta información se resume en la Gráfica 10-8.

Calculamos la desviación estándar de la muestra utilizando la fórmula (3-11). La media,


es 41.5 milímetros, y la desviación estándar, s, es 1.784 milímetros. Los detalles se ilus-
tran en la Tabla 10.2.
Ahora estamos listos para calcular el valor de í, utilizando la fórmula (10-5).

La hipótesis nula de que la media de la población es 43 milímetros se rechaza porque


la f calculada es de -2.91 se encuentra en el área a la izquierda de -2.718. Aceptamos la
hipótesis alternativa y llegamos a la conclusión de que la media de la población no es 43
milímetros. La máquina está fuera de control y necesita un ajuste.

Cálculos de la desviación estándar de la muestra


340 Capítulo 10

Autoevaluación 10-4 La duración media de la batería de un reloj digital es de 305 días. La duración de las baterías
sigue una distribución normal. Hace poco, las baterías se modificaron para que duren más.
Una muestra de 20 baterías modificadas tuvo una duración media de 311 días con una
desviación estándar de 12 días. ¿La modificación aumentó la duración media de la batería?
(a) Formule la hipótesis nula y la hipótesis alternativa.
(b) Ilustre gráficamente la regla de decisión. Utilice el nivel de significancia de 0.05.
(c) Calcule el valor de t. ¿Cuál es su decisión acerca de la hipótesis nula? Resuma los resul-
tados.

Ejercicios
15. Dadas las hipótesis siguientes:

Para una muestra aleatoria de 10 observaciones, la media de la muestra fue 12 y la


desviación estándar de la muestra 3. Utilizando el nivel de significancia 0.05:
a. Establezca la regla de decisión.
b. Calcule el valor del estadístico de prueba.
c. ¿Cuál es su decisión acerca de la hipótesis nula?
16. Dadas las hipótesis siguientes:

Para una muestra aleatoria de 12 observaciones, la media de la muestra fue 407 y la


desviación estándar de la muestra 6. Utilizando el nivel de significancia 0.01:
a. Establezca la regla de decisión.
b. Calcule el valor del estadístico de prueba.
c. ¿Cuál es su decisión acerca de la hipótesis nula?
17. El gerente de ventas del distrito de las Montañas Rocallosas de Rath Publishing, Inc., una
editorial de libros de texto universitarios, afirma que los representantes de ventas hacen un
promedio de 40 llamadas de ventas por semana a los profesores. Varios representantes
dicen que tal estimado es muy bajo. Para investigar, una muestra aleatoria de 28 represen
tantes de ventas revela que el número medio de llamadas hechas la semana pasada fue 42.
La desviación estándar de la muestra es 2.1 llamadas. Utilizando el nivel de significancia
0.05, ¿podríamos llegar a la conclusión de que el número medio de llamadas por vendedor
a la semana es más de 40?
18. La administración de White Industries considera un nuevo método para armar un carro de
golf. El método actual requiere de 42.3 minutos, en promedio, para armar un carro. El tiem-
po de ensamblaje medio para una muestra aleatoria de 24 carros, utilizando el método
nuevo, fue 40.6 minutos y la desviación estándar de la muestra fue 2.7 minutos. Utilizando
el nivel de significancia 0.10 ¿podemos llegar a la conclusión de que el tiempo de ensam-
blaje con el nuevo método es más corto?
19. Un fabricante de bujías afirma que sus productos tienen una duración media superior a
22 100 millas. Suponga que la duración de las bujías sigue una distribución normal. El dueño
de una flotilla compró gran cantidad de juegos de bujías. Una muestra de 18 juegos reveló
que la duración media era de 23 400 millas y la desviación estándar de 1 500 millas. ¿Hay
evidencias suficientes para respaldar la afirmación del fabricante en el nivel de significancia
0.05?
20. En la actualidad, la mayoría de las personas que viajan en avión utilizan boletos electróni-
cos. Éstos evitan a los pasajeros la preocupación de cuidar un boleto en papel, y su mane-
jo es más económico para las líneas áreas. Sin embargo, en fechas recientes, las líneas
aéreas han recibido quejas acerca de los boletos electrónicos, sobre todo cuando es nece-
Pruebas de hipótesis de una muestra 341

sario hacer alguna conexión y cambiar de línea. Para investigar el problema, una agencia
de investigación independiente tomó una muestra aleatoria de 20 aeropuertos y recopiló
información sobre el número de quejas que tuvieron debidas a los boletos electrónicos
durante el mes de marzo. La información se reporta a continuación.

Con un nivel de significancia 0.05, ¿la agencia de investigación puede llegar a la conclusión
de que el número medio de quejas por aeropuerto es menor de 15 al mes?

a. ¿Qué suposición es necesaria antes de realizar una prueba de hipótesis?


b. Ilustre el número de quejas por aeropuerto en una distribución de la frecuencia o un dia-
grama de puntos. ¿Sería razonable llegar a la conclusión de que la población sigue una
distribución normal?
c. Realice una prueba de hipótesis e interprete los resultados.

Solución con software

El software de estadística MINITAB, que utilizamos en capítulos anteriores, ofrece una


manera eficiente de realizar un prueba de hipótesis de una cola para una media pobla-
cional. Los pasos para generar la pantalla siguiente se muestran en la sección Comandos
de software al final de capítulo.

Una característica adicional que ofrecen los paquetes de software de estadística es que
reportan el valor p, que proporciona información adicional sobre la hipótesis nula. El valor p
es la probabilidad de que un valor f tan extremo como el que se calculó, dado que la hipóte-
sis nula es verdadera. En este caso, el valor p es de 0.014 por lo que la probabilidad de un
valor t de -2.91 o menor, o la probabilidad de un valor íde 2.91 o más alto, dada una media
poblacional de 43. Por tanto, la comparación del valor p con el nivel de significancia nos
indica si la hipótesis nula estuvo a punto de ser rechazada, apenas se rechazó, etcétera.
Para una explicación más detallada, consulte el diagrama siguiente, en que el valor p
de 0.14 se muestra en negro y el nivel de significancia es el área gris más la negra. Como
el valor p de 0.14 es menor que el nivel de significancia de 0.02, la hipótesis nula se re-
342 Capítulo 10

chaza. Si el valor p fuera más alto que el nivel de significancia, digamos, 0.06, 0.19 o 0.57,
la hipótesis nula se aceptaría. Si el nivel de significancia se hubiera seleccionado desde un
principio en 0.01, la hipótesis nula se aceptaría.

En el ejemplo anterior, la hipótesis alternativa tiene dos lados, de modo que había
áreas de rechazo en las colas superior e inferior. Para determinar el valor p, fue necesario
determinar el área a la izquierda de -2.91 para una distribución t con 11 grados de libertad.

¿Qué sucedería si realizáramos una prueba de una cola, de modo que toda la región
de rechazo esté en la cola superior o inferior? En ese caso, reportaríamos el área de la
única cola. En el ejemplo de las barras de contrapeso, si H1 se formulara como la
desigualdad apuntaría hacia la izquierda. Por tanto, habríamos reportado el valor p como el
área a la izquierda de -2.91. Este valor es 0.007, calculado por 0.014/2. Así, el valor p para
una prueba de una cola sería 0.007.

¿Cómo podemos calcular un valor p sin una computadora? Para ilustrar, recuerde que,
en el ejemplo acerca de la longitud de un barra de contrapeso, rechazamos la hipótesis nula
de que , y aceptamos la hipótesis alternativa de que El nivel de significancia
fue 0.02, de modo que, por lógica, el valor p es menor a 0.02. Para calcular con mayor pre-
cisión el valor p, vaya al Apéndice F y busque la fila con 11 grados de libertad. El valor t cal-
culado de 2.91 se encuentra entre 2.718 y 3.106. (Una parte del Apéndice F se reproduce
en la Tabla 10-3.) El nivel de significancia de dos colas que corresponde a 2.718 es 0.02, y
para 3.106 es 0.01. Por tanto, el valor p se encuentra entre 0.01 y 0.02. La práctica común
consiste en reportar que el valor p es menor que el más alto de los dos niveles de signifi-
cancia. De modo que reportaríamos, "el valor p es menor a 0.02".

TABLA 10-3 Una parte de la distribución t de Student


Pruebas de hipótesis de una muestra 343

Autoevaluación 10-5 Una máquina se programa para llenar un frasco pequeño con 9.0 gramos de medicamento.
Una muestra de ocho frascos reveló las cantidades siguientes (en gramos) en cada botella.

En el nivel de significancia de 0.01, ¿podríamos llegar a la conclusión de que el peso medio es


menos de 9.0 gramos?
(a) Formule la hipótesis nula y la hipótesis alternativa.
(b) ¿Cuántos grados de libertad hay?
(c) Establezca la regla de decisión.
(d) Calcule el valor de f. ¿Cuál es su decisión en cuanto a la hipótesis nula?
(e) Estime el valor p.

Ejercicios
Dadas las hipótesis siguientes:

Una muestra aleatoria de cinco dio como resultado los valores siguientes: 18, 15, 12, 19 y
21. Utilizando el nivel de significancia 0.01, ¿podemos llegar a la conclusión de que la media
de la población es menor de 20?
a. Establezca la regla de decisión.
b. Calcule el valor del estadístico de prueba.
c. ¿Cuál es su decisión en cuanto a la hipótesis nula?
d. Calcule el valor p.
Dadas las hipótesis siguientes:

Una muestra aleatoria de seis dio como resultado los valores siguientes: 118,105,112,119,
105 y 111. Utilizando el nivel de significancia de 0.05, ¿podemos llegar a la conclusión de
que la media es diferente a 100?
a. Establezca la regla de decisión.
b. Calcule el valor del estadístico de prueba.
c. ¿Cuál es su decisión acerca de la hipótesis nula?
d. Calcule el valor p.
La experiencia en la cría de pollos New Jersey Red reveló que el peso medio de los pollos
a los cinco meses es de 4.35 libras. Los pesos siguen una distribución normal. En un esfuer-
zo por aumentar su peso, se agrega un aditivo especial al alimento de los pollos. Los pesos
subsecuentes de una muestra de pollos de cinco meses de edad fueron (en libras):

Con un nivel 0.01, ¿el aditivo especial ha aumentado el peso medio de los pollos? Calcule
el valor p.
El cloro líquido que se agrega a las albercas para combatir las algas tiene una duración en
las tiendas relativamente corta antes de perder su efectividad. Los registros indican que la
duración media de un frasco de cloro es de 2 160 horas (90 días). Como experimento, se
agregó Holdlonger al cloro para saber si éste aumentaba su duración en las tiendas. Una
muestra de nueve frascos de cloro tuvieron estos tiempos de duración en tiendas (en horas):

En el nivel de 0.025, ¿el Holdlonger aumentó la duración en tiendas del cloro? Calcule el
valor p.
344 Capítulo 10

25. Las pescaderías de Wyoming afirman que el número medio de truchas pescadas durante
todo un día de pesca en Snake, Buffalo, y otros ríos y arroyos en el área de Jackson Hole
es 4.0. Para una actualización anual, el personal de las pescaderías pidió a una muestra de
pescadores que llevaran la cuenta del número de truchas pescadas en un día. Los números
fueron: 4, 4, 3, 2, 6, 8, 7, 1, 9, 3, 1 y 6. En el nivel 0.05, ¿podemos llegar a la conclusión de
que el número medio de truchas pescadas es mayor de 4.0? Calcule el valor p.
26. Hugger Polis afirma que un agente realiza una media de 53 encuestas a fondo por semana.
Se introdujo una forma de encuesta nueva y Hugger quiere evaluar su efectividad. El
número de encuestas a fondo realizadas durante una semana por una muestra aleatoria de
agentes es:

Con un nivel de significancia de 0.05, ¿podemos llegar a la conclusión de que el número


medio de entrevistas que realizan los agentes es más de 53 a la semana? Estime el valor p.

Error tipo II
Recuerde que el nivel de significancia, que se identifica con el símbolo a, es la probabilidad
de que la hipótesis nula se rechace cuando es verdadera. Éste se conoce como un error
Tipo I. Los niveles de significancia más comunes son 0.05 y 0.01, y el investigador los
establece al principio de la prueba.
En una situación de prueba de hipótesis, también existe la posibilidad de que una
hipótesis nula se acepte cuando en realidad es falsa. Es decir, aceptamos una hipótesis
nula falsa. Éste se conoce como error Tipo II. La probabilidad de un error Tipo II se identi-
fica con la letra griega beta Los ejemplos siguientes ilustran los detalles al
determinar el valor de

Un fabricante compra barras de acero para hacer clavijas. Las experiencias pasadas indi-
can que la fuerza tensora media de todos los cargamentos que llegan es 10 000 psi y que
la desviación estándar,
A fin de tomar una decisión acerca de los cargamentos de barras de acero que llegan,
el fabricante establece esta regla para que el inspector de control de calidad se apegue a
ella: "Tome una muestra de 100 barras de acero. En el nivel de significancia 0.05, si la fuerza
media se encuentra entre 9 922 y 10 078 psi, acepte el lote. De lo contrario, el lote se debe
rechazar." Consulte la Gráfica 10-9, Región A, que ¡lustra la región donde cada lote se recha-
za y en la que no se rechaza. La media de esta distribución se designa como Las colas
de curva representan la probabilidad de cometer un error Tipo I; es decir, rechazar el lote de
barras de acero cuando en realidad es aceptable, con una media de 10 000 psi.
Suponga que la media de la población desconocida de un lote, representada por
realidad es 9 900 psi. ¿Cuál es la probabilidad de que el inspector de control de calidad
acepte el embarque (un error Tipo II)?

La probabilidad de cometer un error Tipo II, como representa el área negra en la Gráfica
10-9, Región B, se puede calcular al determinar el área debajo de la curva normal que se
encuentra arriba de 9 922 libras. El cálculo de las áreas bajo la curva normal se estudió en
el Capítulo 7. Haciendo un breve repaso, primero es necesario determinar la probabilidad
de que la media de la muestra se encuentre entre 9 900 y 9 922. Luego, esta probabilidad se
resta de 0.5000 (que representa toda el área más allá de la media de 9 900) para llegar a
la probabilidad de cometer un error Tipo II.
El número de unidades estándar (valor z) entre la media del embarque que llega
(9 900), expresada con que representa el valor crítico para 9 922, se calcula así:
Pruebas de hipótesis de una muestra 345

GRÁFICA 10-9 Gráficas que ilustran los errores Tipos I y II

El área debajo de la curva entre 9 900 y 9 922 (un valor z de 0.55) es 0.2088. El área debajo
de la curva más allá de 9 922 libras es 0.5000 - 0.2088, o 0.2912; ésta es la probabilidad
de cometer un error Tipo II; es decir, aceptar un lote de barras de acero cuando la media
de la población es 9 900 psi.
Otra ilustración en la Gráfica 10-10, Región C, representa la probabilidad de aceptar un
lote cuando la media de población es 10 120. Para encontrar la probabilidad:

La probabilidad de que z sea mejor que -1.05 es 0.1469, calculada mediante 0.5000 -
0.3531. Portante o la probabilidad de un error Tipo II, es 0.1469.
Utilizando los métodos que ilustran las Gráficas 10-9B y 10-10C, la probabilidad de
aceptar una hipótesis como verdadera cuando en realidad es falsa se puede determinar
para cualquier valor
Las probabilidades de un error Tipo II se ilustran en el centro de la columna de la Tabla
10-4 para valores seleccionados dados en la columna izquierda. La columna derecha
da la probabilidad de no cometer un error Tipo II, que también se conoce como la fuerza de
una prueba.
346 Capítulo 10

Errores Tipos I y II (otro ejemplo)

Autoevaluación 10-6 Suponga que la media real de un lote de barras de acero es 10 180 psi. ¿Cuál es la probabili-
dad de que el inspector de control de calidad acepte las barras como si tuvieran una media de
10 000 psi? (Parece poco probable que las barras de acero se rechacen si la fuerza tensora
es más alta que la que se especifica. Sin embargo, puede ser que la clavija tenga una doble
función en un motor fuera de borda. Tal vez está diseñada para que no se desprenda si el
motor golpea un objeto pequeño, pero sí se desprende si golpea una roca. Por tanto, el acero
no debe ser demasiado fuerte.)
El área clara en la Gráfica 10-10, Región C, representa la probabilidad de aceptar
erróneamente una hipótesis de que la fuerza tensora media de las barras de acero que llegan
es 10 000 psi. ¿Cuál es la probabilidad de cometer un error Tipo II?
Pruebas de hipótesis de una muestra 347

Ejercicios
27. Consulte la Tabla 10-4 y el ejemplo anterior. Con
verifique que la probabilidad de un error Tipo II es 0.1469.
28. Consulte la Tabla 10-4 y el ejemplo anterior. Con
verifique que la probabilidad de un error Tipo II es 0.6736.

Resumen del capítulo


I. El objetivo de la prueba de hipótesis es verificar la validez de una afirmación acerca de un
parámetro de la población.
II. Los pasos en la realización de una prueba de hipótesis son:
A. Formular la hipótesis nula (H0) y la hipótesis alternativa (H1).
B. Seleccionar el nivel de significancia.
1. El nivel de significancia es la probabilidad de rechazar una hipótesis nula verdadera.
2. Los niveles de significancia que se utilizan con mayor frecuencia son 0.01, 0.05 y
0.10, pero cualquier valor entre 0 y 1.00 es posible.
C. Seleccione el estadístico de prueba.
1. Un estadístico de prueba es un valor que se calcula a partir de la información de una
muestra utilizado para determinar si se rechaza la hipótesis nula.
2. En este capítulo consideramos dos estadísticos de prueba.
a. La distribución normal estándar se usa cuando la población sigue la distribución
normal y se conoce la desviación estándar.
b. La distribución normal estándar se utiliza cuando la población sigue la distribución
normal, la desviación estándar de la población se desconoce, pero la muestra
contiene por lo menos 30 observaciones.
c. La distribución t se utiliza cuando la población sigue la distribución normal, se
desconoce la desviación estándar de la población y la muestra contiene menos
de 30 observaciones.
D. Establecer la regla de decisión.
1. La regla de decisión indica la condición o condiciones cuando se rechaza la hipóte-
sis nula.
2. En una prueba de dos colas, la región de rechazo está dividida de manera uniforme
entre las colas superior e inferior.
3. En una prueba de una muestra, toda la región de rechazo se encuentra en la cola
superior o en la inferior.
E. Seleccione una muestra, calcule el valor del estadístico de prueba, tome una decisión
acerca de la hipótesis nula e interprete los resultados.
III, Un valor p es la probabilidad de que el valor del estadístico de prueba es tan extremo como
el valor calculado, cuando la hipótesis nula es verdadera.
IV. Probar una hipótesis acerca de la media de la población.
A. Si la desviación estándar de la población, se conoce, el estadístico de prueba es la
distribución normal estándar y se determina a partir de:

B. Si la desviación estándar de la población se desconoce, pero hay por lo menos 30


observaciones en la muestra, s se sustituye por El estadístico de prueba es la dis-
tribución normal estándar y su valor se determina a partir de:

C. Si se desconoce la desviación estándar de la población, pero hay menos de 30 obser-


vaciones en la muestra, s se sustituye por El estadístico de prueba es la
distribución t y su valor se determina a partir de:
348 Capítulo 10

Las principales características de Ia distribución t


1. Es una distribución continua.
2. Tiene forma de campana y es simétrica.
3. Es más plana, o más extendida, que la distribución normal estándar.
4. Hay una familia de distribuciones t, dependiendo del número de grados de libertad.
V. Probar la proporción de la población.
Tanto deben ser por lo menos 5.
El estadístico de prueba m

VI. Hay dos tipos de errores que pueden ocurrir en una prueba de hipótesis.
Un error Tipo 1 ocurre cuando una hipótesis nula verdadera se rechaza.
1. La probabilidad de cometer un error Tipo t es igual al nivel de significancia.
2. Esta probabilidad se designa con la letra griega
Un error Tipo II ocurre cuando una hipótesis nula falsa se acepta.
1, La probabilidad de cometer un error Tipo II se designa con la letra griega
2. La probabilidad de un error Tipo II se encuentra mediante

Una curva de poder muestra la probabilidad de rechazar la hipótesis nula para cada valor
de un parámetro.

Clave de pronunciación

Ejercicios del capítulo


Una nueva compañía de control di peso, Weight Reducers International, anuncia que tai
personas que sigan su programa bajarán, en promedio, 10 libras durante las primeras des
semanas. Una muestra aleatoria de 50 personas que se unieron al nuevo programa de
reducción de peso reveló que la pérdida de peso media es de 9 libras con una desviación
estándar de 2.8 libras. En el nivel de significancia 0.05, ¿podemos llegar a la conclusión de
que aquellos que participan en el programa de Weight Reducers tejan menos de 10 libras
en promedio? Determine el valor p,
Dole Pineapple, Inc. se preocupa porque cree que las latas de 16 onzas de piña en reba-
nadas se han llenado demasiado. El departamento de control de calidad tomó una muestra
aleatoria de 50 latas y encontró que el peso medio aritmético fue de 16.05 onzas, con una
desviación estándar de la muestra de 0.03 onzas. En el nivel de significancia de 5%,
¿podemos llegar a la conclusión de que el peso medio es mayor a 16 onzas?
Determine el valor p.
Según una encuesta reciente, los estadounidenses duermen una media de 7 horas por
noche. Una muestra aleatoria de 50 estudiantes de West Virginia University reveló que el
número medio de horas de sueño por noche fue 6 horas 48 minutos (6.8 horas). La
desviación estándar de la muestra fue 0.9 horas. ¿Sería razonable legar a la conclusión de
que los estudiantes de West Virginia duermen menos que los estadounidenses típicos?
Calcule el valor p.
Una agencia estatal de ventas de bienes ralees, Farm Associates, se especializa en vender
granjas en el estado de Nebraska. Sus registros indican que el tiempo de venta medio de
una granja es de 90 días. Debido a las recientes condiciones de sequía, creen que el tiem-
Pruebas de hipótesis de una muestra 349

po de venta medio es mayor de 90 días. Una encuesta realizada hace poco en 100 granjas
de todo el estado reveló que el tiempo de venta medio fue de 94 días, con una desviación
estándar de 22 días. En el nivel de significancia 0.10, ¿ha aumentado el tiempo de venta?
33. Según el presidente del sindicato local, el ingreso bruto medio de los plomeros en el área
de Salt Lake City tiene una distribución normal, con una media de $45 000 y una desviación
estándar de $3 000. Un reportaje de investigación reciente para la KYAK TV descubrió que,
para una muestra de 120 plomeros, el ingreso bruto medio era de $45 500. En el nivel de
significancia 0.10, ¿sería razonable llegar a la conclusión de que el ingreso medio no es
igual a $45 000? Determine el valor p.
34. Un artículo reciente en la revista Vitality reportó que la cantidad media de tiempo de des
canso a la semana para los hombres estadounidenses es 40.0 horas. Usted piensa que esta
cifra es muy alta y decide realizar sus propias pruebas. En una muestra aleatoria de 60 hom-
bres, encuentra que la media es 37.8 horas de descanso a la semana, y que la desviación
estándar de la muestra es 12.2 horas. ¿Puede llegar a la conclusión de que la información
en el artículo no es cierta? Utilice el nivel de significancia 0.05. Determine el valor p y
explique su significado.
35. Anoche, el noticiero de NBC TV, en un segmento sobre el precio de la gasolina, reportó que
el precio medio en todo el país es $1.50 por galón de gasolina regular sin plomo en las islas
de autoservicio. Una muestra aleatoria de 35 gasolineras en el área de Milwaukee,
Wisconsin, reveló que el precio medio era de $1.52 por galón y que la desviación estándar
era $0.05 por galón. En el nivel de significancia 0.05, ¿podemos llegar a la conclusión de
que el precio de la gasolina es más alto en el área de Milwaukee? Determine el valor p.
36. The Rutter Nursery Company empaca su aserrín de pino en bolsas de 50 libras. Desde hace
mucho tiempo, el departamento de producción reporta que la distribución de los pesos de
las bolsas siguen una distribución normal y que la desviación estándar de este proceso es
3 libras por bolsa. Al final de cada día, Jeff Rutter, el gerente de producción, pesa 10 bolsas y
calcula el peso medio de la muestra. A continuación presentamos los pesos de 10 bolsas de
la producción de hoy.

a. ¿El señor Rutter puede llegar a la conclusión de que el peso medio de las bolsas es
menor de 50 libras? Utilice el nivel de significancia 0.01.
b. En un breve reporte, indique por qué el señor Rutter puede usar la distribución z como
estadístico de prueba.
c. Calcule el valor p.
37. Tina Dennis es contralora de Meek Industries, y cree que el problema actual con el flujo de
efectivo en Meek se debe a la tardanza para cobrar las cuentas por cobrar. Dennis cree que
más de 60% de las cuentas se tardan en cubrir más de tres meses. Una muestra aleatoria
de 200 cuentas reveló que 140 tenían más de tres meses de antigüedad. En el nivel de sig-
nificancia 0.01, ¿puede llegar a la conclusión de que más de 60% de las cuentas per-
manecen sin cobrarse tres meses?
38. La política de la Suburban Transit Authority es agregar una ruta de autobús si más de 55%
de los pasajeros potenciales indican que utilizarían esa ruta en particular. Una muestra de
70 pasajeros reveló que 42 usarían una ruta propuesta de Bowman Park al área del centro
de la ciudad. ¿La ruta Bowman-centro cumple con el criterio de la STA? Utilice el nivel de
significancia 0.05.
39. Las experiencias pasadas en Crowder Travel Agency indicaron que 44% de las personas que
querían que la agencia planeara unas vacaciones para ellas querían ir a Europa. Durante la
temporada de vacaciones más reciente, se seleccionó al azar una muestra de 1 000 planes
vacacionates que estaban archivados. Se descubrió que 480 personas querían ir a Europa
de vacaciones. ¿Ha habido un aumento significativo en el porcentaje de personas que
quieren ir a Europa? Realice la prueba en el nivel de significancia 0.05.
40. Según sus experiencias pasadas, un fabricante de televisores descubrió que 10% o menos
de sus aparatos necesitaron algún tipo de reparación en los primeros dos años de opera-
ción. En una muestra de 50 televisores fabricados hace dos años, nueve necesitaron repa-
ración. En el nivel de significancia 0.05, ¿aumentó el porcentaje de televisores que
necesitaron reparación? Determine el valor p.
41. Un planeador urbano afirma que, en todo el país, 20% de todas las familias que rentan con-
dominios se mudan durante un año determinado. Una muestra aleatoria de 200 familias que
350 Capítulo 10

rentan condominios en Dallas Metroplex reveló que 56 se mudaron el año pasado, Con un
nivel de significancia 0.01, ¿estas evidencias sugieren que una proporción mayor de propie-
tarios de condominios se mudaron en el área de Dallas? Determine el valor p.
42. El fabricante de motocicletas Osoki anuncia que su motocicleta recorrerá un promedio de 87
millas por galón. Una muestra de ocho vehículos reveló el millaje siguiente.

Con un nivel de significancia 0.05, ¿el millaje medio es menor al que se anunció de 87 mil-
te por galón?
43. The Myers Summer Casual Furniture Store dice a sus clientes que un pedido especial tar-
dará seis semanas (42 días). En los meses recientes, el dueño ha recibido varias quejas de
que los pedidos especiales tardan más de 42 días. Una muestra de 12 pedidos especiales
entregados en el último mes mostró que el tiempo de espera medio fue de 51 días, con una
desviación estándar de 8 días. En el nivel de significancia 0.05, ¿los clientes esperan un
promedio de más de 42 días? Estime el valor p.
44. Un artículo reciente publicado en The Wall Street Journal reportó que la tasa hipotecaria a
30 días para los bancos pequeños es menor de 6%. Una muestra de ocho bancos pequeños
en el medio oeste de Estados Unidos reveló las siguientes tasas a 30 años (en porcentajes):

Con un nivel de significancia 0.01, ¿podemos llegar a la conclusión de que la tasa hipote-
caria a 30 años para bancos pequeños es menor a 6%? Calcule el valor p.
45. Según la Coffee Research Organization (http://www.coffeeresearch.org) los consumidores
de café estadounidenses típicos toman un promedio de 3.1 tazas al día. Una muestra de
personas de la tercera edad reveló que ayer consumieron las cantidades siguientes, repor-
tadas en tazas de café.

Con un nivel de significancia 0.05, ¿los datos de esta muestra sugieren que hay una diferencia
entre el promedio nacional y la media de la muestra para los adultos de la tercera edad?
46- El área de recuperación del St. Luke's Hospital en Maumee, Ohio, se amplió hace poco. Con
esta ampliación, se esperaba que el número medio de pacientes por día fuera de más de
25. Una muestra aleatoria de 15 días reveló las siguientes cantidades de pacientes.

Con nivel de significancia 0.01, ¿podemos llegar a la conclusión de que el número medio de
pacientes al día es más de 25? Calcule el valor p e interprete su resultado.
47. egolf.com recibe un promedio de 6.5 devoluciones al día por parte de los compradores en
línea. Para una muestra de 12 días, recibieron las siguientes cantidades de devoluciones.

Con un nivel de significancia 0.01, ¿podemos llegar a la conclusión de que el número medio
de devoluciones es menor a 6,5?
48. Durante las temporadas recientes, la Major League Baseball ha sido objeto de críticas por
el tiempo que duran los juegos. Un reporte indica que el juego promedio dura 3 horas 30
minutos. Una muestra de 17 juegos reveló los siguientes tiempos de duración. (Observe que
(os minutos se convirtieron a fracciones de horas, de modo que si un juego duró 2 horas 24
minutos, se reportó en 2.40 horas.)

¿Podemos llegar a la conclusión de que et tiempo medio para un juego es menor a 3.50
horas? Utilice el nivel de significancia 0.05.
Pruebas de hipótesis de una muestra 351
¿Sería razonable llegar a la conclusión de que los adelantos o atrasos medios para los relo-
jes son 0? Utilice el nivel de significancia 0.05. Calcule el valor p.
49. The Watch Corporation de Suiza afirma que el promedio de sus relojes no se adelantan ni
se atrasan durante una semana. Una muestra de 18 relojes presentó los siguientes adelan-
tos (+) o atrasos (-) en segundos por semana.

50. A continuación presentamos los índices de recuperación durante un año (reportados en por-
centajes) para una muestra de 12 fondos mutualistas que se clasifican como fondos grava-
bles del mercado de dinero.

Utilizando el nivel de significancia 0.05, ¿sería razonable llegar a la conclusión de que el


índice de recuperación medio es mayor a 4.50%?
51. Muchos supermercados y grandes detallistas, como Wal-Mart y K-Mart, instalaron sistemas
de autopago a fin de que los clientes puedan registrar sus artículos y pagarlos. ¿A los
clientes les gusta este servicio y con qué frecuencia lo utilizan? A continuación presentamos
el número de clientes que utilizan el servicio para una muestra de 15 días en el Wal-Mart
que se encuentra en la carretera 544 en Surfside, Carolina del Sur.

¿Sería razonable llegar a la conclusión de que el número medio de clientes que utilizan el
sistema de autopago es más de 100 al día? Utilice el nivel de significancia 0.05. 52. En 2003, la
tarifa media para viajar por avión de Charlotte, Carolina del Norte, a Seattle, Washington, con
un boleto de descuento es $267. Una muestra aleatoria de las tarifas de descuento para viajes
redondos en esta ruta el mes pasado nos da:

En el nivel de significancia 0.01 ¿podemos llegar a la conclusión de que la tarifa media ha


aumentado? ¿Cuál es el valor p?
53. La propuesta del presidente de diseñar y construir un sistema de misiles de defensa que
ignore las restricciones del tratado Anti-Ballistic Missile Defense System (ABM) recibe el
apoyo de 483 de los entrevistados para una encuesta entre 1 002 adultos en todo el país.
¿Sería razonable llegar a la conclusión de que el país se encuentra dividido de manera uni
forme en cuanto a este asunto? Utilice el nivel de significancia 0.05.
54. Uno de los principales fabricantes automotrices estadounidenses quiere ampliar su garan
tía. Ésta cubre el motor, la transmisión y la suspensión de todos los autos nuevos hasta por
dos años o 24 000 millas, lo que suceda primero. El departamento de aseguramiento de la
calidad del fabricante cree que el número medio de millas que recorren los dueños de los
autos es más de 24 000. Un muestra de 35 autos reveló que el número medio de millas era
24 421, con una desviación estándar de 1 944 millas.
a. Realice la siguiente prueba de hipótesis. Utilice el nivel de significancia 0.05.

b. ¿Cuál es el valor más alto para la media de la muestra para la que H0 no se rechace?
c. Suponga que la media de la población cambia a 25 000 millas. ¿Cuál es la probabilidad
de que este cambio no se detecte?
55. Una máquina expendedora de refresco de cola está programada para servir 9.00 onzas de
refresco por vaso, con una desviación estándar de 1.00 onza. El fabricante de la máquina
quiere establecer el límite de control de manera que para la muestra de 36, 5% de las
medias de la muestra sean mayores que el límite de control superior y 5% de las medias de
la muestra sean menores al límite de control inferior.
a. ¿En qué valor se debe programar el límite de control?
b. ¿Cuál es la probabilidad de que si la media de la población cambia a 8.9, este cambio
no se detecte?
352 Capítulo 10

c. ¿.Cuál es la probabilidad de que si la media de la población cambia a 9.3, este cambio


no se detecte?
56. Los dueños del centro comercial Franklin Park querían estudiar los hábitos de compra de
sus clientes. Por estudios anteriores, los dueños tienen la impresión de que un comprador
típico invierte 0.75 horas en el centro comercial, con una desviación estándar de 0.10 horas.
Hace poco, los propietarios del centro comercial agregaron algunos restaurantes de espe-
cialidades diseñados para que los clientes pasen más tiempo en el centro comercial. Si con-
trató a la empresa consultora Brunner and Swanson Marketing Enterprises para que evalúe
tos efectos de tos restaurantes. Una muestra de 45 clientes reveló que el tiempo medio
invertido en el centro comercia) aumentó a 0.80 horas.
a. Desarrolle una prueba de hipótesis para determinar si el tiempo medio invertido en el
centro comercial es más de 0.75 horas. Utilice el nivel de significancia 0.05.
b. Suponga que el tiempo de compras medio en realidad aumentó de 0.75 a 0.77 horas.
¿Cuál es la probabilidad de que este incremento no se detecte?
c. Cuando Brunner and Swanson reportó a los dueños la información que se presenta en
la parte (b), éstos se enojaron por la afirmación de que una encuesta no pudo detectar
un cambio de 0.75 a 0.77 horas de tiempo de compra. ¿Cómo se podría reducir esta
probabilidad?
57. Se dan las siguientes hipótesis ñuta y alternativa.

Suponga que la desviación estándar de la población es 10. La probabilidad de un error Tipo


I se establece en 0.01 y la probabilidad de un error Tipo II en 0.30. Suponga que la media
de la población cambia de 50 a 55. ¿Qué tan grande debe ser una muestra para cumplir con
estos requisitos?
58. Con base en sus experiencias anteriores, una compañía de seguros calcula que el daño
medio para un desastre natural en su área es $5 000. Después de presentar varios planos
para evitar pérdidas, toman una muestra aleatoria de 200 asegurados y encuentran que la
cantidad media por reclamación es $4 800 con una desviación estándar de $1 300. ¿Al pare-
cer los planes de prevención fueron efectivos al reducir la cantidad media de una recla-
mación? Utilice el nivel de significancia 0.05.
59. Una revista de abarrotes de circulación nacional reporta que el consumidor típico pasa 8
minutos en la fila de espera para la caja registradora. Una muestra de 24 clientes en una
sucursal de Farmer Jack's reveló una media de 7.5 minutos con una desviación estándar de
3.2 minutos. ¿El tiempo de espera en esta tienda es menor al reportado en la revista? Utilice
el nivel de significancia 0.05.

exercises.com
60. Los sitios web de USA Today (http://www.usatoday.com/sports/baseball/front.html) y
Major League Baseball (http://www.majorleaguebaseball.com) proporcionan información
sobre los salarios de cada jugador. Visite uno de estos sitios y encuentre los salarios Indi-
viduales de su equipo favorito. Calcule la media y la desviación estándar. ¿Seria razonable
llegar a la conclusión de que el salario medio de su equipo favorito es diferente de $1.80 mi-
llones? Si prefiere el fútbol, el basquetbol o el hockey, también encontrará esa información
sobre los salarios de esos equipos.
61. La Organización Gallup en Princeton, Nueva Jersey, es una de las organizaciones de encues-
tas más conocidas en Estados Unidos. A menudo, se asocia con USA Today o CNN para
realizar encuestas de interés actual. También tiene un sitio web en: http://wvw.faliyp.com/.
Consulte este sitio para encontrar los resultados de la encuesta más reciente sobre las cali-
ficaciones de aprobación para el presidente. Tal vez sea necesario hacer clic en Fast Faets.
Pruebe si la mayoría (más de 50%) aprobó el desempeño del presidente. Si el artículo no
reporta el número de entrevistados incluidos en la encuesta, suponga que es de 1 000, cifra
que se emplea con frecuencia.

Ejercicios de la base de datos


62. Consulte los datos Real Estate, que proporcionan información sobre las casas vendidas m
Denver, Colorado, el año pasado.
Pruebas de hipótesis de una muestra 353

a. Un artículo reciente en el Denver Post indicó que el precio de venta medio de las casas
en el área es más de $220 000. ¿Podemos llegar a la conclusión de que el precio de
venta medio en el área de Denver es más de $220 000? Utilice el nivel de significancia
0.01. ¿Cuál es el valor p?
b. El mismo artículo reportó que el tamaño medio es de más de 2 100 píes cuadrados.
¿Podemos llegar a la conclusión de que el tamaño medio de las casas vendidas en el
área de Denver es más de 2 100 pies cuadrados? Use el nivel de significancia 0.01,
¿Cuál es el valor p?
c. Determine la proporción de casas que tienen cochera. Con un nivel de significancia 0.05
¿podemos llegar a la conclusión de que más de 60% de las casas vendidas en el área
de Denver tienen cochera? ¿Cuál es el valor p?
d. Determine la proporción de casas que tienen alberca. Con un nivel de significancia 0.05,
¿podemos llegar a la conclusión de que menos de 40% de las casas vendida® en ©I
área de Denver tienen alberca? ¿Cuál es el valor p?
63. Consulte los datos Baseball 2002, que proporcionan información sobre los 30 equipos de las
Ligas Mayores de Béisbol para la temporada 2002.
a. Realice una prueba de hipótesis para determinar si el salario medio de los equipos fue
diferente de $80.0 millones. Use el nivel de significancia 0,05.
b. Realice una prueba de hipótesis para determinar si la asistencia media fue mayor de
2 000 000 por equipo.
64. Consulte los datos Wage, que proporcionan información sobre los sueldos anuales para una
muestra de 100 trabajadores. También se incluyen las variables relacionadas con la indus-
tria, los años de educación y el género de cada trabajador.
a. Realice una prueba de hipótesis para determinar si el sueldo medio anual es mayor de
$30 000. Use el nivel de significancia 0.05. Determine el valor p e interprete el resultado.
b. Realice una prueba de hipótesis para determinar si los años de experiencia medios son
diferentes de 20. Utilice el nivel de significancia 0.05. Calcule el valor p e interprete el
resultado.
c. Realice una prueba de hipótesis para determinar si la proporción de trabajadores sindí-
calizados es mayor a 15%. Utilice el nivel de significancia 0.05 y reporte el valor p.
65. Consulte los datos CÍA, que proporcionan información demográfica y económica sobre 48
países diferentes.
a. Realice una prueba de hipótesis para determinar si el número medio de teléfonos celu-
lares es mayor de 4.0. Use el nivel de significancia 0.05. ¿Cuál es el valor p?
b. Realice una prueba de hipótesis para determinar si el tamaño medio de la fuerza labo-
ral es menor de 50. Use el nivel de significancia 0.05. ¿Cuál es el valor p?

Comandos de software
1. Los comandos de MINITAB para el histograma y la
estadística descriptiva de la página 337 son:
a. Escriba las 26 observaciones de la muestra en la
columna C1 y ponga el nombre de Cost a la varia-
ble.
b. En la barra de menú, seleccione Stat, Basic
Statistics y Graphical Summary. En el cuadro de
diálogo, seleccione Cost como la variable y haga
clic en OK.

2. Los comandos de MINITAB para la prueba r de una


muestra de la página 341 son:
a. Escriba los datos de la muestra en la columna C1 y
llame Length a la variable.
b. En la barra de menú, seleccione Stat, Basic
Statistics y 1-Sample t y presione Enter
c. Seleccione Length como la variable, elija Test
mean, inserte el número 43 y haga clic en OK.
354 Capítulo 10

Capítulo 10 Respuestas a las autoevaluaciones


Pruebas de hipótesis
para las muestras
de dos poblaciones
independientes

Se recopiló información sobre las tasas de recuperación anuales de cinco tipos de acciones
incluidos en la Bolsa de Valores de Nueva York y cinco que se incluyen en NASDAQ. En el
nivel de significancia 0.10, ¿podemos llegar a la conclusión de que las tasas de recuperación
anuales son mayores en el gran tablero? (Vea la Meta 1 y el Ejercicio 46.)
356 Capítulo 11

El Capítulo 10 empezó nuestro estudio de las pruebas de hipótesis. Describimos la natura-


leza de estas pruebas y realizamos algunas en las que comparamos los resultados de una
sola muestra con un valor de la población. Es decir, seleccionamos una sola muestra alea-
toria de una población y realizamos una prueba para saber si el valor poblacional propuesto
era razonable. Recuerde que en el Capítulo 10 seleccionamos una muestra del número de
escritorios armados por semana en Jamestown Steel Company para determinar si había
algún cambio en la tasa de producción. De modo similar, tomamos una muestra de los
votantes en un área de un estado en particular para determinar si la proporción de la pobla-
ción que apoyaría al gobernador en su reelección era menor a 0.80. En ambos casos, com-
paramos los resultados de una sola muestra con un parámetro de la población.
En este capítulo ampliamos a dos muestras la idea de las pruebas de hipótesis. Es de-
cir, seleccionamos muestras aleatorias de dos poblaciones para determinar si las medias
poblacionales son iguales. Algunas de las dudas que podríamos probar son:

1. ¿Hay alguna diferencia en el valor medio de los bienes raíces residenciales vendidos
por los agentes hombres y las agentes mujeres en el sur de Florida?
2. ¿Hay alguna diferencia en el número medio de defectos producidos durante los turnos
de día y de noche en Kimble Products?
3. Hay alguna diferencia en el número medio de días ausentes entre los trabajadores jó-
venes (menos de 21 años de edad) y los trabajadores mayores (más de 60 años) en la
industria de comida rápida?
4. ¿Hay alguna diferencia en la pro-
porción de graduados de la Ohio
State University y de la University
of Cincinnati que aprobaron el
Certified Public Accounting Exa-
mination en el primer intento?
5. ¿Hay un incremento en la tasa
de producción al escuchar músi-
ca en el área de producción?

Empezamos este capítulo con el ca-


so en el que seleccionamos muestras
aleatorias de dos poblaciones y que-
remos investigar si estas poblaciones
tienen la misma media.

Pruebas de hipótesis de las muestras:


dos poblaciones independientes
Un especialista en planeación urbana de Florida quiere saber si hay alguna diferencia en el
salario medio por hora de los plomeros y los electricistas en el centro del estado. Un con-
tador financiero quiere saber si la tasa de recuperación media para los fondos mutualistas
de alto rendimiento es diferente de la tasa de recuperación media sobre los fondos mutua-
listas globales. En cada uno de estos casos hay dos poblaciones independientes. En el pri-
mero, los plomeros representan una población y los electricistas la otra. En el segundo, los
fondos mutualistas de alto rendimiento constituyen una población y los fondos mutualistas
globales la otra.
En cada uno de los casos, para investigar la duda, seleccionamos una muestra aleato-
ria de cada población y calculamos la media de las dos muestras. Si las dos medias pobla-
cionales son iguales, es decir, el salario medio por hora es igual para plomeros y
electricistas, podríamos esperar que la diferencia entre las medias de ambas muestras fue-
ra cero. Pero ¿qué sucede si los resultados del muestreo producen una diferencia que no
Pruebas de hipótesis para las muestras de dos poblaciones independientes 357

es cero? ¿Esa diferencia se debe a la casualidad o a que existe una verdadera diferencia
en los salarios por hora? Una prueba de las medias de dos muestras nos ayudará a res-
ponder la pregunta.
Es necesario que volvamos a los resultados obtenidos en el Capítulo 8. Recuerde que
demostramos que la distribución de las medias de la muestra suelen aproximarse a la distri-
bución normal cuando el tamaño de la muestra es de por lo menos 30. Una vez más, nece-
sitamos suponer que la distribución de las medias de las muestras seguirá una distribución
normal. Es posible demostrar matemáticamente que la distribución de la diferencia entre las
medias de las muestras para dos distribuciones normales también es normal.
Podemos ilustrar esta teoría en términos del especialista en planeación de ciudades de
Tampa, Florida. Para empezar, supongamos cierta información que no siempre está dispo-
nible. Supongamos que la población de plomeros tiene una media de $30.00 por hora y una
desviación estándar de $5.00 por hora. La población de electricistas tiene una media de
$29.00 y una desviación estándar de $4.50. Ahora, a partir de esta información, es eviden-
te que las dos medias poblacionales no son iguales. En realidad, los plomeros ganan $1.00
más por hora que los electricistas. Pero no podemos esperar esta diferencia cada vez que
tomemos una muestra de dos poblaciones.
Supongamos que seleccionamos una muestra aleatoria de 40 plomeros y una muestra
aleatoria de 35 electricistas y calculamos la media de cada una. Luego, determinamos la di-
ferencia entre las medias de las muestras, es esta diferencia la que llama nuestra atención.
Si las poblaciones tienen la misma media, podríamos esperar que la diferencia entre las
medias de las dos muestras fuera cero. Si existe alguna diferencia entre las medias pobla-
cionales, podríamos esperar encontrar una diferencia entre las medias muéstrales.
Para entender la teoría, necesitamos tomar varios pares de muestras, calcular la me-
dia de cada una, determinar la diferencia entre las medias muéstrales y estudiar la distribu-
ción de las diferencias en las medias de las muestras. Debido a nuestro estudio de la
distribución de las medias muéstrales en el Capítulo 8, sabemos que la distribución de las
medias de las muestras sigue la distribución normal (supongamos que n = 30, por lo menos).
Si las dos distribuciones de las medias muéstrales siguen la distribución normal, podemos
pensar que la distribución de sus diferencias siempre va a seguir también la distribución
normal. Ésta es la primera dificultad.
La segunda se refiere a la media de esta distribución de las diferencias. Si encontra-
mos que la media de esta distribución es cero, esto implica que no hay ninguna diferencia
en las dos poblaciones. Por otra parte, si la media de la distribución de las diferencias es
igual a algún valor que no sea cero, ya sea positivo o negativo, llegamos a la conclusión de
que las dos poblaciones no tienen la misma media.
Para reportar resultados concretos, volvamos al especialista en planeación urbana de
Tampa, Florida. La Tabla 11-1 ilustra el resultado de seleccionar 20 muestras diferentes de
40 plomeros y 35 electricistas, calcular la media de cada una y encontrar la diferencia en-
tre las dos medias muéstrales. En el primer caso, la muestra de 40 plomeros tiene una me-
dia de $29.80, y para los 35 electricistas la media es $28.76. La diferencia entre las medias
de las muestras es $1.04. Este proceso se repitió 19 veces más. Observe que en 17 de los
20 casos la media de los plomeros es mayor que la media de los electricistas.
Nuestra última dificultad es que necesitamos saber algo acerca de la variabilidad de la
distribución de las diferencias. En otras palabras, ¿cuál es la desviación estándar de esta dis-
tribución de las diferencias? La teoría estadística demuestra que cuando tenemos poblacio-
nes independientes, como en este caso, la distribución de las diferencias tiene una varianza
(desviación estándar al cuadrado) igual a la suma de las dos varianzas individuales. Esto
quiere decir que podemos sumar las varianzas de las dos distribuciones muestrales.
358 Capítulo 11

TABLA 11-1 Las medias de las muestras aleatorias de plomeros y electricistas

Podemos expresar esta ecuación en forma más práctica tomando la raíz cuadrada, a
fin de tener la desviación estándar de la distribución de las diferencias. Por último, estanda-
rizamos la distribución de las diferencias. El resultado es la ecuación siguiente.

Antes de presentar un ejemplo, vamos a repasar las suposiciones necesarias para uti-
lizar la fórmula (11-2).

Suposiciones para una prueba 1. Las dos muestras no deben estar relacionadas, es decir, deben ser independientes.
con muestra grande. 2. Las muestras deben ser suficientemente grandes para que la distribución de las me-
dias muéstrales siga la distribución normal. La práctica común consiste en pedir que
ambas muestras tengan por lo menos 30 observaciones.

Los clientes de Foodtown Super Markets tienen una opción al pagar sus compras. Pueden
registrarlas y pagar utilizando una caja normal operada por un cajero, o emplear el nuevo
procedimiento U-Scan. En el procedimiento estándar, un empleado de FoodTown registra
cada artículo, lo coloca en una banda de donde otro empleado lo toma y lo guarda en una
bolsa y luego en el carrito. En el procedimiento U-Scan, el cliente registra cada artículo, lo
embolsa y coloca las bolsas en el carrito. Este procedimiento está diseñado para reducir el
tiempo que un cliente pasa en la fila de la caja.
El procedimiento U-Scan se instaló hace poco en la sucursal de FoodTown que está en
Byrne Road. La gerente de la tienda quiere saber si el tiempo de pago medio utilizando el
método tradicional es más largo que con U-Scan, de modo que recopiló la siguiente infor-
mación sobre la muestra. El tiempo se mide a partir del momento en que el cliente llega a
Pruebas de hipótesis para las muestras de dos poblaciones independientes 359

la fila hasta que sus bolsas están en el carrito. Por tanto, incluye tanto la espera en la fila
como el registro y pago de los artículos. ¿Cuál es el valor p?

Utilizamos el procedimiento de prueba de hipótesis en cinco pasos para investigar lo anterior.

Paso 1: Formule la hipótesis nula y la hipótesis alternativa. La hipótesis nula es que


no hay diferencia entre los tiempos de pago medios para ambos grupos. En
otras palabras, la diferencia de 0.20 minutos entre el tiempo de pago medio pa-
ra el método tradicional y el tiempo de pago medio para U-Scan se debe a la
casualidad. La hipótesis alternativa es que el tiempo de pago medio es más lar-
go para quienes utilizan el método tradicional. Supongamos que se refiere
al tiempo de pago medio para la población de clientes que usan el método es-
tandar ai tiempo de pago medio para los clientes que utilizan U-Scan. Las
hipótesis nula y alternativa son:

Paso 2: Seleccionar el nivel de significancia. Éste es la probabilidad de rechazar la


hipótesis nula cuando es verdadera. Esta posibilidad se determina antes de se-
leccionar la muestra o de realizar cualquier cálculo. Los niveles de significancia
0.05 y 0.01 son los más comunes, pero también se utilizan otros valores como
0.02 y 0.10. En teoría, podríamos seleccionar cualquier valor entre 0 y 1 para el
nivel de significancia. En este caso, elegimos el nivel de significancia 0.01.
Paso 3: Determinar el estadístico de prueba. En el Capítulo 10, usamos la distribución
normal estándar (es decir z) y t como estadísticos de prueba. En este caso, co-
mo las muestras son grandes, utilizamos la distribución z como el estadístico de
prueba.
Paso 4: Formular una regla de decisión. La regla de decisión se basa en las hipóte-
sis nula y alternativa (es decir, prueba de una o dos colas), el nivel de signifi-
cancia y la estadística de prueba utilizadas. Seleccionamos el nivel de
significancia 0.01, la distribución z como el estadístico de prueba y queremos
determinar si el tiempo de pago medio es mayor utilizando el método tradicio-
nal. Formulamos la hipótesis alternativa para indicar que el tiempo de pago
medio es mayor para quienes usan el método tradicional que para los que em-
plean el método U-Scan. Por tanto, la región de rechazo se encuentra en la
cola superior de la distribución normal estándar. Esto significa que 0.4900
(0.5000 - 0.0100) del área se localiza entre el valor z de 0 y el valor crítico.
Después, buscamos en el cuerpo de la tabla del Apéndice D un valor cerca-
no a 0.4900. Éste es 2.33, de modo que nuestra regla de decisión es recha-
zar Ho si el valor calculado a partir del estadístico de prueba es superior a
2.33. La Gráfica 11-1 ilustra la regla de decisión.
Paso 5: Tomar la decisión acerca de Ho e interpretar el resultado. Utilizamos la fór-
mula (11-2) para calcular el valor del estadístico de prueba.

El valor calculado es 3.13, que es mayor que el valor crítico de 2.33. Nuestra de-
cisión es rechazar la hipótesis nula y aceptar la hipótesis alternativa. La diferen-
cia de 0.20 minutos entre el tiempo medio de pago usando el método tradicional
es demasiado grande para que ocurra por casualidad. En otras palabras, llega-
mos a la conclusión de que el método U-Scan es más rápido.
360 Capítulo 11

GRÁFICA 11-1 Regla de decisión para una prueba de una cola en el nivel de significancia 0.01

¿Cuál es el valor p para el estadístico de prueba? Recuerde que el valor


p es la probabilidad de encontrar un valor para el estadístico de prueba cuan-
do la hipótesis nula es verdadera. Para calcular el valor p necesitamos la pro-
babilidad de un valor z mayor a 3.13. En el Apéndice D no encontramos la
probabilidad asociada con 3.13. El valor más alto disponible es 3.09. El área
correspondiente a 3.09 es 0.4990. En este caso, podemos reportar que el va-
lor p es menor de 0.0010, calculado mediante 0.5000 - 0.4990. Llegamos a la
conclusión de que hay muy pocas probabilidades de que la hipótesis nula sea
verdadera.

En resumen, los criterios para utilizar la prueba de las medias de una muestra grande son:

1. Las muestras son de poblaciones independientes. Esto significa, por ejemplo, que el
tiempo de pago de la muestra para los clientes que usan U-Scan no está relacionado
con el tiempo de pago para los demás clientes. Si el señor Smith es cliente de Food-
Town y su tiempo de respuesta se incluye en la muestra, esto no afecta el tiempo de
pago para los otros clientes.
2. Los tamaños de ambas muestras son de 30 por lo menos. En el ejemplo de FoodTown,
una muestra era de 50 y la otra de 100. Como ambas muestras se consideran grandes,
podemos sustituir las desviaciones estándar muéstrales por las desviaciones estándar po-
blacionales y utilizar la fórmula (11-2) para encontrar el valor del estadístico de prueba.

Autoevaluación 11-1 Tom Sevits es propietario de Appliance Patch. Hace poco, Tom observó una diferencia en el
valor de las ventas en dólares entre los hombres y las mujeres que trabajan con él como aso-
ciados de ventas. Una muestra de 40 días reveló que los hombres vendieron una media de
$1 400 en aparatos al día con una desviación estándar de $200. Para una muestra de 50 días,
las mujeres vendieron una media de $1 500 en aparatos al día con una desviación estándar
de $250. Con un nivel de significancia 0.05, ¿el señor Sevits puede llegar a la conclusión de
que la cantidad media vendida al día es más grande para las mujeres?
(a) Formule las hipótesis nula y alternativa.
(b) ¿Cuál es la regla de decisión?
(c) ¿Cuál es el valor del estadístico de prueba?
(d) ¿Cuál es su decisión acerca de la hipótesis nula?
(e) ¿Cuál es el valor p?
(f) Interprete el resultado.

Ejercicios
1. Se selecciona una muestra de 40 observaciones de una población. La media de la muestra
es 102 y la desviación estándar es 5; y se selecciona una muestra de 50 observaciones de
una segunda población. La media de esta muestra es 99 y su desviación estándar es 6.
Realice la siguiente prueba de hipótesis utilizando el nivel de significancia 0.04.
Pruebas de hipótesis para las muestras de dos poblaciones independientes 361

a. ¿Se trata de una prueba de una cola o de dos colas?


b. Establezca la regla de decisión.
c. Calcule el valor del estadístico de prueba.
d. ¿Cuál es su decisión acerca de H0?
e. ¿Cuál es el valor p?
2. De una población se selecciona una muestra de 65 observaciones. La media de la muestra
es 2.67 y su desviación estándar es 0.75; y de una segunda población se selecciona una
muestra de 50 observaciones, con una media de 2.59 y una desviación estándar de 0.66.
Realice la siguiente prueba de hipótesis con un nivel de significancia 0.08.

a. ¿Se trata de una prueba de una cola o de dos colas?


b. Establezca la regla de decisión.
c. Calcule el valor del estadístico de prueba.
d. ¿Cuál es su decisión acerca de H0?
e. ¿Cuál es el valor p?
Nota: Utilice el procedimiento de prueba de hipótesis en cinco pasos para resolver los siguien-
tes ejercicios.

3. The Gibbs Baby Food Company quiere comparar el aumento de peso en los niños que con
sumen su marca en comparación con aquellos que consumen la marca de sus competidores.
Una muestra de 40 bebés que consumen productos Gibbs reveló un aumento de peso medio
de 7.6 libras en los primeros tres meses después de nacidos. La desviación estándar de la
muestra fue 2.3 libras. Una muestra de 55 bebés que utilizan marcas de la competencia reve-
ló un aumento de peso medio de 8.1 libras, con una desviación estándar de 2.9 libras. Con un
nivel de significancia 0.05, ¿podemos llegar a la conclusión de que los bebés que consumen
la marca Gibbs subieron menos de peso? Calcule el valor p e interprete el resultado.
4. Como parte de un estudio de empleados corporativos, el director de Recursos humanos de
PNC, Inc. quiere comparar la distancia que recorren para llegar a trabajar los empleados de
la oficina que está en el centro de Cincinnati con la distancia recorrida por los que trabajan
en el centro de Pittsburgh. Una muestra de 35 empleados de Cincinnati reveló que recorren
una distancia media de 370 millas al mes, con una desviación estándar de 30 millas al mes.
Una muestra de 40 empleados de Pittsburgh reveló que recorren una media de 380 millas
al mes, con una desviación estándar de 26 millas al mes. Con un nivel de significancia 0.05,
¿hay alguna diferencia en el número medio de millas recorridas al mes entre los empleados
de Cincinnati y Pittsburgh? Utilice el procedimiento de prueba de hipótesis en cinco pasos.
5. Un analista financiero quiere comparar las tasas de recuperación de acciones relacionadas
con el petróleo con otro tipo de acciones, como las de GE e IBM. El analista seleccionó 32
acciones relacionadas con el petróleo y 49 de otro tipo. La tasa de recuperación media de
las acciones relacionadas con el petróleo es 31.4% y la desviación estándar 5.1%. Para
otras acciones, la tasa media se calculó en 34.9% y la desviación estándar de 6.7%. ¿Exis-
te alguna diferencia significativa en las tasas de recuperación de ambos tipos de acciones?
Utilice el nivel de significancia 0.01.
6. Mary Jo Fitzpatrick es vicepresidente de Servicios de Enfermería de St. Luke's Memorial
Hospital. Hace poco, se dio cuenta de que las ofertas de empleo para enfermeras sindicali-
zadas parecen ofrecer sueldos más altos. Decidió investigar y recopiló la siguiente informa
ción de la muestra.

¿Sería razonable llegar a la conclusión de que las enfermeras sindicalizadas ganan más?
Utilice el nivel de significancia 0.03. ¿Cuál es el valor p?
362 Capítulo 11

Prueba de hipótesis para la diferencia


entre las proporciones muestrales
de dos poblaciones independientes
En la sección anterior, consideramos una prueba que comprende medias poblacionales. Sin
embargo, a menudo nos interesa saber si dos proporciones de muestras que provienen de
dos poblaciones son iguales. Éstos son algunos ejemplos.
• El vicepresidente de Recursos Humanos quiere saber si hay alguna diferencia en la
proporción de empleados por hora que pierden más de 5 días de trabajo al año en las
plantas de Atlanta y Houston.
• General Motors considera un nuevo diseño para el Pontiac Grand Am. El diseño se en-
seña a un grupo de compradores potenciales menores de 30 años de edad y a otro gru-
po de más de 60 años. Pontiac quiere saber si hay alguna diferencia en la proporción
de personas a las que les gusta el nuevo diseño en ambos grupos.
• Un asesor de la industria de líneas aéreas investiga el temor a viajar en avión entre los
adultos. De manera específica, quiere saber si hay alguna diferencia en la proporción
de hombres contra mujeres que temen viajar en avión.
En los casos anteriores, cada elemento o individuo en la muestra se puede clasificar como un
"éxito" o un "fracaso". Es decir, en el ejemplo del Pontiac Grand Am, cada comprador poten-
cial se clasifica como "le gusta el nuevo diseño" o "no le gusta el nuevo diseño". Luego, com-
paramos la proporción en el grupo de menos de 30 años con la proporción en el grupo de más
de 60 años que indica que le gusta el nuevo diseño. ¿Podemos llegar a la conclusión de que
las diferencias se deben a la causalidad? En este estudio, no se obtiene ninguna medida, só-
lo se clasifican los individuos u objetos. Luego, utilizamos la escala nominal de medición.
Para realizar la prueba, suponemos que cada muestra es suficientemente grande para
que la distribución normal sirva como una aproximación adecuada de la distribución bino-
mial. La estadística de prueba sigue la distribución normal estándar. El valor de z se calcu-
la a partir de la fórmula siguiente:

La fórmula 11-3 es la 11-2 con las proporciones de muestra respectivas reemplazando las
medias muéstrales reemplazando las desviación estándar de ambas muestras.
Además:
es el número de observaciones en la primera muestra, es el número de
observaciones en la segunda muestra, es la proporción en la primera muestra
al procesar la característica, es la proporción en la segunda muestra al
procesar la característica, es la proporción agrupada al procesar la
característica en las muestras combinadas. Se conoce como estimado
agrupado de la proporción poblacional y se calcula a partir de la fórmula
siguiente.

donde:
es el número al procesar la característica en la primera muestra,
es el número al procesar la característica en la segunda muestra.
El ejemplo siguiente ilustra la prueba de dos proporciones muéstrales.
Pruebas de hipótesis para las muestras de dos poblaciones independientes 363

Hace poco, The Manelli Perfume Company desarrolló una nue-


va fragancia que planea comercializar con el nombre de "Hea-
venly". Varios estudios de mercado indican que Heavenly tiene
muy buen potencial de mercado. El departamento de ventas de
Manelli está muy interesado en saber si hay alguna diferencia
en las proporciones de mujeres jóvenes y mayores que com-
prarían el perfume. Hay dos poblaciones independientes, una
que consiste en mujeres jóvenes y otra en mujeres mayores. A
cada mujer en la muestra se le va a pedir que huela el perfu-
me y que indique si le gusta la fragancia lo suficiente para com-
prar un frasco.

Vamos a usar el procedimiento de prueba de hipótesis en cinco pasos.

Formule H0 y H1. En este caso, la hipótesis nula es: "No hay diferencia en la
proporción de mujeres jóvenes y mayores que prefieren Heavenly." Designa-
mos como la proporción de mujeres jóvenes que comprarían Heavenly y
como la proporción de mujeres mayores que lo comprarían. La hipótesis alter-
nativa es que las dos proporciones no son iguales.

Seleccionar el nivel de significancia. En este ejemplo, elegimos el nivel de


significancia 0.05.
Determinar el estadístico de prueba. Si cada muestra es suficientemente
grande, el estadístico de prueba sigue la distribución normal estándar. El va-
lor del estadístico de prueba se puede calcular a partir de la fórmula (11-3).
Formular la regla de decisión. Recuerde que la hipótesis alternativa del pa-
so 1 no establece una dirección, de modo que es una prueba de dos colas.
Para determinar el valor crítico, dividimos el nivel de significancia a la mitad y
colocamos esta cantidad en cada una de las colas de la distribución z. Luego,
restamos esta cantidad del área total a la derecha de cero. Es decir, 0.5000
- 0.0250 = 0.4750. Por último, buscamos en el cuerpo de la tabla z (Apéndi-
ce D) el valor más cercano, que es 1.96. Los valores críticos son -1.96 y
+1.96. Como antes, si el valor z calculado se encuentra en la región entre +1.96
y -1.96, la hipótesis nula se acepta. Si esto ocurre, se supone que cualquier
diferencia entre las proporciones de ambas muestras se debe a la variación
casual. Esta información se resume en la Gráfica 11-2. Seleccionar una
muestra y tomar una decisión. Una muestra aleatoria de 100 mujeres
jóvenes reveló que a 20 les gustó la fragancia Heavenly lo suficiente para
comprarla. De modo similar, una muestra de 200 mujeres mayores reveló que
a 100 les gustó la fragancia lo suficiente para adquirirla. Supongamos que p1
se refiere a las mujeres jóvenes y p2 a las mayores.

GRÁFICA 11-2 Reglas de decisión para la prueba de la fragancia Heavenly, nivel de significancia 0.05
364 Capítulo 11

La pregunta de investigación es si la diferencia de 0.30 en las proporciones de


las dos muestras se debe a la casualidad o si hay alguna diferencia en la propor-
ción de mujeres jóvenes y mayores a las que les gusta la fragancia Heavenly.
Luego, combinamos o agrupamos las proporciones de las muestras. Utili-
zamos la fórmula (11-4).

Observe que la proporción conjunta se aproxima más a 0.50 que a 0.20, por-
que en las muestras se incluyeron más mujeres mayores que jóvenes.
Utilizamos la fórmula (11-3) para encontrar el valor del estadístico de
prueba.

El valor calculado de -5.00 se encuentra en el área de rechazo; es decir, está a la izquier-


da de -1.96. Por tanto, la hipótesis nula se rechaza en el nivel de significancia 0.05. En
otras palabras, rechazamos la hipótesis nula de que la proporción de mujeres jóvenes que
comprarían el perfume es igual a la proporción de mujeres mayores que lo compraría. Es
poco probable que la diferencia entre las proporciones de ambas muestras se deba a la ca-
sualidad. Para encontrar el valor p, vamos al Apéndice D y buscamos la probabilidad de en-
contrar un valor z menor a -5.00 o mayor a 5.00. El valor más alto de z reportado es 3.09,
con una probabilidad correspondiente de 0.4990. De modo que la probabilidad de encon-
trar un valor de z mayor que 5.00 o menor que -5.00 es prácticamente cero. De modo que
reportamos cero como el valor p. Hay muy pocas probabilidades de que la hipótesis nula
sea verdadera. Llegamos a la conclusión de que existe una diferencia en la proporción de
mujeres jóvenes y de mujeres mayores que comprarían la fragancia Heavenly.

Autoevaluación 11-2 De 150 adultos que probaron un nuevo pastel sabor durazno, 87 lo calificaron como excelente.
De 200 niños en una muestra, 123 lo calificaron como excelente. Utilizando el nivel de signifi-
cancia 0.01, ¿podemos llegar a la conclusión de que hay una diferencia significativa en la pro-
porción de adultos y la proporción de niños que calificaron el nuevo sabor como excelente?
(a) Formule las hipótesis nula y alternativa.
(b) ¿Cuál es la probabilidad de un error Tipo I?
(c) ¿Se trata de una prueba de una o dos colas?
(d) ¿Cuál es la regla de decisión?
(e) ¿Cuál es el valor del estadístico de prueba?
(f) ¿Cuál es su decisión acerca de la hipótesis nula?
(g) ¿Cuál es el valor p? Explique lo que significa en términos de este problema.

Ejercicios
Las hipótesis nula y alternativa son:

Una muestra de 100 observaciones de la primera población indicó que Una mues-
tra de 150 observaciones de la segunda población reveló que 90. Utilice el nivel de
significancia 0.05 para probar las hipótesis.
a. Establezca la regla de decisión.
b. Calcule la proporción conjunta.
Pruebas de hipótesis para las muestras de dos poblaciones independientes 365
Una muestra de 200 observaciones de la primera población indicó que X, es 170. Una mues-

c. Calcule el valor del estadístico de prueba.


d. ¿Cuál es su decisión acerca de la hipótesis nula?
8. Las hipótesis nula y alternativa son:

tra de 150 observaciones de la segunda población reveló que X2 es 110. Utilice el nivel de
significancia 0.05 para probar las hipótesis.
a. Establezca la regla de decisión.
b. Calcule la proporción agrupada.
c. Calcule el valor del estadístico de prueba.
d. ¿Cuál es su decisión acerca de la hipótesis nula?
Nota: Para resolver los ejercicios siguientes use el procedimiento de prueba de hipótesis en cin-
co pasos.
9. La familia Damon es dueña de un gran viñedo al oeste del estado de Nueva York a orillas del
lago Erie. Los viñedos se deben fumigar a principios de la temporada de cultivo para proteger-
los contra diversos insectos y enfermedades. Acaban de salir al mercado dos nuevos insecti-
cidas: Pernod 5 y Action. Para probar su efectividad, se seleccionaron tres hileras de cultivo y
se fumigaron con Pernod 5, y otras tres se fumigaron con Action. Cuando las uvas maduraron,
400 de las viñas tratadas con Pernod 5 se revisaron para saber si no estaban infectadas. De
modo similar, se revisó una muestra de 400 viñas fumigadas con Action. Los resultados son:

Con un nivel de significancia 0.02, ¿podemos llegar a la conclusión de que existe una diferencia
en la proporción de viñas infectadas fumigadas con Pernod 5 en comparación con las fumigadas
con Action?
10. The Roper Organizaron realizó encuestas idénticas en 1990 y 2000. Una pregunta hecha a
las mujeres fue: "¿La mayoría de los hombres son amables, gentiles y considerados?" La
encuesta realizada en 1990 reveló que, de las 3 000 mujeres entrevistadas, 2 010 dijeron
que sí. En 2000, 1 530 de las 3 000 mujeres entrevistadas creían que los hombres eran
amables, gentiles y considerados. Con un nivel 0.05, ¿podemos llegar a la conclusión de
que en 2000 menos mujeres creen que los hombres son amables, gentiles y considerados
en comparación con lo que pensaban en 1990?
11. A una muestra nacional de republicanos y demócratas con influencia se le preguntó, como
parte de una encuesta muy extensa, si estaban a favor de hacer más flexibles las normas
del ambiente a fin de permitir quemar carbón con alto contenido de azufre en las plantas que
funcionan a base de carbón. Los resultados fueron:

Con un nivel de significancia 0.02, ¿podemos llegar a la conclusión de que hay mayor pro-
porción de demócratas a favor de hacer más flexibles las normas?
12. El departamento de investigación en la oficina matriz de New Hampshire Insurance realiza
investigaciones continuas sobre las causas de los accidentes automovilísticos, las caracte-
rísticas de los conductores, etcétera. Una muestra aleatoria de 400 policías reveló que 120
de las personas solteras tuvieron por lo menos un accidente en el periodo de tres años an-
terior. De modo similar, una muestra de 600 policías reveló que 150 personas casadas ha-
bían sufrido por lo menos un accidente. Con un nivel de significancia 0.05, ¿existe una
diferencia significativa en las proporciones de personas solteras y casadas que sufrieron un
accidente durante un periodo de tres años?
366 Capítulo 11

Comparación de las medias


de la población con muestras pequeñas
En una sección anterior, supusimos que las desviaciones estándar de dos poblaciones eran
desconocidas, pero que se habían seleccionado muestras aleatorias con 30 o más obser-
vaciones cada una. En esta sección, consideramos el caso en el que las desviaciones es-
tándar poblacionales se desconocen y el número de observaciones al menos en una de las
muestras es menor de 30. A menudo conocemos ésta como una "prueba de las medias de
muestras pequeñas". Los requisitos para la prueba con muestras pequeñas son más estric-
tos; y las tres suposiciones que se necesitan son:

Suposiciones para la prueba de 1. Las poblaciones de las que se toman las muestras siguen una distribución normal.
las medias con muestras 2. Las dos muestras son de poblaciones independientes.
pequeñas. 3. Las desviaciones estándar de ambas poblaciones son iguales.
En este caso, la distribución f se utiliza para comparar las medias de dos poblaciones. La
fórmula para calcular el estadístico de prueba t es similar a la (11-2), pero es necesario un
cálculo adicional. La tercera de las suposiciones anteriores indica que las desviaciones están-
dar poblacionales deben ser iguales. Las desviaciones estándar de las dos muestras se agru-
pan para formar un solo estimado de la desviación estándar poblacional desconocida. En
esencia, calculamos una media ponderada de las desviaciones estándar de las dos muestras
y la usamos como un estimado de la desviación estándar poblacional. Las ponderaciones son
los grados de libertad que ofrece cada muestra. ¿Por qué necesitamos agrupar las desviacio-
nes estándar? En la mayor parte de los casos, cuando cada una de las muestras tiene me-
nos de 30 observaciones, las desviaciones estándar poblacionales se desconocen. Por tanto,
calculamos s, la desviación estándar muestral, y la sustituimos por σ, la desviación estándar
poblacional. Como suponemos que las dos poblaciones tienen desviaciones estándar iguales,
el mejor estimado que podemos hacer de este valor es combinar o agrupar toda la informa-
ción que tenemos acerca del valor de la desviación estándar poblacional.
La fórmula siguiente se utiliza para agrupar las desviaciones estándar muéstrales. Ob-
serve que participan dos valores: el número de observaciones en cada muestra y las des-
viaciones estándar muéstrales.

es la varianza (desviación estándar al cuadrado) de la primera muestra,


es la varianza de la segunda muestra.
El valor de t se calcula a partir de la siguiente ecuación.

es la media de la primera muestra.


es la media de la segunda muestra.
es el número de observaciones en la primera muestra.
es el número de observaciones en la segunda muestra.
es el estimado agrupado de la varianza de la población.
Pruebas de hipótesis para las muestras de dos poblaciones independientes 367

Owens Lawn Care, Inc. fabrica y ensambla podadoras de césped que envía a distribuido-
res en Estados Unidos y Canadá. Se han propuesto dos procedimientos diferentes para
montar el motor sobre la estructura de la podadora. La pregunta es: ¿existe alguna diferen-
cia en el tiempo medio para ensamblar los motores en la estructura de las podadoras? El
primer procedimiento fue diseñado por Herb Welles, empleado de Owens desde hace mu-
chos años (designado como procedimiento 1) y el otro fue desarrollado por William Atkins,
vicepresidente de ingeniería de Owens (designado como procedimiento 2). Para evaluar
ambos métodos, se decidió realizar un estudio de tiempo y movimiento. A una muestra de
cinco empleados se le midió el tiempo utilizando el método de Welles y a otra de seis usan-
do el método de Atkins. A continuación, se presentan los resultados en minutos. ¿Hay al-
guna diferencia en los tiempos de montado medios? Utilice el nivel de significancia 0.10.

Siguiendo los cinco pasos para probar una hipótesis, la hipótesis nula establece que no hay
ninguna diferencia en los tiempos medios de montado entre ambas poblaciones. La hipóte-
sis alternativa indica que sí hay diferencia.

Las suposiciones necesarias son:

1. Las observaciones en la muestra de Welles son independientes de las observaciones


en la muestra de Atkins.
2. Las dos poblaciones siguen la distribución normal.
3. Las dos poblaciones tienen desviaciones estándar iguales.

¿Existe alguna diferencia entre los tiempos de ensamblado medios utilizando los métodos
de Welles y Atkins? Los grados de libertad son ¡guales al número total de elementos en las
muestras menos el número de muestras. En ese caso, es n, + n2 - 2. Cinco trabajadores
utilizanon el método de Welles y seis el de Atkins. Por tanto, hay 9 grados de libertad, calcu-
lados así: 5 + 6-2. Los valores críticos de í, del Apéndice F para gl= 9, una prueba de dos
colas y el nivel de significancia 0.10 son -1.833 y 1.833. La regla de decisión se ilustra en
la Gráfica 11-3. No rechazamos la hipótesis nula si el valor f calculado se encuentra entre -
1.833 y 1.833.

GRÁFICA 11-3 Regiones de rechazo, prueba de dos colas, gl = 9 y nivel de significancia 0.10
368 Capítulo 11

Utilizamos tres pasos para calcular el valor de t.

Calcular las desviaciones estándar de las muestras. Vea los detalles a con-
tinuación.

Conjuntar las varianzas de las muestras. Utilizamos la fórmula (11-5) para


agrupar las varianzas de las muestras (desviaciones estándar al cuadrado).

Determinar el valor de t. El tiempo medio de montado para el método de We-


lles es 4.00 minutos, calculados mediante El tiempo de montado
medio para el método de Atkins es 5.00 minutos, que encontramos mediante
Utilizamos la fórmula (11 -6) para calcular el valor de f.

La decisión es no rechazar la hipótesis nula, porque -0.662 se encuentra en la región en-


tre -1.833 y 1.833. Llegamos a la conclusión de que no hay ninguna diferencia en los tiem-
pos medios para montar el motor en la estructura utilizando cualquiera de los dos métodos.
También podemos calcular el valor p utilizando el Apéndice F. Busque la fila con 9 grados
de libertad, y use la columna de prueba de dos colas. Encuentre el valor f, sin importar el
signo, que se aproxime más a nuestro valor calculado de 0.662. Es 1.383, que corres-
ponde al nivel de significancia 0.20. Por tanto, aun cuando hubiéramos usado el nivel de
significancia de 20%, no habríamos rechazado la hipótesis nula de medias iguales. Pode-
mos reportar que el valor p es mayor de 20.

Excel tiene un procedimiento llamado "Prueba t: para dos muestras que asumen varian-
zas iguales" que realiza el cálculo de las fórmulas (11-5) y (11-6) y encuentra las medias y
varianzas muéstrales. Los datos se capturan en las primeras dos columnas de la hoja de
cálculo de Excel, y se les da el nombre de "Welles" y "Atkins". A continuación presentamos
la pantalla. El valor de t, llamado "t Stat", es -0.662, y el valor p de dos colas es 0.525. Co-
mo podríamos esperar, el valor p es mayor que el nivel de significancia de 0.10. La conclu-
sión es que no debemos rechazar la hipótesis nula.
Pruebas de hipótesis para las muestras de dos poblaciones independientes 369

Autoevaluación 11-3 El gerente de producción de Bellevue Steel, fabricante de sillas de ruedas, quiere comparar
el número de sillas de ruedas defectuosas producidas en el turno diurno con el del turno ves-
pertino. Una muestra de la producción de 6 turnos diurnos y 8 vespertinos reveló los siguien-
tes números de defectos.

Con un nivel de significancia 0.05, ¿hay alguna diferencia en el número medio de defectos
por turno?
(a) Formule las hipótesis nula y alternativa.
(b) ¿Cuál es la regla de decisión?
(c) ¿Cuál es el valor del estadístico de prueba?
(d) ¿Cuál es su decisión en cuanto a la hipótesis nula?
(e) ¿Cuál es el valor p?
(f) Interprete el resultado.
(g) ¿Cuáles son las suposiciones necesarias para esta prueba?

Ejercicios
Para los ejercicios 13 y 14: (a) formule la regla de decisión, (b) calcule el estimado conjunto de
la varianza poblacional, (c) calcule el estadístico de prueba, (d) tome una decisión acerca de la
hipótesis nula y (e) calcule el valor p.

Las hipótesis nula y alternativa son:

Una muestra aleatoria de 10 observaciones de una población reveló una media muestral de
23 y una desviación estándar de 4. Una muestra aleatoria de 8 observaciones de otra po-
blación reveló una media muestral de 26 y una desviación estándar muestral de 5. Con un
nivel de significancia 0.05, ¿hay alguna diferencia entre las medias poblacionales? Las
hipótesis nula y alternativa son:
370 Capítulo 11

Una muestra aleatoria de 15 observaciones de la primera población reveló una media mues-
tral de 350 y una desviación estándar muestral de 12. Una muestra aleatoria de 17 obser-
vaciones de la segunda población reveló una media muestral de 342 y una desviación
estándar de 15. Con un nivel de significancia 0.10, ¿existe alguna diferencia en las medias
poblacionales?
Nota: Utilice el procedimiento de prueba de hipótesis en cinco pasos para los ejercicios siguientes.
15. Una muestra de las calificaciones obtenidas en un examen en Estadística 201 es:

Con un nivel de significancia 0.01, ¿la calificación media de las mujeres es más alta que
aquella de los hombres?
16. Un estudio reciente comparó el tiempo que pasan juntas las parejas en las que sólo trabaja
uno de los cónyuges con las parejas en las que ambos trabajan. Según los registros que lle-
varon las esposas durante el estudio, la cantidad media de tiempo que pasan viendo televi-
sión entre las parejas en las que sólo trabaja uno de los cónyuges fue de 61 minutos por día,
con una desviación estándar de 15.5 minutos. Para el otro grupo de parejas, el número me
dio de minutos viendo televisión fue de 48.4, con una desviación estándar de 18.1 minutos.
Con un nivel de significancia 0.01, ¿podemos llegar a la conclusión de que, en promedio, las
parejas en las que sólo uno de los cónyuges trabaja pasan más tiempo juntos viendo tele-
visión? En el estudio participaron 15 parejas en las que sólo uno trabaja y 12 pertenecien-
tes al otro grupo.
17. Lisa Monnin es directora de presupuesto de Nexus Media Inc. y quiere comparar los gastos
en viáticos diarios para el personal de ventas y para el personal de auditoría. Lisa recopiló
la siguiente información sobre las muestras.

Con un nivel de significancia 0.10, ¿podemos llegar a la conclusión de que los gastos diarios
medios son mayores para el personal de ventas que para el de auditoria? ¿Cuál es el valor p? 18.
La Cámara de Comercio del Área de Tampa Bay (Florida) quería saber si el salario medio
semanal de las enfermeras era mayor que el de los maestros de escuela. Para investigarlo,
recopilaron la siguiente información sobre las cantidades ganadas la semana pasada por una
muestra de maestros de escuela y enfermeras.

¿Sería razonable llegar a la conclusión de que el salario semanal medio para las enferme-
ras es más alto? Utilice el nivel de significancia 0.01. ¿Cuál es el valor p?

Pruebas de hipótesis
de dos muestras: muestras dependientes
En la página 367, probamos la diferencia entre las medias de dos muestras independien-
tes. Comparamos el tiempo medio que se requiere para montar un motor utilizando los mé-
todos de Welles y Atkins. Las muestras eran independientes, lo que significa que la muestra
de tiempos de armado utilizando el método de Welles no estaba relacionada en ningún as-
pecto con la muestra de tiempos de armado con el método de Atkins.
Sin embargo, Hay situaciones en las que las muestras no son independientes. En otras
palabras, las muestras son dependientes o están relacionadas. Por ejemplo, Nickel Sa-
vings and Loan recurre a dos empresas, Shadek Appraisals y Bowyer Real Estáte, para va-
luar las propiedades de bienes raíces sobre las que hace los préstamos. Es importante que
estas dos compañías utilicen métodos similares para valuar. A fin de revisar la consistencia
de las dos empresas, Nickel Savings selecciona 10 casas y pide a Schadek Appraisals y a
Pruebas de hipótesis para las muestras de dos poblaciones independientes 371

Bowyer Real Estate que valúen las propiedades seleccionadas. Para cada
una, se harán dos valuaciones. Es decir, para cada casa existirá una valuación
de Schadek Appraisals y otra de Bowyer Real Estate. Las valuaciones
dependen de la casa seleccionada, o se relacionan con ésta. Lo anterior se
conoce también como muestra por pares.
Para la prueba de hipótesis, nos interesa la distribución de las diferencias
en las valuaciones de cada casa. Por tanto, sólo hay una muestra. En otras
palabras, investigamos si la media de la distribución de las diferencias en las
valoraciones es 0. La muestra está formada por las diferencias entre las va-
luaciones determinadas por Schadek Appraisals y las valuaciones de Bowyer
Real Estate. Si las dos empresas reportan estimados similares, en ocasiones,
Schadek Appraisals será el valor más alto y en otras será Bowyer Real Estate. Sin embar-
go, la media de la distribución de las diferencias será 0. Por otra parte, si una de las empre-
sas reporta en forma consistente las valuaciones más altas, la media de la distribución de
las diferencias no será 0.
Utilizamos el símbolo fiá para indicar la media poblacional de la distribución de las dife-
rencias. Suponemos que la distribución de las diferencias de la población sigue la distribu-
ción normal. El estadístico de prueba sigue la distribución t y calculamos su valor a partir de
la siguiente fórmula:

Entonces,
es la media de la diferencia entre las observaciones por pares o relacionadas,
es la desviación estándar de las diferencias entre las observaciones por pares
o relacionadas, es el número de observaciones por pares.

La desviación estándar de las diferencias se calcula mediante la fórmula conocida para la


desviación estándar, sólo que X se sustituye con d. La fórmula es:

El ejemplo siguiente ilustra esta prueba.

Recuerde que Nickel Savings and Loan quiere comparar las dos compañías que utiliza pa-
ra valuar las casas. Nickel Savings seleccionó una muestra de 10 propiedades y programa
las valuaciones de ambas empresas. Los resultados, reportados en miles de dólares, son:
372 Capítulo 11

Con un nivel de significancia 0.05, ¿podemos llegar a la conclusión de que hay una diferen-
cia en las valuaciones medias de las casas?

El primer paso consiste en formular las hipótesis nula y alternativa. En este caso, es apro-
piada una prueba de dos colas porque nos interesa determinar si hay una diferencia en las
valuaciones. No nos interesa indicar si una compañía en particular valúa las propiedades
en un valor más alto que la otra. La pregunta es si las diferencias de la muestra provienen
de una población con una media de 0. Si la media de las diferencias de la población es 0,
llegamos a la conclusión de que no hay diferencia en las valuaciones. Las hipótesis nula y
alternativa son:

Cada empresa valúa las 10 casas, de modo que n=10 y gl=n-1 =10-1 =9. Tene-
mos una prueba de dos colas y el nivel de significancia es 0.05. Para determinar el valor
crítico, vaya al Apéndice F, desplácese por la fila con 9 grados de libertad hasta la colum-
na para una prueba de dos colas y el nivel de significancia 0.05. El valor en la intersección
es 2.262. El valor aparece en el cuadro de la Tabla 11-2. La regla de decisión es rechazar
la hipótesis nula, si el valor calculado de t es menor a -2.262 o mayor a 2.262. Éstos son
los detalles del cálculo.

Utilizando la fórmula (11-7), el valor de la estadística de prueba es 3.305, que se encuen-


tra mediante:

Como el valor t calculado se encuentra en la región de rechazo, la hipótesis nula se recha-


za. La distribución de las diferencias de la población no tiene una media de 0. La mayor di-
ferencia de $12 000 es para la casa 3. Quizá sería un punto apropiado para empezar una
revisión detallada.
Pruebas de hipótesis para las muestras de dos poblaciones independientes 373

Para encontrar el valor p, utilizamos el Apéndice F y la sección para una prueba de dos
colas. Desplácese a lo largo de la fila con 9 grados de libertad y busque los valores de f que
se aproximan más a nuestro valor calculado. Para un nivel de significancia 0.01, el valor de t
es 3.250. El valor calculado es más alto que éste, pero más bajo que el valor de 4.781 que
corresponde al nivel de significancia 0.001. Por tanto, el valor p es menor a 0.01. Esta in-
formación se resalta en la Tabla 11 -2.

TABLA 11-2 Una parte de la distribución t del Apéndice F

Excel tiene un procedimiento llamado "Prueba í: Que muestra por pares las medias"
realizando los cálculos de la fórmula (11-7). A continuación, presentamos la pantalla de es-
te procedimiento.
El valor calculado de t es 3.3045, y el valor de dos colas es 0.00916. Como el valor p
es menor a 0.05, rechazamos la hipótesis de que la media de la distribución de las diferen-
cias entre las valuaciones es cero. De hecho, este valor p es menor a 1.0%. Hay una pe-
queña probabilidad de que la hipótesis nula sea verdadera.
374 Capítulo 11

Comparación de muestras
dependientes e independientes
Los estudiantes principiantes a menudo se confunden con la diferencia entre las pruebas
para muestras independientes [fórmula (11-6)] y las pruebas para muestras dependientes
[fórmula (11-7)]. ¿Cómo distinguimos la diferencia entre las muestras dependientes e inde-
pendientes? Hay dos tipos de muestras dependientes: (1) aquellas que se caracterizan por
una medición, una intervención de algún tipo y luego otra medición; y (2) una comparación
o agrupación por partes de las observaciones. Para explicarlo con mayor detalle:

1. El primer tipo de muestra dependiente se caracteriza por una medición seguida por una
intervención de algún tipo y luego otra medición. Éste se podría considerar un estudio
de "antes" y "después". Dos ejemplos nos van a ayudar a explicarlo mejor. Suponga
que queremos demostrar que al colocar bocinas en el área de producción y tocar mú-
sica relajante, aumentaremos la producción. Empezamos por seleccionar una muestra
de trabajadores y medir sus resultados en las condiciones actuales. A continuación, se
instalan las bocinas en el área de producción y medimos otra vez los resultados de los
trabajadores. Hay dos mediciones, una antes de instalar las bocinas y otra después. La
intervención consiste en la instalación de las bocinas en el área de producción.
Un segundo ejemplo comprende una empresa educativa que ofrece cursos diseña-
dos para aumentar las calificaciones en los exámenes y la capacidad de leer. Supon-
ga que la compañía quiere ofrecer un curso que ayudará a los alumnos del primer año
de secundaria a aumentar sus calificaciones en el SAT. Para empezar, cada estudian-
te presenta el SAT en el primer año de secundaria. Durante las vacaciones de verano
entre el primero y el segundo años, participan en el curso donde se les dan consejos
para presentar los exámenes. Por último, durante el otoño del segundo año de secun-
daria, vuelven a presentar el examen. Una vez más, el procedimiento se caracteriza por
una medición (presentar el SAT en el primer año), una intervención (los talleres de ve-
rano) y otra medición (presentar el SAT en el segundo año).
2. El segundo tipo de muestra dependiente se caracteriza por una comparación o combi
nación de las observaciones por pares. En el ejemplo anterior, Nickel Savings es una
muestra dependiente de este tipo. Seleccionaron una propiedad para su valuación y
luego realizaron dos valuaciones de la misma casa. Como un segundo ejemplo, supon-
gamos que un psicólogo industrial quiere estudiar las similitudes intelectuales de las pa-
rejas recién casadas, por lo que selecciona una muestra de recién casados. Luego,
aplica una prueba de inteligencia estándar tanto al hombre como a la mujer para deter-
minar la diferencia en las calificaciones. Observe la comparación que ocurre: se com-
paran las calificaciones que obtiene un matrimonio.

¿Por qué preferimos las muestras dependientes a las independientes? Al utilizar muestras
dependientes, podemos reducir la variación en la distribución de muestreo. Para ilustrar, va-
mos a usar el ejemplo de Nickel Savings and Loan. Suponga que tenemos dos muestras in-
dependientes de propiedades de bienes raíces para su valuación y realizamos la siguiente
prueba de hipótesis, utilizando la fórmula (11-6). Las hipótesis nula y alternativa son:

Hay dos muestras independientes de 10 elementos cada una. De modo que el número de
grados de libertad es 10 + 10 - 2 = 18. Según el Apéndice D, para el nivel de significancia
0.05, la hipótesis nula se rechaza si t es menor a -2.101 o mayor a 2.101.
Usamos los mismos comandos de Excel que en la página 66 en el Capítulo 3 para en-
contrar la media y la desviación estándar de las dos muestras independientes. Utilizamos
los comandos de Excel de la página 384 de este capítulo para encontrar la varianza agru-
pada y el valor de "t-Stat". Estos valores están resaltados en amarillo.
La media de las valuaciones para las 10 propiedades que realizó Schadek es $126 800,
y la desviación estándar es $14 500. La media de las valuaciones de Bowyer Real Estate es
Pruebas de hipótesis para las muestras de dos poblaciones independientes 375

$122 200, y la desviación estándar es $14 300. Para facilitar los cálculos, usamos $000, en
lugar de $. El valor del estimado agrupado de la varianza a partir de la fórmula (11-5) es

A partir de la fórmula (11 -6), í es 0.716.

El valor calculado de t (0.716) es menor a 2.101, de modo que la hipótesis nula no se re-
chaza. No podemos demostrar que hay una diferencia en la valuación media. ¡No es la mis-
ma conclusión que a la que llegamos anteriormente! ¿Por qué pasa esto? El numerador es
el mismo en la prueba de observaciones por pares (4.6). Sin embargo, el denominador es
más bajo. En la prueba por pares, el denominador es 1.3920 (vea los cálculos en la página
372). En el caso de las muestras independientes, el denominador es 6.4403. Hay mayor va-
riación o incertidumbre. Esto representa la diferencia en los valores t y la diferencia en las
decisiones estadísticas. El denominador mide el error estándar de la estadística. Cuando
las muestras no se combinan en pares, surgen dos tipos de variación: las diferencias entre
dos empresas valuadoras y la diferencia en la valuación de las propiedades. Las casas de
la 4 a la 10 tienen valores relativamente altos, mientras que el valor de la número 5 es re-
lativamente bajo. Estos datos demuestran lo diferentes que son las valuaciones de las pro-
piedades, pero lo que nos interesa es la diferencia entre las dos empresas valuadoras.
El truco consiste en dividir las valuaciones en pares para reducir la variación entre las
propiedades. La prueba por pares utiliza sólo la diferencia entre las dos compañías valua-
doras para la misma propiedad. Por tanto, la estadística por pares o dependiente se enfo-
ca en la variación entre Schadek Appraisals y Bowyer Real Estate. Por tanto, su error
estándar siempre es menor. Esto, a su vez, da lugar a una estadística de prueba mayor y
una mayor probabilidad de rechazar la hipótesis nula. De modo que siempre que sea posi-
ble debemos dividir la información por pares.
Aquí hay una mala noticia. En la prueba de observaciones por pares, los grados de li-
bertad son la mitad de aquellos que hay en las muestras que no están divididas por pares.
Para el ejemplo de bienes raíces, los grados de libertad bajaron de 18 a 9 al dividir las ob-
servaciones por pares. Sin embargo, en casi todos los casos, hay que pagar un precio por
una mejor prueba.
376 Capítulo 11

Autoevaluación 11-4 La publicidad realizada por Sylph Fitness Center afirma que al terminar su curso las personas
bajarán de peso. Una muestra aleatoria de ocho participantes recientes reveló los pesos
siguientes antes y después del curso. En el nivel de significancia 0.01, ¿podemos llegar a la
conclusión de que los estudiantes bajan de peso?

(a) Formule las hipótesis nula y alternativa.


(b) ¿Cuál es el valor crítico de t?
(c) ¿Cuál es el valor calculado de t?.
(d) Interprete el resultado. ¿Cuál es el valor p?
(e) ¿Qué suposiciones son necesarias acerca de la distribución de las diferencias?

Ejercicios
Las hipótesis nula y alternativa son:

La siguiente información de la muestra indica el número de unidades defectuosas produci-


das en el turno diurno y el turno vespertino para una muestra de cuatro días durante el mes
pasado.

Con un nivel de significancia 0.05, ¿podemos llegar a la conclusión de que hay más defec-
tos en el turno vespertino? Las hipótesis nulas y alternativas son:

Las siguientes observaciones por pares indican el número de multas de tránsito que han le-
vantado el Oficial Dhondt y el Oficial Meredith de la South Carolina Highway Patrol durante
los últimos cinco meses.

Con un nivel de significancia 0.05, ¿existe alguna diferencia en el número medio de multas
levantadas por los dos oficiales?
Nota: Para resolver los ejercicios siguientes, utilice el procedimiento de prueba de hipótesis en
cinco pasos.
La administración de Discount Fumiture, una cadena de mueblerías de descuento en el no-
reste de Estados Unidos, diseñó un plan de incentivos para sus vendedores. Para evaluar
Pruebas de hipótesis para las muestras de dos poblaciones independientes 377
¿Hubo algún incremento significativo en el ingreso semanal de un vendedor típico debido al
innovador plan de incentivos? Utilice el nivel de significancia 0.05. Calcule el valor p e inter-
este innovador plan, 12 vendedores se seleccionan al azar y se registran sus ingresos se-
manales antes y después del plan.

prete el resultado.
22. Hace poco, el gobierno federal otorgó fondos para un programa especial diseñado para re-
ducir el crimen en áreas de alto riesgo. Un estudio de los resultados del programa en ocho
áreas de alto riesgo de Miami, Florida, produjo los siguientes resultados.

¿Ha habido alguna reducción en el número de crímenes desde el inicio del programa? Utilice
el nivel de significancia 0.01. Calcule el valor p.

Resumen del capítulo


I. Al comparar dos medias poblacionales queremos saber si podrían ser iguales.
A. Investigamos si la distribución de la diferencia entre las medias podría tener una media de 0.
B. El estadístico de prueba es la normal estándar (z) si las dos muestras contienen por lo
menos 30 observaciones y las desviaciones estándar muéstrales se conocen.
1. No se requiere ninguna suposición acerca de la forma de las poblaciones.
2. Las muestras son de poblaciones indepedientes.
3. La fórmula para calcular el valor de z es

II. También podemos probar si dos muestras provienen de poblaciones con la misma proporción
de éxitos. A. Las proporciones de ambas muestras se agrupan utilizando la fórmula siguiente:

B. El valor de la estadística de prueba se calcula a partir de la fórmula siguiente:

III. El estadístico de prueba para comparar dos medias es la distribución t, si una o ambas
muestras contienen menos de 30 observaciones.
A. Ambas poblaciones deben seguir la distribución normal.
B. Las poblaciones deben tener desviaciones estándar iguales.
C. Las muestras son independientes.
378 Capítulo 11

D. Encontrar el valor de t requiere de dos pasos.


1. El primer paso es conjuntar las desviaciones estándar de acuerdo con la fórmula siguien-
te:

2. El valor de f se calcula a partir de la fórmula siguiente:

IV. Para muestras dependientes, suponemos que la distribución de las diferencias por pares
entre las poblaciones tiene una media de 0.
A. Primero calculamos la media y la desviación estándar de las diferencias muéstrales.
B. El valor de la estadística de prueba se calcula a partir de la fórmula siguiente:

Clave de pronunciación

Ejercicios del capítulo


Un estudio reciente se concentró en el número de veces que los hombres y mujeres que vi-
ven solos compran comida para llevar en un mes. La información se resume a continuación.

Con un nivel de significancia 00.01, ¿hay alguna diferencia en el número medio de veces
que hombres y mujeres piden comida para llevar en un mes? ¿Cuál es el valor p? Clark
Heter es ingeniero industrial en Lyons Products y quiere determinar si se producen más
unidades en el turno vespertino que en el diurno. Una muestra de 54 trabajadores del
turno diurno reveló que el número medio de unidades producidas fue 345, con una desvia-
ción estándar de 21. Una muestra de 60 trabajadores del turno vespertino indicó que el nú-
mero medio de unidades producidas fue 351, con una desviación estándar de 28 unidades.
En el nivel de significancia 0.05, ¿el número de unidades producidas en el turno vespertino
es más alto?
Fry Brothers Heating and Air Conditioning, Inc. emplea a Larry Clark y George Murnen pa-
ra que hagan llamadas para ofrecer el servicio de reparación de unidades de calefacción y
aire acondicionado a domicilio. Tom Fry, el dueño, quiere saber si hay alguna diferencia en
el número medio de llamadas de servicio al día. Una muestra aleatoria de 40 días del año
pasado reveló que Larry Clark hizo un promedio de 4.77 llamadas por día, con una desvia-
ción estándar de 1.5 llamadas diarias. Para una muestra de 50 días, George Murnen hizo
un promedio de 5.02 llamadas al día, con una desviación estándar de 1.23 llamadas diarias.
Pruebas de hipótesis para las muestras de dos poblaciones independientes 379

Con un nivel de significancia 0.05, ¿hay alguna diferencia en el número medio de llamadas
por día entre los dos empleados? ¿Cuál es el valor p?
26. A un fabricante de café le interesa saber si el consumo diario de las personas que beben ca-
fé regular es menor que el de las personas que toman café descafeinado. Una muestra alea-
toria de 50 bebedores de café regular reveló una media de 4.35 tazas por día, con una
desviación estándar de 1.20 tazas por día. Una muestra de 40 bebedores de café descafei-
nado indicó una media de 5.84 tazas diarias, con una desviación estándar de 1.36 tazas al
día. Utilice el nivel de significancia 0.01. Calcule el valor p.
27. Una compañía de teléfonos celulares ofrece dos planes a sus suscriptores. En el momento
en que los suscriptores se registran, se les pide cierta información demográfica. El ingreso
anual medio para una muestra de 40 suscriptores al Plan A es $57 000, con una desviación
estándar de S9 200. Esta distribución tiene un sesgo positivo; el coeficiente de sesgo real
es 2.11. Para una muestra de 30 suscriptores al Plan B, el ingreso medio es $61 000, con
una desviación estándar de $7 100. La distribución de los suscriptores al Plan B también tie-
ne un sesgo positivo, pero no tan marcado. El coeficiente de sesgo es 1.54. Con un nivel de
significancia 0.05, ¿sería razonable llegar a la conclusión de que el ingreso medio para los
que eligen el Plan B es más alto? ¿Cuál es el valor p? ¿Los coeficientes de sesgo afectan
los resultados de la hipótesis de la prueba? ¿Por qué?
28. Un fabricante de computadoras ofrece una línea de ayuda a la que los compradores pueden
llamar las 24 horas los 7 días de la semana. Responder estas llamadas en forma oportuna
es importante para la imagen de la empresa. Después de decir al cliente que la solución de
su problema es importante, se le pregunta si éste está relacionado con "software" o "hard-
ware". El tiempo medio que un técnico tarda en solucionar un problema de software es de
18 minutos con una desviación estándar de 4.2 minutos. Esta información se obtuvo de una
muestra de 35 llamadas supervisadas. Para un estudio de 45 problemas de hardware, el
tiempo medio que el técnico tardó en solucionar el problema fue 15.5 minutos con una des
viación estándar de 3.9 minutos. Esta información también se obtuvo de llamadas supervi-
sadas. Con un nivel de significancia 0.05, ¿sería razonable llegar a la conclusión de que es
más tardado resolver problemas de software? ¿Cuál es el valor p?
29. Hace poco, el fabricante de Advil, un remedio común para el dolor de cabeza, desarrolló una
nueva fórmula del medicamento que, según afirma, es más efectiva. Para evaluar el nuevo
medicamento, a una muestra de 200 usuarios se le pidió que lo probaran. Después de una
prueba de un mes, 180 indicaron que el nuevo medicamento es más efectivo para aliviar el
dolor de cabeza. Al mismo tiempo, a una muestra de 300 usuarios de Advil se les dio el me-
dicamento que ya existía, pero se les dijo que era una nueva fórmula. De este grupo, 261
dijeron que había mejorado. Con un nivel de significancia 0.05, ¿podemos llegar a la con
clusión de que el nuevo medicamento es más efectivo?
30. Cada mes, la National Association of Purchasing Managers publica el índice NAPM. Una de
las preguntas que se hacen en la encuesta a los agentes de compra es: ¿Usted cree que la
economía está en expansión? El mes pasado, de los 300 entrevistados, 160 dieron una res-
puesta afirmativa. Este mes, 170 de 290 indicaron que creían que la economía está en ex
pansión. Con un nivel de significancia 0.05, ¿podemos llegar a la conclusión de que, en este
mes, una mayor proporción de agentes cree que la economía está en expansión?
31. Como parte de una encuesta reciente entre parejas en las que ambos cónyuges trabajan,
un psicólogo industrial descubrió que 990 hombres de los 1 500 entrevistados creen que la
división de las tareas domésticas es justa. Una muestra de 1 600 mujeres reveló que 970
creen que la división de las tareas domésticas es justa. Con un nivel de significancia 0.01,
¿sería razonable llegar a la conclusión de que la proporción de hombres que creen que la
división de las labores domésticas es justa es más alta? ¿Cuál es el valor p?
32. En el área de Colorado Springs, Colorado, hay dos proveedores de Internet importantes,
uno se llama HTC y el otro Mountain Communications. Queremos investigar si hay alguna
diferencia en la proporción de veces que un cliente se puede conectar a Internet. Durante
un periodo de una semana, se hicieron 500 llamadas a HTC en horas aleatorias del día y la
noche. En 450 de las veces se logró la conexión a Internet. Un estudio similar de una sema
na con Mountain Communications demostró que la conexión se logró en 352 de 400 inten
tos. Con un nivel de significancia 0.01, ¿hay alguna diferencia en el porcentaje de veces que
se logró la conexión a Internet?
33. El dueño de Bun 'N' Run Hamburguer quiere comparar las ventas por día en dos tiendas. El
número medio de ventas para 10 días seleccionados al azar en la tienda de Northside fue
83.55, y la desviación estándar de 10.50. Para una muestra aleatoria de 12 días en la tien-
da de Southside, el número medio de ventas fue 78.80 con una desviación estándar de
380 Capítulo 11

14.25. Con un nivel de significancia 0.05, ¿hay alguna diferencia en el número medio de
hamburguesas vendidas en las dos tiendas? ¿Cuál es el valor p?
34. Hace poco, el Departamento de Ingeniería de Sims Software, Inc. desarrolló dos soluciones
químicas diseñadas para aumentar la vida útil de los discos para computadora. Una mues-
tra de discos tratados con la primera solución duraron 86, 78, 66, 83, 81, 84, 109, 65 y 102
horas. Aquellos tratados con la segunda solución duraron 91,71, 75, 76, 87, 79, 73, 76, 79,
78, 87, 90, 76 y 72 horas. Con un nivel de significancia 0.10, ¿podemos llegar a la conclu-
sión de que hay una diferencia en la duración que ofrecen ambos tratamientos?
35. El Willow Run Outlet Malí tiene dos Haggar Outlet Stores, una en Peach Street y la otra en
Plum Street. Las dos tiendas tienen una distribución diferente, pero sus gerentes afirman
que su distribución maximiza la cantidad de artículos que los clientes compran por impulso.
Una muestra de 10 clientes en la tienda de Peach Street reveló que gastaron las siguientes
cantidades excedentes de lo planeado: $17.58, $19.73, $12.61, $17.79, $16.22, $15.82,
$15.40, $15.86, $11.82 y $15.85. Una muestra de 14 clientes de la tienda de Plum Street re-
veló que gastaron las siguientes cantidades fuera de lo planeado: $18.19, $20.22, $17.38,
$17.96, $23.92, $15.87, $16.47, $15.96, $16.79, $16.74, $21.40, $20.57, $19.79 y $14.83.
Con un nivel de significancia 0.01, ¿hay alguna diferencia en las cantidades medias com-
pradas por impulso en ambas tiendas?
36. El Grand Strand Family Medical Center se construyó de manera específica para atender
emergencias menores de los visitantes en el área de Myrtle Beach. Hay dos instalaciones,
una en Littte River Área y otra en Murrells Inlet. El Departamento de Aseguramiento de la
Calidad quiere comparar el tiempo de espera medio de los pacientes en ambas clínicas. A
continuación, presentamos las muestras de los tiempos de espera, reportados en minutos:

Con un nivel de significancia 0.05, ¿existe alguna diferencia en el tiempo de espera medio?
37. The Commercial Bank and Trust Company estudia el uso de sus cajeros automáticos. Lo
que más les interesa saber es si los adultos jóvenes (menos de 25 años) utilizan los cajeros
más que los adultos de la tercera edad. Para investigar más, se seleccionaron muestras de
clientes menores de 25 años y de clientes mayores de 60 años. Se determinó el número de
transacciones en cajero automático durante el mes pasado para cada individuo selecciona-
do, y los resultados se ilustran a continuación. Con un nivel de significancia 0.01, ¿la geren-
cia del banco puede llegar a la conclusión de que los clientes más jóvenes utilizan más los
cajeros automáticos?

38. Dos barcos, el Prada (Italia) y el Oracle (Estados Unidos), compiten por la clasificación en
la próxima carrera de la Copa América. Recorren varias veces una parte de la ruta. A con-
tinuación, presentamos los tiempos medios en minutos. Con un nivel de significancia 0.05,
¿podemos llegar a la conclusión de que hay una diferencia en sus tiempos medios?

39. El fabricante de un reproductor MP3 quería saber si una reducción de 10% en el precio es
suficiente para aumentar las ventas de su producto. Para investigar, el dueño seleccionó al
azar ocho tiendas y vendió el reproductor MP3 al precio reducido. En siete tiendas seleccio-
nadas también al azar, el reproductor MP3 se vendió al precio regular. A continuación, se
reportan los números de las unidades vendidas el mes pasado en las tiendas que participa-
ron en la muestra. Con un nivel de significancia 0.01, ¿el fabricante puede llegar a la con-
clusión de que la reducción en el precio dio como resultado un incremento en las ventas?
Pruebas de hipótesis para las muestras de dos poblaciones independientes 381

40. Muchos accidentes automovilísticos ocurren en diversos cruceros de alto riesgo en Teton
County, a pesar de los semáforos. El Departamento de Tránsito afirma que una modifica-
ción en el tipo de semáforos reducirá estos accidentes. Los comisionados del condado acor-
daron probar el experimento propuesto. Se eligieron ocho cruceros al azar, y se modificaron
los semáforos en esos cruceros. Los números de accidentes menores durante un periodo
de seis meses antes y después de las modificaciones son:

Con uní nivel de significancia 0.01, ¿sería razonable llegar a la conclusión de que la modifi-
cación redujo el número de accidentes de tránsito?
41. Lester Hollar es vicepresidente de recursos humanos de una compañía manufacturera gran-
de. En años recientes, ha notado un aumento en el ausentismo que, según cree, está relacio-
nado con la salud general de los empleados. Hace cuatro años, en un intento por mejorar la
situación, inició un programa de acondicionamiento físico en el que los empleados hacen ejer-
cicio durante la hora del almuerzo. Para evaluar el programa, seleccionó a una muestra alea-
toria de ocho participantes y encontró el número de días en los que cada uno estuvo ausente
durante los seis meses anteriores al inicio del programa de ejercicio y en los últimos seis me-
ses. A continuación presentamos los resultados. Con un nivel de significancia 0.05, ¿podemos
llegar a la conclusión de que el número de ausencias se redujo? Calcule el valor p.

42. El presidente del American Insurance Institute quiere comparar los costos anuales de los se-
guros para auto que ofrecen dos de las compañías principales, por lo que selecciona una
muestra de 15 familias, algunas con un solo conductor asegurado, otras con varios conduc-
tores adolescentes y paga a cada familia para que llame a las otras dos compañías y pre-
gunten el precio de los seguros. A fin de poder comparar los datos, se estandarizaron ciertas
características, como la cantidad del deducible y los límites de responsabilidad. A continua-
ción, se reporta la información de la muestra. Con un nivel de significancia 0.10, ¿podemos
llegar a la conclusión de que hay una diferencia en las cantidades citadas?

43. Fairfield Homes desarrolla dos parcelas cerca de Pigeon Fork, Tennessee. A fin de probar
distintas estrategias publicitarias, utilizan medios diferentes para llegar a los compradores
potenciales. El ingreso familiar anual medio para 75 personas que investigan sobre el pri-
mer desarrollo es $150 000, con una desviación estándar de $40 000. Una muestra corres-
pondiente de 120 personas en el segundo desarrollo tuvo una media de $180 000, con una
desviación estándar de $30 000. Con un nivel de significancia 0.05, ¿Fairfield puede llegar
a la conclusión de que las medias poblacionales son diferentes?
382 Capítulo 11

44. Los datos siguientes resultaron de una prueba de degustación de dos barras de chocolate
diferentes. El primer número es una calificación del sabor, que puede ser de 0 a 5, y 5 indi-
ca que a la persona le gustó el sabor. El segundo número indica si estaba presente algún
"ingrediente secreto". Si el ingrediente estaba presente se utilizaba un código de "1" y de "0"
si no lo estaba. Con un nivel de significancia 0.05, ¿esta información revela alguna diferen-
cia en las calificaciones de sabor?

45. Una investigación sobre la efectividad de un jabón antibacterial al reducir la contaminación


en las salas de operaciones dio como resultado la tabla siguiente. El nuevo jabón se probó
en una muestra de ocho salas de operaciones en el área de Seattle durante el último año.

Con un nivel de significancia 0.05, ¿podemos llegar a la conclusión de que los niveles de
contaminación se reducen después de usar el nuevo jabón?
46. Los datos siguientes sobre las tasas de recuperación anuales se recopilaron de cinco tipos
de acciones que aparecen en la Bolsa de Valores de Nueva York ("el gran tablero") y cinco
que aparecen en NASDAQ. Con un nivel de significancia 0.01, ¿podemos llegar a la conclu-
sión de que las tasas de recuperación anuales son más altas en el gran tablero?

47. La ciudad de Laguna Beach maneja dos estacionamientos públicos. En el que está en
Ocean Drive se pueden estacionar hasta 125 autos y en el de Río Rancho se estacionan
hasta 130 autos. Los especialistas en planeación urbana consideran aumentar el tamaño de
los estacionamientos y cambiar la estructura de tarifas. Para empezar, la oficina de planea-
ción quiere recopilar cierta información sobre el número de autos en los estacionamientos a
distintas horas del día. Un funcionario de planeación tiene la tarea de visitar ambos estacio-
namientos a horas aleatorias del día y la noche y contar el número de autos en cada uno.
El estudio se realizó durante un periodo de un mes. A continuación presentamos el número
de autos en los estacionamientos para 25 visitas al estacionamiento de Ocean Drive y 28 vi-
sitas al estacionamiento de Río Rancho.

¿Sería razonable llegar a la conclusión de que hay una diferencia en el número medio de
autos en los dos estacionamientos? Utilice el nivel de significancia 0.05. 48. La cantidad de
dinero de los ingresos que se gasta en vivienda es un componente importante del costo de la
vida. Los costos de vivienda totales para los propietarios de casas incluyen pagos hipotecarios,
impuesto predial y costos de servicios (agua, calefacción, electricidad).
Pruebas de hipótesis para las muestras de dos poblaciones independientes 383

Un economista seleccionó una muestra de 20 dueños de casas en Nueva Inglaterra y calcu-


ló estos costos de vivienda totales como un porcentaje del Ingreso mensual, hace cinco años
y en la actualidad. La información se reporta a continuación. ¿Sería razonable llegar a la con-
clusión de que el porcentaje es menor en la actualidad que hace cinco años?

49. A continuación presentamos varias compañías importantes y sus precios accionarios en fe-
brero de 2003. Busque los precios actuales en la web. Hay muchas fuentes para investigar
los precios accionarios, como Yahoo y CNNFI. La dirección de Yahoo es http://www.quote.
yahoo.com. Escriba la identificación para encontrar el precio correcto. Con un nivel de sig-
nificancia 0.05, ¿podemos llegar a la conclusión de que los precios han cambiado?

50. Los sitios de USA Today (http://www.usatoday.com/sports/baseball/front.htm) y de las Ligas


Mayores de Béisbol (http://www.majorleaguebaseball.com) reportan información sobre los sa-
larios individuales de los jugadores. Vaya a uno de estos sitios y busque los salarios individua-
les de su equipo favorito. Calcule ta media y la desviación estándar. ¿Sería razonable llegar a
la conclusión de que su equipo favorito (o local) tiene un salario medio diferente a $1 500 000?

Ejercicios de la base de datos


51. Consulte los datos Real Estate, que reportan información sobre las casas vendidas en el
área de Denver, Colorado, el año pasado.
a. Con un nivel de significancia 0.05, ¿podemos llegar a la conclusión de que hay una di-
ferencia en el precio medio de venta de las casas con alberca y sin alberca?
b. Con un nivel de significancia 0.05, ¿podemos llegar a la conclusión de que hay una di-
ferencia en el precio medio de venta de las casas con cochera y sin cochera?
c. Con un nivel de significancia 0.05, ¿podemos llegar a la conclusión de que hay una di-
ferencia en el precio medio de venta de las casas en Township 1 y Township 2?
d. Encuentre el precio medio de venta de las casas. Divida las casas en dos grupos, aque-
llas que se vendieron en una cantidad mayor (o igual) que el precio medio y aquellas
que se vendieron por menos. ¿Hay alguna diferencia en la proporción de casas con al-
berca para aquellas que se vendieron a un precio igual o mayor al precio mediano en
comparación con las que se vendieron por menos del precio mediano? Utilice el nivel
de significancia 0.05.
52. Consulte los datos Baseball 2002, que proporcionan información sobre los 30 equipos de las
Ligas Mayores de Béisbol para la temporada 2002.
a. Con un nivel de significancia 0.05, ¿podemos llegar a la conclusión de que hay alguna
diferencia en el salario medio de los equipos en la Liga Americana en comparación con
aquellos de la Liga Nacional?
384 Capítulo 11

b. Con un nivel de significancia 0.05, ¿podernos llegar a la conclusión de que hay una di-
ferencia en la asistencia media de los equipos de la Liga Americana en comparación
con los equipos de la Liga Nacional?
c. Con un nivel de significancia 0.05, ¿podemos llegar a la conclusión de que hay una di-
ferencia en el número medio de victorias para los equipos que tienen campos de pasto
artificial contra los que tienen canchas de césped natural?
d. Con un nivel de significancia 0.05, ¿podemos llegar a la conclusión de que hay una di-
ferencia en el número medio de jonrones para los equipos que tienen canchas de pas-
to artificial y aquellos con canchas de césped natural?
53. Consulte los datos Wage, que proporcionan información sobre los salarios anuales para una
muestra de 100 trabajadores. También se incluyen las variables relacionadas con la indus-
tria, los años de educación y el género para cada trabajador.
a. Realice una prueba de hipótesis para determinar si hay una diferencia en los salarios
anuales medios de los residentes del sur en comparación con aquellas de las personas
que no viven en el sur.
b. Realice una prueba de hipótesis para determinar sí hay alguna diferencia en los sala-
rios anuales medios de los trabajadores sajones y no sajones.
c. Realice una prueba de hipótesis para determinar si hay alguna diferencia en los sala-
rios anuales medios de los trabajadores hispanos y no hispanos.
d. Realice una prueba de hipótesis para determinar si hay alguna diferencia en los sala-
rios anuales medios de los trabajadores hombres y mujeres.
e. Realice una prueba de hipótesis para determinar si existe alguna diferencia en los sa-
larios anuales medios de los trabajadores casados y solteros.
54. Consulte los datos CÍA, que proporcionan información demográfica y económica sobre 46
países. Realice una prueba de hipótesis para determinar si el porcentaje medio de la pobla-
ción mayor de 65 años de edad en los países del G20 es diferente de aquellos que no son
miembros del G20.

Comandos de software
1. Los comandos de Excel para la prueba t de dos muestras en
la página 369 son;
a. Capture los datos en las columnas A y B (o cualquier otra
columna) en la hoja de cálculo. Utilice la primera fila de
cada columna para escribir el nombre de la variable.
b. En la barra de menú seleccione Tools y Data Analysis.
Seleccione t-Test: Two-Sample Assumíng Equal Va-
riances y haga clic en OK.
c. En el cuadro de diálogo, indique que el rango de la Va
riable 1 es de A1 a A6 y de la Variable 2 de B1 a B7,
la Hypothesized Mean Differrence es 0, las Labels
están en la primera fila, Alpha es 0.05 y Output Range
es D2. Haga clic en OK.

2. Los comandos de Excel para la prueba t por pares de la pá-


gina 373 son:
a. Capture los datos en las columnas B y C (u otras dos
columnas) en la hoja de cálculo, con los nombres de las
variables en la primera fila.
b. En la barra de menú seleccione Tools y Data Analysis.
Seleccione t-Test: Paired Two Sample for Means y
haga clic en OK.
c. En el cuadro de diálogo indique que el rango de la Va
riable 1 es de B1 a B11 y de la Variable 2 de C1 a
C11,
la Hypothesized Mean Difference es O, las Labels es
tán en la primera fila, Alpha es 0,05 y el Output Range
es D2. Haga clic en OK.
Pruebas de hipótesis para las muestras de dos poblaciones independientes 385

Capítulo 11 Respuestas a las autoevaluaciones


Análisis de la varianza

En la producción de un componente determinado para un avión, se utilizan tres líneas de


ensamblaje. Para estudiar la tasa de producción, se selecciona una muestra aleatoria de seis
periodos de una hora para cada línea de ensamblaje y se registra el número de componentes
producidos durante estos periodos para cada línea. Desarrolle un intervalo de confianza de
99% para la diferencia de las medias entre las líneas B y C. (Consulte la Meta 6 y el Ejercicio
32.)
Análisis de la varianza 387

Introducción
En este capítulo continuamos con nuestro estudio de las pruebas de hipótesis. Recuerde que
en los Capítulos 10 y 11 revisamos la teoría general de la prueba de hipótesis. Describimos
el caso en el que se seleccionó una muestra grande de la población. Utilizamos la distribu-
ción z(la distribución normal estándar) para determinar si era razonable llegar a la conclusión
de que la media de la población era igual a un valor especifico. Realizamos pruebas para
saber si dos medias poblacionales eran iguales. También manejamos pruebas de una y dos
muestras para las proporciones de la población, utilizando una vez más la distribución nor-
mal estándar como la distribución del estadístico de prueba. Describimos los métodos para
realizar pruebas de las medias en donde las poblaciones eran normales pero las muestras
eran pequeñas (contenían menos de 30 observaciones). En ese caso la distribución t se uti-
lizó como la distribución de la prueba. En este capítulo ampliamos nuestro concepto de las
pruebas de hipótesis. Describimos una prueba para varianzas y luego una prueba que com-
para al mismo tiempo diversas medias para determinar si éstas provienen de poblaciones
iguales.

La distribución F
La distribución de probabilidad que utilizamos en este capítulo es la distribución F, que debe
su nombre a Sir Ronald Fisher, uno de los pioneros de la estadística actual. Esta distribución
de probabilidad se utiliza como la distribución del estadístico de pruebas para diferentes
situaciones, a fin de probar si dos muestras provienen de poblaciones que tienen varianzas
iguales, y también se aplica cuando se desea comparar de manera simultánea varias medias
poblacionales. La comparación simultánea de varias medias poblacionales se llama análisis
de la varianza (ANOVA). En ambos casos, las poblaciones deben seguir una distribución
normal y la información debe presentar por lo menos una escala de intervalos. ¿Cuáles son
las características de la distribución F?

Características de la 1. Existe una "familia" de distribuciones F. Un miembro particular de la familia se


distribución F. determina a través de dos parámetros: los grados de libertad en el numerador y los gra-
dos de libertad en el denominador. La forma de la distribución se ilustra en la siguiente
gráfica. Existe una distribución F para la combinación de 29 grados de libertad en el
numerador y 28 grados de libertad en el denominador. Existe otra distribución F para
19 grados en el numerador y 6 grados de libertad en el denominador. Observe que la
forma de las curvas cambia cuando cambian los grados de libertad

2. La distribución F es continua. Esto significa que puede asumir un número infinito de


valores entre cero y el infinito positivo.
3. La distribución F no puede ser negativa. El valor más pequeño que F puede asumir
esO.
388 Capítulo 12

4. Tiene sesgo positivo. La cola larga de la distribución se encuentra en el lado derecho.


Cuando aumenta el número de grados de libertad en el numerador y en el denomi-
nador, la distribución logra una distribución normal.
5. Es asintótica. Cuando los valores de X se incrementan, la curva F tiende al eje X pero
nunca lo toca. Lo anterior se parece al comportamiento de la distribución normal, que
describimos en el Capítulo 7.

Comparación de dos varianzas de población


La distribución F se utiliza para probar la hipótesis de que la varianza de una población nor-
mal es igual a la varianza de otra población normal. Los siguientes ejemplos mostrarán el
uso de la prueba:
• Dos máquinas cizalladoras de la marca Barth se calibran para producir barras de acero
de la misma longitud. Por tanto, las barras deben tener la misma longitud media.
Queremos asegurarnos de que, además de tener la misma longitud media tengan tam-
bién una variación similar.
• El índice de rendimiento medio de dos tipos
de acciones comunes puede ser el mismo,
pero puede haber mayor variación en el índice
de rendimiento de un tipo que de otro. Una
muestra de 10 acciones de Internet y 10 ac-
ciones de compañías de servicios presenta
el mismo índice de rendimiento medio; sin
embargo, es probable que exista mayor va
riación en las acciones de Internet.
• Un estudio que realizó el departamento de
mercadotecnia de un periódico importante
encontró que los hombres y mujeres pasan
aproximadamente la misma cantidad de tiem-
po por día leyendo el periódico. Sin embargo,
el mismo informe indicó que existía casi el
doble de variación en el tiempo invertido por
día entre los hombres que entre las mujeres.

La distribución F se utiliza también a fin de probar suposiciones para algunas pruebas


estadísticas. Recuerde que en el capítulo anterior, cuando se manejaban muestras pe-
queñas, se utilizaba la prueba t para investigar si las medias de dos poblaciones indepen-
dientes son diferentes. Para utilizar esa prueba, suponga que las varianzas de dos
poblaciones normales son iguales. Observe esta lista de suposiciones en la página 366. La
distribución F proporciona una forma de realizar una prueba considerando las varianzas de
dos poblaciones normales.
Independientemente de si queremos determinar si una población presenta más varia-
ción que otra o si se desea validar una suposición para una prueba estadística, primero formu-
lamos la hipótesis nula. Esta última es que la varianza de una población normal, es
igual a la varianza de otra población normal, La hipótesis alternativa podría ser que las
varianzas son diferentes. En este caso la hipótesis nula y la hipótesis alternativa son:

Para realizar la prueba, seleccionamos una muestra aleatoria de n1 observaciones de una


población, y una muestra de n2 observaciones de la otra población. La estadística de la
prueba se define de la siguiente manera:
Análisis de la varianza 389

Los términos s^ y s¡ son las varianzas respectivas de la muestra. Si la hipótesis nula es ver-
dadera, la estadística de la prueba sigue la distribución F con n: - 1 y n2 - 1 grados de liber-
tad. Para reducir el tamaño de la tabla de valores críticos, la varianza más grande de la
muestra se coloca en el numerador; de ahí que la razón F que se menciona en la tabla
siempre es mayor de 1.00. Por tanto, sólo se requiere el valor crítico de la cola derecha. El
valor crítico de F para una prueba de dos colas se obtiene al dividir a la mitad el nivel de
significancia y luego consultar los grados de libertad apropiados en el Apéndice G.
Un ejemplo servirá de ilustración.

Lammers Limos ofrece servicio de limusina


desde el ayuntamiento de Toledo, Ohio, al
Aeropuerto Metropolitano en Detroit. Sean
Lammers, presidente de la compañía, consi-
dera dos rutas. Una es por la carretera U. S.
25 y la otra es por la I-75. Lammers quiere
estudiar el tiempo que le tomaría conducir al
aeropuerto utilizando cada una de las rutas y
luego comparar los resultados. Recopiló los
siguientes datos de la muestra, reportados en
minutos. Utilizando el nivel de significancia
0.10, ¿existe alguna diferencia en la variación
en cuanto a los tiempos de manejo para las
dos rutas?

Los tiempos de manejo medios por las dos rutas son casi iguales. El tiempo medio es de
58.29 minutos por la U. S. 25 y de 59.0 minutos para la 1-75. Sin embargo, al evaluar los
tiempos del recorrido, el señor Lammers también está preocupado por la variación de los tiem-
pos del recorrido. El primer paso es calcular las varianzas de las muestras. Se utilizará la
fórmula (3-11) para calcular las desviaciones estándar de la muestra. Para obtener las var-
ianzas de las muestras, las desviaciones estándar se elevan al cuadrado.

De acuerdo con la desviación estándar, existe mayor variación en la U. S. 25 que en la I-75.


De alguna manera esto concuerda con su conocimiento de las dos rutas; la U. S. 25 tiene
más semáforos, mientras que la I-75 es una carretera interestatal de acceso limitado. Sin
embargo, la I-75 es más larga por muchas millas. Es importante que el servicio ofrecido sea
preciso y consistente, por tanto decide realizar una prueba estadística para determinar si en
realidad existe una diferencia en la variación de las dos rutas.
390 Capítulo 12

Se utilizará el procedimiento habitual de la prueba de hipótesis en cinco pasos.

Paso 1: Empezamos por elaborar la hipótesis nula y la hipótesis alterna. La prueba es


de dos colas ya que se están buscando diferencias en la variación de las dos
rutas. No tratamos de demostrar que una ruta tiene más variación que la otra.

Paso 2: Seleccionamos el nivel de significancia 0.10.


Paso 3: El estadístico de prueba correspondiente sigue la distribución F.
Paso 4: El valor crítico se obtiene del Apéndice G, una parte de la cual se presenta en
la Tabla 12-1. Ya que se realiza una prueba de dos colas, el nivel de siqnifi-
cancia que se ilustra en la tabla es de 0.05, obtenido mediante
grados de libertad en el numerador,
8 - 1 = 7 grados de libertad en el denominador. Para encontrar el nivel críti-
co, desplácese horizontalmente sobre la parte superior de la tabla F (Tabla
12-1 o Apéndice G) a fin de obtener el nivel de significancia 0.05 para 6 gra-
dos de libertad en el numerador. Luego desplácese hacia abajo para encon-
trar el valor crítico, 7 grados de libertad en el denominador. El valor crítico es
3.87. Por tanto, la regla decisiva es: Rechace la hipótesis nula si la razón de
las varianzas muéstrales es superior a 3.87.
Valores críticos de la distribución

Paso 5: El paso final es tomar la razón de las dos varianzas muéstrales, determinar el
valor de la estadística de prueba y tomar una decisión acerca de la hipótesis
nula. Observe que la fórmula (12-1) se refiere a las varianzas muéstrales,
pero se calcularon las desviaciones estándar de la muestra. Es necesario ele-
var al cuadrado las desviaciones estándar para determinar las varianzas.

La decisión es rechazar la hipótesis nula, ya que el valor de F calculado (4.23)


es mayor que el valor crítico (3.87). Llegamos a la conclusión de que existe
una diferencia en la variación de los tiempos del recorrido en ambas rutas.

Como se observó, lo más común es determinar la razón de F colocando la varianza de la


muestra mayor en el numerador. Esto hará que la razón de F sea por lo menos de 1.00, lo
cual nos permitirá siempre utilizar la cola correcta de la distribución F, evitando así la
necesidad de utilizar tablas F más grandes.
Análisis de la varianza 391

En este punto, surge una duda lógica acerca de las pruebas de una cola. Por ejemplo,
suponga que en el ejemplo anterior sospecha que la varianza del número de veces que se
utiliza la carretera U.S. 25 es mayor que la varianza del número de veces que se utiliza la
1-75. Las hipótesis nula y alterna se formularían de la siguiente manera:

La estadística de la prueba se calcula como Observe que se nombró población 1 a


aquella que se sospechaba que tenía una varianza mayor. Por tanto aparece en el
numerador. La razón F será mayor de 1.00, por tanto se puede utilizar la cola superior de
la distribución F. En estas condiciones, no es necesario dividir a la mitad el grado de sig-
nificancia. Ya que el Apéndice G nos proporciona sólo los niveles de significancia 0.05 y
0.01, estamos restringidos a estos niveles para las pruebas de una cola y a 0.10 y 0.02 para
las pruebas de dos colas a menos de que se consulte una tabla más completa o se utilice
un software estadístico para calcular la estadística F.
El programa de Excel tiene un procedimiento para realizar una prueba de varianzas. A
continuación presentamos una pantalla. El valor calculado de F es el mismo que se deter-
minó al utilizar la fórmula (12-1).

Autoevaluación 12-1 Steele Electric Products, Inc. ensambla componentes eléctricos para celulares. Durante los
últimos 10 días Mark Nagy ha acumulado 10 devoluciones, con una desviación estándar de
2 devoluciones por día. Debbie Richmond acumuló 8.5 devoluciones, con una desviación
estándar de 1.5 devoluciones durante el mismo periodo. Con un nivel de significancia 0.05,
¿podemos llegar a la conclusión de que existe una mayor variación en el número de devolu-
ciones por día de Mark?

Ejercicios
1. ¿Cuál es valor crítico de F para una muestra de 6 observaciones en el numerador y 4 obser-
vaciones en el denominador? Utilice una prueba de dos colas y un nivel de significancia de
0.10.
2. ¿Cuál es el valor crítico de F para una muestra de 4 observaciones en el numerador y 7
observaciones en el denominador? Utilice una prueba de dos colas y un nivel de significan-
cia de 0.01.
392 Capítulo 12

3. Dadas las siguientes hipótesis:

Una muestra aleatoria de 8 observaciones de la primera población resultó con una desviación
estándar de 10. Una muestra aleatoria de 6 observaciones de la segunda población resultó
con una desviación estándar de 7. Con un nivel de significancia 0.02, ¿existe una diferencia
en la variación de las dos poblaciones?
4. Dadas las siguientes hipótesis:

Una muestra aleatoria de cinco observaciones de la primera población resultó con una
desviación estándar de 12. Una muestra aleatoria de 6 observaciones de la segunda
población resultó con una desviación estándar de 7. Con un nivel de significancia 0.01,
¿existe una diferencia en la variación en la primera población?
5. Arbitran Media Research, Inc. realizó un estudio de los hábitos de escuchar la radio de hom
bres y mujeres. Una parte del estudio incluyó el tiempo de escucha promedio. Se descubrió
que el tiempo de escucha promedio para los hombres fue de 35 minutos por día. La des
viación estándar de la muestra de los hombres estudiados fue de 10 minutos por día. El
tiempo de escucha promedio para las 12 mujeres estudiadas fue también de 35 minutos,
pero la desviación estándar de la muestra fue de 12 minutos. En un nivel de significancia de
0.10, ¿podemos llegar a la conclusión de que existe una diferencia en la variación de los
tiempos de escucha para hombres y mujeres?
6. Un corredor de bolsa de Critical Securities reportó que la tasa promedio de recuperación de
una muestra de 10 acciones en la industria petrolera fue de 12.6% con una desviación
estándar de 3.9%. La tasa promedio de recuperación de una muestra de 8 acciones en la
industria de los servicios públicos fue de 10.9% con una desviación estándar de 3.5%. Con
un nivel de significancia de 0.05, ¿podemos llegar a la conclusión de que existe una mayor
variación en las acciones de la industria petrolera?

Suposiciones de ANO VA
Otro uso de la distribución F es el análisis de la técnica de la varianza (ANOVA) en donde
se comparan tres o más medias muéstrales para determinar si provienen de poblaciones
iguales. Para utilizar ANOVA, se supone lo siguiente:

1. Las poblaciones siguen la distribución normal.


2. Las poblaciones tienen desviaciones estándar iguales (a).
3. Las muestras se seleccionan de modo independiente.

Cuando se cumplen estas condiciones, F se utiliza como la distribución del estadístico de


la prueba.
¿Por qué necesitamos estudiar ANOVA? ¿Por qué no sólo utilizamos la prueba de las
diferencias de las medias de la población mencionada en el capítulo anterior? Podríamos
comparar dos medias del tratamiento a la vez. La razón principal está relacionada con el
error Tipo I. Para explicarlo, suponga que tenemos cuatro métodos diferentes (A, B, C y D)
de capacitación para el reclutamiento de bomberos. A cada uno de los 40 reclutados se le
asigna al azar uno de los cuatro métodos. Al final del programa de capacitación, se aplica
una prueba común a los cuatro grupos para medir la comprensión de las técnicas de
bomberos. La pregunta es: ¿existe alguna diferencia en las puntuaciones promedio de la
prueba entre los cuatro grupos? La respuesta a esta pregunta permitirá comparar los cua-
tro métodos de capacitación.
El uso de la distribución f da Si utilizamos la distribución f para comparar las medias de las cuatro poblaciones, ten-
lugar a un incremento del error dríamos que realizar seis pruebas diferentes. Es decir, necesitaríamos comparar las pun-
Tipo I. tuaciones promedio para los cuatro métodos de la siguiente manera: A contra B, A contra C,
A contra D, B contra C, B contra D y C contra D. Si se coloca el nivel de significancia en 0.05,
la probabilidad de tomar una decisión estadística correcta es de 0.95, calculada por 1 - 0.05.
Análisis de la varianza 393

Ya que se realizaron seis pruebas separadas (independientes) la probabilidad de que no se


tomen decisiones incorrectas debidas al muestreo en cualquiera de las seis muestras inde-
pendientes es de:

P(Todas correctas) = (0.95)(0.95)(0.95)(0.95)(0.95)(0.95) = 0.735

Para encontrar la probabilidad de que se presente al menos un error debido al muestreo,


restamos este resultado a 1. Por tanto, la probabilidad de que se presente al menos una
decisión incorrecta debida al muestreo es de 1 - 0.735 = 0.265. En resumen, se realizan
seis pruebas independientes utilizando la distribución f, la probabilidad de rechazar una
hipótesis nula verdadera debido al error de muestreo aumenta de 0.05 al nivel insatisfacto-
rio de 0.265. Es evidente que se necesita un mejor método en lugar de seis pruebas t.
ANOVA permitirá comparar de manera simultánea las medias de tratamiento y evitar la for-
mación del error Tipo I.
ANOVA se desarrolló para aplicaciones de agricultura, y se siguen utilizando muchos
de los términos relacionados con ese contexto. En particular, el término tratamiento se uti-
liza para identificar las diferentes poblaciones que se examinan. La siguiente ilustración
aclarará el término tratamiento y mostrará una aplicación de ANOVA.

Joyce Kuhlman dirige un centro financiero regional. Ella desea comparar la productividad,
medida por el número de clientes atendidos, por tres empleados. Se seleccionaron al azar
cuatro días y se registró el número de clientes atendidos por cada empleado. Los resulta-
dos son los siguientes:

¿Existe alguna diferencia en el número promedio de clientes atendidos? La Gráfica 12-1


ilustra cómo se podrían presentar las poblaciones si existiera alguna diferencia en las
medias del tratamiento. Observe que las poblaciones siguen la distribución normal y la
variación de cada población es la misma. Sin embargo, las medias no son iguales.

Caso en que las medias de tratamiento son diferentes

Suponga que las poblaciones son las mismas. Es decir, que no existe ninguna diferen-
cia en las medias (tratamiento), como se muestra en la Gráfica 12-1. Esto indicaría que las
medias de la población son iguales. Observe de nuevo que las poblaciones siguen la dis-
tribución normal y que la variación en cada una de las poblaciones es la misma.
394 Capítulo 12

Caso en que las medias de tratamiento son iguales

La prueba de ANOVA
¿Cómo funciona la prueba de ANOVA? Recuerde que se desea determinar si las diferen-
tes medias de las muestras provienen de una sola población o de poblaciones con diferentes
medias. En realidad, estas medias de las muestras se comparan a través de sus varianzas.
Para explicarlo, recuerde que en la página 392 mencionamos las suposiciones necesarias
para ANOVA. Una de esas suposiciones era que las desviaciones estándar de las diferen-
tes poblaciones normales tenían que ser las mismas. Este requerimiento se utiliza en la
prueba de ANOVA. La estrategia subyacente es calcular la varianza de la población
(desviación estándar al cuadrado) a través de dos formas y luego encontrar la razón de
estos dos cálculos. Si esta razón es aproximadamente 1, por lógica los dos cálculos son
iguales, y podemos llegar a la conclusión de que las medias de la población son las mis-
mas. Si la razón es muy diferente a 1, entonces llegamos a la conclusión de que las medias
de la población no son iguales. La distribución F sirve de arbitro al indicar en qué momento
la razón de las varianzas de las muestras es mucho mayor a 1 y, por tanto, no se haya
presentado por casualidad.
Consulte el ejemplo del centro financiero de la sección anterior. El gerente desea deter-
minar si existe una diferencia en el número de la media de clientes atendidos. Para comen-
zar, encuentre la media total de las 12 observaciones. Ésta es 58, encontrada mediante (55
+ 54 + ... + 48)/12. Luego, para cada una de las 12 observaciones encuentre la diferencia
que existe entre el valor particular y la media total. Cada una de estas diferencias se eleva
al cuadrado y estos cuadrados se suman. Este término se llama variación total.

VARIACIÓN TOTAL, Suma de las diferencias elevadas al cuadrado entre cada obser-
vación y la media total.

En nuestro ejemplo la variación total es 1 082, encontrada así: (55 - 58)2 + (54 - 58)a+ ... +
2
(48 - 58) .
Luego, divida esta variación total en dos componentes: los que se deben a los trata-
mientos y los que son aleatorios. Para encontrar estos dos componentes, determine la
media de cada uno de los tratamientos. La primera fuente de variación se debe a los
tratamientos.

VARIACIÓN DE TRATAMIENTO. Suma de las diferencias elevadas al cuadrado entre la


media de cada tratamiento y la media total o general.
Análisis de la varianza 395

En el ejemplo, la variación debida a los tratamientos es la suma de las diferencias ele-


vadas al cuadrado que existen entre la media de cada empleado y la media total. Este tér-
mino es 992. Para calcularlo primero se encuentra la media de cada uno de los tres
tratamientos. La media para Wolfe es 56, que se obtiene a través de (55 + 54 + 59 + 56)/4.
Las otras medias son 70 y 48, respectivamente. La suma de los cuadrados debida a los
tratamientos es:

Si existe una variación considerable entre las medias de los tratamientos, es lógico que este
término sea extenso. Si las medias de los tratamientos son similares, este término será un
valor bajo. El valor más bajo posible sería cero. Esto sucederá cuando todas las medias de
tratamiento sean las mismas.
La otra fuente de variación se refiere al componente aleatorio, o componente de error.

VARIACIÓN ALEATORIA. Suma de las diferencias elevadas al cuadrado entre las obser-
vaciones y sus medias de tratamiento.

En el ejemplo, este término es la suma de las diferencias elevadas al cuadrado que existen
entre los valores y la media de un empleado en particular. La variación de error es 90.

Determinamos la estadística de la prueba, que es la razón de los dos cálculos de la va-


rianza de la población, a partir de la siguiente ecuación:

Nuestro primer cálculo de la varianza de la población se basa en los tratamientos, es


decir, en la diferencia que existe entre las medias. Éste es 992/2. ¿Por qué se dividió entre
2? Recuerde que en el Capítulo 3 vimos que para encontrar una varianza de la muestra
[véase la fórmula (3-11)], dividimos entre el número de observaciones menos uno. En este
caso existen tres tratamientos, por tanto, dividimos entre 2. Nuestro primer cálculo de la va-
rianza de la población es 992/2.
La varianza calculada dentro de los tratamientos es la variación aleatoria dividida entre
el número total de observaciones menos el número de tratamientos. Ésta es 90/(12 - 3). De
ahí que nuestro segundo cálculo de la varianza de la población sea 90/9. En realidad, se
trata de una generalización de la fórmula (11-5), donde se reunieron las varianzas de la
muestra de las dos poblaciones.
El último paso consiste en tomar la razón de estos dos cálculos.

Ya que esta razón es muy diferente a 1, podemos llegar a la conclusión de que las medias
de tratamiento no son las mismas. Existe una diferencia en el número de la media de
clientes atendidos por los tres empleados.
El siguiente ejemplo utiliza muestras de diferentes tamaños.
396 Capítulo 12

El profesor James Brunner pidió a los estudiantes en su clase de mercadotecnia que cali-
ficaran su desempeño como Excelente, Bueno, Aceptable o Deficiente. Un estudiante de
último año reunió las calificaciones y aseguró a los estudiantes que el profesor Brunner no
las recibiría sino hasta después de enviar las calificaciones del curso a la oficina de registro.
La calificación (es decir, el tratamiento) que un estudiante dio al profesor se cotejó con su
calificación del curso, que podía variar de 0 a 100. La información de la muestra se repor-
ta a continuación. ¿Existe alguna diferencia en la calificación media de los estudiantes en
cada una de las cuatro categorías de calificación? Utilice el nivel de significancia 0.01.

Seguiremos el procedimiento común de la prueba de hipótesis en cinco pasos:

Formular la hipótesis nula y la hipótesis alternativa. La hipótesis nula es


que las calificaciones medias son las mismas para las cuatro categorías.

La hipótesis alternativa es que las calificaciones medias no son iguales para


las cuatro categorías.
No todas las calificaciones medias son iguales.
También se puede pensar que la hipótesis alternativa sea: "por lo menos dos
calificaciones medias no son iguales".
Si la hipótesis nula no se rechaza, llegamos a la conclusión de que no
existen diferencias en la media de las calificaciones del curso con base en las
calificaciones dadas al profesor. Si Ho se rechaza, llegamos a la conclusión de
que existe una diferencia en por lo menos un par de calificaciones medias,
pero en este punto no se sabe qué par o cuántos pares difieren.
Seleccionar el nivel de significancia. Se seleccionó el nivel de significancia
0.01.
Determinar el estadístico de prueba. El estadístico de prueba sigue una dis-
tribución F.
Formule la regla de decisión. Para determinar la regla de decisión, necesi-
tamos el valor crítico. El valor crítico para el estadístico F se encuentra en el
Apéndice G. Los valores críticos para el nivel de significancia 0.05 se encuen-
tran en la primera página y el nivel de significancia de 0.01 en la segunda pági-
na. Para utilizar esta tabla necesitamos conocer los grados de libertad en el
numerador y en el denominador. Los grados de libertad en el numerador son
¡guales al número de tratamientos, designados como k, menos 1. Los grados
de libertad en el denominador son el número total de observaciones, n, menos
el número de tratamientos. Para este problema existen cuatro tratamientos y
un total de 22 observaciones.

Consulte el Apéndice G y el nivel de significancia 0.01. Desplácese horizon-


talmente sobre la parte superior de la página hasta llegar a los 3 grados de
Análisis de la varianza 397

libertad del numerador. Luego descienda en esa columna hasta llegar a la fila
que presenta 18 grados de libertad. El valor en esta intersección es 5.09. Por
tanto la regla de decisión es rechazar Ho si el valor calculado de Fes mayor a
5.09.
Seleccionar la muestra, realizar los cálculos y tomar una decisión. Es
conveniente resumir los cálculos del estadístico F en una tabla ANOVA. El
formato para una tabla ANOVA es el siguiente. Los paquetes de software para
estadística también utilizan este formato.

Existen tres valores, o suma de cuadrados, utilizados para calcular el estadístico de


prueba F. Es posible determinar estos valores al obtener el total de SS y de SSE, y después
encontrar SST a través de la resta. El término total de SS es la variación total, SST es la
variación debida a los tratamientos y SSE es la variación dentro de los tratamientos.
Por lo general, el proceso se inicia encontrando el total de SS. Ésta es la suma de las
diferencias elevadas al cuadrado que existen entre cada observación y la media total. La
fórmula para encontrar el total de SS es:

donde:
es cada observación de la muestra,
es la media total o principal.

Después determine SSE o la suma de los errores al cuadrado. Ésta es la suma de las
diferencias al cuadrado que existen entre cada observación y su respectiva media de
tratamiento. La fórmula para encontrar SSE es:

donde:
es la media de la muestra para el tratamiento c.

A continuación presentamos los cálculos detallados del total de SS y SSE para este
ejemplo. Para determinar los valores del total de SS y SSE se comienza por calcular la
media total o general. Existen 22 observaciones y el total es 1 664, por tanto, la media gene-
ral es de 75.64.
398 Capítulo 12

Luego obtenemos la desviación de cada observación de la media principal, elevamos al


cuadrado esas desviaciones y sumamos este resultado para las 22 observaciones. Por ejem-
plo, el primer estudiante tiene un registro de 94 y la media total o general es 75.64. Por tanto,
A continuación se muestran los cálculos para todos los estu-
diantes

Luego, eleve al cuadrado cada una de estas desviaciones y sume todos los valores. Por
tanto, para el primer estudiante:

Por último, sume todas las diferencias elevadas al cuadrado según lo indica la fórmula (12-2).
El valor del total de SS es 1 485.09.

Para calcular el término SSE, encuentre la desviación que existe entre cada observación y
su media de tratamiento. En el ejemplo, la media del primer tratamiento (es decir, los alum-
nos que dieron al profesor Brunner una calificación de "Excelente") es 87.25. El primer
estudiante obtuvo una calificación de 94, por tanto, Para el
primer estudiante en el grupo de calificación "Bueno" A con-
tinuación presentamos los detalles de cada uno de estos cálculos.

Cada uno de estos valores se eleva al cuadrado y luego se suma para las 22 observa-
ciones. Los valores se incluyen en la siguiente tabla.
Análisis de la varianza 399

Por último, determinamos SST, la suma de los cuadrados debidos a los tratamientos,
por medio de la resta.

Para este ejemplo:

Para encontrar el valor calculado de F, trabaje con la tabla ANOVA. Los grados de libertad
para el numerador y el denominador son los mismos que mencionamos en el paso 4 al bus-
car el valor crítico de F. El término cuadrado de la media es otra expresión que se utiliza
para un cálculo de la varianza. El cuadrado de la media para los tratamientos es SST divi-
dido entre sus grados de libertad. El resultado es el cuadrado de la media para los
tratamientos y se escribe MST. Calcule el error del cuadrado de la media de una manera
similar. Para ser precisos, divida SSE entre sus grados de libertad. Para completar el pro-
ceso y obtener F, divida MST entre MSE.
Inserte los valores particulares de F en una tabla ANOVA y calcule el valor de Fde la
siguiente manera:

El valor calculado de F es 8.99, que es mayor al valor crítico de 5.09; por tanto, la
hipótesis nula se rechaza. Llegamos a la conclusión de que las medias de la población no
son iguales. Los registros de la media no son los mismos en cada uno de los cuatro grupos
calificados. Es probable que las calificaciones que los estudiantes obtuvieron en el curso se
relacionen con la opinión que tuvieron de la capacidad general del maestro y de su desen-
volvimiento en el salón de clases. En este punto sólo podemos llegar a la conclusión de que
existe una diferencia en las medias de tratamiento. No podemos determinar qué grupos de
tratamiento difieren ni cuántos grupos de tratamiento difieren.

Como se mencionó en el ejemplo anterior, los cálculos son tediosos si el número de


observaciones en cada tratamiento es extenso. Existen muchos paquetes de software que
mostrarán los resultados. A continuación se presenta la ventana de Excel en la forma de
una tabla ANOVA para el ejemplo anterior que incluye promedios de estudiantes de una
clase de mercadotecnia. Existen pequeñas diferencias entre la ventana de software y los
cálculos anteriores. Estas diferencias se deben al redondeo.
400 Capítulo 12

Observe que Excel utiliza el término "Betwen Groups" (Entre grupos) para "Tratamientos" y
"Within Groups" (Dentro de grupos) para "Error". Sin embargo, tienen los mismos significa-
dos. El valor p es 0.0007. Ésta es la probabilidad de obtener un valor alto o mayor del
estadístico de la prueba cuando la hipótesis nula es verdadera. En otras palabras, es la pro-
babilidad de calcular un valor F mayor a 8.99 con 3 grados de libertad en el numerador y
18 grados de libertad en el denominador. Por tanto, al rechazar la hipótesis nula en este
ejemplo existe una pequeña probabilidad de cometer un error tipo I.
A continuación se presenta la pantalla de MINITAB para el ejemplo de las calificaciones
de los estudiantes, que es similar a la pantalla de Excel. La pantalla también tiene la forma de
una tabla ANOVA. Además, MINITAB proporciona información sobre las diferencias que exis-
ten entre las medias. Esto se comenta en la siguiente sección.

El programa MINITAB utiliza el término factor en lugar de tratamiento, con el mismo sig-
nificado.
Análisis de la varianza 401

Autoevaluación 12-2 Citrus Clean es un limpiador nuevo multiusos que se está probando colocando exhibidores en
tres lugares diferentes dentro de varios supermercados. El número de botellas de 12 onzas
vendidas en cada lugar dentro del supermercado se reporta de la siguiente manera:

En el nivel de significancia 0.05, ¿existe alguna diferencia en el número de la media de bote-


llas vendidas en los tres lugares?
(a) Formule la hipótesis nula y la hipótesis alternativa.
(b) ¿Cuál es la regla de decisión?
(c) Calcule los valores del total de SS, SST y SSE.
(d) Desarrolle una tabla ANOVA.
(e) ¿Cuál es su decisión en lo que se refiere a la hipótesis nula?

Ejercicios
7. La siguiente es información de una muestra. Pruebe la hipótesis de que las medias de
tratamiento son iguales. Utilice el nivel de significancia 0.05.

a. Formule las hipótesis nula y alternativa.


b. ¿Cuál es la regla de decisión?
c. Calcule los valores del total de SS, SST y SSE.
d. Desarrolle una tabla ANOVA.
e. Comente su decisión acerca de la hipótesis nula.
8. La siguiente es información de una muestra. Pruebe la hipótesis de que las medias de
tratamiento son iguales, en un nivel de significancia 0.05.

a. Formule las hipótesis nula y alternativa.


b. ¿Cuál es la regla de decisión?
c. Calcule los valores del total de SS, SST y SSE.
d. Desarrolle una tabla ANOVA.
e. Comente su decisión acerca de la hipótesis nula.
9. Un constructor de bienes raíces considera invertir en un centro comercial en los suburbios
de Atlanta, Georgia, para lo que evalúa tres terrenos. Es muy importante el ingreso en la
zona que rodea al centro comercial propuesto. Se seleccionó una muestra aleatoria de cua-
tro familias cercanas a cada centro comercial propuesto. A continuación se presentan los
resultados de la muestra. Con un nivel de significancia de 0.05, ¿el promotor inmobiliario
402 Capítulo 12
10. El gerente de una compañía de software desea estudiar, a través del tipo de industria, el

puede concluir que existe una diferencia en los ingresos de la media? Utilice el procedi-
miento usual de prueba de hipótesis en cinco pasos.

número de horas que los directivos pasan frente a sus computadoras de escritorio. El geren-
te seleccionó una muestra de cinco ejecutivos de cada una de las tres industrias. Con un
nivel de significancia de 0.05, ¿podemos llegar a la conclusión de que existe alguna diferen-
cia en el número medio de horas invertidas a la semana por industria?

Inferencias sobre pares


de medias de tratamiento
Suponga que seguimos el procedimiento ANOVA y tomamos la decisión de rechazar la
hipótesis nula. Esto nos permite concluir que no todas las medias de tratamiento son las
mismas. Algunas veces, estaremos de acuerdo con esta conclusión, pero en otros casos
desearemos saber cuáles son las medias de tratamiento que difieren. Esta sección propor-
ciona los detalles para dicha prueba.
Recuerde que en el ejemplo correspondiente a las opiniones y calificaciones de los
estudiantes existía una diferencia en las medias de tratamiento. Es decir, la hipótesis nula
se rechazó y la hipótesis alternativa se aceptó. Si las opiniones de los estudiantes difieren,
ahora la pregunta es: ¿Entre qué grupos difieren las medias de tratamiento?
Existen varios procedimientos para responder esta pregunta. El más sencillo incluye el
uso de intervalos de confianza, es decir, la fórmula (9-2). En la pantalla de software del
ejemplo anterior (consulte la página 400), observe que el registro de la media de la mues-
tra para los estudiantes que presentaron una calificación Excelente es de 87.250, y para los
que presentaron una calificación Deficiente es de 69.000. Por tanto, los estudiantes que
presentaron una calificación Excelente obtuvieron calificaciones más altas que los estudian-
tes que recibieron una calificación Deficiente. ¿Existe suficiente disparidad para justificar la
conclusión de que existe una diferencia importante en las calificaciones medias de ambos
grupos?
La distribución t, que describimos en los Capítulos 10 y 11, se utiliza como la base de
esta prueba. Recuerde que una de las suposiciones de ANOVA es que las varianzas de la
población son las mismas para todos los tratamientos. Este valor común de la población es
el error cuadrado de la media, o MSE, y se determina a través de SSE/(n - k). Un intervalo
de confianza para la diferencia que existe entre dos poblaciones se obtiene a través de:
Análisis de la varianza 403

es la media de la primera muestra.


es la media de la segunda muestra.
se obtiene del Apéndice F. Los grados de libertad son iguales a n-k.
es el error cuadrado de la muestra que se obtiene de la tabla ANOVA [SEE/(n - k)].
es el número de observaciones de la primera muestra.
es el número de observaciones de la segunda muestra.

¿Cómo decidimos si existe una diferencia en las medias de tratamiento? Si el intervalo


de confianza incluye el cero, no existe ninguna diferencia entre las medias de tratamiento.
Por ejemplo, si el extremo izquierdo del intervalo de confianza tiene un signo negativo y el
extremo derecho tiene un signo positivo, el intervalo incluye el cero y las dos medias no
difieren. Por tanto, si desarrollamos un intervalo de confianza a partir de la fórmula (12-5) y ob-
tenemos que la diferencia de las medias de la muestra fue de 5.00, es decir, si

el intervalo de confianza podría variar de -7.00 hasta 17.00.

Expresado en símbolos es:

Observe que el cero se incluye en este intervalo. Por tanto, llegamos a la conclusión de que
no existe una diferencia importante en las medias de tratamiento seleccionadas.
Por otro lado, si los extremos del intervalo de confianza tienen el mismo signo, esto
indica que las medias de tratamiento difieren. Por ejemplo, si

el intervalo de confianza podría variar de -0.60 hasta -0.10. Ya

que -0.60 y -0.10 tienen el mismo signo, ambos negativos, cero no se encuentra en el inter-
valo y llegamos a la conclusión de que estas medias de tratamiento difieren.
Utilizando el ejemplo anterior sobre la opinión de los estudiantes, vamos a calcular el
intervalo de confianza para la diferencia que existe entre las calificaciones medias de todos
los estudiantes que dieron calificaciones de "Excelente" y "Deficiente". Suponga que las
poblaciones se numeraron del 1 al 4. Con un nivel de confianza de 95%, los extremos del
intervalo de confianza son 10.46 y 26.04.

El intervalo de confianza de 95% varía de 10.46 hasta 26.04. Ambos extremos son positivos,
de ahí que se pueda concluir que estas medias de tratamiento difieren en gran medida. Es
decir, los estudiantes que calificaron al profesor como Excelente presentan calificaciones
mucho más elevadas que aquellos que calificaron al profesor como deficiente.
También se pueden obtener resultados similares directamente de la pantalla de
MINITAB. En la página siguiente presentamos la parte inferior de la pantalla de la página
400. En el lado izquierdo se encuentra el número de observaciones, la media y la
desviación estándar para cada tratamiento. Por ejemplo, 7 estudiantes calificaron al profe-
404 Capítulo 12

sor como Aceptable. La calificación promedio del curso es de 72.857. La desviación están-
dar de sus calificaciones es 5.490.

En la parte derecha de la pantalla se encuentra el intervalo de confianza para cada


media de tratamiento. El asterisco (*) indica la ubicación de la media de tratamiento y los
paréntesis indican los extremos del intervalo de confianza. En los casos en que los interva-
los coinciden, las medias de tratamiento no pueden diferir. Si no se presenta ningún área
común en los intervalos de confianza, ese par de medias difiere.
Los extremos de un intervalo de confianza de 95% para las calificaciones de los estu-
diantes que calificaron al profesor como Aceptable son aproximadamente de 69 a 77. Los
estudiantes que calificaron al profesor como Deficiente, presentan extremos del intervalo de
confianza de aproximadamente 64 y 74. Existe un área común en este nivel de confianza,
por tanto, llegamos a la conclusión de que este par de medias no difiere. En otras palabras,
no existe una diferencia importante entre las calificaciones de los estudiantes que califi-
caron al profesor como Aceptable y aquellos que lo calificaron como Deficiente.
Existen dos pares de medias que difieren. Las calificaciones de los estudiantes que
calificaron al profesor como Excelente difieren de aquellas de los estudiantes que lo califi-
caron como Aceptable y de quienes lo calificaron como Deficiente. No existe un área común
entre los dos pares de intervalos de confianza.
Cabe señalar que esta investigación es un proceso minucioso. El paso inicial es realizar
la prueba ANOVA. Sólo rechazamos la hipótesis nula de que las medias de tratamiento son
iguales, podemos realizar un análisis de las medias de tratamiento individuales.

Autoevaluación 12-3 Los datos siguientes corresponden a las colegiaturas semestrales (en miles de dólares) para
una muestra de colegios privados en varias regiones de Estados Unidos. Con un nivel de sig-
nificancia de 0.05, ¿podemos llegar a la conclusión de que existe alguna diferencia en las
colegiaturas medias para las diferentes regiones?

(a) Formule las hipótesis nula y alternativa.


(b) ¿Cuál es la regla de decisión?
(c) Desarrolle una tabla ANOVA. ¿Cuál es el valor del estadístico de la prueba?
(d) ¿Cuál es su decisión acerca de la hipótesis nula?
(e) ¿Podría presentarse una diferencia importante entre la colegiatura media de la región
noreste y oeste? De ser así, desarrolle un intervalo de confianza de 95% para esa diferencia.

Ejercicios
Con la siguiente información de muestra, pruebe la hipótesis de que las medias de trata-
miento son iguales con un nivel de significancia de 0.05.
Análisis de la varianza 405

a. Formule la hipótesis nula y la hipótesis alternativa.


b. ¿Cuál es la regla de decisión?
c. Calcule SST, SSE y el total de SS.
d. Elabore una tabla ANOVA.
e. Establezca su decisión en lo que respecta a la hipótesis nula.
f. Si Ho se rechaza, ¿podemos llegar a la conclusión de que el tratamiento 1 y el tratamien-
to 2 difieren? Utilice el nivel de confianza de 95%.
12. Con la siguiente información muestra, pruebe la hipótesis de que las medias de tratamiento
son iguales con un nivel de significancia de 0.05.

a. Formule la hipótesis nula y la hipótesis alternativa.


b. ¿Cuál es la regla de decisión?
c. Calcule SST, SSE y el total de SS.
d. Elabore una tabla ANOVA.
e. Establezca su decisión acerca de la hipótesis nula.
f. Si Ho se rechaza, ¿podemos llegar a la conclusión de que el tratamiento 2 y el tratamien-
to 3 difieren? Utilice el nivel de confianza de 95%.
13. Una alumna del último año de contabilidad de Midsouth State University tiene ofertas de tra-
bajo de cuatro empresas de contabilidad pública. Para estudiar las ofertas más a fondo, pre-
guntó a una muestra de personas capacitadas recientemente cuántos meses había trabajado
cada una en la empresa antes de recibir un aumento de sueldo. La información de la mues-
tra se presenta a MINITAB con los siguientes resultados:

Con un nivel de significancia de 0.05, ¿existe alguna diferencia en el número medio de meses
antes de que se otorgara un aumento en las cuatro empresas de contabilidad? 14. Un analista de
acciones desea determinar si existe alguna diferencia en la tasa de recuperación media para los
tres tipos de acciones: compañías de servicios públicos, detallistas y bancarias. Obtenemos los
siguientes resultados:
406 Capítulo 12

a. Utilizando un nivel de significancia de 0.05, ¿existe alguna diferencia en la tasa de recu-


peración media de los tres tipos de acciones?
b. Supongamos que la hipótesis nula se rechaza. ¿El analista puede llegar a la conclusión
de que existe alguna diferencia entre las tasas de recuperación media de las acciones de
compañías de servicios públicos de utilidad y las acciones en negocios al detalle? Expli-
que su respuesta.

Análisis de la varianza en dos direcciones


En el ejemplo de las calificaciones de los estudiantes al profesor, dividimos la variación total
en dos categorías: la variación entre los tratamientos y la variación dentro de los tratamien-
tos. A la variación dentro de los tratamientos también le llamamos error o variación aleato-
ria. En otras palabras, consideramos sólo dos fuentes de variación, que se debían a los
tratamientos y a las diferencias aleatorias. En el ejemplo de las calificaciones de los estu-
diantes pudieron existir otras causas de variación en las calificaciones que obtuvieron,
además de la calificación que otorgaron a su profesor. Estos factores pueden incluir el
número de horas por semana de estudio de los alumnos, su capacidad para las matemáti-
cas o el género del estudiante.
La ventaja de considerar otros factores es que podemos reducir la variación del error.
Es decir, si podemos reducir el denominador del estadístico F (reducir la varianza de error o,
de manera más directa, el término SSE), el valor de F será mayor, provocando el rechazo de
la hipótesis de las medias de tratamiento iguales. En otras palabras, si podemos explicar
mayor parte de la variación, existe menos "error". Un ejemplo aclarará la reducción en la
varianza de error.

WARTA (Warren Área Regional Transit Authority) amplía el servicio de autobuses del
suburbio de Starbrick hasta el distrito comercial central de Warren. Se consideran cuatro
rutas de Starbrick al centro de Warren: (1) la carretera U.S. 6, (2) la ruta West End, (3) el
puente de la calle Hickory y (4) la ruta 59. WARTA realizó varias pruebas para determinar
si existía alguna diferencia en los tiempos medios de recorrido por las cuatro rutas. Ya que
habrá diferentes conductores, la prueba se diseñó de modo que cada conductor manejó por
Análisis de la varianza 407

cada una de las cuatro rutas. A continuación, presentamos el tiempo del recorrido, en minu-
tos, para cada combinación de ruta y conductor.
Con un nivel de significancia de 0.05, ¿existe alguna diferencia en el tiempo medio de
recorrido a lo largo de las cuatro rutas? Si eliminamos el efecto de los conductores, ¿existe
alguna diferencia en el tiempo medio de recorrido?

Para empezar, realizamos una prueba de hipótesis con el uso de ANOVA en una dirección.
Es decir, consideramos sólo las cuatro rutas. En esta condición, la variación en los tiempos
del recorrido se debe a los tratamientos o al azar. La hipótesis nula y la hipótesis alternati-
va para comparar el tiempo medio de recorrido en las cuatro rutas es la siguiente:

Existen cuatro rutas, por tanto, los grados de libertad para el numerador son k - 1 = 4 - 1
= 3. Existen 20 observaciones, por tanto, los grados de libertad en el denominador son n -
k= 20 - 4 = 16. Del Apéndice G, con el grado de importancia de 0.05, el valor crítico de F
es 3.24. La regla de decisión es rechazar la hipótesis nula si el valor calculado de F es
mayor a 3.24.
Utilizamos Excel para realizar los cálculos. El valor calculado de F es 1.618, por tanto,
nuestra decisión es aceptar la hipótesis nula. Llegamos a la conclusión de que no existen
diferencias en el tiempo medio de recorrido por las cuatro rutas. No hay razón para selec-
cionar una de las rutas antes que otra.

En la ventana de Excel que mostramos, los tiempos medios de recorrido a lo largo de


las rutas fueron los siguientes: 22 minutos por la U.S. 6, 22 minutos por la ruta West End,
25 minutos utilizando el puente Hickory y 23.8 minutos por la ruta 59. En la tabla ANOVA
observamos lo siguiente: el SST es 32.4, el SSE es 106.8 y el total de SS es 139.2.
Llegamos a la conclusión de que es razonable atribuir estas diferencias a la casualidad.

En el ejemplo anterior, consideramos la variación debida a los tratamientos (rutas) y


consideramos que la variación restante es aleatoria. Sin embargo, las pruebas no estableci-
mos a fin de que cada uno de los cinco conductores manejara a lo largo de cada una de las
cuatro rutas. Si pudiéramos considerar el efecto de los diferentes conductores, será posible
reducir el término SSE, lo que originaría un valor mayor de F. La segunda variable de
tratamiento, en este caso los conductores, recibe el nombre de variable de bloqueo.

VARIABLE DE BLOQUEO. Una segunda variable de tratamiento que cuando se incluye


en el análisis de ANOVA tiene el efecto de reducir el término SSE.
408 Capítulo 12

En este caso, suponemos que los conductores constituyen la variable de bloqueo, y al elimi-
nar el efecto de los conductores del término SSE la razón F cambiará por la variable de
tratamiento. Primero, necesitamos determinar la suma de los cuadrados debidos a los bloques.
En una tabla ANOVA de dos direcciones, la suma de los cuadrados debidos a los bloques
se obtiene a través de la siguiente fórmula:

donde:
es el número de tratamientos.
es el número de bloques.
es la media de la muestra del bloque b.
es la media total o general.

A partir de los cálculos siguientes, las medias de los conductores son de 20 minutos, 22.75
minutos, 22.75 minutos, 24.75 minutos y 25.75 minutos. La media total es de 23.2 minutos,
que obtenemos al sumar el tiempo de recorrido de los 20 conductores (464 minutos) y
dividirlo entre 20.

Al sustituir esta información en la fórmula (12-6) determinamos SSB, la suma de los cuadra-
dos que se debe a los conductores (la variable de bloqueo) es de 78.2.

Utilizamos el mismo formato tanto en la tabla ANOVA en dos direcciones como en la


de una, excepto por la presencia de una hilera adicional para la variable de bloqueo. El total
de SS y SST se calculan como lo hicimos antes, y SSB se obtiene con la fórmula (12-6). El
término SSE se obtiene a través de la resta.

Los valores para los distintos componentes de la tabla ANOVA se calculan de la siguiente
manera:

SSE se obtiene a través de la fórmula (12-7).


Análisis de la varianza 409

Existe un desacuerdo en este punto. Si el objetivo de la variable de bloqueo (los con-


ductores en este ejemplo) fue sólo reducir la variación del error, no se debió haber realiza-
do una prueba de hipótesis para la diferencia de las medias de los bloques. Es decir, si
nuestra meta era reducir el término MSE, entonces no teníamos que probar una hipótesis
acerca de la variable de bloqueo. Por otro lado, tal vez queríamos dar a los bloques la
misma condición que a los tratamientos y realizar una prueba de hipótesis. En el último
caso, cuando los bloques son lo suficientemente importantes para considerarlos como un
segundo factor, nos referimos a este procedimiento como un experimento de dos fac-
tores. En muchos casos, la decisión no está clara. En nuestro ejemplo, nos preocupa la
diferencia del tiempo de recorrido para los diferentes conductores, por tanto se realizará la
prueba de hipótesis. Los dos conjuntos de hipótesis son:
1. Ho: Las medias de tratamiento son iguales
H1 Las medias de tratamiento no son iguales.
2. Ho: Las medias de los bloques son iguales
H1 Las medias de los bloques no son iguales.
Primero, se probará la hipótesis acerca de las medias de tratamiento. Existen k- 1 = 4
- 1 = 3 grados de libertad en el numerador y (b - 1 ) ( k - 1) = (5 - 1 )(4 - 1) = 12 grados de
libertad en el denominador. Al utilizar el nivel de significancia 0.05, el valor crítico de F es
3.49. La hipótesis nula que establece que los tiempos medios para las cuatro rutas son
¡guales se rechaza si la razón F es mayor a 3.49.

La hipótesis nula se rechaza y la alternativa se acepta. Llegamos a la conclusión de que el


tiempo medio de recorrido no es igual para todas las rutas. WARTA deseará realizar algu-
nas pruebas para determinar cuáles son las medias de tratamiento que difieren.
Luego, realizamos la prueba para encontrar si el tiempo de recorrido es el mismo para
los distintos conductores. Los grados de libertad en el numerador para los bloques es b- 1
= 5 - 1 =4. Los grados de libertad para el denominador son los mismos que antes: (b - 1)
(k - 1) = (5 - 1 )(4 - 1) = 12. La hipótesis nula que establece que las medias de los bloqueos
son las mismas se rechaza si la razón F es mayor a 3.26.

La hipótesis nula se rechaza y la alternativa se acepta. El tiempo medio no es el mismo


para todos los conductores. Por tanto, con base en los resultados de la muestra, la geren-
cia de WASTA puede llegar a la conclusión de que existe una diferencia en las rutas y en
los conductores.
La hoja de cálculo de Excel tiene un procedimiento ANOVA en dos direcciones. La pan-
talla para el ejemplo de WASTA se repite en la siguiente página. Los resultados son los mis-
mos que ya se habían reportado. Además, la pantalla de Excel reporta los valores p. El valor
p para la hipótesis nula acerca de los conductores es de 0.002, y 0.024 para las rutas. Estos
valores p confirman que las hipótesis nulas para los tratamientos y bloqueos se deben
rechazar utilizando el nivel de significancia 0.05, ya que el valor p es menor que el nivel de
significancia.
410 Capítulo 12

Autoevaluación 12-4 Rudduck Shampoo vende tres tipos de champú, para cabello seco, normal y graso. La si-
guiente tabla incluye las ventas, en millones de dólares, durante los últimos cinco meses.
Utilizando el nivel de significancia 0.05, pruebe si las ventas medias difieren para los tres tipos
de champú o según el mes.

Ejercicios
Para los ejercicios 15 y 16, realice una prueba de hipótesis para determinar si difieren las medias
de bloqueo o de tratamiento. Utilizando el nivel de significancia 0.05: (a) formule las hipótesis
nula y alternativa para los tratamientos; (b) establezca la regla de decisión para los tratamientos;
(c) formule las hipótesis nula y alternativa para los bloques. También establezca la regla de
decisión para los bloques, luego: (d) calcule SST, SSB, el total de SS y SSE; (e) elabore una
tabla ANOVA, y (f) comente su decisión acerca de los dos conjuntos de hipótesis.

Tenemos la siguiente información para ANOVA en dos direcciones.


Análisis de la varianza 411
17. Chapin Manufacturing Company trabaja 24 horas al día, 5 días a la semana. Los traba-
16. Tenemos la siguiente información para ANOVA en dos direcciones.

jadores se rotan los turnos cada semana. La gerencia quiere saber si existe alguna diferen-
cia en el número de unidades producidas cuando el empleado trabaja en varios turnos, por
lo que seleccionó una muestra de cinco trabajadores y registró los resultados de cada turno.
Con un nivel de significancia de 0.05, ¿podemos llegar a la conclusión de que existe alguna
diferencia en la tasa de producción media por turno o por empleado?

18. En el área de Tulsa, Oklahoma, hay tres hospitales. La siguiente información muestra el
número de cirugías realizadas a pacientes externos en cada hospital durante la última sema-
na. Con un nivel de significancia 0.05, ¿podemos llegar a la conclusión de que existe alguna
diferencia en el número medio de cirugías realizadas según el hospital o el día de la semana?

Resumen del capítulo


I. Las características de la distribución F son:
A. Es continua.
B. Sus valores no pueden ser negativos.
C. Tiene un sesgo positivo.
D. Existe una familia de distribuciones F. Cada vez que cambian los grados de libertad en
el denominador o en el numerador, se crea una nueva distribución.
II. La distribución F se utiliza para probar si dos varianzas de la población son iguales.
A. Las distribuciones de las muestras deben seguir la distribución normal.
B. La más grande de las dos varianzas de las muestras se coloca en el numerador, por lo
que la razón debe ser por lo menos de 1.00.
C. El valor de F se calcula utilizando la siguiente ecuación:
412 Capítulo 12

III. Una ANOVA en una dirección se utiliza para comparar varias medias de tratamiento.
A. Un tratamiento es una fuente de variación.
B. Las suposiciones subyacentes a la ANOVA son las siguientes:
1, Las muestras se toman de poblaciones que siguen la distribución normal.
2, Las poblaciones tienen desviaciones estándar iguales.
3, Las muestras son independientes.
C. La Información para obtener el valor de F se resume en una tabla ANOVA.
1. La fórmula para el total de SS, el total de la suma de los cuadrados, es:

2. SSE, la suma de los errores cuadrados, se obtiene a través de la resta.

3. La fórmula de SST, la suma de los tratamientos cuadrados, es:

4. Esta información se resume en la siguiente tabla y se determina el valor de F.

IV. Si se rechaza la hipótesis nula de que las medias de tratamiento son iguales, podemos iden-
tificar los pares de medias que difieren a partir del siguiente intervalo de confianza.

V. En una ANOVA de dos direcciones consideramos una segunda variable de tratamiento.


A. La segunda variable de tratamiento se llama variable de bloqueo.
B. Ésta se determina utilizando la siguiente ecuación:

C. El término SSE, o la suma de los errores cuadrados, se obtiene de la siguiente ecuación:

D. La estadística F para la variable de tratamiento y la variable de bloqueo se determina en


la siguiente tabla:

Clave de pronunciación
Análisis de la varianza 413

Ejercicios del capítulo


19. Un agente de bienes raíces en el área costera de Georgia desea comparar la variación del
precio de venta de las casas con vista al mar con aquella de las que están a tres cuadras
del mar. Una muestra de 21 casas con vista al mar que se vendieron durante el año pasado
reveló que la desviación estándar de tos precios de venta fue de $45 600. Una muestra de
18 casas vendidas durante el año pasado que estaban de una a tres cuadras del mar reve-
ló que la desviación estándar fue de $21 330. Con un nivel de significancia 0.01, ¿podemos
llegar a la conclusión de que existe mayor variación en los precios de venta de las casas con
vista al mar?
20. Un fabricante de computadoras está por lanzar una nueva computadora personal más rápida.
Es evidente que la nueva máquina es más veloz; sin embargo, las pruebas iniciales indican
que presenta una mayor variación en el tiempo de procesamiento. El tiempo de procesamiento
depende del programa en particular que se ejecute, de la cantidad de datos que se capturen
y de la cantidad de resultados. Una muestra de 16 computadoras, que cubren diversos traba
jos de producción, reveló que la desviación estándar del tiempo de procesamiento fue de 22
(centésimas de segundo) para la máquina nueva y 12 (centésimas de segundo) para la
máquina actual. Con un nivel de significancia 0.05, ¿podemos llegar a la conclusión de que
existe mayor variación en el tiempo de procesamiento de la nueva máquina?
21. En Jamestown, Nueva York, hay dos distribuidoras de Chevrolet. Las ventas medias men-
suales en Sharkey Chevy y Dave Whlte Chevrolet son casi iguales. Sin embargo, Tom
Sharkey, propietario de Sharkey Chevy, considera que sus ventas son más consistentes. A
continuación presentamos el número de automóviles vendidos en Sharkey durante los últi-
mos siete meses y en Dave White durante tos últimos ocho meses. ¿Está usted de acuerdo
con el Sr. Sharkey? Utilice el nivel de significancia 0.01.

22. Se seleccionaron cinco muestras aleatorias de cada una de tres poblaciones. La suma del
total de cuadrados fue de 100. La suma de cuadrados debida a los tratamientos fue de 40.
a. Formule las hipótesis nula y alternativa.
b. ¿Cuál es la regla de decisión? Utilice el nivel de significancia 0.05.
c. Elabore la tabla ANOVA. ¿Cuál es el valor de F?
d. ¿Cuál es su decisión acerca de la hipótesis nula?
23. En una tabla ANOVA, MSE fue igual a 10. Se seleccionaron seis muestras aleatorias de
cada una de cuatro poblaciones, donde la suma del total de cuadrados fue 250.
a. Formule las hipótesis nula y alternativa.
b. ¿Cuál es la regla de decisión? Utilice el nivel de significancia 0.05.
c. Elabore la tabla ANOVA. ¿Cuál es el valor de F?
d. ¿Cuál es su decisión acerca de la hipótesis nula?
24. La siguiente es una tabla ANOVA parcial:

Complete la tabla y responda las siguientes preguntas. Utilice el nivel de significancia 0.05.
a. ¿Cuántos tratamientos hay?
b. ¿Cuál es el tamaño total de la muestra?
c. ¿Cuál es el valor crítico de F?
d. Formule las hipótesis nula y alternativa.
e. ¿A qué conclusión llegó en cuanto a la hipótesis nula?
25. Una organización de consumidores quiere saber si existe alguna diferencia en el costo de
un juguete en particular en tres tipos de tiendas diferentes. El precio del juguete se revisó
en una muestra de cinco tiendas de descuento, cinco tiendas de artículos diversos y cinco
tiendas departamentales. Los resultados se presentan a continuación. Utilice el nivel de sig-
nificancia 0.05.
414 Capítulo 12

26. Un médico especialista en control de peso tiene tres dietas diferentes. Como experimento,
selecciona al azar 15 pacientes y luego asigna una dieta a 5 de ellos. Después de tres sema-
nas observa la reducción de peso en libras. Con un nivel de significancia 0.05, ¿puede lle-
gar a la conclusión de que existe alguna diferencia en el peso medio bajado con cada una
de las tres dietas?

27. La ciudad de Maumee comprende cuatro distritos. Andy North, jefe de policía, quiere deter-
minar si existe alguna diferencia en el número medio de crímenes cometidos entre los cua-
tro distritos. North registró el número de crímenes reportados en cada distrito para una
muestra de seis días. Con un nivel de significancia 0.05, ¿el jefe de policía llega a la con-
clusión de que existe alguna diferencia en el número medio de crímenes?

28. El director de personal de Cander Machine Products investiga el "perfeccionismo" en el tra-


bajo. Una prueba designada para medir el perfeccionismo se aplicó a una muestra aleatoria
de 18 empleados. Los registros variaron de 20 a casi 40. Una de las facetas del estudio
abarcaba los antecedentes inmediatos de cada empleado. ¿El empleado presenta
antecedentes rurales, o proviene de una ciudad pequeña o grande? Las calificaciones son
las siguientes:

a. Con un nivel de 0.05, ¿podemos llegar a la conclusión de que existe alguna diferencia en
la media de los tres registros?
b. Si se rechaza la hipótesis nula, ¿se puede afirmar que la calificación media de los emplea
dos con antecedentes rurales es diferente a aquella de quienes tienen antecedentes de
una ciudad grande?
Análisis de la varianza 415

29. Cuando sólo existen dos tratamientos, la ANOVA y la prueba t de Student (Capítulo 10) dan
2
como resultado las mismas conclusiones. También t = F. Como ejemplo, suponga que 14
estudiantes seleccionados al azar se dividen en dos grupos, uno de 6 estudiantes y el otro
de 8. A un grupo se le enseñó a utilizar una combinación de cátedra e instrucción progra-
mada y al otro a utilizar la combinación de cátedra y televisión. Al final del curso, a cada
grupo se le aplicó una prueba de 50 elementos. A continuación, se presenta una lista del
número correcto para cada uno de los dos grupos.

a. Utilizando el análisis de las técnicas de la varianza, pruebe la Ho de que la calificación


media de ambos grupos en la prueba son iguales;
b. Utilizando la prueba t del Capitulo 10, calcule t.
c. Interprete los resultados.
30. En una comunidad hay cuatro talleres de hojalatería y todos ofrecen atención rápida a sus
clientes. Para saber si existe alguna diferencia en el servicio, se seleccionaron al azar
algunos clientes de cada taller y se registraron los tiempos de espera en días. El resultado
de un paquete de software estadístico es:

¿Existen evidencias que sugieran alguna diferencia en los tiempos de espera medios en los
cuatro talleres de hojalatería? Utilice el nivel de significancia 0.05.
31. En un paquete de software de estadística se capturó el rendimiento de gasolina para una
muestra de 27 automóviles compactos, de tamaño mediano y grande. Se utiliza el análisis
de la varianza para investigar si existe alguna diferencia en el kilometraje de la media de los
tres automóviles. ¿Cuál es su conclusión? Utilice el nivel de significancia 0.01.

Los resultados adicionales se muestran en la página siguiente.


416 Capítulo 12

32. En la producción de un componente determinado para un avión, se utilizan tres líneas de


ensamblaje. Para estudiar la tasa de producción, se selecciona una muestra aleatoria de seis
periodos de una hora para cada línea de ensamblaje y se registra el número de compo-
nentes producidos durante estos periodos para cada línea. Los resultados de un paquete de
software de estadística son los siguientes:

a. Utilice el nivel de significancia 0.01 para probar si existe alguna diferencia en la produc-
ción media de las tres líneas de ensamblaje.
b. Desarrolle un intervalo de confianza de 99% para la diferencia de las medias entre la
Línea B y la Línea C.
33. Un supermercado quiere registrar la cantidad de retiros que sus clientes realizan de los
cajeros automáticos que se localizan dentro de sus tiendas. Se tomaron como muestra 10
retiros de cada ubicación y los resultados del paquete de software de estadística son los
siguientes:

a. Utilice un nivel de significancia 0.01 para probar si existe alguna diferencia en la cantidad
media de dinero retirado.
b. Desarrolle un intervalo de confianza de 90% para la diferencia de las medias entre la
Ubicación X y la Ubicación Z.
34. Hemos leído que una persona graduada de la facultad de administración con una licen-
ciatura gana más que una persona que terminó la secundaria y no tuvo una educación adi-
cional y que una persona que tiene una maestría o un doctorado percibe un salario aún
mayor. Para investigar esto se seleccionó una muestra de 25 gerentes de nivel medio de
Análisis de la varianza 417
Con un nivel de significancia 0.05, pruebe que no existen diferencias en los salarios medios

compañías con menos de 200 empleados. Sus ingresos, clasificados de acuerdo con el nivel
más alto de educación, son los siguientes:

aritméticos de los tres grupos. Si rechaza la hipótesis nula, realice otras pruebas para deter-
minar qué grupos difieren.
35. Shrank's Inc., una empresa publicitaria nacional, desea saber si el tamaño del anuncio publi-
citario y sus colores influyen en la respuesta de los lectores de revistas. A una muestra
aleatoria de lectores se les enseñan anuncios publicitarios de cuatro colores y tres tamaños
diferentes. A cada lector se le pide que califique una combinación particular de tamaño y
color en una escala de 1 a 10. Suponga que las calificaciones siguen la distribución normal.
Las calificaciones para cada combinación aparecen en la siguiente tabla (por ejemplo, la ca-
lificación para un anuncio publicitario pequeño en color rojo es 2).

¿Existe alguna diferencia en la eficacia de un anuncio publicitario basada en el color y el


tamaño? Utilice un nivel de significancia 0.05.
36. En el área de Columbus, Georgia, hay cuatro restaurantes McBurger. A continuación pre-
sentamos el número de hamburguesas vendidas en los restaurantes durante cada una de
las últimas seis semanas. Con un nivel de significancia 0.05, ¿existe alguna diferencia en el
número medio de ventas entre los cuatro restaurantes, al considerar el factor de la semana?

a. ¿Existe alguna diferencia en las medias de tratamiento?


b. ¿Hay alguna diferencia en las medias de bloqueo?
37. La ciudad de Tucson, Arizona, emplea a personas para que valúen las casas a fin de esta-
blecer el impuesto predial. El alcalde de la ciudad envía a cada asesor a las cinco casas y
luego compara los resultados. A continuación se proporciona la información en miles de
dólares. ¿Podemos llegar a la conclusión de que existe alguna diferencia en los asesores,
en un
418 Capítulo 12

a. ¿Existe alguna diferencia en las medias de tratamiento?


b. ¿Hay alguna diferencia en las medias de bloqueo?
38. Martín Motors tiene en bodega tres automóviles del mismo modelo y marca. El presidente
quiere comparar el consumo de gasolina de los tres automóviles (automóvil A, automóvil B
y automóvil C) utilizando cuatro tipos diferentes de gasolina. Para cada prueba, se añadió
un galón de gasolina a un tanque vacío y el automóvil se manejó hasta que se acabó la
gasolina. La siguiente tabla muestra el número de millas recorridas en cada prueba.

Utilizando un nivel de significancia 0.05:


a. ¿Hay alguna diferencia entre los tipos de gasolina?
b. ¿Existe alguna diferencia en los automóviles?
39. Una empresa de investigación quiere comparar las millas por galón de las gasolinas regu-
lar, de grado medio y superpremium. Debido a las diferencias en el rendimiento de cada
automóvil, seleccionó siete automóviles diferentes y los trató como bloques. Por tanto, probó
cada marca de gasolina con cada tipo de automóvil. La siguiente tabla presenta los resulta-
dos de las pruebas, en millas por galón. En el nivel de significancia 0.05, ¿existe alguna
diferencia en las gasolinas o entre los automóviles?

40. Tres cadenas de supermercados en el área de Denver dicen tener los precios más bajos en
general. Como parte de un estudio de investigación sobre la publicidad de los supermerca-
dos, Denver Daily News realizó un estudio. Primero, seleccionó una muestra aleatoria de
nueve artículos. Luego, verificó el precio da cada artículo seleccionado en cada una de las
tres cadenas el mismo día. Con un nivel de significancia 0.05, ¿existe alguna diferencia en
los precios medios del supermercado o para los artículos?
Análisis de la varianza 419

41. A continuación se mencionan los pesos (en gramos) de una muestra de grageas M&M, clasi-
ficados según su color. Utilice el software de estadística para determinar si existe alguna
diferencia en los pesos medios de los dulces de diferentes colores. Utilice un nivel de signifi-
cancia 0.05.

42. Existen cuatro estaciones de radio en Midland. Las estaciones tienen diferentes formatos
(rock pesado, música clásica, música western/country y música instrumental); sin embargo,
cada estación quiere conocer el número de minutos que transmite música cada hora. De una
muestra de 10 horas de cada estación, se proporcionan las siguientes medias de la muestra.

a. Determine SST.
b. Determine SSE.
c. Elabore una tabla ANOVA.
d. Con un nivel de significancia 0.05, ¿existe alguna diferencia en las medias de tratamiento?
e. ¿Existe alguna diferencia en la cantidad media del tiempo de música entre la estación 1
y la estación 4? Utilice el nivel de significancia 0.05.

exercises.com
43. En la actualidad, muchas compañías de bienes raíces y agencias de arrendamiento publican
sus listas en el Web. Un ejemplo es Dunes Realty Company, ubicada en Garden City Beach,
Carolina del Sur. Visite su página, hup://www.dunes.com, seleccione Beach House Search,
luego indique 5 habitaciones, lugar para 14 personas, segunda fila (esto significa que el mar
está al otro lado de la calle), sin alberca, seleccione un periodo de julio y agosto, indique que
desea gastar $8 000 por semana y luego haga clic en Search the Beach Houses. El resul
tado deberá incluir los detalles de las casas en la playa que cubren sus necesidades. Con un
nivel de significancia 0.05, ¿existe alguna diferencia en los costos de renta medios para dis
tintos números de habitaciones? (Tal vez quiera combinar algunas de las casas más grandes,
como las que tienen 8 habitaciones o más.) ¿Qué pares de las medias difieren?
44. Los porcentajes de cambios trimestrales del producto interno bruto para 20 países se
encuentran en la página siguiente: http://www.oecd.org, seleccione Statistics, National
Accounts y Quarterly Growth Rates in GDP. Copie la información sobre Alemania, Japón
y Estados Unidos en tres columnas en MINITAB o Excel. Realice una ANOVA para saber si
existen diferencias de las medias. ¿Cuáles son sus conclusiones?

Ejercicios de la base de datos


45. Consulte los datos Real Estate, que proporcionan información sobre las casas vendidas en
el área de Denver, Colorado, durante el año pasado.
420 Capítulo 12

a. Con un nivel de significancia 0.02, ¿existe alguna diferencia en la variabilidad de los pre-
cios de venta de las casas con alberca en comparación con las que no tienen alberca?
b. Con un nivel de significancia 0.02, ¿existe alguna diferencia en la variabilidad de los pre-
cios de venta de las casas que tienen cochera en comparación con las que no tienen
cochera?
c. Con un nivel de significancia 0.05, ¿existe alguna diferencia en el precio de venta medio
de las casas de los cinco municipios?
46. Consulte los datos Baseball 2002, que reportan información sobre los 30 equipos de béis-
bol de las Grandes Ligas para la temporada 2002.
a. Con un nivel de significancia 0.10, ¿existe alguna diferencia en la variación del número
de bases robadas entre ios equipos que juegan en pasto natural en comparación con los
que juegan en pasto artificial?
b. Establezca una variable que clasifique la asistencia total de equipo en tres grupos: menos
de 2.0 (millones), de 2.00 a 3.0, y de 3.0 en adelante. En un nivel de significancia de 0.05,
¿existe alguna diferencia en el número de juegos promedio ganados entre los tres gru-
pos? Utilice un nivel de significancia 0.01.
c. Utilizando la misma variable de asistencia desarrollada en el inciso (b), ¿existe alguna
diferencia en el promedio de bateo del equipo? Utilice un nivel de significancia 0.01.
d. Empleando la misma variable de asistencia desarrollada en el inciso (b), ¿existe alguna
diferencia en el salario de la media de los tres grupos? Use un nivel de significancia 0.01.
47. Consulte los datos Wage, que proporcionan información sobre los salarios anuales para una
muestra de 100 trabajadores. También se incluyen variables relacionadas con la industria,
años de educación y género de cada trabajador.
a. Realice una prueba de hipótesis para determinar si existe alguna diferencia en el salario
anual medio para los trabajadores de las tres industrias. Si existe alguna diferencia en las
medias, ¿qué pares de medias difieren? Utilice un nivel de significancia 0.05.
b. Realice una prueba de hipótesis para determinar si existe alguna diferencia en el salario
anual medio para los trabajadores de las seis diferentes ocupaciones. Si existe alguna di
ferencia en las medias, ¿qué pares de medias difieren? Utilice el nivel de significancia 0.05.

Comandos de software
1. Los comandos de Excel para la prueba de varianzas de
la página 391 son:
a. Inserte la información para la carretera U.S. 25 en la
columna A y para la I-75 en la columna B. Identifique
las dos columnas.
b. Haga clic en Tools, Data Analysis, seleccione F-
Test: Two-Sample for Variances y haga clic en OK.
c. El rango de la primera variable es A1:A8 y B1:B9
para la segunda, haga clic en Labels, seleccione
D1 para el rango de salida y haga clic en OK.

2. Los comandos de Excel para ANOVA en una dirección


de la página 400 son:
a. Capture la información en cuatro columnas tituladas:
Excelente, Bueno, Aceptable y Deficiente.
b. Haga clic en Tools en la Barra de Herramientas de
Excel y seleccione Data Analysis. En el cuadro de
diálogo seleccione ANOVA, Single Factor, y haga
clic en OK.
c. En el cuadro de diálogo, establezca el rango de
entrada A1:D8, haga dicen Grouped by Columns,
haga clic en Labels in First Row, el cuadro de texto
Alpha es 0.05, y finalmente seleccione el Output
range como G1 y haga clic en OK.
Análisis de la varianza 421

3. Los comandos de MINITAB para la ANOVA de una


dirección de la página 400 son:
a. Coloque la información en cuatro columnas e identi-
fique las columnas como Excelente, Bueno, Acepta-
ble y Deficiente.
b. Seleccione Stat, ANOVA y Oneway (Unstacked) y
haga clic en OK.

4. Los comandos de Excel para la ANOVA en dos direc-


ciones de la página 410 son:
a. En la primera fila de la primera columna escriba la
palabra Conductores, luego numere los cinco con
ductores en la primera columna. En la primera fila
de las próximas cuatro columnas escriba el nombre de
las rutas. Escriba la información correspondiente a
cada nombre de la ruta.
b. Seleccione Tools, Data Analysis y ANOVA: Two-
Factor Without Replication, y luego haga clic en
OK.
c. En el cuadro de diálogo, el Input Range es Al: E6,
haga clic en Labels, seleccione A10 para Output
Range y luego haga clic en OK.
422 Capítulo 12

Capítulo 12 Respuestas a las autoevaluaciones


Sección 4 423

Repaso de los capítulos 10 al 12


Esta sección es un repaso de los conceptos y términos principales introducidos en los Capítulos 10, 11 y 12.
El Capítulo 10 comenzó nuestro estudio de la prueba de hipótesis. Una hipótesis es una afirmación sobre el
valor de un parámetro de una población. En las pruebas de hipótesis estadísticas, empezamos por estable-
cer una afirmación sobre el valor del parámetro de la población en la hipótesis nula. Formulamos la hipóte-
sis nula con el objetivo de realizar las pruebas. Al terminar la prueba, nuestra decisión es rechazar o aceptar
la hipótesis nula. Si rechazamos la hipótesis nula, llegamos a la conclusión de que la hipótesis alternativa es
verdadera. La hipótesis alternativa se "acepta" sólo si se demuestra que la hipótesis nula es falsa. También
nos referimos a la hipótesis alternativa como hipótesis de investigación. La mayor parte de las veces deseamos
probar la hipótesis alternativa.
En el Capítulo 10, seleccionamos muestras aleatorias de una sola población y probamos si era razona-
ble que el parámetro de la población en estudio igualara un valor en particular. Por ejemplo, queremos inves-
tigar si el tiempo medio de duración en el puesto para los directores ejecutivos de grandes empresas es de
12 años. Seleccionamos una muestra de directores ejecutivos, calculamos la media de la muestra y com-
paramos la media de la muestra con la población. La población en consideración está formada por los direc-
tores ejecutivos de las empresas grandes. Describimos métodos para realizar la prueba cuando tenemos la
desviación estándar de la población, cuando la muestra es grande (por lo general de 30 o más) y cuando la mues-
tra es pequeña. También, en el Capítulo 10 realizamos pruebas de hipótesis sobre una proporción de la
población. Una proporción es la fracción de individuos u objetos que poseen una característica determinada.
Por ejemplo, los registros de la industria indican que 70% de las ventas de gasolina para los automóviles son
de gasolina regular. Una muestra de 100 ventas del mes pasado en Pantry Conway reveló que 76 fueron de
gasolina regular. ¿Los dueños pueden llegar a la conclusión de que más de 70% de los clientes compran ga-
solina regular?
En el Capítulo 11 se amplió la idea de la prueba de hipótesis para comparar si dos muestras aleatorias
independientes provienen de poblaciones que presentan las mismas medias poblacionales. Por ejemplo, St.
Mathews Hospital maneja salas de urgencias en las zonas de norte y sur de Knoxville, Texas. La pregunta
de investigación es: ¿el tiempo de espera medio es igual para los pacientes que visitan ambas salas? Para
investigar, seleccionamos una muestra aleatoria de cada una de las clínicas y calculamos las medias de la
muestra. Probamos la hipótesis nula de que el tiempo de espera medio es igual en ambas clínicas. La hipóte-
sis alternativa es que el tiempo de espera medio no es igual en las dos salas de urgencias. Si ambas mues-
tras son por lo menos de 30, utilizamos la distribución z como la distribución del estadístico de la prueba. Si
una de las muestras es menor que 30, el estadístico de la prueba sigue la distribución t.
Los comentarios del Capítulo 11 también comprenden las muestras dependientes. Para éstas, apli-
camos la prueba de las diferencias por pares. El estadístico de prueba es la distribución t. Un problema típi-
co de muestra por pares es el registro de la presión sanguínea de un individuo antes y después de
administrar el medicamento, a fin de evaluar su eficacia. También consideramos el caso en el que es nece-
sario probar dos proporciones de la población. Por ejemplo, el gerente de producción quiere comparar la pro-
porción de defectos en el turno matutino con los del segundo turno.
En el Capítulo 11 estudiamos la diferencia que existe entre dos medias poblacionales. El Capítulo 12 pre-
sentó las pruebas de las varianzas y un procedimiento llamado análisis de la varianza, o ANOVA, utilizado para
determinar de manera simultánea si varias poblaciones normales e independientes tienen las mismas medias.
Esto se logró al comparar las varianzas de las muestras aleatorias seleccionadas de estas poblaciones.
Aplicamos el procedimiento usual de prueba de hipótesis, pero utilizamos la distribución F como el estadístico
de prueba. En general, los cálculos son tediosos, por tanto, recomendamos el uso de un paquete de software.
Como un ejemplo de análisis de la varianza, podríamos realizar una prueba para saber si existe una
diferencia en la eficacia entre los cinco fertilizantes. Este tipo de análisis se llama ANOVA de un factor ya
que podemos obtener conclusiones acerca de un solo factor, llamado tratamiento. Si queremos obtener con-
clusiones sobre los efectos simultáneos de más de un factor o variable, se aplica la técnica ANOVA de dos
factores. Tanto la prueba de un factor como la prueba de dos factores utilizan la distribución F como la dis-
tribución del estadístico de prueba. La distribución F es también la distribución del estadístico de prueba que
se usa para encontrar si una población normal tiene más variación que otra.

GLOSARIO

Capitulo 10 Error Tipo I Se presenta cuando se rechaza una HQ ver-


dadera.
Alfa Probabilidad de un error Tipo I o el nivel de significan-
cia. Su símbolo es la letra griega α. Error Tipo II Se presenta cuando se acepta una Ho falsa.
424 Repaso de los capítulos 10 al 12

Grados de libertad Número de elementos de una muestra Es similar a la distribución estándar normal presentada en el
que no varía. Suponga que existen dos elementos en una Capítulo 7. Las características principales de f son:
muestra, y conocemos la media. Tenemos la libertad de 1. Es una distribución continua.
especificar sólo uno de los dos valores, ya que el otro valor 2. Puede asumir valores entre menos infinito y más infinito.
se determina de manera automática (ya que el total de los 3. Es simétrica en cuanto a la media de cero. Sin embar-
dos valores es el doble de la media). Ejemplo: si la media es go, es más dispersa y plana en su vértice que la dis-
$6, tenemos la elección de escoger sólo un valor. El hecho tribución normal estándar.
de escoger $4 hace que el otro valor sea de $8 ya que $4 + 4. Se aproxima a la distribución normal estándar cuando n
$8 = 2($6). Por tanto hay un grado de libertad en esta ilus- es mayor.
tración. Podemos determinar los grados de libertad a través 5. Existe una familia de distribuciones f. Hay una distribu-
de n - 1 = 2 - 1 = 1. Si n es 4, entonces existen 3 grados de ción f para una muestra de 15 observaciones, otra para
libertad, lo cual se obtiene a través de n - 1 = 4 - 1 =3. 5, y así sucesivamente.
Hipótesis Afirmación sobre el valor de un parámetro de la Muestras dependientes Las muestras dependientes se
población. Ejemplos: 40.7% de todas las personas de 65 caracterizan por una medida, luego un tipo de intervención,
años de edad en adelante viven solas. El número de la seguido de otra medida. Las muestras por pares también
media de las personas que tienen automóvil es de 1.33. son dependientes ya que el mismo individuo o elemento es
Hipótesis alternativa Conclusión que se acepta cuando se un miembro de ambas muestras. Ejemplo: diez participantes
demuestra que la hipótesis nula es falsa. También se llama en una maratón se pesaron antes y después de la compe-
hipótesis de investigación. tencia de carreras. Queremos estudiar la cantidad media de
Proporción Fracción o porcentaje de una muestra o una pérdida de peso.
población que presenta una característica particular. Si a 5 Muestras independientes Muestras que se seleccionan al
personas de 50 en una muestra les gusta el nuevo cereal, la azar y que no se relacionan entre sí. Queremos estudiar la
proporción es de 5/50 o de 0.10. edad media de los presos en las prisiones de Auburn y
Prueba de dos colas Se utiliza cuando la hipótesis alterna Allegheny. Seleccionamos una muestra aleatoria de 28 pre-
no establece una dirección, como que se inter- sos de la prisión de Auburn y una muestra de 19 presos de
preta como "la media de la población no es igual a 75". la prisión de Allegheny. Una persona no puede estar pri-
Existe una región de rechazo en cada cola. Prueba de sionera en ambas cárceles. Las muestras son independien-
hipótesis Es un procedimiento estadístico, basado en tes, es decir, no se relacionan.
evidencias de la muestra y en la teoría de la probabilidad, que
se utiliza para determinar si la afirmación sobre el Capítulo 12
parámetro de la población es una afirmación razonable.
Análisis de la varianza (ANOVA) Técnica utilizada para
Prueba de una cola Se utiliza cuando la hipótesis alterna
probar de manera simultánea si las medias de poblaciones
establece una dirección como que se interpreta
como "la media de la población es mayor que 40". Aquí la diferentes son iguales. Usa la distribución F como la dis-
tribución de la estadística de prueba. Bloque Una segunda
zona de rechazo se encuentra sólo en una cola (la derecha).
fuente de variación, además de los tratamientos.
Valor crítico Valor que constituye el punto divisorio entre
la región en la que se acepta la hipótesis nula y la región en la Distribución F Se utiliza como el estadístico de prueba pa-
que se rechaza. ra los problemas ANOVA, y de otro tipo. Las características
principales de la distribución F son:
Valor p Probabilidad de calcular un valor de la estadística
1. Nunca es negativa.
de la prueba por lo menos tan extremo como el que se
encuentra en la información de la muestra cuando la hipóte- 2. Es una distribución continua que se aproxima al eje X
sis nula es verdadera. pero nunca lo toca.
3. Se representa de manera positiva.
Capítulo 11 4. Se basa en dos conjuntos de grados de libertad.
5. Como en el caso de la distribución t, también existe una
Cálculo conjunto de la varianza de la población Prome- "familia" de distribuciones F. Existe una distribución para
dio ponderado de que se utiliza para calcular la vari- 17 grados de libertad en el numerador y 9 grados de
anza común, cuando se manejan muestras libertad en el denominador, existe otra distribución F
pequeñas para probar la diferencia entre dos medias para 7 grados de libertad en el numerador y para 12 gra
poblacionales. Distribución f Término que William S. dos de libertad en el denominador, y así sucesivamente.
Gossett investigó y reportó en 1908 y que publicó bajo el
seudónimo de Student.

Ejercicios
Parte I - Opción múltiple
1. En una prueba de una cola que utiliza la distribución z como el estadístico de prueba y un
nivel de significancia 0.01, ¿cuál de los siguientes es su valor crítico?
a. -1.96 0+1.96. d. 0 o 1 .
b. -1.65 o +1.65. e. Ninguno de los anteriores.
c. -2.58 o +2.58.
Sección 4 425

2. Un error Tipo II se comete si:


a. Se rechaza una hipótesis nula verdadera.
b. Se acepta una hipótesis alternativa verdadera.
c. Se rechaza una hipótesis alternativa verdadera.
d. Se aceptan tanto la hipótesis nula como la hipótesis alternativa a la vez.
e. Ninguna de las anteriores.
3. Las hipótesis son libras de presión y libras de presión.
a. Se aplica una prueba de una cola.
b. Se aplica una prueba de dos colas.
c. Se aplica una prueba de tres colas.
d. Se aplica una prueba equivocada.
e. Ninguna de las anteriores.
4. El nivel de significancia 0.01 se utiliza en un experimento, y se aplica una prueba de una
cola con la región de rechazo ubicada en la cola inferior. La z calculada es -1.8. Esto indi-
ca que:
a. No debemos rechazar Ho.
b. Debemos rechazar Ho y aceptar H1
c. Debemos tomar una muestra más grande.
d. Debemos utilizar el nivel de significancia 0.05.
e. Ninguna de las anteriores.
5. El estadístico de prueba para una hipótesis sobre las medias de una muestra pequeña cuan
do no se conoce la desviación estándar es:

6. Queremos probar una hipótesis sobre la diferencia entre dos medias de la población. La
hipótesis alternativa v la hipótesis nula se establecen como:

a. Debemos aplicar una prueba de cola izquierda.


b. Debemos aplicar una prueba de dos colas.
c. Debemos aplicar una prueba de cola derecha.
d. No podemos determinar si debemos aplicar una prueba de cola izquierda o derecha o de
dos colas con base en la información proporcionada.
e. Ninguna de las anteriores.
7. La distribución F:
a. No puede ser negativa. d. Es igual que la distribución z.
b. No puede ser positiva. e. Ninguna de las anteriores.
c. Es igual que la distribución t.
8. Cuando el tamaño de la muestra aumenta, la distribución í se aproxima a:
a. ANOVA.
b. Distribución normal estándar o la distribución z.
c. La distribución de Poisson.
d. Cero.
e. Ninguna de las anteriores.
9. Para realizar una prueba de diferencias por pares, las muestras deben ser:
a. Infinitamente grandes. d. Dependientes.
b. Iguales a ANOVA. e. Ninguna de las anteriores.
c. Independientes.
10. Se realizó una prueba ANOVA en relación a la media de la población. La hipótesis nula se
rechazó. Esto indica que:
a. Había muchos grados de libertad.
b. No existen diferencias entre las medias poblacionales.
c. Existen diferencias entre por lo menos dos medias poblacionales.
d. Se debió seleccionar una muestra más grande.
e. Ninguna de las anteriores.

Parte II. Problemas


Para cada uno de los problemas siguientes establezca: (a) la hipótesis nula y la hipótesis alter-
nativa, (b) la regla de decisión, (c) la decisión acerca de la hipótesis nula, (d) luego interprete el
resultado.
426 Repaso de los capítulos 10 al 12

11. Una máquina se programa para producir pelotas de tenis de modo que el rebote de la media
sea de 36 pulgadas cuando la pelota caiga desde una plataforma de una altura determina
da. El supervisor sospecha que la media del rebote cambió y es menor a 36 pulgadas. Como
un experimento se dejaron caer 42 pelotas desde la plataforma y la altura de la media del
rebote fue de 35.5 pulgadas, con una desviación estándar de 0.9 pulgadas. Con un nivel de
significancia 0.05, ¿el supervisor puede llegar a la conclusión de que la altura del rebote de la
media es menor de 36 pulgadas?
12. Investigaciones realizadas por Illinois Banking Company reportaron que sólo 8% de sus
clientes esperan más de cinco minutos para realizar sus transacciones bancarias cuando no
utilizan las instalaciones de acceso rápido. La gerencia considera que esto es razonable y
no añadirá más cajeros a menos de que la proporción sea mayor de 8%. El gerente de la
sucursal en Litchfield considera que, en su sucursal, la espera es mayor al estándar y solicitó
cajeros de medio tiempo. Para respaldar su solicitud reportó que en una muestra de 100
clientes, 10 esperaron más de cinco minutos. Con un nivel de significancia 0.01, ¿sería
razonable llegar a la conclusión de que más de 8% de los clientes esperan más de cinco
minutos?
13. Se creía que los trabajadores de construcción de caminos no realizan un trabajo productivo
durante un promedio de 20 minutos de cada hora. Algunos afirmaban que el tiempo no pro
ductivo es mayor a 20 minutos. Se realizó un estudio reciente en el lugar de construcción,
utilizando un cronómetro y otras formas de revisar los hábitos laborales. Una revisión aleato
ria de los trabajadores reveló los siguientes tiempos no productivos, en minutos, durante un
periodo de una hora (sin tomar en cuenta los descansos programados en forma regular):

Utilizando un nivel de significancia 0.05, ¿sería razonable llegar a la conclusión de que el


tiempo no productivo medio es mayor a 20 minutos?
14. Se va a realizar una prueba que abarca el poder de soporte medio de dos pegamentos dise-
ñados para plástico. Primero, un gancho pequeño de plástico se cubrió en una de sus orillas
con el pegamento Epox y se sujetó a una hoja de plástico. Cuando se secó, se añadió peso
al gancho hasta que éste se separó de la hoja de plástico. Se registró el peso. Esto se repitió
hasta que se probaron 12 ganchos. Se siguió el mismo procedimiento para el pegamento
Holdtite, pero sólo se utilizaron 10 ganchos. Los resultados, en libras, fueron los siguientes:

Con un nivel de significancia 0.01, ¿existe alguna diferencia entre el poder de soporte medio de
Epox y el de Holdtite?
15. Pittsburg Paints quiere probar un aditivo formulado para incrementar la vida de las pinturas
utilizadas en el suroeste de Estados Unidos. La parte media superior de una pieza de
madera se pintó utilizando pintura regular. La parte media inferior se pintó con pintura que
incluía aditivo. Se siguió el mismo procedimiento para un total de 10 piezas. Después, cada
pieza se sometió a alta presión hidráulica y a la luz brillante. A continuación, presentamos
la información, el número de horas que cada pieza duró antes de desaparecer más allá de
un punto determinado:

Utilizando un nivel de significancia 0.05, determine si el aditivo es efectivo para prolongar la vida
de la pintura.
16. El distribuidor de refresco de cola de Búfalo, Nueva York, presenta una oferta especial en
empaques de 12, y se pregunta en qué parte de los supermercados se deben colocar los
refrescos para captar más la atención. ¿Debe ser cerca de la puerta principal de los super-
Sección 4 427

mercados, en la sección de refrescos de cola, en las cajas registradoras o cerca de la leche


y de otros productos lácteos? Cuatro tiendas con ventas totales similares cooperaron en un
experimento. En una tienda se colocaron los paquetes de 12 cerca de la puerta principal, en
otra se colocaron cerca de las cajas registradoras, y así sucesivamente. Las ventas se veri-
ficaron a horas específicas en cada tienda durante cuatro minutos exactamente. Los resul-
tados fueron los siguientes:

El distribuidor de Búfalo desea averiguar si existe alguna diferencia en las ventas medias de
los refrescos que se colocaron en los cuatro lugares de la tienda. Utilice el nivel de signifi-
cancia 0.05.

Casos
A. Century National Bank B. Bell Grove Medical Center
Consulte la descripción del Century National Bank al final del La señorita Gene Dempsey dirige la sala de urgencias de Bell
Repaso de los Capítulos 1 a 4 en la página 137. Grove Medical Center. Una de sus responsabilidades es
Con la existencia de otras opciones disponibles, los tener enfermeras suficientes para que a los pacientes que
clientes ya no permiten que su dinero permanezca estático ingresan solicitando el servicio se les atienda lo más rápido
en una cuenta de cheques. Durante muchos años el saldo posible. Aun cuando su condición no ponga en peligro su
medio en las cuentas de cheques ha sido de $1 600. ¿La vida, resulta estresante para los pacientes esperar mucho
información de la muestra indica que el saldo medio de las tiempo para recibir atención en la sala de urgencias. La
cuentas ha bajado? señorita Dempsey recopiló la siguiente información acerca
En años recientes también se ha presentado un incre- del número de pacientes durante las últimas semanas. La
mento en el uso de los cajeros automáticos. Cuando el clínica no está abierta los fines de semana. ¿Existen diferen-
señor Selig tomó la administración del banco, el número cias en el número de pacientes atendidos por día de la sema-
medio de transacciones por cliente al mes era 8; ahora con- na? Si es así, ¿qué días parecen ser los más ocupados?
sidera que ha aumentado a más de 10. De hecho, la agen-
cia de publicidad que hace los comerciales de TV para
Century quiere incluir esta información en un nuevo comer-
cial. ¿Existen pruebas suficientes para llegar a la conclusión
de que el número medio de transacciones por cliente es más
de 10 por mes? ¿La agencia de publicidad podría decir que
la media es mayor de 9 al mes?
El banco tiene sucursales en cuatro ciudades diferen-
tes: Cincinnati, Ohio; Atlanta, Georgia; Louisville, Kentucky,
y Erie, Pennsylvania. El Sr. Selig quiere saber si existe algu-
na diferencia en los saldos medios de las cuentas de
cheques entre las cuatro sucursales. Si las hay, ¿entre qué
sucursales se presentan estas diferencias?
El señor Selig también se interesa en los cajeros auto-
máticos. ¿Existe alguna diferencia en el uso de los cajeros
entre las sucursales? ¿Los clientes que tienen tarjetas de
débito suelen utilizar los cajeros automáticos de diferente
manera a los que no las tienen? ¿Existe alguna diferencia en
el uso de los cajeros por parte de los que tienen cuentas de
cheques y que pagan intereses en comparación con aquellos
que no tienen cuentas de cheques? Prepare un informe para
el señor Seling respondiendo a estas preguntas.
Regresión lineal
y correlación

Una tienda de aparatos electrónicos con sucursales en Nueva Inglaterra planea transmitir un
comercial para una cámara digital en estaciones de televisión seleccionadas antes de una
venta de fin de semana. El gerente general de ventas planea registrar la información de
ventas para sábado y domingo en las distintas tiendas y compararla con el número de veces
que el anuncio apareció en la estación de televisión local. Espera saber si hay una relación
entre el número de veces que se transmitió el comercial y las ventas de cámaras digitales.
Calcule el coeficiente de determinación. (Vea la Meta 3 y el Ejercicio 3.)
Regresión lineal y correlación 429

Introducción
Los Capítulos 2 a 4 manejan la estadística descriptiva. Organizamos los datos en bruto en
una distribución de la frecuencia, y calculamos varias medidas de ubicación y de dispersión
para describir las principales características de la
información. El Capítulo 5 empezó el estudio de la
inferencia estadística. Enfatizamos sobre todo el
hecho de inferir algo acerca de un parámetro de
la población, como la media pobla-cional, con
base en una muestra. Probamos lo razonable de
la media de una población o de la proporción de
una población, la diferencia entre dos medias
poblacionales o si varias medias poblacionales
eran iguales. Todas estas pruebas comprendían
sólo una variable de intervalo o de nivel de razón,
como el peso de una botella de plástico con
refresco, el ingreso de los presidentes de un banco o el número de pacientes admitidos en
un hospital en particular.
En este capítulo, enfatizamos el estudio de dos variables. Recuerde que en el Capítulo
4 presentamos la ¡dea de mostrar la relación entre dos variables con un diagrama de dis-
persión. Trazamos los precios de los vehículos vendidos en Whitner Autoplex sobre el eje
vertical y la edad del comprador sobre el horizontal. Vea la pantalla del software estadísti-
co en la página 119. En ese caso observamos que, conforme aumenta la edad del com-
prador, la cantidad gastada en el vehículo también se incrementa. En este capítulo llevamos
esa idea más allá de esos conceptos; es decir, desarrollamos las medidas numéricas para
expresar la relación entre dos variables. ¿La relación es fuerte o débil, es directa o inver-
sa? Además, desarrollamos una ecuación para expresar la relación entre variables. Esto
nos permitirá calcular una varible con base en otra. Éstos son algunos ejemplos.

• ¿Existe alguna relación entre la cantidad que Healthtex gasta al mes en publicidad y las
ventas mensuales?
• ¿Podemos basar un estimado del costo de la calefacción de una casa en enero en el
número de pies cuadrados que mide la casa?
• ¿Hay alguna relación entre las millas por galón que alcanzan las grandes camionetas
pickup y el tamaño del motor?
• ¿Existe alguna relación entre el número de horas que los alumnos estudiaron para el
examen y la calificación que obtuvieron?

Debemos hacer notar que en cada uno de estos casos hay dos variables observadas para
cada observación de la muestra. Para el último ejemplo, encontramos las horas estudiadas
y la calificación obtenida por cada estudiante seleccionado en la muestra.
Empezamos este capítulo estudiando el significado y el propósito del análisis de co-
rrelación. Continuamos nuestro estudio al desarrollar una ecuación matemática que nos
permita calcular el valor de una variable con base en el valor de otra. Esto se conoce como
análisis de regresión. Vamos a (1) determinar la ecuación de la recta que se adapte me-
jor a los datos, (2) utilizar la ecuación para calcular el valor de una variable con base en
otra, (3) medir el error estándar de estimación y (4) establecer los intervalos de confianza y
predicción para nuestra estimación.

¿Qué es el análisis de correlación?


El análisis de correlación es el estudio de la relación entre variables. Para explicarlo mejor,
supongamos que el gerente de ventas de Copier Sales of America, que tiene una fuerza de
ventas muy numerosa en Estados Unidos y Canadá, quiere determinar si existe una
relación entre el número de llamadas de ventas que se realizan al mes y el número de
copiadoras que se venden durante ese mes. El gerente selecciona una muestra aleatoria
de 10 representantes y determina el número de llamadas de ventas que cada uno hizo el
430 Capítulo 13

mes pasado y la cantidad de copiadoras vendidas. La información de la muestra se pre-


senta en la Tabla 13-1.

Llamadas de ventas y copiadoras vendidas para 10 vendedores

Al revisar los datos, observamos que sí parece existir una relación entre el número de
llamadas de ventas y el número de unidades vendidas. Es decir, los vendedores que
hicieron mayor cantidad de llamadas vendieron más unidades. Sin embargo, la relación no
es "perfecta" o exacta. Por ejemplo, Soni Jones hizo menos llamadas que Jeff Hall, pero
vendió más unidades.
En lugar de hablar en términos generales, como lo hicimos en el Capítulo 4 y como lo
hemos hecho hasta el momento, vamos a desarrollar algunas medidas estadísticas para
representar con mayor precisión la relación entre las dos variables, las llamadas de ventas
y las copiadoras vendidas. Este grupo de técnicas estadísticas se conoce como análisis de
correlación.

Grupo de técnicas para medir la asociación entre dos


variables.

La idea básica del análisis de correlación es reportar la asociación entre dos variables.
Por lo general, el primer paso consiste en incluir los datos en un diagrama de dispersión.
Un ejemplo nos ayudará a ¡lustrar cómo se usa un diagrama de dispersión.

Copier Sales of America vende copiadoras a negocios de cualquier tamaño en Estados


Unidos y Canadá. La señorita Marcy Bancer hace poco subió al puesto de gerente nacional
de ventas. A la próxima junta de ventas, van a asistir los representantes de todo el país. La
señorita Bancer quiere hacerles comprender la importancia de hacer llamadas de ventas
adicionales cada día, por lo que decide recopilar cierta información sobre la relación de
entre el número de llamadas de ventas y el número de copiadoras vendidas. Para ello,
seleccionó una muestra aleatoria de 10 representantes de ventas y determinó el número de
llamadas que hicieron el mes pasado y el número de copiadoras que vendieron. La infor-
mación de la muestra se reporta en la Tabla 13-1. ¿Qué comentarios puede usted hacer
acerca de la relación entre el número de llamadas de ventas y el número de copiadoras ven-
didas? Elabore un diagrama de dispersión para presentar la información.

Con base en la información de la Tabla 13-1, la señorita Bancer sospecha que hay una
relación entre el número de llamadas realizadas en un mes y el número de copiadoras ven-
didas. Soni Jones vendió la mayor cantidad de copiadoras el mes pasado y fue una de los
tres representantes que hicieron 30 llamadas o más. Por otra parte, Susan Welch y Carlos
Regresión lineal y correlación 431

Ramírez sólo hicieron 10 llamadas de ventas durante el mes pasado. La señorita Welch fue
la que vendió menos copiadoras entre los representantes de la muestra.
La conclusión es que el número de copiadoras vendidas tiene una relación con el
número de llamadas de ventas realizadas. Conforme aumenta el número de llamadas, al
parecer, también se incrementa el número de copiadoras vendidas. Nos referimos al
número de llamadas de ventas como la variable independiente y al número de copiado-
ras vendidas como la variable dependiente.

La variable que se predice o calcula.

Una variable que proporciona las bases para el cálculo. Es


la variable de predicción.

Es práctica común incluir la variable dependiente (copiadoras vendidas) sobre el eje verti-
cal o Y, y la variable independiente (número de llamadas de ventas) sobre el eje horizontal
o X. Para elaborar un diagrama de dispersión de la información de ventas de Copier Sales
of America, empezamos con el primer representante de ventas, Tom Keller. Tom hizo 20
llamadas de ventas el mes pasado y vendió 30 copiadoras, de modo que X = 20 y Y= 30.
Para trazar esta información, desplácese a lo largo del eje horizontal hasta X= 20, y luego
en dirección vertical hasta Y= 30 y coloque un punto en la intersección. Este proceso con-
tinúa hasta incluir todos los pares de datos, como se muestra en la Gráfica 13-1.

GRÁFICA 13-1 Diagrama de dispersión que ilustra las llamadas de ventas y las copiadoras vendidas

El diagrama de dispersión ilustra gráficamente que los representantes de ventas que


hicieron más llamadas vendieron más copiadoras. Es razonable que la señorita Bancer,
gerente nacional de ventas de Copier Sales of America, diga a sus vendedores que entre
más llamadas de ventas hagan, más copiadoras van a vender. Observe que aun cuando
parece existir una relación positiva entre ambas variables, no todos los puntos se encuen-
tran en una línea. En la sección siguiente vamos a medir la fuerza y la dirección de esta
relación entre dos variables al determinar el coeficiente de correlación.

Se requiere la información del El coeficiente de correlación


nivel de razón o de intervalo. Creado por Karl Pearson en 1900, el coeficiente de correlación describe la fuerza de la
relación entre dos grupos de variables en escala de intervalo o de razón. El coeficiente de
correlación se representa con la letra r y a menudo se conoce como r de Pearson y coefi-
ciente de correlación producto-momento de Pearson. Puede asumir cualquier valor de -
1.00 a +1.00, inclusive. Un coeficiente de correlación de -1.00 o +1.00 indica una corre-
lación perfecta. Por ejemplo, un coeficiente de correlación para el ejemplo anterior, que se
calcula en +1.00, indicaría que el número de llamadas de ventas y el número de copiado-
432 Capítulo 13

Características de r ras vendidas tienen una relación perfecta en un sentido lineal positivo. Un valor calculado
de -1.00 revela que las llamadas de ventas y las copiadoras vendidas se relacionan en
forma perfecta en un sentido lineal inverso. La Gráfica 13-2 ilustra cómo se vería el diagra-
ma de dispersión si la relación entre ambos grupos de datos fuera lineal y perfecta.

GRÁFICA 13-2 Diagramas de dispersión que ilustran una correlación negativa perfecta y una correlación
positiva perfecta

Si no hay ninguna relación entre dos conjuntos de variables, la r de Pearson es cero.


Un coeficiente de correlación r cercano a 0 (digamos, 0.08) indica que la relación lineal es
muy débil. Llegamos a la misma conclusión si r= -0.08. Los coeficientes de -0.91 y +0.91
tienen la misma fuerza; ambos indican una correlación muy fuerte entre las dos variables.
Por tanto, la fuerza de la correlación no depende de la dirección (ya sea - o +).
En la Gráfica 13-3 se ¡lustran los diagramas de dispersión para r= 0, una r débil (diga-
mos, -0.23) y una r fuerte (digamos, +0.87). Observe que si la relación es débil, existe una
dispersión considerable alrededor de la línea que se traza desde el centro de los datos.
Para el diagrama de dispersión que representa una relación fuerte, hay muy poca disper-
sión alrededor de la línea. Esto indica, en el ejemplo que se muestra en la gráfica, que las
horas estudiadas constituyen un buen factor de predicción de la calificación en el examen.

Ejemplos de grados de
correlación

GRÁFICA 13-3 Diagramas de dispersión que ilustran una correlación de cero, débil y fuerte
Regresión lineal y correlación 433

La gráfica siguiente resume la fuerza y la dirección del coeficiente de correlación.

¿Cómo se determina el valor del coeficiente de correlación? Utilizaremos como ejemplo


los datos de Copier Sales of America, que se reportan en la Tabla 13-2. Trace una línea
vertical a través de los valores de los datos como la media de los valores X y una línea hori-
zontal en la media de los valores Y. En la Gráfica 13-4, agregamos una línea vertical en
22.0 llamadas y una línea horizontal en 45.0 copiadoras
= 450/10 = 45.0). Estas líneas pasan a través del "centro" de los datos y dividen el diagra-
ma de dispersión en cuatro cuadrantes. Considere mover el origen de (0, 0) a (22, 45).

TABLA 13-2 Llamadas de ventas y copiadoras vendidas para 10 vendedores

Dos variables tienen una relación positiva cuando el número de copiadoras vendidas
está por encima de la media y el número de llamadas de ventas también lo está. Estos pun-
tos aparecen en el cuadrante superior derecho de la Gráfica 13-4. De modo similar, cuan-
do el número de copiadoras vendidas es inferior a la media, también lo es el número de
llamadas de ventas. Estos puntos se encuentran en la esquina inferior izquierda del cua-
drante de la Gráfica 13-4. Por ejemplo, la última persona en la lista de la Tabla 13-2, Soni
Jones, hizo 30 llamadas de ventas y vendió 70 copiadoras. Estos valores se encuentran por
encima de sus medias respectivas, de modo que este punto se localiza en el cuadrante
superior derecho. Hizo 8 más llamadas de ventas que la media y vendió
más copiadoras que la media. Tom Keller, el primer nombre en la lista
de la Tabla 13-2, hizo 20 llamadas y vendió 30 copiadoras. Ambos valores son menores que
434 Capítulo 13

GRÁFICA 13-4 Cálculo del coeficiente de correlación

la media respectiva; por tanto, este punto se encuentra en el cuadrante inferior izquierdo.
Tom hizo 2 llamadas menos y vendió 15 copiadoras menos que las medias respectivas. Las
desviaciones del número medio de llamadas de ventas y el número medio de copiadoras
vendidas se resumen en la Tabla 13-3 para los 10 representantes de ventas. La suma de
los productos de las desviaciones de las medias respectivas es 900. Es decir, el término

TABLA 13-3 Desviaciones de la media y sus productos

En los cuadrantes superior derecho e inferior izquierdo, el producto de


es positivo porque los dos factores tienen el mismo signo. En nuestro ejemplo, esto sucede
para todos los vendedores, excepto para Mike Kiel. Por tanto, podemos esperar que el coe-
ficiente de correlación tenga un valor positivo.
Si las dos variables tienen una relación inversa, una estará por encima de la media y la
otra debajo de la media. En este caso, la mayor parte de los puntos ocurren en los cuadran-
tes superior izquierdo e inferior derecho. Ahora, tendrán signos opuestos, de
modo que su producto es negativo. El coeficiente de correlación es negativo.
¿Qué sucede si no hay una relación lineal entre las dos variables? Los puntos en el dia-
grama de dispersión van a aparecer en los cuatro cuadrantes. Los productos negativos de
superan a los productos positivos, de modo que la suma es cercana a cero.
Esto da lugar a un coeficiente de correlación cercano a cero.
Pearson también quería que el coeficiente de correlación no se viera afectado por las
unidades de las dos variables. Por ejemplo, de haber utilizado cientos de copiadoras ven-
didas en lugar del número vendido, el coeficiente de correlación sería el mismo. El coefi-
ciente de correlación es independiente de la escala utilizada si dividimos el término
entre las desviaciones estándar de la muestra. También se vuelve independiente
del tamaño de la muestra y se limita por los valores +1.00 y -1.00 si dividimos entre
Regresión lineal y correlación 435

Este razonamiento lleva a la fórmula siguiente:

Para calcular el coeficiente de correlación, utilizamos las desviaciones estándar de la


muestras de 10 llamadas de ventas y 10 copiadoras vendidas. Podríamos usar la fórmula
(3-12) para calcular las desviaciones estándar o podríamos utilizar un programa de software.
Para los comandos específicos de Excel y MINITAB, vea la sección de Comandos de soft-
ware al final del Capítulo 3. La siguiente es la pantalla de Excel. La desviación estándar del
número de llamadas de ventas es 9.189 y del número de copiadoras vendidas es 14.337.

Ahora, insertamos estos valores en la fórmula (13-1) para determinar el coeficiente de


correlación:

¿Cómo interpretamos la correlación de 0.759? Primero, es positivo, si vemos que hay


una relación directa entre el número de llamadas de ventas y el número de copiadoras ven-
didas. Esto confirma el razonamiento basado en el diagrama de dispersión, Gráfica 13-4. El
valor de 0.759 es cercano a 1.00, por lo que podemos concluir que la asociación es fuerte.
Dicho de otra manera, un incremento en las llamadas significará más ventas.

El coeficiente de determinación
En el ejemplo anterior acerca de la relación entre el número de llamadas de ventas y las
unidades vendidas, el coeficiente de correlación, 0.759, se interpretó como "fuerte". Sin
embargo, los términos débil, moderado y fuerte no tienen un significado preciso. Una medida
que tiene un significado que se interpreta con mayor facilidad es el coeficiente de determi-
nación. Éste se calcula elevando al cuadrado el coeficiente de correlación. En el ejemplo, el
coeficiente de determinación, r2, es 0.576, que se calculó así: (0.759)2. Se trata de una pro-
porción o porcentaje, podemos decir que 57.6% de la variación en el número de copiadoras
vendidas se explica, o contabiliza, por la variación en el número de llamadas de ventas.
436 Capítulo 13

Más adelante en este capítulo estudiamos con mayor detalle el coeficiente de determinación.

Advertencia con relación a la interpretación


del análisis de correlación
Si existe una relación fuerte (digamos, 0.91) entre dos variables, nos vemos tentados a
suponer que un incremento o una reducción en una variable causa un cambio en la otra. Por
ejemplo, podemos demostrar que el consumo de cacahuate (maní) de Georgia y el consumo
de un analgésico tienen una correlación fuerte. Sin embargo, esto no indica que un incre-
mento en el consumo de cacahuate causó el incremento en el consumo de analgésicos. De
modo similar, los ingresos de los profesores y el número de internos en las instituciones men-
tales han aumentado en forma proporcional. Además, conforme se reduce la población de
burros, ha habido un incremento en el número de doctorados otorgados. Las relaciones de
este tipo se conoce como correlaciones espurias. La conclusión a la que podemos llegar
cuando encontramos dos variables con una fuerte correlación es que existe una relación o
asociación entre las dos variables, no que un cambio en una causa un cambio en la otra.

Autoevaluación 13-1 Haverty's Furniture es un negocio familiar que vende a clientes detallistas en el área de
Chicago desde hace varios años. Se anuncia mucho en radío, televisión e Internet, enfati-
zando sus bajos precios y sus términos de crédito fáciles. El dueño quiere revisar la relación
entre las ventas y la cantidad que invierte en publicidad. A continuación se presenta informa-
ción sobre las ventas y los gastos en publicidad para los últimos cuatro meses.

(a) El dueño quiere proyectar las ventas con base en los gastos publicitarios. ¿Qué variable
es la dependiente? ¿Cuál es la variable independiente?
(b) Elabore un diagrama de dispersión.
(c) Determine el coeficiente de correlación.
(d) Interprete la fuerza del coeficiente de correlación.
(e) Determine el coeficiente de determinación. Interprete su resultado.

Ejercicios
1. Las siguientes observaciones en una muestra se seleccionaron al azar.

Determine el coeficiente de correlación y el coeficiente de determinación. Interprete sus resultados.


2. Las siguientes observaciones en una muestra se seleccionaron al azar.

Determine el coeficiente de correlación y el coeficiente de determinación. Interprete la aso-


ciación entre X y Y.
Regresión lineal y correlación 437

3. Bi-lo Appliance Stores tiene tiendas en varias áreas metropolitanas importantes en Nueva
Inglaterra. El gerente general de ventas planea transmitir un comercial para una cámara di-
gital en estaciones de televisión locales antes de una venta que empezará el sábado y ter-
minará el domingo. Planea obtener la información de la venta de cámaras digitales en las
diversas tiendas durante sábado y domingo y compararla con el número de veces que el
comercial se transmitió en las estaciones de televisión locales. El propósito es saber si hay
alguna relación entre el número de veces que se transmitió el comercial y las ventas de
cámaras digitales. Los pares son:

a. ¿Cuál es la variable dependiente?


b. Elabore un diagrama de dispersión.
c. Determine el coeficiente de correlación.
d. Establezca el coeficiente de determinación.
e. Interprete estas medidas estadísticas.
4. El departamento de producción de NDB Electronics quiere investigar la relación entre el
número de empleados que arman una pieza de subensamblaje y el número producido.
Como experimento, a dos empleados se les asigna la tarea de armar las piezas de suben-
samblaje. Produjeron 15 durante un periodo de una hora. Luego, las armaron cuatro
empleados, y produjeron 25 durante una hora. A continuación presentamos el conjunto total
de observaciones por pares.

La variable dependiente es la producción; es decir, se supone que el nivel de producción


depende del número de empleados.
a. Elabore un diagrama de dispersión.
b. Con base en el diagrama de dispersión, ¿parece existir alguna relación entre el número
de empleados y la producción? Explique su respuesta.
c. Calcule el coeficiente de correlación.
d. Evalúe la fuerza de la relación calculando el coeficiente de determinación.
5. El concejo de la ciudad de Pine Bluffs considera aumentar el número de policías en un
esfuerzo por reducir el crimen. Antes de tomar una decisión definitiva, el concejo pide al jefe
de la policía que realice una encuesta entre otras ciudades de tamaño similar para determi-
nar la relación entre el número de policías y el número de crímenes reportados. El jefe
recopiló la siguiente información sobre la muestra.
438 Capítulo 13

a. Si queremos calcular los crímenes con base en el número de policías, ¿qué variables es
la dependiente y cuál la independiente?
b. Elabore un diagrama de dispersión.
c. Determine el coeficiente de correlación.
d. Establezca el coeficiente de determinación.
e. Interprete estas medidas estadísticas. ¿Le sorprende que la relación sea inversa?
6. El dueño de Maumee Ford-Mercury quiere estudiar la relación entre la edad de un auto y su
precio de venta. A continuación presentamos una muestra aleatoria de 12 autos usados ven-
didos por los distribuidores el año pasado.

a. Si queremos calcular el precio de venta con base en la edad del auto, ¿qué variable es
la dependiente y cuál es la independiente?
b. Elabore un diagrama de dispersión.
c. Determine el coeficiente de correlación.
d. Establezca el coeficiente de determinación.
e. Interprete estas medidas estadísticas. ¿Le sorprende que la relación sea inversa?

Prueba de la significancia
del coeficiente de correlación
Recuerde que la gerente de ventas de Copier Sales of America encontró que la correlación
entre el número de llamadas de ventas y el número de copiadoras vendidas era 0.759. Esto
indicó una fuerte asociación entre ambas variables. Sin embargo, en la muestra sólo se
incluyeron 10 vendedores. ¿Es posible que la correlación en la población sea realmente 0?
Esto significaría que la correlación de 0.759 se debe a la casualidad. La población en este
ejemplo son todos los vendedores que trabajan en la empresa.
¿La correlación en la población Resolver este dilema requiere de una prueba para responder la pregunta obvia: ¿puede
podría ser cero? haber una correlación cero en la población de la que se seleccionó la muestra? En otras
palabras, ¿la r calculada proviene de la población de observaciones por pares con corre-
lación cero? Para continuar nuestra regla de utilizar letras griegas para representar los
parámetros de la población, p representará la correlación en la población, y se pronuncia
"rho".
Continuaremos con el ejemplo que comprende las llamadas de ventas y las copiadoras
vendidas. Utilizamos los mismos cinco pasos de la prueba de hipótesis que describimos en
el Capítulo 10. La hipótesis nula y la hipótesis alternativa son:

Por la forma en que se expresa H1 sabemos que la prueba es de dos colas. La


fórmula para t es:

Utilizando un nivel de significancia 0.05, la regla de decisión establece que si la t calculada


se encuentra en el área entre más de -2.306 y menos 2.306, la hipótesis nula se acepta.
Regresión lineal y correlación 439

Para encontrar el valor crítico de 2.306, consulte el Apéndice F para g/=n-2 = 1 0 - 2 = 8.


Vea la Gráfica 13-5.

GRÁFICA 13-5 Regla de decisión para la prueba de hipótesis con un nivel de significancia 0.05 y 8 gl

Aplicando la fórmula (13-2) al ejemplo acerca del número de llamadas de ventas y las
unidades vendidas:

El valor calculado de f se encuentra en la región de rechazo. Por tanto, Ho se rechaza con


un nivel de significancia 0.05. Esto significa que la correlación en la población no es cero.
Desde un punto de vista práctico, indica a la gerente de ventas que existe una correlación
en cuanto a las llamadas de ventas realizadas y el número de copiadoras vendidas en la
población de vendedores.
También podemos interpretar la prueba de hipótesis en términos del valor p. Un valor
p es la probabilidad de encontrar un valor de la estadística de prueba más extremo que el
calculado, cuando Ho es verdadera. Para determinar el valor p, consulte la distribución f en
el Apéndice F y busque la fila para 8 grados de libertad. El valor de la estadística de prue-
ba es 3.297, de modo que en la fila para 8 grados de libertad y una prueba de dos colas,
encuentre el valor más cercano a 3.297. Para una prueba de dos colas con un nivel de sig-
nificancia 0.02, el valor crítico es 2.896, y el valor crítico en el nivel de significancia 0.01 es
3.355. Como 3.297 se encuentra entre 2.896 y 3.355, llegamos a la conclusión de que el
valor p está entre 0.01 y 0.02.
Tanto Excel como MINITAB reportan la correlación entre dos variables. Además de la
correlación, MINITAB reporta el valor p para la prueba de hipótesis de que la correlación en
la población entre las dos variables es 0. A continuación presentamos la pantalla de
MINITAB que muestra los resultados; son los mismos que calculamos anteriormente.
440 Capítulo 13

Autoevaluación 13-2 Una muestra de 25 campañas para la alcaldía en ciudades con poblaciones mayores de 50 000
reveló que la correlación entre el porcentaje de votos recibidos y la cantidad que invirtieron
los candidatos en la campaña fue 0.43. En el nivel de significancia 0.05, ¿existe una posible
relación entre las variables?

Ejercicios
Se dan las hipótesis siguientes.

Una muestra aleatoria de 12 observaciones por pares indicó una correlación de 0.32.
¿Podemos llegar a la conclusión de que la correlación en la población es mayor que cero?
Utilice el nivel de significancia 0.05. Se dan las hipótesis siguientes.

Una muestra aleatoria de 15 observaciones por pares indicó una correlación de -0.46.
¿Podemos llegar a la conclusión de que la correlación en la población es mayor que cero?
Utilice el nivel de significancia 0.05.
Pennsylvania Refining Company estudia la relación entre el precio de la gasolina en las
bombas y el número de galones vendidos. Para una muestra de 20 gasolineras, el martes
pasado la correlación fue de 0.78. Con un nivel de significancia 0.01, ¿la correlación en la
población es mayor que cero?
Un estudio de 20 instituciones financieras en todo el mundo reveló que la correlación entre
sus activos y las utilidades antes de impuestos es 0.86. Con un nivel de significancia 0.05,
¿podemos llegar a la conclusión de que hay una relación positiva en la población?

Análisis de regresión
En la sección anterior, desarrollamos medidas
para expresar la fuerza y la dirección de la
relación entre dos variables. En esta sección,
queremos desarrollar una ecuación para expre-
sar la relación lineal (en línea recta) entre dos
variables. Además, queremos estimar el valor
de la variable dependiente Y con base en un
valor seleccionado de la variable independiente
X. La técnica que se utiliza para desarrollar la
ecuación y proporcionar los estimados es lla-
mada análisis de regresión.
En la Tabla 13-1 reportamos el número de
llamadas de ventas y de unidades vendidas
para una muestra de 10 vendedores que traba-
jan en Copier Sales of America. La Tabla 13-1
presenta esta información en un diagrama de
dispersión. Ahora, queremos desarrollar una
ecuación lineal que exprese la relación entre el número de llamadas de ventas y el número
de unidades vendidas. La ecuación para la línea utilizada para estimar Y con base en Xse
conoce como una ecuación de regresión.

Ecuación que expresa la relación lineal entre dos


variables.
Regresión lineal y correlación 441

Método de los mínimos cuadrados


El diagrama de dispersión en la Gráfica 13-1 se reproduce en la Gráfica 13-6, con una línea
trazada con regla a través de los puntos, a fin de ilustrar que una línea recta se ajusta quizá
a los datos. Sin embargo, la línea trazada con un regla tiene una desventaja: su posición se
basa en parte en el juicio de la persona que la traza. Las líneas que se hicieron a mano en
la Gráfica 13-7 representan las opiniones de cuatro personas. Todas, excepto la línea A,
parecen ser razonables. Sin embargo, cada una daría como resultado un estimado diferen-
te de las unidades vendidas en relación con un número de llamadas de ventas en particular.

GRÁFICA 13-6 Llamadas de ventas y copiadoras GRÁFICA 13-7 Cuatro rectas superpuestas en
vendidas para 10 representantes de el diagrama de dispersión.
ventas.

La línea de mínimos El juicio subjetivo se elimina al determinar la recta de regresión utilizando un método mate-
cuadrados da el "mejor" mático llamado método de los mínimos cuadrados. Este método calcula lo que común-
ajuste; el método mente se conoce como la recta del "mejor ajuste".
subjetivo no es confiable.

Para ¡lustrar este concepto, los mismos datos se trazan en las tres gráficas siguientes.
La recta de regresión en la Gráfica 13-8 se determinó utilizando el método de los mínimos
cuadrados. La recta es el mejor ajuste porque la suma de los cuadrados de las desviaciones
verticales a su alrededor es mínima. El primer trazo (X= 3, Y = 8) se desvía por 2 de la
recta, calculado: 10 - 8. La desviación cuadrada es 4. La desviación cuadrada del trazo X
= 4, Y = 18 es 16. La desviación cuadrada del trazo X = 5, Y= 16 es 4. La suma de las
desviaciones cuadradas es 24, calculada mediante 4 + 16 + 4.
Suponga que las líneas en las Gráficas 13-9 y 13-10 se trazaron con una escuadra. La
suma de las desviaciones verticales cuadradas en la Gráfica 13-9 es 44. Para la Gráfica 13-10
es 132. Ambas sumas son mayores que la suma para la línea en la Gráfica 13-8, que se
encuentra utilizando el método de los mínimos cuadrados.
La ecuación de una línea recta tiene la forma:

donde:
Y" que se lee Y prima, es el valor que se predijo de la variable y para un valor X selec-
cionado.
a es la intersección Y. Es el valor estimado de Y cuando X= 0. En otras palabras, a es
el valor estimado de Y donde la línea de regresión cruza el eje Y cuando X es cero.
442 Capítulo 13

La línea de mínimos Línea dibujada con una Línea trazada con una
cuadrados regla regla

es la pendiente de la recta, o el cambio promedio en Y' para cada cambio de una


unidad (ya sea aumento o reducción) en la variable independiente X. es cualquier
valor de la variable independiente que se seleccione.

Las fórmulas para a y b son:

es el coeficiente de correlación.
es la desviación estándar de Y(la variable dependiente).
es la desviación estándar de X(la variable independiente).

donde:
es la media de Y(la variable dependiente),
es la media de X(la variable independiente).

Recuerde el ejemplo acerca de Copier Sales of America. La gerente de ventas recopiló


información acerca del número de llamadas de ventas realizas y el número de copiadoras
vendidas para una muestra aleatoria de 10 representantes de ventas. Como parte de su
presentación en la próxima junta de ventas, la señorita Bancer, la gerente de ventas, quiere
ofrecer información específica sobre la relación entre el número de llamadas de ventas y el
número de copiadoras vendidas. Utilice el método de los mínimos cuadrados para determi-
nar una ecuación de la recta a fin de expresar la relación entre las dos variables. ¿Cuál es
el número de copiadoras vendidas esperado por un representante que hizo 20 llamadas?

Los cálculos necesarios para determinar la ecuación de la recta de regresión son:


Regresión lineal y correlación 443

Portante, la ecuación de la recta de regresiones Y'= 18.9476 + 1.1842X. De modo que


si un vendedor hace 20 llamadas, puede esperar vender 42.6316 copiadoras, cantidad
calculada mediante Y'= 18.9476 + 1.1842X= 18.9476 + 1.1842(20). El valor b de 1.1842
significa que por cada llamada de ventas adicional realizada, el vendedor puede esperar
aumentar el número de copiadoras vendidas en aproximadamente 1.2. En otras palabras,
cinco llamadas adicionales en un mes darán como resultado alrededor de seis copiadoras
más, calculado así: 1.1842(5) = 5.921.
El valor a de 18.9476 es el punto donde la ecuación cruza el eje Y. Una interpretación
es que si no se hacen llamadas de ventas, es decir, X= 0, se van a vender 18.9476 copia-
doras. Observe que X = 0 se encuentra fuera del rango de valores que se incluye en la
muestra y que, por tanto, no se debe usar para calcular el número de copiadoras vendidas.
Las llamadas de ventas van de 10 a 40, de modo que los estimados se deben hacer den-
tro de ese rango.

Cómo trazar la línea recta de regresión


La ecuación obtenida por el método de los mínimos cuadrados, Y'= 18.9476 + 1.1842X, se
puede trazar en el diagrama de dispersión. El primer vendedor en la muestra es Tom Keller,
quien hizo 20 llamadas. Su número estimado de copiadoras vendidas es V"= 18.9476 +
1.1842(20) = 42.6316. El trazo X = 20 y Y= 42.6316 se encuentra el moverse hasta 20
sobre el eje X y luego en sentido vertical hasta 42.6316. Los otros puntos en la ecuación de
regresión se determinan al sustituir el valor particular de X en la ecuación de regresión.

Todos los otros puntos se conectan para formar la línea. Vea la Gráfica 13-11.

La recta de regresión dibujada sobre el diagrama de dispersión

Esta recta tiene algunas características interesantes. Como ya dijimos, no hay ninguna
otra recta a través de los datos para la cual la suma de las desviaciones cuadradas sean
mínimas. Además, esta recta va a pasar a través de los puntos representados por la media
444 Capítulo 13

Autoevaluación 13-3 Consulte la Autoevaluación 13-1, donde el dueño de Haverty's Furniture Company estudiaba
la relación entre las ventas y la cantidad invertida en publicidad. La información de ventas
para los últimos cuatro meses se repite a continuación.

(a) Determine la ecuación de la recta de regresión.


(b) Interprete los valores de a y b.
(c) Calcule las ventas después de invertir $3 millones en publicidad.

Ejercicios
11. Se seleccionó al azar la siguiente muestra de observaciones.

a. Determine la ecuación de la recta de regresión.


b. Determine el valor de Y´ cuando X es 7.
12. La siguiente muestra de observaciones se seleccionó al azar.

a. Determine la ecuación de la recta de regresión.


b. Determine el valor de Y' cuando Xes 7.
13. The Bradford Electric Illuminating Company estudia la relación entre los kilowatts-hora
(miles) usados y el número de habitaciones en la residencia privada de una familia. Una
muestra aleatoria de 10 casas dio los siguientes resultados.

a. Determine la ecuación de la recta de regresión.


b. Determine el número de kilowatts-hora, en miles, para una casa de seis habitaciones.
14. El señor James McWhinney, presidente de Daniel-James Financial Services, cree que hay
una relación entre el número de clientes con los que se establece contacto y la cantidad de
dólares en ventas. Para dar validez a esta afirmación, el señor McWhinney recopiló la
siguiente información sobre la muestra. La columna X indica el número de clientes contac-
tados el mes pasado y la columna Vindica, el valor de las ventas (miles de $) el mes pasa-
do para cliente en la muestra.
Regresión lineal y correlación 445

a. Determine la ecuación de la recta de regresión.


b. Determine las ventas estimadas si se contacta a 40 clientes.
15. Un artículo reciente en Business Week mencionó las "Mejores Pequeñas Empresas". Nos
interesa conocer los resultados actuales de las ventas y ganancias de las compañías. Se
seleccionó una muestra aleatoria de 12 empresas y a continuación se reportan sus ventas
y ganancias, en millones de dólares.

Sean las ventas la variable independiente y las ganancias la variable dependiente.


a. Elabore un diagrama de dispersión.
b. Calcule el coeficiente de correlación.
c. Calcule el coeficiente de determinación.
d. Interprete sus descubrimientos en las partes b y c.
e. Determine la ecuación de la recta de regresión.
f. Calcule las ganancias para una compañía pequeña con $50 millones en ventas.
16. Realizamos un estudio de los fondos de bonos mutualistas con el propósito de invertir en
varios fondos. Para este estudio en particular, queremos enfocarnos en los activos de un
fondo y su desempeño a cinco años. La pregunta es: ¿podemos calcular la tasa de recu-
peración a cinco años con base en los activos del fondo? Seleccionamos al azar nuevos fon-
dos mutualistas, y a continuación presentamos sus activos y tasas de recuperación.

a. Elabore un diagrama de dispersión.


b. Calcule el coeficiente de correlación.
c. Calcule el coeficiente de determinación.
d. Escriba un breve reporte de sus descubrimientos en las partes b y c.
e. Determine la ecuación de la recta de regresión. Utilice los activos como la variable inde
pendiente.
f. Para un fondo con $400 millones en ventas, determine la tasa de recuperación a cinco
años (en porcentaje).
446 Capítulo 13

17. Consulte el ejercicio 5.


a. Determine la ecuación de ia recta de regresión.
b. Calcule el número de crímenes para una ciudad con 20 policías.
c. Interprete la ecuación de regresión.
18. Consulte el Ejercicio 6.
a. Determine la ecuación de la recta de regresión.
b. Calcule el precio de venta para un auto que tiene 10 años.
c. Interprete la ecuación de regresión.

El error estándar de estimación


En el diagrama de dispersión anterior (Gráfica 13-11), observe que no todos los puntos
quedan exactamente sobre la línea de regresión. Si todos estuvieran en la línea, no habría
ningún error al estimar el número de unidades vendidas. En otras palabras, si todos los pun-
tos se encontraran en la recta de regresión, las unidades vendidas se podrían pronosticar
con una precisión de 100%. Por tanto, no habría ningún error al predecir la variable Y con
base en la variable X. Lo anterior es cierto en el siguiente caso hipotético (vea la Gráfica
13-12). En teoría, si X= 4, se podría proyectar una Y exacta de 100 con 100% de confian-
za. O bien, si X- 12, entonces Y= 300. Como no hay diferencia entre los valores observa-
dos y los proyectados, no hay ningún error en este estimado.

GRÁFICA 13-12 Ejemplo de una predicción perfecta: potencia y costo de la electricidad

Predicción perfecta irreal en los La proyección perfecta en economía y administración es casi imposible. Por ejemplo,
negocios los ingresos del año provenientes de las ventas de gasolina (Y) con base en el número de
registros de automóviles (X) hasta una fecha, determinada, sin duda, se pueden calcular con
cierta precisión, pero la predicción no sería exacta hasta el dólar más cercano, quizá ni
siquiera hasta los miles de dólares más cercanos. Ni siquiera las predicciones de la fuerza
tensora de los cables de acero basadas en su diámetro exterior son siempre exactas debido
a las pequeñas diferencias en la composición del acero.
Entonces, lo que necesitamos es una medida que describa la precisión de la predicción
de V con base en X o, por el contrario, la inexactitud del estimado. Esta medida se conoce
como error estándar de estimación. Éste, cuyo símbolo es s , es el mismo concepto que
la desviación estándar que estudiamos en el Capítulo 3. La desviación estándar mide la dis-
persión alrededor de la media. El error estándar de estimación mide la dispersión en cuanto
a la recta de regresión.

El error estándar de estimación se encuentra utilizando la ecuación siguiente. Observe


que la ecuación es muy parecida a la que utilizamos para la desviación estándar de una
muestra.
Regresión lineal y correlación 447

La desviación estándar se basa en las desviaciones cuadradas de la media, mientras


que el error estándar de estimación se basa en las desviaciones cuadradas entre cada Y y
su valor predicho, Y'. Recuerde que la recta de regresión representa todos los valores de
es bajo, quiere decir que los datos están relativamente cerca de la línea de regre-
sión y la ecuación de regresión se puede utilizar para proyectar Y con poco error.
Si es alto, quiere decir que los datos se encuentran muy dispersos alrededor de la recta
de regresión y que la ecuación no dará un estimado preciso de Y.

Recuerde el ejemplo que habla de Copier Sales of America. La gerente de ventas deter-
minó que la ecuación de la recta de regresión de los mínimos cuadrados era Y'= 18.9476
+ 1.1842X, donde Y se refiere al número de copiadoras vendidas y Xal número de llamadas
de ventas realizadas. Determine el error estándar de estimación como una medida de lo bien
que los valores se ajustan en la línea de regresión.

Para encontrar el error estándar, empezamos por buscar la diferencia entre el valor, V, y el
valor estimado a partir de la ecuación de regresión, A continuación, elevamos esta
diferencia al cuadrado, es decir Hacemos lo mismo para cada una de las n obser-
vaciones y sumamos los resultados. Es decir, calculamos que es el numerador
de la fórmula (13-6). Por último, dividimos entre el número de observaciones menos 2. ¿Por
qué menos 2? Perdemos un grado de libertad por estimar el valor de la intersección, a, y el
valor de la pendiente, b. Los detalles de los cálculos se resumen en la Tabla 13-4.

TABLA 13-4 Cálculos necesarios para el error estándar del estimado

El error estándar de estimación es 9.901, calculado utilizando la fórmula (13-6).

Las desviaciones son las desviaciones verticales de la línea de regresión. Para


ilustrar, las 10 desviaciones de la Tabla 13-4 se muestran en la Gráfica 13-13. En la Tabla
13-4, observe que la suma de las desviaciones con signo es cero. Esto indica que las
desviaciones negativas (debajo de la línea de regresión) superan a las desviaciones positi-
vas (encima de la línea de regresión).
448 Capítulo 13

Llamadas de ventas y copiadoras vendidas para 10 vendedores

El software facilita los cálculos cuando buscamos la recta de regresión de los mínimos
cuadrados, calculamos los valores de ajuste o buscamos el error estándar. La pantalla de
Excel del ejemplo de Copier Sales of America se incluye a continuación. La pendiente y la
intersección están en la columna "Coeficientes" (celdas G17 y G18). Los valores ajustados
para cada representante de ventas están en la columna "Ventas proyectadas" (celdas
D2:D11). Los "Residuales" o diferencias entre los valores reales y estimados se encuentran
en la siguiente columna (celdas E2:E11). El error estándar del estimado está en la celda
G7. Todos estos valores se encuentran resaltados a continuación.

Hasta el momento hemos presentado la regresión lineal sólo como una herramienta
descriptiva. En otras palabras, es un simple resumen de la relación entre la
variable dependiente Y y la variable independiente X. Cuando nuestros datos son una
muestra tomada de una población, realizamos estadística inferencial. Luego, necesitamos
recordar la distinción entre los parámetros de la población y los estadísticos de prueba. En
este caso, "modelamos" la relación lineal en la población mediante la ecuación:

Donde:

Y es cualquier valor de la variable dependiente.


es la intersección V(el valor de Y cuando X= 0) en la población.
Regresión lineal y correlación 449

β es la pendiente (la cantidad en la que Y cambia cuando X aumenta en una unidad)


de la recta en esta ecuación.
X es cualquier valor de la variable independiente.

Ahora, α y β son parámetros poblacionales de a y b, respectivamente, son estimados de


esos parámetros. Se calculan a partir de una muestra particular tomada de la población. Por
suerte, las fórmulas que se dan antes en este capítulo para a y b no cambian cuando
dejamos de usar la regresión como una herramienta descriptiva para utilizarla en la inferen-
cia estadística.
Debemos hacer notar que la ecuación de la recta de regresión para la muestra de
vendedores es sólo un estimado de la relación entre las dos variables para la población. Por
tanto, los valores a y b en la ecuación de regresión casi siempre se conocen como coefi-
cientes de regresión estimada o simplemente coeficientes de regresión.

Consideraciones necesarias
para aplicar la regresión lineal
Para aplicar la regresión lineal en forma apropiada, son necesarias varias suposiciones. La
Gráfica 13-14 ilustra estas suposiciones.

1. Para cada valor de X, hay un grupo de valores Y. Éstos últimos siguen la distribución
normal.
2. Las medias de estas distribuciones normales se encuentran en la recta de regresión.
3. Todas las desviaciones estándar de estas distribuciones normales son iguales. El mejor
estimado que tenemos de esta desviación estándar común es el error estándar de
estimación
4. Los valores Y son estadísticamente independientes. Esto significa que al seleccionar
una muestra en particular X no depende de ningún otro valor de X. Esta suposición es
importante sobre todo cuando los datos se recopilan durante un periodo prolongado. En
esas situaciones, los errores de un periodo en particular a menudo se relacionan con
los de otros periodos.

GRÁFICA 13-14 Suposiciones de la regresión mostradas en forma gráfica


450 Capítulo 13

Recuerde que en el Capítulo 7 se mencionó que si los valores siguen una distribución
normal, la media más o menos una desviación estándar comprenderán 68% de las observa-
ciones, la media más o menos dos desviaciones estándar comprenderá 95% de las obser-
vaciones y la media más o menos tres desviaciones estándar abarcará casi todas las
observaciones. La misma relación existe entre los valores proyectados V" y el error están-
dar de estimación

Ahora, podemos relacionar estas suposiciones con Copier Sales of America, donde
estudiamos la relación entre el número de llamadas de ventas y el número de copiadoras
vendidas. Suponga que tomamos una muestra mucho más grande que n= 10, pero que el
error estándar de estimación sigue siendo 9.901. Si dibujáramos una línea recta paralela
9.901 unidades sobre la recta de regresión y otra a 9.901 unidades debajo de la línea de
regresión, alrededor de 68% de los puntos quedarían entre ambas líneas. De modo similar,
una línea a unidades encima de la línea de regresión y otra a
19.802 unidades debajo de la línea de regresión deben incluir alrededor de 95% de los valo-
res de la información.
Para revisar lo anterior, consulte la segunda columna de la derecha en la Tabla 13-4 en
la página 447, es decir, la columna con el encabezado "Desviación". Tres de las 10 desvia-
ciones exceden un error estándar del estimado. Es decir, la desviación de -12.6316 para
Tom Keller, -12.6316 para Mark Reynolds y +15.5264 para Soni Jones exceden el valor de
9.901, que está a un error estándar del estimado de la línea de regresión. Todos los valores
se encuentran a 19.802 unidades de la línea de regresión. En otras palabras, 7 de las 10
observaciones en la muestra están a un error estándar de la línea de regresión y todos
están a dos, un buen resultado para una muestra relativamente pequeña.

Autoevaluación 13-4 Consulte las autoevaluaciones 13-1 y 13-3, donde el propietario de Haverty's Furniture estu-
diaba la relación entre las ventas y la cantidad invertida en publicidad. Determine el error
estándar de estimación.

Ejercicios
19. Consulte el Ejercicio 11.
a. Determine el error estándar de estimación.
b. Suponga que se selecciona una muestra grande (en lugar de una de cinco solamente).
¿Entre qué par de valores se harían alrededor de 68% de las proyecciones?
20. Consulte el Ejercicio 12.
a. Determine el error estándar de estimación.
b. Suponga que se selecciona una muestra grande (en lugar de una de ocho solamente).
¿Entre qué par de valores se harían alrededor de 95% de las proyecciones?
21. Consulte el Ejercicio 13.
a. Determine el error estándar de estimación.
b. Suponga que se selecciona una muestra grande (en lugar de sólo 10). ¿Entre qué par de
valores ocurrirían alrededor de 95% de las proyecciones acerca de los kilowatts-hora?
22. Consulte el Ejercicio 14.
a. Determine el error estándar de estimación.
b. Suponga que se selecciona una muestra grande (en lugar de sólo 10). ¿Entre qué par de
valores ocurrirían aproximadamente 95% de las predicciones sobre las ventas?
23. Consulte el Ejercicio 5. Determine el error estándar de estimación.
24. Consulte el Ejercicio 6. Determine el error estándar de estimación.
Regresión lineal y correlación 451

Intervalos de confianza e intervalos de predicción


El error estándar de estimación también se utiliza para establecer intervalos de confianza
cuando el tamaño de la muestra es grande y la dispersión alrededor de la recta de regre-
sión se aproxima a la distribución normal. En nuestro ejemplo que habla sobre el número
de llamadas de ventas y el número de copiadoras vendidas, el tamaño de la muestra es
pequeño; por tanto, necesitamos un factor de corrección para tomar en cuenta el tamaño
de la muestra. Además, cuando nos alejamos de la media de la variable independiente,
nuestro estimado está sujeto a mayor variación y también necesitamos ajustarlo a ésta.
Nos interesa ofrecer estimados de intervalos de dos tipo. El primero, que se conoce
como intervalo de confianza, reporta el valor medio de Y para una X determinada. El
segundo tipo de estimado se llama intervalo de predicción, y reporta el rango de valores
de Y para un valor particular de X. Para explicarlo mejor, suponga que calculamos el salario
de los ejecutivos en la industria detallista con base en sus años de experiencia. Si quere-
mos un estimado de intervalo del salario medio de todos los ejecutivos detallistas con 20
años de experiencia, calculamos el intervalo de confianza. Si queremos un estimado del
salario de Curtís Bender, un ejecutivo detallista en particular que tiene 20 años de experien-
cia, calculamos el intervalo de predicción.
A fin de determinar el intervalo de confianza para el valor medio de t para una X
dada, la fórmula es:

donde:

es el valor proyectado para cualquier valor X seleccionado,


es cualquier valor seleccionado de X.
es la media de las X, encontrada mediante
es el número de observaciones.
es el error estándar del estimado.
es el valor de í del Apéndice F con n - 2 grados de libertad.

Primero describimos la distribución t en el Capítulo 9. Para repasar, William Gossett


desarrolló el concepto de t a principios de la década de 1900. Gossett se dio cuenta de que
no era correcto para las muestras pequeñas. Observó, por ejemplo, que para 120
grados de libertad, 95% de los elementos se encontraban dentro del rango de en
lugar del rango de Esta diferencia no es crucial, pero observe lo que sucede con-
forme el tamaño de la muestra se vuelve más pequeño:

Es lógico. Cuanto menor es el tamaño de la muestra, mayor será el posible error. El incremento
en el valor t compensa esta posibilidad.
452 Capítulo 13

Regresemos al ejemplo de Copier Sales of America. Determine un intervalo de confianza


de 95% para todos los vendedores que hacen 25 llamadas y para Sheila Baker, una vende-
dora de la costa oeste que hizo 25 llamadas.

Utilizamos la fórmula (13-7) para determinar un intervalo de confianza. La Tabla 13-5


incluye los totales necesarios y una repetición de la información de la Tabla 13-2 en la pági-
na 433.

TABLA 13-5 Cálculos necesarios para determinar el intervalo de confianza y el intervalo de predicción

El primer paso para determinar el número de copiadoras que esperamos que los vende-
dores vendan si hacen 25 llamadas. Es 48.5526, calculados mediante

Para encontrar el valor primero necesitamos conocer el número de grados de liber-


tad. En este caso, los grados de libertad son El nivel de confianza se
establece en 95%. Para encontrar el valor de desplácese hacia abajo por la columna de
la izquierda hasta 8 grados de libertad y luego muévase hacia el otro lado de la columna
con el nivel de confianza de 95%.
En la sección anterior calculamos que el error estándar de estimación es 9.901.

760. Al insertar estos valores en la fórmula (13-7), podemos determinar el intervalo de con
fianza. ___________

Por tanto, el intervalo de confianza de 95% para todos los representantes de ventas
que hacen 25 llamadas es de 40.9170 hasta 56.1882. Para interpretar lo anterior, vamos a
redondear los valores. Si un vendedor hace 25 llamadas, puede esperar vender 48.6 copia-
doras. Es probable que esas ventas sean entre 40.9 y 56.2 copiadoras.
A fin de determinar el intervalo de predicción para un valor particular de V para una X
dada, la fórmula (13-7) se modifica ligeramente: se agrega un 1 debajo del radical. La
fórmula queda:
Regresión lineal y correlación 453

Suponga que queremos estimar el número de copiadoras vendidas por Sheila Baker,
quien hizo 25 llamadas de ventas. El intervalo de predicción se determina como sigue:

Por tanto, el intervalo es de 24.478 a 72.627 copiadoras. Llegamos a la conclusión de que


el número de copiadoras vendidas será entre 24 y 73 para un vendedor en particular. El
intervalo es muy amplío. Es mucho más extenso que el intervalo de confianza para todos
los representantes de ventas que hicieron 25 llamadas. Sin embargo, es lógico que deba
existir mayor variación en el estimado de ventas para un individuo o grupo.

La siguiente gráfica de MINITAB muestra la relación entre la recta de regresión (en el


centro), el intervalo de confianza (líneas punteadas) y el intervalo de predicción (en verde).
Las bandas para el intervalo de predicción siempre están más alejadas de la línea de regre-
sión que aquellas para el intervalo de confianza. Asimismo, conforme los valores de X se ale-
jan del número medio de llamadas (22) en dirección positiva o negativa, las bandas del
intervalo de confianza y del intervalo de predicción se vuelven más anchas. Esto se debe al
numerador del término de la derecha debajo del radical en las fórmulas (13-7) y (13-8). Es
decir, conforme aumenta el término el ancho del intervalo de confianza y de predic-
ción también aumenta. En otras palabras, hay menos precisión en nuestros estimados con-
forme nos alejamos, en cualquier dirección, de la media de la variable independiente.

Intervalos de confianza y predicción para los datos de Copier Sales of America

Una vez más, queremos enfatizar la diferencia entre un intervalo de confianza y un


intervalo de predicción. Un intervalo de confianza se refiere a todos los casos con un valor
determinado de X y se calcula mediante la fórmula (13-7). Un intervalo de predicción se
refiere a un caso en particular para un valor determinado de X y se calcula utilizando la
fórmula (13-8). El intervalo de confianza siempre será más ancho debido al 1 adicional
debajo del radical en la segunda ecuación.
454 Capítulo 13

Autoevaluación 13-5 Consulte los datos de la muestra en las Autoevaluaciones 13-1, 13-3 y 13-4, donde el pro-
pietario de Haverty's Furniture estudiaba la relación entre las ventas y la cantidad invertida en
publicidad. La información de ventas para los últimos cuatro meses se repite a continuación.

La ecuación de regresión se calculó en y el error estándar es 0.9487. Ambas


variables se reportan en millones de dólares. Determine el intervalo de confianza de 90% para
un mes típico en el que se gastaron $3 millones en publicidad.

Ejercicios
Consulte el Ejercicio 11.
a. Determine el intervalo de confianza de 0.95 para la media proyectada cuando X= 7.
b. Determine el intervalo de predicción de 0.95 para un individuo cuando X= 7.
Consulte el Ejercicio 12.
a. Determine el intervalo de confianza de 0.95 para la media proyectada cuando X = 7.
b. Determine el intervalo de predicción de 0.95 para un individuo cuando X= 7.
Consulte el Ejercicio 13.
a. Determine el intervalo de confianza de 0.95, en miles de kilowatts-hora, para la media de
toda las casas con seis habitaciones.
b. Determine el intervalo de predicción de 0.95, en miles de kilowatts-horas para una casa
con seis habitaciones en particular.
Consulte el Ejercicio 14.
a. Determine el intervalo de confianza de 0.95, en miles de dólares, para la media de todo
el personal de ventas que contacta a 40 clientes.
b. Determine el intervalo de predicción de 0.95, en miles de dólares, para un vendedor en
particular que contacta a 40 clientes.

Más sobre el coeficiente de determinación


Para estudiar mejor el concepto básico del coeficiente de determinación, suponga que
estamos interesados en la relación entre los años en el trabajo, X, y la producción semanal,
Y. Los datos de la muestra revelaron:

Los datos de la muestra se trazaron en un diagrama de dispersión. Como la relación entre


X y Y parece ser lineal, se dibujó una línea a través de los puntos (vea la Gráfica 13-15).
La ecuación es Y'= 2 + 0.4X.
Observe en la Gráfica 13-15 que si quisiéramos utilizar una línea recta para proyectar la
producción semanal para un empleado, en ninguno de los casos nuestra predicción sería
Regresión lineal y correlación 455

exacta. Es decir, habría cierto error en cada una de nuestras predicciones. Como ejemplo,
para Gordon, que ha trabajado en la compañía durante 14 años, proyectaríamos una pro-
ducción semanal de 7.6 unidades; sin embargo, produce sólo 6.

GRÁFICA 13-15 Datos observados y la recta de mínimos cuadrados

Para medir el error total en nuestra predicción, cada desviación de la recta se eleva al cua-
drado y se suman los cuadrados. El punto proyectado sobre la línea se expresa Y", que se lee
2 2 2
Y prima, y el punto observado se expresa Y. Para Gordon, (Y- Y') = (6 - 7.6) = (-1.6) = 2.56.
Variación sin explicar Como es lógico, esta variación no se puede explicar con la variable independiente, de modo
que se conoce como variación sin explicar. De manera específica, no podemos explicar por
qué la producción de Gordon de 6 unidades es 1.6 unidades menor que su producción
proyectada de 7.6, con base en el número de años que lleva en el trabajo.
2
La suma de las desviaciones cuadradas, ∑( Y- Y') , es 4.00. (Vea la Tabla 13-6.) El tér-
2
mino ∑ (Y- Y') = 4.00 es la variación en Y(producción) que no se puede proyectar a
partir de X. Es la variación "sin explicar" de Y.

TABLA 13-6 Cálculos necesarios para la variación sin explicar

Ahora supongamos que sólo se conocen los valores Y (producción semanal, en este
problema) y queremos proyectar la producción por cada empleado. Las cifras reales de pro-
ducción para los empleados son 6, 5, 3, 9 y 7 (de la Tabla 13-6). Para hacer estas predic-
ciones, podríamos asignar la producción semanal media (6 unidades, calculada así:
30/5 = 6) para cada empleado. Esto conservaría la suma de los errores de predicción
cuadrados en un mínimo. (Recuerde que en el Capítulo 3 estudiamos que la suma de las
desviaciones cuadradas de la media aritmética para un conjunto de números es menor a la
suma de las desviaciones cuadradas de cualquier otro valor, como la mediana.) La Tabla
Variación total en Y
13-7 muestra los cálculos necesarios. La suma de las desviaciones cuadradas es 20, como
se muestra en la Tabla 13-7. El valor 20 se conoce como la variación total en Y.
456 Capítulo 13

TABLA 13-7 Cálculos necesarios para la variación total en Y

Lo que hicimos para llevar a la variación total en Y se ilustra con un diagrama en la Gráfica
13-16.

Gráfica 13-16 Trazos que muestran las desviaciones de la media de Y

Como es lógico, la variación total en V se puede subdividir en la variación no explica-


da y la variación explicada. Para obtener a la segunda, dado que conocemos la variación
total y la variación no explicada, entonces: variación explicada = variación total - variación
no explicada. Si dividimos la variación explicada entre la variación total, obtenemos el coe-
ficiente de determinación, que es un porcentaje. En términos de una fórmula:

En este problema:
Regresión lineal y correlación 457

Como ya dijimos, 0.80 es un porcentaje. Decimos que 80% de la variación en la producción


semanal, Y, se determina, o se toma en cuenta, por su relación lineal con X(años en el tra-
bajo).
Para repasar, se podría utilizar la fórmula (13-1) para el coeficiente de correlación. Si
elevamos r al cuadrado obtenemos el coeficiente de determinación. El Ejercicio 29 ofrece
un repaso sobre el problema de predicción.

Ejercicios
29. Utilizando el problema anterior, que comprende los años en el trabajo y la producción sema-
nal, verifique que el coeficiente de determinación sea realmente 0.80.
30. El número de acciones de Icom, Inc., que cambiaron durante un mes y su precio al final de
éste se muestran en la tabla siguiente. También damos los valores Y".

a. Elabore un diagrama de dispersión. Trace una línea a través de los puntos.


b. Calcule el coeficiente de determinación utilizando la fórmula (13-10).
c. Interprete el coeficiente de determinación.

Relación entre
el coeficiente de correlación,
el coeficiente de determinación
y el error estándar de estimación
En la sección anterior, estudiamos el error estándar de estimación, que mide la proximidad
de los valores actuales a la recta de regresión. Cuando el error estándar es pequeño, indi-
ca que las dos variables están muy relacionadas. En el cálculo del error estándar, el térmi-
no clave es Si el valor de este término es bajo, el error estándar también lo es.
El coeficiente de correlación mide la fuerza de la relación lineal entre dos variables.
Cuando los puntos en el diagrama de dispersión aparecen cerca de la recta, observamos
que el coeficiente de correlación suele ser alto. Por tanto, el error estándar de estimación y
el coeficiente de correlación se relacionan con la misma información pero utilizan una
escala diferente para reportar la fuerza de la relación. Sin embargo, ambas medidas com-
prenden el término
También observamos que el cuadrado del coeficiente de correlación es el coeficiente
de determinación. Éste último mide el porcentaje de la variación en Y que explica la varia-
ción en X.
Un medio conveniente de mostrar la relación entre estas tres medidas es una tabla
ANOVA. Esta tabla es similar a la tabla del análisis de la varianza que creamos en el
Capítulo 12. En ese capítulo, la variación total se dividió en dos componentes: el que se
debe a los tratamientos y el que se debe al error aleatorio. En el análisis de regresión, el
concepto es similar. La variación total, se divide en dos componentes: (1) aquel
que explica la regresión (que explica la variable independiente) y (2) el error, o variación no
explicada. Estas dos categorías se identifican en la primera columna de la tabla ANOVA
458 Capítulo 13

siguiente. La columna con el encabezado "gl" se refiere a los grados de libertad relaciona-
dos con cada categoría. El número total de grados de libertad es n - 1. El número de grados
de libertad en la regresión es 1, ya que sólo hay una variable independiente. El número de
grados de libertad asociado con el término de error es n - 2. El término "SS", que se locali-
za a la mitad de la tabla ANOVA, se refiere a la suma de los cuadrados de la variación. Los
términos se calculan como sigue:

El formato de la tabla ANOVA es:

El coeficiente de determinación, se puede obtener directamente de la tabla ANOVA


mediante:

El término "SSR/SS total" es la proporción de la variación en V explicada por la variable inde-


pendiente, X. Observe el efecto del termino SSE sobre Conforme SSE se reduce,
aumenta. Por el contrario, conforme el error estándar disminuye, el término
El error estándar de estimación también se obtiene a partir de la tabla ANOVA utilizan-
do la ecuación siguiente:

El ejemplo de Copier Sales of America se usa para ilustrar los cálculos del coeficiente
de determinación y el error estándar de estimación a partir de una tabla ANOVA.

En el ejemplo de Copier Sales of America estudiamos la relación entre el número de llama-


das de ventas realizadas y el número de copiadoras vendidas. Utilice un programa de soft-
ware de estadística para determinar la ecuación de la recta de regresión por el método de
los mínimos cuadrados y la tabla ANOVA. Identifique la ecuación de regresión, el error
estándar de estimación y el coeficiente de determinación en los resultados del programa. A
partir de la tabla ANOVA en la pantalla de la computadora, determine el coeficiente de
determinación y el error estándar de estimación usando las fórmulas (13-10) y (13-11).

A continuación, presentamos la pantalla de Excel.


Regresión lineal y correlación 459

A partir de la fórmula (13-10), el coeficiente de determinación es 0.576, calculado como


sigue

Éste es el mismo valor que calculamos antes en este capítulo, cuando encontramos el coe-
ficiente de determinación al elevar al cuadrado el coeficiente de correlación. Una vez más,
la interpretación es que la variable independiente, Llamadas, explica 57.6% de la variación
en el número de copiadoras vendidas. Si necesitáramos el coeficiente de correlación, lo
podríamos encontrar calculando la raíz cuadrada del coeficiente de determinación:

Sigue habiendo un problema, que comprende el signo para el coeficiente de corre-


lación. Recuerde que la raíz cuadrada de un valor puede tener un signo positivo o negati-
vo. El signo del coeficiente de correlación siempre será el mismo de la pendiente. Es decir,
b y r siempre van a tener el mismo signo. En este caso el signo es positivo, de modo
que el coeficiente de correlación es 0.759.
Para encontrar el error estándar de estimación, usamos la fórmula (13-11):

Una vez más, éste es el mismo valor que calculamos anteriormente en este capítulo. Estos
valores se identifican en la pantalla de Excel.

Transformación de los datos


El coeficiente de correlación describe la fuerza de la relación lineal entre dos variables.
Puede ser que dos variables estén estrechamente relacionadas, pero que su relación no
sea lineal. Tenga cuidado al interpretar el coeficiente de correlación. Un valor de r puede
indicar que no hay ninguna relación lineal, pero puede ser que exista una relación de algu-
na otra forma no línea o curvilínea. Para explicarlo, a continuación, presentamos una lista
de 13 jugadores de golf profesionales, la cantidad que ganaron durante la temporada 2002
y su calificación media por ronda. (En el golf, el objetivo es jugar 18 hoyos con el menor
número de golpes. De modo que las calificaciones medias más bajas están relacionadas
con las ganancias más altas.)
460 Capítulo 13

Para la información en el ejemplo anterior sobre el golf, la correlación entre las variables,
ganancias y calificaciones, muestra una relación negativa muy fuerte. La correlación es -
0.782, pero cuando utilizamos un diagrama de dispersión para representar los datos, la
relación parece no ser lineal. Es decir, la relación no sigue una línea recta.

¿Qué podemos hacer para explorar otras relaciones (no lineales)? Una posibilidad es
transformar una de las variables. Por ejemplo, en lugar de usar X como la variable inde-
pendiente, podríamos utilizar su cuadrado como la variable dependiente. Otra posibilidad es
transformar la variable dependiente.
En el ejemplo de las ganancias en el golf, el cambio de la escala de la variable depen-
diente es efectivo. Utilizamos MINITAB para determinar el registro de las ganancias de cada
jugador de golf y luego encontrar la correlación entre el registro de las ganancias y la cali-
ficación. El coeficiente de correlación aumenta a -0.943, que significa 88.9% de la variación
en el registro de las ganancias, y se toma en cuenta en la calificación de la variable inde-
pendiente. Es evidente que, conforme aumenta la calificación media de un jugador, puede
esperar que sus ganancias se reduzcan.
No existe ningún procedimiento generalmente aceptado para determinar qué variable
se va a transformar o qué transformación emplear. De modo que la experiencia y las técni-
cas de ensayo y error son nuestras guías. Los tipos de transformaciones más comunes son:
• Llevar el registro de una de las variables.
• Elevar al cuadrado una de las variables.
• Calcular la raíz cuadrada de una de las variables.
• Calcular el recíproco de una de las variables.
Regresión lineal y correlación 461

Ejercicios
31. Dada la tabla ANOVA siguiente:

a. Calcule el coeficiente de determinación.


b. Suponiendo una relación directa entre las variables, ¿cuál es el coeficiente de corre-
lación?
c. Determine el error estándar de estimación.
32. En el primer examen de estadística, el coeficiente de determinación entre las horas estudia-
das y la calificación obtenida fue 80%. El error estándar de estimación fue 10. Había 20 estu-
diantes en la clase. Desarrolle una tabla ANOVA.
33. Dadas las siguientes observaciones en la muestra, desarrolle un diagrama de dispersión.
Calcule el coeficiente de correlación. ¿La relación entre las variables parece ser lineal?
Haga la prueba elevando al cuadrado la variable X y luego determine el coeficiente de co
rrelación.

34. De acuerdo con la economía básica, conforme aumenta la demanda de un producto, su pre-
cio se reduce. A continuación, presentamos el número de unidades en la demanda y el precio.
462 Capítulo 13

a. Determine la correlación entre el precio y la demanda. Trace los datos en un diagrama


de dispersión. ¿La relación parece ser lineal?
b. Transforme el precio en un registro de la base. Trace el registro del precio y la demanda.
Determine el coeficiente de correlación. ¿Parece mejorar la relación entre las variables?

Resumen del capítulo


I. Un diagrama de dispersión es una herramienta gráfica para representar la relación entre dos
variables.
A. La variable dependiente se encuentra sobre el eje y y es la variable a estimar.
B. La variable independiente se encuentra sobre el eje X y es la variable que se usa como
estimador.
II. El coeficiente de correlación mide la fuerza de la relación entre dos variables.
A. Ambas variables deben estar por )o menos definidas en una escala de medición de in-
tervalos.
B. El coeficiente de correlación puede variar de -1.00 a 1.00.
C. Si la correlación entre dos variables es 0, no existe ninguna relación entre ellas.
D. Un valor de 1.00 indica una correlación positiva perfecta, y -1.00 una correlación nega-
tiva perfecta.
E. Un signo positivo significa que hay una relación directa entre las variables, y un signo
negativo quiere decir que hay una relación inversa.
F. El coeficiente de correlación se expresa con la letra r y se calcula con la fórmula siguiente:

G. La fórmula siguiente se usa para determinar si la correlación en la población es dlferen-


te de 0.

III. El coeficiente de determinación es el porcentaje de la variación en una variable con relación


a la variación en la otra variable.
A. Varía de 0 a 1.0.
B. El coeficiente de determinación es el cuadrado del coeficiente de correlación.
IV. En el análisis de regresión, calculamos una variable con relación en otra.
A. La variable que se calcula es la variable dependiente.
B. La variable que se usa para hacer el cálculo es la variable independiente.
1. La relación entre las variables debe ser lineal.
2. Tanto la variable independiente como la dependiente debe estar en una escala de
razón o de intervalos.
3. El criterio de mínimos cuadrados se utiliza para determinar la ecuación de la recta de
regresión.
V. La línea de regresión de mínimos cuadrados es de la forma Y´= a + b X.
A. Y´ es el valor estimado de Y para un valor seleccionado de X.
B. a es la constante o intersección de la recta con el eje V*.
1. Es el valor de Y' cuando X= 0.
2. a se calcula utilizando la fórmula siguiente.

C. b es la pendiente en la recta ajustadas


1. b muestra la cantidad de cambio en Y' para un cambio de una unidad en X,
2. Un valor positivo para b indica una relación directa entre las dos variables, un valor
negativo señala una relación inversa.
3. El signo de b y el signo de r, el coeficiente de correlación, siempre son iguales.
4. b se calcula utilizando la fórmula siguiente.

D. X es el valor de la variable independiente.


Regresión lineal y correlación 463

VI. El error estándar de estimación mide la variación alrededor de la recta de regresión.


A. Está en las mismas unidades que la variable dependiente.
B. Se basa en las desviaciones cuadradas a partir de la recta de regresión.
C. Los valores pequeños indican que los puntos se agrupan en forma estrecha alrededor
de la recta de regresión.
D. Se calcula utilizando la fórmula siguiente:

VIl. La inferencia acerca de la regresión lineal se basa en las suposiciones siguientes.


A. Para un valor dado de X, los valores de Y tienen una distribución normal alrededor de
la recta de regresión.
B. La desviación estándar de cada una de las distribuciones normales es igual para todos
los valores de X y se calcula mediante el error estándar de estimación.
C. Las desviaciones de la recta de regresión son independientes, sin patrón para el tama-
ño ni la dirección.
VIII. Hay dos tipos de estimados de intervalo.
A. En un intervalo de confianza, el valor medio de Y se calcula para un valor dado de X. 1.
Se calcula a partir de la fórmula siguiente.

[13-7]

2. El ancho del intervalo se ve afectado por el nivel de confianza, el tamaño del error
estándar de estimación y el tamaño de la muestra, así como el valor de la variable
dependiente.
En un intervalo de predicción, el valor individual de Y se calcula para un valor dado de X.
1. Se calcula a partir de la fórmula siguiente.

2. La diferencia entre las fórmulas (13-7) y (13-8) es el 1 dentro del radical.


a. El intervalo de predicción será más amplio que el intervalo de confianza.
b. El intervalo de predicción también se basa en el nivel de confianza, el tamaño del
error estándar de estimación, el tamaño de la muestra y el valor de la variable in
dependiente.

Clave de pronunciación

Ejercicios del capítulo


35. Una aerolínea regional seleccionó una muestra aleatoria de 25 vuelos y descubrió que la
correlación entre el número de pasajeros y el peso total, en libras, del equipaje guardado en
el compartimento de equipaje es 0.94. Utilizando un nivel de significancia 0.05, ¿podemos
llegar a la conclusión de que existe una correlación positiva entre las dos variables?
36. Un sociólogo afirma que el éxito de los estudiantes en la universidad (medido por su GPA)
se relaciona con el ingreso de su familia. Para una muestra de 20 estudiantes, el coeficiente
de correlación es 0.40. Utilizando un nivel de significancia 0.01, ¿podemos llegar a la con-
clusión de que hay una correlación positiva entre las variables?
37. El estudio de 12 automóviles realizado por una Agencia de Protección al Medio Ambiente
reveló una correlación de 0.47 entre el tamaño del motor y las emisiones. Con un nivel de
464 Capítulo 13

significancia 0.01, ¿podemos llegar a la conclusión de que hay una correlación positiva entre
estas variables? ¿Cuál es el valor p? Interprete sus respuestas.
38. Un estudio sobre los juegos de fútbol soccer a nivel universitario reveló que la correlación
entre el número de tiros y el número de goles anotados es 0.21 para una muestra de 20 par
tidos. ¿Sería razonable llegar a la conclusión de que existe una correlación positiva entre las
dos variables? Utilice el nivel de significancia 0.05. Determine el valor p.
39. Una muestra de 30 autos usados vendidos en Northcut Motors en 2003 reveló que la corre
lación entre el precio de venta y el número de millas recorridas era -0.45. Con un nivel de
significancia 0.05, ¿podemos llegar a la conclusión de que existe una correlación negativa
en la población entre ambas variables?
40. Para una muestra de 32 ciudades grandes en Estados Unidos, la correlación entre el número
medio de pies cuadrados por empleado de oficina y la renta mensual media en el distrito
comercial del centro de la ciudad es -0.363. Con un nivel de significancia 0.05, ¿podemos lle-
gar a la conclusión de que existe una correlación negativa en la población entre ambas variables?
41. ¿Cuál es la relación entre la cantidad que se gasta en comida a la semana y el tamaño de
la familia? Una muestra de 10 familias en el área de Chicago reveló las cifras siguientes para
el tamaño de la familia y la cantidad gastada en comida a la semana.

a. Calcule el coeficiente de correlación


b. Calcule el coeficiente de determinación.
c. ¿Podemos llegar a la conclusión de que hay una correlación positiva entre la cantidad
gastada en comida y el tamaño de la familia? Utilice un nivel de significancia 0.05.
42. Se seleccionó una muestra de 12 casas vendidas la semana pasada en St. Paul, Minnesota.
¿Podemos llegar a la conclusión de que conforme aumenta el tamaño de la casa (que se
reporta a continuación en miles de pies cuadrados), el precio de venta (que se reporta en
miles de dólares) también se incrementa?

a. Calcule el coeficiente de correlación.


b. Calcule el coeficiente de determinación.
c. ¿Podemos llegar a la conclusión de que hay una correlación positiva entre el tamaño
de la casa y el precio de venta? Utilice el nivel de significancia 0.05.
43. El fabricante de equipo para ejercicio Cardi Glide quiere estudiar la relación entre el número
de meses transcurridos desde que se compró el aparato y el tiempo que se utilizó la sema-
na pasada.
Regresión lineal y correlación 465

a. Trace la información en un diagrama de dispersión Supongamos que las horas de ejer-


cicio son la variable dependiente Comente sobre la gráfica
b. Determine el coeficiente de correlación Interprete el resultado
c. Con un nivel de significancia 0 01 ¿podemos llegar a la conclusión de que hay una
relación negativa entre las variables''
44. La siguiente ecuación de regresión se calculo a partir de una muestra de 20 observaciones

Se encontró que SSE es 100 y el total de SS es 400


a. Determine el error estándar de estimación
b. Calcule el coeficiente de determinación
c. Determine el coeficiente de correlación (Precaución ¡Observe el signo!)
45. Una tabla ANOVA es

a. Complete la tabla ANOVA.


b. ¿Qué tan grande era la muestra?
c. Determine el error estándar de estimación.
d. Calcule el coeficiente de determinación.
46. A continuación, presentamos una ecuación de regresión.

También está disponible esta información:


a. Calcule el valor de Y´ cuando X= 50.
b. Desarrolle un intervalo de predicción de 95% para un valor individual de Y para X= 50.
47. La National Highway Association estudia la relación entre el número de licitadores en un
proyecto para una carretera y la oferta (más baja) ganadora del proyecto. Lo que más les
interesa saber es si el número de licitadores aumenta o reduce la cantidad de la oferta
ganadora.

a. Determine la ecuación de regresión Interprete la ecuación. ¿El hecho de haber más li


citadores tiende a aumentar o reducir la cantidad de la oferta ganadora?
b. Calcule la cantidad de la oferta ganadora cuando hay siete licitadores.
c. Se va a construir una nueva entrada en la carretera Ohio Tumpike. Hay siete licitadores
en el proyecto. Desarrolle un intervalo de predicción de 95% para la oferta ganadora.
d. Calcule el coeficiente de determinación. Interprete su valor.
48. El señor William Profit estudia a las compañías que se vuelven públicas por primera vez. Le
interesa sobre todo la relación entre el tamaño de la oferta y el precio por acción. Una mues-
tra de 15 compañías que hace poco se hicieron públicas reveló la información siguiente.
466 Capítulo 13

a. Determine la ecuación de regresión,


b. Calcule el coeficiente de determinación. ¿Cree que el señor Profit hace bien en usar el
tamaño de la oferta como la variable independiente?
49. The Bardi Trucking Co., que se localiza en Cleveland, Ohio, hace entregas en la región de
los Grandes Lagos, el sureste y el noreste de Estados Unidos, Jim Bardi, el presidente, estu-
dia la relación entre la distancia que un embarque debe recorrer y el tiempo, en dfas, que el
embarque tarda en llegar a su destino. Para investigar, el señor Bardi seleccionó una mues-
tra aleatoria de 20 embarques realizados el mes pasado. La distancia del envío es la varia-
ble independiente, y el tiempo es la variable dependiente. Los resultados son los siguientes:

a. Elabore un diagrama de dispersión. Con base en estos datos ¿parece haber una
relación entre la cantidad de millas que el embarque tiene que recorrer y el tiempo que
tarda en llegar a su destino?
b. Determine el coeficiente de correlación. ¿Podemos llegar a la conclusión de que hay
una correlación positiva entre la distancia y el tiempo? Utilice el nivel de significancia
0.05.
c. Calcule e interprete el coeficiente de determinación.
d. Determine el error estándar de estimación.
50. Super Markets, Inc., considera ampliarse hasta e) área de Scottsdale, Arizona. La señorita
Luann Miller, directora de planeación, debe presentar un análisis de la expansión propuesta
ante el comité operativo de la junta de directores. Como parte de su propuesta, Miller
necesita incluir información sobre la cantidad que las personas en la región gastan al mes
en abarrotes. También le gustaría incluir información sobre la relación entre la cantidad gas-
tada en abarrotes y el ingreso; por lo que recopiló la siguiente información de muestra.
Regresión lineal y correlación 467

a. Supongamos que la cantidad gastada es la variable dependiente y el ingreso mensual,


la variable independiente. Elabore un diagrama de dispersión, utilizando un paquete de
software.
b. Determine la ecuación de la recta de regresión. Interprete el valor de la pendiente.
c. Determine el coeficiente de correlación. ¿Puede llegar a la conclusión de que es mayor
a 0?
51. A continuación, presentamos información sobre el precio por acción y los dividendos para una
muestra de 30 compañías.

a. Calcule la ecuación de la recta de regresión utilizando el precio de venta con base en los
dividendos anuales. Interprete el valor de la pendiente.
b. Calcule el coeficiente de determinación. Interprete su valor.
c. Determine el coeficiente de correlación. ¿Puede llegar a la conclusión de que es mayor a 0
utilizando el nivel de significancia 0.05?
52. Un empleado de carreteras realizó un análisis de regresión entre el número de accidentes
fatales en zonas de construcción y el número de personas desempleadas en un estado. La
ecuación de la recta de regresión es Accidentes fatales = 12.7 + 0.000114 (desempleados).
Algunos resultados adicionales son:
468 Capítulo 13

a. ¿Cuántos estados había en la muestra?


b. Determine el error estándar de estimación.
c. Calcule el coeficiente de determinación.
d. Determine el coeficiente de correlación.
e. Con un nivel de significancia 0.05. ¿las evidencias sugieren que hay una relación posi-
tiva entre los accidentes fatales y el número de desempleados?
53. Se desarrolló un análisis de regresión qua relaciona el valor de mercado actual en dólares
con el tamaño en pies cuadrados de las casas en Greene County. A continuación, presen-
tamos la pantalla de computadora. La ecuación de la recta de regresión es: Valor = -37 186
+ 65.0 Tamaño.

a. ¿Cuántas casas había en la muestra?


b. Calcule el error estándar de estimación.
c. Calcule el coeficiente de determinación.
d. Calcule el coeficiente de correlación.
e. Con un nivel de significancia 0.05, ¿las evidencias sugieren una relación positiva entre
el valor de mercado de las casas y su tamaño en pies cuadrados?
54. La tabla siguiente muestra la recuperación porcentual anual media sobre el capital (utilidad)
y el crecimiento porcentual anual medio de las ventas para ocho compañías aeroespaciales y
de defensa.

a. Calcule el coeficiente de correlación. Realice una prueba de hipótesis para determinar


si es razonable llegar a la conclusión de que la correlación con la población es mayor a
cero. Utilice el nivel de significancia 0.05.
b. Determine la ecuación de la recta de regresión para las utilidades con base en el creci
miento. Comente sobre el valor de la pendiente.
c. Utilice un paquete de software a fin ce determinar el residual para cada observación.
¿Qué compañía tiene el residual más alto?
Regresión lineal y correlación 469

55. Los datos siguientes revelan el precio detallista para 12 computadoras laptop seleccionadas al
azar, además de las velocidades de su procesador.

a. Desarrolle una ecuación lineal que se pueda usar para describir el grado en el que el
precio depende de la velocidad del procesador.
b. Con base en la ecuación de la recta de regresión, ¿existe alguna máquina que parezca
tener un precio más bajo del que le corresponde?
c. Calcule el coeficiente de correlación entre las dos variables. Con un nivel de significancia
0.05, realice una prueba de hipótesis para determinar si la correlación en la población
puede ser mayor a cero.
56. Una cooperativa de compras para el consumidor probó el área de calefacción efectiva de 20
calentadores eléctricos diferentes con distintos niveles de consumo (en watts). Éstos son los
resultados.

a. Calcule la correlación entre el nivel de consumo (watts) y el área de calefacción. ¿Existe


una correlación directa o indirecta?
b. Realice una prueba de hipótesis para determinar si es razonable que el coeficiente sea
mayor a cero. Utilice el nivel de significancia 0.05.
c. Desarrolle la ecuación de la recta de regresión para la calefacción efectiva con base en
el nivel de consumo (watts).
d. ¿Qué calentador parece ser la "mejor compra" con base en el tamaño del residual?
57. Un entrenador canino investiga la relación entre el tamaño del perra (peso) y su consumo
de alimento diario (medido en tazas estándar). A continuación, presentamos el resultado de
una muestra de 18 observaciones.
470 Capítulo 13

a. Calcule el coeficiente de correlación. ¿Es razonable Hegar a la conclusión de que la


correlación en la población es mayor a cero? Utilice el nivel de significancia 0.05.
b. Desarrolle la ecuación de la recta de regresión para las tazas con base en el peso del
perro. ¿En qué grado cada taza adicional cambia el peso estimado del perro?
c. ¿Uno de tos perros come demasiado o come menos de lo debido?

exercises.com
58. Suponga que quiere estudiar la relación entre el índice de analfabetismo en un país, la
población y el producto interno bruto {PIB) del país. Visite el sitio web de Information Piease
Atmanac (http://www.infoplease.com). Seleccione la categoría World y tuego Countries.
Se abrirá una lista de 195 países empezando por Afganistán y terminando en Zimbabwe.
Seleccione al azar una muestra de 20 países aproximadamente. Tal vez sea conveniente
utilizar una muestra sistemática. En otras palabras, seleccione al azar 1 de la lista de 10
países y luego seleccione cada décimo país a partir de éste. Haga dicen el nombre de cada
país y busque en la información el índice de analfabetismo, la población y el PIB. Calcule la
correlación entre las variables. En otras palabras, encuentre la correlación entre: analfa
betismo y población, analfabetismo y PIB, y población y PIB. Precaución. Tenga cuidado con
las unidades. En ocasiones, la población se reporta en millones, pero otras veces está en
miles. Con un nivel de significancia 0.05, ¿podemos llegar a la conclusión de que la corre
lación es diferente a cero para cada par de variables?
59. Muchas compañías de bienes ratees y agencias de arrendamiento ahora publican sus listas
en la web. Un ejemplo es Dunes Realty Company, que se localiza en Garden City y Surfside
Beaches, Carolina del Sur. Visite el sitio web http://www.dunes.com y seleccione Cottages
Search. Luego, indique 5 recámaras, espacio para 14 personas, segunda fila (esto significa
que está en la acera de enfrente de la playa) y sin alberca ni chapoteadero; seleccione un
periodo de julio o agosto; indique que está dispuesto a gastar $5 000 a la semana; y luego
haga clic en Search the Cottages. Los resultados deben incluir los detalles de las cabañas
que cumplen con sus criterios.
a. Determine la correlación entre el número de cuartos de baño en cada cabaña y el pre-
cio de renta semanal. ¿Podemos llegar a la conclusión de que la correlación es mayor
a cero en el nivel de significancia 0.05? Calcule el coeficiente de determinación.
b. Determine la ecuación de la recta de regresión utilizando el número de cuartos de baño
como la variable independiente y el precio por semana como la variable dependiente.
Interprete la ecuación de regresión,
c. Calcule la correlación entre el número de personas que pueden acomodarse en la cabaña
y el precio de renta semanal. Con un nivel de significancia 0.05, ¿puede llegar a la
conclusión de que es diferente de cero?
Regresión lineal y correlación 471

Ejercicios de la base de datos


60. Consulte los datos Real Estate, que proporcionan información sobre las casas vendidas en
Denver, Colorado, el año pasado.
a. Supongamos que la variable dependiente es el precio de venta y el tamaño de la casa
es la variable independiente. Determine la ecuación de la recta de regresión. Calcule el
precio de venta para una casa con un área de 2 200 pies cuadrados. Determine un inter-
valo de confianza de 95% y un intervalo de predicción de 95% para el precio de venta
de una casa de 2 200 pies cuadrados.
b. Supongamos que el precio de venta es la variable dependiente y la distancia del centro
de la ciudad es la variable independiente. Determine la ecuación de la recta de regresión.
Calcule el precio de venta de una casa que está a 20 millas del centro de la ciudad.
Determine un intervalo de confianza de 95% y un intervalo de predicción de 95% para
las casas que están a 20 millas del centro de la ciudad.
c. ¿Puede llegar a la conclusión de que las variables independientes "distancia del centro
de la ciudad" y "precio de venta" tienen una correlación negativa y que el área de la casa
y el precio de venta tienen una correlación positiva? Utilice el nivel de significancia 0.05.
Reporte el valor p de la prueba.
61. Consulte los datos Baseball 2002, que proporcionan información sobre las Ligas Mayores
de Béisbol durante la temporada 2002.
a. Suponga que los juegos ganados son la variable dependiente y el salario total del
equipo, en millones de dólares, es la variable independiente. ¿Puede llegar a la conclu-
sión de que existe una relación positiva entre las dos variables? Determine la ecuación
de la recta de regresión. Interprete la pendiente, es decir, el valor de b. ¿Cuántos jue
gos ganados adicionales producirán $5 millones adicionales en el salario?
b. Determine la correlación entre los juegos ganados y ERA, y entre los juegos ganados y
le promedio de bateo del equipo. ¿Cuál es la correlación más fuerte? ¿Podemos llegar
a la conclusión de que existe una correlación positiva entre los juegos ganados y el bateo
del equipo, y una correlación negativa entre los juegos ganados y ERA? Utilice un nivel
de significancia 0.05.
c. Suponga que el número de juegos ganados es la variable dependiente y la asistencia
es la variable independiente. ¿Podemos llegar a la conclusión de que la correlación
entre estas dos variables es mayor a 0? Use un nivel de significancia 0.05.
62. Consulte los datos Wage, que proporcionan información sobre los sueldos anuales para una
muestra de 10 trabajadores. También se incluyen las variables relacionadas con la indus-
tria, los años de educación y el género de cada trabajador.
a. Determine la correlación entre el salario anual y los años de educación. Con un nivel de
significancia 0.05, ¿podemos llegar a la conclusión de que hay una correlación positiva
entre las dos variables?
b. Determine la correlación entre el salario anual y los años de experiencia en el trabajo.
Con un nivel de significancia, ¿podemos llegar a la conclusión de que existe una corre-
lación positiva entre ambas variables?
63. Consulte los datos CÍA, que proporcionan información demográfica y económica sobre 46
países diferentes.
a. Quiere utilizar la variable Fuerza laboral como la variable independiente para proyectar
la tasa de desempleo. Interprete el valor de la pendiente. Utilice la ecuación de regre-
sión lineal apropiada para proyectar ei desempleo en los Emiratos Árabes Unidos.
b. Encuentre el coeficiente de correlación entre los niveles de exportaciones e importa-
ciones. Use un nivel de significancia 0.05 para probar sí hay una correlación positiva
entre estas dos variables.
c. ¿Parece haber una relación entre el porcentaje de la población mayor de 65 años de
edad y el porcentaje de analfabetismo? Apoye su respuesta con evidencias estadísti-
cas. Realice una prueba de hipótesis apropiada e interprete el resultado.
472 Capítulo 13

Comandos de software
1. Los comandos de MINITAB para los resultados que
muestran el coeficiente de correlación en la página 439
son:
a. Escriba el nombre del representante de ventas en
C1, el número de llamadas en C2 y las ventas en C3.
b. Seleccione Stat, Basic Statistics y Correlation.
c. Seleccione Llamadas y Ventas como las variables,
haga clic en Display p-values y luego en OK.

2. Los comandos de computadora para los resultados de


Excel de la página 448 son:
a. Escriba los nombres de las variables en la fila 1 de
las columnas A, B y C. Escriba los datos en las filas
2 a 11 en las mismas columnas.
b. Seleccione Tools, Data Analysis y luego
Regression.
c. Para nuestra hoja de cálculo, tenemos Llamadas
en la columna B y Ventasen la columna C. El Input
Y-Range es C1:C11, y el Input X-Range es
B1:B11, haga clic en Labels, seleccione D1 como
el Output Range y haga clic en OK.

3. Los comandos de MINITAB para los intervalos de con-


fianza y los intervalos de predicción en la página 453
son:
a. Seleccione Stat, Regression y Fitted line plot.
b. En el siguiente cuadro de diálogo la Response (Y)
es Ventas y el Predictor (X) es Llamadas. Selec-
cione Linear para el tipo de modelo de regresión y
haga cite en Options.
c. En el cuadro de diálogo Options, haga clic en
Display confidence and prediction bands, utilice
95.0 para el nivel de confianza y en el cuadro
Title, escriba un encabezado apropiado, haga clic
en OK y en OK otra vez.
Regresión lineal y correlación 473

Capítulo 13 Respuestas a las autoevaluaciones


Regresión lineal múltiple
y análisis de correlación
lineal múltiple

Thompson Photo Works compró varias máquinas nuevas de procesamiento altamente com-
plejas. El departamento de producción necesitó ayuda en cuanto a las cualidades necesarias
de un operador. Con el fin de explorar los factores necesarios para calcular el desarrollo de
las máquinas nuevas de procesamiento se mencionaron cuatro variables: tiempo que un
empleado lleva en la industria, su calificación en la prueba de aptitudes mecánicas, la edad y
su calificación anterior obtenida en el trabajo. ¿Cuántas variables dependientes existen? (Vea
la Meta 1 y el Ejercicio 2.)
Regresión lineal múltiple y análisis de correlación lineal múltiple 475

Introducción
En el Capítulo 13, describimos la relación que existe entre un par de medidas de escala de
intervalos o de razón. Empezamos este capítulo con el estudio del coeficiente de corre-
lación, que mide la fuerza de la relación. Un coeficiente cercano a más o menos 1.00 (por
ejemplo, de -0.88 o de 0.78) indica una relación lineal muy fuerte, mientras que un valor
cercano a 0 (por ejemplo, de -0.12 o de 0.18) significa que esa relación es débil. Después
se desarrolló un procedimiento a fin de determinar una ecuación lineal para expresar la
relación entre las dos variables. A esto se le llamó recta de regresión. Esta recta describe
la relación entre las variables. También describe el patrón general de una variable depen-
diente (Y) para una variable independiente o de explicación (X).
En la correlación lineal múltiple y la regresión utilizamos variables independientes linea-
les adicionales (denotadas como y así sucesivamente) que nos ayudan a explicar
mejor o predecir la variable dependiente (Y). Casi todos los conceptos que se observaron
en una correlación lineal simple y en una regresión aplican en esta situación más general.
Sin embargo, las variables independientes adicionales dan lugar a algunas consideraciones
nuevas. El análisis de regresión múltiple se puede utilizar ya sea como una técnica descrip-
tiva o como una técnica de inferencia.

Análisis de regresión múltiple


La fórmula (14-1) muestra la forma descriptiva general de una ecuación lineal múltiple. Se
utiliza k para representar el número de variables independientes. Por tanto, k puede ser
cualquier número entero positivo.

donde:

es la intersección con el eje Y, y es el valor de y cuando todas las X son cero,


es la cantidad a través de la cual cambia Y cuando esa X se incrementa por una
unidad con respecto a los otros valores contenidos en la misma. La y puede asumir
valores entre 1 y k, que es el número de variables independientes.

Cuando sólo existen dos variables independientes, esta ecuación se puede representar grá-
ficamente como un plano. La Gráfica 14-1 es una gráfica de la relación
que utiliza para resumir o "cumplir" con 10 observaciones.

GRÁFICA 14-1 Plano de regresión con diez puntos de la muestra

Para ilustrar la interpretación de la intercepción y de los dos coeficientes de regresión,


suponga que el millaje de un vehículo por galón de gasolina está directamente relacionado
al promedio de octanaje de la gasolina que se utiliza (X1) y está inversamente relacionado con
476 Capítulo 14

El valor de la intersección de 6.3 indica que la ecuación de regresión intercepta el eje Y


el peso del automóvil (X2). Suponga que la ecuación de regresión, calculada utilizando un
software estadístico, es la siguiente:

en 6.3 cuando X 1 y X 2 son iguales a cero. Por supuesto, no tiene sentido poseer un
automóvil que no tenga peso (cero) y que utilice gasolina sin octanaje. Es importante tener
presente que una ecuación de regresión casi nunca se utiliza fuera del rango de los valores
de la muestra.
La b1 de 0.2 indica que por cada incremento de 1 en el promedio de octanaje de gasoli-
na, el automóvil recorrería 2/10 de milla más por galón, sin considerar el peso del vehículo.
Es decir, el peso del vehículo se mantiene constante. El valor b2 de -0.001 revela que por
cada incremento de una libra en el peso del vehículo, el número de millas recorridas por galón
disminuye a 0.001, sin considerar el octanaje de la gasolina que se utiliza.
Como ejemplo, un automóvil con gasolina de octanaje 92 en el tanque y con un peso
de 2 000 libras recorrería un promedio de 22.7 millas por galón, calculado así:

El valor de 22.7 se proporciona en millas por galón.


Los valores para los coeficientes de la ecuación lineal múltiple se obtienen utilizando el
método de mínimos cuadrados. Recuerde que en el capítulo anterior dijimos que el méto-
do de mínimos cuadrados reduce al mínimo posible la suma de las diferencias cuadradas
entre los valores reales de Y. Pues los cálculos son muy tediosos, casi siempre se realizan
a través de un paquete estadístico de software, como Excel o MINITAB. Por fortuna, la
información reportada es estándar.

Inferencias en una regresión lineal múltiple


Hasta el momento, el análisis de regresión múltiple sólo se ha considerado como una forma
de describir la relación entre una variable dependiente y diferentes variables independien-
tes. Sin embargo, el método de mínimos cuadrados también tiene la capacidad de repre-
sentar las inferencias o generalizaciones sobre la relación para una población completa.
Recuerde que cuando crea intervalos de confianza o cuando realiza pruebas de hipótesis
como parte de la estadística de inferencia, se considera la información de una muestra
aleatoria tomada de una población.
En una regresión múltiple, suponemos que existe una ecuación desconocida de regre-
sión de una población que relaciona la variable dependiente con las variables independien-
tes k. Algunas veces, lo anterior se conoce como modelo de una relación. En símbolos esto
se escribe:

Esta ecuación es análoga a la fórmula (14-1), sólo que los coeficientes ahora se reportan
con letras griegas. Utilizamos letras griegas para denotar los parámetros de la población.
Entonces, de acuerdo con ciertas suposiciones, que estudiaremos en breve, los valores
calculados de a y b son estadísticos de muestra. Estos estadísticos de muestra son esti-
madores puntuales de los parámetros de la población correspondientes Estos
estimadores puntuales tienen distribuciones normales de muestreo. Cada una de estas dis-
tribuciones de muestreo se centran en sus respectivos valores del parámetro. En otras pala-
bras, las medias de las distribuciones de muestreo son iguales a los valores del parámetro
que se van a estimar. Por tanto, a través del uso de las propiedades de las distribuciones
de muestreo de estos estadísticos se pueden realizar inferencias sobre los parámetros de
la población.
Regresión lineal múltiple y análisis de correlación lineal múltiple 477

El estudio de la regresión múltiple comienza con la descripción de una situación que


incluye tres variables independientes.

Salsberry Realty vende casas en la costa este de Estados


Unidos. Una de las preguntas más frecuentes de los com-
pradores potenciales es: Si compramos esta casa, ¿cuánto
invertiremos en calefacción durante el invierno? Se le pidió al
departamento de investigación de Salsberry que desarrollara
algunos lineamientos acerca de los costos de calefacción para
las casas de una sola familia. Se consideraron tres variables
relacionadas con los costos de calefacción: (1) la media diaria
de la temperatura externa, (2) el número de pulgadas de ais-
lamiento en el ático y (3) la antigüedad del calentador. Para el
estudio, el departamento de investigación de Salsberry selec-
cionó una muestra aleatoria de 20 casas vendidas en fecha
reciente. Determinaron el costo de la calefacción de la casa en
enero pasado, así como la temperatura externa de la región
durante ese mismo mes, el número de pulgadas de aislamien-
to en el ático y la antigüedad del calentador. La información de la muestra se reporta en la
Tabla 14-1.

TABLA 14-1 Factores en el costo de calefacción en enero para una muestra de 20 casas

Determine la ecuación de regresión múltiple. ¿Cuáles son las variables independien-


tes? ¿Cuál es la variable dependiente? Analice los coeficientes de la ecuación de regresión.
¿Qué significa que algunos coeficientes sean positivos y otros negativos? ¿Cuál es el valor
de intersección? ¿Cuál es el costo calculado de calefacción para una casa, si la tempera-
tura externa media es de 30 grados, el ático tiene 5 pulgadas de aislamiento y el calenta-
dor tiene 10 años de antigüedad?
478 Capítulo 14

Los sistemas de software para estadística Excel y MINITAB generan los resultados que se
muestran a continuación:

La variable dependiente es el costo de calefacción en enero. Existen tres variables


independientes, la temperatura externa media, el número de pulgadas de aislamiento en el
ático y la antigüedad del calentador.
La forma general de una ecuación de regresión múltiple con tres variables independien-
tes es:

En este caso, la ecuación de regresión múltiple calculada es


El valor de intersección es 427. Éste es el punto en el que la ecuación de regresión
cruza el eje Y. Los coeficientes de regresión para la temperatura externa media y la canti-
dad de aislamiento del ático son negativos. Esto no es sorprendente. Cuando la tempera-
tura externa sube, el costo de la calefacción de la casa disminuye. De ahí que se espere
una relación inversa. En cada grado que la temperatura externa se incrementa, esperamos
que el costo de la calefacción descienda $4.58 por mes. Por tanto, si la temperatura media
en Boston es de 25 grados y en Filadelfia de 35, y todos los demás elementos son iguales,
se espera que el costo de la calefacción sea de $4.58 menos en Filadelfia.
Regresión lineal múltiple y análisis de correlación lineal múltiple 479

La variable "aislamiento del ático" también muestra una relación inversa: entre más ais-
lamiento presente el ático, menor es el costo de la calefacción para la casa. De modo que
resulta lógico utilizar el signo negativo para este coeficiente. Por cada pulgada adicional de
aislamiento, esperamos que el costo de la calefacción de la casa descienda a $14.80 men-
suales, sin importar la temperatura externa ni la antigüedad del calentador.
La variable de la antigüedad del calentador muestra una relación directa. Con un calen-
tador más antiguo, el costo para calentar la casa aumenta. De manera específica, por cada
año de antigüedad del calentador, esperamos que el costo aumente $6.10 por mes.
El costo calculado de calefacción por mes es de $276.60, si la temperatura externa
media por mes es de 30 grados, existen 5 pulgadas de aislamiento en el ático y la anti-
güedad del calentador es de 10 años.

Autoevaluación 14-1
El ingeniero de control de calidad (CC) de Palmer Industries está interesado en calcular la
fuerza de tensión del cable de acero en su diámetro externo y la cantidad de molibdeno en el
acero. Como un experimento, se seleccionaron 25 piezas de cable, se midieron los diámetros
externos y se determinó el contenido de molibdeno. Luego se midió la fuerza de tensión de
cada pieza. Los resultados de las primeras cuatro fueron los siguientes:

Utilizando un paquete de software para estadística, el ingeniero de CC determinó que la


ecuación de regresión múltiple es: Y´ = -0.5 + 20X1 + 1X2.
(a) A partir de la ecuación, ¿cuál es la fuerza de tensión calculada de un cable de acero que
tiene un diámetro externo de 0.35 mm y 6.4 unidades de molibdeno?
(b) Interprete el valor de b1 en la ecuación.

Ejercicios
El director de mercadotecnia de Reeves Wholesale Products estudia las ventas mensuales.
Se seleccionaron tres variables independientes como los estimadores de las ventas: la
población regional, el ingreso per cápita y la tasa de desempleo regional. La ecuación de
regresión se calculó (en dólares) de la siguiente manera:

a. ¿Cuál es el nombre completo de la ecuación?


b. Interprete el número 64 100.
c. ¿Cuáles son las ventas mensuales calculadas para una región determinada con una
población de 796 000, un ingreso per cápita de $6 940 y una tasa de desempleo de
6.0%?
Thompson Photo Works compró varias máquinas nuevas de procesamiento muy avanza-
das. El departamento de producción necesitó cierto asesoramiento acerca de las habili-
dades necesarias para un operador. ¿La edad es un factor? ¿Es importante el tiempo de
servicio como operador? Con el fin de explorar más a fondo los factores necesarios para cal-
cular el desempeño de las nuevas máquinas de procesamiento, se mencionaron cuatro
variables:
480 Capítulo 14

Tiempo del empleado en la industria.


Calificación en la prueba de aptitudes mecánicas.
Calificaciones anteriores en el trabajo.
Edad
El desempeño de la máquina nueva se representa con una Y.
Se seleccionaron al azar treinta empleados. Se recopiló la información de cada uno de
ellos y se registró su desempeño con las nuevas máquinas. Algunos resultados fueron:

La ecuación es:

a. ¿Cuál es el nombre completo de la ecuación?


b. ¿Cuántas variables dependientes e independientes existen?
c. ¿Cómo se llama el número 0.286?
d. Así como la edad aumenta por un año, ¿cuánto se incrementa el desempeño calculado
de la máquina nueva?
e. Cari Knox solicitó trabajo en Photo Works. Konx ha estado en este negocio durante seis
años, y obtuvo 280 en la prueba de aptitudes mecánicas. La calificación en desempeño
que Cari obtuvo anteriormente en su trabajo es de 97 y tiene 35 años de edad. Calcule
el desempeño de Cari al trabajar con una máquina nueva.
3. Se estudió una muestra de los empleados de General Mills para determinar su grado de
satisfacción con su vida actual. Para medir la satisfacción, se utilizó un índice especial, lla-
mado índice de satisfacción. Se estudiaron seis factores: la edad en la que se casaron por
vez primera (X1), los ingresos anuales (X2), el número de hijos vivos (X3), el valor de todos
sus bienes (X4), el estado de salud en forma de un índice (X5) y el promedio de actividades
sociales por semana, como boliche y baile (X6). Suponga que la ecuación de regresión múlti-
ple es la siguiente:

a. ¿Cuál es el índice de satisfacción calculado para una persona que se casó por primera
vez a los 18, que tiene ingresos anuales de $26 500, que tiene 3 hijos vivos, bienes por
$156 000, un índice de estado de salud de 141 y un promedio de 2.5 de actividades
sociales por semana?
b. ¿Qué daría más satisfacción, un ingreso adicional de $10 000 por año o dos actividades
sociales más por semana?
4. Cellulon, un fabricante de aislamientos para casas, quiere desarrollar lineamientos para
constructores y consumidores en lo que respecta a los efectos (1) del grosor del aislamien-
to en el ático de las casas y (2) de la temperatura externa con respecto al consumo de gas
natural. En el laboratorio se manejaron variaciones en el espesor del aislamiento y la tem-
peratura. Algunos descubrimientos son:

Con base en los resultados de la muestra, la ecuación de regresión es:


Regresión lineal múltiple y análisis de correlación lineal múltiple 481

a. ¿Cuanto gas natural pueden utilizar los propietarios de las casas por mes si instalan 6
pulgadas de aislamiento y la temperatura externa es de 40 °F?
b. ¿Que efecto tendría instalar 7 pulgadas de aislamiento en lugar de 6 en un consumo
mensual de gas natural (suponiendo que la temperatura externa sigue siendo de 40 °F)?
c. ¿Por qué son negativos los coeficientes de regresión b1 y b2? ¿Resulta lógico?

Error estándar de estimación múltiple


En el ejemplo de Salsberry Realty calculamos que el costo de la calefacción de una casa
durante el mes de enero fue de $276.60, cuando la temperatura externa media era de 30
grados, el ático tenía 5 pulgadas de aislamiento y el calentador tiene 10 años de anti-
güedad. Esperaríamos encontrar algún error aleatorio en este cálculo. A veces la calefac-
ción de una casa con estos estadísticos costaría más de $276 60 y a veces menos El error
en este cálculo se mide a través del error estándar de estimación múltiple El error están-
dar, como se le llama con frecuencia, se denota sy 123. Los subíndices indican que utilizamos
tres variables independientes para calcular el valor de Y.
Recuerde que en el Capítulo 13 vimos que el error estándar del estimado describía la
variación de la recta de regresión. Un error estándar pequeño indica que los puntos están
cerca de la recta de regresión, mientras que un valor grande indica que los puntos se
esparcen en la recta de regresión. El mismo concepto se aplica en la regresión múltiple Si
tenemos dos variables independientes, podemos pensar en la variación en un plano de
regresión Consulte la Gráfica 14-1 de la página 475. Si existen más de dos variables inde-
pendientes, entonces no tenemos una interpretación geométrica de la ecuación, pero el
error estándar es todavía una medida del "error" o variabilidad en la predicción
La fórmula para calcular el error estándar es similar a la que utilizamos en el capitulo ante-
rior. Consulte la fórmula (13-6) de la página 447. El numerador es la suma de las diferencias
cuadradas entre los valores calculados y reales de la variable dependiente. En el denominador,
hacemos un ajuste por el hecho de que consideramos distintas variables independientes k.

es la observación.
es el valor estimado con la ecuación de regresión,
es el número de observaciones en la muestra, es
el número de variables independientes.
En el ejemplo de Salsberry Realty, k- 3.
Una vez más, utilizamos el problema de Salsberry Realty para ¡lustrar. La primera casa
tenía una temperatura externa media de 35 grados, 3 pulgadas de aislamiento en el ático y
un calentador de 6 años de antigüedad. Al sustituir estos valores en la ecuación de regre-
sión, el costo calculado de calefacción es de $258.90, determinado por 427 - 4.58(35) -
14.80(3) + 6.10(6). Los valores Y´ para las otras casas se obtienen de manera similar y se
reportan en la Tabla 14-2.
El costo real de la calefacción para la primera casa es de $250, en comparación con el
costo calculado de $258.90. Es decir, el error en la predicción es -$8.90, que se obtiene a
través de ($250 - $258.90). Esta diferencia entre el costo real de calefacción y el costo cal-
culado de calefacción recibe el nombre de varianza residual. Para encontrar el error están-
dar de estimación múltiple, determinamos la varianza residual para cada una de las casas
de la muestra, elevamos al cuadrado el residual y obtenemos el total de varianzas residua-
les cuadradas. El total se reporta en la esquina inferior derecha de la Tabla 14-2.
En este ejemplo n = 20 y k = 3 (tres variables independientes), por tanto, el error están-
dar de estimación múltiple es:
482 Capítulo 14

TABLA 14-2 Cálculos necesarios para el error estándar de estimación múltiple

¿Cómo interpretamos 51.05? Es el "error" típico que se comete al utilizar esta ecuación
para proyectar el costo. Primero, las unidades son las mismas de la variable dependiente,
por tanto, el error estándar está en dólares. En segundo lugar, si los errores tienen una dis-
tribución normal, aproximadamente 68% de las varianzas residuales deberían ser menores
de ± 51.05 y aproximadamente 95% debería ser menor que ± 2(51.05) o ± 102.10. Observe
la segunda columna de la derecha de la Tabla 14-2, la columna definida como (Y-Y'). De
las 20 varianzas residuales reportadas en esta columna, 14 son menores que ± 51.05 y todas
son menores que + 102.10, lo cual se apega en gran medida a los lineamientos del 68 y 95%.
En el Capítulo 13 utilizamos el error estándar de estimación para crear intervalos de
confianza e intervalos de predicción. No vamos a explicar estos procedimientos con detalle
para la regresión múltiple; pero están disponibles en los programas de software de estadís-
tica, como MINITAB.

Suposiciones sobre la regresión


y la correlación lineal múltiple
Antes de continuar, mencionamos las suposi-
ciones que contienen regresiones y correlaciones
múltiples. Como dijimos en varios capítulos ante-
riores, identificamos las suposiciones porque si
éstas no se cumplen por completo, los resulta-
dos podrían ser parcializados. Por ejemplo, al
seleccionar una muestra, suponemos que todos
los elementos de la población tienen oportuni-
dad de ser seleccionados. Si nuestro estudio
incluye investigar a todos aquellos que esquían,
pero no consideramos a aquellos que tienen
más de 40 años porque pensamos que son
"demasiado grandes", podríamos influir en las respuestas de los esquiadores más jóvenes.
Sin embargo, debemos mencionar que en la práctica, no siempre es posible apegarnos a
Regresión lineal múltiple y análisis de correlación lineal múltiple 483

las siguientes suposiciones en los problemas de regresión múltiple y correlación que se pre-
sentan en el ambiente de negocios en constante cambio. Pero las técnicas estadísticas
mencionadas en este capítulo parecen funcionar bien incluso cuando se violan dos o más
suposiciones. Aun cuando los valores de la ecuación de la regresión múltiple no sean los
adecuados, nuestros cálculos basados en la ecuación serán más aproximados que
cualquier otro cálculo que se pueda realizar.
Más adelante en este capítulo comentaremos con mayor detalle cada una de las si-
guientes suposiciones.
1. Las variables independientes y la variable dependiente tienen una relación lineal.
2. La variable dependiente es continua y por lo menos está definida en escala de intervalo.
3. La variación en la diferencia entre los valores reales y los proyectados es la misma para
todos los valores calculados de Y. Es decir, (Y- Y´) debe ser casi igual para todos los
Homoscedasticidad valores de Y'. Cuando éste es el caso, las diferencias presentan homoscedasticidad.
4. Todas las varianzas residuales, calculadas a través de Y – Y´ tienen una distribución
normal con una media de 0.
5. Las observaciones sucesivas de la variable dependiente no están correlacionadas. La
Autocorrelación violación de esta suposición recibe el nombre de autocorrelación, y, por lo general, se
presenta cuando la información se reúne sucesivamente durante varios periodos.
Hay pruebas estadísticas para detectar la homoscedasticidad y la autocorrelación. Para
quienes estén interesados, estas pruebas se incluyen en textos más avanzados como
Applied Linear Regression Models de Kutner, Nachtscheim y Neter (4a. ed. 2004, publica-
do por McGraw-Hill/lrwin).

Tabla ANOVA
Como ya dijimos, los cálculos para la regresión múltiple son muy largos. Por fortuna, hay
diferentes programas de software para realizarlos; de los cuales la mayor parte reportan los
resultados en un formato estándar. La pantalla del sistema MINITAB que se muestra en la
página 478 es típica. Ésta incluye la ecuación de regresión, el error estándar de estimación,
el coeficiente de determinación y un análisis de la tabla de la varianza. Ya describimos el sig-
nificado de los coeficientes de regresión de la ecuación
Posteriormente, en este capítulo, estudiaremos las columnas del "Coef", "StDev" y "T" (por
ejemplo, la razón t). A continuación, retomamos una parte de la pantalla de MINITAB.

Primero, nos concentraremos en el análisis de la tabla de varianza. Ésta es similar a la


tabla ANOVA descrita en el Capítulo 12. En ese capítulo la variación se dividió en dos com-
ponentes: la varianza debida a los tratamientos y la varianza debida al error aleatorio. Aquí
la varianza total también se dividió en dos componentes: la varianza explicada a través de
484 Capítulo 14

la regresión; es decir, a las variables independientes, y la varianza de error, o variación


no explicada. Estas dos categorías se identifican en la columna "Fuente" del análisis de la
tabla de varianza. En el ejemplo existen 20 observaciones, por tanto n = 20. El número total
de grados de libertad es n - 1, o 20 - 1 = 19. El número de grados de libertad en la fila
"Regresión" es el número de variables independientes. Digamos que k representa el
número de variables independientes, por tanto, k = 3. El número de grados de libertad en
la fila "Error" es n - (k+ 1) = 20 - (3 + 1) = 16 grados de libertad.
El título "SS" que aparece en el centro de la tabla ANOVA se refiere a la suma de
cuadrados, o a la variación.

La columna con el encabezado "MS" (cuadrado de la media) se determina al dividir el tér-


mino SS entre el término gl. Por tanto, MSR, la regresión del cuadrado de la media, es igual
a SSR/k, y MSE es igual a SSE/[n - (k+ 1 )]. El formato general de la tabla ANOVA es:

El coeficiente de determinación múltiple, representado por es el porcentaje de


la variación total explicada a través de la regresión. Es la suma de los cuadrados debidos
a la regresión, divididos entre la suma del total de cuadrados.

El error estándar de estimación múltiple también se obtiene directamente de la tabla


ANOVA.

Estos valores, se incluyen en la pantalla de MINITAB.

Autoevaluación 14-2 Consulte la siguiente tabla ANOVA.

(a) ¿Qué tan grande era la muestra?


(b) ¿Cuántas variables independientes se encontraron?
(c) Calcule el coeficiente de determinación múltiple.
(d) Calcule el error estándar de estimación múltiple.
Regresión lineal múltiple y análisis de correlación lineal múltiple 485
a. ¿Qué tan grande era la muestra?

Ejercicios
5. Consulte la siguiente tabla ANOVA

b. ¿Cuántas variables independientes se encontraron?


c. Calcule el coeficiente de determinación múltiple.
d. Calcule el error estándar de estimación múltiple.
6. Consulte la siguiente tabla ANOVA

a. ¿Qué tan grande era la muestra?


b. ¿Cuántas variables independientes se encontraron?
c. Calcule el coeficiente de determinación múltiple.
d. Calcule el error estándar de estimación múltiple.

Evaluación de la ecuación de regresión


Anteriormente, en este capítulo, describimos un ejemplo en el que Salsberry Realty desa-
rrolló, utilizando las técnicas de regresión múltiple, una ecuación para expresar el costo de
calefacción de una casa durante el mes de enero con base en la temperatura externa
media, el número de pulgadas de aislamiento del ático y la antigüedad del calentador. La
ecuación pareció razonable, pero tal vez se quiera verificar que el coeficiente de determi-
nación múltiple es mucho mayor que cero, evaluar los coeficientes de regresión para obser-
var cuáles no son iguales a cero y verificar que se cumplan las suposiciones de regresión.

Uso de un diagrama de dispersión


Existen tres variables independientes, designadas como La variable dependien-
te, el costo de la calefacción, se designa como Y. Para visualizar las relaciones entre la
variable dependiente y cada una de las variables independientes, se pueden trazar los
siguientes diagramas de dispersión.
486 Capítulo 14

De las tres variables independientes, la relación más fuerte se presenta entre el costo
de calefacción y la temperatura externa media. Las relaciones entre el costo y la tempera-
tura, y el costo y el aislamiento son inversas. Es decir, cuando la variable independiente
aumenta, la variable dependiente disminuye. La relación entre el costo de la calefacción y la
antigüedad del calentador es directa. Mientras más antiguo sea el calentador, el costo de
la calefacción para una casa es mayor.

Matriz de correlación
Una matriz de correlación es también de gran utilidad para analizar los factores involucra-
dos en el costo de la calefacción de una casa.

MATRIZ DE CORRELACION Es una matriz que muestra los coeficientes de


correlación entre todos los pares de variables.

A continuación, presentamos la matriz de correlación del ejemplo de Salsberry Realty. La


matriz, que aparece en la pantalla, se desarrolló utilizando el software de Excel.

El costo es la variable dependiente, Y. Nos interesan sobre todo las variables indepen-
dientes que presentan una fuerte correlación con la variable dependiente. Si queremos
desarrollar una ecuación de regresión múltiple más sencilla utilizando menos variables inde-
pendientes, la matriz de correlación nos ayuda a identificar qué variables podrían ser relati-
vamente más importantes. Según lo indica la pantalla, la temperatura presenta la correlación
más fuerte con un costo de -0.81151. El signo negativo indica la relación inversa esperada.
La antigüedad presenta la correlación más fuerte con el costo que con el asilamiento y, de
nuevo como se esperaba, la correlación entre el costo y la antigüedad del calentador es
directa. Es de 0.53673.

Un segundo uso de la matriz de correlación es verificar la multicolinearidad.

MULTICOLINEARIDAD Es la correlación entre las variables independientes.


Regresión lineal múltiple y análisis de correlación lineal múltiple 487

La multicolinearidad puede distorsionar el error estándar de estimación y, por tanto, puede


dar lugar a conclusiones incorrectas para las que las variables independientes son estadís-
ticamente importantes. En este caso, la correlación entre la antigüedad del calentador y la
temperatura es la más fuerte, pero no tanto como para ocasionar un problema. Una regla
general es que las correlaciones entre las variables independientes que se encuentran
entre -0.70 y 0.70 no causan dificultades. El remedio usual para la multicolinearidad es
eliminar una de las variables independientes que se encuentran más correlacionadas y
volver a calcular la ecuación de regresión.

Prueba global: prueba de validación para el modelo de


regresión múltiple
Podemos probar la capacidad de las variables independientes para explicar el
comportamiento de la variable dependiente Y. Lo anterior en forma de pregunta sería:
¿Podemos calcular la variable dependiente sin considerar las variables independientes? La
prueba utilizada recibe el nombre de prueba global. Básicamente, ésta investiga si es posi-
ble que todas las variables independientes tengan coeficientes de regresión neta cero. En
2
otras palabras, ¿la cantidad de la variación explicada, R , se podría presentar por casualidad?
Para relacionar esta pregunta con el ejemplo del costo de la calefacción, probaremos
si las variables independientes (la cantidad de aislamiento en el ático, la temperatura exter-
na diaria media y la antigüedad del calentador) pueden calcular de manera eficaz los cos-
tos de calefacción de la casa.
Recuerde que al probar una hipótesis, primero se establece la hipótesis nula y la
hipótesis alternativa. En el ejemplo del costo de la calefacción, existen tres variables inde-
pendientes. Recuerde que son coeficientes de regresión neta de la muestra. Los
coeficientes correspondientes de la población se expresan con los símbolos
Después probamos si los coeficientes de regresión neta de la población son cero. La hipóte-
sis nula es:

La hipótesis alternativa es:

Si la hipótesis nula es verdadera, esto significa que todos los coeficientes de regresión son
cero y lógicamente, no se necesita calcular la variable dependiente (costo de la calefac-
ción). Si ese fuera el caso, tendríamos que buscar otras variables independientes, o mane-
jar otro enfoque, para predecir los costos de calefacción.
Para probar la hipótesis nula de que todos los coeficientes de regresión múltiple son
cero, utilizamos la distribución F mencionada en el Capítulo 12. Usaremos el nivel de sig-
nificancia 0.05. Recuerde estas características de la distribución F:

1. Es sesgada de manera positiva, con el valor crítico localizado en la cola derecha. El


Características de la valor crítico es el punto que separa la región en la que Ho se acepta desde la región de
distribución F rechazo.
2. Se construye al conocer el número de grados de libertad en el numerador y el número
de grados de libertad del denominador.

Los grados de libertad para el numerador y el denominador se pueden obtener en el


resumen del software en el análisis de la tabla de varianza. Esa parte de la tabla se incluye
a continuación. El número superior en la columna identificado como "GL" es 3, lo que indi-
ca que existen 3 grados de libertad en el numerador. El número medio en la columna "GL"
(16) indica que existen 16 grados de libertad en el denominador. El número 16 se obtiene
a través de n - {k + 1) = 20 - (3 + 1) = 16. El número 3 corresponde al número de variables
independientes.
488 Capítulo 14

El valor de F se obtiene de la siguiente ecuación.

SSR es la suma de los cuadrados "explicados a través de" la regresión, SSE es la suma del
error de los cuadrados, n es el número de observaciones y k es el número de variables inde-
pendientes. Al insertar estos valores en la fórmula (14-4) obtenemos:

El valor crítico de F se encuentra en el Apéndice G. Utilizando la tabla para el nivel de


significancia de 0.05, desplácese horizontalmente 3 grados de libertad en el numerador,
luego hacia abajo 16 grados de libertad en el denominador y lea el valor crítico. Éste es de
3.24. El siguiente diagrama muestra la región en la que H0 se acepta y la región en la que
H0 se rechaza.

Al continuar con la prueba global, la regla de decisión es: aceptar la hipótesis nula de que
todos los coeficientes de regresión son cero si el valor calculado de F es menor o igual que
3.24. Si el F calculado es mayor que 3.24, rechace H0 y acepte la hipótesis alternativa H1
Regresión lineal múltiple y análisis de correlación lineal múltiple 489

El valor calculado de F es 21.90, mismo que se encuentra en la región de rechazo. Por


tanto, rechazamos la hipótesis nula de que todos los coeficientes de regresión múltiple son
cero. El valor p es 0.000 a partir del análisis mencionado de la tabla de varianza, por tanto,
es muy improbable que H0 sea verdadera. La hipótesis nula se rechaza, lo cual indica que
no todos los coeficientes de regresión son cero. Desde un punto de vista práctico, esto sig-
nifica que algunas de las variables independientes (cantidad de aislamiento, etc.) tienen la
capacidad de explicar la variación de la variable dependiente (costo de calefacción).
Esperábamos esta decisión. Por lógica, la temperatura externa, la cantidad de aislamiento
y la antigüedad del calentador tienen una gran influencia en los costos de calefacción. La
prueba global lo demuestra.

Evaluación de los coeficientes de regresión individuales


Se ha demostrado que algunos, aunque no necesariamente todos, coeficientes de regre-
sión no son iguales a cero y, por tanto, son de utilidad para las predicciones. El siguiente
paso es probar las variables de manera individual para determinar qué coeficientes de
regresión pueden ser 0 y cuáles no.
¿Por qué es importante encontrar si es posible que p sea igual a 0? Si (5 puede ser igual
a cero, esto implica que esta variable independiente no tiene valor al explicar las varia-
ciones del valor dependiente. Si existen coeficientes para los cuales se debe aceptar Ho, tal
vez quisiéramos eliminarlos de la ecuación de regresión.
Ahora se realizarán tres pruebas separadas de hipótesis: para la temperatura, para el
aislamiento y para la antigüedad del calentador.

La hipótesis se va a probar con un nivel 0.05. La manera en que se establece la hipótesis


alternativa indica que la prueba es de dos colas.
La estadística de prueba sigue la distribución t de student con n - (k + 1) grados de
libertad. El número de observaciones de la muestra es n. Existen 20 casas en el estudio,
por tanto, n - 20. El número de variables independientes es k, es decir, 3. Por tanto, exis-
ten n - (k + 1) = 20 - (3 + 1) = 16 grados de libertad.
El valor crítico para /se encuentra en el Apéndice F. Para una prueba de dos colas con
16 grados de libertad utilizando un nivel de significancia de 0.05, Ho se rechaza si t es menor
que -2.120 o mayor que 2.120. El software de MINITAB produjo la siguiente pantalla:
490 Capítulo 14

La columna que tiene el encabezado "Coef" muestra los coeficientes de regresión para
la ecuación de regresión múltiple:

Interpretación del término -4.5827X, en la ecuación: por cada grado que la temperatura se
incrementa, se espera que el costo de calefacción disminuirá aproximadamente a $4.58,
manteniendo constantes las otras dos variables.
La columna de la pantalla de MINITAB titulada como "SE Coef" indica el error estándar
del coeficiente de regresión de la muestra. Recuerde que Salsberry Realty seleccionó una
muestra de 20 casas de la costa este de Estados Unidos. Si seleccionaran una segunda mues-
tra al azar y calcularan los coeficientes de regresión de esa muestra, los valores no serían
exactamente los mismos. Sin embargo, si se repitiera el proceso de muestreo varias veces,
se podría diseñar una distribución de muestreo de estos coeficientes de regresión. La
columna que tiene el encabezado "SE Coef" calcula la variabilidad de estos coeficientes de
regresión. La distribución de muestreo de Coef/SE Coef sigue la distribución f con n-(k +
1) grados de libertad. De ahí que las variables independientes se puedan probar de manera
individual para determinar si los coeficientes de regresión difieren de cero. El valor f cal-
culado es -5.93 para la temperatura y -3.12 para el aislamiento. Estos dos valores de í se
encuentran en la región de rechazo a la izquierda de -2.120. Por tanto, llegamos a la con-
clusión de que los coeficientes de regresión para las variables de temperatura y asilamiento
no son cero. La í calculada para la antigüedad del calentador es 1.52, por tanto, llegamos
a la conclusión de que b3 podría ser igual a 0. La variable independiente "antigüedad del
calentador" no es un factor de predicción importante del costo de calefacción, por lo que se
puede eliminar del análisis. Podemos probar coeficientes de regresión individuales utilizan-
do la distribución t. La fórmula es:

bj se refiere a cualquiera de los coeficientes de regresión y se refiere a la desviación


estándar de esa distribución del coeficiente de regresión. Se incluye 0 en la ecuación
porque la hipótesis nula es
Para ilustrar esta fórmula, consulte la prueba del coeficiente de regresión para la varia-
ble independiente Temperatura. Suponga que b1 se refiere al coeficiente de regresión. La
pantalla de la página 489 establece que este valor es -4.5827. es la desviación
estándar de la distribución de muestreo del coeficiente de regresión para la variable
independiente Temperatura. Una vez más, la pantalla de la página 489 establece que éste
es 0.7723. Al insertar estos valores en la fórmula obtenemos:

Éste es el valor que se obtiene en la columna "T" de la pantalla.


En la Autoevaluación 14-3, ejecutamos en MINITAB el ejemplo de regresión múltiple,
pero sólo incluimos dos variables: la "temperatura" y el "aislamiento". Estas dos variables
explicaron 77.6% de la variación del costo de calefacción. Cuando utilizamos las tres varia-
bles (temperatura, aislamiento y antigüedad del calentador) explicamos un total de 80.4%
de la variación. La variable adicional incrementó R2 sólo 2.8%, un incremento muy pequeño
para la adición de una variable independiente.
En este punto también deberíamos desarrollar una estrategia para eliminar variables
independientes. En el caso de Salsberry Realty existían tres variables independientes y una
(antigüedad) presentó un coeficiente de regresión que no era diferente de 0. Es evidente
que esa variable se debería eliminar. Por tanto, la eliminamos y volvemos a efectuar la
ecuación de regresión. Sin embargo, en algunos casos podría ser difícil saber qué variable
debemos eliminar.
Regresión lineal múltiple y análisis de correlación lineal múltiple 491

Para explicarlo, suponga que desarrollamos una ecuación de regresión múltiple basa-
da en cinco variables independientes. Realizamos la prueba global y encontramos que
algunos coeficientes de regresión fueron diferentes de cero. Luego, probamos los coefi-
cientes de regresión de manera individual y encontramos que tres eran significativos y dos
no lo eran. El procedimiento preferido es eliminar la variable independiente con el valor t
absoluto más pequeño o el valor p más grande y efectuar de nuevo la ecuación de regre-
sión con las cuatro variables restantes. Luego, realizamos pruebas individuales en la nueva
ecuación de regresión con cuatro variables independientes. Si todavía existen coeficientes
de regresión que no son significativos, volvemos a eliminar la variable con el valor t abso-
luto más pequeño. Para describir el proceso de otra manera, deberíamos eliminar sólo una
variable a la vez. Cada vez que eliminamos una variable, debemos volver a efectuar la
ecuación de regresión y revisar las variables restantes.
Este procedimiento de seleccionar variables para incluirlas en un modelo de regresión
se puede automatizar utilizando Excel, MINITAB, Megastat u otro software estadístico. La
mayor parte de los sistemas de software incluyen métodos para eliminar de manera secuen-
cial y/o añadir variables independientes, y a la vez proporcionar cálculos del porcentaje de
la variación explicada (el término de cuadrados de R). Dos métodos comunes son la regre-
sión de paso y la regresión del mejor subconjunto. Puede llevar mucho tiempo, pero es
posible calcular cada regresión entre las variables dependientes y los posibles subconjun-
tos de las variables independientes.
En ocasiones, el software puede ser "muy complicado" para encontrar una ecuación
que cumpla con las singularidades de su conjunto de datos. La ecuación resultante quizá
no represente la relación en la población. Deberá recurrir al sentido común para elegir las
ecuaciones entre las que se presentan. Considere si los resultados son lógicos. Estos
deberían tener una interpretación sencilla y ser consistentes con su conocimiento de la apli-
cación que se estudia.

Autoevaluación 14-3 La regresión múltiple y la información de correlación para el ejemplo anterior del costo de
calefacción se utilizaron otra vez considerando sólo las dos primeras variables independientes
significativas (temperatura y aislamiento). (Consulte la siguiente pantalla de MINITAB.)
(a) ¿Cuál es la nueva ecuación de regresión múltiple? (La temperatura es X, y el aislamiento
es X2.)
(b) ¿Cuál es el coeficiente de determinación múltiple? Interprételo.
(c) ¿En qué se basa para decir que estas dos variables independientes son importantes al
proyectar los costos de calefacción?
(d) ¿Cuál es el valor p del aislamiento? Interprételo.
492 Capítulo 14

Variables independientes cualitativas


Las tres variables utilizadas en el ejemplo de Salsberry Realty son cuantitativas; es decir,
de naturaleza numérica. Por lo general, en nuestro análisis queremos utilizar variables de
escala nominal, como el género, si la casa tiene alberca o si el ganador fue el equipo visi-
tante o el equipo local. Estas variables reciben el nombre de variables cualitativas porque
describen una cualidad particular, como masculino o femenino. Para utilizar una variable
cualitativa en el análisis de regresión, se utiliza un esquema de variables tontas donde una
de las dos condiciones posibles tiene un código de 0 y la otra de 1.

VARIABLE TONTA Es una variable en la que sólo existen dos resultados posibles. Para
el análisis, uno de los resultados recibe un código de 1 y el otro de 0.

Por ejemplo, podríamos calcular el salario de un ejecutivo con base en sus años de
experiencia laboral y si se graduó o no de la universidad. El concepto "graduación de la uni-
versidad" puede tener sólo dos condiciones: sí o no. Por tanto, se considera una variable
cualitativa.
Suponga que en el ejemplo de Salsberry Realty se agrega la variable "cochera". Para
las casas sin cochera, utilizamos 0; para las que sí la tienen usamos 1. Nos referiremos a
la variable "cochera" como X4. La información de la Tabla 14-3 se introduce en el sistema
MINITAB.

TABLA 14-3 Costos de calefacción de las casas, temperatura, aislamiento y cochera para una muestra de
20 casas

La pantalla de MINITAB es la siguiente:


Regresión lineal múltiple y análisis de correlación lineal múltiple 493

¿Cuál es el efecto de la variable "cochera"? ¿Se debe incluir en el análisis? Para


mostrar el efecto de la variable, suponga que hay dos casas vecinas exactamente iguales
en Buffalo, Nueva York; una tiene cochera y la otra no. Ambas casas tienen 3 pulgadas de
aislamiento y la temperatura media de enero en Buffalo es de 20 grados. Para la casa sin
cochera, 0 se sustituye por X4 en la ecuación de regresión. El costo calculado de calefac-
ción es $280.90, calculando así:

Para la casa con cochera, 1 sustituye a X4 en la ecuación de regresión. El costo calculado


de calefacción es $358.30, calculado así:

La diferencia entre los costos calculados de calefacción es de $77.40 ($358.30 - $280.90).


De ahí que podamos esperar que el costo de la calefacción de una casa con cochera sea
de $77.40 más que el costo para una casa equivalente sin cochera.
Se ha mostrado que la diferencia entre los dos tipos de casa es de $77.40, ¿pero existe
una diferencia significativa? Realizamos la siguiente prueba de hipótesis:

La información necesaria para responder esta pregunta se encuentra en la anterior pantalla


de MINITAB. El coeficiente de regresión para la variable independiente "cochera" es de
77.43, la desviación estándar de la distribución de muestreo es de 22.78. Ésta se identifica
como la cuarta variable independiente, por tanto, utilizamos el subíndice 4. Por último, intro-
ducimos estos valores en la fórmula (14-5).

Existen tres variables independientes en el análisis, por tanto, existen n - (k + 1) = 20 -


(3 + 1) = 16 grados de libertad. El valor crítico del Apéndice F es 2.120. La regla de decisión,
utilizando una prueba de dos colas y un nivel de significancia de 0.05, es rechazar H0 si la t
calculada se encuentra a la izquierda de -2.120 o a la derecha de 2.120. Ya que el valor
calculado de 3.40 se encuentra a la derecha de 2.120, la hipótesis nula se rechaza.
Llegamos a la conclusión de que el coeficiente de regresión no es cero. La variable inde-
pendiente "cochera" se debe incluir en el análisis.
494 Capítulo 14

¿Se puede utilizar una variable cualitativa con más de dos resultados posibles? Sí, pero
el esquema de codificación se vuelve más complejo y requiere de una serie de variables
tontas. Para explicarlo, suponga que una compañía está estudiando sus ventas en cuanto
a su relación con una cuarta parte de los gastos de publicidad durante los últimos 5 años.
Suponga que las ventas son la variable dependiente y los gastos de publicidad son la
primera variable independiente, X1 Para incluir la información cualitativa en lo que se refiere
a la cuarta parte, se utilizan tres variables independientes adicionales. Para la variable X2,
las cinco observaciones que se refieren a la primera cuarta parte de cada uno de los 5 años
tienen el código de 1 y las otras cuartas partes de 0. De manera similar, para la variable X3
las cinco observaciones que se refieren a la segunda cuarta parte tienen el código de 1 y las
otras cuartas partes de 0. Para la variable X4 las cinco observaciones que se refieren a la
tercera cuarta parte tienen el código de 1 y las otras cuartas partes de 0. Una observación
que no se refiere a ninguna de las primeras tres cuartas partes se debe referir a la cuarta
parte, por tanto, no es necesaria una variable independiente diferente que se refiera a esta
cuarta parte.

Ejercicios
7. Consulte la siguiente información:

a. Complete la tabla ANOVA.


b. Realice una prueba global de hipótesis, utilizando un nivel de significancia 0.05. ¿Pode-
mos llegar a la conclusión de que los coeficientes de regresión son diferentes de cero?
c. Realice una prueba de hipótesis en cada uno de los coeficientes de regresión. ¿Puede
eliminar alguna de las variables?
8. Consulte la siguiente información:

a. Complete la tabla ANOVA.


b. Realice una prueba global de hipótesis, utilizando un nivel de significancia de 0.05. ¿Pode-
mos llegar a la conclusión de que los coeficientes de regresión son diferentes de cero?
c. Realice una prueba de hipótesis en cada uno de los coeficientes de regresión. ¿Puede
eliminar alguna de las variables?
Regresión lineal múltiple y análisis de correlación lineal múltiple 495

Análisis de varianzas residuales


En la sección anterior describimos las suposiciones requeridas para el análisis de regresión
y correlación. Estas suposiciones son:

1. Existe una relación lineal entre la variable dependiente y las variables independientes.
2. La variable dependiente se mide como una variable de intervalo o de escala de razón.
3. Las observaciones sucesivas de una variable dependiente no están correlacionadas.
4. Las diferencias entre los valores reales y los valores calculados; es decir, las varianzas
residuales, por lo general están distribuidas.
5. La variación en las varianzas residuales es la misma para todos los valores de Y´. Es
decir, la distribución de (Y- Y´) es la misma para todos los valores de Y´.

Las últimas dos suposiciones se pueden verificar al representar las varianzas residua-
les. Es decir, queremos confirmar que las varianzas residuales siguen una distribución nor-
mal y que las varianzas residuales tienen la misma variación independientemente de si el
valor de Y' es alto o bajo. La Tabla 14-4 presenta la información necesaria. La columna que
tiene el encabezado "Costo real" es el costo original de calefacción, que presentamos antes
en la Tabla 14-1. La columna siguiente, con el encabezado "Costo calculado", es el costo
de calefacción de la casa calculado a través de la ecuación de regresión. Esto también
recibe el nombre de valor ajustado y es Y´. El valor para la primera casa se obtiene al susti-
tuir los valores reales de las tres variables en la ecuación de regresión. Por ejemplo, en la
Tabla 14-3, la temperatura externa de la media de la primera casa fue de 35 grados, pre-
sentó 3 pulgadas de aislamiento en el ático y no incluía cochera. El costo real de calefac-
ción fue de $250, y el costo calculado de calefacción fue de $221.08, calculado con:

La varianza residual se encuentra en la última columna. Ésta es de 28.92, calculado así:


250 - 221.08. Las varianzas residuales para los otros 19 valores se calculan de manera
similar.

TABLA 14-4 Resumen de costos reales, costos calculados y varianzas residuales para el problema de
Salsberry Realty
496 Capítulo 14

Podemos utilizar la última columna, las varianzas residuales, para verificar la suposi-
ción de normalidad. La siguiente pantalla de MINITAB presenta un diagrama de tallo y hojas
y un histograma de las varianzas residuales. Ambas gráficas indican que la distribución de
las varianzas residuales es de alguna manera normal, según lo requerido en las suposi-
ciones. Para interpretar la pantalla, observe que las varianzas residuales se clasifican con
un intervalo de clase de 20: -70 hasta -50, con un punto intermedio de -60; -50 hasta -30,
con un punto intermedio de -40; y así sucesivamente. Los detalles de las primeras tres
clases son:

Las suposiciones para el análisis de regresión también requieren de que las varianzas
residuales permanezcan constantes para todos los valores de Y´. Recuerde que esta condi-
Homoscedasticidad ción recibe el nombre de homoscedasticidad. Para verificarla, las varianzas residuales se
representan en los valores ajustados de Y´. Es decir, elaboramos un diagrama de disper-
sión con los valores de la columna del Costo calculado de la Tabla 14-1 representados en
el eje horizontal y las varianzas residuales en el eje vertical. El primer trazo es 221.08 para
X y 28.92 para Y. Ya que la dispersión de las varianzas residuales es la misma para todas
las Y', llegamos a la conclusión de que no se violó la suposición.
Regresión lineal múltiple y análisis de correlación lineal múltiple 497

A continuación, presentamos dos ejemplos en los que el requerimiento de homosce-


dasticidad no se cumple. Observe en el primer ejemplo que el trazado de varianzas residua-
les tiene forma de embudo. Es decir, cuando los valores de Y aumentan, también se
incrementa la variación de las varianzas residuales. En el segundo ejemplo, existe un patrón
de varianzas residuales. Las varianzas residuales parecen adoptar la forma de un polinomio
o de una ecuación de segundo grado.

¿Qué problemas causan las varianzas residuales que no presentan homoscedastici-


dad? Las desviaciones estándar de los coeficientes de regresión se van a comprender (muy
poco), provocando que las variables independientes potenciales parezcan importantes
cuando no lo son. El recurso para esta condición es seleccionar otras variables independien-
tes o transformar algunas de las variables. Para un enfoque más detallado del análisis de
las varianzas residuales, consulte un libro más avanzado, como Applied Linear Regression
Models de Kutner, Nachtscheim y Neter (4a. ed., publicado por McGraw-Hill/lrwin).
En el siguiente ejemplo mostramos cómo el análisis de las varianzas residuales puede
originar un modelo de regresión mejorado.

Paul Roseboro es un analista de Bar Nun Trucking y estudia el efecto de la presión de las llan-
tas en el ahorro de gasolina (Mpg) para una flotilla de 24 sedanes que usan los supervisores
regionales. Roseboro convenció a la gerencia de que se condujeran cuatro automóviles
diferentes con una presión en las llantas de 30 libras por pulgada cuadrada, cuatro con 31,
cuatro con 32, y así sucesivamente, y obtuvo la siguiente información de la muestra.
498 Capítulo 14

Desarrolle un modelo adecuado de regresión para relacionar la presión de las llantas con la
efectividad de la gasolina. ¿Cuál parece ser el mejor nivel para la presión de las llantas?

Paul utilizó un paquete estadístico de software para desarrollar una ecuación de regresión,
utilizando la presión de las llantas como la variable independiente y Mpg como la variable
dependiente. De esta ecuación de regresión él obtuvo las varianzas residuales y los valores
correspondientes. Por último, trazó estos valores en el diagrama de dispersión. Paul com-
para el diagrama siguiente de varianzas residuales contra los valores ajustados. ¿Qué indi-
ca el diagrama? ¿Existe algún problema con las suposiciones de regresión?

Las varianzas residuales (Y- Y') se encuentran en el eje vertical y los valores de Y´ están
en el eje horizontal. Resulta que los errores o varianzas residuales no son aleatorios. En
lugar de ello, existe un patrón definitivo para las varianzas residuales. Éstas son negativas
para los valores altos y bajos de la presión de las llantas y son positivas en la parte media
del rango.
Un diagrama de datos con la ecuación de regresión lineal ayuda a comprender mejor
lo anterior. Aquí, la variable dependiente Mpg está en el eje vertical y la presión de las llan-
tas en el eje horizontal.

La ecuación de regresión es Mpg = 4.52403 + 0.889614 de presión. Observe que el valor


de R2, 17%, es muy bajo. En otras palabras, sólo 17% de la variación en el millaje se con-
Regresión lineal múltiple y análisis de correlación lineal múltiple 499

sidera para la diferencia de la presión de las llantas. En el diagrama se puede observar que
la relación entre las variables no es lineal.
Este patrón indica que la relación puede ser polinomial. Por tanto, Paul decide utilizar
una ecuación cuadrada o de segundo grado para la información. Su nueva ecuación tiene
la forma general:

A fin de crear una segunda variable independiente para este análisis, Paul eleva al cuadra-
do la presión de las llantas. Generalmente, una variable y su cuadrado tienden a comportar-
se de manera independiente una de la otra. Luego, puede utilizar la regresión múltiple para
determinar la ecuación de segundo grado. En otras palabras, Paul ajusta la presión de las
llantas y la presión de las llantas al cuadrado con Mpg. Consulte la información que se
encuentra en la parte izquierda de la siguiente pantalla de MINITAB.

La nueva ecuación de regresión es:

2
El valor de R se incrementó a 77.7%. Es decir, las variables independientes de la presión
de las llantas y de la presión de las llantas al cuadrado ahora equivalen a casi 78% de la
variación del millaje. Ésta es una mejora sustancial.
500 Capítulo 14

¿Qué sucede con el problema de que las varianzas residuales no siguen un patrón
aleatorio? Paul traza las varianzas residuales obtenidas de la ecuación cuadrada con la
variable de la presión de las llantas y parece no haber un patrón. Las varianzas residuales
ahora parecen ser "más aleatorias".
¿Cuál sería el valor óptimo para la presión de las llantas? Si observamos el trazo dis-
perso con la ecuación de regresión correspondiente, veremos que el millaje se incrementó
a cerca de 33 libras y luego empezó a disminuir.
Este trazo también sugiere que la presión de las llantas óptima debe ser de 33 libras
por pulgada cuadrada. En resumen, al utilizar una ecuación cuadrada pudimos incrementar
la variación explicada de 17 a 78%, eliminar el problema con las varianzas residuales y des-
cubrir que la presión de las llantas más favorable es 33 libras.

Resumen del capítulo


I. El análisis de regresión múltiple y de correlación se basa en estas suposiciones:
A. Existe una relación lineal entre las variables independientes y la variable dependiente.
B. La variable dependiente es una variable continua que se mide en una escala de inter-
valo o razón.
C. La variación residual es la misma para todos los valores de Y.
D. Las varianzas residuales siguen la distribución normal.
E. Las observaciones sucesivas de la variable dependiente no están correlacionadas.
II. La forma general de la ecuación de regresión múltiple es:

donde Y es el valor calculado, a es la intercepción de Y, £> se refiere a los coeficientes de


regresión de la muestra y X1 se refiere a los valores de las diferentes variables independientes.
A. Puede existir cualquier número de variables independientes.
B. El criterio de los mínimos cuadrados se utiliza para desarrollar la ecuación.
C. Es necesario un paquete de software de estadística para determinar a y los diferentes
valores de b.
III. Existen dos medidas de la eficacia de la ecuación de regresión.
A. El error estándar de estimación múltiple es similar a la desviación estándar.
1. Se mide en las mismas unidades como la variable dependiente.
2. Es difícil determinar qué es un valor alto y qué es un valor bajo del error estándar.
B. El coeficiente de determinación puede variar de 0 a 1 y mostrar la fracción de la
variación en Y que se explica a través de un conjunto de variables independientes.
IV. Una tabla ANOVA muestra la variación de la variable dependiente explicada por la ecuación
de regresión y de la varianza residual o variación del error.
V. Una matriz de correlación muestra todos los coeficientes simples de correlación posibles
entre los pares de las variables.
VI. Una prueba global se utiliza para investigar si las variables independientes presentan coefi-
cientes importantes de regresión.
A. La hipótesis nula establece que: todos los coeficientes de regresión son cero.
B. La hipótesis alternativa establece que: por lo menos un coeficiente de regresión no es cero.
C. La estadística de la prueba es la distribución F con k grados de libertad (el número de
variables independientes) en el numerador y n - (k+ 1) grados de libertad en el denomi-
nador, donde n es el tamaño de la muestra.
D. La fórmula para calcular el valor de la estadística de prueba para la prueba global es:

VIl. La prueba para las variables individuales determina qué variables independientes presentan
coeficientes de regresión significativos.
A. Por lo general, las variables que presientan valor cero como coeficientes de regresión
se eliminan del análisis.
B. La estadística de la prueba es la distribución fcon n - (k+ 1) grados de libertad.
C. La fórmula para calcular el valor del estadístico de la prueba para la prueba individual es:
Regresión lineal múltiple y análisis de correlación lineal múltiple 501

VIII. Las variables tontas se utilizan para representar variables cualitativas y pueden asumir sólo
una de las dos condiciones posibles.
IX. Una varianza residual es la diferencia entre el valor real de Vy el valor estimado de V.
A. Las varianzas residuales deben tener una distribución normal. Las gráficas detalladas
y los histogramas son de gran utilidad al revisar que se cumpla con este requisito.
B. Un diagrama de las varianzas residuales y de sus valores correspondientes de Y" es de
gran utilidad para demostrar que no existen patrones o tendencias en las varianzas
residuales.

Clave de pronunciación

Ejercicios del capítulo


9. Una ecuación de regresión múltiple presenta los siguientes resultados parciales.

a. ¿Cuál es el tamaño total de la muestra?


b. ¿Cuántas variables independientes se consideran?
c. Calcule el coeficiente de determinación.
d. Calcule el error estándar del estimado.
e. Pruebe la hipótesis de que ninguno de los coeficientes de regresión son iguales a cero.
Suponga que a = 0.05.
10. En una ecuación de regresión múltiple se consideran dos variables independientes y el
tamaño de la muestra es de 25. Los coeficientes de regresión y los errores estándar son lo
que se muestra a continuación:

Realice una prueba de hipótesis para determinar si las variables independientes tienen un
coeficiente igual a cero. ¿Consideraría la posibilidad de eliminar alguna variable de la
ecuación de regresión? Utilice un nivel de significancia 0.05.
11. Se obtuvo el siguiente resultado:
502 Capítulo 14

a. ¿Cuál es el tamaño de la muestra?


2
b. Calcule el valor de R .
c. Calcule el error estándar de estimación múltiple.
d. Realice una prueba global de hipótesis para determinar si los coeficientes de regresión
son importantes. Utilice un nivel de significancia 0.05.
e. Pruebe los coeficientes de regresión de manera individual. ¿Consideraría la posibilidad
de omitir alguna variable? De ser así ¿cuál(es) omitiría? Utilice un nivel de significan
cia 0.05.
12. En una ecuación de regresión múltiple, k- 5 y n = 20, el valor de MSE es 5.10 y el total de
SS es de 519.68. Con un nivel de significancia 0.05, ¿podemos llegar a la conclusión de que
los coeficientes de regresión no son iguales a cero?
13. La gerente de distrito de Jasons, una gran cadena de tiendas de electrónica, investiga por
qué algunas tiendas en su región funcionan mejor que otras. La gerente considera que tres
factores están relacionados con las ventas totales: el número de tiendas de la competencia
en la región, la población en el área y el dinero invertido en publicidad. En su distrito, en el
que hay varios cientos de tiendas, selecciona una muestra aleatoria de 30 tiendas. Para
cada tienda, reunió la siguiente información:

La información de la muestra se capturó en MINITAB, con los siguientes resultados:

a. ¿Cuáles son las ventas calculadas para la tienda Bryne, misma que tiene cuatro com
petidores, una población de 0.4 (400 000) y un gasto de publicidad de 30 ($30 000)?
2
b. Calcule el valor de R .
c. Calcule el error estándar múltiple de estimación.
d. Realice una prueba global de hipótesis para determinar si los coeficientes de regresión
son importantes. Utilice el nivel de significancia 0.05.
e. Realice pruebas de hipótesis para determinar qué variables independientes presentan
coeficientes de regresión importantes. ¿Consideraría la posibilidad de omitir alguna
variable? De ser así, ¿cuál(es) omitiría? Utilice el nivel de significancia 0.05.
14. Suponga que el gerente de ventas de una gran distribuidora de partes de automóvil desea
calcular las ventas totales anuales de una región en el mes de abril. Con base en las ven-
tas regionales, también se pueden calcular las ventas totales para una compañía. Si, con
base en las experiencias pasadas, se encuentra que los cálculos de las ventas anuales en
abril son precisos, entonces en los años futuros el pronóstico para abril se podría utilizar
para revisar los programas de producción y mantener el inventario correcto en las tiendas
de descuento detallistas.
Varios factores están relacionados con las ventas, incluyendo el número de tiendas de
descuento detallistas en la región que manejan las partes de la compañía, el número de au-
tomóviles en la región registrados al 1 de abril y el ingreso total personal para los primeros
cuatro meses del año. Se seleccionaron cinco variables independientes como las más
importantes (de acuerdo con el gerente de ventas). Después se reunió la información para el
último año. También se registraron las ventas anuales totales durante ese año en esa región.
Observe en la siguiente tabla que en la región 1, 1 739 tiendas de descuento detallistas
Regresión lineal múltiple y análisis de correlación lineal múltiple 503

manejaron las partes de automóviles de la compañía, se presentaron 9 270 000 automóviles


registrados en la región al 1 de abril y las ventas para ese año fueron de $37 702 000.

a. Analice la siguiente matriz de correlación. ¿Qué variable presenta la correlación más


fuerte con la variable dependiente? Las correlaciones entre las variables independien-
tes "tiendas de descuento" e "ingreso" y entre "automóviles" y "tiendas de descuento"
son muy fuertes. ¿Esto podría ser un problema? ¿Cómo se le llama a esta condición?

b. La siguiente ecuación de regresión se obtuvo al utilizar las cinco variables independien-


tes. ¿Qué porcentaje de la variación se explica a partir de (a ecuación de regresión?

c. Realice una prueba global de hipótesis para determinar si alguno de los coeficientes de
regresión no es cero. Utilice el nivel de significancia 0.05.
d. Realice una prueba de hipótesis en cada una de las variables independientes. ¿Con-
sideraría la posibilidad de eliminar "tiendas de descuento" y "jefes"? Utilice el nivel de
significancia 0.05.
e. La regresión se vuelve a efectuar sin "tiendas de descuento" y sin "jefes". Calcule el
2
coeficiente de determinación. ¿Cuánto cambió R en el análisis anterior?
504 Capítulo 14

A continuación se presenta un histograma y un diagrama de tallo y hojas de las varian-


zas residuales. ¿Es razonable suponer una normalidad?

A continuación se presenta un diagrama de los valores de Y (por ejemplo, Y´) y de las


varianzas residuales. ¿Observa alguna violación de las suposiciones?

15. El administrador de un programa para practicantes de leyes en Seagate Technical College


quiere calcular el promedio de las calificaciones del nuevo programa, y piensa que el exa-
men GPA de preparatoria, la calificación en la Prueba de Aptitudes Escolares (SAT) y la cali-
ficación en matemáticas en el SAT pueden resultar buenas ayudas para predecir la
calificación en el examen GPA del programa de practicantes de leyes. Los datos de los
nueve estudiantes son los siguientes:
Regresión lineal múltiple y análisis de correlación lineal múltiple 505

a. Analice la siguiente matriz de correlación, ¿Qué variable presenta la correlación más


fuerte con la variable dependiente? Algunas de las correlaciones entre las variables
independientes son fuertes. ¿Esto puede ser un problema?

b. Observe la siguiente pantalla. Calcule el coeficiente de determinación múltiple.

c. Realice una prueba global de hipótesis de la pantalla que se muestra a continuación.


¿Alguno de los coeficientes de regresión no es igual a cero?
d. Realice una prueba de hipótesis de cada una de las variables independientes. ¿Con-
sideraría la posibilidad de eliminar las variables "verbal" y "matemáticas"? Suponga que
a = 0.05.
e. El análisis se vuelve a efectuar sin "verbal" y sin "matemáticas". Observe la siguiente
2
pantalla. Calcule el coeficiente de determinación. ¿Cuánto cambió R en el análisis
anterior?

f. A continuación se presenta un histograma y un diagrama de tallo y hojas de las varian-


zas residuales. ¿La suposición dé normalidad para las varianzas residuales resulta ser
razonable?
506 Capítulo 14
Los siguientes problemas requieren de un paquete de software.

g. A continuación se presenta un diagrama de los valores de V" y de las varianzas residua-


les. ¿Observa alguna violación de las suposiciones?

16. Mike Wilde es presidente de la unión de profesores para el Distrito Escolar de Otsego. A fin
de prepararse para las negociaciones próximas, le gustaría investigar la estructura salarial de
los profesores frente a grupo en el distrito. Wilde considera que existen tres factores que
influyen en el salario de un profesor: los años de experiencia, su calificación en desempeño
docente proporcionada por el director y si el profesor cuenta con una maestría. Una mues-
tra aleatoria de 20 profesores proporcionó la siguiente información:

a. Desarrolle una matriz de correlación. ¿Qué variable independiente presenta una corre-
lación más fuerte con la variable dependiente? ¿Al parecer habrá problemas en lo que
respecta a la multicolinearidad?
b. Determine la ecuación de regresión. ¿Qué salario calcularía para un profesor que tiene
cinco años de experiencia, una calificación del director de 60 y no tiene maestría?
c. Realice una prueba global de hipótesis para determinar si alguno de los coeficientes de
regresión es diferente de cero. Utilice un nivel de significancia 0.05.
d. Realice una prueba de hipótesis para cada una de las variables independientes. ¿Con
sideraría la posibilidad de eliminar alguna de las variables independientes? Utilice un
nivel de significancia 0.05.
e. Si su conclusión en el inciso (d) fue eliminar una o más variables independientes, vuel-
va a realizar el análisis sin esas variables.
f. Determine las varianzas residuales para la ecuación del inciso (e). Utilice un diagrama
de tallo y hojas o un histograma para verificar que la distribución de las varianzas
residuales sea casi normal.
g. Trace las varianzas residuales calculadas en el inciso (f) en un diagrama de dispersión
con las varianzas residuales en el eje Y y los valores de Y' en el eje X. ¿El diagrama
revela alguna violación de las suposiciones de regresión?
Regresión lineal múltiple y análisis de correlación lineal múltiple 507

17. El gerente distrital de ventas de un fabricante de automóviles estudia las ventas de éstos. En
forma específica, quiere determinar qué factores influyen en el número de automóviles vendi-
dos en una distribuidora. Para investigarlo, seleccionó al azar 12 distribuidoras. De éstas,
obtiene el número de automóviles vendidos el mes pasado, los minutos de publicidad en radio
comprados el mes pasado, el número de vendedores de tiempo completo contratados y si la
distribuidora está ubicada en la ciudad. La información es la siguiente:

a. Desarrolle una matriz de correlación. ¿Qué variable independiente presenta una corre-
lación más fuerte con la variable dependiente? ¿Parece que se presentarán problemas
en lo que respecta a la multicolinearidad?
b. Determine la ecuación de regresión. ¿Cuántos automóviles esperaría que vendiera una
distribuidora que emplea a 20 vendedores, que compra 15 minutos de publicidad y que
está en la ciudad?
c. Realice una prueba global de hipótesis para determinar si alguno de los coeficientes de
regresión neta son diferentes de cero. Suponga que
d. Realice una prueba de hipótesis para cada una de las variables independientes.
¿Consideraría la posibilidad de eliminar alguna de las variables independientes?
Suponga que a = 0.05.
e. Si su conclusión en el inciso (d) fue eliminar una o más variables independientes, vuel-
va a efectuar el análisis sin esas variables.
f. Determine las varianzas residuales para la ecuación del inciso (e). Utilice un diagrama
de tallo y hojas o un histograma para verificar que la distribución de las varianzas resi-
duales sea casi normal.
g. Trace las varianzas residuales calculadas en el inciso (f) en un diagrama de dispersión
con las varianzas residuales en el eje Y y los valores de Y' en el eje X. ¿El diagrama
revela alguna violación de las suposiciones de regresión?
18. Fran's Convenience Marts se localiza en toda el área metropolitana de Erie, Pennsylvania. Fran,
la propietaria, quiere expandirse a otras comunidades del noroeste de Pennsylvania y del
sureste de Nueva York, como Jamestown, Corry, Meadville y Warren. Como parte de su pre-
sentación para el banco local, desea comprender mejor los factores que hacen que una tien-
da de descuento sea productiva. Fran realizará todo el trabajo por su cuenta, por tanto, no
puede estudiar todas sus tiendas de descuento. Seleccionó una muestra aleatoria de 15
tiendas y registró las ventas diarias promedio (Y), el espacio en el local (área), el número de
cajones de estacionamiento y el ingreso medio ele las familias en la región donde está cada
tienda. A continuación, presentamos la información de la muestra.
508 Capítulo 14

a. Determine la ecuación de regresión.


2
b. ¿Cuál es el valor de fí ? Comente el valor.
c. Realice una prueba global de hipótesis para determinar si alguna de las variables inde
pendientes es diferente de cero.
d. Realice pruebas de hipótesis individuales para determinar si es posible eliminar alguna
de las variables independientes.
e. Si se eliminan variables, vuelva a calcular la ecuación de regresión y R2.
19. Steve Douglas fue contratado como instructor de administración en una importante empre-
sa de corredores de bolsa. Como su primer proyecto, le pidieron que estudiara el ingreso
bruto de las empresas de la industria química. ¿Qué factores influyen en los ingresos de esa
industria? Steve selecciona una muestra aleatoria de 16 empresas y obtiene la información
sobre el número de empleados, el número de dividendos accionarios comunes consecutivos
pagados, el valor total del inventario a principios del año en curso y el ingreso bruto para
cada compañía. Sus resultados son los siguientes:

a. Determine la ecuación de regresión. Master Chemical Company emplea a 220 per-


sonas, ha pagado 64 dividendos accionarios comunes consecutivos y tiene un inven-
tario valuado en $1 500 000 a principios del año. ¿Cuál es ei cálculo de¡ ingreso bruto?
b. Realice una prueba global de hipótesis para determinar si alguno de los coeficientes de
regresión neta difieren de cero.
c. Realice una prueba de hipótesis para cada uno de los coeficientes de regresión, ¿Con-
sideraría la posibilidad de eliminar alguna de las variables independientes?
d. Si su conclusión en el inciso (c) fue eliminar una o más variables independientes, vuel-
va a efectuar el análisis sin esas variables.
e. Determine las varianzas residuales para la ecuación del inciso (d). Utilice un diagrama
de tallo y hojas o un histograma para verificar que la distribución de las varianzas
residuales sea casi normal.
f. Trace las varianzas residuales calculadas en el inciso (e) en un diagrama de dispersión
con las varianzas residuales en el eje Y y los valores de Y' en el eje X. ¿El trazado reve-
la alguna violación de las suposiciones de regresión?
20. El Times-Observer es un periódico que se publica diariamente en Metro City. Como muchos
otros periódicos citadinos, Times-Observer atraviesa por una época financiera difícil, E!
gerente de circulación estudia otros periódicos de ciudades similares en Estados Unidos y
Canadá, y sobre todo le interesa encontrar las variables relacionadas con ei número de
suscripciones al periódico. Pudo obtener la siguiente información de la muestra sobre 25
periódicos de ciudades similares. Se utilizaron las siguientes abreviaturas:
Sus = Número de suscripciones (en miles)
Pob = La población metropolitana (en miles)
Pub = El presupuesto de publicidad del periódico (en cientos de $)
Ingreso = El ingreso familiar medio en el área metropolitana (en miles de $)
Regresión lineal múltiple y análisis de correlación lineal múltiple 509

a. Determine la ecuación de regresión.


b. Realice una prueba global de hipótesis para determinar si alguno de los coeficientes de
regresión neta es diferente de cero.
c. Realice una prueba de hipótesis para cada uno de los coeficientes. ¿Consideraría la
posibilidad de eliminar alguno de los coeficientes?
d. Determine las varianzas residuales y compárelas con los valores ajustados. ¿Observa
algún problema?
e. Desarrolle un histograma de las varianzas residuales. ¿Observa algún problema con las
suposiciones de normalidad?
21. ¿Qué tan importante es el GPA al determinar el salario de inicio de los recién egresados de la
facultad de administración? ¿El hecho de haberse graduado de una escuela de negocios incre-
menta el salario de inicio? La directora de estudies de los alumnos de último año de una impor-
tante universidad desea estudiar estas preguntas y reunió te siguiente información de una
muestra de 15 exalumnos graduados la primavera pasada para investigar estas preguntas.

El salario se reporta en $000, el GPA se reporta en la escala tradicional de 4 puntos. Uno


indica los estudiantes graduados de una escuela de negocios; 0 indica que el estudiante se
graduó de una de las otras escuelas.
a. Desarrolle una matriz de correlación. ¿Observa algún problema con la multicolinearidad?
b. Determine la ecuación de regresión. Comente la ecuación de regresión. ¿Qué tanto se
incrementa el salario de inicio por et hecho de que una persona se gradúe de una facul-
tad de administración? ¿Qué salario de inicio calcularía para un estudiante con un GPA
de 3.00 que se graduó de una facultad dé administración?
2
c. ¿Cuál es el valor de R ? ¿Podemos llegar a la conclusión de que este valor es mayor
que 0?
d. ¿Consideraría la posibilidad de eliminar alguna de las variables independientes?
510 Capítulo 14

e. Trace las varianzas residuales en un histograma. ¿Existe algún problema con la suposi-
ción de normalidad?
f. Compare los valores ajustados con las varianzas residuales. ¿Este diagrama indica
algún problema con la homoscedasticidad?
22. El departamento de hipotecas de un banco importante estudia sus préstamos recientes.
Quiere saber sobre todo de qué manera factores como el valor de la vivienda (en miles de
dólares), el nivel de educación del jefe de familia, la edad del jefe de familia, el pago men-
sual actual de la hipoteca (en dólares) y el género del jefe de familia (masculino = 1, femeni-
no = 0) se relacionan con el ingreso familiar. ¿Estas variables predicen de manera eficaz el
ingreso del jefe de la familia? Se obtuvo una muestra aleatoria de 25 préstamos recientes.

a. Determine la ecuación de regresión.


b. ¿Cuál es el valor de R2? Comente el valor.
c. Realice una prueba global de hipótesis para determinar si alguna de las variables inde
pendientes es diferente de cero.
d. Realice una prueba de hipótesis individual para determinar si se puede eliminar alguna
variable independiente.
2
e. Si se eliminan variables, vuelva a calcular la ecuación de regresión y R .
23. Fred G. Hire es el gerente de recursos humanos de Crescent Tool and Die, Inc. Como parte
de su informe anual para el director ejecutivo, debe presentar un análisis de los empleados
asalariados. Ya que existen más de 1 000 empleados, Fred no tiene el equipo para reunir la
información sobre cada empleado asalariado, por tanto, selecciona una muestra aleatoria de
30. Para cada empleado, registra el salario mensual; el tiempo de trabajar en Crescent, en
meses; el género (1 = masculino, 0 = femenino); y si el empleado tiene un trabajo técnico o
administrativo. Los trabajos técnicos tienen el código 1 y los administrativos tienen el código 0.
a. Determine la ecuación de regresión, utilizando el salario como la variable dependiente
y las otras cuatro variables como las variables independientes.
b. ¿Cuál es el valor de f?2? Comente el valor.
c. Realice una prueba global de hipótesis para determinar si alguna de las variables inde-
pendientes es diferente de cero.
Regresión lineal múltiple y análisis de correlación lineal múltiple 511

d. Realice una prueba de hipótesis individual para determinar si puede eliminar alguna
variable independiente.
e. Vuelva a efectuar la ecuación de regresión, utilizando sólo las variables independientes
que son importantes. ¿Cuánto más gana al mes un hombre que una mujer? ¿Hay algu-
na diferencia por el hecho de que el empleado tenga un trabajo técnico o uno adminis-
trativo?
24. Muchas regiones de la costa de Carolina del Norte, de Carolina del Sur y de Georgia han
experimentado un rápido crecimiento de la población durante los últimos 10 años. Se espera
que el crecimiento continúe durante los próximos 10 años. Esto ha tenido influencia en
muchas de las grandes cadenas de tiendas de abarrotes que construyen tiendas nuevas en la
región. La cadena Kelley's Super Grocery Stores, Inc., no es una excepción. El director de
planeación de Kelley's Super Grocery Stores quiere investigar esto para construir más tien-
das en esta región. Considera que existen dos factores principales que indican la cantidad
de dinero que las familias gastan en las tiendas de abarrotes. E! primero es su ingreso y el
otro es el número de personas en la familia. El director reunió la información de la muestra;
que se observa en la tabla de la página siguiente.
Los aumentos y el ingreso se reportan en miles de dólares por año y la variable
"tamaño" se refiere al número de personas en la familia.
a. Desarrolle una matriz de correlación. ¿Observa algún problema con la multicolinearidad?
b. Determine la ecuación de regresión. Comente la ecuación de regresión. ¿Cuánto más
añade un miembro adicional en la familia a la cantidad de dinero invertida en alimentos?
2
c. ¿Cuál es el valor de fí ? ¿Podemos llegar a la conclusión de que este valor es mayor
que 0?
d. ¿Consideraría la posibilidad de eliminar alguna de las variables independientes?
512 Capitulo 14

e. Trace las varianzas residuales en un histograma. ¿Existe algún problema con la suposi-
ción de normalidad?
f. Compare los valores ajustados con las varianzas residuales. ¿Este diagrama indica
algún problema con la homoscedasticidad?
25. Un agente de inversiones estudia la relación entre un precio accionario común para la razón
de ganancias (P/E) y los factores que influirían en éste, y cuenta con la siguiente informa-
ción sobre las ganancias por acción (EPS) y el porcentaje de dividendos (Rendimiento) para
una muestra de 20 acciones.

a. Desarrolle una regresión lineal múltiple con P/E como la variable dependiente.
b. ¿Las dos variables independientes predicen P/E de manera efectiva?
Regresión lineal múltiple y análisis de correlación lineal múltiple 513

c. Interprete los coeficientes de regresión.


d. ¿Alguna de estas acciones parece estar particularmente subvalorada?
e. Trace las varianzas residuales y revise la suposición de normalidad. Compare los valo-
res ajustados con las varianzas residuales.
f. ¿Se presenta algún problema con la homoscedasticidad?
g. Desarrolle una matriz de correlación. ¿Alguna de las correlaciones indica multicolinea-
ridad?
26. A continuación, presentamos información reciente del Bureau of Labor Statistics de Estados
Unidos sobre los cambios porcentuales en el rendimiento/hora, los costos unitarios de trabajo y
la compensación real por hora para las nóminas de Estados Unidos.

a. Desarrolle una ecuación de regresión múltiple utilizando el rendimiento y el trabajo como


las variables independientes y la compensación como la variable dependiente.
2
b. Realice una prueba global. ¿Podemos llegar a la conclusión de que el valor de R es
mayor que cero?
c. Pruebe la importancia de cada variable. ¿Podemos eliminar alguna de ellas?
d. Trace las varianzas residuales y verifique la suposición de normalidad.
e. Compare el valor ajustado con las varianzas residuales. ¿Existe algún problema con la
homoscedasticidad?
f. Desarrolle una matriz de correlación. ¿Observa algún problema con la multicolinearidad?

exercices.com
27. El National Institute of Standards and Technology proporciona varios conjuntos de información
para permitir que cada usuario pruebe la precisión de su software estadístico. Visite el sitio web:
http://www.iti.nist.gov/div898/strcl. Seleccione la sección de Dataset Archives y, en ésta, la
sección de Linear Regression. Encontrará los nombres de 11 conjuntos de datos almacena
dos en el formato ASCII en esta página. Seleccione uno y coloque la información en su soft
ware de estadística. Compare sus resultados con los "oficiales" del gobierno federal.
28. Según lo descrito en los ejemplos de los Capítulos 12 y 13, muchas compañías de bienes
raíces y agencias arrendadoras publican sus listas en la Red. Un ejemplo es Dunes Realty
Company, ubicada en Garden City y Surfside Beaches en Carolina del Sur. Visite el sitio web:
http://www.dunes.com, seleccione Cottage Search, luego indique 5 habitaciones, lugar
para 14 personas, con vista al mar y sin alberca o muelle flotante, seleccione un periodo de
514 Capítulo 14

julio y agosto, indique que está dispuesto a pagar $5 000 a la semana y haga clic en Search
the Cottages. La pantalla deberá incluir los detalles de las casas que cumplan con sus cri-
terios. Desarrolle una ecuación de regresión lineal múltiple utilizando el precio de renta por
semana como la variable dependiente y el número de habitaciones, el número de baños y el
número de personas que se hospedarán en la casa como las variables independientes.
Analice las ecuaciones de regresión. ¿Consideraría la posibilidad de eliminar alguna variable
independiente? ¿Cuál es el coeficiente de determinación? Si elimina alguna de las variables,
vuelva a efectuar la ecuación de regresión y comente la nueva ecuación.

Ejercicios de la base de datos


29. Consulte los datos Real Estate que reporte, información sobre las casas vendidas en el área
de Denver, Colorado, durante el año pasado. Utilice el precio de venta de la casa como la
variable dependiente y determine la ecuación de regresión utilizando como variables inde-
pendientes: el número de habitaciones, el tamaño de la casa y si la casa cuenta con alber-
ca o con cochera, la distancia desde el centro de la ciudad y el número de baños.
a. Escriba la ecuación de regresión. Comente cada una de las variables. Por ejemplo, ¿le
sorprende que el coeficiente de regresión para la distancia del centro de la ciudad sea
negativo? ¿Cuánto dinero se suma al precio de venta de la casa si ésta contiene una
cochera o una alberca?
2
b. Determine el valor de R . Interprételo.
c. Desarrolle una matriz de correlación. ¿Qué variables independientes presentan corre-
laciones fuertes o débiles con respecto a la variable dependiente? ¿Observa algún
problema con la multicolinearidad?
d. Realice la prueba global en el conjunto de variables independientes. Interprétela.
e. Realice una prueba de hipótesis en cada una de las variables independientes. ¿Con-
sideraría la posibilidad de eliminar alguna de las variables? De ser así, ¿cuál eliminaría?
f. Vuelva a efectuar el análisis hasta que sólo queden coeficientes de regresión neta
importantes en el análisis. Identifique estas variables.
g. Desarrolle un histograma o un diagrama de tallo y hojas de las varianzas residuales de
la ecuación final de regresión desarrollada en el inciso (f). ¿Podemos llegar a la con
clusión de que se cumplió la suposición de normalidad?
h. Trace las varianzas residuales contra los valores correspondientes de la ecuación final
de regresión desarrollada en el inciso (f) contra los valores correspondientes de Y. Trace
las varianzas residuales en el eje vertical y los valores ajustados en el eje horizontal.
30. Consulte los datos de Baseball 2002, que proporcionan información sobre los 30 equipos de
Béisbol de las Ligas Mayores para la temporada 2002. Suponga que el número de juegos
ganados es la variables dependiente y las siguientes variables son las independientes: el
promedio de bateo del equipo, el número de bases robadas, el número de errores cometi
dos, el ERA del equipo, el número de jonrones y el hecho de que el campo sea de pasto
natural o artificial.
a. Escriba la ecuación de regresión. Comente cada una de las variables. Por ejemplo, ¿le
sorprende que el coeficiente de regresión para ERA sea negativo? ¿Cuántos juegos
ganados le suman o le restan a los juegos ganados totales para la temporada el hecho
de que el campo sea de pasto natural o artificial?
2
b. Determine el valor de R . Interprételo.
c. Desarrolle una matriz de correlación. ¿Qué variables independientes presentan corre-
laciones fuertes o débiles con respecto a la variable dependiente? ¿Observa algún
problema con la multicolinearidad?
d. Realice la prueba global en el conjunte de variables independientes. Interprétela.
e. Realice una prueba de hipótesis en cada una de las variables independientes. ¿Con-
sideraría la posibilidad de eliminar alguna de las variables? De ser así, ¿cuál eliminaría?
f. Vuelva a efectuar el análisis hasta que sólo queden coeficientes de regresión neta
importantes en el análisis. Identifique estas variables.
g. Desarrolle un histograma o un diagrama de tallo y hojas de las varianzas residuales de
la ecuación final de regresión desarrollada en el inciso (f). ¿Podemos llegar a la con
clusión de que se cumplió la suposición de normalidad?
Regresión lineal múltiple y análisis de correlación lineal múltiple 515

h. Compare las varianzas residuales con los valores ajustados de la ecuación final de
regresión desarrollada en el inciso (f) y con los valores correspondientes de Y. Trace
las varianzas residuales en el eje vertical y los valores ajustados en el eje horizontal.
31. Consulte los datos Wage, que reportan información sobre los salarios anuales para una
muestra de 100 empleados. También se incluyen variables relacionadas con la industria, los
años de educación y el género de cada empleado. Determine la ecuación de regresión uti-
lizando el salario anual como la variable dependiente y los años de educación, el género, los
años de experiencia laboral, la edad en años y el hecho de que el empleado sea o no miem-
bro del sindicato.
a. Escriba la ecuación de regresión. Comente cada una de las variables.
2
b. Determine el valor de R . Interprételo.
c. Desarrolle una matriz de correlación. ¿Qué variables independientes presentan corre-
laciones fuertes o débiles con respecto a la variable dependiente? ¿Observa algún
problema con la multicolinearidad?
d. Realice la prueba global en el conjunto de variables independientes. Interprétela. ¿Es
razonable continuar con el análisis o debe detenerlo?
e. Realice una prueba de hipótesis en cada una de las variables independientes. ¿Con
sideraría la posibilidad de eliminar alguna de las variables? De ser así» ¿cuál eliminaría?
f. Vuelva a efectuar el análisis eliminando cada una de las variables independientes que
no son importantes. Elimine cada una de las variables a la vez.
g. Desarrolle un histograma o un diagrama de tallo y hojas de las varianzas residuales de
la ecuación final de regresión desarrollada en el inciso (f). ¿Podemos llegar a la con
clusión de que se cumplió la suposición de normalidad?
h. Trace las varianzas residuales contra los valores correspondientes de la ecuación final
de regresión, Trace las varianzas residuales en el eje vertical y los valores correspon-
dientes en el eje horizontal.
32. Consulte los datos CÍA, que proporcionan la información demográfica y económica de 46 paí-
ses. Suponga que el desempleo es la variable dependiente y que el porcentaje de la población
mayor de 65 años, las expectativas de vida y el alfabetismo son las variables independientes.
a. Determine la ecuación de regresión utilizando un paquete de software. Escriba la
ecuación de regresión.
b. ¿Cuál es el valor del coeficiente de determinación?
c. Revise las variables independientes para la multicolinearidad.
d. Realice una prueba global con el conjunto de variables independientes.
e. Pruebe cada una de las variables independientes para determinar si son diferentes de cero.
f. ¿Usted eliminaría alguna de las variables independientes? De ser así, vuelva a efectuar
el análisis de regresión y reporte la nueva ecuación.
g. Elabore un histograma de las varianzas residuales de su ecuación final de regresión.
¿Se puede concluir que ias varianzas residuales siguen una distribución normal?
h. Compare las varianzas residuales con los valores ajustados y revise. ¿Existe algún
problema?

Comandos de software
1. Los comandos de MINITAB para la pantalla de regre-
sión múltiple de la página 478 son los siguientes:
a. Importe la información del CD. El nombre del archi-
vo es Tbt14-1.
b. Seleccione Stat, Regression y haga clic en
Regression.
c. Seleccione Cost como la variable Response, y
Temp, Insulation y Age como los Predictors, luego
haga clic en OK.
516 Capítulo 14

2. Los comandos de Excel para la pantalla de regresión


múltiple de la página 478 son los siguientes:
a. Importe la información del CD- El nombre del archi
vo esTbl14.
b. Seleccione Toois, luego Data Analysis, selec
cione Regression y haga clic en OK.
c. Elabore el Input Y Range A1;A21, el Input X
Range B1:D21, marque el cuadro de Labels, e!
Output Range es F1t haga clic en OK.

3. Los comandos de Excel para desarrollar la matriz de


correlación de la página 486 son los siguientes:
a. Importe la información del CD. El nombre del archi
vo esTbl14-1.
b. Seleccione Tools, Data Analysis y presione
Enter. Seleccione el comando Correlation y haga
clic en OK.
e. El Input Range es A1:D21, agrupado por
Cotumns, revise el cuadro de Labels, seleccione
G1 como el Out put Range y haga clic en OK.

4. Los comandos de MINITAB para desarrollar la matriz de


correlación de la página 496 son los siguientes:
a. Importe la información del CD. El nombre del archi
vo es Tbl14-1.
b. Seleccione Stat, Regression y luego haga clic en
Regression.
c. Seleccione Cosí como la variable de Response, y
Temp, Insulation y Age como los Predictors y haga
clic en OK.
d. Haga clic en Storage, luego marque Residuals y
Flts y haga clic en OK en ambos cuadros de diálogo.
5. Los comandos de MINITAB para las varianzas de regre-
sión correspondientes a la página 499 son los siguien-
tes:
a. Importe la información del CD.
b. Seleccione Stat, Regression y haga clic en Fitted
Line Plot.
c. Seleccione Mpg como la Response (Y) y Pressure
como Predictor (X) y seleccione Quadratic como
el Type of Regression Model y haga clic en OK.
Regresión lineal múltiple y análisis de correlación lineal múltiple 517

Capítulo 14 Respuestas a las autoevaluaciones


518 Sección 5

Revisión de los capítulos 13 y 14


La regresión simple y la Esta sección es un repaso de los conceptos y términos principales que presentamos en los
correlación analizan la relación Capítulos 13 y 14. En el Capítulo 13 se señaló que la fuerza de la relación entre la variable inde-
entre dos variables. pendiente y la variable dependiente puede medirse a partir del coeficiente de correlación.
Desarrollada por Karl Pearson, la r de Pearson puede asumir cualquier valor entre -1.00 y +1.00
inclusive. Los coeficientes de -1.00 y +1.00 indican la relación perfecta, y 0 indica que no existe
relación alguna. Un valor cercano a 0, como-0.14 o 0.14, indica una relación débil. Un valor cer-
cano a -1 o +1, como -0.90 o +0.90, indica una relación fuerte. La elevación al cuadrado de
2
r proporciona el coeficiente de determinación, también llamado r . Éste indica la proporción de la
variación total en la variable dependiente explicada a través de la variable independiente.
La regresión múltiple y la De modo similar, la fuerza de la relación entre diferentes variables independientes y una
2
correlación se ocupan de la variable dependiente se mide a partir del coeficiente de determinación múltiple, R . Éste mide la
relación entre dos o más proporción de la variación en Y explicada a partir de dos o más variables independientes.
variables independientes y la La relación lineal en el caso simple que comprende una variable independiente y una varia-
variable dependiente. ble dependiente se describe a partir de la ecuación Y´ = a + b X. Para tres variables independien-
tes, la misma ecuación de
regresión múltiple es la siguiente:
La resolución de involucraría cálculos tediosos. Por fortuna, este tipo de proble-
ma se puede solucionar con rapidez utilizando uno de los diferentes paquetes de software de
estadística y de los paquetes de hojas de cálculo. La pantalla de la mayor parte de los programas
La computadora es muy
de software reportan diferentes medidas, como el coeficiente de determinación, el error estándar
valiosa para la regresión
del estimado múltiple, los resultados de una prueba global y la prueba de las variables individuales.
múltiple y la correlación.

Glosario
Capítulo 13 cionó la muestra es cero? La estadística de la prueba es í, y el
número de grados de libertad es n - 2.
Análisis de correlación Grupo de técnicas estadísticas uti-
lizadas para medir la fuerza de relación entre dos variables.
Coeficiente de correlación Medida de la fuerza de aso-
ciación entre dos variables. Éste se calcula a partir de:

Capitulo 14
Autocorrelación Correlación de varianzas residuales suce-
sivas. Por lo general, esta condición se presenta cuando se
Coeficiente de determinación Proporción de la variación involucra al tiempo en el análisis.
total de la variable dependiente que se explica a partir de la Ecuación de regresión múltiple Relación en la forma de
variable independiente. Éste puede asumir cualquier valor una ecuación matemática entre diferentes variables inde-
entre 0 y +1.00 inclusive. Un coeficiente de 0.82 indica que pendientes y una variable dependiente. La forma general es
82% de la variación de Y se debe a X. Este coeficiente se Ésta se utiliza
calcula a partir de la elevación al cuadrado del coeficiente de para
correlación, r. calcular los valores de X y los valores de Y seleccionados y
Diagrama de dispersión Gráfica que representa visual- las variables independientes k.
mente la relación entre dos variables. Homoscedasticidad El error estándar del estimado es el
Ecuación de regresión lineal Ecuación matemática que mismo para todos los valores correspondientes de la varia-
define la relación entre dos variables. Ésta tiene la forma de ble dependiente.
Se utiliza para predecir Y con base en un valor Matriz de correlación Listado de todos los coeficientes
seleccionado de X. Y es la variable dependiente y X es la simples posibles de correlación. Una matriz de correlación
variable independiente. incluye las correlaciones entre cada una de las variables in-
Error estándar del estimado Mide la dispersión de los valo- dependientes y la variable dependiente, así como las corre-
res reales de Ven relación con la línea de regresión. Éste se laciones entre todas las variables independientes.
reporta en las mismas unidades utilizadas por la variable Multicolinearidad Condición que se presenta en el análisis
dependiente. de regresión múltiple si las variables independientes se
Método de mínimos cuadrados Técnica utilizada para lle- correlacionan entre sí.
gar a la ecuación de regresión al minimizar la suma de los Residual Diferencia entre el valor real de la variable depen-
cuadrados de las distancias verticales entre los valores rea- diente y el valor calculado de la variable dependiente, es
les de V y los valores proyectados de Y. decir
Prueba de significancia de r Fórmula para responder la Variables cualitativas Variable de escala nominal que
pregunta: ¿La correlación de la población de la que se selec- puede asumir sólo uno de dos resultados posibles. Por ejem-
plo, una persona es considerada empleada o desempleada.
Revisión de los capítulos 13 y 14 519

Ejercicios
Parte I. Opción múltiple

1. La fuerza de la asociación entre un conjunto de variables independientes Xy una variable


dependiente Y se mide a partir de:
a. El coeficiente de correlación.
b. El coeficiente de determinación.
c. El error estándar del estimado.
d. Todas las anteriores.
2. El porcentaje de la variación total de la variable dependiente /explicada por la variable inde
pendiente X se mide a partir de:
a. El coeficiente de correlación.
b. El coeficiente de determinación.
c. El error estándar del estimado.
d. La multicolinearidad
3. Un coeficiente de correlación se calculó para ser de -0.90. Este resultado significa que:
a. La relación entre dos variables es débil.
b. La relación entre dos variables es fuerte y positiva.
c. La relación entre dos variables es fuerte y negativa.
d. La relación entre cuatro variables es fuerte.
4. El coeficiente de determinación se calculó para ser de 0.38 en un problema que comprendía
una variable independiente y una variable dependiente. Este resultado significa que:
a. La relación entre dos variables es negativa.
b. El coeficiente de correlación es de 0.38.
c. 38% de la variación total se explica a partir de la variable independiente.
d. 38% de la variación total se explica a partir de la variable dependiente.
5. ¿Cuál es la relación entre el coeficiente de correlación y el coeficiente de determinación?
a. No se relacionan.
b. El coeficiente de determinación es el coeficiente de correlación al cuadrado.
c. El coeficiente de determinación es la raíz cuadrada del coeficiente de correlación.
d. Son iguales.
6. La multicolinearidad existe cuando:
a. Las variables independientes están correlacionadas en menos de -0.70 o más de 0.70.
b. Una variable independiente tiene una fuerte asociación con una variable dependiente.
c. Sólo existe una variable independiente.
d. La relación entre las variables dependientes e independientes no es lineal.
7. Si el "tiempo" se utiliza como la variable independiente en un análisis simple de regresión
lineal, ¿cuál de las siguientes suposiciones se podría violar?
a. Existe una relación lineal entre las variables independientes y dependientes.
b. La variación residual es la misma para todos los valores correspondientes de Y.
c. Los residuales tienen una distribución normal.
d. Las observaciones sucesivas de la variable dependiente no están correlacionadas.
8. En la regresión múltiple, cuando la prueba global de significancia se rechaza, se puede con-
cluir que:
a. Todos los coeficientes de regresión neta de la muestra son iguales a cero.
b. Todos los coeficientes de regresión neta de la muestra no son iguales a cero.
c. Por lo menos uno de los coeficientes de regresión neta de la muestra no es igual a cero.
d. La ecuación de regresión intercepta el eje Y en cero.
9. Un residual se define como:
a. Y - Y ' .
b. La suma del error de los cuadrados.
c. La suma de regresión de los cuadrados.
d. El error tipo I.
10. ¿Qué estadística de la prueba se utiliza para una prueba global de significancia?
a. Estadística z.
b. Estadística t.
c. Estadística ji cuadrada.
d. Estadística F.
520 Sección 5

Parte II. Problemas


11. El departamento de contabilidad de Crate and Barrel desea calcular las ganancias para cada
una de las diferentes tiendas de la cadena basándose en el número de empleados de la tien-
da, los costos generales, los márgenes de ganancia promedio y pérdidas por robo. Algunas
estadísticas de las tiendas son:

a. La variable dependiente es:_______________ .


b. La ecuación general para este problema es:_________________ .
c. La ecuación de regresión múltiple se calculó para que fuera
¿Cuáles son las ventas proyectadas para una tienda de 112
empleados, un costo general de $65 000, un promedio de margen de ganancias de 50%
y una pérdida por robo de $50 000?
2
d. Suponga que R se calculó para que fuera 0.86. Explique.
e. Suponga que el error estándar múltiple del cálculo fue de 3 (en miles de $). Explique
qué significa esto en este problema.
12. Las compañías de impresión rápida en la zona comercial del centro invierten la mayor parte
de su presupuesto de publicidad en anuncios en las paradas de camiones. Un proyecto de
investigación incluye la predicción de las ventas mensuales con base en la cantidad anual
invertida para colocar anuncios publicitarios en las paradas de camiones. Una muestra de
compañías de impresión rápida reveló los siguientes gastos de publicidad y ventas:

a. Dibuje un diagrama de dispersión.


b. Determine el coeficiente de correlación.
c. ¿Cuál es el coeficiente de correlación?
d. Calcule la ecuación de regresión.
e. Calcule las ventas mensuales de una compañía de impresión rápida que invierte $4 500
en anuncios en las paradas de camiones.
f. Resuma sus descubrimientos.
13. Se proporciona la siguiente pantalla ANOVA:

a. Calcule el coeficiente de determinación.


b. Calcule el error estándar de estimación múltiple.
c. Realice una prueba de hipótesis para determinar si alguno de los coeficientes de regre-
sión neta es diferente de cero.
d. Realice una prueba de hipótesis de los coeficientes de regresión individual. ¿Se puede
detectar alguna de las variables?
Revisión de los capítulos 13 y 14 521

Casos

A. The Century National Bank


Consulte la información del Century National Bank. Utilizan-
do el saldo de las cuentas de cheques como la variable de-
pendiente y como las variables dependientes: el número
de transacciones en cajero automático, el número de otros
servicios utilizados, el hecho de que el individuo cuente con
una tarjeta de débito y si el interés se paga en la cuenta par-
ticular, escriba un informe indicando cuál de las variables
parece estar relacionada con el saldo de las cuentas y cómo
explican la variación en los saldos de cuentas. ¿Todas las
variables independientes propuestas se deben utilizar en el
análisis o algunas se pueden eliminar?

B. Terry and Associates: el tiempo para entregar


equipos médicos
Terry and Associates es un centro especializado en análisis
médicos en Denver, Colorado. Una de sus principales fuen-
tes de ingreso es un equipo que se utiliza para detectar
grandes cantidades de plomo en la sangre. Los empleados
de los talleres automotrices, de la industria jardinera y los
pintores comerciales de casas están expuestos a grandes
cantidades de plomo y, por tanto, se deben someter a la
prueba en forma aleatoria. Es costoso realizar la prueba, por
tanto, los equipos se entregan bajo pedido en diversos
lugares en el área de Denver.
Kathleen Terry, la propietaria, está preocupada por el
costo adecuado de cada entrega. Para investigar esto, la
señorita Terry reunió información sobre una muestra aleato-
ria de 50 entregas recientes. (Véase la Tabla de la columna
siguiente.) Los factores relacionados con el costo de entre-
ga del equipo son:

Prep. El tiempo que transcurre entre el pedido hecho por


teléfono a la compañía y el momento en que el
equipo está listo para entregarse.
Entrega El tiempo de recorrido real de la planta de Terry al
cliente.
Millaje La distancia en millas de la planta de Terry al
cliente.

1. Desarrolle una ecuación de regresión lineal múltiple que


describa la relación entre el costo de entrega y las otras
variables. ¿Estas tres variables explican una cantidad
razonable de la variación de la variable dependiente?
Calcule el costo de entrega para un equipo que incluye
10 minutos de preparación, 30 minutos de entrega y
que debe cubrir una distancia de 14 millas.
2. Determine que por lo menos un coeficiente de regresión
neta difiere de cero. Verifique también si alguna de las
variables se puede eliminar del análisis. Si algunas va-
riables se pueden eliminar, vuelva a efectuar la ecuación
de regresión hasta que sólo se incluyan las variables
importantes. Escriba un breve informe interpretando la
ecuación final de regresión.
Métodos no paramétricos:
aplicaciones de ji cuadrada

Consulte los datos Wage que proporcionan la información sobre los salarios anuales para
una muestra de 100 trabajadores. También se incluyen variables relacionadas con la
industria, años de educación y género de cada trabajador. Desarrolle una tabla donde se
indique la industria del empleo por género. En el nivel de significancia 0.05, ¿es razonable
llegar a la conclusión de que la industria del empleo y el género se relacionan? (Vea la Meta
3 y el Ejercicio 33.)
Métodos no paramétricos: aplicaciones de ji cuadrada 52

Introducción
En los Capítulos del 9 al 12, analizamos datos de la escala de intervalo o de por lo menos,
como el peso de las barras de acero, el ingreso de las minorías y los años de empleo.
Realizamos pruebas de hipótesis respecto a una sola media de población, dos medias de
población y tres o más medias de población. Para estas pruebas, suponemos que las
poblaciones siguen la distribución normal. Sin embargo, existen pruebas en las que no se
necesita una suposición en cuanto a la forma de la población. Asimismo, hay pruebas exclu-
sivas para los datos de la escala de medida nominal. Del Capítulo 1, recuerde que los datos
nominales son los "más bajos" o más primitivos. Para este tipo de medida, los datos se
clasifican en categorías en las que no existe un orden natural. Los ejemplos incluyen el
género de los representantes del Congreso, el estado donde nacieron los estudiantes o la
marca de crema de maní que se compró. En este capítulo presentamos una nueva prueba
estadística, la estadística de ji cuadrada, que podemos usar para los datos que se miden
con una escala nominal.

Prueba de bondad de ajuste:


Frecuencias igualmente esperadas
La prueba de bondad de ajuste es una de las pruebas estadísticas más comunes. La
primera explicación de esta prueba incluye el caso donde las frecuencias esperadas de las
celdas son iguales.
Como lo implica su nombre completo, la finalidad de la prueba de bondad de ajuste es
comparar una distribución observada con una distribución esperada. Un ejemplo describirá
la situación de una prueba de hipótesis.

La señorita Jan Kilpatrick es gerente de mer-


cadotecnia de una fábrica de tarjetas deportivas.
Ella piensa iniciar una serie de tarjetas con
fotografías y estadísticas de juego de exjugado-
res de las Ligas Mayores de Beisbol. Uno de los
problemas es la selección de los exjugadores.
Durante la exhibición de tarjetas de beisbol en el
Southwyck Mall el fin de semana pasado, puso
un stand y ofreció tarjetas de los siguientes seis
jugadores de beisbol del Salón de la Fama: Tom
Seaver, Nolan Ryan, Ty Cobb, George Brett,
Hank Aaron y Johnny Bench. Al final del día vendió un total de 120 tarjetas. En la Tabla 15-
1 se presenta el número de tarjetas vendidas de cada jugador de todos los tiempos. ¿Puede
llegar ella a la conclusión de que las ventas no son iguales para cada jugador?

TABLA 15-1 Número de tarjetas vendidas de cada jugador

Si no existiera una diferencia significativa en la popularidad de los jugadores, podríamos


esperar que las frecuencias observadas (fo) fueran iguales, o casi iguales. Es decir, espera-
ríamos vender la misma cantidad de Tom Seaver que de Nolan Ryan. Por tanto, cualquier dis-
crepancia en las frecuencias observada y esperada podría atribuirse al muestreo (casualidad).
524 Capítulo 15

¿Qué sucede con el nivel de medida en este problema? Observe que cuando se vende
una tarjeta, la "medida" de la tarjeta se basa en el nombre del jugador. No hay un orden
natural para los jugadores. Ningún jugador es mejor que el otro. Por tanto, se utiliza una
escala nominal para evaluar cada observación.
Como en la muestra hay 120 tarjetas, esperamos que (fe) sea de 20 tarjetas, es decir,
la frecuencia esperada fe, caiga en cada una de las seis categorías (Tabla 15-2). Estas cat-
egorías se llaman celdas. Un estudio de la serie de frecuencias observadas en la Tabla 15-
1 indica que la tarjeta de Goerge Brett no se vende con frecuencia, mientras que las de
Hank Aaron y Nolan Ryan se venden más a menudo. ¿La diferencia en las ventas se debe
a una casualidad o podemos llegar a la conclusión de que existe una preferencia en las tar-
jetas de ciertos jugadores?

TABLA 15-2 Frecuencias observadas y esperadas para las 120 tarjetas vendidas

Usaremos el mismo procedimiento sistemático de prueba de hipótesis en cinco pasos que


seguimos en los capítulos anteriores.
Establecer la hipótesis nula y la hipótesis alternativa. La hipótesis nula, H0,
es que no existe ninguna diferencia entre la serie de frecuencias observadas y
la serie de frecuencias esperadas; es decir, cualquier diferencia entre las dos
series de frecuencias se puede atribuir al muestreo (casualidad). La hipótesis
alternativa, H1 es que existe una diferencia entre las series de frecuencias
observadas y esperadas. Si se rechaza H0 y se acepta H1 significa que las ven-
tas no se distribuyeron de manera equitativa entre las seis categorías (celdas).
Seleccionar el nivel de significancia. Seleccionamos el nivel 0.05, que es
igual a la probabilidad de error Tipo I. Por tanto, la probabilidad de que se
rechace la hipótesis nula es de 0.05.
Seleccionar el estadístico de prueba. El estadístico de prueba sigue la dis-
2
tribución de ji cuadrada, la cual se designa como χ -

con k- 1 grados de libertad, donde:

es el número de categorías.
es una frecuencia observada en una categoría particular.
es una frecuencia esperada en una categoría particular.

En breve, estudiaremos con más detalle las características de la distribución


de ji cuadrada.
Formular la regla de decisión. Recuerde que la regla de decisión en las prue-
bas de hipótesis requiere que se encuentre un número que separe la región
donde se acepta Ho de la región de rechazo. Este número se llama el valor críti-
co. Como veremos, la distribución ji cuadrada en realidad es una familia de dis-
Métodos no paramétricos: aplicaciones de ji cuadrada 525

tribuciones. Cada distribución tiene una forma ligeramente diferente, dependi-


endo del número de grados de libertad. El número de grados de libertad en este
tipo de problema se encuentra mediante k- 1, donde k es el número de cate-
gorías. En este problema en particular, existen seis. Debido a que hay seis ca-
tegorías, existen k- 1 = 6 - 1 =5 grados de libertad. Como se observó, una
categoría se llama celda, por lo que tenemos seis celdas. El valor crítico para 5
grados de libertad y un nivel de significancia 0.05 se presentan en el Apéndice
B. En la Tabla 15-3 se presenta una parte de dicha tabla. El valor crítico es
11.070, que se encuentra localizando 5 grados de libertad en el margen izquier-
do, después moviéndose en dirección horizontal (a la derecha) y leyendo el
valor crítico en la columna 0.05.

TABLA 15-3 Una porción de la Tabla de ji cuadrada

Si el valor calculado de ji cuadrada es mayor a 11.070, la regla de decisión es


rechazar H0. Si es menor o igual a 11.070, se acepta H0. La Gráfica 15-1 muestra
esta regla de decisión.

GRÁFICA 15-1 Distribución de probabilidad de ji cuadrada para 5 grados de libertad, donde se muestra la
región de rechazo, con un nivel de significancia 0.05

La regla de decisión indica que si existen diferencias importantes entre las fre-
2
cuencias observada y esperada, que resultan de una χ calculada de más de
11.070, se debe rechazar la hipótesis nula. Sin embargo, si las diferencias
2
entre fo y fe son pequeñas, el valor χ calculado será de 11.070 o menor, y se
debe aceptar la hipótesis nula. El razonamiento es que esas pequeñas diferen-
cias entre las frecuencias observada y esperada quizá se deban a la casuali-
dad. Recuerde que las 120 observaciones son una muestra de la población. :
Calcular el valor de ji cuadrada y tomar una decisión. De las 120 tarjetas
vendidas en la muestra, contamos el número de veces que se vendieron Tom
Seaver, Nolan Ryan y cada uno de los demás jugadores. La Tabla 15-1 mues-
tra el conteo. A continuación se presentan los cálculos de ji cuadrada. (Obser-
ve de nuevo que las frecuencias esperadas son las mismas para cada celda.)
526 Capítulo 15

Columna 1: Determine las diferencias entre cada Es decir,


suma de estas diferencias es cero. Columna 2: Eleve al cuadrado
la diferencia entre cada frecuencia observada
y esperada, es decir,
Columna 3: Divida el resultado para cada observación entre la frecuencia

esperada. Es decir, Por último, sume estos valores.

El resultado es el valor de que es 34.40.

2
La χ calculada es de 34.40 y está en la región de rechazo más allá del
valor crítico de 11.070. Por tanto, la decisión es rechazar H0 con un nivel 0.05
y aceptar H1 La diferencia entre las frecuencias observada y esperada no se
debe a la casualidad. Más bien, las diferencias entre f y f son lo bastante
grandes para considerarse significativas. La casualidad de que estas diferen-
cias se deban al error de muestreo es muy pequeña. Así pues, llegamos a la
conclusión de que no es probable que las ventas de las tarjetas sean iguales
entre los seis jugadores.

Podemos usar un software para calcular el valor de ji cuadrada. A continuación pre-


sentamos el resultado de MegaStat. Los pasos aparecen en la sección Comandos de soft-
ware al final del capítulo. El valor calculado de ji cuadrada es 34.40, el mismo valor obtenido
en nuestros cálculos anteriores. También observe que el valor de ρ es mucho menor a 0.05
(0.00000198).
Métodos no paramétricos: aplicaciones de ji cuadrada 527

La distribución de ji cuadrada, que se utiliza como la estadística de prueba en este capí-


tulo, tiene las siguientes características.

1. Los valores de ji cuadrada nunca son negativos. Esto se debe a que la diferencia
2
entre fo y fe es cuadrada, es decir, (fo - fe) .
2. Existe una familia de distribuciones de ji cuadrada. Hay una distribución de ji
cuadrada para un grado de libertad, otra para 2 grados de libertad, otra para 3 grados
de libertad y así sucesivamente. En este tipo de problema, el número de grados de
libertad se determina con k - 1, donde k es el número de categorías. Por lo tanto, la
forma de la distribución de ji cuadrada no depende del tamaño de la muestra, sino del
número de categorías empleadas. Por ejemplo, si se clasificaron 200 empleados de
una línea aérea en una de tres categorías, personal de vuelo, personal de tierra y per-
sonal administrativo, habría k- 1 = 3 - 1 =2 grados de libertad.
3. La distribución de ji cuadrada tiene un sesgo positivo. Sin embargo, conforme el
número de grados de libertad aumenta, la distribución se empieza a aproximar a la dis-
tribución normal. La Gráfica 15-2 muestra las distribuciones de los grados de libertad
seleccionados. Observe que, para 10 grados de libertad, la curva se aproxima a una
distribución normal.

2
La forma de la distribución χ
se aproxima a la distribución
normal conforme gl se
incrementa.

GRAFICA 15-2 Distribuciones de ji cuadrada para grados de libertad seleccionados

Autoevaluación 15-1 La directora de recursos humanos de Georgetown Paper Inc., está preocupada por el ausen-
tismo entre los trabajadores por hora. Decide hacer una muestra de los registros a fin de
determinar si el ausentismo se distribuye de manera uniforme entre la semana laboral de seis
días. La hipótesis nula que se va a probar es: El ausentismo se distribuye de manera uniforme
durante la semana. Los resultados de la muestra son:

Utilice un nivel de significancia 0.01 y el procedimiento de prueba de hipótesis en cinco pasos.


(a) ¿Cómo se denominan los números 12, 9, 11, 10, 9 y 9?
(b) ¿Cuántas categorías (celdas) hay?
(c) ¿Cuál es la frecuencia esperada para cada día?
528 Capítulo 15

(d) ¿Cuántos grados de libertad existen?


(e) ¿Cuál es el valor crítico de ji cuadrada con un nivel de significancia de 1%?
2
(f) Calcule el estadístico de prueba χ .
(g) ¿Cuál es la decisión respecto a la hipótesis! nula?
(h) Específicamente, ¿qué indica lo anterior a la directora de recursos humanos?

Ejercicios
1. En una prueba de bondad de ajuste de ji cuadrada particular, existen cuatro categorías y
200 observaciones. Utilice un nivel de significancia 0.05.
a. ¿Cuántos grados de libertad existen?
b. ¿Cuál es el valor crítico de ji cuadrada?
2. En una prueba de bondad de ajuste de ji cuadrada particular, existen seis categorías y 500
observaciones. Utilice un nivel de significancia 0.01.
a. ¿Cuántos grados de libertad existen?
b. ¿Cuál es el valor crítico de ji cuadrada?
3. La hipótesis nula y la alternativa son:
H0. Las categorías de las celdas son iguales. H1
Las categorías de las celdas no son iguales.

a. Establezca la regla de decisión usando un nivel de significancia 0.05.


b. Calcule el valor de ji cuadrada.
c. ¿Cuál es su decisión acerca de H0?
4. La hipótesis nula y la alternativa son:
Ho. Las categorías de las celdas son iguales. H1
Las categorías de las celdas no son iguales.

a. Establezca la regla de decisión usando un nivel de significancia 0.05?


b. Calcule el valor de ji cuadrada.
c. ¿Cuál es su decisión en cuanto a H0?
5. Un dado de seis caras se lanza 30 veces y aparecen los números del 1 al 6 según se mues-
tra en la distribución de frecuencia a continuación. Con un nivel de significancia 0.10,
¿podemos llegar a la conclusión de que el dado es legal?
Métodos no paramétricos: aplicaciones de ji cuadrada 529

6. Classic Golf Inc. administra cinco cursos en el área de Jacksonville, Florida. El director
quiere estudiar el número de rondas de golf que se juegan por día de la semana en los cinco
cursos, por lo que reunió la siguiente información de muestra.

Con un nivel de significancia 0.05, ¿existe una diferencia en el número de rondas jugadas
por día de la semana?
7. Un grupo de compradores en tiendas departamentales vio una nueva línea de vestidos y
opinó al respecto. Los resultados fueron:

Como el número más grande (47) indicó que la nueva línea es sobresaliente, el jefe de diseño
piensa que ésta es una razón para iniciar la producción masiva de los vestidos. El jefe de
barredoras (que de alguna manera se involucró en esto) cree que no existe una razón clara y
afirma que las opiniones se distribuyen de manera uniforme entre las seis categorías. Además,
dice que las leves diferencias entre las cuentas podrían deberse a la casualidad. Pruebe que
en la hipótesis nula no existe una diferencia significativa entre las opiniones de los
compradores. Pruebe al nivel de significancia 0.01. Siga un planteamiento formal, es decir,
establezca la hipótesis nula, la hipótesis alternativa y así sucesivamente. 8. El director de
seguridad de Honda USA tomó muestras aleatorias del archivo de accidentes menores
relacionados con el trabajo y las clasificó conforme al momento en que ocurrió el accidente.

Con el uso de la prueba de bondad de ajuste y un nivel de significancia 0.01, determine si


los accidentes se distribuyeron de manera uniforme durante el día. Escriba una breve expli-
cación de su conclusión.

Prueba de bondad de ajuste:


frecuencias esperadas desiguales
Todas las frecuencias esperadas (fe) en la distribución anterior referente a las tarjetas de
béisbol fueron iguales (20). Según la hipótesis nula, se esperaba que una fotografía de Tom
Seaver apareciera de manera aleatoria 20 veces, una de Johnny Bench en 20 de 120 inten-
tos, y así sucesivamente. La prueba de ji cuadrada también se puede usar si las frecuen-
cias esperadas no son iguales.
En este problema, las El ejemplo a continuación explica el caso de frecuencias desiguales y también ofrece
frecuencias esperadas no son un uso práctico, en especial de la prueba de bondad de ajuste de j¡ cuadrada, para encon-
iguales. trar si una experiencia local difiere de la experiencia nacional.
530 Capítulo 15

La American Hospital Administrators Association (AHAA) informa lo siguiente respecto al


número de ocasiones en que los ciudadanos de la tercera edad son admitidos en un hos-
pital durante un periodo de un año. El 40% no es admitido; 30% es admitido una vez; 20%
es admitido dos veces, y el 10% restante es admitido tres veces o más.
Una encuesta entre 150 residentes de Bartow Estates, una comunidad destinada a per-
sonas de la tercera edad activas en Florida Central, reveló que 55 residentes no fueron
admitidos durante el último año, 50 fueron admitidos una vez en un hospital, 32 fueron ad-
mitidos dos veces y el resto de los entrevistados fueron admitidos tres veces o más.
¿Podemos llegar a la conclusión de que la encuesta en Bartow Estates coincide con la infor-
mación sugerida por la AHAA? Utilice un nivel de significancia 0.05.

Empezamos por organizar la información anterior en la Tabla 15-4. Es evidente que no


podemos comparar los porcentajes que los administradores del hospital presentan en el
estudio con las frecuencias reportadas para Bartow Estates. Sin embargo, estos porcenta-
jes se pueden convertir en frecuencias esperadas, fe. Según los administradores del hospi-
tal, 40% de los residentes de Bartow que participaron en la encuesta no necesitaron
hospitalización. Por tanto, si no existe diferencia entre la experiencia nacional y la de Bartow
Estates, entonces 40% de las 150 personas de la tercera edad entrevistadas (60 resi-
dentes) no habrían sido hospitalizados. Además, 30% de los entrevistados fueron admitidos
una vez (45 residentes), y así sucesivamente. En la Tabla 15.4 se presentan las frecuen-
cias observadas para los residentes de Bartow y las frecuencias esperadas con base en los
porcentajes del estudio nacional.

TABLA 15-4 Resumen del estudio de AHAA y una encuesta entre los residentes de Bartow Estates

La hipótesis nula y la hipótesis alternativa son:

No existe diferencia entre la experiencia local y nacional respecto a las admisiones


en un hospital.
Existe una diferencia entre la experiencia local y nacional en cuanto a las admi-
siones en un hospital.

A fin de encontrar la regla de decisión, usamos el Apéndice B. Existen cuatro cate-


gorías de admisión, de modo que los grados de libertad son gl = 4 - 1 = 3. El valor crítico
es 7.815. Por tanto, la regla de decisión es rechazar la hipótesis nula si χ2 > 7.815. La regla
de decisión se representa en la Gráfica 15-3.
Ahora calcule el estadístico de prueba de ji cuadrada:
Métodos no paramétricos: aplicaciones de ji cuadrada 531

GRÁFICA 15-3 Criterio de decisión para el estudio de investigación de Bartow Estates

2
El valor calculado de χ (1.3723) se encuentra a la izquierda de 7.815. Por tanto, no
podemos rechazar la hipótesis nula. Llegamos a la conclusión de que no existe evidencia de
una diferencia entre la experiencia local y nacional respecto a las admisiones en un hospital.

Limitaciones de ji cuadrada
2
Tenga cuidado al aplicar χ en Si en una celda existe una pequeña frecuencia esperada inusual, ji cuadrada (si se aplica)
algunos problemas. podría dar como resultado una conclusión equivocada. Lo anterior puede suceder porque f0
aparece en el denominador y, al dividirlo entre un número muy pequeño, ¡el cociente
aumenta mucho! Por lo general, dos reglas aceptadas respecto a pequeñas frecuencias de
celdas son:

1. Si sólo existen dos celdas, la frecuencia esperada en cada celda debe ser de 5 o más.
El cálculo de ji cuadrada sería permisible en el siguiente problema, que implica una f
mínima de 6.

2. Si se espera que más de 20% de las celdas f 0 tengan frecuencias esperadas menores
a 5, no se debe usar ji cuadrada para más de dos celdas. Según esta regla, no sería
conveniente usar la prueba de bondad de ajuste en los siguientes datos. Tres de las
siete celdas, o 43%, tienen frecuencias esperadas (fe) menores a 5.
532 Capítulo 15

A fin de demostrar la razón de la política de 20%, realizamos la prueba de bondad de


ajuste referente a los datos anteriores en niveles de administración. A continuación se pre-
senta el resultado de MegaStat.

Para esta prueba, con un nivel de significancia 0.05, H0 se rechaza si el valor calcula-
do de ji cuadrada es mayor a 12.592. El valor calculado es 14.01, por lo que rechazamos
la hipótesis nula de que las frecuencias observadas representan una muestra aleatoria de la
población de los valores esperados. Estudie el resultado de MegaStat. Más de 98% del
valor calculado de ji cuadrada responde a las tres categorías de vicepresidente ([4.500 +
0.250 + 9.000]/14.008 = 0.9815). Como es lógico, a estas categorías se les pondera en
exceso.
El dilema se puede resolver combinando las categorías, si es que tiene lógica hacerlo.
En el ejemplo anterior, combinamos las tres categorías vicepresidenciales, lo cual satisface
la regla del 20%.

El valor calculado de ji cuadrada con las categorías revisadas es 7.26. Vea el siguiente
resultado. Este valor es menor al valor crítico de 9.488 para un nivel de significancia 0.05.
Por tanto, la hipótesis nula se acepta con un nivel de significancia 0.05. Lo anterior indica
que no hay evidencia de una diferencia significativa entre la distribución observada y la dis-
tribución esperada.
Métodos no paramétricos: aplicaciones de ji cuadrada 533

Autoevaluacíón 15-2 La American Accounting Association clasifica las cuentas por cobrar como "actuales", "atra-
sadas" e "irrecuperables". Las cifras industriales muestran que 60% de las cuentas por cobrar
son actuales, 30% están atrasadas y 10% son irrecuperables. Massa y Barr, un despacho de
abogados en Greenville, Ohio, tiene 500 cuentas por cobrar; 320 son actuales, 120 están
atrasadas y 60 son irrecuperables. ¿Estas cifras concuerdan con la distribución de la indus-
tria? Utilice un nivel de significancia 0.05.

Ejercicios
9. Se presentan las siguientes hipótesis:

Tomamos una muestra de 60 con los siguientes resultados.

a. Establezca la regla de decisión usando un nivel de significancia 0.01.


b. Calcule el valor de ji cuadrada.
c. ¿Cuál es su decisión acerca de HQ?
10. Al jefe de seguridad de Mall of the Dakotas se le pidió que estudiara el problema de los fal-
lantes de mercancía. Seleccionó una muestra de 100 cajas que se manipularon indebida-
mente y averiguó que en 60 de las cajas, los pantalones, zapatos y demás mercancía que
faltaba se debía a hurtos en las tiendas. Los empleados robaron mercancía de otras 30 cajas
y el faltante de las 10 cajas restantes lo atribuyó a un control de inventario deficiente. En su
informe a la gerencia del centro comercial, ¿puede decir que probablemente el hurto en tien-
das sea el doble de la causa de la pérdida en comparación con el robo por parte de los
empleados o un control de inventario deficiente y que el robo por parte de los empleados y el
deficiente control de inventario quizá son iguales? Utilice un nivel de significancia 0.02.
534 Capítulo 15

11. El departamento de tarjetas de crédito bancarias de Carolina Bank sabe por experiencia que
5% de los tarjetahabientes tienen cierto nivel de estudios universitarios y que 55% terminó
la universidad. De los 500 tarjetahabientes a quienes se les llamó por no pagar sus cargos
en el mes, 50 tenían ciertos estudios de preparatoria, 100 terminaron la preparatoria, 190
tenían ciertos estudios universitarios y 160 terminaron la universidad. ¿Podemos llegar a la
conclusión de que la distribución de los tarjetahabientes que no pagan sus cargos es
diferente a los demás? Utilice el nivel de significancia 0.01.
12. Durante muchos años, ejecutivos de televisión utilizaron el lineamiento de que 30% del
público veía cada una de las cadenas televisivas de mayor audiencia y 10% veía canales de
televisión por cable durante una noche entre semana. El pasado lunes por la noche, una
muestra aleatoria de 500 televidentes en el área de Tampa-St. Petersburg, Florida, reveló
que 165 hogares sintonizaron la filial de ABC, 140 la filial de CBS, 125 la filial de NBC y el
resto vio un canal de televisión por cable. En el nivel de significancia 0.05, ¿podemos llegar
a la conclusión de que el lineamiento sigue siendo razonable?

Análisis de tablas de contingencias


En el Capítulo 4 analizamos los datos bivariados,
donde estudiamos la relación entre dos variables.
Describimos una tabla de contingencia que
resume de manera simultánea dos variables de
interés de escala nominal. Por ejemplo, una
muestra de estudiantes inscritos en la Facultad de
Administración se clasifica por género (masculino
o femenino) y especialidad (contabilidad,
administración, finanzas, mercadotecnia o méto-
dos cuantitativos). Esta clasificación se basa en la
escala nominal, ya que no hay un orden natural
para las clasificaciones. En el Capítulo 5 analizamos las tablas de contingencia. En la
página 156 explicamos la relación entre la lealtad a la compañía y la duración en el trabajo.
¿Existe la posibilidad de que los empleados con mayor antigüedad sean más leales a la
compañía?
Podemos usar la estadística de ji cuadrada para probar de manera formal una relación
entre dos variables con escala nominal. En otras palabras, ¿una variable es independiente
de la otra? Los siguientes son algunos ejemplos en los que nos interesa probar si dos varia-
bles se relacionan.

• Ford Motor Company opera una planta de ensamble en Dearborn, Michigan. La planta
opera tres turnos al día, 5 días a la semana. El gerente de control de calidad quiere
comparar el nivel de calidad en los tres turnos. Los vehículos se clasifican por el nivel
de calidad (aceptable, inaceptable) y el turno (mañana, tarde, noche). ¿Existe una dife-
rencia en el nivel de calidad de los tres tumos? Es decir, ¿la calidad del producto se
relaciona con el turno en el que se fabricó? O, ¿la calidad del producto es independi-
ente del turno en el que se fabricó?
• Una muestra de 100 conductores detenidos por violar los límites de seguridad se clasi-
ficaron por género y si llevaban puesto el cinturón de seguridad o no. Para esta mues-
tra, ¿el uso del cinturón de seguridad se relaciona con el género?
• ¿Un hombre que sale libre de una prisión federal provoca un ajuste diferente en la vida
civil si regresa a su ciudad natal o si se va a vivir a otra parte? Las dos variables son
un ajuste a la vida civil y el lugar de residencia. Observe que ambas variables se miden
en la escala nominal.

La Federal Correction Agency investiga la pregunta antes mencionada: ¿un hombre que
sale libre de una prisión federal provoca un ajuste diferente en su vida civil si regresa a su
ciudad natal o se va a vivir a otra parte? En otras palabras, ¿existe una relación entre el
ajuste a su vida civil y el lugar de residencia después de salir de prisión?
Métodos no paramétricos: aplicaciones de ji cuadrada 535

Al igual que antes, el primer paso en la prueba de hipótesis es establecer las hipótesis
nula y alternativa.

No existe una relación entre el ajuste a su vida civil y el lugar donde vive el individuo
después de salir de prisión.
Existe una relación entre el ajuste a su vida civil y el lugar donde vive el individuo
después de salir de prisión.

Se utilizará un nivel de significancia 0.01 para la prueba de hipótesis.


Los psicólogos de la dependencia entrevistaron a 200 exprisioneros seleccionados de
manera aleatoria. Mediante una serie de preguntas, los psicólogos clasificaron el ajuste de
cada individuo a su vida civil como sobresaliente, bueno, regular o no satisfactorio. Las
clasificaciones de los 200 exprisioneros se ordenaron de la siguiente manera. Por ejemplo,
Joseph Camden regresó a su ciudad natal y demostró tener un ajuste sobresaliente a su
vida civil. Su caso es una de las 27 marcas en el recuadro superior izquierdo.

La tabla de contingencias Se sumaron las marcas de cada recuadro, o celda. Éstas se presentan en la tabla de
consiste en datos ordenados. contingencia a continuación. (Véase la Tabla 15-5.) En este caso, a la Federal Correction
Agency le interesa determinar si el ajuste a la vida civil es contingente respecto al lugar
donde vaya el prisionero al ponerlo en libertad.

TABLA 15-5 Ajuste a la vida civil y el lugar de residencia

En cuanto sepamos cuántos renglones (2) y columnas (4) hay en la tabla de contin-
gencia, podemos determinar el valor crítico y la regla de decisión. Para la prueba de signif-
icancia de ji cuadrada donde dos rasgos se clasifican en una tabla de contingencia, los
grados de libertad se obtienen por medio de:

En este problema:

Para encontrar el valor crítico para 3 grados de libertad y un nivel de significancia 0.01
(seleccionado con anterioridad), consulte el Apéndice B. Es 11.345. Si el valor calculado de
2
χ es mayor a 11.345, la regla de decisión es rechazar la hipótesis nula. Esta regla se repre-
senta en la Gráfica 15-4.
536 Capítulo 15

GRÁFICA 15-4 Distribución de ji cuadrada para 3 grados de libertad

2
Después, encontramos el valor calculado de χ . Las frecuencias observadas f0, se
muestran en la Tabla 15-5. ¿Cómo se determinan las frecuencias esperadas, fe, corres-
pondientes? Observe en la columna "Total" de la Tabla 15-5 que 120 de los 200 expri-
sioneros (60%) regresaron a su ciudad natal. De no haber relación entre el ajuste y la
residencia después de salir de prisión, esperaríamos que 60% de los 40 exprisioneros que
obtuvieron un ajuste sobresaliente a la vida civil regresaran a vivir a su ciudad natal. Por
tanto, la frecuencia esperada fe para la celda superior izquierda es 0.60 x 40 = 24. De igual
modo, si no hubiera una relación entre el ajuste y la residencia actual, esperaríamos que
60% de los 50 exprisioneros (30) que obtuvieron un ajuste "bueno" a la vida civil vivieran en
su ciudad natal.
Más aún, observe que 80 de los 200 exprisioneros estudiados (40%) no regresaron a
vivir a su ciudad natal. Por consiguiente, 60 que los psicólogos consideraron tener un ajuste
"regular" a la vida civil, 0.40 x 60, o 24, se esperaría que no regresaran a su ciudad natal.
La frecuencia esperada para cualquier celda se puede determinar mediante

De acuerdo a esta fórmula, la frecuencia esperada para la celda superior izquierda en la


Tabla 15-5 es:

Las frecuencias observadas, f0, y las frecuencias esperadas, fe, para todas las celdas en la
tabla de contingencia se presentan en la Tabla 15-6.

TABLA 15-6 Frecuencias observadas y esperadas


Métodos no paramétricos: aplicaciones de ji cuadrada 537

Recuerde que el valor calculado de ji cuadrada usando la fórmula (15-1) se encuentra


por medio de:

Empezando con la celda superior izquierda:

Debido a que el valor calculado de ji cuadrada (5.729) queda en la región a la izquier-


da de 11 .345, se acepta la hipótesis nula con un nivel de significancia 0.01. Llegamos a la
conclusión de que no hay evidencias de una relación entre el ajuste a una vida civil y el
lugar donde vive el prisionero al salir en libertad. Para el programa de recomendaciones de
la Federal Correction Agency, el ajuste a la vida civil no se relaciona con el lugar donde viva
el exprisionero.

El siguiente resultado es del software MINITAB.

Observe que el valor de ji cuadrada es igual al calculado con anterioridad. Además, se


reporta el valor p, 0.126. Así, la probabilidad de encontrar un valor del estadístico de prue-
ba como grande o más grande es 0.126 cuando la hipótesis nula es cierta. El valor ρ
también da como resultado la misma decisión: aceptar la hipótesis nula.

Autoevaluación 15-3 Un científico social seleccionó una muestra de 140 personas y las clasificó de acuerdo con el
nivel de ingreso y si jugaron o no en la lotería estatal durante el último mes. La información
de la muestra se presenta a continuación. ¿Es razonable llegar a la conclusión de que jugar
a la lotería se relaciona con el nivel de ingresos? Utilice un nivel de significancia 0.05.
538 Capítulo 15

(a) ¿Cómo se llama esta tabla?


(b) Establezca la hipótesis nula y la hipótesis alternativa.
(c) ¿Cuál es la regla de decisión?
(d) Determine el valor de ji cuadrada.
(e) Tome una decisión acerca de la hipótesis nula, interprete el resultado.

Ejercicios
13. La directora de publicidad del Carolina Sun Times, el periódico más importante en Carolina
del Norte y Carolina del Sur, estudia la relación entre el tipo de comunidad en la que vive un
suscriptor y la sección del periódico que lee primero, por lo que recopiló la información que
se presenta a continuación para una muestra de lectores.

Con un nivel de significancia 0.05, ¿podemos llegar a la conclusión de que existe una relación
entre el tipo de comunidad donde vive la persona y la sección del periódico que lee primero? 14.
Cuatro marcas de focos se van a poner a prueba para su uso en el área de ensamblaje final de la
planta Saturn en Spring Hill, Tennessee. El director de compras pidió 100 muestras de cada
fabricante. A continuación se presentan el número de focos aceptables y no aceptables de
cada fabricante. Con un nivel de significancia 0.05, ¿existe una diferencia en la calidad de los
focos?

15. El Departamento de Control de Calidad de Food Town, Inc., una cadena de supermercados
en la región norte del estado de Nueva York, lleva a cabo una revisión mensual sobre la
comparación de precios registrados con los precios anunciados. La siguiente tabla presenta
el resumen de los resultados de una muestra de 500 artículos el mes pasado. La gerencia
de la compañía quiere saber si existe alguna relación entre las tasas de error en los
artículos con precio regular y los artículos con precios especiales. Use el nivel de signifi-
cancia 0.01.
Métodos no paramétricos: aplicaciones de ji cuadrada 539

16. Durante los últimos años, el uso de teléfonos celulares en automóviles aumentó de manera
considerable. El interés de los expertos en tránsito, así como de los fabricantes de teléfonos
celulares, es el efecto que tienen en los índices de accidentes. ¿Es más probable que quien
usa un teléfono celular se vea involucrado en un accidente de tránsito? ¿Cuál es su con-
clusión respecto a la siguiente información de la muestra? Use el nivel de significancia 0.05.

Resumen del capítulo


I. Las características de la distribución de ji cuadrada son:
A. El valor de ji cuadrada nunca es negativo,
B. La distribución ele ji cuadrada tiene un sesgo positivo.
C. Existe una familia de distribuciones de ji cuadrada.
1. Cada vez que cambian los grados de libertad, se forma una nueva distribución
2. Conforme aumentan los grados de libertad, la distribución se aproxima a una dis-
tribución normal
II. Una prueba de bondad de ajuste indicará si una serie de frecuencias observadas podrán
provenir de una distribución de población de la cual se planteó una hipótesis.
A. Los grados de libertad son k - 1 , donde A- es el número de categorías.
B. La fórmula para calcular el valor de ji cuadrada es

III. Se utiliza una tabla de contingencias para probar si dos rasgos o características están rela-
cionados.
A. Cada observación se clasifica de acuerdo con dos rasgos.
B. La frecuencia esperada se determina de la siguiente amnera:

C. Los grados de libertad se encuentran por medio de:


g/= (Renglones – 1) (Columnas – 1)
D. Se emplea el procedimiento de prueba de hipótesis usual.

Clave de pronunciación

Ejercicios del capítulo


17. Los vehículos que se dirigen hacia el oeste sobre Front Street pueden dar «tifa a te derecha,
a la izquierda o seguirse de frente hacia Elm Street. El ingeniero de tráfico de la ciu-
dad cree que la mitad de los vehículos se seguirán de frente cruzando la intersección. De la
mitad restante, proporciones iguales dan vuelta a la derecha e izquierda. Se observaron
540 Capítulo 15

doscientos vehículos con los siguientes resultados. ¿Podemos llegar a la conclusión de que
el ingeniero de tráfico está en lo correcto? Use el nivel de significancia 0.10.

18. El editor de una revista deportiva piensa ofrecer a los nuevos suscriptores uno de tres rega-
los: una sudadera con el logotipo de su equipo favorito, una taza con el logotipo de su equipo
favorito o un par de aretes, también con el logotipo de su equipo favorito. En una muestra
de 500 nuevos suscriptores, el número que elige cada regalo se presenta a continuación.
Con un nivel de significancia 0.05, ¿existe una preferencia por los regalos o debemos llegar
a la conclusión de que el gusto por los regalos es igual?

19. En un mercado particular, existen tres estaciones de televisión comerciales, cada una con
su propio noticiario de 6:00 a 6:30 p.m. Según un informe de este periódico local matutino,
una muestra aleatoria de 150 televidentes reveló que anoche 53 vieron las noticias en
WNAE (canal 5), 64 en WRRN (canal 11) y 33 en WSPD (canal 13). Con un nivel de signifi-
cancia 0.05, ¿existe una diferencia en la proporción de televidentes que ve los tres canales?
20. El Governmerrt Center Building en el centro de Filadeifia tiene cuatro entradas. Al supervi-
sor de mantenimiento del edificio te gustaría saber si las entradas se utilizan de manera
equitativa. Para investigar, se observó a 400 personas entrando al edificio. A continuación
presentamos el número que usó cada entrada. Con un nivel de significancia 0.01, ¿existe
una diferencia en el uso de las cuatro entradas?

21. A la propietaria de un negocio de ventas por catálogo le gustaría comparar sus ventas con
la distribución geográfica de la población. Según el Bureau of the Census de Estados
Unidos, 21% de la población vive en el noreste, 24% en el medio oeste, 35% en el sur y 20%
en el oeste. A continuación se presenta un desglose de una muestra de 400 pedidos elegi-
dos de manera aleatoria en comparación con los enviados el mes anterior. Con un nivel de
significancia 0.01, ¿la distribución de los pedidos refleja la población?

22. Banner Mattress and Fumiture Company quiere estudiar el número de solicitudes de crédito
que recibieron por día durante los últimos 300 días. La información se presenta en la
siguiente página.
Métodos no paramétricos: aplicaciones de ji cuadrada 541

Para interpretar, hubo 10 días en los que no se recibieron solicitudes de crédito, 77 días en
tes que solo se recibió una solicitud, y así sucesivamente, ¿Sería razonable llegar a la con-
clusión de qué la población tiene una distribución dé Poisson con una media de 2.0? Utilice
el valor de significancia 0.05. Sugerencia: Para encontrar las frecuencias esperadas, use (a
distribución dé Poisson con una media de 2,0. Encuentre la probabilidad de exactamente un
logro asignado a una distribución de Poisson con una media de 2.0. Multiplique esta proba-
bilidad por 300 a fin de encontrar la frecuencia esperada para el número de días en los que
exactamente hubo una solicitud. Determine de manera similar la frecuencia esperada para
los demás días
23. A principios de la década de 2000, la Deep Down Mining Company implemento nuevos
lineamientos de seguridad. Antes de dichos lineamientos, la administración esperaba qué
no hubiera accidentes en 40% de los meses, un accidente en 30% de tos meses, dos
accidentes en 20% de los meses y tres accidentes en 10% de los meses. Durante los
últimos 10 años, o 120 meses, no hubo accidentes en 46 meses, hubo un accidente en 40
meses, hubo dos accidentes en 22 meses y 3 accidentes en 12 meses. Con un nivel de
significancia 0.05, ¿la administración de Deep Down puede llegar a la conclusión de que
existe un cambio en la distribución mensual de accidentes?
24 Un estudio reciente que diseñó un minorista grande para determinar si había una relación
entre te importancia que un gerente de tienda le dio a la publicidad y el tamaño de la tienda,
reveló la siguiente información de muestra.

¿Cuál es su conclusión? Use el nivel de significancia 0.05.


25. Se eligieron de manera aleatoria a doscientos gerentes de varios niveles y se les entrevistó
respecto a su interés por temas ambientales. La respuesta de cada persona se clasificó en
una de tres categorías; ningún interés, cierto interés y gran interés. Los resultados fueron:

Use el nivel de significancia 0.01 para determinar si existe una relación entre el nivel gerencial y
el interés en el ambiente.
26. Un estudio sobre la relación entre la edad y la presión que siente el personal de ventas por
su trabajo, reveló la siguiente información de muestra, Con un nivel de significancia O.01,
¿existe una relación entre la presión laboral y la edad?
542 Capítulo 15

27. El departamento de reclamaciones en Wise Insurance Company cree que los conductores
jóvenes tienen más accidentes y, por tanto, se les debe cobrar una prima más alta. La inves-
tigación de una muestra de 1 200 asegurados de Wise reveló el siguiente análisis respecto
a si se registró una reclamación en los últimos tres años y la edad del asegurado. ¿Es
razonable llegar a la conclusión de que existe una relación entre la edad del asegurado y si
la persona hizo o no una reclamación? Use el nivel de significancia 0.05.

28. A una muestra de empleados en una planta química grande se le pidió que indicara su prefe-
rencia por uno de los tres planes de pensión. Los resultados se presentan en la tabla a con-
tinuación. ¿Parece haber una relación entre el plan de pensión seleccionado y la clasificación
del trabajo de los empleados? Use el nivel de significancia 0.01.

exercises.com
29. ¿Alguna vez ha comprado una bolsa de dulces M&M y se ha preguntado cómo distribuyen
los colores? Visite el sitio Web www.baking.m-ms.com y haga c//cen el mapa de Estados
Unidos, en About M&M's, luego en History, Products y Peanut y encuentre el análisis por-
centual según el fabricante, así como una breve historia del producto. ¿Sabía que al princi-
pio todas las grageas eran de color café? De las grageas M&M con maní, 20% son azules,
20% cafés, 20% amarillos, 20% rojos, 10% verdes y 10% naranja. Una bolsa de 6 onzas que
se compró en la librería de Coastal Carolina University el 7 de marzo de 2003, tenía 13
azules, 17 cafés, 20 amarillos, 7 rojos, 9 anaranjados y 6 verdes. ¿Es razonable llegar a la
conclusión de que la distribución real concuerda con la distribución esperada? Use un nivel
de significancia de 0.05. Haga su propia prueba. No olvide compartir los M&M con su pro-
fesor.
Métodos no paramétricos: aplicaciones de ji cuadrada 543

30. Según lo descrito en capítulos anteriores, muchas empresas de bienes raíces y agencias de
arrendamiento ahora publican sus listas en la World Wide Web. Un ejemplo de ello es Dunes
Realty Company, que se encuentra en Garden City, Carolina del Sur y Surfside Beach,
Carolina det Sur. Visite ei sitio Web http://www.dunes.com y haga clic en Beach House
Search, después indique mínimo 5 recámaras, ocupación para por lo menos 14 personas,
con vista al mar y sin alberca o muelle; elija un periodo en marzo; indique que está dispuesto
a gastar hasta $8 000 a la semana, y por último haga clic en Search the Cottages. Ordene
las cabanas que se ofrecen en una tabla de contingencias según el número de baños y si la
renta es menor a $2 000 semanales, o de más de $2 000. Tal vez necesite combinar algu-
nas celdas. Lleve a cabo una prueba estadística para determinar si el número de recámaras
está relacionado con el costo. Use el nivel de significancia 0.05.

Ejercicios de la base de datos


31. Consulte los datos de Real Estate que proporcionan la información sobre las casas vendi-
das en el área de Denver, Colorado, el año pasado.
a. Desarrolle una tabla de contingencias que indique si una casa tiene alberca y el munici-
pio en el que se encuentra la casa. ¿Existe una asociación entre las variables "alberca"
y "población"? Use el nivel de significancia 0.05.
b. Desarrolle una tabla de contingencias que indique si una casa tiene cochera y el munici-
pio en el que se encuentra. ¿Existe una asociación entre las variables de "cochera" y
"población"? Use el nivel de significancia 0.05.
32. Consulte los datos Baseball 2002 que proporcionan la información sobre los 30 equipos de
béisbol de las Grandes Ligas. Establezca una variable que divida los equipos en dos gru-
pos, los que tuvieron una temporada ganadora y los que no. La temporada es de 162 par-
tidos, así que defina una temporada ganadora como ganar 81 juegos o más. Después,
divida los equipos en dos grupos de salario. Deje los 15 equipos con los salarios más altos
en un grupo y los 15 equipos con los salarios más bajos en otro. Con un nivel de signifi-
cancia 0.05, ¿existe una relación entre los salarios y ganar juegos?
33. Consulte los datos Wage que ofrecen información sobre los sueldos anuales para una
muestra de 100 trabajadores. Asimismo, se incluyen las variables relacionadas con la indus-
tria, los años de educación y el género de cada trabajador. Desarrolle una tabla que muestre
la industria por género. Con un nivel de significancia 0.05, ¿es razonable llegar a la con-
clusión de que la industria en que trabaja una persona y el género se relacionan?
34. Consulte los datos CÍA que proporcionan la información demográfica y económica de 46
países.
a. Desarrolle una tabla de contingencias que indique la membresía G-20 en comparación
con el nivel de actividad petrolera. Con un nivel de significancia 0.05 ¿existe una
relación importante entre estas variables?
544 Capítulo 15

b. Agrupe los países en la categoría "joven" (el porcentaje de la población mayor de 65


años es menos de 10) y "viejo" (el porcentaje de la población mayor de 65 años es más
de 10). Luego desarrolle una tabla de contingencia entre esta variable de "edad" y el
nivel de actividad petrolera. Con un nivel de significancia 0.05, ¿podemos llegar a la
conclusión de que estas variables se relacionan?

Comandos de software
1. Los comandos MegaStat para crear la prueba de bon-
dad de ajuste de ji cuadrada de la página 526 son:
a. Escriba en una hoja de trabajo la información de la
tabla 15-1 como se indica.
b. Seleccione MegaStat, Chi-Square/Crosstabs y
Goodness-of-fit y presione Enter
c. En el cuadro de diálogo, seleccione B2:B7 como
los Observed valúes, C2:C7 como los Expected
valúes y escriba 0 como el Number of parameters
estimated from the data. Haga clic en OK.

2. Los comandos MegaStat para crear las pruebas de


bondad de ajuste de ji cuadrada en las páginas 532 y
533 son iguales excepto por el número de artículos en
las columnas de frecuencia observada y esperada. Sólo
se presenta un cuadro de diálogo.
a. Escriba la información sobre los Niveles de Admi
nistración presentados en la página 531.
b. Seleccione MegaStat, Chi-Square/Crosstabs y
Goodness-of-fit y presione Enter.
c. En el recuadro de diálogo, seleccione B2:B8 como
los Observed values; C2:C8 como los Expected
valúes y escriba 0 como el Number of parameters
estimated from the data. Haga clic en OK.

3. Los comandos MINITAB para el anális de ji cuadrada en


la página 537 son:
a. Escriba los nombres de las variables en la primera
columna y los datos en las siguientes dos colum
nas.
b. Seleccione Stat, Table y después haga clic en Chi-
square test y oprima Enter.
c. En el recuadro de diálogo, seleccione las columnas
marcadas como Outstanding a Unsatisfactory y
después haga clic en OK.
Métodos no paramétricos: aplicaciones de ji cuadrada 545

Capítulo 15 Respuestas a las autoevaluaciones


Métodos no paramétricos:
Análisis de datos ordenados

Los obreros de Computer Associates sólo arman una o dos piezas de subensamblaje y las
insertan en los "marcos" en sus estaciones individuales. Los ejecutivos de CA piensan que
los empleados tendrían la moral más alta si se les asignara la tarea de armar todos los
componentes y luego probar las computadoras terminadas. Se seleccionó una muestra de 25
empleados para experimentar y probar el nuevo proceso. Después de un programa de
capacitación, a cada uno se le preguntó qué prefería. Veinte dijeron que preferían el nuevo
sistema de ensamblaje completo. Con un nivel de significancia 0.05, utilice la prueba del
signo para tomar una decisión acerca de las preferencias de los empleados. (Vea la Meta 1 y
el Ejercicio 8.)
Métodos no paramétricos: análisis de datos ordenados 547

Introducción
El Capítulo 15 presentó las pruebas de hipótesis para variables de escala nominal. Recuer-
de que en el Capítulo 1 estudiamos que el nivel nominal de medición implica que los datos
sólo se pueden clasificar en categorías, y no hay un orden en particular para las categorías.
El propósito de estas pruebas es determinar si un conjunto de frecuencias observadas, fo, es
significativamente diferente de un conjunto correspondiente de frecuencias esperadas, fg. De
modo similar, si le interesa la relación entre dos características (como la edad de un indivi-
duo y sus preferencias musicales), deberá ordenar los datos en una tabla de contingencias
y usar la distribución de ji cuadrada como el estadístico de prueba. Para estos dos tipos de
problemas, no es necesario hacer ninguna suposición en cuanto a la forma de la población.
Por ejemplo, no tenemos que suponer que la población de interés sigue la distribución nor-
mal, como se hizo con las pruebas de hipótesis en los Capítulos 10 a 12.
Este capítulo es una continuación de las pruebas de hipótesis diseñadas de manera es-
pecial para los datos no paramétricos. Sin embargo, en lugar de aplicarse a los datos no-
minales, estas pruebas requieren que las respuestas estén por lo menos en el nivel ordinal.
Es decir, las respuestas se pueden clasificar del nivel bajo al alto. Un ejemplo de clasificación
es el título de ejecutivo. Los ejecutivos se clasifican como asistente de la vicepresidencia,
vicepresidente, vicepresidente senior y presidente. Un vicepresidente tiene un nivel más al-
to que un asistente de vicepresidente, un vicepresidente senior tiene un nivel más alto que
un vicepresidente, y así sucesivamente.
En este capítulo, consideramos cinco pruebas sin distribución y el coeficiente de corre-
lación de rango de Spearman. Las pruebas son: la prueba del signo, la prueba de la media-
na, la prueba de rangos con signo de Wilcoxon, prueba de suma de rangos de Wilcoxon y
el análisis de la varianza por rangos de Kruskal-Wallis.

La prueba del signo


La prueba del signo se basa en el signo de una diferencia entre dos observaciones rela-
cionadas. Por lo general, asignamos un signo de más a una diferencia positiva y un signo
de menos a una diferencia negativa. Por ejemplo, si las ventas aumentaron de $34 698 en
octubre a $51 276 en noviembre, registramos la diferencia de $16 578 con un signo de más.
Si la producción bajó de 98 000 computadoras en el primer trimestre a 51 000 en el segun-
do, se registra un signo de menos. Para una prueba del signo, no nos preocupa la magni-
tud de la diferencia, sólo su dirección.
La prueba del signo tiene muchas aplicaciones. Una es para los experimentos de "an-
tes/después". Para ilustrar, suponga que se va a realizar la evaluación de un nuevo progra-
ma de afinación para automóviles. Registramos el número de millas recorridas por galón de
gasolina antes de la afinación y, una vez más, después ésta. Si la afinación no fue efecti-
va; es decir, si no tuvo ningún efecto en el desempeño, alrededor de la mitad de los auto-
móviles probados mostrarán un incremento en las millas por galón y la otra mitad una
reducción. El signo "+" se asigna al incremento y el signo "-" a la reducción.
Un experimento sobre las preferencias de un producto ilustra otro uso de la prueba del
signo. Taster's Choice vende dos tipos de café en un frasco de 4 onzas: descafeinado y re-
gular. Su departamento de investigación de mer-
cado quiere determinar si los bebedores de café
lo prefieren descafeinado o regular. A los consu-
midores de café se les dan dos pequeñas tazas
de café sin marcar y a cada uno se le pregunta
cuál prefiere. La preferencia por el descafeinado
se puede codificar con el signo "+" y la preferen-
cia por el regular con "-". En cierto sentido, los
datos están en el nivel ordinal porque los bebe-
dores de café dan a su café preferido un rango
más alto, y el otro tipo de café queda en un ran-
go más bajo. Aquí una vez más, si la población
548 Capítulo 16

de consumidores no tiene una preferencia, podríamos esperar que la mitad de la muestra de


bebedores de café prefiera el descafeinado y la otra mitad el regular.
Un ejemplo nos ayudará a mostrar mejor la aplicación de la prueba del signo. Vamos a
utilizar un experimento de "antes/después".

El director de sistemas de información de Samuelson Chemicals recomendó la institución


de un programa de capacitación en la plantel para gerentes. El objetivo es aumentar los co-
nocimientos sobre el uso de las bases de datos en contabilidad, adquisiciones, producción,
etcétera. Algunos gerentes pensaron que valdría la pena; otros se resistieron y dijeron que
no tendría ningún valor. A pesar de estas objeciones, se anunció que las sesiones de ca-
pacitación empezarían el día primero de mes.
Se seleccionó al azar una muestra de 15 gerentes. Un panel de expertos en bases de
datos determinó el nivel general de competencia de cada gerente en cuanto al uso de las
bases de datos. Su competencia y entendimiento se calificaron como sobresalientes, exce-
lentes, buenos, aceptables o deficientes. (Vea la Tabla 16-1.) Después del programa de ca-
pacitación de tres meses, el mismo panel de expertos en sistemas de información calificó a
cada gerente una vez más. Las dos calificaciones (antes y después) se muestran con el sig-
no de la diferencia. El signo "+" indica una mejora y un signo "-" indica que la competencia
del gerente en el uso de bases de datos se redujo después del programa de capacitación.

TABLA 16-1 Nivel de competencia antes y después del programa de capacitación

Nos interesa saber si el programa de capacitación en planta resultó efectivo para au-
mentar la competencia de los gerentes al utilizar la base de datos de la empresa. Es decir,
¿los gerentes son más competentes después del programa de capacitación que antes?

Utilizaremos el procedimiento de prueba de hipótesis en cinco pasos.

Paso 1: Formule la hipótesis nula y la hipótesis alternativa.

No hay ningún incremento en la competencia como resul-


tado del programa de capacitación en planta. La
competencia en bases de datos de los gerentes se in-
crementó.
Métodos no paramétricos: análisis de datos ordenados 549

El símbolo π se refiere a la proporción de la población con una caracte-


rística en particular. Si aceptamos la hipótesis nula, significará que el progra-
ma de capacitación no produjo ningún cambio en el nivel de competencia, o
que la competencia disminuyó. Si rechazamos la hipótesis nula, indicará que
la competencia de los gerentes aumentó como resultado del programa de ca-
pacitación.
La distribución binomial, que se estudió en el Capítulo 6, se utiliza como
estadístico de prueba. Es apropiada porque la prueba del signo cumple con
todas las suposiciones binomiales, es decir:

1. Sólo hay dos resultados: un "éxito" y un "fracaso". Un gerente puede au


mentar su competencia en bases de datos (un éxito) o no.
2. Para cada intento, se supone que la probabilidad de éxito es 0.50. Por
tanto, la probabilidad de un éxito es igual en todos los intentos (los ge
rentes en este caso).
3. E¡ número total de intentos es fijo (15 en este experimento).
4. Cada intento es independiente. Esto significa, por ejemplo, que el de-
sempeño de Arthur Seiple en el curso de tres meses no está relaciona
do con el desempeño de Sandy Gumpp.

Paso 2: Seleccionar un nivel de significancia. Elegimos el nivel 0.10. Decidir


Paso 3: sobre el estadístico de prueba. Es el número de signos más que resulten
del experimento.
Paso 4: Formular una regla de decisión. En el curso de capacitación se inscribieron
15 gerentes, pero Andy Love no mostró aumento ni reducción en la compe-
tencia. (Vea la Tabla 16-1.) Por tanto, se le eliminó del estudio porque no se
pudo incluir en ninguno de los grupos, de modo que n = 14. A partir de la ta-
bla de la distribución de probabilidad binomial en el Apéndice A, para una n
de 14 y una probabilidad de 0.50, copiamos la distribución de probabilidad bi-
nomial en la Tabla 16-2. El número de éxitos está en la columna 1, la proba-
bilidad de éxito en la columna 2 y las probabilidades acumuladas en la
columna 3. Para llegar a las probabilidades acumuladas, sumamos las pro-
babilidades de éxito en la columna 2 desde la parte inferior. Para ilustrar, a fin
de obtener la probabilidad acumulada de 11 o más éxitos, sumamos 0.000 +
0.001 + 0.006 + 0.022 = 0.029.
Ésta es una prueba de una cola porque la hipótesis alternativa ofrece una
dirección. La desigualdad (>) apunta hacia la derecha. Por tanto, la región de
rechazo está en la cola superior. Si el signo de desigualdad apuntara hacia
la cola izquierda (<), la región de rechazo estaría en la cola inferior. Si éste
fuera el caso, sumaríamos las probabilidades en la columna 2 hacia abajo pa-
ra obtener las probabilidades acumuladas en la columna 3.
Recuerde que seleccionamos el nivel de significancia 0.10. Para llegar a
la regla de decisión en este problema, recurrimos a las probabilidades acu-
muladas en la Tabla 16-2, columna 3. Leemos de abajo hacia arriba hasta lle-
gar a la probabilidad acumulada más cercana, pero que no excede el nivel de
significancia (0.10). Esta probabilidad acumulada es 0.090. El número de éxi-
tos (signos de más) que corresponde a 0.090 en la columna 1 es 10. Por tan-
to, la regla de decisión es: si el número de signos de más en la muestra es
10 o más, se rechaza la hipótesis nula y se acepta la hipótesis alternativa.
Para repasar: sumamos las probabilidades de abajo hacia arriba porque
la dirección de la desigualdad (>) es hacia la derecha, lo que indica que la re-
gión de rechazo se encuentra en la cola superior. Si el número de signos de
más en la muestra es 10 o más, rechazamos la hipótesis nula; de lo contra-
rio la aceptamos. La región de rechazo se ilustra en la Gráfica 16-1.
¿Qué procedimiento se sigue para una prueba de dos colas? Combina-
mos (sumamos) las probabilidades de éxito en las dos colas hasta que nos
acercamos lo más posible al nivel de significancia deseado (a) sin exceder-
lo. En este ejemplo, α es 0.10. La probabilidad de 3 o menos éxitos es 0.29,
550 Capitulo 16

TABLA 16-2 Distribución de probabilidad binomial para n = 14. π = 0.50.

GRÁFICA 16 1 Región de rechazo. n = 14, π = 0.50.

que se calcula mediante 0.000 + 0.001 + 0.006 + 0.022. La probabilidad de


11 o más éxitos también es 0.29. Si sumamos las dos probabilidades, obte-
nemos 0.58. Esto es lo más cerca que podemos estar de 0.10 sin pasarnos.
De haber incluido las probabilidades de 4 y 10 éxitos, el total habría sido
0.180, que se pasa de 0.10. Por tanto, la regla de decisión para una prueba
de dos colas sería rechazar la hipótesis nula si hay 3 o menos signos de más,
u 11 o más signos de más.
Paso 5: Tomar una decisión acerca de la hipótesis nula. Once de los catorce ge-
rentes en el curso de capacitación aumentaron su competencia en bases de
datos. El número 11 se encuentra en la región de rechazo, que empieza en
10, de modo que se rechaza la hipótesis nula. El curso de capacitación de
tres meses fue efectivo. Aumentó la competencia de los gerentes en el ma-
nejo de bases de datos.
Métodos no paramétricos: análisis de datos ordenados 551

Debemos hacer notar una vez más que si la


hipótesis alternativa no ofrece una dirección (por
ejemplo, la prueba de
hipótesis es de dos colas. En estos casos, habrá
dos regiones de rechazo: una en la cola inferior
y otra en la cola superior. Si α = 0.10 y la prueba
es de dos colas, el área en cada cola es 0.05
(a/2 = 0.10/2 = 0.05). La Autoevaluación 16-1
ilustra lo anterior.

Autoevaluación 16-1 Recuerde que el ejemplo de Taster's Choice que describimos en la página 547 comprende
una prueba entre los consumidores para determinar la preferencia por el café descafeinado
en comparación con el regular. Las hipótesis nula y alternativa son:

(a) ¿Se trata de una prueba de hipótesis de una o dos colas?


(b) Ilustre la regla de decisión en una gráfica.
(c) Designando la preferencia por el café descafeinado como "+" y la preferencia por el café
regular como "-", se descubrió que dos consumidores prefieren el descafeinado. ¿Cuál
es su decisión? Explique su respuesta.

Ejercicios
1. Se da la siguiente situación de prueba de hipótesis: El nivel de
significancia es 0.10 y el tamaño de la muestra es 12.
a. ¿Cuál es la regla de decisión?
b. Se presentaron nueve éxitos. ¿Cuál es su decisión acerca de la hipótesis nula? Explique
su respuesta.
2. Se da la siguiente situación de prueba de hipótesis: El nivel de
significancia es 0.05 y el tamaño de la muestra es 9.
a. ¿Cuál es la regla de decisión?
b. Se obtuvieron cinco éxitos. ¿Cuál es su decisión acerca de la hipótesis nula?
3. Calorie Watchers tiene desayunos, comidas y cenas bajas en calorías. Si usted se une al
club, recibe dos comidas empacadas al día. CW afirma que puede comer todo lo que quie-
ra para la tercera comida y bajará por lo menos cinco libras durante el primer mes. Los
miembros del club se pesan antes de iniciar el programa y una vez más al final del primer
mes. Las experiencias de una muestra aleatoria de 11 participantes son:

Nos interesa saber si las personas han bajado de peso como resultado del programa de Ca-
lorie Watchers.
a. Formule H0 y H1
b. Utilizando el nivel de significancia 0.05, ¿cuál es la regla de decisión?
c. ¿Cuál es su conclusión acerca del programa de Calorie Watchers?
4. Muchos corredores de bolsa nuevos se resisten a dar presentaciones a los banqueros y otros
grupos. Al detectar esta falta de confianza en sí mismos, la gerente organizó un seminario de
552 Capítulo 16

motivación para una muestra de corredores de bolsa nuevos y contrató a Career Boosters
para un curso de tres semanas. Antes de la primera sesión, Career Boosters midió el nivel de
confianza de cada participante. Este nivel se volvió a medir después del seminario de tres se-
manas. Los niveles de confianza de antes y después para los 14 participantes en el curso se
muestran a continuación. La confianza se clasificó como negativa, baja, alta o muy alta.

El propósito de este estudio es saber si Career Boosters fue efectivo al aumentar la con-
fianza de los nuevos corredores de bolsa. Es decir, ¿el nivel de confianza en sí mismos es
más alto después del seminario que antes de éste? Utilice el nivel de significancia 0.05.
a. Formule las hipótesis nula y alternativa.
b. Utilizando el nivel de significancia 0.05, establezca la regla de decisión, ya sea con pala-
bras o con una gráfica.
c. Mencione sus conclusiones acerca del seminario que ofreció Career Boosters.

Uso de la aproximación normal a la binomial


Si el número de observaciones en la muestra es mayor de 10, la distribución normal se pue-
de utilizar para aproximarse a la binomial. Recuerde que en el Capítulo 6 calculamos la me-
dia de la distribución binomial a partir de y la desviación estándar a partir de σ =
En este caso, de modo que las ecuaciones se reducen a μ = 0.50n y
respectivamente. El estadístico de prueba ζ es

Si el número de signos de más o de menos es mayor a n/2, utilizamos la forma siguiente


como estadística de prueba:

Si el número de signos de más o de menos es menor a n/2, la estadística de prueba ζ es:

En las fórmulas anteriores, X es el número de signos más (o menos). El valor +0.50 o -0.50
es el factor de corrección de continuidad, que estudiamos en el Capítulo 7. En resumen, se
aplica cuando una distribución continua como la normal (que utilizamos) se usa para apro-
ximarnos a una distribución discreta (la binomial).
El ejemplo siguiente ilustra los detalles de la prueba del signo con una muestra grande.
Métodos no paramétricos: análisis de datos ordenados 553

El departamento de investigación de mercados de Cola, Inc. tiene la tarea de probar un re-


fresco nuevo. Se consideran dos versiones de la bebida: un refresco dulce y otro un tanto
amargo. Se va a realizar una prueba de preferencias que consiste en una muestra de 64
consumidores. Cada uno va a probar ambas versiones del refresco de cola, el dulce (con la
etiqueta A) y el amargo (con la etiqueta B) y a indicar su preferencia. ¿Cómo se va a reali-
zar la prueba de hipótesis y qué refresco de cola es el preferido, en caso de que haya uno?

Paso 1: Formular las hipótesis nula y alternativa:


No hay preferencia.
Sí hay preferencia.
Paso 2: Seleccionar un nivel de significancia. Un nivel de significancia 0.05.
Paso 3. Seleccionar el estadístico de prueba. Es z, que se da en la fórmula (16-1).

Paso 4: Formular la regla de decisión. Consultando el Apéndice D, Áreas debajo de


la curva normal, para una prueba de dos colas (porque /-/, afirma que π Φ
0.50) y el nivel de significancia 0.05, los valores críticos son +1.96 y -1.96.
Recuerde que en el Capítulo 10 vimos que, para una prueba de dos colas, di-
vidimos la probabilidad de rechazo a la mitad y colocamos una mitad en ca-
da cola. Es decir, α/2 = 0.05/2 = 0.025; y continuando, 0.5000 - 0.0250 =
0.4750. Si buscamos 0.4750 en el cuerpo de la tabla y leemos el valor z en
el margen izquierdo, obtenemos 1.96, el calor crítico. Por tanto, aceptamos
H0, si el valor z calculado se encuentra entre +1.96 y -1.96. De lo contrario,
rechazamos H0 y aceptamos H1
Paso 5: Calcular z, comparar el valor calculado con el valor crítico y tomar una de-
cisión acerca de H0. A la preferencia por el refresco de cola A se le asignó un
signo "+" y al preferencia por el Β un signo "-". De las 64 personas en la mues-
tra, 42 prefirieron el refresco de cola dulce, A. Por tanto, hay 42 signos de más.
Como 42 es mayor a n/2 = 64/2 = 32, utilizamos la fórmula (16-2) para z.

El valor z calculado de 2.38 llega más allá del valor crítico de 1.96. Por tanto,
la hipótesis nula de ninguna diferencia se rechaza con un nivel de significan-
cia 0.05. Hay evidencias de una diferencia en las preferencias de los consu-
midores. Es decir, llegamos a la conclusión de que los consumidores
prefieren un refresco de cola al otro.
El valor ρ es la probabilidad de encontrar un valor z mayor a 2.38 o me-
nor a -2.38. A partir del Apéndice D, la probabilidad de encontrar un valor z
mayor a 2.38 es 0.5000 - 0.4913 = 0.0087. Por tanto, el valor ρ de dos colas
es 0.0174. De modo que la probabilidad de obtener un estadístico de mues-
tra tan extrema cuando la hipótesis nula es verdadera es menor a 2%.

Autoevaluación 16-2 El primer día del año, el departamento de recursos humanos en una planta de ensamblaje au-
tomotriz empezó un programa de supervisión de la presión sanguínea y educación para los
100 empleados en el departamento de pintura. Como seguimiento, en julio, los mismos 100
empleados se sometieron a un examen de la presión sanguínea y 80 de ellos mostraron una
reducción. ¿Podemos llegar a la conclusión de que la supervisión fue efectiva para reducir las
lecturas de la presión sanguínea?
(a) Formule las hipótesis nula y alternativa.
(b) ¿Cuál es la regla de decisión para un nivel de significancia 0.05?
554 Capítulo 16

(c) Calcule el valor del estadístico de prueba.


(d) ¿Cuál es su decisión acerca de la hipótesis nula?
(e) Interprete su decisión.

5. Una muestra de 45 hombres con sobrepeso participó en un programa de ejercicios. Al tér-


mino del programa, 32 habían bajado de peso. Con un nivel de significancia 0.05, ¿pode-
mos llegar a la conclusión de que el programa es efectivo?
a. Formule las hipótesis nula y alternativa.
b. Establezca la regla de decisión.
c. Calcule el valor del estadístico de prueba.
d. ¿Cuál es su decisión acerca de la hipótesis nula?
6. Una muestra de 60 estudiantes universitarios asistió a un programa de capacitación diseña-
do a fin de mejorar sus habilidades para administrar el tiempo. Un mes después de terminar
el curso, se buscó a los estudiantes y se les preguntó si las habilidades aprendidas en el pro-
grama habían resultado efectivas. Un total de 42 estudiantes respondieron que sí. Con un ni-
vel de significancia 0.05, ¿podemos llegar a la conclusión de que el programa es efectivo?
a. Formule las hipótesis nula y alternativa
b. Establezca la regla de decisión.
c. Calcule el valor del estadístico de prueba.
d. ¿Cuál es su decisión acerca de la hipótesis nula?
7. Pierre's Restaurante anunció que el jueves por la noche el menú consistiría de platillos gour-
met poco comunes, como calamar, conejo, caracoles de Escocia y hojas de diente de león.
Como parte de un estudio más extenso, a una muestra de 81 clientes regulares se les pre-
guntó si preferían el menú regular o el gourmet. Cuarenta y tres prefirieron el menú gour-
met. Utilizando la prueba del signo y un nivel de significancia 0.02, pruebe si a los clientes
les gusta el menú gourmet más que el regular. Justifique sus conclusiones.
8. Los obreros de Computer Associates (CA) arman sólo una o dos piezas de subensamblaje
y las insertan en un marco. Los ejecutivos de CA consideran que los obreros estarían más
orgullosos de su trabajo si armaran todas las piezas y probaran la computadora terminada.
Se seleccionó una muestra de 25 empleados para experimentar con la idea. Después del
programa de capacitación, se les preguntó sobre sus preferencias individuales. A veinte de
ellos les gustó armar toda la unidad y probarla. Con un nivel de significancia 0.05, utilice la
prueba del signo para llegar a una decisión acerca de las preferencias de los obreros. Ex
plique los pasos que siguió para llegar a su decisión.

Prueba de una hipótesis acerca de una mediana


La mayor parte de las pruebas de hipótesis que hemos realizado hasta el momento com-
prenden la media o la proporción de una población. La prueba del signo es una de las po-
cas que se pueden utilizar para probar el valor de una mediana. Recuerde que en el
Capítulo 3 estudiamos que la mediana es el valor sobre el cual están la mitad de las obser-
vaciones y debajo del cual encontramos la otra mitad. Para los salarios por hora de $7, $9,
$11 y $18, la mediana es $10. La mitad de los sueldos se encuentran por encima de $10 la
hora y la otra mitad debajo de $10.
Para realizar una prueba de hipótesis, se asigna un signo de más a un valor que esté
por encima de la mediana, y a un valor que está por debajo de ésta se le asigna un signo
de menos. Si un valor es igual a la mediana, se reserva para un análisis más detallado. El
procedimiento es idéntico al que seguimos en las pruebas del signo para muestra pequeña
y muestra grande que acabamos de estudiar.

Un estudio realizado hace varios años por el departamento de investigación del consumi-
dor de Superior Grocers descubrió que la cantidad semanal mediana que los matrimonios
jóvenes gastaban en abarrotes era $123. El director ejecutivo quiere repetir la investigación
para determinar si la cantidad mediana gastada ha cambiado. La nueva información de la
muestra del departamento de investigación reveló que, en una muestra aleatoria de 102
Métodos no paramétricos: análisis de datos ordenados 555

matrimonios jóvenes, 60 gastaron más de $123 en abarrotes la semana pasada, 40 gasta-


ron menos y 2 gastaron exactamente $123. Con un nivel de significancia 0.10, ¿sería razo-
nable llegar a la conclusión de que la cantidad mediana gastada no es igual a $123?

Si la mediana de la población es $123, esperamos que alrededor de la mitad de las parejas


de la muestra hayan gastado más de $123 la semana pasada y casi la mitad de ellas
hayan gastado menos de $123. Después de descartar a las dos parejas que gastaron exac-
tamente $123, esperaríamos que 50 estuvieran sobre la mediana y 50 debajo de la media-
na. ¿Esta diferencia se puede atribuir a la casualidad, o la mediana es otro valor diferente
de $123? La prueba estadística para la mediana nos ayudará a responder esta pregunta.
Las hipótesis nula y alternativa son:

Se trata de una prueba de dos colas porque la hipótesis alternativa no indica una dirección.
Es decir, no nos interesa saber si la mediana es menor o mayor que $123, lo importante es
saber si es diferente de $123. El estadístico de prueba cumple con las suposiciones bino-
miales. Es decir:

1. Una observación es más grande o más pequeña que la mediana propuesta, de modo
que sólo hay dos resultados posibles.
2. La probabilidad de un éxito permanece constante en 0.50. Es decir, π= 0.50.
3. Las parejas seleccionadas como parte de la muestra representan intentos independientes.
4. Contamos el número de éxitos en un número fijo de intentos. En este caso, considera-
mos 100 parejas y contamos el número de aquellas que gastan más de $123 en aba-
rrotes a la semana.

El tamaño útil de la muestra es 100 y π es 0.50, de modo que nπ = 100(0.50) = 50 y


n(1 - π) = 100(1 - 0.50) = 50, que son mayores a 5, de modo que utilizamos la distribución
normal para aproximarnos a la binomial. Es decir, en realidad utilizamos la distribución nor-
mal estándar como estadístico de prueba. El nivel de significancia es 0.10, de modo que α/2
= 0.10/2 = 0.05 del área se encuentra en cada una de las colas de una distribución normal.
Según el Apéndice D, que muestra las áreas debajo de la curva normal, el valor crítico es
-1.65 y 1.65. La regla de decisión es rechazar H0 si z es menor a -1.65 o mayor que 1.65.
Utilizamos la fórmula (16-2) para z porque 60 es mayor que n/2( 100/2 = 50).

La hipótesis nula se rechaza porque el valor calculado de 1.90 es mayor que el valor
crítico de 1.65. La evidencia de la muestra indica que la cantidad media que los matrimo-
nios jóvenes gastan en abarrotes a la semana no es $123. El valor ρ para esta prueba es
0.0574, calculado así: 2(0.5000 - 0.4713).

Autoevaluación 16-3 Después de recibir del Departamento de Investigación del Consumidor los resultados acerca
de la cantidad semanal que las parejas jóvenes gastan en abarrotes, el director ejecutivo de
Superior Grocers se pregunta si la misma afirmación es cierta en cuanto a las parejas de la ter-
cera edad. En este caso, el director ejecutivo quiere que el Departamento de Investigación del
Consumidor investigue si la cantidad mediana que las parejas de la tercera edad gastan en
abarrotes a la semana es mayor a $123. Una muestra de 64 parejas de la tercera edad reveló
que 42 gastan más de $123 en abarrotes a la semana. Utilice el nivel de significancia 0.05.

Ejercicios
9. En , el salario mediano para un quiropráctico en Kansas es $82 400
anuales. Un grupo de recién graduados creen que esta cantidad es muy baja. En una mues-
556 Capítulo 16

tra aleatoria de 205 quiroprácticos graduados recientemente, 170 empezaron con un salario
de más de $82 400 y cinco ganaban un salario de $82 400 exactamente.
a. Formule las hipótesis nula y alternativa.
b. Establezca la regla de decisión. Utilice el nivel de significancia 0.05.
c. Realice los cálculos necesarios e interprete los resultados.
10. Central Airlines afirma que el precio mediano de un boleto de ida y vuelta a Jackson Hole,
Wyoming, es $503. La Association of Travel Agents quiere desmentir esta afirmación, pues
cree que el precio mediano es menor a $503. Para resolver el problema, se seleccionó una
muestra aleatoria de 400 boletos de viaje redondo. De éstos, 160 costaron menos de $503.
Ninguno de los boletos costó exactamente $503. Supongamos que a = 0.50.
a. Formule las hipótesis nula y alternativa.
b. Tome una decisión en cuanto a la controversia.

Prueba de rangos con signo de Wilcoxon


Las prueba t por pares, que describimos en el Capítulo 11, pide dos requisitos. Primero, las
muestras tienen que ser dependientes. Recuerde que las muestras dependientes se carac-
terizan por una medición, una intervención y otra medición. Por ejemplo, una compañía
grande inició un programa de "bienestar" a principios de año. Veinte trabajadores participa-
ron en la parte de reducción de peso del programa. Para empezar, todos los participantes
se pesaron. Luego, siguieron una dieta, hicieron ejercicio, etcétera, en un intento por bajar
de peso. Al final del programa, que duró seis meses, todos los participantes se pesaron otra
vez. La diferencia de peso entre el inicio y el término del programa es la variable de interés.
Observe que hay una medición, una intervención y otra medición.
El segundo requisito para la prueba f por pares es que la distribución de las diferencias
siga una distribución normal. En el ejemplo sobre el programa de bienestar de la compañía
del párrafo anterior, sería necesario que las
diferencias en el peso de los 20 participantes
siguieran la distribución normal. En ese caso,
esta suposición es razonable. Sin embargo,
hay casos en los que queremos estudiar las
diferencias entre observaciones independientes
y no podemos suponer que la distribución de
las diferencias se aproxima a la normal. Con
frecuencia, enfrentamos un problema con la
suposición de normalidad cuando el nivel de
medición de las muestras es ordinal, en lugar
de intervalo o de razón. Por ejemplo, suponga
que, este día, en la clínica 3 East hay 10
pacientes en cirugía. La supervisora de en-
fermeras pide a las enfermeras Benner y Ju-
rris que califiquen a cada uno de los 10 pacientes en una escala de 1 a 10, según la dificultad
de los cuidados que deben recibir. La distribución de las diferencias en las calificaciones qui-
zá no se aproxime a la normal y, por tanto, la prueba t por pares no sería apropiada.
En 1945, Frank Wilcoxon desarrolló una prueba no paramétrica, con base en las diferen-
cias en muestras dependientes, en la que no es necesaria una suposición de normalidad.
Esta prueba se llama Prueba de rangos con signo de Wilcoxon. El ejemplo siguiente la
explica con detalle.

Fricker's es una cadena de restaurantes familiares que se encuentran sobre todo en el sureste
de Estados Unidos. Ofrecen un menú muy completo, pero su especialidad es el pollo. Hace
poco, Bernie Frick, propietario y fundador, desarrolló un nuevo sabor de especias para la
salsa en la que se cocina el pollo. Antes de reemplazar el sabor actual, quiere realizar algu-
nas pruebas para estar seguro de que a sus clientes les gustará más el sabor de especias.
Métodos no paramétricos: análisis de datos ordenados 557

Para empezar, Bernie selecciona una muestra aleatoria de 15 clientes. A cada cliente
en la muestra se le da una pieza pequeña del pollo con la salsa actual y se le pide que ca-
lifique su sabor en general en una escala de 1 a 20. Un valor cercano a 20 indica que al
participante le gustó el sabor, mientras que una calificación cercana a cero indica que no le
gustó. Después, a los mismos 15 participantes se les da una muestra del pollo nuevo con
el sabor a especias y una vez más se les pide que lo califiquen en una escala de 1 a 20.
Los resultados se reportan a continuación. ¿Sería razonable llegar a la conclusión de que
el sabor a especias es el preferido? Utilice el nivel de significancia 0.05.

Las muestras son dependientes o relacionadas. Es decir, a los participantes se les pide que
califiquen ambos sabores de salsa para el pollo. Por tanto, si calculamos la diferencia en-
tre el marcador a favor del sabor a especias y el del sabor actual, el valor resultante revela
la cantidad de participantes que prefirieron un sabor al otro. Si elegimos restar el marcador
del sabor actual del marcador para el sabor a especias, un resultado positivo es la "canti-
dad" de participantes que prefieren el sabor a especias. Las diferencias negativas en los
marcadores indican que el participante prefiere el sabor actual. Debido a la naturaleza sub-
jetiva de los marcadores, no estamos seguros de que la distribución de las diferencias siga
la normal; por lo que decidimos utilizar la prueba de rangos con signo de Wilcoxon no pa-
ramétrica.
Como de costumbre, vamos a usar el procedimiento de prueba de hipótesis en cinco
pasos. La hipótesis nula es que no hay ninguna diferencia en las calificaciones que los par-
ticipantes dan a los sabores de salsa. Es decir, la misma cantidad de participantes dieron
una calificación alta al sabor actual que al sabor a especias. La hipótesis alternativa es que
las calificaciones son más altas para el sabor a especias. De manera más formal:

No hay diferencia en las calificaciones de los dos sabores.


Las calificaciones son más altas para el sabor a especias.

Se trata de una prueba de una cola. ¿Por qué? Porque Bernie Frick, el propietario de Fric-
ker's, querrá cambiar el sabor sólo si los participantes de la muestra indican que a la pobla-
ción de clientes le gusta más el nuevo sabor. El nivel de significancia es 0.05, como se
estableció anteriormente.
Los pasos para realizar la prueba de rangos con signo de Wilcoxon son los siguientes.

1. Calcule la diferencia entre las calificaciones que cada participante da al sabor a espe
cias y las que da al sabor actual. Por ejemplo, la calificación que Arquette dio al sabor a
especias fue 14 y al sabor actual fue 12, de modo que la diferencia es 2. Para Jones, la
diferencia es -8, calculada así: 8 - 16, y para Fish, es 4, calculada así: 6-2. Las dife
rencias para todos los participantes se muestran en la columna 4 de la Tabla 16-3.
2. Sólo se consideran las diferencias positivas y negativas. Es decir, si la diferencia en la
calificación es 0, ese participante se reserva para un análisis posterior y se reduce el
número de participantes en la muestra. Según la Tabla 16-3, Hall, el sexto participan
te, calificó ambos sabores con 16. Por tanto, Hall se elimina del estudio y el tamaño útil
de la muestra baja de 15 a 14.
558 Capítulo 16

3. Determine las diferencias absolutas para los valores calculados en la columna 4. Re


cuerde que en una diferencia absoluta ignoramos el signo. Las diferencias absolutas se
muestran en la columna 5.
4. A continuación, clasificamos las diferencias absolutas de la menor a la mayor. Arquette, el
primer participante, calificó el pollo con especias con un 14 y el actual con 12. La diferen
cia de 2 en ambas calificaciones es la diferencia absoluta más baja, de modo que se le da
un rango de 1. La siguiente diferencia para arriba es de 3, que otorgó Miller, de modo que
recibe un rango de 2. Las otras diferencias se clasifican de manera similar. Hay tres parti
cipantes que clasificaron la diferencia en el sabor en 8. Es decir, Jones, Badenhop y Sun-
dar tuvieron una diferencia de 8 entre la calificación al sabor a especias y al sabor actual.
Para solucionar este problema, sacamos un promedio de las clasificaciones y reportamos
la clasificación promedio para cada uno. Esta situación comprende las clasificaciones 5, 6
y 7, de modo que a los tres participantes se les asignó la clasificación de 6. La misma si
tuación se presenta para los participantes con una diferencia de 9. Las clasificaciones son
8, 9 y 10, de modo que se les asigna una clasificación de 9.

TABLA 16 3 Calificación para los sabores actual y de especias

5. A cada clasificación asignada en la columna 6 se le da el mismo signo que tenía la di-


ferencia original, y los resultados se reportan en la columna 7. Por ejemplo, el segun-
do participante tiene una diferencia de -8 y una clasificación de 6. Este valor se coloca
en la sección R de la columna 7.
6. Se calculan los totales de las columnas R y R . La suma de los rangos positivos es 75
y la suma de los rangos negativos es 30. El más bajo de los dos totales se usa como
estadístico de prueba y se conoce como T.

Los valores críticos para la prueba de rangos con signo de Wilcoxon se localizan en el Apén-
dice H. Una parte de esa tabla se incluye en la página siguiente. La fila a se utiliza para prue-
bas de una cola y la fila 2a para pruebas de dos colas. En este caso, queremos demostrar que
a los clientes les gusta más el sabor a especias, que es una prueba de una cola, de modo que
seleccionamos la fila a. Elegimos el nivel de significancia 0.05, de modo que desplácese hacia
la derecha hasta la columna con el encabezado 0.05. Baje por la columna hasta la fila donde
n es 14. (Recuerde que una persona en el estudio dio la misma calificación a los dos sabores
y la eliminamos de la prueba, por lo que el tamaño útil de la muestra quedó en 14.) El valor en
la intersección es 25, de modo que el valor crítico es 25. La regla de decisión es rechazar la hi-
pótesis nula si el más bajo de los totales de los rangos es 25 o menos. El valor obtenido en el
Métodos no paramétricos: análisis de datos ordenados 559

Apéndice Η es el más alto en la región de rechazo. En este caso, el total de rangos más bajo
es 30, de modo que la decisión es aceptar la hipótesis nula. No podemos llegar a la conclusión
de que existe una diferencia en las calificaciones otorgadas a los sabores entre el actual y el
de especias. El señor Frick no demostró que los clientes prefieran el nuevo sabor.

Autoevaluación 16-4 El área de ensamblaje de Gotrac Products se rediseñó hace poco. La instalación de un nue-
vo sistema de iluminación y la compra de nuevas mesas de trabajo son dos de las caracte-
rísticas del nuevo diseño. El supervisor de producción quiere saber si los cambios dieron
como resultado un aumento en la productividad de los empleados. Para investigar lo anterior,
seleccionó una muestra de 11 trabajadores y determinó su índice de producción antes y des-
pués de los cambios. La información de la muestra se reporta a continuación.

(a) ¿Cuántos pares útiles hay? Es decir, ¿cuánto vale n?


(b) Utilizando la prueba de rangos con signo de Wilcoxon, determine si los nuevos procedi-
mientos aumentaron la producción. Use el nivel de significancia 0.05 y una prueba de una
cola.

Ejercicios
11. Un psicólogo industrial seleccionó una muestra aleatoria de siete parejas de profesionistas
citadinos jóvenes que viven en la ciudad en casa propia. El tamaño de su casa (en pies cua-
drados) se compara con la casa de sus padres. En el nivel de significancia 0.05, ¿podemos
llegar a la conclusión de que las parejas jóvenes viven en casas más grandes que las de
sus padres?
560 Capítulo 16

12. Suponga que Toyota Motor Corporation estudia el efecto de la gasolina regular en compa-
ración con la de alto octanaje sobre el ahorro de combustible de su nuevo motor V6 de 3.5
litros y alto desempeño. Se seleccionaron 10 ejecutivos y se les pidió que llevaran un regis-
tro del número de millas recorridas por galón de gasolina. Los resultados son:

Con un nivel de significancia 0.05, ¿hay alguna diferencia en el número de millas recorridas
por galón entre la gasolina regular y la de alto octanaje?
13. El señor Mump sugirió un nuevo procedimiento de la línea de ensamblaje para aumentar la
producción. Para probar si el nuevo procedimiento es superior al antiguo, se seleccionó al
azar una muestra de 15 obreros. Primero se determinó su producción con el antiguo siste-
ma y luego se introdujo el procedimiento del señor Mump. Después de un periodo de des-
canso apropiado, su producción se midió otra vez. Los resultados fueron:

Con un nivel de significancia 0.05, ¿podemos llegar a la conclusión de que la producción es


mayor utilizando el método del señor Mump?
a. Formule las hipótesis nula y alternativa.
b. Establezca la regla de decisión.
c. Tome una decisión en cuanto a la hipótesis nula.
14. Se ha dicho que la producción diaria de una parte de subensamblaje aumentaría si se instalara
una mejor iluminación y se ofreciera música de fondo, además de café y donas gratis du-
rante el día. La gerencia estuvo de acuerde en probar el esquema durante un tiempo limitado.
El número de partes producidas a la semana por una muestra de empleados es el siguiente.

Utilizando la prueba de rangos con signo de Wilcoxon, determine si los cambios sugeridos
valen la pena.
Métodos no paramétricos: análisis de datos ordenados 561

a. Formule la hipótesis nula.


b. Tome una decisión sobre la hipótesis alternativa.
c. Decida el nivel de significancia.
d. Establezca la regla de decisión.
e. Calcule 7 y tome una decisión.

Prueba de suma de rangos de Wilcoxon


Una prueba diseñada de manera específica para determinar si dos muestras independien-
tes provienen de poblaciones equivalentes es la prueba de suma de rangos de Wilcoxon,
que es una alternativa para la prueba t de dos muestras que describimos en el Capítulo 11.
Recuerde que la prueba t requiere que dos poblaciones sigan la distribución normal y ten-
gan varianzas poblacionales iguales. Estas condiciones no son necesarias para la prueba
de suma de rangos de Wilcoxon.
La prueba de suma de rangos de Wilcoxon se basa en el promedio de los rangos. Los
Prueba utilizando muestras datos se clasifican como si las observaciones formaran parte de una sola muestra. Si la hi-
independientes. pótesis nula es verdadera, los rangos tendrán una distribución casi uniforme entre las dos
muestras, y el promedio de los rangos para las dos muestras será prácticamente igual. Es
decir, los rangos bajo, medio y alto deberán estar divididos en forma equitativa entre las dos
muestras. Si la hipótesis alternativa es verdadera, una de las muestras tendrá mayor canti-
dad de rangos bajos y, por tanto, un promedio menor. La otra muestra tendrá mayor canti-
dad de rangos altos y, por consiguiente, un promedio más elevado. Si cada una de las
muestras contiene por lo menos ocho observaciones, la distribución normal estándar se usa
como estadístico de prueba. La fórmula es:

donde:
es el número de observaciones de la primera muestra,
es el número de observaciones de la segunda muestra,
es la suma de los rangos de la primera muestra.

Hace poco, Dan Thompson, presidente de CEO Airlines, notó un incremento en el número
de personas que no llegan para los vuelos fuera de Atlanta. Le interesa sobre todo determi-
nar si hay más personas que no llegan para los vuelos que salen de Atlanta, en compara-
ción con los vuelos que salen de Chicago. Una muestra de nueve vuelos de Atlanta y ocho
de Chicago se reporta en la Tabla 16-4. En el nivel de significancia 0.05, ¿podemos llegar a
la conclusión de que hay más personas que no llegan para los vuelos que salen de Atlanta?
TABLA 16-4 Número de personas que no llegaron a los vuelos programados

Si las poblaciones de personas que no llegan siguieran la distribución normal y tuvieran va-
rianzas ¡guales, la prueba t de dos muestras, que estudiamos en el Capítulo 11, sería apro-
piada. En este caso, el señor Thompson cree que estas dos condiciones no se cumplen. Por
tanto, es adecuada una prueba no paramétrica, la prueba de suma de rangos de Wilcoxon.
562 Capítulo 16

Si el número de personas que no llegan es igual para Atlanta y Chicago, esperamos


que las medias de los dos rangos sean casi iguales. Si el número de personas que no lle-
gan no es igual, esperamos que las dos sumas de los rangos sean muy diferentes.
El señor Thompson cree que hay más personas que no llegan para los vuelos que sa-
len de Atlanta. Por tanto, es apropiada una prueba de una cola, con la región de rechazo
ubicada en la cola superior. Las hipótesis nula y alternativa son:
La distribución de la población de personas que no llegan es la misma o menor pa-
ra Atlanta que para Chicago.
La distribución de la población de personas que no llegan es mayor para Atlanta
que para Chicago.
El estadístico de prueba sigue la distribución normal. Con un nivel de significancia 0.05,
en el Apéndice D encontramos que el valor crítico de z es 1.65. La hipótesis nula se recha-
za si el valor calculado de ζ es mayor a 1.65.
La hipótesis alternativa es que hay más personas que no llegan a los vuelos que salen
de Atlanta, lo que significa que la distribución se encuentra del lado derecho de la distribu-
ción de Chicago. Calculamos el valor de W para el grupo de Atlanta y encontramos que es
96.5, que es la suma de los rangos para las personas que no llegan a los vuelos que salen
de Atlanta. Los detalles sobre la asignación de rangos se ilustran en la Tabla 16-5. Clasifica-
mos las observaciones de ambas muestras como si se tratara de un solo grupo. El vuelo de
Chicago con sólo 8 personas que no llegaron tuvo la menor cantidad, por lo que se le asig-
na un rango de 1. El vuelo de Chicago con 9 personas que no llegaron se clasifica como 2,
y así sucesivamente. El vuelo de Atlanta con 25 personas que no llegaron es el más alto, de
modo que se le asigna el rango más alto, 17. También hay dos casos de rangos iguales. Hay
un vuelo de Atlanta y otro de Chicago a los que no se presentaron 10 personas y dos vue-
los de Atlanta con 11 personas que no llegaron. ¿Cómo manejamos estos empates? La so-
lución es promediar los rangos y asignar el rango promedio a ambos vuelos. En el caso de
las 10 personas, los rangos son 3 y 4. La media de estos rangos es 3.5, de modo que este
rango se asigna a los vuelos de Atlanta y Chicago con 10 personas que no llegaron.

TABLA 16-5 Números de rango para las personas que no llegaron a los vuelos programados

En la Tabla 1-5, observe que hay nueve vuelos que se originaron en Atlanta y ocho en
Chicago, de modo que n1 = 9 y n2 = 8. El cálculo de z a partir de la fórmula (16-4) da:

Como el valor z calculado (1.49) es menor a 1.65, la hipótesis nula se acepta. Las eviden-
cias no demuestran una diferencia en el número típico de personas que no llegan. Es de-
Métodos no paramétricos: análisis de datos ordenados 563

cir, al parecer el número de personas que no llegan es igual en Atlanta que en Chicago. El
valor ρ es 0.0681, que se encuentra al determinar el área a la derecha de 1.49 (0.5000 -
0.4319).
El software MegaStat produce los mismos resultados. El valor ρ de MegaStat es
0.0742, que se aproxima al valor que calculamos. La diferencia se debe al redondeo en el
sistema y la corrección de los empates.

Al utilizar la prueba de suma de rangos de Wilcoxon, puede numerar las dos muestras
en cualquier orden. Sin embargo, una vez que hace una elección, Wóebe ser la suma de
los rangos identificados como la muestra 1. Si, en el ejemplo de las personas que no llegan
a los vuelos, la muestra de Chicago se identificara como el número 1, la dirección de la hi-
pótesis alternativa cambiaría, pero el valor absoluto de ζ seguiría siendo el mismo.
La distribución de la población de personas que no llegan es igual o más grande para
Chicago que para Atlanta.
La distribución de la población de personas que no llegan es menor para Chicago
que para Atlanta.

El valor calculado de ζ es -1.49, que se calculó mediante:

Autoevaluación 16-5 El director de investigación de Top Flite quiere saber si hay una diferencia en la distribución
de las distancias recorridas por dos de las pelotas de golf de la compañía. Ocho de sus pelo-
tas marca XL-550 y ocho de las DL-300 se lanzaron mediante un dispositivo automático. Las
distancias (en yardas) son las siguientes:

Suponga que las distribuciones de las distancias recorridas no siguen la distribución normal.
Con un nivel de significancia 0.05, ¿hay alguna diferencia entre las dos distribuciones?
564 Capítulo 16

Ejercicios
15. Las observaciones siguientes se seleccionaron al azar de poblaciones que no necesaria-
mente tenían una distribución normal. Utilice el nivel de significancia 0.05, una prueba de
dos colas y la prueba de suma de rangos de Wilcoxon para determinar si hay alguna dife-
rencia entre las dos poblaciones.

16. Las observaciones siguientes se seleccionaron al azar de poblaciones que no necesaria-


mente tenían una distribución normal. Utilice el nivel de significancia 0.05, una prueba de
dos colas y la prueba de suma de rangos de Wilcoxon para determinar si hay alguna dife-
rencia entre las dos poblaciones.

17. Tucson State University ofrece dos programas de Maestría en Administración de Empresas.
En el primero, los estudiantes se reúnen dos noches a la semana en el campus principal de
la Universidad que está en el centro de Tucson. En el segundo programa, los estudiantes
sólo se comunican en línea con el profesor. El director de la Maestría en Administración de
Empresas en Tucson quiere comparar el número de horas durante las que ambos grupos
estudiaron la semana pasada. Una muestra de 10 estudiantes en el campus y 12 en línea
reveló la siguiente información.

No debemos suponer que las dos distribuciones del tiempo de estudio, que se reportan en
horas, siguen una distribución normal. Con un nivel de significancia 0.05, ¿podemos llegar
a la conclusión de que los alumnos en línea estudian más?
18. En fechas recientes, con las tasas hipotecarias en niveles bajos, las instituciones financieras
han tenido que ofrecer mayores beneficios a los clientes. Una de las innovaciones que ofre-
ce Coastal National Bank and Trust es la presentación de solicitudes hipotecarias en línea. A
continuación, presentamos el tiempo, en minutos, necesario para procesar la solicitud de
clientes que piden una hipoteca de tasa fija a 30 años y una hipoteca de tasa fija a 15 años.

Con un nivel de significancia 0.05, ¿sería razonable llegar a la conclusión de que el proceso
tarda menos para los clientes que solicitan una hipoteca de tasa fija a 30 años? No debemos
suponer que la distribución del tiempo sigue la distribución normal para ninguno de los grupos.

Prueba de Kruskal-Wallis:
análisis de la varianza por rangos
Prueba de Kruskal-Wallis con El procedimiento del análisis de la varianza (ANOVA) que estudiamos en el Capítulo 12 de-
menos restricciones que termina si las medias de varias poblaciones son ¡guales. Los datos eran de nivel de inter-
ANOVA. valo o de razón. Asimismo, se suponía que las poblaciones seguían la distribución normal
y que sus desviaciones estándar eran iguales. ¿Qué sucede si los datos están en una es-
cala ordinal y/o las poblaciones no siguen una distribución normal? En 1952, W. H. Kruskal
y W. A. Wallis reportaron una prueba no paramétrica que sólo requiere de datos en el nivel
ordinal (clasificados). No se necesita ninguna suposición acerca de la forma de las pobla-
Métodos no paramétricos: análisis de datos ordenados 565

ciones. La prueba se conoce como análisis en una dirección de la varianza por rangos
de Kruskal-Wallis.
Para aplicar la prueba de Kruskal-Wallis, las muestras seleccionadas de las poblaciones
deben ser independientes. Por ejemplo, si se van a seleccionar y entrevistar muestras de es-
tos grupos (ejecutivos, personal y supervisores), las respuestas de uno de los grupos (diga-
mos, los ejecutivos) no deben influir de ninguna manera en las respuestas de los demás.
Para calcular el estadístico de prueba de Kruskall-Wallis, (1) todas las muestras se
combinan, (2) los valores combinados se ordenan de menor a mayor y (3) los valores orde-
nados se reemplazan con rangos, empezando con 1 para el valor más bajo. Un ejemplo ex-
plicará el procedimiento.

Un seminario sobre administración está formado por ejecutivos de las industrias de manu-
factura, finanzas e ingeniería. Antes de programar las sesiones, el líder del seminario quiere
saber si los tres grupos tienen los mismos conocimientos sobre los principios de la adminis-
tración. Los planes son seleccionar muestras de los ejecutivos en manufactura, en finanzas
y en ingeniería y aplicarles una prueba. Si no hay ninguna diferencia en las calificaciones pa-
ra las tres distribuciones, el líder de seminario sólo va a realizar una sesión. No obstante, si
hay alguna diferencia en las calificaciones, se ofrecerán sesiones por separado.
Vamos a utilizar la prueba de Kruskall-Wallis en lugar de ANOVA porque el líder del se-
minario está dispuesto a suponer que (1) las poblaciones de las calificaciones en administra-
ción siguen la distribución normal o (2) las desviaciones estándar poblacionales son iguales.

Por lo regular, el primer paso en la prueba de hipótesis es formular las hipótesis nula y al-
ternativa.

Las distribuciones de la población de las calificaciones en administración para las


poblaciones de ejecutivos de las industrias manufacturera, de finanzas y de inge-
niería son ¡guales. No todas las distribuciones de la población son iguales.

El líder del seminario seleccionó el nivel de significancia 0.05.


La estadística de prueba que se utiliza para la prueba Kruskal-Wallis se expresa con la
letra H, y su fórmula es:

son las sumas de los rangos de las muestras respectiva-


mente.
son los tamaños de las muestras respectivamente.
es el número de observaciones combinadas para todas las muestras.
La distribución del estadístico de prueba Η se aproxima mucho a la distribución de j¡
cuadrada con k - 1 grados de libertad si todas las muestras incluyen por lo menos 5 obser-
vaciones. Por tanto, vamos a utilizar ji cuadrada para formular la regla de decisión. En es-
te ejemplo, hay tres poblaciones (una población de ejecutivos de manufactura, otra de
ejecutivos de finanzas y una tercera de ejecutivos de ingeniería. Por tanto, hay k- 1, o 3 -
1 = 2 grados de libertad. Consulte la tabla de ji cuadrada para valores críticos en el Apén-
dice I. El valor crítico para 2 grados de libertad y el nivel de significancia 0.05 es 5.991. Se
acepta H0 si el valor calculado del estadístico de prueba Η es menor o igual a 5.991. Re-
chace H0 si el valor calculado de Η es mayor a 5.991, y acepte H1
El siguiente paso es seleccionar muestras aleatorias de las tres poblaciones. Se selec-
cionaron muestras de siete ejecutivos de manufactura, ocho de finanzas y seis de ingenie-
ría. Las calificaciones obtenidas en la prueba están registradas en la Tabla 16-6.
566 Capítulo 16

TABLA 16-6 Calificaciones en la prueba Je administración para los ejecutivos Je manufactura.


Finan/as e ingeniería

Si consideramos las calificaciones como una sola población, el ejecutivo comercial con
una calificación de 35 es el menor, de modo que tiene el rango 1. Hay dos calificaciones de
38. Para resolver este empate, a cada calificación se le da un rango de 2.5, calculado me-
diante (2 + 3)/2. Este proceso continúa para todas las calificaciones. La calificación mayor es
107, y a ese ejecutivo de finanzas se le da un rango de 21. Las calificaciones, los rangos y
la suma de los rangos para cada una de las tres muestras se presentan en la Tabla 16-7.

TABLA 16-7 Calificaciones, rangos y suma de rangos para las calificaciones en la prueba de administración

Al despejar Η obtenemos

Como el valor calculado de Η (5.736) no es superior a 5.991, la hipótesis nula se acep-


ta. No hay evidencias de que exista diferencia entre los ejecutivos de manufactura, finan-
zas e ingeniería en cuanto a sus conocimientos sobre los principios administrativos. Desde
un punto de vista práctico, el líder del seminario debe considerar la posibilidad de ofrecer
sólo una sesión que incluya a los ejecutivos de todas las áreas.
El procedimiento de Kruskal-Wallis está disponible en el sistema MINITAB. A continuación,
presentamos la pantalla para el ejemplo acerca del conocimiento de los principios de adminis-
tración por parte de los ejecutivos de varias industrias. El valor calculado de Η es 5.74 y el va-
lor ρ que se reporta en la pantalla es 0.057. Todo esto coincide con nuestros primeros cálculos.
Métodos no paramétricos: análisis de datos ordenados 567

Recuerde que en el Capítulo 12 dijimos que con el fin de aplicar la técnica del análisis
de la varianza, suponemos que: (1) las poblaciones tienen una distribución normal, (2) es-
tas poblaciones tienen desviaciones estándar iguales y (3) las muestras se seleccionan en
forma independiente. Si estas suposiciones se cumplen, se aplica la distribución F de lo
contrario se debe aplicar la distribución de Kruskal-Wallis. Para destacar las similitudes en-
tre los dos enfoques, vamos a resolver el ejemplo acerca del conocimiento de los ejecuti-
vos sobre los principios administrativos utilizando la técnica ANOVA.
Para empezar, formule las hipótesis nula y alternativa para los tres grupos.

No todas las medias de tratamiento son iguales.

Para un nivel de significancia 0.05, con k - 1 = 3 - 1 =2 grados de libertad en el numera-


dor y n – k = 21 -3 = 18 grados de libertad en el denominador, el valor crítico de F es 3.55.
La regla de decisión es rechazar la hipótesis nula si el valor calculado de F es mayor de
3.55. La pantalla de Excel es la siguiente.
568 Capítulo 16

En la pantalla anterior, el valor calculado de F es 4.12, y el valor ρ es 0.0336. Nuestra


decisión es rechazar la hipótesis nula y aceptar la hipótesis alternativa. Utilizando esta prue-
ba, llegamos a la conclusión de que las medias de tratamiento no son iguales. Es decir, el
conocimiento de los principios de administración es diferente entre los tres grupos de eje-
cutivos.
Llegamos a conclusiones contradictorias acerca de la misma información. ¿Cómo pue-
de suceder esto? Si comparamos los resultados utilizando valores p, las respuestas son si-
milares. Para la prueba de Kruskal-Wallis el valor ρ fue 0.057, que es ligeramente mayor al
nivel de significancia 0.05, pero nuestra decisión fue aceptar Ho. El valor ρ utilizando ANO-
VA es 0.034, que no es mucho más alto que el valor crítico en la región de rechazo. De mo-
do que, para resumir, sólo se falló en aceptar H o con la prueba de Kruskal-Wallis, y
estuvimos en la región de rechazo al usar ANOVA. La diferencia en los valores ρ es 0.023.
Por tanto, los resultados son muy cercanos en términos de los valores p.

Autoevaluación 18-8 El gerente de bancos regionales de Statewide Financial se interesa en el índice de movimien-
tos de las cuentas de cheques personales en cuatro de las sucursales más importantes. (El
índice de movimiento es la velocidad a la que el dinero en una cuenta se deposita y se retira.
Una cuenta muy activa puede tener un índice de 300; si sólo se emiten uno o dos cheques,
el índice podría ser de 30 aproximadamente.) Los índices de rotación de las muestras selec-
cionadas de los cuatro bancos se presentan en la tabla. Utilizando el nivel 0.01 y la prueba
de Kruskal-Wallis, determine si hay alguna diferencia en los índices de movimiento de las
cuentas de cheques personales entre las cuatro sucursales.

Ejercicios
19. ¿En qué condiciones se debe utilizar la prueba de Kruskal-Wallis en lugar del análisis de la
varianza ANOVA?
20. ¿En qué condiciones se debe usar la prueba Kruskal-Wallis en lugar de la prueba de suma
de rangos de Wilcoxon?
21. Los siguientes datos de una muestra se obtuvieron de tres poblaciones que no seguían una
distribución normal.

a. Formule la hipótesis nula.


b. Utilizando el nivel de significancia 0.05 establezca la regla de decisión.
c. Calcule el valor del estadístico de prueba.
d. ¿Cuál es su decisión acerca de la hipótesis nula?
Métodos no paramétricos: análisis de datos ordenados 569

22. Los siguientes datos de una muestra se obtuvieron de tres poblaciones en las que las va-
rianzas no eran iguales, y lo que queremos es comparar las poblaciones.

a. Formule la hipótesis nula.


b. Utilizando el nivel de significancia 0.01, establezca la regla de decisión.
c. Calcule el valor del estadístico de prueba.
d. ¿Cuál es su decisión acerca de la hipótesis nula?
23. Hace poco, Davis Outboard Motors, Inc. desarrolló un proceso de pintura epóxica para pro-
tección contra la corrosión en componentes de escape. Bill Davis, el propietario, quiere de-
terminar si la duración de la pintura es igual en tres condiciones diferentes: agua salada,
agua dulce sin algas y agua dulce con una alta concentración de algas. En el laboratorio, se
realizaron pruebas de vida acelerada y se registró el número de horas que duró la pintura
antes de caerse.

Utilice la prueba de Kruskal-Wallis y el nivel de significancia 0.01 para determinar si la cali-


dad de duración de la pintura es la misma en las tres condiciones.
24. La National Turkey Association quiere experimentar con tres mezclas de alimentos diferen-
tes para pavos muy jóvenes. Como no existe ninguna experiencia en cuanto a las tres mez-
clas, no es posible hacer ninguna suposición en cuanto a la distribución de los pesos. La
prueba de Kruskal-Wallis se debe utilizar para probar si los pavos tienen el mismo peso des-
pués de comer el alimento durante cierto tiempo. A cinco pavos jóvenes se les da el alimento
A, a seis se les da el Β y a cinco más el C. Con un nivel de significancia 0.05, pruebe si los
pesos medios de los pavos que comieron el alimento A, el Β y el C son iguales.

Correlación de rangos
En el Capítulo 13, estudiamos r, el coeficiente de correlación de una muestra. Recuerde que
mide la relación entre dos variables de escala de intervalo o de razón. Por ejemplo, el coe-
570 Capítulo 16

ficiente de correlación reporta la relación entre el salario de los ejecutivos y sus años de ex-
periencia, o la relación entre el número de millas que un embarque tiene que recorrer y el
número de días que tarda en llegar a su destino.
Charles Spearman, experto estadístico británico, introdujo una medida de correlación
para los datos en el nivel ordinal. Esta medida nos permite describir la relación entre conjun-
tos de datos clasificados. Por ejemplo, a dos miembros del personal de la oficina de investi-
gación de University of the Valley se les pide que clasifiquen 10 propuestas de investigación
para propósitos de recolección de fondos. Queremos estudiar la relación entre las calificacio-
nes de los dos miembros del personal. Es decir, ¿los empleados califican las mismas pro-
puestas como las más valiosas y las menos valiosas para los fondos? El coeficiente de
correlación de rangos de Spearman, que se expresa rs, ofrece una medida de la relación.
El coeficiente de correlación de rangos se calcula mediante la fórmula siguiente.

donde:
d es la diferencia entre los rangos para cada par.
n es el número de observaciones por pares.
Al igual que el coeficiente de correlación, el coeficiente de correlación de rangos pue-
de asumir cualquier valor de -1.00 hasta 1.00. Un valor de -1.00 indica una correlación ne-
gativa perfecta y un valor de 1.00, señala una correlación positiva perfecta entre los rangos.
Una correlación de rangos de 0 indica que no hay ninguna relación entre los rangos. Las
correlaciones de rangos de -0.84 y 0.80 indican una fuerte relación, pero la primera indica
una relación inversa entre los rangos y la segunda una relación directa.

Lorrenger Plastics, Inc. recluta a estudiantes de administración de universidades y colegios


de Estados Unidos. El instructor da a cada alumno una calificación durante la entrevista en
el campus. Esta calificación es una expresión del futuro potencial y puede ser entre 0 y 15,
con la calificación más alta indicando mayor potencial. Así, los recién graduados entran a
un programa de capacitación en la planta y se les otorga otra calificación combinada con
base en las pruebas, la opinión de los líderes de grupo, los funcionarios de la capacitación,
etcétera. La calificación en el campus y las calificaciones de la capacitación en la planta se
presentan en la Tabla 16-8.

TABLA 16-8 Calificaciones en el campus y calificaciones de la capacitación en la planta para una muestra
de universitarios recién graduados

Calcule el coeficiente de correlación de rangos e interprete su valor.

Se tomó la decisión de clasificar las calificaciones de la más baja a la más alta. La califica-
ción más baja que otorgó el instructor en el campus fue 4 al alumno D, de modo que se le
dio el rango 1. La siguiente más alta fue un 7 al alumno Η y se le dio el rango 2. Ningún
Métodos no paramétricos: análisis de datos ordenados 571

alumno tuvo 8. El empate se resuelve dando a cada uno un rango de 3.5, que es el prome-
dio de los rangos 3 y 4. El mismo procedimiento se sigue cuando hay más de dos califica-
ciones ¡guales. Por ejemplo, observe que la calificación más baja en la capacitación es 3 y
se le otorga un rango de 1. Luego hay tres calificaciones de 4. El promedio de los tres ran-
gos empatados es 3, calculado mediante (2 + 3 + 4)/3. La Tabla 16-9 ilustra lo anterior, ade-
más de los cálculos necesarios para rs.

TABLA 16-9 Cálculos necesarios para rs

El valor de 0.726 indica una fuerte relación positiva entre las calificaciones del instruc-
tor en el campus y las calificaciones del personal de capacitación. Los alumnos que recibie-
ron altas calificaciones del instructor en el campus también son aquellos que recibieron
calificaciones altas por parte del personal de capacitación.

Prueba de la significancia de rs
Probando si la correlación en En el Capítulo 13, probamos la significancia de la r de Pearson. Para los datos clasificados,
la población es cero. también surge la duda sobre si la correlación en la población es realmente cero. Por ejem-
plo, en la muestra del caso anterior, sólo se incluyeron 12 alumnos de último año. En la so-
lución del ejemplo, el coeficiente de correlación de rangos de 0.726 indica una relación más
bien fuerte entre los dos conjuntos de rangos. ¿Es posible que la correlación de 0.726 se
deba a la casualidad y la correlación entre los rangos en la población sea realmente 0? Aho-
ra, vamos a realizar un prueba de significancia para responder esa pregunta.
Muestras "grandes": 10 o más. Para una muestra de 10 o más, la significancia de rs se determina calculando t mediante
el uso de la fórmula siguiente. La distribución de muestreo de rs sigue la distribución f con η -
2 grados de libertad.
572 Capítulo 16

Las hipótesis nula y alternativa son:


Ho. La correlación de rangos en la población es cero.
H1: Hay una asociación positiva entre los rangos.
La regla de decisión es rechazar H0 si el valor calculado de íes mayor a 1.812 (en el Apén-
dice F, nivel de significancia 0.05, prueba de una cola y 10 grados de libertad, calculados
así: n - 2 = 1 2 - 2 = 1 0 ) .
El valor calculado de t es 3.338:

H0 se rechaza porque el valor calculado de f de 3.338 es mayor que 1.812. H1 se acepta.


Existen evidencias de una correlación positiva entre los rangos que dio el instructor en el
campus y los rangos asignados durante la capacitación.

Autoevaluación 16-7 Una muestra de individuos que solicitan empleo en una fábrica de Davis Enterprises reveló
las calificaciones siguientes en una prueba de percepción ocular (X) y una prueba de aptitu-
des para la mecánica (Y):

(a) Calcule el coeficiente de correlación de rangos.


(b) Con un nivel de significancia 0.05, ¿podemos llegar a la conclusión de que la correlación
en la población es diferente a 0?
Ejercicios________________________________________________________________
25. Nielsen Media Research quiere probar previamente un cuestionario que se va a enviar por
correo a varios miles de telespectadores. Una pregunta comprende la calificación de estu-
diantes universitarios hombres y mujeres en cuanto a la popularidad de los programas. Las
calificaciones combinadas de un pequeño grupo de universitarios son:

a. Elabore un diagrama de dispersión, en el que las calificaciones dadas por los hombres
sean X.
b. Calcule el coeficiente de correlación de orden de rangos de Spearman. Interprete su re
sultado.
26. Far West University ofrece clases diurnas y nocturnas en administración de empresas. Una
pregunta en una encuesta entre los estudiantes es cómo perciben el prestigio relacionado
con ciertas carreras. A cada estudiante se le pide que califiquen las carreras del 1 al 8, sien-
do 1 la calificación para mayor prestigio y 8 para menor prestigio. Los resultados fueron:
Métodos no paramétricos: análisis de datos ordenados 573

Encuentre el coeficiente de correlación de rangos de Spearman.


27. Nuevos representantes de John Ford Metal and Wheel Company asisten a un breve programa
de capacitación antes de que se les asigne a una oficina regional. Al final de dicho programa,
se calificó a cada representante en cuanto a su futuro potencial en ventas. Al final del primer
año de ventas, las calificaciones se compararon con sus ventas anuales.

a. Calcule e interprete el coeficiente de correlación de rangos de Spearman.


b. En el nivel de significancia 0.05, ¿podemos llegar a la conclusión de que hay una correla
ción positiva entre las ventas anuales en dólares y la calificación en el programa de ca
pacitación?
28. East Texas State University tiene cinco becas disponibles para el equipo de basquetbol femenil.
El entrenador en jefe dio a los entrenadores asistentes los nombres de 10 jugadoras de
preparatoria con potencial para jugar en East Texas State. Cada entrenador asistente asistió a
tres partidos y luego calificó a las 10 jugadoras en cuanto a su potencial. Para explicar, el
primer entrenador calificó a Norma TidweII como la mejor jugadora entre las 10 observadas y a
Jeannie Black como la peor.

a. Determine el coeficiente de correlación de rangos de Spearman.


b. Con un nivel de significancia 0.05, ¿podemos llegar a la conclusión de que hay una
correlación positiva entre los rangos?

Resumen del capítulo


I. La prueba del signo,
A. No es necesario hacer ninguna suposición en cuanto a la forma de las dos poblaciones.
B. Se basa en muestras por pares o dependientes.
C. Para muestras pequeñas, encuentre el número de signos de + o de - y consulte la distr.-
bución binomial para el valor crítico.
574 Capítulo 16
II. La prueba de la mediana se utiliza para probar una hipótesis acerca de la mediana de una

D. Para muestras grandes (más de 10) utilice la distribución normal estándar y la fórmula si-
guiente:

población.
A. Encuentre μ y σ para una distribución binomial.
B. La distribución ζ se usa como el estadístico de prueba.
C. El valor de ζ se calcula a partir de la fórmula siguiente, donde X es el número de obser-
vaciones por encima o debajo de la mediana.

III. La prueba de rangos con signo de Wilcoxon.


A. Los datos deben estar por lo menos en una escala ordinal, y las muestras deben ser de
pendientes.
B. Los pasos para realizar la prueba son:
1. Clasificar las diferencias absolutas entre las observaciones relacionadas.
2. Aplicar el signo de las diferencias en los rangos.
3. Sumar los rangos negativos y los rangos positivos.
4. La menor de las dos sumas es el valor T calculado.
5. Consulte el Apéndice Η para el valor crítico y tome una decisión acerca de H0.
IV. La prueba de suma de rangos de Wilcoxon se utiliza para probar si dos muestras indepen-
dientes provienen de poblaciones iguales.
A. No se requiere ninguna suposición acerca de la forma de la población.
B. Para aplicar la prueba, los datos deben estar por lo menos en la escala ordinal.
C. Cada muestra debe contener por lo menos ocho observaciones.
D. Para determinar el valor de la estadística de prueba W, todos los valores de los datos se
clasifican desde el más bajo hasta el más alto como si fueran de una sola población.
E. Se determina la suma de los rangos para cada una de las dos muestras.
F. W se utiliza para calcular z, donde W es la suma de los rangos para la población 1, a
partir de

G. La distribución z se usa como el estadístico de prueba.


V. Análisis de varianza por rangos de Kruskal-Wallis.
A. No se requiere ninguna suposición acerca de la forma de las poblaciones.
B. Las muestras deben ser independientes y estar por lo menos en una escala ordinal.
C. Se utiliza para probar si varias poblaciones son ¡guales.
D. Las observaciones de las muestras se clasifican de la más pequeña a la más grande co-
mo si fueran un solo grupo.
E. El estadístico de prueba sigue la distribución de ji cuadrada, siempre y cuando haya por
lo menos 5 observaciones en cada muestra.
F. El valor del estadístico de prueba se calcula a partir de la siguiente fórmula:

VI. El coeficiente de correlación de rangos de Spearman es una medida de la relación entre dos
variables de escala ordinal.
A. Puede variar entre -1 y 1.
1. Un valor de 0 indica que no hay ninguna relación entre las variables.
2. Un valor de -1 indica una correlación negativa perfecta, y 1 es una correlación positi-
va perfecta.
B. El valor de rs se calcula a partir de la fórmula siguiente:
Métodos no paramétricos: análisis de datos ordenados 575

C. Siempre que el tamaño de la muestra sea por lo menos de 10, podemos realizar una
prueba de hipótesis utilizando la fórmula siguiente:

1. El estadístico de prueba sigue la distribución í.


2. Hay η - 2 grados de libertad.

Clave de pronunciación

Ejercicios del capítulo


29. La vicepresidente de programación de NBC terminó la programación en horario estelar pa
ra el otoño. Decidió incluir un drama acerca de un hospital pero no está segura sobre cuál
de dos posibilidades va a elegir. Tiene un programa piloto llamado "El cirujano" y otro llama
do "Terapia intensiva". Para ayudarle a tomar una decisión, se pidió a una muestra de 20 te
levidentes de todo Estados Unidos que vieran los dos programas piloto e indicaran cuál
preferían. Los resultados fueron que a 12 les gustó "El cirujano", a 7 les gustó 'Terapia in
tensiva" y uno no expresó ninguna preferencia. ¿Existe alguna preferencia por uno de los
dos programas? Utilice el nivel de significancia 0.10.
30. Suponga que Merrill Lynch quiere otorgar un contrato importante para adquirir bolígrafos de
punto fino que se van a utilizar en sus oficinas en todo el país. Dos proveedores, Bic y Pilot, pre-
sentaron las licitaciones más bajas. Para determinar la preferencia de los empleados de ofici-
na, corredores y otras personas, se realizó una prueba de preferencias personales utilizando
una muestra de 20 empleados seleccionada al azar. Se va a usar el nivel de significancia 0.05.
a. La hipótesis alternativa establece que Bic tiene la preferencia sobre Pilot, ¿la prueba de
signo que se va a realizar es de una o dos colas? Explique su respuesta.
b. Conforme cada uno de los miembros de la muestra indicó a los investigadores su pre-
ferencia, se registró un signo"+" para Bic y un "-" para el bolígrafo de punto fino de Pi-
lot. Un conteo de los signos de más reveló que 12 empleados prefieren Bic, 5 prefieren
Pilot y 3 no se decidieron. ¿Cuál es el valor de n?
c. ¿Cuál es la regla de decisión expresada en palabras?
d. ¿A qué conclusión llegó en cuanto a las preferencias por los bolígrafos? Explique su
respuesta.
31. Cornwall and Hudson, una importante tienda departamental detallista, quiere manejar una
sola marca de reproductores de CD de alta calidad. La lista se redujo a dos marcas: Sony y
Panasonic. Para tomar una decisión, se reunió un panel de 16 expertos en audio. Se toco
una pieza utilizando componentes Sony (etiquetados como A) y luego se tocó la misma pie
za con componentes Panasonic (etiquetados como B). En la tabla siguiente,"+" significa la
preferencia de una persona por los componentes Sony;"-" indica la preferencia por Pana
sonic y 0 significa que no hay ninguna preferencia.

Realice una prueba de hipótesis con un nivel de significancia 0.10 para determinar si hay algu-
na diferencia en las preferencias por ambas marcas.
576 Capítulo 16

32. La South Carolina Real Estate Association afirma que la renta mediana para los condomi-
nios de tres recámaras en un área metropolitana es más de $1 200 al mes. Para verificar lo
anterior, se seleccionó una muestra de 149 unidades. De las 149,5 se rentaban exactamen-
te en $1 200 al mes y 75 se rentaban en más de $1 200 mensuales. Con un nivel 0.05, ¿po-
demos llegar a la conclusión de que la renta mediana es más de $1 200?
a. Formule Η0 y H1
b. Establezca la regla de decisión.
c. Realice los cálculos necesarios y tome una decisión.
33. The Citrus Council quiere saber si los consumidores prefieren el jugo de naranja sin pulpa o
con pulpa. Se seleccionó una muestra aleatoria de 212 consumidores. Cada miembro de la
muestra probó un pequeño vaso sin etiqueta de un tipo de jugo y luego del otro. Doce con-
sumidores dijeron que no tenían ninguna preferencia, 40 prefirieron el jugo sin pulpa y al res
to de los consumidores les gustó más el jugo con pulpa. Con un nivel de significancia 0.05,
pruebe que las preferencias por el jugo sin pulpa y con pulpa son iguales.
34. Se va a realizar un proyecto de investigación que comprende la responsabilidad en la comu-
nidad. El objetivo es saber si las mujeres son más conscientes de la comunidad antes de
casarse o después de cinco años de matrimonio. Una prueba para medir la conciencia en la
comunidad se aplicó a una muestra de mujeres antes de casarse y la misma prueba se les
aplicó tras cinco años de matrimonio. Las calificaciones obtenidas:

Realice la prueba en el nivel 0.05. H0 es: No hay ninguna diferencia en la conciencia de la


comunidad antes y después del matrimonio. Η1: Sí hay diferencia.
35. ¿Existe alguna diferencia en los índices de divorcio anuales en condados predominante-
mente rurales entre tres regiones geográficas: el suroeste, el sureste y el noroeste? Reali-
ce la prueba con un nivel de significancia de 0.05. Los índices de divorcio anuales por 1 000
habitantes para los condados seleccionados al azar son:

36. Se van a comparar los tiempos de inactividad durante el turno diurno y el turno nocturno de
ocho horas. Un estudio reveló los minutos siguientes de tiempo de inactividad para periodos
de ocho horas.

¿Hay alguna diferencia durante el turno diurno y el turno nocturno de ocho horas? Realice
la prueba con un nivel de significancia de 0.05.
37. Investigadores sociales estudiaron la movilidad de los ejecutivos en las bolsas de valores,
en los servicios, en la construcción y en la transportación aérea. Se seleccionaron muestras
de cada una de estas industrias, y el número de veces que un ejecutivo se cambió durante
un periodo de 10 años se convirtió en un índice. Un índice de 0 indicaría que no hubo nin-
gún cambio, mientras que 100 indicaría un cambio casi constante de un lugar a otro o de
una empresa a otra. Los índices para los cuatro grupos son:
Métodos no paramétricos: análisis de datos ordenados 577

No podemos suponer que los índices siguen la distribución normal. Por tanto, debemos utilizar
una prueba no paramétrica. Usando un nivel de significancia de 0.05, determine si las cuatro
poblaciones de índices de movilidad son idénticas.
38. Una serie de preguntas sobre eventos deportivos y mundiales se hicieron a un grupo selec-
cionado de ciudadanos naturalizados jóvenes. Los resultados se convirtieron en una califi-
cación de "conocimiento". Las calificaciones fueron:

a. Determine el grado de asociación entre la clasificación de los ciudadanos en cuanto a


sus conocimientos deportivos y su clasificación en eventos mundiales.
b. Con un nivel de significancia 0.05, ¿la correlación de rangos en la población es mayor
a cero?
39. A principios de la temporada de basquetbol, 12 equipos parecían sobresalir. Se pidió a un panel
de escritores deportivos y un panel de entrenadores de basquetbol universitario que calificaran
a los 12 equipos. Sus calificaciones compuestas fueron las siguientes:

Determine la correlación entre las calificaciones de los entrenadores y de los escritores de-
portivos. Con un nivel de significancia de 0.05, ¿podemos llegar a la conclusión de que es
diferente de cero?
40. El profesor Bert Forman cree que los estudiantes que terminan los exámenes en el menor
tiempo obtienen las calificaciones más altas y aquellos que se tardan más reciben las califi-
caciones más bajas. Para verificar su sospecha, asigna una clasificación al orden en que ter-
minan los alumnos y luego califica los exámenes. Los resultados se muestran a continuación:

Convierta las calificaciones de los exámenes en un rango y encuentre el coeficiente de co-


rrelación de rangos. Con un nivel de significancia de 0.05, ¿el profesor Forman puede llegar a
la conclusión de que hay una asociación positiva entre el orden en que terminan los exámenes
y las calificaciones obtenidas?

exercises.com
41. ¿Existe una correlación entre la posición de inicio en una carrera de autos y el orden en que
llegan a la meta? Para investigar, utilice los resultados de una de las carreras más impor-
tantes, como las 500 Millas de Daytona o las 500 Millas de Indianápolis. Tendrá acceso a
los resultados de las 500 Millas de Indianápolis si visita http://www.indy500.com. Haga clic
578 Capítulo 16

en Stats, seleccione Starting Grids and Race Results y clic en el año más reciente. Ten-
drá que descargar la información en Excel o MINITAB.
a. Calcule el coeficiente de correlación de rangos entre la posición de inicio y el orden en
que llegan a la meta. Ambos son variables de escala ordinal. Interprete este valor.
b. Realice una prueba de hipótesis para determinar si la correlación de rango calculada en
la parte (a) es mayor que cero. Interprete el resultado.
42. Existe mucha información disponible en la edición en línea del Information Please Almanac.
Por ejemplo, vaya a http:winfopiease.corn, haga clic en United States, luego en States y por
último en Tabulated Data on State Governments y en Governor's salary. Hay datos acer-
ca del salario del gobernador y de las principales autoridades de cada estado. Tendrá que
descargar los datos en Excel o MINITAB.
a. Calcule el coeficiente de correlación entre las dos variables utilizando los métodos de
Pearson y Spearman. Comente sobre la diferencia entre ambas variables. (Nota: para
encontrar el coeficiente de correlación de rango, primero necesitará clasificar las dos
variables y luego utilice el software de estadística para encontrar el coeficiente de co-
rrelación de Pearson utilizando los datos clasificados.)
b. Realice una prueba de hipótesis para determinar si el coeficiente de correlación de ran-
gos es diferente a cero.

Ejercidos del capítulo


43. Consulte los datos Real Estate, que proporcionan información sobre las casas vendidas en
el área de Denver, Colorado, durante el último año.
a. Utilice una prueba no paramétrica apropiada para determinar si hay alguna diferencia
en el precio de venta típico de las casas en distintas colonias. Suponga que los precios
de venta no tienen una distribución normal. Use el nivel de significancia 0.05.
b. Combine las casas con 6 o más recámaras en un grupo y determine si hay una diferen-
cia según el número de recámaras en los precios de venta típicos. Utilice el nivel de sig-
nificancia 0.05 y suponga que la distribución de los precios de venta no es normal.
c. Suponga que la distribución de la distancia del centro de la ciudad tiene un sesgo posi-
tivo. Es decir, la suposición de normalidad no es razonable. Compare la distribución de
la distancia del centro de la ciudad de las casas que tienen alberca con aquellas que no
la tienen. ¿Podemos llegar a la conclusión de que hay una diferencia en las distribucio-
nes? Use el nivel de significancia 0.05.
44. Consulte los datos Baseball 2002, que reportan información sobre la temporada 2002 de las
Ligas Mayores de Béisbol.
a. Clasifique los equipos por el número de partidos ganados y el salario total del equipo.
Calcule el coeficiente de correlación de rangos entre las dos variables. Con un nivel de
significancia 0.01, ¿puede llegar a la conclusión de que es mayor a cero?
b. Suponga que las distribuciones de los salarios de los equipos para la Liga Americana y
la Liga Nacional no siguen la distribución normal. Realice una prueba de hipótesis para
saber si hay alguna diferencia en las dos distribuciones.
45. Consulte el conjunto de datos Wage, que proporciona información sobre los sueldos anua
les para una muestra de 100 trabajadores. También se incluyen las variables relacionadas
con la industria, los años de educación y el género de cada trabajador.
a. Realice una prueba de hipótesis en el nivel de significancia 0.05 para determinar si hay
alguna diferencia en los sueldos anuales medianos de los trabajadores sindicalizados y
no sindicalizados.
b. Realice una prueba de hipótesis con un nivel de significancia 0.01 para determinar si
existe una diferencia en los salarios anuales medios para los trabajadores en las tres
industrias. No suponga que los datos siguen una distribución normal. Compare los re-
sultados con los del Ejercicio 47 del Capítulo 12.
c. Realice una prueba de hipótesis con un nivel de significancia 0.05 para determinar si
hay alguna diferencia en los salarios anuales medios para los trabajadores en las seis
ocupaciones diferentes. No suponga que los datos siguen una distribución normal.
46. Consulte el conjunto de datos CÍA, que reporta información demográfica y económica sobre
46 países.
a. Sin suponer distribuciones normales, con un nivel de significancia 0.01, pruebe que hay
una diferencia en el porcentaje medio de la población mayor de 65 años de edad para
los países con distintos niveles de consumo de petróleo.
Métodos no paramétricos: análisis de datos ordenados 579

b. Sin suponer distribuciones normales, con un nivel de significancia 0.05, pruebe si hay
alguna diferencia en el PIB medio per cápita para los países con distintos niveles de
consumo de petróleo.

Comandos de software
1. Los comandos de MegaStat for Excel necesarios para
la prueba de suma de rangos de Wilcoxon en la página
563 son:
a. Escriba el número de personas que no llegaron pa
ra Atlanta en la columna A y para Chicago en la co
lumna B.
b. Seleccione MegaStat, Nonparametric Tests y
Wilcoxon-Mann/Whitney Test y luego presione
Enter.
c. Para el Grupo 1 utilice los datos sobre los vuelos de
Atlanta (A2:A10) y para el Grupo 2 use los datos
sobre los vuelos de Chicago (B2:B9), Haga clic en
Correct for ties y en one-tailed, luego haga clic en
OK.

2. Los comandos de MINITAB para la prueba de Kruskal-


Wallis en la página 567 son:
a. Escriba las calificaciones en la columna 1 y el códi-
go que corresponde a su grupo en la columna 2.
Llame Scores a la variable en C1 y Groups a la va
riable en C2.
b. En la barra de menú, seleccione Stat, Nonparame
tric y Kruskal-Wailis, y presione Enter.
c. Seleccione las variables Scores como la variable
Response y Groups como Factor.

3. Los comandos de Excel para el ANOVA en una direc-


ción en la página 567 son:
a. Escriba los nombres Manufacturing, Finance y Tra-
de en la primera hilera y los datos en las columnas
debajo de ellos.
b. Seleccione Tools, Data Analysis y ANOVA: Sin
gle Factor y luego haga clic en OK.
c. En ei cuadro de diálogo, el Input Range es A1:C9,
haga clic en Labels in First Row y escriba E1 co
mo el Output Range, luego haga clic en OK.
580 Capítulo 16

Capítulo 16 Respuestas a las autoevaluaciones


Métodos no paramétricos: análisis de datos ordenados 581
582 Sección 6

Repaso de los capítulos 15 y 16


Prueba de bondad de ajuste y Esta sección es un repaso de los principales conceptos y términos que presentamos en los Ca-
análisis de la tabla de pítulos 15 y 16. En el Capítulo 15 inició nuestro estudio de las pruebas no paramétricas, o sin
contingencias aplicables a distribución, analizando la prueba de bondad de ajuste deji cuadrada. Esta prueba compara un
datos de nivel nominal. conjunto de frecuencias observadas, f0. Comprende una sola característica que posee un indivi-
duo, como la educación. Si nos interesan dos características, como la relación entre el nivel edu-
cativo y el ingreso, los datos se clasifican en forma cruzada en una tabla de contingencias, y se
aplica la prueba de j¡ cuadrada para la independencia. Para estas dos pruebas, no es necesaria
ninguna suposición acerca de la forma de la distribución de la población; sólo requieren de que
los datos estén en nivel nominal.
Cinco pruebas de datos de El Capítulo 16 presentó cinco pruebas de hipótesis paramétricas y el coeficiente de correla-
nivel ordinal. ción de rangos, que requieren del nivel ordinal de las mediciones. Es decir, la información se de-
be clasificar del más bajo al más alto. Los temas analizados incluyen: la prueba del signo, la
prueba de la mediana, la prueba de suma de rangos de Wilcoxon, la prueba del análisis de la va-
rianza de Kruskal-Wallis, la prueba de rangos con signos de Wilcoxon y la prueba del coeficien-
te de correlación de rangos de Spearman.

Glosario
Capítulo 15 Capitulo 16
Distribución de ji cuadrada Distribución con estas carac- Análisis de la varianza por rangos de Kruskal-Wallis Prue-
terísticas: (1) su valor sólo puede ser positivo. (2) Hay una ba que se utiliza cuando las suposiciones para el análisis de
familia de distribuciones de ji cuadrada, una diferente para la varianza (ANOVA) paramétrico no se cumplen. Su propó-
cada grado de libertad. (3) Las distribuciones tienen un ses- sito es probar si varias poblaciones son iguales. Los datos
go positivo, pero conforme aumenta el número de grados de deben estar por lo menos en una escala ordinal.
libertad, la distribución se aproxima a la normal. Coeficiente de correlación de rangos de Spearman Medi-
Nivel de medición nominal El nivel de medición "más ba- da de la asociación entre los rangos de dos variables. Puede
jo". Estos datos sólo se pueden clasificar en categorías, y no variar entre -1.00 y 1.00. Un valor de -1.00 indica una aso-
hay un orden en particular para ellas. Por ejemplo, no hay ciación negativa perfecta entre los rangos y un valor de 1.00
ninguna diferencia por el hecho de que las categorías "hom- una asociación positiva perfecta entre los rangos. Un valor de
bre" y "mujer" se mencionen en ese orden, o que se mencio- 0 indica que no existe ninguna asociación entre los rangos.
nen las mujeres primero y los hombres en segundo lugar. Prueba del signo Prueba que se utiliza para muestras de-
Las categorías son mutuamente exclusivas; lo que significa, pendientes. La prueba del signo se usa para saber si hay
en este ejemplo, que una persona no puede ser hombre y preferencia por un marca de productos o para determinar si
mujer al mismo tiempo. el desempeño después de un experimento es mayor al que
Prueba de bondad de ajuste de ji cuadrada Prueba con se presentaba antes de éste. Asimismo, la prueba del signo
el objetivo de determinar lo bien que un conjunto de frecuen- se utiliza para probar una hipótesis acerca de la mediana.
cias observadas se ajusta a un conjunto de frecuencias es- Prueba de rangos con signos de pares combinados de Wil-
peradas. Se ocupa de una variable de escala nominal, como coxon Prueba no paramétrica que requiere de datos por lo
el color de un auto. menos en el nivel ordinal y muestras dependientes. Su propó-
Pruebas no paramétricas o sin distribución Pruebas de sito es saber si hay alguna diferencia entre dos conjuntos de
hipótesis que comprenden datos de nivel nominal y ordinal. observaciones por pares (relacionadas). Se utiliza si no se cum-
No es necesario hacer ninguna suposición acerca de la for- plen las suposiciones requeridas para la prueba t por pares.
ma de la distribución de una población; es decir, no supone- Prueba de suma de rangos de Wilcoxon Prueba no para-
mos que la población tiene una distribución normal. métrica que requiere de muestras independientes. Los datos
Tabla de contingencias Si dos características, como el gé- deben estar por lo menos en el nivel ordinal. Es decir, los da-
nero y el grado más alto obtenido para una muestra de co- tos deben permitir su clasificación. La prueba se usa cuan-
rredores de bolsa, se clasifican en forma cruzada en una ta- do no se cumplen las suposiciones para la prueba t de Stu-
bla, el resultado se conoce como tabla de contingencias. La dent paramétrica. El objetivo de la prueba es saber si dos
estadística de prueba de ji cuadrada se utiliza para investi- muestras independientes se pueden considerar como si vi-
gar si las dos características están relacionadas. nieran de la misma población.

Ejercicios
Parte I. Opción múltiple
1. Los grados de libertad de una prueba de ji cuadrada de una tabla de contingencia con 6 hi-
leras y 3 columnas son
Repaso de los capítulos 15 y 16 583

a. 18
b. 15
c. 12
d. 10
2. Al probar una relación entre dos variables nominales, ¿qué técnica estadística debemos usar?
a. Regresión.
b. Prueba de tabla de contingencia de ji cuadrada.
c. Bondad de ajuste de ji cuadrada.
d. Coeficiente de correlación de rangos de Spearman.
3. Los resultados de un análisis de ji cuadrada para una tabla de contingencia quizá no sean
válidos cuando
a. Más de 20% de las frecuencias esperadas son más de 5.
b. Más de 20% de las frecuencias esperadas son menos de 5.
c. El nivel de significancia es 0.01.
d. Las frecuencias esperadas y reales son ¡guales.
4. En la prueba de bondad de ajuste de ji cuadrada con 10 categorías y un nivel de significan-
cia de 0.05, el valor crítico de una estadística de ji cuadrada es
a. 16.919
b. 18.307
c. 15.987
d. 14.684
5. En una prueba de bondad de ajuste de ji cuadrada con una estadística de prueba de ji cua-
drada igual a 0.0,
a. El valor p es 1.0.
b. Las frecuencias esperadas y observadas para cada celda son iguales.
c. La hipótesis nula se acepta.
d. a, b y c son verdaderas.
6. El método no paramétrico usado para probar las diferencias entre dos muestras dependien-
tes es
a. La prueba de la mediana.
b. La prueba de ji cuadrada.
c. La prueba de rangos con signo de Wilcoxon.
d. La prueba de Kruskal-Wallis.
7. El coeficiente de correlación de rangos de Spearman se aplica mejor cuando
a. Los datos se miden con una escala nominal.
b. Los datos se miden con una escala ordinal.
c. Los datos se miden con una escala de intervalo.
d. Los datos se miden con una escala de razón.
8. La prueba de Kruskal-Wallis
a. Prueba si varias poblaciones son iguales.
b. Requiere de la escala nominal de medición.
c. Supone muestras dependientes.
d. Ninguno de los anteriores.

Parte II. Problemas


9. Un defensor de la reforma a las campañas políticas se interesa en la relación entre la can-
tidad de contribuciones políticas y la afiliación política. Los resultados de una encuesta alea-
toria están en la tabla siguiente.

a. ¿Cuál es la hipótesis nula?


b. ¿Qué estadístico de prueba se aplica para probar la hipótesis nula?
584 Sección 6

c. ¿Cuántos grados de libertad hay?


d. ¿Cuál es el valor crítico? Utilice el nivel de significancia 0.05.
e. ¿A qué conclusión podemos llegar con base en la prueba de hipótesis?
10. Una empresa de investigación del consumidor, como National Family Opinión (NFO), reali-
zó una encuesta para saber si los compradores de abarrotes identifican el nombre de la mar-
ca de un producto si éste no aparece en la lata, caja o empaque. Para la pregunta 1, NFO
eliminó el nombre de una sopa y dio al comprador cinco opciones: (1) Campbell's, (2) Knorr,
(3) Progresso, (4) Chalet Suzanne y (5) Heinz.
Se hacían seis preguntas similares y en el experimento participaron 1 000 comprado-
res. Existe la posibilidad de que los compradores que no están familiarizados con los distin-
tos nombres de marca y etiquetas seleccionen un nombre al azar; es decir, que adivinen el
nombre de la marca. De modo que se genera una distribución de probabilidad binomial para
saber cómo se vería una distribución aleatoria de las opciones. Estas probabilidades se
encuentran en la columna 2 de la tabla siguiente; los números esperados están en la colum-
na 3. Observe que esperamos que sólo 2 de los 1 000 compradores adivinen en forma co-
rrecta cinco de las seis preguntas. Esperamos que prácticamente ningún comprador adivine
seis de las seis preguntas. La distribución real de las respuestas está en la columna 4.

a. Formule las hipótesis nula y alternativa.


b. Realice una prueba de bondad de ajuste de ji cuadrada. ¿Los datos presentan alguna
limitación para la prueba de bondad de ajuste de ji cuadrada? Si es así, ¿cómo modifi-
caría los datos?
c. Pruebe la hipótesis.
d. Interprete los resultados de la prueba de hipótesis.

Casos
A. Century National Bank un sujeto realizar una "prueba de manejo" y da una califica-
¿Existe alguna relación entre la ubicación de la sucursal ción que indica el número de errores de manejo que se co-
bancaria y el hecho de si el cliente tiene una tarjeta de débi- metieron durante la prueba. Las calificaciones más altas
to? Con base en la información disponible, elabore una tabla indican más errores al conducir. Estos errores incluyen: no
que muestre la relación entre estas dos variables. Con un ni- detenerse por completo ante un letrero de alto total, no utili-
vel de significancia 0.05, ¿podemos llegar a la conclusión de zar las direccionales, no manejar con precaución en condi-
que hay una relación entre ¡a ubicación de la sucursal y el ciones de pavimento mojado o nevado, etcétera. Durante la
hecho de si el cliente usa una tarjeta de débito? prueba de camino, los problemas se presentan al azar y no
todos aparecen en todas las pruebas. Éstas son algunas
B. Thomas Testing Labs ventajas importantes del Rupple Driving Simulator porque
Durante un tiempo, John Thomas, propietario de Thomas los sujetos no obtienen ninguna ventaja al presentar la prue-
Testing, ha realizado trabajos bajo contrato para compañías ba varias veces.
de seguros relacionados con los conductores ebrios. Para Con el nuevo simulador de manejo, e! señor Thomas
mejorar sus capacidades de investigación, hace poco com- quiere estudiar con detalle el problema de los conductores
pró el Rupple Driving Simulator. Este dispositivo permite a ebrios. Empieza por seleccionar una muestra aleatoria de 25
Repaso de los capítulos 15 y 16 585

conductores, y pide a cada uno que se someta a la prueba


de manejo en el Rupple Driving Simulator. Se registra el nú-
mero de errores para cada conductor. Después, pide a cada
individuo del grupo que beba 3 latas de 16 onzas de cerve-
za en un periodo de 60 minutos y regresen al Rupple Driving
Simulator para someterse a otra prueba de manejo. Tam-
bién se registra el número de errores al conducir después de
beber la cerveza. La pregunta de investigación es: ¿el alco-
hol reduce la capacidad de los conductores y, por tanto, au-
menta el número de errores de manejo?
El señor Thomas cree que la distribución de las califica-
ciones en la prueba de manejo no sigue una distribución nor-
mal y, por tanto, se debe utilizar una prueba no paramétrica.
Como las observaciones son en pares, decide utilizar tanto
la prueba del signo como la prueba de rangos con signo de
Wilcoxon. Compare los resultados al utilizar estos dos pro-
cedimientos. ¿Qué prueba estadística sugiere? ¿A qué con-
clusión puede llegar acerca de los efectos de conducir en
estado de ebriedad? Escriba un breve reporte resumiendo
sus descubrimientos.
Control de calidad
estadístico

Un productor de dulces reporta en el paquete que el contenido de calorías es de 420 por


pieza de 2 onzas. Una muestra de 5 piezas de cada uno de los últimos 10 días se envía a un
análisis clínico para obtener el contenido de calorías. Con base en los datos en el ejercicio,
¿parece que en algún día el conteo de calorías está fuera de control? (Véase el Ejercicio 23 y
la Meta 2.)
Control de calidad estadístico 587

Introducción
A lo largo de este libro hemos presentado muchas aplicaciones de la prueba de hipótesis.
En el Capítulo 10 describimos los métodos para probar una hipótesis respecto a un valor
poblacional único. En el Capítulo 11 estudiamos los métodos para probar una hipótesis sobre
dos poblaciones. En este capítulo presentamos otra aplicación de la prueba de hipótesis un
tanto diferente, llamado el control estadístico de proceso o SPC (por sus siglas en inglés).
El control estadístico de proceso es una recopilación de estrategias, técnicas y
acciones que toma una organización para asegurarse que fabrica un producto de calidad o
proporciona un servicio de calidad. Empieza con la etapa de planeación del producto, que
es cuando especificamos los atributos del producto o servicio y continúa a lo largo de la
etapa de producción. Cada atributo durante el proceso contribuye a la calidad general del
producto. A fin de usar con efectividad el control de calidad, se deben desarrollar atributos
y especificaciones mensurables contra las cuales se puedan comparar los atributos reales
del producto o servicio.

Una breve historia del control de calidad


Antes del siglo xx, la industria estadounidense se caracterizaba en gran medida por
pequeñas tiendas que hacían productos relativamente sencillos, como velas o muebles. En
estas pequeñas tiendas, el trabajador por lo general era un artesano en quien recaía por
completo la responsabilidad de la calidad del trabajo. El trabajador podía estar seguro de
tener un producto de calidad a través de la selección personal del material, una manufac-
tura idónea y un ajuste selectivo.
A principios de 1900 surgieron las fábricas, donde las personas con capacitación limitada
se formaban en largas filas de ensamble. Los productos se volvieron mucho más complejos.
El trabajador individual ya no tenía un control total sobre la calidad del producto. Un equipo
de semiprofesionales, por lo general llamado Departamento de Inspección, se convirtió en
el responsable de la calidad del producto. La responsabilidad de la calidad por lo general
se cubría mediante una inspección del 100% de todas las características importantes. Si se
observaba alguna discrepancia, el supervisor del departamento de producción se encargaba
de este problema. En esencia, la calidad se obtenía "inspeccionando la calidad del producto".
Durante la década de 1920, el Dr. Walter A. Shewhart, de Bell Telephone Laboratories,
desarrolló los conceptos de control estadístico de la calidad. Introdujo el concepto de "con-
trolar" la calidad de un producto mientras se producía, en vez de inspeccionar la calidad del
producto después de fabricarse. Con la finalidad de controlar la calidad, Shewhart desarro-
lló técnicas de representación gráfica a fin de controlar las operaciones de fabricación en
proceso. Además, introdujo el concepto de inspección de muestra estadística para estimar
la calidad de un artículo mientras se producía. Con ello sustituyó el antiguo método de
inspeccionar cada parte después de que éste se terminó en la operación de producción.
En realidad, el control estadístico de la calidad obtuvo reconocimiento durante la Segun-
da Guerra Mundial. La necesidad de artículos bélicos de producción masiva, como visores
de bombardeo, radar preciso y demás equipo electrónico, al costo más bajo posible aceleró
el uso del muestreo estadístico y las tablas de control de calidad. A partir de la Segunda
Guerra Mundial, estas técnicas estadísticas se refinaron y perfeccionaron. El uso de compu-
tadoras durante la última década también amplió la aplicación de las mismas.
La Segunda Guerra Mundial casi destruyó la capacidad de producción japonesa. En vez
de equipar con herramientas nuevas sus antiguos métodos de producción, los japoneses con-
siguieron el apoyo del ahora fallecido Dr. W. Edwards Deming, del Departamento de Agricul-
tura de Estados Unidos, para que les ayudara a desarrollar un plan general. En una serie de
seminarios con planeadores japoneses, el doctor subrayó la filosofía que ahora se conoce
como los 14 puntos de Deming. Estos 14 puntos se enumeran en la siguiente página. Enfatizó
que la calidad se origina al mejorar el proceso, no la inspección, y que los clientes determinan
la calidad. A través de investigaciones de mercado, el fabricante debe tener la capacidad de
anticiparse a las necesidades de los clientes. La gerencia general tiene la responsabili-
dad de hacer mejoras a largo plazo. Otro de sus puntos, que los japoneses defienden en gran
medida, es que cada miembro de la compañía debe contribuir a la mejora a largo plazo. A fin
de lograr esta mejora, se necesita de estudios y capacitación continuos.
588 Capítulo 17

Deming tenía ciertas ¡deas que no concordaban con las filosofías administrativas con-
temporáneas de Estados Unidos. Dos áreas donde las ideas de Deming diferían de la
filosofía administrativa estadounidense eran :as cuotas de producción y las clasificaciones
de excelencia. El doctor sostenía que estas dos prácticas, comunes en Estados Unidos, no
son productivas y deben eliminarse. También señaló que los gerentes estadounidenses se
interesan principalmente en las buenas noticias. Sin embargo, las buenas noticias no ofre-
cen la oportunidad de mejorar. Por otro lado, las malas noticias abren la puerta a nuevos
productos y permite que la compañía mejore.
A continuación se enumeran de manera condensada los 14 puntos del doctor Deming.
Él afirmaba en forma categórica que los 14 puntos debían adoptarse como un paquete a fin
de que tuvieran éxito. El tema implícito era la cooperación, el trabajo en equipo y la creen-
cia de que los trabajadores quieren que su trabajo sea de calidad.

1. Crear una constancia de propósito para la mejora continua de productos y servicio


a la sociedad.
2. Adoptar una filosofía con la cual ya no podemos vivir cómodamente si se aceptan
en forma generalizada niveles de demoras, errores, materiales defectuosos y mano
de obra deficiente.
3. Eliminar la necesidad de una inspección masiva como la forma de lograr la calidad.
Más bien, alcanzar la calidad mediante la manufactura correcta del producto desde
el principio.
4. Terminar con la práctica de asignar un negocio sólo basándose en el precio. En
lugar de ello, requerir medidas de calidad significativas junto con el precio.
5. Mejorar de manera constante y para siempre cada proceso de planeación, produc-
ción y servicio.
6. Instituir métodos de capacitación modernos en el trabajo para todos los empleados,
incluso gerentes. Esto conducirá a aprovechar mejor cada empleado.
7. Adoptar e instituir un liderazgo enfocado a ayudar para que las personas hagan
mejor su trabajo.
8. Fomentar una comunicación bidireccional efectiva y otros medios para ahuyentar el
miedo en la organización de modo que todos puedan trabajar con mayor efectividad
y productividad en la compañía.
9. Romper las barreras entre los departamentos y las áreas de personal.
10. Eliminar el uso de lemas, carteles e incitaciones exigiendo cero defectos y nuevos
niveles de productividad sin proporcionar los métodos.
11. Eliminar los estándares de trabajo que dicten cuotas para la mano de obra y obje-
tivos numéricos para el personal administrativo. Sustituir los apoyos y el liderazgo
conveniente a fin de lograr una mejora continua en la calidad y productividad.
12. Eliminar las barreras que roban a los trabajadores por jornada y al personal adminis-
trativo su derecho a enorgullecerse del fruto de su trabajo.
13. Instituir un programa educativo riguroso y fomentar la superación personal para
todos. Lo que una organización necesita es gente adecuada y que se supera con la
educación. El ascenso a un puesto competitivo se basará en los conocimientos.
14. Definir con claridad el compromiso permanente de la gerencia a siempre mejorar la
calidad y productividad a fin de implementar todos estos principios.

Los 14 puntos de Deming no ignoraron el control estadístico de la calidad, que con fre-
cuencia se abrevia como SQC (por sus siglas en inglés). El objetivo del control estadístico
de la calidad es supervisar la producción a través de muchas etapas de la manufactura.
Utilizamos las herramientas de control estadístico de la calidad, como las gráficas de barras
X y R, para seguir de cerca la calidad de muchos procesos y servicios. Las tablas de con-
trol nos permiten identificar en qué momento está "fuera de control" un proceso o servicio,
es decir, cuando se alcanza el punto en el tiempo donde se produce un número excesivo
de unidades defectuosas.
Control de calidad estadístico 589

Desde finales de la década de 1980, el


interés en la calidad se aceleró de manera
drástica en Estados Unidos. Encienda la tele-
visión y vea los comerciales que patrocinan
Ford, Nissan y GM para que compruebe cómo
enfatizan el control de calidad en la línea de
ensamble. Ahora es un tema "de moda" en
todas las facetas administrativas. V. Daniel
Hunt, presidente de Technology Research
Corporation, escribió en su libro Quality in
America que hoy en día, en Estados Unidos, de
20% al 25% del costo de producción se gasta
en encontrar y corregir errores. Más aún,
agregó que el costo adicional incurrido en
reparar o reemplazar productos defectuosos
en el campo ocasiona que el costo total de
productos de baja calidad sea de casi 30%. En Japón, indica, ¡este costo es de 3%!
En años recientes, se motivó a las compañías para mejorar la calidad mediante el reto
de obtener el reconocimiento por sus logros de calidad. El Malcolm Baldrige National
Quality Award, establecido en 1988, se otorga cada año a empresas estadounidenses que
demostraron una excelencia en la ejecución y administración de calidad. Las categorías de
premios incluyen fabricación, servicios, pequeñas empresas, cuidado de la salud y edu-
cación. Entre los ganadores de años anteriores se encuentran Xerox, IBM, University of
Wisconsin-Stout, Ritz-Carlton Hotel Corporation, Federal Express y Cadillac. Los ganadores
del premio en 2002 fueron: Motorola Inc., Commercial, Government, and Industrial
Solutions Sector, Schaumburg, Illinois; Branch-Smith Printing División, Fort Worth, Texas; y
SSM Health Care, un sistema de cuidados de la salud no lucrativo establecido en St. Louis,
Missouri. Motorola recibió el del sector productivo, Branch-Smith en la categoría de la
pequeña empresa y SSM en la categoría del cuidado de la salud. En el sitio Web
http://www.quaSity.nist.gov puede obtener más información sobre los ganadores de diferen-
tes años.

Six Sigma. Es un programa típico diseñado para mejorar la calidad y el desempeño en la


compañía. Combina la metodología, herramientas, software y educación para presentar un
planteamiento totalmente integrado para eliminar cualquier posibilidad de desperdicio y
mejorar la capacidad del proceso. El planteamiento requiere definir la función de proceso,
identificar, recopilar y analizar datos, crear y consolidar información en conocimientos útiles
y la comunicación y aplicación de dichos conocimientos para reducir la variación.
Six Sigma obtiene su nombre de la distribución normal. El tér-
mino Sigma significa desviación estándar, y "más o menos" tres
desviaciones estándar dan un rango total de seis desviaciones
estándar. Así que Six Sigma significa tener no más de 3.4 defec-
tos por millón de oportunidades en cualquier proceso, producto o
servicio. A través de la aplicación del pensamiento estadístico,
deja al descubierto la relación entre la variación y su efecto en el
desperdicio, el costo operativo, el tiempo del ciclo, las ganancias
y la satisfacción del cliente.

General Electric, Motorola y AlliedSignal son compañías


importantes que han usado los métodos Six Sigma y logrado una
mejora de calidad significativa y ahorro en el costo. Allied Signal
ahorró $1.5 mil millones a través de Six Sigma y quiere recortar
otros $500 millones. La disminución del desperdicio ayuda a que
AlliedSignal aumente los márgenes de ganancia. "Six Sigma es
crucial para nosotros", dice Lawrence Bossidy, presidente de
AlliedSignal. "Estamos intentando expandirlo más allá de la pro-
590 Capítulo 17

ducción, y vamos por buen camino. En la actualidad, en los negocios necesitas del creci-
miento y la productividad."
¿Qué es calidad? No existe una definición común de calidad. Algunas definiciones son:
de Westinghouse, "la calidad total es el desempeño de liderazgo a fin de cumplir con los
requisitos del cliente haciendo lo correcto desde el principio". De AT&T, "Calidad es cumplir
con las expectativas del cliente". La historiadora Barbara W. Tuchman dice, "Calidad es
lograr o alcanzar el estándar más alto en comparación con estar satisfecho con lo mal
hecho o fraudulento".

Causas de la variación
No hay dos productos exactamente iguales. Siempre existe alguna variación. El peso de
cada Quarter Pounder de McDonald's no es exactamente de 0.25 de libra. Algunas pesan
más de 0.25 de libra, otras menos. El tiempo estándar para que el autobús TARTA (Toledo
Área Regional Transit Authority) haga su recorrido desde el centro de Toledo, Ohio, a
Perrysburg es de 25 minutos. Sin embargo, cada corrida no tarda exactamente 25 minutos.
Algunas tardan más. En ocasiones, el conductor de TARTA debe esperar en Perrysburg
antes de regresar a Toledo. En algunos casos existe una razón para que se retrase el auto-
bús, por ejemplo, un accidente en la autopista o una tormenta de nieve. En otros, el con-
ductor tal vez no "llega" a las luces verdes o el tráfico es extrañamente pesado y lento sin
motivo aparente. Existen dos fuentes de variación generales en un proceso: casualidad y
asignable.

VARIACIÓN POR AZAR. Variación que por naturaleza es azarosa. Este tipo de variación
no se puede eliminar por completo a menos que ocurra un cambio importante en el
equipo o material que se utiliza en el proceso.

Una fricción interna en la máquina, ligeras variaciones en el material o condiciones del


proceso (como la temperatura del molde que se usa para hacer las botellas de vidrio),
condiciones atmosféricas (como temperatura, humedad y el contenido de polvo en el aire)
y vibraciones transmitidas a una máquina desde un elevador de carga son algunos ejem-
plos de fuentes de variación de casualidad.
Si el orificio que se perforó en una pieza de acero es demasiado grande debido a que
el taladro tenía una broca sin filo, se puede afilar o colocar una nueva. Un operador que
continuamente ajusta la máquina de manera incorrecta se puede sustituir o cambiar. Si el
rollo de acero que se va a usar en el proceso no tiene la resistencia correcta a la tensión,
se puede rechazar. Los anteriores son ejemplos de variaciones asignables.

VARIACIÓN ASIGNABLE, Variación que no es azarosa. Se puede eliminar o reducir


investigando el problema y encontrando la causa.

Existen varias razones a las que debemos poner atención respecto a la variación.

1. Cambiará la forma, dispersión y ubicación central de la distribución de la característica


del producto que se mide.
2. La variación asignable por lo general se corrige, mientras que la variación azarosa
usualmente no se puede corregir o estabilizar de manera económica.

Diagramas de diagnóstico
Existe una variedad de técnicas de diagnóstico para investigar los problemas de calidad.
Dos de las técnicas más relevantes son los diagramas de Pareto y los diagramas de
esqueleto de pez.
Control de calidad estadístico 591

Diagramas de Pareto
El análisis de Pareto es una técnica mediante la cual se ordena el número y tipo de defec-
tos que se presentan en un producto o servicio. El diagrama recibe el nombre de un cientí-
fico italiano del siglo xix, Vilfredo Pareto, quien observó que la mayoría de la "actividad" en
un proceso se debe a unos cuantos "factores". Su concepto, con frecuencia llamado la regla
80-20, es que el 80% de la actividad es a causa del 20% de los factores. Al concentrarse
en el 20% de los factores, los gerentes pueden atacar el 80% del problema. Por ejemplo, el
de Emily's Family Restaurant, ubicado en el cruce de las interestatales 75 y 70, es investi-
gar las "quejas del cliente". Las cinco quejas que se escucharon con más frecuencia son:
descortesía en el servicio, comida fría, larga espera para que le asignen mesa, pocas
opciones en el menú y niños indisciplinados. Suponga que la descortesía en el servicio fue
la más mencionada y en segundo lugar la comida fría. El total de estos dos factores repre-
senta más de 85% de las quejas y, por consiguiente, son las dos que deben atenderse
primero ya que con ello las quejas disminuirán en gran medida.
Para desarrollar un diagrama de Pareto, empezamos por ordenar el tipo de defectos.
Después, clasificamos los defectos en términos de frecuencia de ocurrencia de mayor a
menor. Por último, hacemos una tabla de barras verticales donde la altura de las barras co-
rresponden a la frecuencia de cada defecto. El siguiente ejemplo explica estas ideas.

La administradora municipal de Grove City, Utah, está preocupada por el uso del agua, en
particular en los hogares unifamiliares. A ella le gustaría desarrollar un plan para reducir el
consumo de agua en Grove City. Para su investigación, selecciona una muestra de 100
hogares y determina el uso típico de agua al día para diversos propósitos. Éstos son los
resultados de la muestra.

¿Cuál es el área con el mayor consumo? ¿Dónde debe concentrar sus esfuerzos a fin de
reducir el consumo de agua?

Un diagrama de Pareto sirve para identificar las principales áreas de consumo de agua y
enfocarse en aquellas áreas donde se puede lograr la mayor reducción. El primer paso es
convertir cada una de las actividades en un porcentaje y después ordenarlas de mayor a
menor. El total del consumo de agua al día es de 339.3 galones, que se encuentra al
totalizar los galones utilizados en las ocho actividades. La actividad con el mayor uso es
592 Capítulo 17

regar el césped. Corresponde a 143.7 galones de agua al día, o 42.4% de la cantidad de


agua usada. La siguiente categoría más grande es el baño personal, que representa el
31.4% del agua usada. Las dos actividades representan el 73.8% del consumo de agua.
Para trazar un diagrama de Pareto, empezamos por asignar la escala del número de
galones usados sobre el eje vertical izquierdo y el porcentaje correspondiente en el eje ver-
tical derecho. Enseguida, trazamos una barra vertical donde la altura de la barra corres-
ponda a la actividad con el mayor número de ocurrencias. En el ejemplo de Grove City,
hacemos una barra vertical para la actividad de regar el césped a una altura de 143.7
galones. (Le llamamos el conteo.) Continuamos con este procedimiento para las demás
actividades, como se muestra en el resultado de MINITAB en la Gráfica 17-1.

GRÁFICA 17-1 Diagrama de Pareto para uso del agua en Grove City, Utah

Abajo del diagrama enumeramos las actividades, su frecuencia de ocurrencia y el por-


centaje de tiempo en que se realiza cada actividad. En el último renglón, enumeramos el
porcentaje acumulado. Este renglón acumulado nos permitirá determinar con rapidez qué
serie de actividades representa la mayoría del consumo de agua. Estos porcentajes acu-
mulados se grafican sobre las barras verticales. En el ejemplo de Grove City, las activi-
dades de regar el césped, baño personal y alberca representan 82.1% del consumo de
agua. La administradora municipal puede obtener la ganancia máxima si logra reducir el uso
del agua en estas tres áreas.

Diagrama de causa y efecto o diagrama de esqueleto de pez


Otra tabla de diagnóstico es un diagrama de causa y efecto o un diagrama de esquele-
to de pez. Se le llama diagrama de causa y efecto para subrayar la relación entre un efecto
y una serie de posibles causas que generen el efecto particular. Este diagrama ayuda a
organizar las ideas e identificar las relaciones. Es una herramienta que fomenta una abierta
"lluvia" de ideas. Al identificar estas relaciones, podemos determinar los factores que son la
causa de la variabilidad en nuestro proceso. El nombre de esqueleto de pez se debe a la
forma en que las varias causas y efectos se organizan en el diagrama. El efecto, por lo ge-
neral, es un problema particular, o quizá un objetivo, y se presenta a la derecha del diagra-
ma. Las causas principales se enumeran a la izquierda del diagrama.
El planteamiento usual para un diagrama de esqueleto de pez es tomar en conside-
ración cuatro áreas del problema, principalmente métodos, materiales, equipo y personal.
El problema, o efecto, es la cabeza del pez. Vea la Gráfica 17-2.
Control de calidad estadístico 593

GRÁFICA 1 7 - 2 Diagrama de esqueleto de pez

Bajo cada una de las causas posibles se encuentran las subcausas que se identifican
e investigan. Las subcausas son factores que quizá estén provocando el efecto particular.
Se recopila la información acerca del problema y con ella se llena el diagrama de esquele-
to de pez. Se investiga cada una de las subcausas y se eliminan las que no son impor-
tantes, hasta identificar la verdadera causa del problema.
La Gráfica 17-3 presenta los detalles de un diagrama de esqueleto de pez. Suponga
que hace poco, un restaurante familiar, como los que hay a lo largo de una carretera, recibe
quejas de los clientes referentes a que les sirven la comida fría. Observe que cada sub-
causa aparece en la lista como una suposición. Cada una de estas subcausas se deben
investigar a fin de encontrar el verdadero problema respecto de la comida fría. En un dia-
grama de esqueleto de pez, no hay ponderación de las subcausas.

GRAFICA 17-3 Diagrama de esqueleto de pez para la investigación de quejas de comida fría
en un restaurante

Autoevaluación 17-1 La Rouse Home, en Chicago, es una institución de salud mental. Hace poco, hubo quejas
sobre las condiciones en el hogar. Al administrador le gustaría usar un diagrama de Pareto
para investigar la situación. Cuando un paciente o el familiar de un paciente se quejan, se le
pide que llene un formato de quejas. El siguiente es un resumen de los formatos de quejas
que se recibieron durante los últimos 12 meses.
594 Capítulo 17

Desarrolle un diagrama de Pareto. ¿Cuáles son las quejas que usted le sugeriría al adminis-
trador resolviera primero a fin de lograr la mejora más significativa?

Ejercicios
1. Tom Sharkey es el propietario de Sharkey Chevy, Buick, GM. A principios de año, Tom insti-
tuyó un programa de opinión de los clientes a fin de encontrar cómo mejorar el servicio. Una
semana después de que se realizó el servicio, el asistente administrativo de Tom llamó al
cliente para preguntarle si el servicio fue satisfactorio y cómo se podría mejorar. El siguiente
es un resumen de las quejas durante los primeros seis meses. Desarrolle un diagrama de
Pareto. ¿Cuáles son las quejas que usted le sugeriría a Tom resolviera a fin de mejorar la
calidad del servicio?

2. En un taller de reparaciones se descubrió que, de 110 motores de diesel probados, 9 tenían


bombas de agua con fuga, 15 tenían cilindros defectuosos, 4 tenían problemas de encendi-
do, 52 tenían fuga de aceite y 30 tenían bloques agrietados. Trace un diagrama de Pareto
para identificar el problema clave en los motores.

Objetivo y tipos de diagramas de control de calidad


Las tablas de control identifican en qué
momento las causas asignables de variación
o cambios entran en el proceso. Por ejemplo,
Wheeling Company produce ventanas de alu-
minio con cubierta de vinyl para colocarlas en
casas antiguas. El recubrimiento de vinyl
debe tener un grosor entre ciertos límites. Si
el recubrimiento es demasiado grueso, provo-
cará que las ventanas se atoren. Por otro
lado, si es demasiado delgado, la ventana no
sellará adecuadamente. El mecanismo que
determina la cantidad del recubrimiento colo-
cado en cada ventana se desgasta y empieza
a provocar que el recubrimiento sea demasia-
do grueso. Por lo tanto, ocurrió un cambio en
el proceso. Las tablas de control sirven para
detectar el cambio en las condiciones del pro-
ceso. Es importante saber cuándo se presentan los cambios en el proceso, de modo que
se pueda identificar y corregir la causa antes de producir una cantidad importante de artícu-
los inaceptables.
Las tablas de control se pueden comparar con la pizarra en un partido de béisbol. Al
ver la pizarra, los aficionados, entrenadores y jugadores pueden decir qué equipo va ganan-
do el partido. Sin embargo, la pizarra no puede hacer nada para que gane o pierda el juego.
Las tablas de control ofrecen una función similar. Estas tablas indican a los trabajadores,
Control de calidad estadístico 595

líderes de grupo, ingenieros de control de calidad, supervisor de producción y gerencia si la


producción de la parte o el servicio está "dentro de control" o "fuera de control". Si se
encuentra "fuera de control", la tabla de control no solucionará la situación; simplemente es
un trozo de papel con cifras y puntos en éste. En cambio, la persona responsable ajustará
la máquina que produce la parte o hará lo necesario para volver a tener la producción "den-
tro de control".
Existen dos tipos de diagramas de control. Un diagrama de control de variables
describe de manera gráfica las mediciones, como la cantidad de refresco de cola en una
botella de dos litros o el diámetro exterior de una pieza de tubería. Una tabla de control de
variables requiere del intervalo o la escala de razón de medición. Un diagrama de control
de atributos clasifica un producto o servicio como aceptable o inaceptable. Se basa en la
escala de medición nominal. A los infantes de Marina estacionados en Camp Lejuene se les
pide que califiquen como aceptables o inaceptables los alimentos que les sirven; los prés-
tamos bancarios se pagan o se dejan de pagar.

Diagramas de control para variables


Para desarrollar diagramas de control para variables, dependemos de la teoría de muestreo
que analizamos en relación con el teorema de límite central del Capítulo 8. Suponga que
cada hora se selecciona una muestra de cinco piezas del proceso de producción y la media
de cada muestra calculada. Las medias muéstrales son y así sucesivamente. La
media de estas medias muéstrales se denota como Usamos k para indicar el número de
medias muéstrales. La media general o gran media se encuentra por medio de:

El error estándar de la distribución de las medias muéstrales se designa mediante sx-. Se


encuentra con:

Estas relaciones permiten que se establezcan los límites alrededor de las medias
muéstrales a fin de señalar qué tanta variación se puede esperar de una muestra de tamaño
determinado. Estos límites esperados se llaman el límite de control superior (UCL, por
sus siglas en inglés) y el límite de control inferior (LCL, por sus siglas en inglés). Un ejem-
plo explicará el uso de los límites de control y cómo se determinan los límites.

Statistical Software, Inc., ofrece un número de larga distancia sin costo donde los clientes
pueden llamar todos los días de 7 a.m. a 11 p.m., en referencia a problemas relacionados
con el uso de sus productos. Es imposible que un representante técnico conteste de inme-
diato cada llamada, pero es importante que los clientes no esperen demasiado en la línea
antes de que alguien les conteste. Los clientes se molestan cuando escuchan demasiadas
veces el mensaje "Su llamada es muy importante para nosotros. En breve le contestará un
representante". Para entender su proceso, Statistical Software decidió desarrollar una tabla
de control que describa el tiempo total desde el momento en que se recibe una llamada
hasta que el representante contesta la pregunta del cliente. Ayer, se hizo una muestra de
cinco llamadas cada hora durante las 16 horas de operación. Esta información aparece en
la página a continuación, en los minutos transcurridos hasta que se contesta una llamada.
596 Capítulo 17

Con base en esta información, desarrolle una tabla de control para la duración media
de la llamada. ¿Parece existir una tendencia en las horas de llamada? ¿Existe algún perio-
do donde parece que los clientes esperan más que otros?

Una tabla de la media tiene dos límites, un límite de control superior (UCL) y un límite de
control inferior (LCL). Estos límites de control superior e inferior se calculan mediante:

donde s es un cálculo estimado de la desviación estándar poblacional, Observe que en


el cálculo de los límites de control superior e inferior, aparece el número 3. Representa el
99.74% de los límites de confianza. Los límites con frecuencia se llaman los límites de
sigma 3. Sin embargo, se pueden usar otros niveles de confianza (como 90% o 95%).
Esta aplicación se desarrolló antes del extenso acceso a las computadoras y era difícil
calcular las desviaciones estándar. En vez de calcular la desviación estándar de cada
muestra como una medida de variación, lo más sencillo es usar el rango. Para muestras de
tamaño fijo, existe una relación constante entre el rango y la desviación estándar, de modo
que podemos usar las siguientes fórmulas Dará determinar 99.74% de los límites de control
para la media. Se puede demostrar que el termino de la fórmula (17-3) en la fórmu-
la a continuación equivale a

donde:
es una constante que se usa para calcular los límites de control superior e inferior.
Se basa en el rango promedio, Los factores para varios tamaños de la muestra
se encuentran en el Apéndice I. (Nota: en esta tabla, n se refiere al numero de ele-
mentos de la muestra.) Una porción del Apéndice I se presenta a continuación.
Para localizar el factor A, de este problema, encuentre el tamaño de la muestra
para n en el margen izquierdo. Es 5. Después pase horizontalmente a la columna
A y lea el factor. Es 0.577.
Control de calidad estadístico 597

es la media de las medias muéstrales, que se calculan mediante donde k es


el numero de muestras seleccionadas. En este problema, se toma una muestra de
5 observaciones cada hora durante 16 horas, de modo que k= 16.
es la media de los rangos muéstrales. Recuerde que el rango es la
diferencia entre el mayor y menor valor en cada muestra. Describe la variabilidad
que ocurre en esa muestra en particular. (Véase la Tabla 17-1).

TABLA 17-1 Duración de 16 muestras de cinco sesiones de ayuda

El renglón central de la tabla es Es 9.4125 minutos, que se encuentra dividiendo


150.60/16. La media de los rangos es 6.375 minutos, obtenida por dividir 102/16. Por lo
tanto, el límite de control superior de la gráfica de barras X es:

El límite de control inferior de la gráfica de barras X es:

y las medias muéstrales se presentan en la Tabla 17-4. La media, es


9.4125 minutos, el límite de control superior se encuentra en 13.0909 minutos y el límite de
control inferior está en 5.7341. Existe cierta variación en la duración de las llamadas, pero
todas las medias muéstrales están dentro de los límites de control. Por tanto, con base en
las 16 muestras de 5 llamadas, llegamos a la conclusión de que el 99.74% del tiempo de
duración media de una muestra de 5 llamadas será entre 5.7341 minutos y 13.0909 minutos.
598 Capítulo 17

GRÁFICA 17-4 Diagrama de control para la duración media de llamadas de los clientes a
Statistical Software, Inc.

Como la teoría estadística se basa en la normalidad de las muestras grandes, las tablas
de control deben basarse en un proceso estable; es decir, una muestra bastante grande,
que se toma durante un periodo largo. Una regla básica es diseñar la tabla después de ele-
gir al menos 25 muestras.

Diagrama de rangos
Además de la ubicación central en una muestra, también debemos seguir de cerca la can-
tidad de variación de una muestra a otra. Un diagrama de rangos indica la variación en los
rangos muéstrales. Si los puntos que representan los rangos caen entre los límites superior
e inferior, se llega a la conclusión de que la operación está dentro de control. De acuerdo
con el azar, casi 997 de 1 000 veces el rango de las muestras caerá dentro de los límites.
Si el rango cae por arriba de los límites, llegamos a la conclusión de que una causa asig-
nable afectó la operación y es necesario ajustar el proceso. ¿Por qué no nos interesa tanto
el límite de control inferior del rango? Para muestras pequeñas, el límite inferior con fre-
cuencia es cero. De hecho, para cualquier muestra de seis o menos, el límite de control infe-
rior es 0. Si el rango es cero, entonces por lógica todas las partes son iguales y no hay
problema con la variabilidad de la operación.
Los límites de control superior e inferior de la tabla de rangos se determinan a partir de
las siguientes ecuaciones.

Los valores para D3 y D4, que reflejan los límites σ(sigma) usuales para varios tamaños de
la muestra, se encuentran en el Apéndice I o en la tabla de la página 726.

El tiempo que los clientes de Statistical Software, Inc. esperaron desde que les tomaron la
llamada hasta que un representante técnico contestó su pregunta o solucionó su problema
se presenta en la Tabla 17-1. Desarrolle un diagrama de control para el rango. ¿Parece exis-
tir algún momento en el que la variación en la operación es demasiada?

El primer paso es encontrar la media de los rangos muéstrales. El rango para las cinco lla-
madas en la muestra de las 7 a.m. es de 11 minutos. La llamada seleccionada con mayor
duración a esa hora fue de 15 minutos y la más breve fue de 4 minutos; la diferencia en la
duración es de 11 minutos. A las 8 a.m., el rango es de 4 minutos. El total de los 16 rangos
es 102 minutos, de modo que el rango promedio es 6.375 minutos, que se obtiene median-
En referencia al Apéndice I o la tabla parcial de la página 597, son
0 y 2.115, respectivamente. Los límites de control superior e inferior son 0 y 13.4831.
Control de calidad estadístico 599

En la Gráfica 17-5 se presenta el diagrama de rangos con los 16 rangos muéstrales traza-
dos. Este diagrama indica que todos los rangos están dentro de los límites de control. Por
consiguiente, llegamos a la conclusión de que la variación en el tiempo para atender las lla-
madas de los clientes está dentro de los límites normales, es decir, "dentro de control".
Desde luego que debemos determinar los límites de control basados en una serie de datos
y después aplicándolos para evaluar datos futuros, no los datos que ya conocemos.

GRÁFICA 17-5 Diagrama de control para rangos de duración de las llamadas de los clientes a Statistical
Software, Inc.

MINITAB trazará un diagrama de control para la media y el rango. A continuación se


presenta el resultado del ejemplo de Statistical Software. Los datos están en la Tabla 17-1.
Las diferencias mínimas en los límites de control se deben al redondeo.

Algunas situaciones dentro Y fuera de control


Enseguida se presentan tres explicaciones de los procesos dentro y fuera de control.

1. El diagrama de la media y el de rangos indican en conjunto que el proceso está dentro


de control. Observe que las medias y los rangos muéstrales se agrupan en las líneas
600 Capítulo 17

centrales. Algunos están arriba y otros abajo de la línea central, lo cual demuestra que
el proceso es bastante estable. Es decir, no existe una tendencia visible para que las
medias y los rangos se muevan hacia afuera de las áreas de control.

Todo está bien.

2. Las medias muéstrales están dentro de control, pero los rangos de las dos últimas
muestras se encuentran fuera de control. Esto indica que existe una variación conside-
rable en las muestras. Algunos rangos muéstrales son grandes; otros son pequeños.
Quizá sea necesario un ajuste en el proceso.

Variación considerable en los


rangos.

3. En las primeras muestras, la media estaba dentro de control, aunque hay una tenden-
cia ascendente hacia UCL. Las últimas dos medias muéstrales están fuera de control.
Se indica un ajuste en el proceso, los rangos están dentro de control.
Control de calidad estadístico 601

Media fuera de control.

El diagrama anterior para la media es un ejemplo de control que ofrece cierta informa-
ción adicional. Vea la dirección de las últimas cinco observaciones de la media. Todas están
arriba de y en aumento, y, de hecho, las últimas dos observaciones están fuera de con-
trol. El hecho de que las medias muéstrales aumentaran durante seis observaciones conse-
cutivas es muy improbable, lo cual es otra indicación de que el proceso está fuera de
control.

Autoevaluación 17-2 La gerente de McDonald's en River City selecciona de manera aleatoria cuatro clientes cada
hora. Para estos clientes seleccionados, ella determina el tiempo, en minutos, que transcurre
entre la recepción y la entrega de la orden. Los resultados se presentan a continuación.

(a) Calcule la espera media, el rango de la media y determine los límites de control para la
media y el rango.
(b) ¿Las medidas están dentro de los límites de control? Interprete el diagrama.

Ejercicios
3. Describa la diferencia entre la variación asignable y la variación azarosa.
4. Describa la diferencia entre un diagrama de control de atributos y un diagrama de control de
variables.
5. De una línea de producción, se seleccionan muestras de tamaño n = 4.
a. ¿Cuál es el valor del factor A, utilizado para determinar los límites de control superior e
inferior de la media?
b. ¿Cuáles son los valores de los factores D3 y D4 utilizados para determinar los límites de
control superior e inferior del rango?
6. De un proceso de fabricación, se seleccionan muestras de tamaño 5. La media de los ran
gos muéstrales es 0.50. ¿Cuál es el cálculo de la desviación estándar de la población?
602 Capítulo 17

7. En Piatt Bakery recién se instaló un nuevo horno industrial. A fin de conocer la condición
respecto a la temperatura del horno, un inspector lee la temperatura en cuatro lugares
diferentes dentro del horno cada media hora. La primera lectura, que se tomó a las 8:00
a.m., fue de 340 grados Fahrenheit. (En la tabla a continuación sólo se presentan los dos
últimos dígitos para facilitar los cálculos.)

a. Con base en esta experiencia inicial, determine los límites de control para la temperatu-
ra media. Determine la gran media. Trace la experiencia en un diagrama.
b. Interprete el diagrama. ¿Parece existir una hora en que la temperatura está fuera de control?
8. Consulte el ejercicio 7.
a. Con base en esta experiencia inicial, determine los límites de control para el rango. Trace
la experiencia en un diagrama.
b. ¿Parece existir una hora en que es demasiada la variación de la temperatura?

Diagramas de control de atributos


Los datos que recopilamos con frecuencia son el resultado de contar en vez de medir. Es
decir, observamos la presencia o ausencia de cierto atributo. Por ejemplo, la tapa enrosca-
ble de una botella de champú se ajusta a la misma y no se sale el líquido (una condición
"aceptable") o no sella y se sale (una condición "inaceptable"), o un banco hace un présta-
mo a un cliente quien le paga o no le paga el préstamo. En otros casos, nos interesa el
número de defectos en una muestra. British Airways podría contar el número de vuelos que
llegan demorados por día al Aeropuerto de Gatwick en Londres. En esta sección, estudia-
remos los dos tipos de diagramas de atributos: la tabla p (porcentaje de defectuoso) y la grá-
fica de barras c (número de defectos).

Diagrama de porcentaje defectuoso


Si el artículo registrado es la fracción de partes inaceptables que se hicieron en un lote de
partes más grande, el diagrama de control apropiado es el de porcentaje defectuoso. Este
diagrama se basa en una distribución binomial, analizada en el Capítulo 6, y de proporciones,
estudiadas en el Capítulo 9. La línea central está en la proporción media de defectos.
La p sustituye a de la tabla de control de variables. La proporción media de defectos
se obtiene mediante:

La variación en la proporción de la muestra se describe mediante el error estándar de una


proporción. Se encuentra por medio de:
Control de calidad estadístico 603

Por lo tanto, el límite de control superior (UCL) y el límite de control inferior (LCL) se
calculan como el porcentaje medio de defectuosos más o menos tres veces el error están-
dar de los porcentajes (proporciones). La fórmula para los límites de control es:

Un ejemplo mostrará los detalles de los cálculos y las conclusiones.

El departamento de crédito de Global National Bank tiene la responsabilidad de capturar


cada transacción que se carga al estado de cuenta mensual del cliente. Desde luego que
la precisión es crítica ¡y los errores pueden disgustar mucho al cliente! Para protegerse de
errores, cada empleado responsable de la captura de datos vuelve a capturar una muestra
de 1 500 de su lote de trabajo y un programa de computación revisa que los números
correspondan. El programa también imprime un reporte del número y tamaño de cualquier
discrepancia. Siete personas trabajaron durante la última hora y éstos son sus resultados:

Construya el diagrama de porcentaje de defectos para este proceso. ¿Cuáles son los límites
de control superior e inferior? Interprete los resultados. ¿Alguno de los empleados respon-
sables de la captura de datos parece estar "fuera de control"?

El primer paso es determinar la proporción media de defectos p, usando la fórmula (17-6).


Es 0.0039, que se obtiene mediante 41/10 500.

Los límites de control superior e inferior se calculan con la fórmula (17-8).

De los cálculos anteriores, el límite de control superior es 0.0087, que se obtiene mediante
0.0039 + 0.0048. El límite de control inferior es 0. ¿Por qué? El límite inferior con la fórmu-
la se determina con 0.0039 - 0.0048, que es igual a -0.0009. No es posible una proporción
604 Capítulo 17

defectuosa negativa, de modo que el valor más pequeño es 0. Establecemos el límite de


control en 0. Por tanto, cualquier empleado responsable de la captura de datos, cuya pro-
porción defectuosa esté entre 0 y 0.0087 está "dentro de control". La empleada número 5,
de nombre Reed, está fuera de control. Su proporción defectuosa es 0.01, o 1.0%, que se
encuentra fuera del límite de control superior. Tal vez deba recibir capacitación adicional o
ser transferida a otro puesto. Esta información se resume en la Tabla 17-6, que es el resul-
tado del sistema MINITAB.

GRÁFICA 17-8 Diagrama de control para la proporción de defectos de capturas entre los empleados
responsables de la captura de datos en Global National Bank

Gráfica de líneas c
La gráfica de líneas c traza el número de defectos o fallas por unidad. Se basa en la dis-
tribución de Poisson analizada en el Capítulo 6. El número de maletas maltratadas en un
vuelo de Southwest Airlines podría supervisarse con la gráfica de líneas c. La "unidad" bajo
consideración es el vuelo. Las maletas no se maltratan en la mayoría de los vuelos. En
algunos quizá se maltrate una, en otros dos, y así sucesivamente. El Interna! Revenue
Service podría contar y desarrollar una gráfica de control para el número de errores arit-
méticos por devolución de impuestos. La mayoría de las devoluciones no tienen errores,
algunas tienen un solo error, otras tendrán dos y así sucesivamente. Digamos que sea el
número medio de defectos por unidad. Por tanto, es el número medio de maletas mal-
tratadas por vuelo de Southwest Airlines o el número medio de errores aritméticos por
devolución de impuestos. Recuerde que, en el Capítulo 6, la desviación estándar de una
distribución de Poisson es la raíz cuadrada de la media. Por tanto, podemos determinar los
límites de 3 sigma o 99.74%, sobre una gráfica de líneas c mediante:

El editor del Oak Harbor Daily Telegraph está preocupado por el número de palabras
escritas con errores ortográficos en el periódico. No publican en sábado y domingo. En un
esfuerzo por controlar el problema y fomentar la necesidad de una buena ortografía, usará
una gráfica de control. El número de palabras con errores ortográficos encontradas en la
Control de calidad estadístico 605

edición final del periódico de los 10 últimos días es: 5, 6, 3, 0, 4, 5, 1, 2, 7 y 4. Determine


los límites de control apropiados e interprete la gráfica. ¿Hubo algún día durante el periodo
en que el número de palabras con errores ortográficos estuvo fuera de control?

La suma del número de palabras con errores ortográficos durante el periodo de 10 días es
37. De modo que el número medio de defectos, La raíz cuadrada de este número
es 1.924. Así, el límite de control superior es:

El límite de control inferior calculado sería 3.7 - 3(1.924) = -2.07. Sin embargo, el número
de palabras con errores ortográficos no puede ser menor a 0, de modo que usamos 0 como
el límite inferior. El límite de control inferior es 0 y el límite de control superior es 9.47.
Cuando comparamos cada uno de los puntos de los datos con el valor de 9.47, vemos que
son menores al límite de control superior; el número de palabras con errores ortográficos
está "dentro de control". Desde luego que los periódicos van a esforzarse por eliminar todas
las palabras con errores ortográficos, pero las técnicas de la gráfica de control ofrecen una
forma de llevar un seguimiento de los resultados diarios y determinar si hay un cambio. Por
ejemplo, si se contrata una nueva correctora de pruebas, se podría comparar su trabajo con
el de otros. El resumen de estos resultados se presentan en la Gráfica 17-7, que es el resul-
tado del sistema MINITAB.

GRÁFICA 17-7 Gráfica de líneas c para el número de palabras con errores ortográficos por edición
del Oak Harbor Daily Telegraph

Autoevaluación 17-3 Auto-Life Company produce baterías para carros. Al terminar cada turno, el Departamento de
Seguridad de Calidad selecciona una muestra de baterías y las prueba. El número de baterías
defectuosas que se encontró en los últimos 12 turnos es 2, 1, 0, 2, 1, 1,7, 1, 1, 2, 6 y 1.
Construya una gráfica de control para el proceso y comente si el proceso está dentro de
control.

9. Un fabricante de bicicletas selecciona 10 estructuras cada día y las prueba para ver si tienen
defectos. El número de estructuras defectuosas encontradas durante los últimos 14 días es
3, 2, 1, 3, 2, 2, 8, 2, 0, 3, 5, 2, 0, 4. Construya una gráfica de control para este proceso y
comente si el proceso está "dentro de control".
606 Capítulo 17

10. Scott Paper prueba su papel de baño poniendo 15 rollos a una prueba de tensión de
humedad para ver si y con qué frecuencia se rasga el papel durante la prueba. A conti
nuación se presenta el número de artículos defectuosos encontrado durante los últimos 15
días: 2, 3, 1, 2, 2, 1, 3, 2, 2, 1, 2, 2, 1, 0 y 0. Construya una gráfica de control para el pro
ceso y comente si el proceso está "dentro de control".
11. Sam's Supermarkets prueba a sus empleados en el área de cajas revisando de manera
aleatoria los recibos impresos para detectar errores. Los siguientes números son la cantidad
de errores en cada recibo del 27 de octubre: 0,1, 1, 0, 0, 1,1, 0,1,1, 0. Construya una grá
fica de control para este proceso y comente si el proceso está "dentro de control".
12. Dave Christi administra una cadena de autolavados con sucursales en todo Chicago. Está
preocupado porque algunos gerentes locales lavan gratis los carros de sus amigos. Decide
reunir los datos con base en el número de recibos de venta "anulados". Desde luego que
algunos de ellos son anulaciones legítimas. ¿Los datos a continuación indicarían un número
razonable de "anulaciones" en sus instalaciones: 3, 8, 3, 4, 6, 5, 0, 1, 2, 4? Construya una
gráfica de control para este proceso y comente si el proceso está "dentro de control".

Muestreo de aceptación
El interés en la sección anterior era
mantener la calidad del producto
mientras se fabrica. En muchas
situaciones administrativas, tam-
bién nos preocupa la calidad del
producto terminado que se recibe.
¿Qué tienen en común los siguien-
tes casos?
• Sims Software, Inc., compra los
discos compactos en CDs Inter-
national. La orden de compra
normal es de 100 000 CD,
empacados en lotes de 1 000.
El presidente, Todd Sims, no
espera que cada disco com-
pacto sea perfecto. De hecho,
estuvo de acuerdo en aceptar
lotes de 1 000 con hasta 10%
de defectos. Él quisiera desa-
rrollar un plan para inspeccionar
los lotes que reciben y asegurarse que se cumple con la calidad estándar. La finalidad
del procedimiento de inspección es separar los lotes aceptables de los inaceptables.
• Zenith Electric compra tubos de magnetrón de Bono Electronis para usarlos en su
nuevo horno de microondas. Los tubos se embarcan a Zenith en lotes de 10 000. Zenith
permite que los lotes que recibe contengan hasta el 5% de tubos defectuosos. Les gus-
taría desarrollar un plan de muestreo para determinar cuáles son los lotes que cumplen
con el criterio y cuáles no.
• General Motors compra parabrisas de muchos proveedores. GM insiste en que los
parabrisas sean lotes de 1 000. Están dispuestos a aceptar 50 o menos defectos en
cada lote, es decir, el 5% de defectos. Les gustaría desarrollar un procedimiento de
muestreo para comprobar que los embarques que reciben cumplen con el criterio.
La relación en común en estos casos es la necesidad de comprobar que un producto
que se recibe cumple con los requisitos estipulados. La situación se puede semejar a una
puerta de mosquitero, que permite la entrada del cálido aire veraniego mientras mantiene
fuera a los bichos. El muestreo de aceptación permite la entrada de lotes con calidad
aceptable en el área de manufactura y mantiene fuera los lotes que no son aceptables.
Desde luego que la situación en la administración moderna es más compleja. El com-
prador quiere protegerse para no aceptar lotes que estén por debajo del estándar de calidad.
La mejor forma de protegerse contra una calidad inferior es la inspección del 100%. Por des-
Control de calidad estadístico 607

gracia, el costo de la inspección del 100% con frecuencia es prohibitiva. Otro problema respecto a
revisar cada artículo es que la prueba puede ser destructiva. Si se probaran todos los focos hasta
que se fundieran antes de embarcarse, no quedaría ninguno por vender. Asimismo, la inspección
de 100% tal vez no logre que se identifiquen todos los defectos, ya que el aburrimiento podría
causar una pérdida de percepción por parte de los inspectores. Por tanto, rara vez se emplea una
inspección completa en situaciones prácticas.
El procedimiento usual es examinar la calidad de las partes que se reciben usando un plan de
muestreo estadístico. Según este plan, una muestra de n unidades se selecciona al azar de los
Muestreo de aceptación. lotes de N unidades (la población). Ésto se llama muestreo de aceptación. La inspección
determinará el número de defectos en la muestra. Este número se compara con un número
Número de aceptación. predeterminado, llamado el número crítico o el número de aceptación. El número de aceptación
por lo general se designa c. Si el número de defectos en la muestra de tamaño n es menor o igual a
c, se acepta el lote. Si el número de defectos supera a c, el lote se rechaza y se devuelve al
proveedor, o quizá se envía a una inspección del 100%.
El muestreo de aceptación es un proceso de toma de decisiones. Existen dos decisiones
posibles: aceptar o rechazar el lote. Asimismo, hay dos situaciones bajo las cuales se toma la
decisión: el lote es bueno o el lote es malo. Éstos son estados de la naturaleza. Si el lote es bueno y
la inspección de la muestra así lo revela, o si el lote es malo y la inspección de la muestra lo
confirma, entonces se toma una decisión correcta. Sin embargo, existen otras dos posibilidades. El
lote de hecho puede contener más defectos de los que debería, pero se acepta. Esta acción se
llama riesgo del consumidor. De igual modo, el lote puede estar dentro de los límites aceptados,
Riesgo del consumidor. pero se rechaza durante la inspección de la muestra. Se llama el riesgo del productor. La
siguiente tabla de resumen para ¡as decisiones de aceptación señala estas posibilidades. Observe
Riesgo del productor. cómo este análisis es muy similar a las ideas de los errores Tipo I y Tipo II presentados al principio
del Capítulo 10. (Véase la página 321.)

A fin de evaluar un plan de muestreo y determinar que es justo tanto para el productor como el
consumidor, el procedimiento usual es desarrollar una curva de características operativas, o una
curva de CO, como normalmente se denomina. Una curva de CO reporta el porcentaje defectuoso
Curva de CO. a lo largo del eje horizontal y la probabilidad de aceptar ese porcentaje defectuoso a lo largo del eje
vertical. Por lo general se traza una curva uniforme que conecta todos los niveles de calidad
posibles. La distribución binomial se utiliza a fin de desarrollar las probabilidades para una curva de
CO.

Como antes se mencionó, Sims Software le compra los discos compactos a CDs International. Los
DC se empacan en lotes de 1 000 cada uno. Todd Sims, presidente de Sims Software, está de
acuerdo en aceptar lotes con 10% o menos de DC defectuosos. Todd instruyó a su departamento
de inspección que seleccionara una muestra aleatoria de 20 DC y los revisara con detenimiento.
Aceptará el lote si tiene dos o menos defectos en la muestra. Desarrolle una curva de CO para este
plan de inspección. ¿Cuál es la probabilidad de aceptar un lote que tiene 10% defectuoso?

Este tipo de muestreo se llama muestreo de atributos porque el artículo que se usó en la muestra,
en este caso un DC, se clasifica como aceptable o inaceptable. No se obtiene "lectura" o "medida"
Muestreo de atributos. del DC. Permita que represente la proporción real de defectos en la población.

El lote es aceptable si
El lote es inaceptable si
608 Capítulo 17

Regla de decisión. Deje que sea el número de defectos en la muestra. La regla de decisión es:

Aquí, el lote aceptable es con 10% o menos de DC defectuosos. Si el lote es aceptable


cuando tiene exactamente un 10% defectuoso, sería aún más aceptable si tuviera menos
del 10%. Por tanto, la práctica usual es trabajar con el límite superior del porcentaje de
defectos.
La distribución binomial se usa para calcular los diversos valores en la curva de CO.
Recuerde que existen cuatro requisitos para el uso de binomios:

1. Sólo hay dos resultados posibles. El DC es aceptable o inaceptable.


2. Existe un número fijo de ensayos. En este caso, el número de ensayos es el tamaño
de muestra de 20.
3. Existe una probabilidad constante de éxito. Un éxito es encontrar un DC defectuoso. Se
asume que la probabilidad de éxito es 0.10.
4. Los ensayos son independientes. La probabilidad de obtener un DC defectuoso en el ter
cer seleccionado no se relaciona con la posibilidad de encontrar un defecto en el cuarto
DC elegido.

El Apéndice A da varias probabilidades binomiales. Sin embargo, las tablas en el


Apéndice A sólo llegan a 15, es decir, n = 15. Para que este problema sea n = 20, usare-
mos Excel para calcular las diversas probabilidades binomiales. Las instrucciones de Excel
para determinar las probabilidades binomiales se presentan en la página 210 del Capítulo
6. El resultado de Excel a continuación demuestra las probabilidades binomiales para n =
20 cuando jt es igual a 0.05, 0.10, 0.15, 0.20, 0.25 y 0.30.

Tenemos que convertir los términos utilizados en el Capítulo 6 al vocabulario de mues-


treo de aceptación. Digamos que jt se refiere a la probabilidad de encontrar un defecto, cal
número de defectos permitidos y n al número de artículos usados en la muestra. En este
caso, permitiremos hasta dos defectos, de modo que c= 2. Lo anterior significa que autori-
zaremos 0, 1 o 2 artículos defectuosos de los 20 en la muestra y aún así aceptaremos la
recepción del embarque de DC.
Para empezar, determinamos la probabilidad de aceptar un lote con un 5% de defec-
tos. Esto significa que n = 0.05, c = 2 y n = 20. Del resultado de Excel, la posibilidad de ele-
gir una muestra de 20 artículos de un embarque que contenía 5% de defectos y encontrar
exactamente 0 defectos es 0.358. La posibilidad de encontrar exactamente 1 defecto es
Control de calidad estadístico 609

0.377 y encontrar 2 es 0.189. Por consiguiente, la posibilidad de 2 o menos defectos es 0.924,


que se obtiene mediante 0.358 + 0.377 + 0.189. Este resultado por lo general se escribe en
una notación abreviada de la siguiente manera (recuerde que la barra " I" significa "dado
que").

Continuando, la posibilidad de aceptar un lote que de hecho tiene 10% de defectos es 0.677.
Es decir:

La curva de CO de la Gráfica 17-8 presenta la curva uniforme para todos los valores de
entre 0% y casi 30%. No hay necesidad de presentar los valores mayores a 30% porque su
probabilidad es muy cercana a 0. La posibilidad de aceptar lotes de niveles de calidad
seleccionados se señalan a la derecha en la Gráfica 17-8. Con la curva de CO, la adminis-
tración de Sims Software podrá evaluar con rapidez las probabilidades de varios niveles de
calidad.

GRÁFICA 17-8 Curva de CO para el plan de muestreo (n = 20, c = 2)

Autoevaluacíón 17-4 Usando el plan de muestreo para Sims Software, calcule la probabilidad de aceptar un lote de
DC donde de hecho 30% están defectuosos.

Ejercicios
13. Determine la probabilidad de aceptar lotes donde 10%, 20%, 30% y 40% está defectuoso
usando una muestra de tamaño 12 y un número de aceptación de 2.
14. Determine la probabilidad de aceptar lotes donde 10%, 20%, 30% y 40% está defectuoso
usando una muestra de tamaño 14 y un número de aceptación de 3.
15. Warren Electric produce fusibles para muchos clientes. Para asegurar la calidad del pro
ducto de salida, prueban 10 fusibles cada hora. Si no más de un fusible está defectuoso,
empaquetan los fusibles y los preparan para su embarque. Desarrolle una curva de CO para
este plan de muestreo. Calcule las probabilidades de aceptar lotes donde 10%, 20%, 30%
y 40% sea defectuoso. Trace una curva de CO para este plan de muestreo usando los cua
tro niveles de calidad.
16. Grills Radio Products le compra transistores a Mira Electronics. De acuerdo con su plan de
muestreo, Art Grills, propietario de Grills Radio, aceptará un embarque de transistores si, en
una muestra de 25, tres o menos están defectuosos. Desarrolle una curva de CO para estos
porcentajes defectuosos: 10%, 20%, 30% y 40%. Necesitará un paquete de software
estadístico.
610 Capítulo 17

Resumen del capítulo


I. El objetivo del control estadístico de la calidad es seguir de cerca la calidad del producto o
servicio conforme se desarrolla
II. Un diagrama de Pareto es una técnica para ordenar el número y tipo de defectos que ocu-
rren en un producto o servicio
A. Esta tabla recibe el nombre de un científico italiano, Vilfredo Pareto
B. El concepto de la tabla es que 80% de la actividad es causada por 20% de los factores
III. Un diagrama de esqueleto de pez enfatiza la relación entre una posible causa de un pro-
blema que provocara el efecto particular
A. También se llama un diagrama de causa y efecto
B. El planteamiento usual es considerar cuatro áreas de problema métodos materiales
equipo y personal
IV. El objetivo de un diagrama de control es seguir de manera gráfica la calidad de un produc-
to o servicio
A. Existen dos tipos de diagramas de control
1. Un diagrama de control de variables es el resultado de una medida
2. Un diagrama de atributos indica si el producto o servicio es o no aceptable
B. Existen dos fuentes de variación en la calidad de un producto o servicio
1. La variación azarosa es aleatoria por naturaleza y no se puede controlar o eliminar
2. La variación asignable no se debe a causas azarosas y se pueden eliminar
C. En este capitulo se toman en consideración cuatro diagramas de control
1. Un diagrama de la media presenta a la media de una variable y un diagrama de ran-
gos indica el rango de la variable
a. Los limites de control superior e inferior son una serie de mas o menos 3 errores
del estándar de la media
b. Las formulas para los limites de control superior e inferior de la media son

c. Las fórmulas para los límites de control superior e inferior para el rango son:

2. Un diagrama de porcentaje de defectuoso es una gráfica de atributos que presenta


la proporción del producto o servicio que no está conforme al estándar. a. El
porcentaje de defectuoso medio se obtiene con

b. Los límites de control para la proporción de defectos se determina con la ecuación

3. Una gráfica de líneas c se refiere al número de defectos por unidad.


a. Se basa en la distribución de Poisson.
b. El número medio de defectos por unidad es
c. Los límites de control se determinan con la siguiente ecuación.

V. Un muestreo de aceptación es un método para determinar si un lote que se recibe de un


producto cumple con los estándares especificados.
A. Se basa en las técnicas de muestreo aleatorio.
B. Una muestra aleatoria de n unidades se selecciona de una población de N unidades.
C. c es el número máximo de unidades defectuosas que se pueden encontrar en la mues-
tra de n y el lote se sigue considerando aceptable.
D. Una curva de CO (características operativas) se desarrolla usando la distribución de
probabilidad binomial para determinar la probabilidad de aceptar lotes de varios niveles
de calidad.
Control de calidad estadístico 611

Clave de pronunciación

Ejercicios del capítulo


17. El supervisor de producción en Westburg Electric, Inc., observó un incremento en el número
de motores eléctricos rechazados en el momento de la inspección final. De los últimos 200
motores rechazados, 80 de los defectos se debían a un cableado deficiente, 60 contenían
un corto en la bobina, 50 incluían una bujía defectuosa y 10 involucraban otros defectos.
Desarrolle un diagrama de Pareto a fin de presentar las áreas de los principales problemas.
18. Un fabricante de zapatos atléticos llevó a cabo un estudio sobre sus zapatos para jogging
recién desarrollados. A continuación se enumeran el tipo y la frecuencia de las faltas de con
formidad y las fallas que se encontraron. Desarrolle una tabla de Pareto a fin de presentar
las áreas de los principales problemas.

19. Wendy's sirve sus bebidas gaseosas con una máquina automática cuya operación se basa
en el peso de la bebida gaseosa. Cuando el proceso está dentro de control, la máquina llena
cada vaso de modo que la gran media es 10.0 onzas y el rango de la media es 0.25 para
muestras de 5.
a. Determine los límites de control superior e inferior para el proceso tanto de la media
como del rango.
b. El gerente de la tienda I-280 probó cinco bebidas gaseosas que se sirvieron en la últi-
ma hora y encontró que la media era 10.16 onzas y el rango era 0.35 onzas. ¿El pro-
ceso está dentro de control? ¿Debe tomarse otra acción?
20. Hace poco se instaló una máquina nueva para cortar y dar una forma aproximada a peda-
zos grandes de metal deforme. Los pedazos de metal después se transfieren a una afilado-
ra de precisión. Una de las medidas críticas es el diámetro exterior. El inspector de control
de calidad elige de manera aleatoria 5 pedazos cada hora, mide el diámetro exterior y anota
los resultados. Las medidas (en milímetros) para el periodo de las 8:00 a.m. a las 10:30 a.m.
son las siguientes.

a. Determine los límites de control para la media y el rango.


b. Trace en una gráfica los límites de control para el diámetro exterior medio y el rango.
612 Capítulo 17

c. ¿Algún punto en la media o la tabla de rangos está fuera de control? Comente sobre la
tabla.
21. Como parte de su proceso de inspección, The Long Last Tire Company prueba sus llantas
para el desgaste del área de contacto bajo condiciones de camino simuladas. Durante el últi-
mo mes de operaciones, se seleccionaron veinte muestras de tres llantas, cada una de
diferentes turnos. A continuación se reporta el desgaste del área de contacto en centésimas
de pulgada.

a. Determine los limites de control para la media y el rango.


b. Trace en una gráfica los límites de control para el diámetro exterior medio y el rango.
c. ¿Algún punto en la media o la tabla de rangos está "fuera de control"? Comente sobre
la tabla.
22. The Charter National Bank cuenta un personal de ejecutivos de préstamos en todas sus
sucursales en el suroeste. Al vicepresidente responsable de los ejecutivos de préstamos le
gustaría tener cierta información sobre la cantidad típica de préstamos y el rango en la can-
tidad de los mismos. Un analista de personal del vicepresidente seleccionó una muestra de
10 ejecutivos de préstamos y de cada ejecutivo seleccionó una muestra de cinco préstamos
que cada uno otorgó durante el último mes. Los datos se presentan a continuación.
Desarrolle una tabla de control para la media y el rango. ¿Algún ejecutivo parece estar "fuera
de control"? Comente acerca de lo que encontró.

23. El productor de una barra de dulce, llamada "A Rod", indica en el paquete que el contenido
de calorías es de 420 por barra de 2 onzas. Una muestra de 5 barras en cada uno de los 10
últimos días se envió a un análisis clínico para obtener el contenido de calorías. Los resul-
tados se presentan a continuación. ¿Parece haber algún día en el que el conteo de calorías
está fuera de control? Desarrolle una tabla de control y analice sus hallazgos.

24. The Early Morning Delivery Service garantiza la entrega de paquetes pequeños a las 10:30
a.m. Desde luego que algunos paquetes no se entregan a las 10:30 a.m. En una muestra
Control de calidad estadístico 613

de 200 paquetes entregados en cada uno de los últimos 15 días hábiles, el siguiente número
de paquetes se entregaron después del limite de tiempo: 9, 14, 2, 13, 9, 5, 9, 3, 4, 3, 4, 3,
3, 8 y 4.
a. Determine la proporción media de paquetes entregados después de las 10:30 a.m.
b. Determine los límites de control para la proporción de paquetes entregados después de
las 10:30 a.m. ¿Algún paquete en la muestra estuvo fuera de control?
c. Si 10 de los 200 paquetes en la muestra se entregaron hoy después de las 10:30 a.m.,
¿la muestra está dentro de los límites de control?
25. Una máquina automática produce tornillos de 5.0 milímetros a una tasa de velocidad alta.
Se inició un programa de control de calidad para controlar el número de pieza defectuosas.
El inspector de control de calidad selecciona 50 tornillos de manera aleatoria y determina
cuántos son defectuosos. El número de piezas defectuosas en las primeras 10 muestras es
3, 5,0,4, 1,2, 6, 5, 7 y 7.
a. Diseñe una tabla de porcentaje defectuoso. Inserte el porcentaje defectuoso medio,
UCLy LCL
b. Trace en una gráfica el porcentaje defectuoso para las primeras 10 muestras en la
tabla.
c. Interprete la tabla.
26. Steele Breakfast Foods, Inc., produce una marca popular de cereal de salvado con pasas.
El paquete indica que contiene 25.0 onzas de cereal. Para asegurar la calidad del produc-
to, el departamento de inspección de Steele revisa cada hora el proceso de producción.
Como parte de la revisión cada hora, se seleccionaron 4 cajas y se pesó su contenido. Los
resultados son los siguientes.

Desarrolle una tabla de control apropiada. ¿Cuáles son los límites? ¿El proceso está fuera
de control en algún momento?
27. Un inversionista cree que existe una posibilidad de 50-50 de que una acción suba o baje un
día en particular. Para investigar esta idea, durante 30 días consecutivos de negociaciones el
inversionista selecciona de manera aleatoria una muestra de 50 acciones y cuenta el número
que sube. El número de acciones en la muestra que subieron se presenta a continuación.
614 Capítulo 17

Desarrolle una tabla de porcentaje defectuoso y escriba un resumen breve de lo que encon-
tró. Con base en estos resultados de la muestra, ¿es razonable que las posibilidades de que
una acción suba sean del 50-50? ¿Cuál es el porcentaje de acciones que necesitarían subir
en un día para que el proceso esté "fuera de control"?
28. Lahey Motors se especializa en vender carros a compradores con una historia crediticia defi-
ciente. A continuación se enumera el número de carros que se recuperaron de los clientes
de Lahey porque no cumplieron con sus pagos durante los últimos 36 meses.

Desarrolle una gráfica de barras c para el numero recuperado ¿Hubo algún mes donde el
numero estuvo fuera de control? Escriba un resumen breve de lo que encontró
29. Un ingeniero en procesos esta considerando dos planes de muestreo En el primero selec-
cionara una muestra de 10 y aceptara el lote si 3 o menos artículos están defectuosos En el
segundo, el tamaño de la muestra es 20 y el numero de aceptación es 5 Desarrolle una curva
de CO para cada uno Compare la probabilidad de aceptación para los lotes donde 5% 10%
20% y 30% están defectuosos ¿Cual de los planes recomendaría si usted fuera el proveedor''
30. La ínter State Moving and Storage Company está estableciendo una tabla de control para
seguir de cerca la proporción de mudanzas residenciales que dan como resultado quejas
por escrito debido a un retraso en la entrega, artículos perdidos o artículos dañados Se
selecciono una muestra de 50 mudanzas para cada uno de los últimos 12 meses El numero
de quejas por escrito en cada muestra es 8, 7, 4, 8 2, 7,11, 6 7 6, 8 y 12
a. Diseñe un diagrama de porcentaje de defectuoso Incluya el porcentaje defectuoso
medio UCL y LCL
b. Trace en una gráfica la proporción de quejas por escrito en los últimos 12 meses
c. Interprete la gráfica ¿Parece que el numero de quejas esta fuera de control en algún
mes?
31. Enc's Cookie House vende galletas con chispas de chocolate en centros comerciales El
interés esta en el numero de chispas de chocolate que contiene cada galleta Enc el propie-
tario y presidente, quisiera establecer una tabla de control para el numero de chispas de
chocolate por galleta Para ello, selecciona una muestra de 15 galletas de la producción de hoy
y cuenta el numero de chispas de chocolate en cada una Los resultados son los siguientes
6 , 8 20, 12,20, 19 11,23, 12, 14, 15,16, 12, 13 y 12
a. Determine la línea central y los limites de control
b. Desarrolle una diagrama de control y trace en una gráfica el numero de chispas de
chocolate por galleta
c. Interprete la tabla ¿Parece que el numero de chispas de chocolate esta fuera de con-
trol en alguna de las galletas en la muestra?
32. El numero de ocasiones en que "los pasajeros casi pierden el vuelo' registrado durante los
últimos 20 meses en el Aeropuerto Internacional de Lima es 3, 2, 3, 2 2 3 5 1 2 2 4 4
2,6,3,5,2,5 1y3 Desarrolle una gráfica de control apropiada Determine el numero medio
de pasajeros que pierden el vuelo al mes y los limites en el numero de pasajeros que pier
den el vuelo al mes ¿Existe algún mes en que el numero de "pasajeros que casi pierden el
vuelo' esté fuera de control?
33. El siguiente numero de asaltos fueron reportados durante los últimos 10 días en la división de
robos de la policía metropolitana 10, 8,8,7, 8, 5 8, 5, 4 y 7 Desarrolle un diagrama de control
apropiada Determine el numero medio de asaltos reportados por día y determine los limites
de control ¿Existe algún día donde el numero de asaltos reportados este fuera de control?
34. Seiko compra vástagos de relojes para sus relojes en lotes de 10 000 El plan de muestreo
de Seiko requiere que se revisen 20 pernos, y si 3 o menos pernos están defectuosos se
acepta el lote
a. Con base en su plan de muestreo, ¿cual es la probabilidad de que se acepte un lote
donde 40% está defectuoso?
b. Diseñe una curva de CO para los lotes que se reciben con un 0% 10% 20% 30% y
40% de pernos defectuosos
35. Automatic Screen Door Manufactunng Company compra pasadores para puertas de un
numero de vendedores El departamento de compras es el responsable de inspeccionar los
Control de calidad estadístico 615

pasadores que se reciben. Automatic compra 10 000 pasadores para puertas al mes e
inspecciona 20 pasadores que selecciona de manera aleatoria. Desarrolle una curva de CO
para el plan de muestreo sí tres pasadores pueden estar defectuosos y aún así se acepta el
lote que se recibe.
36. Al principio de cada temporada de fútbol, Team Sports, la tienda de artículos deportivos
local, compra 5 000 balones. Se eligió una muestra de 25 balones, los cuales se inflaron,
probaron y desinflaron. Si más de dos balones están defectuosos, el lote de 5 000 se
devuelve al fabricante. Desarrolle una curva de CO para este plan de muestreo.
a. ¿Cuáles son las probabilidades de aceptar lotes donde 10%, 20% y 30% esté defectuoso?
b. Calcule la probabilidad de aceptar un lote donde 15% esté defectuoso.
c. John Brennen, propietario de Team Sports, quisiera tener la probabilidad de aceptar un
lote donde 5% esté defectuoso que sea más del 90%. ¿Parece ser el caso con este plan
de muestreo?

Comandos de software
1. Los comandos MINITAB para el diagrama de Pareto en
la página 592 son:
a. Capture en la columna C1 las razones para el uso
del agua y los galones usados en C2. Asigne nom-
bres adecuados a las columnas.
b. Haga clic en Stat, Quality Tools, Pareto Chart y
después oprima Enter.
c. Seleccione Chart defects table, indique la ubi
cación de las clasificaciones y frecuencias, haga
clic en Options y escriba un título de la tabla y
haga clic en OK.

2. Los comandos MINITAB para la barra X y las tablas


R en la página 599 son:
a. Capture la información en la Tabla 17-1 o del DC.
El nombre del archivo es tbl17-1.
b. Haga clic en Stat, Control charts, Variables
Charts for Subgroups, Xbar-R y oprima Enter.
c. Haga clic en Single column. El Subgroup síze es
5. Haga clic en Labels, capture el nombre de la
tabla, y después haga doble clic en OK.

3. Los comandos de MINITAB para la tabla de porcentaje


defectuoso en la página 604 son:
a. Capture los datos sobre el número de desigual
dades en la página 603.
b. Haga clic en Stat, Control charts, Attribute Charts,
P y oprima Enter.
c. Seleccione la Variable indicando el número de
desigualdades. Subgroup Size es 1500 e intro-
duzca 1500. En el área inferior derecha haga clic
en Labeis, escriba el título en el espacio propor-
cionado y haga doble clic en OK.
616 Capitulo 17

4. Los comandos de MINITAB para la gráficas de barras c


en la página 605 son:
a. Capture los datos sobre el número de palabras con
errores ortográficos en la página 605.
b. Haga clic en Stat, Control charts, Attrlbute, C y
oprima Enter.
c. Seleccione Variable indicando el número de pala-
bras con errores ortográficos, luego haga clic en
Labels y escriba el título en el espacio propor-
cionado y haga doble clic en OK.
Control de calidad estadístico 617

Capítulo 17 Respuestas a las autoevaluaciones


Números índice

Las acciones comunes de Johnson and Johnson se incluyen en la


Bolsa de Valores de Nueva York utilizando el símbolo JNJ. Esta
información accionaria se reporta en sus informes anuales. Utilice los
datos para calcular un índice simple para las ventas nacionales. (Vea
la Meta 1 y el Ejercicio 17.)
Números índice 619

Introducción
En este capítulo vamos a analizar una útil herramienta descriptiva llamada índice. Sin du-
da, usted está familiarizado con índices como el índice de Precios al Consumidor, que el
Departamento del Trabajo de Estados Unidos publica cada mes. Hay muchos otros, como
el Promedio Industrial Dow Jones (DJIA), Nasdaq, NIKKEI 225 y Standard & Poor's 500
Stock Averages. El gobierno federal publica los índices en forma regular a través de publi-
caciones de negocios como Business Week y Forbes, en la mayor parte de los periódicos
y en Internet.
¿Qué importancia tiene un índice? ¿Por qué el índice de Precios al Consumidor es tan
importante y tan popular? Como su nombre lo indica, mide el cambio en el precio de un gru-
po muy numeroso de artículos que compran los consumidores. La Oficina de la Reserva Fe-
deral, grupos de consumidores, sindicatos, administradores, organizaciones de personas
de la tercera edad y otras organizaciones en los negocios y la economía se preocupan por
los cambios en los precios. Estos grupos vigilan muy de cerca el índice de Precios al Con-
sumidor, así como el índice de Precios al Productor, que mide las fluctuaciones de pre-
cios en todas las etapas de producción. Para combatir los incrementos muy marcados en
los precios, a menudo, la Reserva Federal eleva las tasas de interés a fin de "congelar" la
economía. De modo similar, el Promedio Industrial Dow Jones, que se publica todos los
días, describe el cambio general en los precios de las acciones comunes de 30 compañías
grandes durante el día.
Algunos índices de mercado accionario aparecen todos los días en la sección financie-
ra de casi todos los periódicos. En muchos sitios web se actualizan por lo menos cada 15
minutos, como la sección de USA Today (http://www.usatoday.com/money/front.htm). A
continuación, presentamos el Promedio Industrial Dow Jones, el Nasdaq y el S&P 500 del
sitio web de USA Today.

Números índice sencillos


¿Qué es un número índice?

NÚMERO ÍNDICE, Número que expresa el cambio relativo en el precio, la cantidad o el


valor en comparación con un periodo base.

Si el número índice se utiliza para medir el cambio relativo en una sola variable, como los
salarios por hora en la manufactura, nos referimos a él como un índice sencillo. Es la razón
de dos variables, y esa razón se convierte en un porcentaje. Los siguientes cuatro ejemplos
servirán para ilustrar el uso de los números índice en los negocios. Como señalamos en la
definición, el uso principal de un número índice en los negocios es mostrar el cambio por-
centual en uno o más artículos de un periodo a otro.

Según la Bureau of Labor Statistics, en enero de 1987, el sueldo promedio por hora de obre-
EJEMPLO ros era $8.90. En enero de 2003, era de $15.07. ¿Cuál es el índice de sueldos por hora de
los obreros para enero de 2003, con base en enero de 1987?
620 Capítulo 18

Es 169.3, calculado mediante:

Por tanto, el sueldo por hora en enero de 2003 comparado con el de enero de 1987 era
169.3%. Esto significa que hubo un incremento de 69.3% en los salarios por hora durante
el periodo, calculado así: 169.3 - 100.0 = 69.3.

Puede revisar la información más reciente sobre salarios, los índices de Precios al Con-
sumidor y otros valores relacionados con los negocios en el sitio web de Bureau of Labor
Statistics: http://www.bls.gov y hacer c//cen Wages. La tabla siguiente muestra algunas es-
tadísticas de BLS.

Según ACCRA, una organización de investigación no lucrativa que promueve las investiga-
ciones para el desarrollo económico y de la comunidad (http://www.accra.org), el costo me-
dio diario de un cuarto en un hospital promedio en Estados Unidos es $643.80. El precio
medio de un cuarto en un hospital privado de Las Vegas es $713.17. ¿Cuál es el índice para
Las Vegas con base en el promedio nacional?

El índice es 110.8, calculado a través de:


Números índice 621

Esto indica que el costo promedio de un cuarto en un hospital privado en Las Vegas es
110.8% del promedio en Estados Unidos. En otras palabras, el cuarto promedio en un hospi-
tal privado en Las Vegas cuesta 10.8% más que el promedio nacional (110.8 - 100.0 = 10.8).

Un índice también puede comparar un artículo con otro. En 2002, la población de la provin-
cia canadiense de la Columbia Británica era 4 141 272 y en Ontario era 12 068 301. ¿Cuál
es el índice de población de la Columbia Británica en comparación con Ontario?

Esto indica que la población de la Columbia Británica es 34.3% (alrededor de una tercera
parte) de la población de Ontario, o la población de la Columbia Británica es 65.7% más ba-
ja que la población de Ontario (100 - 34.3 = 65.7).

La siguiente pantalla de Excel muestra el número de pasajeros (en millones) para los cinco
aeropuertos más grandes en Estados Unidos durante 2002. ¿Cuál es el índice para Atlan-
ta, Chicago, Los Ángeles y Dallas/Ft. Worth en comparación con Denver?

Para encontrar los cuatro índices, dividimos los pasajeros para Atlanta, Chicago, Los Ánge-
les y Dallas/Ft. Worth entre el número en Denver. Llegamos a la conclusión de que Atlanta
tuvo 110% más pasajeros que Denver, Chicago 95% más, Los Ángeles 69% más y Da-
llas/Ft. Worth 52.9% más.
622 Capítulo 18

Del análisis anterior, debemos hacer notar que:


1. El índice de salarios por hora promedio de los obreros (169.3) y el índice del costo dia-
rio de un cuarto en un hospital privado (110.8) son realmente porcentajes porque se ba-
san en el número 100. Sin embargo, el símbolo de porcentaje casi siempre se omite.
2. Cada índice tiene un periodo base. En el ejemplo acerca del salario por hora prome-
dio de los obreros, utilizamos enero de 1987 como el periodo base. El periodo base pa
ra el índice de Precios al Consumidor es 1993-95. La razón de Paridad, que es la razón
de los precios que reciben los campesinos con los precios que pagan los campesinos,
todavía tiene 1910-14 como periodo base. Vea http://agriculture.house.gov/ glossay/pa-
rity_jatio.htm.
3. La mayor parte de los índices de negocios y económicos se calculan en el número en
tero más cercano como 214 o 96, o bien al décimo más cercano del porcentaje, como
83.4o118.7.

Para qué convertir datos en índices?


La recopilación de números índice no es una innovación reciente. Un italiano, G. R. Carli,
Los índices nos permiten
recibe el crédito de haber creado los números índice en 1764. Los incorporó en un reporte
expresar como porcentaje un
cambio en el precio, la
que hizo acerca de las fluctuaciones de precios en Europa entre 1500 y 1750. Hasta 1900
cantidad o el valor.
más o menos, ningún enfoque sistemático en la recolección y el reporte de datos en forma
de índice fue evidente en Estados Unidos. El índice del costo de la vida (que ahora se co-
noce como índice de Precios al Consumidor) se introdujo en 1913 y, desde entonces, se ha
creado una larga lista de índices.
¿Para qué convertir los datos en índices? Un índice es una forma conveniente de ex-
presar un cambio en un grupo de artículos diversos. Por ejemplo, en Estados Unidos el ín-
dice de Precios al Consumidor (IPC) comprende alrededor de 400 artículos, que incluyen
pelotas de golf, podadoras, hamburguesas, servicios funerarios y tarifas de dentistas. Los
precios se expresan en dólares por libra, caja, yarda y muchas otras unidades diferentes.
Sólo mediante la conversión de los precios de estos bienes y servicios diversos en un nú-
mero índice el gobierno federal y otros organismos que se preocupan por la inflación se
pueden mantener informados del movimiento general de los precios al consumidor.
La conversión de datos en índices también facilita la evaluación de la tendencia en una
serie compuesta por números muy elevados. Por ejemplo, el total de ventas al menudeo para
el mes de enero de 2003 fue $269 859 000. Mientras que en enero de 2002, el total de
ventas al menudeo fue $266 402 000. Este incremento de $3 457 000 parece significativo.
No obstante, si las ventas al menudeo de enero de 2003 se expresan como un índice ba-
sado en las ventas al menudeo de enero de 2002, el incremento es sólo de 1.3%.

Elaboración de números índice


Ya estudiamos la elaboración de un índice de precios sencillo. El precio en un año seleccio-
nado (como 2004) se divide entre el precio del año base. Este precio del periodo base se ex-
presa como p0, y un periodo que no sea el base se conoce a menudo como el periodo dado
o el periodo seleccionado, y se expresa como pt. Para calcular el índice de precios sencillos
P utilizando 100 como el valor de base para cualquier periodo dado usamos la fórmula:

Supongamos que el precio de un paquete de fin de semana durante el otoño (que in-
cluye hospedaje y todas las comidas) en el Tyron Mountain Lodge en el oeste de Carolina
del Norte durante 2000 era de $450, y en 2004, subió a $705. ¿Cuál es el índice de precio
para 2004 utilizando 2000 como el periodo base y 100 como el valor base? Es 176.7, calcu-
lado mediante:
Números índice 623

Interpretando este resultado, el precio del paquete de fin de semana en otoño aumentó
76.7% de 2000 a 2004.
El periodo base no necesita ser un solo año. Observe en la Tabla 18-1 que si usamos
1990-91 = 100, el precio base para la engrapadora sería $21 [calculado por la determina-
ción del precio medio de 1990 y 1991 ($20 + $22)/2 = $21]. Los precios $20, $22 y $23 se
promedian si 1990-92 se selecciona como base. El precio medio sería $21.67. En la Tabla
18-1 se presentan índices creados utilizando tres periodos de base diferentes. (Observe
que cuando 1990-92 = 100, los números índice para 1990, 1991 y 1992 promedian 100.0,
como podríamos esperar.) Como es lógico, los números índice para 2004 usando las tres
bases diferentes no son iguales.

TABLA 18-1 Precios de una engrapadora automática Benson. modelo 3, convertidos en índices utilizando
tres periodos de base diferentes

Autoevaluación 18-1 1. Los ingresos antes de impuestos durante el segundo trimestre de 2002 para algunas
compañías seleccionadas son:

Exprese el ingreso de Schering-Plough, Boeing, Exxon-Mobil y Johnson and Johnson co-


mo un índice, utilizando PepsiCo, Inc., como base (denominador) y 100 como el valor ba-
se. Interprete su resultado.
2. A continuación presentamos el salario por hora promedio de los obreros para enero de los
años seleccionados.
Año Ganancias por hora promedio

(a) Utilizando 1995 como el periodo base y 100 como el valor base, determine los índices
para los otros años. Interprete el índice.
(b) Use el promedio de 1995 y 1997 como la base y determine los índices para 2000 y 2003.
Interprete el índice.
624 Capítulo 18

Ejercicios
1. PNC Bank, Inc., que tiene su sede en Pittsburgh, Pennsylvania, reportó $17 446 (millo
nes) en préstamos comerciales durante 1995, $19, 989 en 1997, $21 468 en 1999,
$21 685 en 2000 y $15 922 en 2002. Usando 1995 como base, desarrolle un índice
sencillo para el cambio en los montos de los préstamos comerciales para los años
1997, 1999, 2000 y 2002.
2. La tabla siguiente reporta los precios accionarios ajustados para Home Depot en años
recientes. Desarrolle un índice, tomando 1995 como base, para el cambio en el precio
accionario durante el periodo.

3. A continuación se presentan las ventas netas, para Blair Corporation, un detallista de


ventas por correo localizado en Warren, Pennsylvania, para los años de 1995 a 2002.
Su sitio web es www.biair.com. Utilice las ventas medias para los primeros tres años a
fin de determinar una base y luego encontrar el índice para 2001 y 2002. ¿En cuánto
se incrementaron las ventas netas a partir del periodo base?

4. En enero de 1994, el precio de un pollo entero fresco era $0.899 por libra. En marzo de
2000, el precio del mismo pollo era $1.053. Utilice el precio de enero de 1994 como el
periodo base y 100 como el valor base para desarrollar un índice sencillo. ¿En qué por-
centaje aumentó el costo del pollo?

Índices no ponderados
En muchas situaciones, queremos combinar varios artículos y desarrollar un índice para
comparar el costo de este grupo de artículos en diferentes periodos. Por ejemplo, quizá nos
interese un índice para los artículos relacionados con los gastos de manejar y mantener un
automóvil. Los artículos en el índice podrían incluir llantas, cambios de aceite y precios de
la gasolina. O bien, podríamos estar interesados en el índice para estudiantes universita-
rios. Éste podría incluir libros, colegiaturas, vivienda, comidas y diversión. Hay varias for-
mas de combinar los artículos para determinar el índice.

Promedio simple de los índices de precios


La Tabla 18-2 reporta los precios para varios artículos de comida durante los años 1995 y
2003. Nos gustaría desarrollar un índice para este grupo de artículos de comida para 2003,
utilizando 1995 como la base. Esto se expresa con el código abreviado 1995 = 100.
Números índice 625

TABLA 18-2 Cálculo del índice de Precios para los Alimentos 2003, 1995 = 100

Empezaríamos por calcular un promedio simple de los índices de precios para ca-
da artículo, utilizando 1995 como el año base y 2003 como el año determinado. El índice
simple para el pan es 115.6, que se calculó usando la fórmula (18-1).

Calculamos el índice simple para los otros artículos en la Tabla 18-2 de manera similar. El
mayor incremento de precio fue para el pan, 15.6%, y la leche quedó en un segundo lugar
muy cercano con 14.8%. El precio del huevo bajó medio punto porcentual en el periodo, que
calculamos mediante 100.0 - 99.5 = 0.5. Así, sería natural promediar los índices simples.
La fórmula es:

donde P. se refiere al índice simple para cada uno de los artículos y n al número de artícu-
los. En nuestro ejemplo el índice es 108.2, calculado a través de:

Esto significa que la media del grupo de índices se incrementó 8.2% de 1995 a 2003.
Una característica positiva del promedio simple de índices de precios es que obtene-
mos el mismo valor para el índice sin importar las unidades de medición. En el índice ante-
rior, si las manzanas tienen un precio por tonelada, en lugar de libras, el impacto de las
manzanas sobre el índice combinado no cambia. Es decir, la mercancía "manzanas" repre-
senta uno de los seis artículos en el índice, de modo que su impacto no se relaciona con
las unidades. Una característica negativa de este índice es que no considera la importan-
cia relativa de los artículos incluidos en él. Por ejemplo, la leche y el huevo reciben la mis-
ma ponderación, aun cuando una familia típica puede gastar mucho más durante un año en
leche que en huevo.

Índice agregado simple


Una segunda posibilidad es sumar los precios (en lugar de los índices) para los dos perio-
dos y luego determinar el índice con base en los totales. La fórmula es:

A éste se le conoce como índice agregado simple. El índice para los artículos antes men-
cionados se calcula sumando los precios en 1995 y 2003. La suma de los precios para el
periodo base es $10.94 y para el periodo determinado es $11.62. El índice agregado sim-
626 Capítulo 18

pie es 106.2. Esto significa que el grupo de precios agregado ha aumentado 6.2% en el pe-
riodo de ocho años.

Como las unidades de medición pueden influir en el valor de un índice agregado sim-
ple, éste no se debe usar con frecuencia. En nuestro ejemplo, el valor del índice cambiaría
de manera significativa si reportáramos el precio de las manzanas por toneladas en lugar
de libras. Asimismo, observe el efecto del café en el índice total. Tanto para el año en cur-
so como para el año base, el valor del café constituye aproximadamente 40% del índice to-
tal, de modo que un cambio en su precio cambiará el índice en mayor medida que cualquier
otro artículo. De modo que necesitamos una forma de "ponderar" los artículos de acuerdo
con su importancia relativa.

Índices ponderados
Dos métodos para calcular el índice de precios ponderado son el método de Laspeyres y
el de Paasche. Difieren sólo en el periodo utilizado para la ponderación. El método de Las-
peyres usa ponderaciones en el periodo base; es decir, los precios y cantidades originales
de los artículos comprados se utilizan para encontrar el cambio porcentual a través de un pe-
riodo ya sea en precio o en cantidad consumida, dependiendo del problema. El método de
Paasche utiliza ponderaciones en el año en curso para el denominador del índice ponderado.

Índice de precios de Laspeyres


En los últimos años del siglo XVIII, Etienne Laspeyres desarrolló un método para determinar
un índice ponderado utilizando las ponderaciones del periodo base. Al aplicar su método,
un índice de precios ponderado se calcula así:

donde:
es el índice de precios.
es el precio actual.
es el precio en el periodo de base.
es la cantidad utilizada en el periodo base.

Los precios para los seis artículos de comida de la Tabla 18-2 se repiten a continuación en
la Tabla 18-3. También se incluye el número de unidades de cada uno que consumió una
familia típica en 1995 y 2003.

TABLA 18-3 Cálculo de los índices de Laspeyres y Paasche del precio de los alimentos, 1995 = 100
Números índice 627

Determine un índice de precios ponderado utilizando el método de Laspeyres. Interprete el


resultado.

Primero, determinamos la cantidad total gastada para los seis artículos en el periodo base,
1995. Para encontrar este valor, multiplicamos el precio del periodo base para el pan
($0.77) por la cantidad de ese periodo, que es de 50. El resultado es $38.50. Esto indica
que un total de $38.50 se gastó en pan durante el periodo base. Hacemos lo mismo para
todos los artículos y sumamos los resultados. El periodo base total es $336.16. El periodo
actual total se calcula de manera similar. Para el primer artículo, el pan, multiplicamos la
cantidad en 1995 por el precio del pan en 2003, es decir, $0.89(50). El resultado es $44.50.
Hacemos los mismos cálculos para cada artículo y sumamos el resultado. El total es
$365.60. Debido a la naturaleza repetitiva de estos cálculos, una hoja de cálculo es efecti-
va para realizarlos. A continuación presentamos la pantalla de Excel.

El índice de precios ponderado para 2003 es 108.8, calculado así:

Con base en este análisis, llegamos a la conclusión de que el precio de este grupo de
artículos aumentó 8.8% en el periodo de ocho años. La ventaja de este método sobre el ín-
dice agregado simple es que se toma en cuenta la importancia de cada artículo. En el índi-
ce agregado simple, el café tuvo una ponderación de casi 40% al determinarlo. En el índice
de Laspeyres, el artículo más importante es la leche, porque el producto del precio y las uni-
dades vendidas es el más alto.

Índice de precios de Paasche


La principal desventaja del índice de Laspeyres es que supone que las cantidades del pe-
riodo base siguen siendo realistas en el periodo determinado. Es decir, las cantidades utili-
zadas para los seis artículos son casi las mismas en 1995 y en 2003. En este caso, observe
que la cantidad de huevo comprado bajó 23%, la cantidad de leche aumentó casi 28% y el
número de manzanas se incrementó 33%.
El índice de Paasche es una alternativa. El procedimiento es similar, pero en lugar de
utilizar las ponderaciones del periodo base, usamos las ponderaciones actuales. Emplea-
628 Capítulo 18

mos la suma de los productos de los precios de 1995 y las cantidades de 2003. Tiene la
ventaja de que usa las cantidades más recientes. Si ha habido un cambio en las cantida-
des consumidas desde el periodo base, éste se refleja en el índice de Paasche.

Utilice la información de la Tabla 18-3 para determinar el índice de Paasche. Analice cuál
de los índices debe usar.

Una vez más, debido a la naturaleza repetitiva de los cálculos, usamos Excel para realizar-
los. Los resultados se muestran en la pantalla siguiente.

El índice de Paasche es 109.4, calculado mediante

Este resultado indica que, entre 1995 y 2003, hubo un aumento de 9.4% en el precio de
mercado de esta canasta de productos. Es decir, costaba 9.4% más comprar estos artículos
en 2003 que lo que costaba en 1995. Considerando todo esto, debido al cambio en las canti-
dades compradas entre 1995 y 2003, el índice de Paasche refleja mejor la situación actual.
Debemos hacer notar que el índice de Laspeyres se utiliza con mayor frecuencia. El índice de
Precios al Consumidor, que es el más reportado, es un ejemplo de un índice de Laspeyres.

¿Cómo decidimos qué índice vamos a usar? ¿Cuándo el índice de Laspeyres es el más
apropiado y cuándo el de Paasche es una mejor opción?

Índice de Laspeyres
Ventajas Requiere de información sobre las cantidades sólo del periodo base. Esto
permite una comparación más significativa a través del tiempo. Los
cambios en el índice se pueden atribuir a cambios en el precio.
Desventajas No refleja los cambios en los patrones de compra a través del tiempo.
Además, puede ponderar demasiado los artículos cuyos precios se incre-
mentan.
Números índice 629

Índice de Paasche
Ventajas Como utiliza las cantidades del periodo actual, refleja los hábitos de com-
pra actuales.
Desventajas Requiere de la información sobre las cantidades de cada año, misma que
puede ser difícil de obtener. Debido a que se usan distintas cantidades
cada año, es imposible atribuir los cambios en el índice a aquellos en los
precios solamente. Suele ponderar demasiado los artículos cuyos pre-
cios han bajado. Es necesario volver a calcular los precios cada año.

Índice ideal de Fisher


Como ya dijimos, el índice de Laspeyres tiende a ponderar demasiado los artículos cuyos
precios han aumentado. Por otro lado, el índice de Paasche tiende a ponderar demasiado
los artículos cuyos precios han bajado. En un intento por compensar estas desventajas, Ir-
ving Fisher, en su libro The Making of Index Numbers, que se publicó en 1922, propuso un
índice llamado índice ideal de Fisher. Es la media geométrica de los índices de Laspey-
res y Paasche. En el Capítulo 3 describimos la media geométrica; se determina tomando la
k-ésima raíz del producto de k números positivos.

En teoría, el índice de Fisher parece ser ideal porque combina las mejores característi-
cas de los índices de Laspeyres y Paasche. Es decir, logra equilibrar los efectos de los dos.
Sin embargo, en la práctica, rara vez se utiliza porque tiene los mismos problemas que el ín-
dice de Paasche. Es necesario determinar un nuevo conjunto de cantidades para cada año.

Autoevaluación 18-2 Es necesario elaborar un índice de precios de la ropa para 2004 basado en 2000. Las pren-
das de ropa que se consideran son zapatos y vestidos. A continuación, proporcionamos la in-
formación sobre los precios y cantidades de ambos años. Utilice el año 2000 como periodo
base y 100 como el valor base.

(a) Determine el promedio simple de los índices de precios.


(b) Determine los índices de precios agregados para los dos años.
(c) Determine el índice de precios de Laspeyres.
(d) Determine el índice de precios de Paasche.
(e) Determine el índice ideal de Fisher.
630 Capítulo 18

Ejercicios
Para los ejercicios 5 a 8:

a. Determine los índices de precios simples. d. Determine el índice de precios de


b. Determine los índices de precios Paasche.
agregados simples para los dos años. e. Determine el índice ideal de Fisher.
c. Determine el índice de precios de Laspeyres.

5. A continuación, presentamos los precios de la pasta de dientes (9 oz), el champú (7 oz), las
pastillas para la tos (paquete de 100) y el desodorante (2 oz) en agosto de 2000 y agosto
de 2003. También incluimos las cantidades compradas. Utilice agosto de 2000 como base.

6. A continuación, presentamos los precios de la fruta y las cantidades consumidas para 2000
y 2003. Utilice 2000 como base.

7. A continuación, se reportan los precios y números de diversos artículos producidos por una
máquina pequeña y una planta troqueladora. Use el 2000 como base.

8. A continuación, encontrará las cantidades y precios de Kinzua Valley Geriatrics durante


2000 y 2003. Use el 2000 como periodo base.
Números índice 631

Índice de valores
Un índice de valores mide el Un índice de valores mide los cambios tanto en el precio como en las cantidades involu-
porcentaje de cambio en el cradas. Un índice de valores, como el índice de las ventas en tiendas departamentales, ne-
valor cesita los precios del año base, las cantidades del año base, los precios del año actual y
las cantidades del año en curso para su elaboración. Su fórmula es:

Los precios y cantidades vendidas en Waleska Department Store para diversas prendas de
ropa en mayo de 2000 y mayo de 2003 son:

Las ventas totales en mayo de 2003 fueron $10 600 000 y la cifra comparable para 2000 es
$9 000 000. (Vea la Tabla 18-4.) Por tanto, el índice de valores para mayo de 2003 usan-
do 2000 = 100 es 117.8. El valor de las ventas de ropa en 2003 fue 117.8% de las ventas
del 2000. En otras palabras, el valor de las ventas de ropa aumentó 17.8% de mayo de 2000
a mayo de 2003.

TABLA 18-4 Construcción de un índice de valores para 2003 (2000 = 100)


632 Capítulo 18

Autoevaluación 18-3 El número de artículos producidos por Houghton Products en 1996 y 2004, y los precios al
mayoreo para ambos periodos son:

(a) Encuentre el índice de valores de la producción de 2004 utilizando 1996 como periodo
base.
(b) Interprete el índice.

Ejercicios
9. Los precios y la producción de grano en agosto de 1995 y agosto de 2003 fueron:

Utilizando 1995 como periodo base, encuentre el índice de valores del grano producido en
agosto de 2003.
10. The Johnson Wholesale Company fabrica diversos productos. Los precios y cantidades pro-
ducidas en abril de 1994 y abril de 2003 son:

Utilizando abril de 1994 como periodo base, encuentre el índice del valor de los bienes pro-
ducidos en abril de 2003.

Índices para propósitos especiales


Organizaciones privadas preparan y publican muchos de los índices importantes. J. D. Po-
wer & Associates realiza encuestas entre propietarios de automóviles para determinar qué
tan satisfechos están con su vehículo después de un año de tenerlo. Este índice especial se
llama índice de Satisfacción del Consumidor. Instituciones financieras, compañías de servi-
cios públicos y centros de investigación universitarios a menudo preparan índices de desem-
pleo, jornadas laborales y salarios, y ventas al menudeo para las regiones en las que se
Números índice 633

encuentran. Muchas asociaciones comerciales elaboran índices de precios y cantidades


que son vitales para su área de interés en particular. ¿Cómo se elaboran estos índices es-
peciales? El siguiente ejemplo nos ayudará a explicarlo con más detalle.

La Cámara de Comercio de Seattle quiere desarrollar una medida de la actividad de nego-


cios general para el noroeste de Estados Unidos. El director de desarrollo económico tiene
la tarea de desarrollar el índice, y lo va a llamar índice General de Actividades de Negocios
del Noroeste.

Después de muchas ideas e investigaciones, el director llegó a la conclusión de que es ne-


cesario tomar en cuenta cuatro factores: las ventas en tiendas departamentales de la región
(que se reportan en millones de $), el índice de empleo regional (que tiene como base 1995
y lo reporta el estado de Washington), los embarques en transportes de carga (reportados
en millones) y las exportaciones del muelle de Seattle (reportadas en miles de toneladas).
La Tabla 18-5 presenta información reciente sobre estas variables.

TABLA 18-5 Datos para el calculo del índice General de Actividades de Negocios del Noroeste

Después de una revisión y varias consultas, el director asignó ponderaciones de 40% a las
ventas de las tiendas departamentales, 30% al empleo, 10% a los transportes de carga y
20% a las exportaciones.
Para desarrollar el índice General de Actividades de Negocios del Noroeste para 2004
con base en 1995 = 100, cada valor de 2004 se expresa como un porcentaje, con el valor
del periodo de base como denominador. Para ilustrar, las ventas de las tiendas departa-
mentales para 2004 se convierten en un porcentaje calculado ($44/$20)(100) = 220. Esto
significa que las ventas de tiendas departamentales aumentaron 120% en el periodo. Este
porcentaje se ajusta mediante la ponderación apropiada. Para las ventas de las tiendas de-
partamentales es (220)(0.40) = 88.0. Los detalles de los cálculos para los años 2000 y 2004
se presentan a continuación.

El índice General de Actividades de Negocios del Noroeste para 2000 es 157.0 y para
2004 es 157.1. Interpretando lo anterior, las actividades de negocios se incrementaron
57.0% de 1995 a 2000 y 57.1% del periodo base de 1995 a 2004.

Como dijimos al principio de esta sección, hay muchos índices para propósitos espe-
ciales, y éstos son algunos ejemplos.

Índice de Precios al Consumidor. La U.S. Bureau of Labor Statistics reporta este índice
cada mes. Describe los cambios en los precios de un periodo a otro para una "canasta bá-
sica" de productos y servicios. En la siguiente sección, estudiamos su historia con detalle y
634 Capítulo 18

presentamos algunas de sus aplicaciones. Usted tendrá acceso a esta información si visita
www.bls.org, busca Prices & Living Conditions, selecciona Consumer Price Index-AII
Urban Consumers, Most Requested Statistics y hace clic en U.S. all ítems 1982-84 =
100. Quizá prefiera incluir distintos periodos. A continuación, presentamos el resumen de
un informe reciente.

índice de Precios del Productor. Antes se llamaba índice de Precios al Mayoreo, data de
1890 y también lo publica la U.S. Bureau of Labor Statistics. Refleja los precios de más de
3 400 productos. La información de precios se recopila de los vendedores de los productos
y casi siempre se refiere a la primera operación de alto volumen para cada producto. Es un
índice tipo Laspeyres. Para tener acceso a esta información, visite www.bls.gov, vaya a la
sección Prices & Living Conditions, seleccione Producer Price Index-Commodities, Most
Requested Statistics y luego Finished Goods. Puede incluir distintos periodos. A conti-
nuación, presentamos una pantalla reciente.

Promedio Industrial Dow Jones (DJIA). Éste es un índice de precios accionarios, pero tal
vez sería mejor decir que es un "indicador" más que un índice. Se supone que es el precio
medio de 30 acciones industriales específicas. Sin embargo, si sumamos las 30 acciones y
Números índice 635

dividimos entre 30 no calculamos su valor. Esto se debe a las divisiones accionarias, las fu-
siones y las acciones que se agregan o eliminan. Cuando ocurre algún cambio, se hacen
ajustes en el denominador que se usa con el promedio. En la actualidad, el DJIA es más un
indicador psicológico que una representación del movimiento de precios general en la Bol-
sa de Valores de Nueva York. La falta de representatividad de las acciones en el DJIA es
una de las razones por las que se desarrolló el índice de la Bolsa de Valores de Nueva
York (NYSEI por sus siglas en inglés). Este índice se creó como un precio promedio de to-
das las acciones en la Bolsa de Valores de Nueva York. Puede encontrar más información
sobre el DJIA en el sitio web www.dowjones.com. También encontrará el valor actual de las
30 acciones que forman parte de su cálculo. La pantalla siguiente resume el DJIA para un
día, y la encuentra en http://bigcharts.marketwatch.com.

Índice S&P 500. El nombre completo de este índice es índice Compuesto de Precios Ac-
cionarios de Standard & Poor's. Se trata de un índice agregado de los precios de 500 accio-
nes comunes. También refleja mejor el mercado que el DJIA. En el sitio web de Dow Jones
tiene acceso a la información acerca del S&P 500. A continuación, presentamos un resu-
men reciente.
636 Capítulo 18

Existen muchos otros índices que registran el comportamiento económico y de nego-


cios, como Nasdaq, Russell 2000 y Wilshire 5000.

Autoevaluación 18-4 Como pasante en la Fulton County Economic Development Office, le piden que desarrolle un
índice para propósitos especiales del condado. Tres series económicas parecen ser adecua-
das para la base de un índice. Estos datos son el precio del algodón (por libra), el número de
autos nuevos vendidos en el condado y los movimientos de dinero (publicados por el banco
local). Después de discutir el proyecto con su supervisor y con el director, decide que la recu-
peración monetaria debe tener una ponderación de 0.60, el número de autos nuevos vendi-
dos de 0.30 y el precio del algodón de 0.10. El periodo base es 1995.

Ejercicios
11. El índice de los principales indicadores económicos, compilado y publicado por la U.S. Na-
tional Bureau of Economic Research, está compuesto por 12 series de tiempos, como el pro-
medio de horas laborales de producción en la manufactura, los nuevos pedidos de los
fabricantes y la oferta de dinero. Este índice y otros similares están diseñados para mover-
se hacia arriba o hacia abajo antes de que la economía empiece a moverse en la misma di-
rección. De esta manera, un economista tiene evidencias estadísticas para proyectar las
tendencias futuras.
Usted quiere elaborar un indicador principal para Erie County en el norte del estado de
Nueva York. El índice se va a basar en los datos de 2000. Debido al tiempo y trabajo reque-
ridos, decide usar sólo cuatro series de tiempo y, como experimento, selecciona estas cua-
tro: desempleo en el condado, un índice combinado de precios accionarios en el condado,
índice de Precios del Condado y ventas al detalle. Éstas son las cifras para 2000 y 2003.

Las ponderaciones que asigna son: tasa de desempleo: 20%, precios accionarios: 40%, ín-
dice de Precios del Condado: 25% y ventas al detalle: 15%.
a. Utilizando 2000 como periodo de base, elabore un indicador principal económico para
2003.
b. Interprete su índice.
12. Usted trabaja en la oficina estatal de desarrollo económico, y es necesario crear un índice
económico para revisar la actividad económica en el pasado y proyectar las tendencias eco-
nómicas futuras en el estado. Decide que debe incluir varios factores clave: número de ne-
gocios iniciados durante el año, número de fracasos en los negocios, las ganancias del
estado en impuesto sobre el ingreso, inscripciones en las universidades y las ganancias fis-
cales sobre las ventas en el estado. Éstos son los datos para 2000 y 2003.
Números índice 637

a. Decida las ponderaciones que va a aplicar para cada elemento en el índice.


b. Calcule el principal indicador económico para 2003.
c. Interprete los índices.

Índice de precios al consumidor


Hay dos índices de precios al En páginas anteriores, mencionamos con frecuencia el índice de Precios al Consumidor
consumidor. (IPC). Mide los cambios en el precio de una canasta básica fija de bienes y servicios de un
periodo a otro. En enero de 1978, la Bureau of Labor Statistics empezó a publicar el IPC
para dos grupos de la población. Un índice, llamado índice de Precios al Consumidor-To-
dos los Consumidores Urbanos, cubre alrededor de 87% de la población total. El otro índi-
ce es para las personas que reciben un salario y el personal de oficina en las ciudades y
cubre aproximadamente 32% de la población.
En resumen, el IPC tiene varias funciones importantes. Permite a los consumidores de-
terminar el grado en que su poder de compra se reduce debido a los incrementos en los pre-
cios. En ese aspecto, es una medida para la revisión de salarios, pensiones y otros ingresos,
a fin de ir a la par con los cambios en los precios. También es muy importante el hecho de
que se trata de un indicador económico de la tasa de inflación en Estados Unidos.
El índice incluye alrededor de 400 artículos y casi 250 agentes recopilan la información
de los precios cada mes. Los precios se recopilan de más de 21 000 tiendas detallistas y
60 000 unidades residenciales en 91 áreas urbanas en todo el país. Los precios de cunas
para bebé, pan, cerveza, cigarros, gasolina, cortes de cabello, tasas de interés hipotecario,
honorarios médicos, impuestos y tarifas de salas de operaciones son sólo algunos de los
artículos que se incluyen en la que a menudo se conoce como "canasta básica" de bienes
y servicios que se adquieren.
El IPC se originó en 1913 y se publica en forma regular desde 1921. El periodo de re-
ferencia estándar (periodo base) es 1982-84. Los primeros periodos base fueron: 1967,
1957-59, 1947-49, 1935-39 y 1925-29. ¿Por qué es necesario cambiar la base? Nuestros
patrones de gasto cambian en forma muy marcada, y estos cambios se deben reflejar en el
índice. La revisión más reciente incluye artículos para el consumidor, como videocasete-
ras, computadoras caseras y teléfonos celulares. Las primeras versiones del IPC no in-
cluían estos artículos. Al cambiar la base, el IPC incluye los patrones de gasto más
recientes. Tal vez quiera visitar www.bls.gov, hacer clic en Consumer Price Index y leer
más al respecto.
En realidad, el IPC no es un solo índice. Hay índices de Precios al Consumidor para
Nueva York, Chicago, Seattle y Atlanta, así como otras ciudades grandes. También hay ín-
dices de precios para alimentos, ropa, servicios médicos y otros artículos. Algunos de ellos
se muestran a continuación, 1982-84 = 100, para septiembre de 2003.
638 Capítulo 18

Una revisión de esta lista muestra que un índice ponderado de todos los artículos ha
aumentado 85.2% desde 1982-84; los servicios médicos son los que más se incrementa-
ron, 199.2%; y la ropa y la manutención son las que menos aumentaron, 22.0%.

Usos especiales del índice de Precios al Consumidor


Además de medir los cambios en los precios de bienes y servicios, los dos índices de Pre-
cios al Consumidor tienen muchas otras aplicaciones. El I PC se utiliza para determinar el
ingreso personal real, para la deflación de las ventas u otras variables, para calcular el po-
der de compra del dólar y establecer los incrementos en el costo de la vida. Primero, estu-
diamos el uso del I PC para determinar el ingreso real.

Ingreso real. Ingreso real. Como ejemplo del significado y el cálculo del ingreso real, suponga que en la
actualidad el índice de Precios al Consumidor es 200 con 1982-84 = 100. Asimismo, supon-
ga que la señorita Watts ganaba $20 000 anuales en el periodo de base de 1982, 1983 y
1984. En la actualidad, tiene un ingreso de $40 000. Observe que, aun cuando su ingreso
monetario se ha duplicado desde el periodo de base de 1982-84, los precios que paga por
los alimentos, la gasolina, la ropa y otros artículos también se han duplicado. Por tanto, el
estándar de vida de la señorita Watts ha sido el mismo desde el periodo de base hasta la
actualidad. Los incrementos en los precios son exactamente iguales al aumento en el ingre-
so, de modo que su poder de compra actual (el ingreso real) sigue siendo $20 000. (Vea la
Tabla 18-6, para los cálculos.) En general:

TABLA 18-6 Cálculo del ingreso real para 1982-84 y el año en curso

El ingreso de deflación y el El concepto de ingreso real en ocasiones se conoce como ingreso de deflación. Asimis-
ingreso real son lo mismo. mo, un término popular para este ingreso es ingreso expresado en dólares en efectivo. Por
tanto, en la Tabla 18-6, para determinar si el estándar de vida de la señorita Watts ha cam-
biado, su ingreso monetario se convirtió en dólares en efectivo. Descubrimos que su poder
de compra, expresado en dólares de 1982-84 (dólares constantes), sigue siendo $20 000.

El salario neto de Jon Greene y el I PC para 2000 y 2003 son:


Autoevaluación 18-5

(a) ¿Cuál era el ingreso real de Jon en 2000?


(b) ¿Cuál era su ingreso real en 2003?
(c) Interprete sus hallazgos.
Números índice 639

Las ventas deflacionadas son Ventas de deflación. Un índice de precios también se puede utilizar para "deflacionar" las
importantes para mostrar la ventas o series monetarias similares. Las ventas deflacionadas se determinan mediante
tendencia en las ventas
"reales".

Las ventas de Hill Enterprises, una pequeña compañía de moldeado por inyección al norte
del estado de Nueva York, aumentaron de $875 000 en 1982 a $1 482 000 en 1995, $1
491 000 en 2000 y $1 502 000 en 2004. El propietario, Harry Hill, se da cuenta de que el
precio de la materia prima que se utiliza en el proceso también se incrementó durante el
periodo, de modo que el señor Hill quiere deflacionar las ventas a fin de tomar en cuenta el
aumento en los precios de la materia prima. ¿Cuáles son las ventas deflacionadas para
1995, 2000 y 2004 con base en los dólares de 1982? Es decir, ¿cuáles son las ventas para
1995, 2000 y 2004 expresadas en dólares constantes de 1982?

El índice de Precios del Productor (IPP) es un índice que se emite cada mes y se publica
en Monthly Labor Review y también está disponible en el sitio web de la Bureau of Labor
Statistics. Los precios que se incluyen en el IPP reflejan los precios que paga el fabricante
por el metal, el plástico y otros artículos que compra. De modo que el IPP parece un índice
apropiado para utilizarlo a fin de deflacionar las ventas del fabricante. Estas últimas se pre-
sentan en la segunda columna de la Tabla 18-7, y el IPP para enero de cada año se en-
cuentra en la tercera columna. La siguiente columna muestra las ventas divididas entre el
IPP. La columna de la derecha presenta los detalles de los cálculos. Los resultados se
muestran en la siguiente pantalla de Excel.

Las ventas reales aumentaron de 1995 a 2004, pero si comparamos las ventas en dó-
lares constantes, las ventas bajaron durante el periodo. Es decir, las ventas deflacionadas
fueron $1 139 908 en 2000, pero bajaron a $1 105 224 en 2004. Esto se debe a que los
precios que Hill Enterprises pagó por la materia prima aumentaron con mayor rapidez que
las ventas.

¿Qué ha sucedido con el poder Poder de compra del dólar. El índice de Precios al Consumidor también se utiliza para de-
de compra de su dinero? terminar el poder de compra del dólar.
640 Capítulo 18

Suponga que el índice de Precios al Consumidor este mes es 200.0 (1982-84 = 100). ¿Cuál
es el poder de compra del dólar?

A partir de la fórmula (18-10), es 50 centavos, calculado así:

El I PC de 200.0 indica que los precios se duplicaron desde los años 1982-84 hasta este
mes. Por tanto, el poder de compra del dólar se redujo a la mitad. Es decir, un dólar de
1982-84 vale sólo 50 centavos este mes. En otras palabras, si perdió $1 000 en el periodo
de 1982-84 y los encontró recientemente, con ese dinero puede comprar sólo la mitad de
lo que habría comprado en los años 1982, 1983 y 1984.

El IPC se usa para ajustar Ajustes en el costo de la vida. En Estados Unidos el índice de Precios al Consumidor (IPC)
salarios, pensiones y demás. también es la base para los ajustes en el costo de la vida de muchos contratos entre admi-
nistradores y sindicatos. La cláusula específica en el contrato a menudo se conoce como
"cláusula escaladora" o COLA. Alrededor de 31 millones de beneficiarios del Seguro Social,
2.5 millones de militares jubilados y empleados y jubilados de servicios civiles federales, y
600 000 trabajadores del servicio postal basan sus ingresos o pensiones en el IPC.
Este índice también se usa para ajustar los pagos de pensión alimenticia y manuten-
ción de los hijos; honorarios de abogados; compensaciones para trabajadores; rentas de
departamentos, casas y edificios de oficinas; pagos del seguro de desempleo; etc. En resu-
men, digamos que un jubilado recibe una pensión de $500 al mes y que el IPC aumenta 5
puntos, de 165 a 170. Suponga que por cada punto de incremento del IPC, las pensiones
se incrementan 1.0%, de modo que el aumento mensual será de $25, calculado así: $500
(5 puntos)(0.01). Ahora, el jubilado va a recibir $525 al mes.

Autoevaluación 18-6 Suponga que el índice de Precios al Consumidor para el último mes es 178.6 (1982-84 = 100).
¿Cuál es el poder de compra del dólar? Interprete su respuesta.

Cambio de la base
Si dos o más series de tiempos tienen el mismo periodo base, se pueden comparar direc-
tamente. Por ejemplo, suponga que nos interesa conocer la tendencia en los precios de los
alimentos y las bebidas, la vivienda, los servicios médicos, etcétera, desde el periodo de ba-
se, 1982-84. En la Tabla 18-8, observe que todos los índices de precios al consumidor uti-
lizan la misma base. Por tanto, podemos decir que el precio de todos los artículos para el
consumidor combinados aumentó 78.9% desde el periodo de base (1982-84) hasta el año
2002. De modo similar, los precios de la vivienda se incrementaron 80.3%, los servicios mé-
dicos 189.3%, etcétera.

TABLA 18-8 Tendencia en los precios al consumidor para 2002 (1982-84 = 100)
Números índice 641

Sin embargo, surge un problema cuando dos o más series que se comparan no tienen
el mismo periodo base. El ejemplo siguiente compara los dos índices de negocios más co-
munes, el DJIA y el Nasdaq.

Queremos comparar los cambios de precios en el Promedio Industrial Dow Jones con el
Nasdaq. Los dos índices en los periodos seleccionados son los siguientes.

Con la información proporcionada, no estamos seguros de que los periodos base sean igua-
les, de modo que la comparación directa no es apropiada. Como queremos comparar los
cambios en los dos índices de negocios, lo lógico es que un año en particular, 1995, sirva
de base para ambos periodos. Para el Dow Jones, la base es 5 117.12 y para el Nasdaq
es 1 059.79.
Los cálculos para el Nasdaq 2002 utilizando 1995 = 100 son:

La siguiente pantalla de Excel reporta todo el conjunto de índices.

Llegamos a la conclusión de que los índices aumentaron durante el periodo. El Dow Jo-
nes se incrementó más, 63.01% en comparación con 26.02%. Los dos bajaron de 2000 a
2002, siendo más pronunciada la caída del Nasdaq.
La gráfica siguiente que obtuvimos de la sección financiera de Yahoo!, muestra una
comparación visual de los índices Dow Jones y Nasdaq. El eje vertical indica el cambio por-
centual a partir del año base de 1998 para ambos. Por esta gráfica podemos llegar la con-
clusión de que ambas medidas se han reducido en un periodo de cinco años, pero que el
Nasdaq ha bajado más.
642 Capítulo 18

Autoevaluación 18-7 1. En el ejemplo anterior, verifique que el índice de precios Dow Jones para 2000, utilizan
do 1995 como periodo base, sea 210.80.
2. Queremos comparar los cambios en la producción industrial y en los precios que los fa
bricantes pagan por la materia prima desde 1982. Por desgracia, el índice de producción
industrial, que mide los cambios en la producción, y el índice de Precios del Productor,
que mide los cambios en los precios de la materia prima, tienen distintos periodos base.
El índice de producción tiene 1977 como periodo base y el índice de Precios del Produc
tor utiliza 1982 como base. Si cambiamos la base a 1982, podremos comparar ambas se
ries. Interprete su respuesta.

Ejercicios
13. En febrero de 2003, el salario medio para una supervisora de enfermeras con licenciatura era
$82 855. El índice de Precios al Consumidor para febrero de 2003 era 183.1 (1982-84 = 100).
El salario medio anual para una enfermera en el periodo de base de 1982-84 era $19 800.
¿Cuál era el ingreso real de la enfermera en 2003? ¿Cuánto ha subido el salario medio?
14. La Trade Union Association of Orlando, Florida, mantiene índices sobre los sueldos por ho-
ra para varias operaciones comerciales. Por desgracia, no todos los índices tienen los mis
mos periodos base. A continuación presentamos la información sobre plomeros y electricis
tas. Cambie los periodos base a 2000 y compare los incrementos en los salarios por hora.
Números índice 643

15. En 1995, el salario medio de los profesores en la Tinora School District era $28 650. Para
2000, el salario medio aumentó a $33 972 y todavía más en 2004 a $37 382. La American
Federation of Classroom Teachers conserva información sobre las tendencias en Estados
Unidos entre los salarios de los maestros de escuela. Su índice, que tiene 1995 como pe
riodo base, es 122.5 para 2000 y 136.9 para 2004. Compare los salarios de los maestros de
Tinora con las tendencias nacionales.
16. Sam Steward es un diseñador de páginas web que trabaja por su cuenta. A continuación
presentamos sus ingresos anuales para los años de 1995 a 2004. También se incluye un ín
dice industrial para diseñadores de páginas web que reporta la tasa de inflación salarial en
la industria. Este índice tiene 1995 como periodo de base.

Calcule el ingreso real de Sam para el periodo. ¿Sus ingresos van a la par con la inflación
o ha perdido terreno?

Resumen del capítulo


I. Un número índice mide el cambio relativo de un periodo a otro.
A. Las principales características de un índice son:
1. Es un porcentaje, pero casi siempre se omite el signo de porcentaje.
2. Tiene un periodo base.
3. La mayor parte de los índices se reportan en el decimal más cercano a un porcentaje,
como 153.1.
4. La base de casi todos los índices es 100.
B. Las razones para calcular un índice son:
1. Facilita la comparación de series desiguales.
2. Si los números son muy altos, a menudo es más fácil entender el cambio del índice
que el de las cifras reales.
II. Hay dos tipos de índices de precios, ponderados y no ponderados.
A. En un índice no ponderado no consideramos las cantidades.
1. En un índice simple, comparamos el periodo base con el periodo determinado.

donde pt se refiere al precio en el periodo actual y p0 es el precio en el periodo base. 2.


En el promedio simple de índices de precios, sumamos los índices simples para cada
artículo y los dividimos entre el número de artículos.

3. En un índice de precios agregado simple, se suman los precios de los artículos en el


grupo para ambos periodos y se comparan.
644 Capítulo 18

B. En un índice ponderado, se consideran las cantidades.


1. En el método de Laspeyres, las cantidades del periodo base se utilizan tanto en el pe-

2. En el método de Paasche, se usan las cantidades del periodo actual.

ríodo base como en el actual.

3. El índice ideal de Fisher es la media geométrica del índice de Laspeyres y del índice de
Paasche.

C. Un índice de valores utiliza los precios y cantidades del periodo base y del actual.

III. El índice que se reporta con mayor frecuencia es el índice de Precios al Consumidor (IPC).
A. A menudo se usa para mostrar la tasa de inflación en Estados Unidos.
B. La U.S. Bureau of Labor Statistics lo reporta cada mes.
C. El periodo base actual es 1982-84.
D. Lo utiliza el sistema del Seguro Social, de modo que cuando el IPC cambia, también
cambian las pensiones de los jubilados.

Ejercicios del capítulo


La información siguiente se tomó de los informes anuales de Johnson and Johnson. La oficina
central de la empresa está en New Brunswick, Nueva Jersey. Sus acciones comunes se inclu-
yen en la Bolsa de Valores de Nueva York, utilizando el símbolo JNJ.

17. Consulte los datos de Johnson and Johnson. Use 1995 como periodo base y calcule un ín-
dice simple de ventas nacionales para cada año desde 1996 hasta 2002. Interprete la ten-
dencia en las ventas nacionales.
18. Consulte los datos de Johnson and Johnson. Use el periodo 1995-97 como periodo base y
calcule un índice simple de ventas nacionales para cada año desde 1998 hasta 2002.
19. Consulte los datos de Johnson and Johnson. Use 1995 como periodo base y calcule un ín-
dice simple de ventas internacionales para cada año desde 1996 hasta 2002. Interprete la
tendencia en las ventas internacionales.
20. Consulte los datos de Johnson and Johnson. Use el periodo 1995-97 como periodo base y
calcule un índice simple de ventas internacionales para cada año desde 1998 hasta 2002.
21. Consulte los datos de Johnson and Johnson. Use 1995 como periodo base y calcule un ín-
dice simple del número de empleados para cada año desde 1996 hasta 2002. Interprete la
tendencia en el número de empleados.
Números índice 645

22. Consulte los datos de Johnson and Johnson. Use el periodo 1995-97 como periodo base y
calcule un índice simple del número de empleados para cada año desde 1998 hasta 2002.

La siguiente información es del informe anual de General Electric Corporation correspondiente a 1998.

23. Calcule un índice simple para las ganancias de GE. Utilice 1998 como el periodo base. ¿A
qué conclusión puede llegar en cuanto al cambio en las ganancias durante el periodo?
24. Calcule un índice simple para las ganancias de GE. Utilizando como base el periodo 1998-
2000. ¿A qué conclusión puede llegar en cuanto al cambio en las ganancias durante el pe-
riodo?
25. Calcule un índice simple para las ganancias por acción de GE. Utilice 1998 como el perio-
do base. ¿A qué conclusión puede llegar en cuanto al cambio en las ganancias por acción
durante el periodo?
26. Calcule un índice simple para las ganancias de GE, utilizando como base el periodo 1998-
2000. ¿A qué conclusión puede llegar en cuanto al cambio en las ganancias por acción du-
rante el periodo?

A continuación presentamos información sobre los alimentos para los años 2000 y 2004.

27. Calcule un índice de precios simple para cada uno de los cuatro artículos. Utilice 2000 co-
mo periodo base.
28. Calcule un índice de precios agregado simple. Use 2000 como periodo base.
29. Calcule el índice de precios de Laspeyres para 2004, usando 2000 como el periodo base.
30. Calcule el índice de Paascne para 2004, usando 2000 como periodo base.
31. Determine el índice ideal de Fisher usando los valores para los índices de Laspeyres y Paas-
che calculados en los dos problemas anteriores.
32. Determine un índice de valores para 2004 utilizando 2000 como periodo base.

Betts Electronics compra tres refacciones para las maquinas robotizadas que utiliza en su pro-
ceso de manufactura A continuación proporcionamos la información acerca del precio de las re-
facciones y la cantidad comprada
646 Capítulo 18

33. Calcule un índice efe precios simple para cada uno de los tres artículos. Use 2000 corno el
periodo base,
34. Calcule un índice de precios agregado simple para 2604, Use 2000 como periodo base.
35. Calcule el índice de precios de Laspeyres para 2004, usando 2000 como el periodo base.
36. Calcule un índice de precios de Paasche para 2004 con 2000 como período base.
37. Determine el índice ideal de Fisher utilizando los valores para los índices de Laspeyres y
Paasche calculados en tos dos problemas anteriores,
38. Determine un índice de valores para 2004 usando 2000 como periodo base.

En la tabla siguiente proporcionamos los pecios para alimentos seleccionados durante 2000 y 2004.

39. Calcule un índice de precios simple para cada uno de los cuatro artículos. Use 2000 como
periodo base.
40. Calcule un índice de precios agregado simple. Utilice 3000 como periodo base.
41. Calcule un índice de precios de Laspeyres para 2004, con 2000 como periodo base.
42. Calcule un índice de Paasche para 2004 Con 2000 como periodo base.
43. Determine el índice ideal de Fisher usando los valores para tos índices de Laspeyres y Paas-
che calculados en los dos problemas anteriores.
44. Determine un índice de valores para 2004, usando 2000 como periodo base.

A continuación, encontrará los precios de artículos seleccionados para 1980 y 2004, También
proporcionamos las cifras de producción para esos dos periodos.

45. Calcule un índice de precios simple para cada uno de los cuatro artículos. Use 1980 como
periodo base,
46. Calcule un índice de precios agregado simple. Utilice 1980 como periodo base.
47. Calcule un índice de precios de Laspeyres para 2004, con 1980 como periodo base.
48. Calcule un índice de Paasche para 2004 con 1980 contó periodo base.
49. Determine el índice ideal de Fisher usando tos valores para los índices de Laspeyres y Paas-
che calculados en los dos problemas anteriores.
50. Determine un índice de valores para 2004, usando 1180 como periodo base.
51. Es necesario diseñar un índice para propósitos especiales para vigilar la economía general
del suroeste de Estados Unidos. Se seleccionaron cuatro series clave. Después de mucho
deliberar, se decidió ponderar las ventas al detalle con 20%, el total de depósitos bancarios
con 10%, la producción industrial en ©I área con 40% y el empleo no agrícola con 30%. Los
datos para 1996 y 2004 son;
Números índice 647

Elabore un índice para propósitos especiales para 2004 utilizando 1996 como el periodo base
e interprete su resultado.
Realizamos un estudio histórico de la economía estadounidense de 1950 a 1980. Se recopiló
información sobre precios, fuerza laboral, productividad y el PNB. En la tabla siguiente, observe
que el IPC tiene 1967 como periodo base, el empleo está en millones de personas, etcétera.
Por tanto, no es factible una comparación directa.
a. Realice los cálculos necesarios para comparar la tendencia en las cuatro series de 1950
a 1980.
b. Interprete sus resultados.

53. La administración de Ingalls Super Discount Stores, que tiene varias tiendas en el área de
Oklahoma City, quiere elaborar un índice de actividad económica para el área metropolita-
na. La administración está de acuerdo en que, si el índice revela una recesión en la econo-
mía, es necesario mantener el inventario en un nivel bajo.
Tres series parecen adecuadas como factores de predicción de ¡a actividad económica:
las ventas al detalle en el área, los depósitos bancarios y el empleo. El gobierno de Estados
Unidos puede compilar esta información cada mes. Las ventas al detalle deben tener una
ponderación de 40%, los depósitos bancarios de 35% y el empleo de 25%. Los datos ajus-
tados por temporada para los primeros tres meses del año son:

Elabore un índice de la actividad económica para cada uno de los tres meses, utilizando
enero como el periodo base.
54. La tabla siguiente proporciona información sobre el índice de Precios a! Consumidor y el pago
mensual neto de Bill Martin, como empleado de Jeep Corporation.

a. ¿Cuál es el poder de compra del dólar en 2002, con base en el periodo 1982-84?
b. Determine el ingreso "real" mensual del señor Martin en 2002.
55. Suponga que el índice de Precios del Productor y las ventas de Hoskin's Wholesale Distri-
butors para 1991 y 2002 son:

¿Cuáles son las ventas reales (o ventas deflacionadas) de Hoskin's para los dos años?
648 Capítulo 18

exercises.com
56. Por lo general, el Super Tazón es el programa de televisión con mayor audiencia cada año;
por tanto, muchas compañías lo utilizan para lanzar sus principales campañas publicitarias.
El costo por un comercial de 30 segundos, como se reporta a continuación, ha aumentado
mucho desde el primer juego en 1967. También se indica el valor de un boleto para el jue-
go en los años presentados.

Visite el sitio web de Bureau of Labor Statistics en www.bls.gov/data.htm, haga clic en Most
Requested Series y busque Consumer Price Index - All Urban Consumera. Seleccione 1967
como base y encuentre el IPC para los años mencionados anteriormente. Compare el índice de
cambio en el índice de Precios al Consumidor con el costo de los comerciales por televisión y el
costo de un boleto para el juego. Escriba un breve reporte resumiendo sus hallazgos. 57. A
continuación, presentamos las ventas mensuales para Master Chemical Company durante 2002
y los primeros seis meses de 2003. Visite el sitio de U.S. Bureau of Labor Statistics
(www.bls.gov/data.htm). Seleccione Most Requested Series y busque Consumer Price
Index - All Urban Consumers (CPI-U) para el periodo correspondiente. Seleccione todos los
artículos con 1982-84 como base y un periodo que incluya 2002 y 2003. Ajuste el CPI-U a una
base de enero de 2002. Ajuste los valores de ventas a la misma base. Escriba un breve
informe con los detalles del cambio en las ventas durante el periodo de 18 meses en términos
de dólares constantes.

Comandos de software
1. Los comandos de Excel para la hoja de cálculo de la pá- Deberá aparecer el valor 38.5. Éste es el producto
gina 627 son: del precio del pan ($0.77) y la cantidad de pan (50)
a. Escriba los datos para los precios y las cantidades. vendida en 1995.
Nosotros capturamos la etiqueta ítem en la celda A4, c. Con las celdas D5 a D10 todavía seleccionadas,
y los nombres de los artículos en las celdas A5 a abra Edit, luego FUI, Down y presione Enter. De
A10. La etiqueta Price-95se capturó en B4, y la in berán aparecer los productos restantes.
formación de los precios para 1995 en las celdas B5 d. Muévase a la celda D11, haga clic en E en la barra
a B10. La etiqueta Quantity-95 se capturó en la cel de herramientas y presione Enter. Aparecerá el va
da C4, con las cantidades de 1995 en las celdas C5 lor 336.16. Éste es el denominador para el índice
a C10. La celda D4 tiene la etiqueta Price*Qty-95. de precios de Laspeyres. Los otros productos y los
b. Para determinar el producto de los precios y las totales de las columnas se determinan de modo si
cantidades de 1995, destaque las celdas D5 a D10. milar. La otra pantalla de Excel en el capítulo se
Con este grupo de celdas todavía seleccionadas, calcula de manera parecida.
escriba = B5*C5 en la celda D5 y presione Enter.
Números índice 649

Capítulo 18 Respuestas a las autoevaluaciones


Serie de tiempo
y proyección

Busque el precio de venta de las acciones comunes de PepsiCo, Inc.,


al cierre de año. Estime el precio de venta en 2006. ¿Parece ser un
estimado razonable con base en datos históricos? (Vea la Meta 5 y
el Ejercicio 20.)
Serie de tiempo y proyección 651

Introducción
¿Qué es una serie de tiempo? El énfasis de este capítulo es en el análisis de las series de tiempo y la proyección. Una se-
rie de tiempo es un grupo de datos registrados durante un tiempo: por semana, mes, trimes-
tre o año. Dos ejemplos de series de tiempo son las ventas por trimestre de Microsoft
Corporation desde 1985 y la producción anual de ácido sulfúrico desde 1970. La imagen por
computadora en la fotografía muestra el volu-
men de datos que viajan en la red de la Natio-
nal Science Foundation en un mes. Los niveles
de claridad en las líneas representan el volu-
men de tráfico de cero bytes (más oscuro) a mi-
les de millones de bytes (blanco).
Los administradores pueden utilizar un
análisis del historial (una serie de tiempo) para
tomar decisiones y hacer planes con base en
proyecciones a largo plazo. Por lo general su-
ponemos que los patrones del pasado van a
continuar en el futuro. Las proyecciones a largo
plazo se extienden más de un año en el futuro;
son comunes las proyecciones a 2, 5 y 10
años. Éstas son esenciales a fin de dar tiempo
suficiente para que adquisiciones, manufactu-
ra, ventas, finanzas y otros departamentos de
una compañía desarrollen planes para nuevas plantas, financiamiento, desarrollo de nue-
vos productos y nuevos métodos de ensamblaje.
La proyección del nivel de ventas, tanto a corto como a largo plazo, se da por la mis-
ma naturaleza de las organizaciones de negocios en Estados Unidos. La competencia por
el dinero del consumidor, la presión por obtener utilidades para los accionistas, el deseo de
lograr mayor participación en el mercado y las ambiciones de los ejecutivos son algunas de
las principales fuerzas motivadoras en los negocios. Por tanto, una proyección (una decla-
ración de las metas de la administración) es necesaria para tener la materia prima, las ins-
talaciones de producción y el personal para cubrir la demanda proyectada.
Este capítulo se ocupa del uso de la información para proyectar eventos futuros. Prime-
ro, estudiamos los componentes de una serie de tiempo. Luego, analizamos algunas de las
técnicas empleadas en el análisis de datos y, por último, proyectamos eventos futuros.

Componentes de una serie de tiempo


En una serie de tiempo existen cuatro componentes: la tendencia, la variación cíclica, la va-
riación estacional y la variación irregular o errática.

Tendencia secular
Las tendencias a largo plazo de las ventas, el empleo, los precios accionarios y otras se-
ries de negocios y económicas siguen diversos patrones. Algunas se mueven hacia arriba
en forma constante, otras bajan y otras más permanecen iguales a través del tiempo.

A SECULAR Dirección uniforme de una serie de tiempo a largo plazo.

Los siguientes son varios ejemplos de una tendencia secular.

• Home Depot se fundó en 1978 y es el segundo detallista más grande en Estados Uni-
dos (Wal-Mart es el más grande). La gráfica siguiente muestra el número de empleados
de Home Depot, Inc. Como puede ver, este número ha aumentado con rapidez en los
652 Capítulo 19

últimos 10 años. En 1993, había poco más de 50 000 empleados, y para 2002, esa ci-
fra aumentó a 280 900.

• La gráfica siguiente muestra el número de llamadas a los servicios médicos de emergen-


cia (SME) en Horry County, Carolina del Sur, desde 1989. El número de llamadas a los
SME aumentó casi 2.5 veces, de 12 269 en 1989 a 30 341 en 2003. Observe que el nú-
mero de llamadas se incrementó de 1989 a 1995. De 1995 a 2000, el número de llama-
das permaneció casi igual y luego en 2000, empezó otro incremento a más de 30 000.
La dirección de la tendencia a largo plazo es aumentar.

• El número de casas prefabricadas entregadas en Estados Unidos mostró un incremento


de 1990 a 1996, luego permaneció casi igual hasta 1999, cuando la cifra empezó a
bajar. Para 2002, el número de casas entregadas era menor al de 1990. Esta informa-
ción se muestra en la gráfica siguiente.
Serie de tiempo y proyección 653

Variación cíclica
El segundo componente de una serie de tiempo es la variación cíclica. El ciclo de negocios
típico consiste en un periodo de prosperidad seguido por periodos de recesión, depresión y
luego recuperación. En el tiempo por debajo y por encima de la tendencia secular existen
fluctuaciones que se presentan en un periodo de más de un año. Por ejemplo, en una re-
cesión, el empleo, la producción, el Promedio Industrial Dow Jones y muchas otras series
de negocios y económicas se encuentran debajo de las líneas de las tendencias a largo pla-
zo. Por el contrario, en periodos de prosperidad se encuentran sobre las líneas de las ten-
dencias a largo plazo.

VARIACIÓN CÍCLICA Aumento y reducción de una serie de tiempo en periodos mayo-


res de un año.

La Gráfica 19-1 muestra las ventas unitarias anuales de las baterías que vendió Natio-
nal Battery Retailers, Inc., de 1984 a 2003. Se destaca la naturaleza cíclica de los negocios.
Existen periodos de recuperación, seguidos por prosperidad, luego recesión y, por último,
el ciclo se cierra con la depresión.

GRÁFICA 19-1 Baterías vendidas por National Battery Retailers, Inc., de 1984 a 2003
654 Capítulo 19

Variación estacional
El tercer componente de una serie de tiempo es el componente estacional. Muchas series
de ventas, producción y de otro tipo fluctúan con las temporadas. La unidad de tiempo que
se reporta es por trimestre o por mes.

VARIACIÓN ESTACIONAL Patrones de cambio en una serie de tiempo en un año. Estos


patrones suelen repetirse cada año.

Casi todos los negocios suelen tener patrones estacionales recurrentes. Por ejemplo,
la ropa para caballeros y niños presenta ventas muy altas justo antes de Navidad, y relati-
vamente bajas después de Navidad y durante el verano. Las ventas de juguetes ofrecen
otro ejemplo con un fuerte patrón basado en la temporada. Más de la mitad de los negocios
del año se realizan en los meses de noviembre y diciembre. El negocio de la jardinería es
estacional en los estados del noreste y la región central norte de Estados Unidos. Muchos
negocios tratan de reducir los efectos de las temporadas dedicándose a otra actividad de
temporada que compense la principal. En el noreste de Estados Unidos podemos ver al en-
cargado de un negocio de jardinería con un quitanieve en el camión en un esfuerzo por ob-
tener alguna ganancia durante la temporada de invierno. En los centros de esquí de todo el
país, a menudo encontramos campos de golf cercanos. Los propietarios de los albergues
tratan de rentarlos a los esquiadores en invierno y a los jugadores de golf en verano. Éste
es un método efectivo para repartir los gastos fijos todo el año, en lugar de limitarse a unos
cuantos meses.
La Gráfica 19-2 muestra las ventas trimestrales, en millones de dólares, de Hercher
Sporting Goods, Inc. Ésta es una compañía de artículos deportivos del área de Chicago que
se especializa en vender equipo de béisbol y softbol a secundarias, preparatorias y ligas de
jóvenes. Asimismo, tienen varias tiendas detallistas en algunos de los centros comerciales
más grandes. Existe un patrón de temporada distintivo para su negocio. La mayor parte de
sus ventas se realizan en el primer y segundo trimestre del año, cuando las escuelas y or-
ganizaciones compran equipo para la próxima temporada. Durante los primeros días del ve-
rano, se mantienen ocupados vendiendo equipo de reemplazo. Hacen algunos negocios
durante las fiestas navideñas (cuarto trimestre), y las últimas semanas del verano (tercer tri-
mestre) constituyen su temporada baja.

GRÁFICA 19-2 Ventas de equipo de béisbol y softbol, Hercher Sporting Goods, 2001-2003 por trimestre

Variación irregular
Muchos analistas prefieren subdividir la variación irregular en variaciones episódicas y re-
siduales. Las fluctuaciones episódicas no se pueden predecir, pero sí identificar. Es posible
identificar el impacto inicial de una huelga importante o una guerra en la economía, pero no
podemos proyectar una huelga ni una guerra. Al eliminar las fluctuaciones episódicas, la va-
riación restante se conoce como variación residual. Las fluctuaciones residuales, que tam-
Serie de tiempo y proyección 655

bien se llaman fluctuaciones azarosas, no se pueden predecir ni identificar. Desde luego, ni


la variación episódica ni la residual se pueden proyectar en el futuro.

El método del promedio móvil


Reducción de las fluctuaciones El método del promedio móvil no sólo es útil para conocer la tendencia de una serie de
del método de promedio móvil tiempo; sino que es el método básico empleado para medir la fluctuación por temporada,
que describimos más adelante en este capítulo. En contraste con el método de los mínimos
cuadrados, que expresa la tendencia en términos de una ecuación matemática (Y' = a + bt),
el método del promedio móvil simplemente reduce las fluctuaciones en los datos. Esto se
logra al "mover" los valores de la media aritmética a través de la serie de tiempo.
Para aplicar el método del promedio móvil en una serie de tiempo, los datos deben se-
guir una tendencia muy lineal y tener un patrón rítmico definitivo de fluctuaciones (que se
repita, digamos, cada tres años). Los datos en el ejemplo siguiente tienen tres componen-
tes: tendencia, ciclo e irregularidad, que se abrevian T, Ce I. No existe variación por tem-
porada, porque los datos se registran cada año. En efecto, lo que hace el método del
promedio móvil es promediar Ce I. El residual es la tendencia.
Si la duración de los ciclos es constante, y si las amplitudes de éstos son iguales, las
fluctuaciones cíclicas e irregulares se pueden eliminar por completo utilizando el método del
promedio móvil. El resultado es una línea. Por ejemplo, en la siguiente serie de tiempo, el
ciclo se repite cada siete años, y la amplitud de cada ciclo es 4; es decir, hay exactamente
cuatro unidades desde la parte más baja (el periodo más bajo) hasta la cima. Por tanto, el
promedio móvil de siete años promedia a la perfección las fluctuaciones cíclicas e irregula-
res, y el residual es una tendencia lineal.

TABLA 19-1 Los cálculos para el promedio móvil de siete años


656 Capítulo 19

Calcule la media de los El primer paso al calcular el promedio móvil de siete años consiste en determinar el to-
primeros siete años tal de movimientos en siete años. Las ventas totales para los primeros siete años (1978-
1984 inclusive) son $22 millones, calculados así: 1 +2 + 3 + 4 + 5 + 4 + 3. (Vea la Tabla
19-1.) El total de $22 millones se divide entre 7 para determinar las ventas medias aritmé-
ticas por año. El total de la suma de los siete años (22) y la media de este periodo (3.143)
ocupan la posición frente al año medio para ese grupo de siete, es decir, 1981, como se
muestra en la Tabla 19-1. Luego, se determinan las ventas totales para los próximos siete
años (1979-1985 inclusive). (Una manera conveniente de hacerlo es restar las ventas para
1978 [$1 millón] del primer total de siete años [$22 millones] y sumar las ventas para 1985
($2 millones), para obtener un nuevo total de $23 millones.) La media de este total, $3 286
millones, se coloca en el frente del año medio, 1981. La información de las ventas y el pro-
medio en movimiento de siete años se muestran en la Gráfica 19-3.

GRÁFICA 19-3 Ventas y promedio en movimiento de siete años

Los valores de los datos a incluir en un promedio móvil depende del carácter de la in-
formación recopilada. Si los datos son trimestrales, como hay cuatro trimestres en un año,
lo normal es utilizar cuatro términos. Si la información es diaria, como hay siete días en una
semana, es apropiado usar siete términos. También puede recurrir a una estrategia de en-
sayo y error para determinar un número que compense mejor las fluctuaciones debidas al
azar.
Un promedio móvil se calcula con facilidad en Excel. De hecho, requiere de un solo co-
mando. Si los datos originales se encuentran en los lugares D3 a D20 y quiere calcular un
promedio móvil de tres periodos, puede ir a la posición E4 y escribir "=(D3+D4+D5)/3" y lue-
go copiar esa misma fórmula en la posición E19.
Un promedio móvil para tres y cinco años para cierta información de producción se
muestran en la Tabla 19-2 y se ilustra en la Gráfica 19-4.
Las ventas, la producción y otras series económicas y de negocios casi nunca tienen
(1) periodos de oscilación que sean de igual duración o (2) oscilaciones que tengan ampli-
tudes idénticas. Por tanto, en la práctica, la aplicación del método del promedio móvil para
los datos no da como resultado una recta. Por ejemplo, la serie de producción en la Tabla
19-2 se repite casi cada cinco años, pero la amplitud de los datos varía de una oscilación a
otra. La tendencia parece ser hacia arriba y lineal. Ambos promedios móviles (el de tres
años y el de cinco) parecen describir en forma adecuada la tendencia de la producción des-
Determinación de un promedio de 1985.
móvil para un periodo par, co- El promedio móvil para cuatro años, seis años y otros números de años par presentan
mo cuatro años. un problema en cuanto al centrado de los totales en el promedio móvil. En la Tabla 19.3,
Serie de tiempo y proyección 657

TABLA 19-2 Promedio móvil para tres años y promedio móvil para cinco años

GRÁFICA 19-4 Promedio móvil para tres y cinco años de 1985 a 2003

observe que no hay un periodo central, de modo que los totales móviles se colocan entre
dos periodos. El total para los primeros cuatro años ($42) se coloca entre 1996 y 1997. El
total para los siguientes cuatro años es $43. Los promedios de los primeros cuatro años y
los segundos cuatro años ($10.50 y $10.75, respectivamente) se promedian, y la cifra re-
sultante se centra en 1997. Este procedimiento se repite hasta calcular todos los promedios
de cuatro años posibles.
658 Capítulo 19

TABLA 19-3 Promedio móvil para cuatro años

Promedio móvil ponderado


En el método del promedio móvil, el cálculo da como resultado la misma ponderación o in-
fluencia para cada observación. Por ejemplo, el total móvil para tres años se divide entre el
valor 3 para dar como resultado el promedio móvil de tres años. En otras palabras, en este
caso, cada valor de los datos tenía una ponderación de un tercio. De modo similar, para el
promedio móvil de cinco años, cada valor de los datos tiene una ponderación de un quinto.
Una extensión natural de la media ponderada que estudiamos en el Capítulo 3 es calcu-
lar el promedio móvil ponderado. Esto comprende la selección de una ponderación posible-
mente diferente para cada valor de datos y el cálculo de un promedio ponderado de los
valores n más recientes como el valor reducido. En la mayor parte de las aplicaciones, usa-
mos el valor reducido como una proyección del futuro. De modo que la observación más re-
ciente recibe la mayor ponderación, y ésta se reduce para los valores de datos más
antiguos. Debemos hacer notar que tanto para el promedio móvil simple como para el pro-
medio móvil ponderado, la suma de las ponderaciones es igual a 1.
Por ejemplo, suponga que calculamos un promedio móvil ponderado de dos años para
los datos en la Tabla 19-3, dando una ponderación del doble al valor más reciente. En otras
palabras, dé una ponderación de 2/3 al año pasado y de 1/3 al valor anterior a éste. Enton-
ces, las ventas "pronosticadas" para 1997 se calcularían mediante (1/3)($8) + (2/3)($11) =
$10. El próximo promedio móvil se calcularía como (1/3)($11) + (2/3)($9) = $9.667. Conti-
nuando de la misma manera, el promedio móvil ponderado final o de 2002 sería (1/3)($8) +
(2/3($12) = $10.667. Para resumir la técnica de utilizar el promedio móvil, tiene el objetivo
de ayudar a identificar la tendencia a largo plazo en una serie de tiempo (porque reduce las
fluctuaciones a corto plazo). Se utiliza para revelar cualquier fluctuación cíclica o estacional.

Cedar Fair maneja seis parques de diversiones y cinco parques acuáticos independientes.
En la tabla siguiente, se muestra la asistencia combinada (en miles) durante los últimos diez
años. Calcule un promedio móvil para tres años y un promedio móvil ponderado para tres años
con ponderaciones de 0.2, 0.3 y 0.5 para años sucesivos.
Serie de tiempo y proyección 659

El promedio móvil para tres años es:

El promedio móvil ponderado para tres años es:

Estudie con detenimiento la gráfica en la página siguiente. Verá que la tendencia de la asis-
tencia aumenta de manera uniforme con 360 mil visitantes más cada año. Sin embargo, hay
un "salto" de aproximadamente 3 millones por año entre 1997 y 1998. Esto refleja quizá el
hecho de que Cedar Fair adquirió Knott's Berry Farm a finales de 1997, dando lugar a un
incremento repentino de la asistencia. El promedio móvil ponderado sigue los datos más de
cerca que el promedio móvil. Esto refleja la influencia adicional que se da al periodo más
reciente. En otras palabras, el método ponderado, en el que al periodo más reciente se le
da la ponderación más alta, no será tan uniforme. Sin embargo, quizá sea más exacto co-
mo herramienta de proyección.
660 Capítulo 19

Autoevaluación 19-1 Determine el promedio móvil para tres años para las ventas de Waccamaw Machine Tool,
Inc. Trace en un diagrama los datos originales y para el promedio móvil.

Ejercicios
1. Calcule un promedio móvil ponderado para cuatro trimestres para el número de suscripto-
res a America Online (AOL) para los nueve trimestres de información. Los datos se repor-
tan en miles. Aplique ponderaciones de 0.1, 0.2, 0.3 y 0.4, respectivamente, para los
trimestres. Describa la tendencia del número de suscriptores.

2. A continuación se registran los rendimientos de un bono de la tesorería a 30 años al final de


cada año desde 1990. Calcule el promedio móvil ponderado para cinco años utilizando pon-
deraciones de 0.1, 0.1, 0.2, 0.3 y 0.3, respectivamente. Describa la tendencia de los rendi-
mientos.
Serie de tiempo y proyección 661

Tendencia lineal
La tendencia a largo plazo en muchas series de tiempo como negocios, ventas, exportacio-
nes y producción, a menudo se aproxima a una línea recta. En este caso, la ecuación para
describir este crecimiento es:

donde:

que se lee /prima, es el valor proyectado de la variable Y para un valor seleccio-


nado de t.
es la intersección en el eje Y. Es el valor estimado de Y cuando t = 0. Otra
forma de expresarlo es: a es el valor estimado de Y donde la línea cruza el eje
Y cuando es cero.
La pendiente de la recta de es la pendiente de la recta, o el cambio promedio en Y' para cada incremento de
tendencia es b. una unidad en t.
es cualquier valor de tiempo seleccionado.

Para ilustrar el significado de Y`, a, b y t en un problema de serie de tiempo, se trazó


una línea en la Gráfica 19-5 para representar la tendencia típica de las ventas. Suponga que
esta compañía empezó a funcionar en 1995. Este año de inicio (1995) se designó en forma
arbitraria como año 1. Observe que las ventas aumentaron $2 millones en promedio cada
año; es decir, con base en la línea recta trazada a través de los datos de las ventas, éstas
se incrementaron de $3 millones en 1995 a $5 millones en 1996, a $7 millones en 1997, a
$9 millones en 1998 y así sucesivamente. Por tanto, la pendiente, o b, es 2. Observe asi-
mismo que la línea intercepta el eje Y (cuando f = 0) en $1 millón. Este punto es a. Otra for-
ma de determinar b es encontrar el punto de inicio de la línea recta en el año (1). En este
problema, es 3 para 1995. Luego, localice el valor en la línea recta para el último año. Pa-
ra 2003, es 19. Las ventas aumentaron $19 millones - $3 millones, o sea $16 millones, en
ocho años (1995 a 2003). Por tanto, 16 + 8 = 2, que es la pendiente de la línea, o b.

GRÁFICA 19-5 Línea recta ajustada a los datos de las ventas

La ecuación para la recta en la Gráfica 19-5 es:

Y' = 1 +2t (en millones)


662 Capítulo 19

donde:

Las ventas están en millones de dólares. El origen, o año 0, es 1994. t aumenta una
unidad cada año.

En el Capítulo 13 trazamos una línea recta a través de los puntos en un diagrama de


dispersión para calcular la recta de regresión. Sin embargo, enfatizamos que este método
para determinar la ecuación de regresión tiene una seria desventaja: la posición de la línea
depende del juicio del individuo que dibuja la línea. Es probable que tres personas dibujen
tres líneas diferentes. De modo similar, la línea que trazamos a través de los datos de las
ventas en la Gráfica 19-5 podría no ser la "mejor ajustada". Debido al juicio subjetivo invo-
lucrado, este método sólo se debe utilizar cuando sea necesaria una aproximación rápida
de la ecuación de línea recta, o para verificar si la línea recta de los mínimos cuadrados es
razonable, lo que estudiaremos a continuación.

Método de los mínimos cuadrados


En el análisis de la regresión lineal simple en el Capítulo 13, mostramos cómo se utiliza el
método de los mínimos cuadrados para encontrar la mejor relación lineal entre dos varia-
bles. En los métodos de proyección, el tiempo es la variable independiente y el valor de la
serie de tiempo es la variable dependiente. Además, con frecuencia codificamos la variable
independiente a fin de facilitar la interpretación de las ecuaciones. En otras palabras, supo-
nemos que t es 1 para el primer año, 2 para el segundo, etc. Si una serie de tiempo incluye
las ventas de General Electric para cinco años a partir de 2000 y hasta 2004, codificaría-
mos el año 2000 como 1, 2001 como 2 y 2004 como 5.

Las ventas de Jensen Foods, una cadena de supermercados pequeños en el suroeste de


Texas, desde 1999 son:

Determine la ecuación de la recta de regresión. ¿Cuánto aumentan las ventas cada año?
¿Cuál es la proyección de ventas para 2006?

Para determinar la ecuación de la tendencia podríamos utilizar la fórmula (13-4) a fin de en-
contrar la pendiente, o el valor b, y la fórmula (13-5) para encontrar la intersección, o el va-
lor a. En estas ecuaciones sustituiríamos t, los valores codificados para el año, por X. Otro
enfoque es utilizar uno de los paquetes de software, como MINITAB o Excel. La Gráfica 19-6
es el resultado de MINITAB. Los valores Año, Año codificado, Ventas y Ventas ajustadas
se muestran en la parte inferior izquierda de la pantalla. La esquina superior izquierda re-
porta el resultado de la regresión, y en el lado derecho se encuentra un diagrama de dis-
persión de los datos y la recta de regresión ajustada.
Serie de tiempo y proyección 663

GRÁFICA 19-6 Ventas y línea de tendencia, 1999-2003

Según la pantalla, la ecuación de la tendencia es Y´ = 6.1 + 1.3t. ¿Cómo interpretamos


esta ecuación? Las ventas están en millones de dólares. De modo que el valor 1.3 nos in-
dica que las ventas aumentaron a una velocidad de 1.3 millones por año. El valor 6.1 es el
valor estimado de las ventas en el año 0. Éste es el estimado para 1998, que se conoce co-
mo el año base. Por ejemplo, para determinar el punto en la línea para 2002, inserte el va-
lor t de 4 en la ecuación. Entonces, Y´ = 6.1 +1.3(4) = 11.3.
Si las ventas, la producción u otros datos se aproximan a una tendencia lineal, la ecua-
ción que se obtiene por medio de la técnica de los mínimos cuadrados se puede usar para
estimar valores futuros. Es razonable que las ventas de Jensen Foods sigan una tendencia
lineal. De modo que podemos usar la ecuación lineal para proyectar las ventas futuras.
Vea la Tabla 19-4. El año 1999 se codifica como 1, el año 2001 como 3 y 2003 como 5.
Por lógica, codificamos 2005 como 7 y 2006 como 8. De modo que sustituimos 8 en la ecua-
ción lineal y despejamos V".

Por tanto, con base en las ventas pasadas, el estimado para 2006 es $16.5 millones.

TABLA 19-4 Cálculos para determinar los puntos de la recta de mínimos cuadrados utilizando los
valores codificados

En este ejemplo de serie de tiempo, hay cinco años de datos de ventas. Con base en
las cifras de esos cinco años, calculamos las ventas para 2006. Muchos investigadores su-
gieren no proyectar ventas, producción y otras series económicas y de negocios más de n/2
664 Capítulo 19

periodos en el futuro, donde n es el número de datos. Por ejemplo, si hay 10 años de infor-
mación, haríamos estimados sólo hasta 5 años en el futuro (n/2 = 10/2 = 5). Otros sugieren
que la proyección no puede ser por más de 2 años, sobre todo en épocas en las que la eco-
nomía cambia con rapidez.

Autoevaluación 19-2 La producción anual de mecedoras grandes por parte de Wood Products, Inc. desde 1996 es:

(a) Trace el diagrama de dispersión para los datos de la producción.


(b) Determine la ecuación de mínimos cuadrados utilizando un paquete de software.
(c) Determine los puntos en la línea para 1996 y 2002. Conecte ambos puntos hasta llegar a
la línea.
(d) Con base en la ecuación de tendencia lineal, ¿cuál es la producción estimada para 2006?

Ejercicios ______
3. A continuación presentamos las ventas netas de Schering-Plough Corporation (una compa-
ñía farmacéutica) y sus subsidiarias para los seis años desde 1997 hasta 2002. Las ventas
netas están en millones de dólares.

Determine la ecuación de la recta de mínimos cuadrados. Según esta información, ¿cuáles


son las ventas estimadas para 2005?
4. A continuación presentamos las ventas netas en millones de dólares para Home Depot, Inc.,
y sus subsidiarias de 1993 a 2002.
Serie de tiempo y proyección 665

Determine la ecuación de la recta de mínimos cuadrados. Con base en esta información,


¿cuáles son las ventas estimadas para 2005?
5. La tabla siguiente presenta las cantidades anuales de vidrio de desecho que produce Kim-
ble Glass Works, Inc.

Determine la ecuación de la recta de tendencia de mínimos cuadrados. Calcule la cantidad


de vidrio de desecho para el año 2005.
6. A continuación presentamos las cantidades gastadas en máquinas expendedoras en Esta-
dos Unidos, en miles de millones de dólares, para los años 1999 a 2003. Determine la ecua-
ción de tendencia de mínimos cuadrados y calcule las ventas de las máquinas expen-
dedoras para 2005.

Tendencias no lineales
En el análisis anterior enfatizamos una serie de tiempo cuyo crecimiento o reducción se
aproximaba a una línea recta. Una ecuación de tendencia lineal se utiliza para representar
la serie de tiempo cuando se cree que los datos van en aumento (o se reducen) en canti-
dades iguales, en promedio, de un periodo a otro.
Los datos que aumentan (o se reducen) en cantidades cada vez mayores durante un
periodo son curvilíneos cuando se trazan en un papel con una escala aritmética. En otras
palabras, los datos que se incrementan (o disminuyen) en porcentajes o proporciones igua-
les en un periodo son curvilíneos sobre papel cuadriculado. (Vea la Gráfica 19-7.)
La ecuación de tendencia para una serie de tiempo que no se aproxima a una tenden-
cia lineal, como la representada en la Gráfica 19-7, se puede calcular utilizando los logarit-
mos de los datos y el método de mínimos cuadrados. La ecuación general para la ecuación
de tendencia logarítmica es:

La ecuación de tendencia logarítmica se puede determinar para los datos de Gulf Sho-
res Importers en la Gráfica 19-7 utilizando Excel. El primer paso es capturar la información,
luego encontrar el logaritmo de base 10 para las importaciones de cada año. Por último, usar
el procedimiento de regresión para encontrar la ecuación de los mínimos cuadrados. En
otras palabras, tomamos el logaritmo de los datos de cada año, usamos los logaritmos co-
mo la variable dependiente y el año codificado como la variable independiente.
666 Capítulo 19

GRÁFICA 19-7 Ventas para Gulf Shores Importers, 1988-2002

La ecuación de regresión es Y´ = 2.053807 + 0.153357t, que es la forma logarítmica.


Ahora tenemos una ecuación de tendencia en términos del cambio porcentual. Es decir, el
valor 0.153357 es el cambio porcentual en Y' para cada incremento unitario en t. Este va-
lor es similar a la media geométrica que describimos en el Capítulo 3.
El logaritmo de b es 0.153357 y su antilogaritmo o inverso es 1.423498. Si restamos 1 a
este valor, como en el Capítulo 3, el valor 0.423498 indica la tasa anual media geométrica
de incremento de 1998 a 2002. Llegamos a la conclusión de que las importaciones aumen-
taron en una tasa de 42.35% al año durante el periodo.
También podemos utilizar la ecuación de tendencia logarítmica para realizar estimados
de los valores futuros. Suponga que queremos estimar las importaciones en el año 2006. El pri-
mer paso es determinar el código para el año 2006, que es 19. ¿Cómo obtuvimos 19? El año
2002 tiene un código de 15 y el año 2006 está a cuatro años, de modo que 15 + 4 = 19.
El logaritmo de las importaciones del año 2006 es
Serie de tiempo y proyección 667

Y´ = 2.053807 + 0.153357t = 2.053807 + 0.153357(19) = 4.967590

A fin de encontrar las importaciones estimadas para el año 2006, necesitamos el antiloga-
ritmo de 4.967590. Es 92 809. Éste es nuestro estimado del número de importaciones pa-
ra 2006. Recuerde que los datos estaban en miles de dólares, de modo que el estimado es
$92 809 000.

Autoevaluación 19-3 Las ventas de Tomlin Manufacturing desde 1999 son:

(a) Determine la ecuación de tendencia logarítmica para los datos de las ventas.
(b) ¿En qué porcentaje aumentaron las ventas cada año de 1999 a 2003?
(c) ¿Cuál es la cantidad de ventas proyectada para 2004?

Ejercicios
7. Sally's Software, Inc., es un proveedor de software de computadora que crece con rapidez y
se localiza en el área de Sarasota. A continuación presentamos las ventas para los últimos
cinco años.

a. Determine la ecuación de tendencia logarítmica.


b. ¿En qué porcentaje en promedio aumentaron las ventas durante el periodo?
c. Calcule las ventas para el año 2006.
8. Al parecer, las importaciones de negro de carbón han aumentado alrededor de 10% al año.

a. Determine la ecuación de tendencia logarítmica.


b. ¿En qué porcentaje en promedio aumentaron las importaciones durante el periodo?
c. Calcule las importaciones para el año 2006.
668 Capítulo 19

Variación estacional
Mencionamos que una variación estacional es otro de
los componentes de una serie de tiempo. Las series de
negocios, como las ventas de autos, los embarques de
botellas de refresco y la construcción residencial, tienen
periodos de actividad superior e inferior al promedio
cada año.
En el área de la producción, una de las razones
para analizar las fluctuaciones por temporada es tener
una oferta suficiente de materia prima para cubrir la
demanda que varía según la temporada. La división de
frascos de vidrio de una importante compañía vidriera,
por ejemplo, fabrica botellas de cerveza no retomables,
frascos para yodo, frascos para analgésicos, botellas
para cemento plastificado, etc. El departamento de pro-
gramación de la producción debe saber cuántas botellas
debe producir y cuándo debe fabricar cada tipo de
frasco. Una producción con demasiadas botellas de un
solo tipo podría ocasionar un serio problema de inventa-
rios. La producción no se puede basar totalmente en los
pedidos existentes, porque muchos otros se hacen por
teléfono y requieren de un envío inmediato. Como la demanda para muchas de las botellas
varía de acuerdo con la temporada, una proyección de uno o dos años, por mes, es esen-
cial para una programación adecuada.
Un análisis de la variación estacional en un periodo de varios años también ayudará a
evaluar las ventas actuales. Las ventas típicas de las tiendas departamentales en Estados
Unidos, sin contar los pedidos por correo, se expresan como índices en la Tabla 19-5. Ca-
da índice representa las ventas promedio para un periodo de varios años. Las ventas reales
para algunos meses fueron superiores al promedio (lo que se representa con un índice ma-
yor a 100.0), y las ventas para otros meses son inferiores al promedio. El índice de 126.8 para
diciembre señala que, por lo regular, las ventas para diciembre son 26.8 superiores a las de
un mes normal; el índice 86.0 para julio señala que las ventas de las tiendas departamentales
para julio casi siempre son 14% inferiores a las de un mes promedio.

TABLA 19-5 índices estacionales típicos para las ventas en tiendas departamentales de Estados Unidos, sin
tomar en cuenta las ventas por correo

Suponga que un gerente de tienda, en un esfuerzo por aumentar las ventas durante di-
ciembre, introdujo varias promociones únicas, que incluyen coros cantando villancicos por
toda la tienda, grandes exhibiciones mecánicas y dependientes vestidos con trajes de Santa
Claus. Al calcular el índice de ventas para ese diciembre, éste fue de 150.0. Comparado
con las ventas típicas del mes de diciembre de 126.8, se llegó a la conclusión de que el pro-
grama promocional fue todo un éxito.

Determinación de un índice estacional


Objetivo: determinar un índice Un conjunto típico de índices mensuales consiste en 12 índices que son representativos de
estacional "típico". los datos para un periodo de 12 meses. Por lógica, hay cuatro índices por temporada típi-
cos para los datos que se reportan cada trimestre. Cada uno es un porcentaje, con el pro-
Serie de tiempo y proyección 669

medio para el año igual a 100.0; es decir, cada índice mensual señala el nivel de ventas,
producción u otra variable en relación con el promedio anual de 100.0. Un índice típico de
96.0 para enero señala que las ventas (o cualquiera que sea la variable) casi siempre es-
tán 4% por debajo del promedio para el año. Un índice de 107.2 para octubre significa que
la variable casi siempre está 7.2% arriba del promedio anual.
Se han desarrollado varios métodos para medir la variación estacional típica en una se-
rie de tiempo. El método que se utiliza con mayor frecuencia para calcular el patrón por tem-
porada típico se conoce como método de la razón con el promedio móvil. Elimina los
componentes de tendencia, cíclicos e irregulares de los datos originales {Y). En el análisis
siguiente, T se refiere a la tendencia, C a la variación cíclica, S a la variación estacional
e / a variación irregular. Los números resultantes se conocen como índice por temporada
típico.
Estudiaremos con detalle los pasos que seguimos para llegar a los índices de variación
estacional típicos utilizando el método de la razón con promedio móvil. Los datos que nos
interesan pueden ser trimestrales o mensuales. Para ilustrar, elegimos las ventas trimestra-
les de Toys International. Primero, mostraremos los pasos necesarios para llegar a un con-
junto de índices trimestrales típicos. Luego, utilizamos el software MegaStat Excel y
MINITAB para calcular los índices de variación estacional.

La Tabla 19-6 muestra las ventas trimestrales de Toys International para los años 1998 a
2003. Las ventas se reportan en millones de dólares. Determine un índice de variación esta-
cional trimestral utilizando el método de la razón de promedio móvil.

TABLA 19-6 Ventas trimestrales de Toys International (millones de $)

La Gráfica 19-8 ilustra las ventas trimestrales de Toys International durante un periodo de
seis años. Observe la naturaleza estacional de las ventas. Para cada año, las ventas del
cuarto trimestre son las más elevadas y las ventas del segundo trimestre las más bajas. Asi-

GRÁFICA 19-8 Ventas trimestrales de Toys International 1998-2003


670 Capítulo 19

mismo, existe un incremento moderado en las ventas de un año al otro. Para observar esta
característica, sólo tiene que revisar los seis valores de las ventas del cuarto trimestre. En
el periodo de seis años, las ventas en ese trimestre aumentaron. Si une estos puntos en su
mente, podrá visualizar las ventas del cuarto trimestre en aumento para 2004. Al
determinar los índices trimestrales por temporada, seguimos seis pasos.

Paso 1 Para el análisis siguiente, consulte la Tabla 19-7. El primer paso consiste en de-
terminar el total móvil de los cuatro trimestres para 1998. Empezando por el tri-
mestre invernal de 1998, sumamos $6.7, $4.6, $10.0 y $12.7. El total es $34.0
(millones). El total para el cuarto trimestre "se mueve" al sumar las ventas de

TABLA 19-7 Cálculos necesarios para los índices por temporada específicos
Serie de tiempo y proyección 671

primavera, verano y otoño de 1998 a las ventas de invierno de 1999. El total es


$33.8 (millones), calculados mediante 4.6 + 10.0 + 12.7 + 6.5. Este procedi-
miento se repite para las ventas trimestrales de cada uno de los seis años. La
columna 2 de la Tabla 19-7 muestra todos los totales móviles. Observe que el
total móvil 34.0 se encuentra entre las ventas de primavera y verano de 1998.
El siguiente total móvil, 33.8, está entre las ventas de verano y otoño de 1998,
y así sucesivamente. Verifique los totales con frecuencia para evitar errores
aritméticos.
Paso 2 Cada total móvil trimestral en la columna 2 se divide entre 4 para obtener el pro-
medio móvil de los cuatro trimestres. (Vea la columna 3.) Todos los promedios
móviles siguientes se encuentran entre los trimestres. Por ejemplo, el primero
(8.500) se encuentra entre primavera y verano de 1998. Los promedios
Paso 3 móviles se centran. El primer promedio móvil centrado se encuentra mediante
(8.500 + 8.450)/2 = 8.475 y está centrado en la posición frente al verano de
1998. El segundo promedio móvil se calcula por medio de (8.450 + 8.450)/2 =
8.45. Los otros se calculan en forma similar. Observe que en la columna 4, un
promedio móvil centrado se encuentra en un trimestre en particular.
El índice específico de variación estacional para cada trimestre se calcula
Paso 4 dividiendo las ventas en la columna 1 entre el promedio móvil centrado en la
columna 4. Los reportes específicos por temporada manejan la razón del valor
de la serie de tiempo original con el promedio móvil. Para explicarlo mejor, si la
serie de tiempo está representada por TSCI y el promedio móvil por TC, alge-
braicamente, si calculamos TSCI/TC, el resultado es el componente de varia-
ción estacional específico SI. Este componente para el trimestre de verano de
1998 es 1.180, calculado mediante 10.0/8.475.
Los índices de variación estacional específicos se organizan en una tabla. (Vea
Paso 5 la Tabla 19-8.) Ésta nos ayudará a localizar los valores temporales específicos
para los trimestres correspondientes. Los valores 1.180, 1.130, 1.141, 1.126 y
1.143 representan los estimados del índice estacional típico para el trimestre de
verano. Un método razonable para encontrar un índice estacional típico es pro-
mediar estos valores. De modo que encontramos el índice típico para el trimes-
tre de verano mediante (1.180 + 1.130 + 1.141 + 1.126 + 1.143)/5 = 1.144.
Utilizamos la media aritmética, pero también podemos usar la mediana o una
mediana modificada.

TABLA 19-8 Cálculos necesarios para índices trimestrales típicos

Paso 6 En teoría, las cuatro medias trimestrales (0.767, 0.576, 1.144 y 1.522) dan un
total de 4.00 porque el promedio se establece en 1.0. El total de las cuatro me-
dias trimestrales quizá no sea exactamente igual a 4.00 debido al redondeo. En
este problema, el total de las medias es 4.009. Por tanto, un factor de correc-
ción se aplica a cada una de las cuatro medias para hacer que sumen un total
de 4.00.
672 Capítulo 19

En este ejemplo,

Por tanto, el índice trimestral de invierno ajustado es 0.767(0.997755) = 0.765. Cada una
de las medias se ajusta hacia abajo, de modo que el total de las cuatro medias trimestrales
sea 4.00. Por lo general, los índices se reportan como porcentajes, de modo que cada va-
lor en la última fila de la Tabla 19-8 se multiplicó por 100. Entonces, el índice para el trimes-
tre de invierno es 76.5 y para el de otoño es 151.9. ¿Cómo se interpretan estos valores?
Las ventas para el último trimestre están 51.9% por encima del trimestre típico, y para el in-
vierno están 23.5 por debajo del trimestre típico (100.0 - 76.5). Estos descubrimientos no
deben sorprenderle. El periodo anterior a la Navidad (el trimestre de otoño) es cuando las
ventas de juguetes son más altas. Después de Navidad (el trimestre de invierno) las ventas
de juguetes bajan en forma drástica.

Como dijimos antes, hay un software que realiza los cálculos y muestra los resultados.
La pantalla de MegaStat Excel se muestra a continuación. El uso de software reducirá en
gran medida el tiempo de cálculo y la probabilidad de un error aritmético, pero es preciso
entender los pasos en el proceso, como señalamos antes. Puede haber ligeras diferencias
en las respuestas, debido al número de dígitos que se manejan en los cálculos.
Serie de tiempo y proyección 673

Ahora, resumimos las razones subyacentes a los cálculos anteriores. Los datos origi-
nales en la columna 1 de la Tabla 19-7 contienen los componentes tendencia (T), variación
cíclica (C), variación estacional (S) y variación irregular (/). El objetivo principal es eliminar
la variación estacional (S) de la valuación original de las ventas.
Las columnas 2 y 3 en la Tabla 19-7 se ocupan de calcular el promedio móvil centrado
dado en la columna 4. Básicamente, "dejamos fuera del promedio" la variación estacional y
las variaciones irregulares en los datos originales en la columna 1. Por tanto, en la colum-
na 4, sólo tenemos las variaciones por las tendencias y las cíclicas (TC).
A continuación, dividimos los datos de ventas en la columna 1 (TCSI) entre el prome-
dio móvil del cuarto trimestre centrado en la columna 4 (TC) para llegar a las variaciones
estacionales específicas en la columna 5 (SI). En términos de letras, TCSIITC = SI. Multi-
plicamos SI por 100.0 para expresar en forma de índice la variación estacional típica.
Por último, tomamos la media de todos los índices típicos de invierno, todos los índices
de primavera, etc. Este promedio elimina la mayor parte de las variaciones irregulares de
las variaciones estacionales, y los cuatro índices resultantes muestran el patrón típico de
ventas por temporada.

Autoevaluación 19-4 Tetón Village, Wyoming, cerca de Grand Tetón Park y Yellowstone Park, contiene tiendas,
restaurantes y moteles. Tiene dos temporadas altas: invierno, para esquiar en los 10 000 pies
de montañas, y verano, para los turistas que visitan los parques. A continuación presentamos
el número de visitantes (en 000) por trimestre para cinco años.

(a) Desarrolle el patrón de variación estacional típico para Tetón Village utilizando el méto
do de razón con promedio móvil.
(b) Explique el índice típico para la temporada de invierno.

Ejercicios
9. Victor Anderson, propietario de Anderson Belts, Inc., estudia el ausentismo entre sus em-
pleados. Su fuerza laboral es pequeña, pues consiste de cinco empleados solamente. Du-
rante los últimos tres años, ha registrado el siguiente número de ausencias entre sus
empleados, en días, para cada trimestre.

Determine un índice de variación estacional típico para cada uno de los cuatro trimestres.
674 Capítulo 19

10. The Appliance Center vende gran variedad de equipo electrónico y aparatos domésticos.
Para los cuatro años, se reportaron las siguientes ventas trimestrales (en millones de $).

Determine el índice de variación estacional típico para cada uno de los cuatro trimestres.

Desestacionalización de datos
Un conjunto de índices típicos es muy útil para ajustar una serie de ventas, por ejemplo, pa-
ra las variaciones estacionales. La serie de ventas resultante se llama ventas fuera de
temporada o ventas fuera de temporada ajustadas. La razón de manejar una serie de
ventas fuera de temporada es eliminar las variaciones estacionales, a fin de poder estudiar
las variaciones de tendencia y cíclicas. Para ilustrar el procedimiento, los totales de ventas
trimestrales de Toys International de la Tabla 19-6 se repiten en la columna 1 de la Tabla
19-9.

TABLA 19-9 Ventas reales y fuera de temporada para Toys International

Para eliminar el efecto de la variación estacional, la cantidad de ventas para cada trimes-
tre (que contiene los efectos de la tendencia, la variación cíclica, variaciones irregulares y
variación estacional) se divide entre el índice estacional para ese trimestre; es decir, TCSI/S.
Serie de tiempo y proyección 675

Por ejemplo, las ventas reales para el primer trimestre de 1998 fueron $6.7 millones. El índice
por temporada para el trimestre de invierno es 76.5, utilizando los resultados de MegaStat
en la página 672. El índice de 76.5 señala que las ventas para el primer trimestre casi siem-
pre están 23.5% debajo del promedio en un trimestre típico. Al dividir las ventas reales de
$6.7 millones entre 76.5 y multiplicar el resultado por 100, encontramos el valor de las ven-
tas fuera de temporada para el primer trimestre de 1998. Es $8 758 170, calculado así: ($6
700 000/76.5)100. Repetimos este proceso para los otros trimestres en la columna 3 de la
Tabla 19-9, con los resultados reportados en millones de dólares. Como el componente esta-
cional se eliminó (al dividir) de las ventas trimestrales, la cifra de las ventas fuera de tempo-
rada sólo contiene los componentes tendencia (7), cíclica (C) e irregular (/). Al revisar las
ventas fuera de temporada en la columna 3 de la Tabla 19-9, vemos que las ventas de jugue-
tes mostraron un incremento moderado durante el periodo de seis años. La Gráfica 19-9
muestra tanto las ventas reales como las ventas fuera de temporada. Es evidente que al eli-
minar el factor estacional podemos enfocarnos en la tendencia general de las ventas a largo
plazo. También podremos determinar la ecuación de regresión de la información sobre la
tendencia y usarla para proyectar las ventas futuras.

GRÁFICA 19-9 Ventas reales y fuera de temporada para Toys International de 1998 a 2003

Uso de datos desestacionalizados para proyección


El procedimiento para identificar la tendencia y los ajustes por temporada se puede combi-
nar para producir proyecciones ajustadas según la temporada. A fin de identificar la tenden-
cia, determinamos la ecuación de tendencia de mínimos cuadrados en los datos históricos
fuera de temporada. Luego, proyectamos esta tendencia en periodos futuros y, por último,
ajustamos los valores de la tendencia para tomar en cuenta los valores estacionarios. El
ejemplo siguiente nos ayudará a explicar mejor lo anterior.

Toys International quiere proyectar sus ventas para cada trimestre de 2004. Utilice la infor-
mación en la Tabla 19-9 a fin de determinar la proyección.

Los datos fuera de temporada que ilustra la Gráfica 19-9 parecen seguir una línea recta. De
ahí que sea razonable desarrollar una ecuación de tendencia lineal con base en ellos. La
ecuación de tendencia fuera de temporada es:
676 Capítulo 19

donde:
es el valor de tendencia estimado para las ventas de Toys International para el pe-
riodo t.
es la intersección de la línea recta de tendencia en el tiempo 0. es
la pendiente de la línea recta, es el periodo codificado.

El trimestre de invierno de 1998 es el primero, de modo que se codifica como 1, el trimes-


tre de primavera de 1998 se codifica como 2 y así sucesivamente. El último trimestre de
2003 se codifica como 24. Estos valores codificados se muestran en la sección de datos de
la pantalla de MINITAB relacionada con la Gráfica 19-9.
Utilizamos MINITAB para encontrar la ecuación de regresión. A continuación presenta-
mos la pantalla, que incluye un diagrama de dispersión de los periodos codificados y las
ventas fuera de temporada, así como la línea de regresión.
La ecuación para la línea de tendencia es:

La pendiente de la línea de tendencia es 0.08991. Esto demuestra que, durante los 24


trimestres, las ventas fuera de temporada aumentaron a una tasa de 0.08991 (millones de $)
por trimestre, o $89 910 por trimestre. El valor de 8.109 es la intersección de la línea de ten-
dencia sobre el eje V(es decir, para t= 0).

El sistema MINITAB también calcula el coeficiente de determinación. Este valor, llama-


do R2, es 78.6%. Se muestra en la esquina superior derecha de la pantalla de MINITAB.
Podemos utilizarlo como indicador del ajuste de los datos. Como ésta no es información de
muestra, técnicamente no debemos usar R2 para calcular una ecuación de regresión. Sin
embargo, sirve para evaluar con rapidez el ajuste de los datos sobre las ventas fuera de
temporada. En este ejemplo, como R2 es alto, llegamos a la conclusión de que las ventas
fuera de temporada de Toys International se explican de manera efectiva mediante una
ecuación de tendencia lineal.
Si suponemos que los 24 periodos anteriores son un buen indicador de las ventas fu-
turas, podemos usar la ecuación de tendencia para calcularlas. Por ejemplo, para el trimes-
tre de invierno de 2004, el valor de íes 25. Por tanto, las ventas estimadas de ese periodo
son 10.35675, calculadas así:

Las ventas fuera de temporada estimadas para el trimestre de invierno de 2004 son
$10 356 750. Ésta es la proyección de las ventas, antes de considerar los efectos de las
temporadas.
Serie de tiempo y proyección 677

Utilizamos el mismo procedimiento y una hoja de cálculo de Excel a fin de determinar


una proyección para cada uno de los cuatro trimestres de 2004. La siguiente es una panta-
lla parcial de Excel.

Ahora que tenemos las proyecciones para los cuatro trimestres de 2004, podemos ajus-
farlos a las temporadas. El índice para un trimestre de invierno es 0.765. De modo que pode-
mos ajustar la proyección para el primer trimestre de 2004 mediante 10.35675(0.765) = 7.923.
Los estimados para cada uno de los cuatro trimestres de 2004 se encuentran en la columna
derecha de la pantalla de Excel. Observe la forma en que los ajustes por temporada aumen-
tan en gran medida los estimados de ventas para los dos últimos trimestres del año.

Autoevaluación 19-5 The Westberg Electric Company vende motores eléctricos a clientes en el área de James-
town, Nueva York. La ecuación de la tendencia mensual, con base en cinco años de datos
mensuales, es

El factor de temporada para el mes de enero es 120, y 95 para febrero. Determine la proyec-
ción ajustada a la temporada para enero y febrero del sexto año.

Ejercicios _________________________________
11. El departamento de planeación de Padget and Kure Shoes, fabricante de una exclusiva mar-
ca de zapatos para dama, desarrolló la siguiente ecuación de tendencia, en millones de pa-
res, con base en cinco años de datos trimestrales.

La tabla siguiente proporciona los factores por temporada para cada trimestre.

Determine la proyección ajustada por temporada para cada uno de los cuatro trimestres del
sexto año.
12. Team Sports, Inc., vende artículos deportivos a secundarias y universidades a través de un
catálogo de distribución nacional. La administración de Team Sports estima que, el próximo
año, van a vender 2 000 guantes de béisbol Wilson modelo A2000. Proyectan que las ven-
tas fuera de temporada serán iguales para los cuatro trimestres del año. El factor de tempo-
rada para el segundo trimestre es 145. Determine las ventas ajustadas por temporada para
el segundo trimestre del próximo año.
678 Capítulo 19

13. Consulte el Ejercicio 9, acerca de las ausencias en Anderson Belts, Inc. Utilice los índices
por temporada que calculó para determinar las ausencias fuera de temporada. Determine la
ecuación de tendencia lineal con base en los datos trimestrales para los tres años. Proyec
te las ausencias ajustadas por temporada para 2004.
14. Consulte el Ejercicio 10, acerca de las ventas en The Appliance Center. Utilice los índices
por temporada que calculó para determinar las ventas fuera de temporada. Establezca la
ecuación de tendencia lineal con base en los datos trimestrales para los cuatro años. Pro
yecte las ventas ajustadas fuera de temporada para 2004.

Resumen del capítulo


I. Una serie de tiempo es un conjunto de datos durante un periodo.
A. La tendencia es la dirección a largo plazo de la serie de tiempo.
B. El componente cíclico es la variación por encima y por debajo de la línea de tendencia
a largo plazo durante un periodo más prolongado.
C. La variación estacional es el patrón en una serie de tiempo en un año. Estos patrones
suelen repetirse año tras año para la mayor parte de los negocios.
D. La variación irregular se divide en dos componentes.
1. Las variaciones episódicas son impredecibles, pero casi siempre se pueden identifi-
car. Un ejemplo sería una inundación.
2. Las variaciones residuales son aleatorias por naturaleza.
II. Un promedio móvil se usa para reducir la tendencia en una serie de tiempo.
III. La ecuación de tendencia lineal es Y" = a + bt, donde a es la intersección con Y, b es la pen-
diente de la recta y t es el tiempo codificado.
A. La ecuación de tendencia se determina usando el principio de los mínimos cuadrados.
B. Si la tendencia no es lineal, sino que los incrementos suelen ser un porcentaje constan
te, los valores de Y se convierten en logaritmos y la ecuación de mínimos cuadrados se
determina utilizándolos.
IV. Un factor estacional se puede calcular usando el método de la razón con el promedio móvil.
A. El procedimiento en seis pasos produce un índice estacional para cada periodo.
1. Los factores estacionales casi siempre se calculan en forma mensual o trimestral.
2. El factor por temporada se usa para ajustar las proyecciones, tomando en cuenta los
efectos de la temporada.

Ejercicios del capítulo


15. Consulte el diagrama siguiente.
a. Calcule la ecuación de tendencia lineal para la serie de producción trazando una línea
recta por toda la información.
b. ¿Cuál es la reducción anual promedio en la producción?
c. Con base en la ecuación de tendencia, ¿cuál es la proyección para el año 2005?
Serie de tiempo y proyección 679

16. Consulte el diagrama siguiente.


a. Estime la ecuación de tendencia lineal para la serie de ingreso personal.
b. ¿Cuál es el aumento anual promedio en el ingreso personal?

17. El movimiento en los activos, excepto en las inversiones en efectivo y a corto plazo, para
RNC Company de 1993 a 2003 son:

a. Trace los datos en un diagrama.


b. Determine la ecuación de tendencia de mínimos cuadrados.
c. Calcule los puntos en la línea de tendencia para 1996 y 2001 y trace la línea en la grá-
fica.
d. Estime el movimiento de los activos para 2008.
e. ¿Cuánto aumentó el movimiento de activos al año, en promedio, de 1993 a 2003?
18. Las ventas, en miles de millones de dólares, de Keller Overhead Door, Inc., para los años
1998 a 2003 son:

a. Trace los datos en un diagrama.


b. Determine la ecuación de tendencia de mínimos cuadrados.
c. Utilice la ecuación de tendencia para calcular los puntos para 2000 y 2002. Dibújelos en
la gráfica y trace la línea de regresión.
d. Estime las ventas netas para 2006.
e. ¿Cuánto aumentaron (o bajaron) las ventas por año en promedio durante el periodo?
19. El número de empleados, en miles, de Keller Overhead Door, Inc., para los años 1998 y
2003 es:

a. Trace los datos en una gráfica.


b. Determine la ecuación de tendencia de mínimos cuadrados.
c. Use la ecuación de tendencia para calcular los puntos para 2000 y 2002. Dibújelos en
la gráfica y trace una línea de regresión.
d. Estime el número de empleados en 2006.
e. ¿En cuánto aumentó (o se redujo) el número de empleados en promedio por año du
rante el periodo?
680 Capítulo 19

20. A continuación presentamos el precio de venta de las acciones de PepsiCo, Inc., al cierre de
año.

a. Trace los datos en un diagrama.


b. Determine la ecuación de tendencia de mínimos cuadrados.
c. Calcule los puntos para ¡os años 1993 y 1998.
d. Estime el precio de venta en 2006. ¿Parece ser un estimado razonable basado en los
datos históricos?
e. ¿Cuánto aumentó o bajó el precio accionario (por año) en promedio durante el periodo?
21. Si se trazan sobre papel cuadriculado, la siguiente serie de ventas se vería curvilínea. Esto
indica que las ventas aumentan a una tasa constante anual (porcentaje). Por tanto, para
ajustarías, debemos usar una ecuación logarítmica en línea recta.

a. Determine la ecuación logarítmica.


b. Determine las coordenadas de los puntos en la línea recta logarítmica para 1992 y
2001.
c. ¿En qué porcentaje aumentaron las ventas por año, en promedio, durante el periodo de
1993 a 2003?
d. Con base en la ecuación, ¿cuáles son las ventas estimadas para 2004?
22. A continuación se reportan las cantidades gastadas en publicidad (millones de $) por una
empresa grande de 1993 a 2003.

a. Determine la ecuación de tendencia logarítmica.


b. Estime los gastos en publicidad para 2006.
c. ¿En qué porcentaje aumentaron los gastos publicitarios por año durante el periodo?
23. A continuación presentamos el precio de venta para las acciones de Oracle, Inc., al cierre
de año.
Serie de tiempo y proyección 681

a. Trace los datos en una gráfica.


b. Determine la ecuación de tendencia de mínimos cuadrados. Utilice el precio accionario
real y el logaritmo del precio. ¿Cuál parece producir una proyección más exacta?
c. Calcule los puntos para los años 1993 y 1998.
d. Estime el precio de venta en 2005. ¿Parece un estimado razonable basado en datos
históricos?
e. ¿Cuánto aumentó o bajó el precio accionario (por año) en promedio durante el periodo?
Utilice su mejor respuesta de la parte (b).
24. Ésta es la producción de Reliable Manufacturing Company para 1999 y parte de 2000.

a. Utilizando el método de razón con el promedio móvil, determine los índices específicos
estacionales para julio, agosto y septiembre de 1999.
b. Suponga que los índices específicos estacionales en la tabla siguiente son correctos.
Inserte en la tabla los índices específicos estacionales que calculó en la parte (a) para
julio, agosto y septiembre de 1999, y determine los 12 índices típicos estacionales.

c. Interprete el índice típico estacional.


25. Las ventas de Andre's Boutique para 1999 y parte de 2000 son:

a. Utilizando el método de razón con promedio móvil, determine los índices estacionales
específicos para julio, agosto, septiembre y octubre de 1999.
b. Suponga que los índices específicos estacionales en la tabla siguiente son correctos.
Inserte en ella los que usted calculó en la parte (a) para julio, agosto, septiembre y oc
tubre de 1999, y determine los 12 índices estacionales típicos.

c. Interprete el índice estacional típico.


682 Capítulo 19

26. La producción trimestral de madera de pino, en millones de pies tabla, por parte de North-
west Lumber desde 1999 es:

a. Determine el patrón estacional típico para los datos de producción usando el método de
razón con promedio móvil.
b. Interprete el patrón.
c. Calcule los datos fuera de temporada y determine la ecuación de tendencia lineal.
d. Proyecte la producción ajustada por temporada para los cuatro trimestres de 2004.
27. Work Gloves Corp., revisa sus ventas trimestrales de Toughie, los guantes más durables que
producen. Los números de pares fabricados (en miles) por trimestre son:

a. Usando el método de razón con promedio móvil, determine los cuatro índices trimestra
les típicos.
b. Interprete el patrón estacional típico.
28. Las ventas de material para techos, por trimestre, desde 1997 para Carolina Home Cons-
truction, Inc., se muestran a continuación (en $000).

a. Determine los patrones estacionales típicos para las ventas usando el método de razón
con promedio móvil.
b. Calcule los datos fuera de temporada y determine la ecuación de tendencia.
c. Proyecte las ventas para 2004 y ajuste cada trimestre por temporada.
29. Los índices de rotación del inventario en Bassett Wholesale Enterprises, por trimestre, son:
Serie de tiempo y proyección 683

a. Calcule los cuatro índices de rotación trimestrales típicos de la compañía Bassett usan
do el método de razón con promedio móvil.
b. Calcule los datos fuera de temporada y determine la ecuación de tendencia.
c. Proyecte los índices de movimiento para 2004, y ajuste cada trimestre de 2004 fuera de
temporada.
30. La tabla siguiente presenta el número de jubilados que reciben beneficios del State Tea-
chers Retirement System of Ohio de 1991 hasta 2002.

a. Trace los datos.


b. Determine la ecuación de tendencia de mínimos cuadrados. Utilice una ecuación lineal.
c. Calcule los puntos para los años 1993 y 1998.
d. Estime el número de jubilados que van a recibir beneficios en 2003. ¿Parece ser un es
timado razonable basado en datos históricos?
e. ¿Cuánto aumentó o se redujo el número de jubilados (por año) en promedio durante el
periodo?
31. Ray Anderson, propietario de Anderson Ski Lodge en la región norte del estado de Nueva
York, quiere proyectar el número de visitantes para el próximo año. Contamos con tos da-
tos siguientes, por trimestre, desde 1997. Desarrolle un índice estacional para cada trimes-
tre. ¿Cuántos visitantes esperaría usted para cada trimestre de 2004, si Ray proyecta que
habrá un incremento de 10% en comparación con el número total de visitantes en 2003? De-
termine la ecuación de tendencia, proyecte el número de visitantes para 2004 y ajuste la pro-
yección fuera de temporada. ¿Qué proyección elegiría?

32. Las inscripciones en la Facultad de Administración de Midwestern University por trimestre


desde 1999 son:

Utilizando el método de razón con promedio móvil:


a. Determine los cuatro índices trimestrales.
684 Capítulo 19

b. Interprete el patrón trimestral de las inscripciones. ¿La variación estacional le sorprende?


c. Calcule la ecuación de tendencia y proyecte las inscripciones por trimestre para 2004.
33. The Jamie Farr Kroger Classic es un torneo profesional de golf femenil que se juega en To
ledo, Ohio, cada año. A continuación presentamos la bolsa total y el premio para los 17 años
de 1987 a 2003. Desarrolle una ecuación de tendencia para las dos variables. ¿Qué varia
ble aumenta a mayor velocidad? Proyecte la cantidad en la bolsa y el premio para la gana
dora en 2005. Encuentre la razón del premio para la ganadora con la bolsa total. ¿Qué
encontró? ¿Qué variable se puede estimar con mayor precisión, el tamaño de la bolsa o el
premio para la ganadora?

exercises.com
34. Visite el sitio web de Bureau of Labor Statistics en www.bls.gov, haga clic en la opción Con-
sumer Price Index, seleccione Most Requested Series, Pnces and Living Conditions y
luego en Consumer Price Index - All Urban Consumere (Current Serles). Pida el resul
tado anual para los últimos 10 a 20 años. Desarrolle una ecuación de regresión para el ín
dice de Precios al Consumidor anual durante el periodo seleccionado. Utilice el enfoque
lineal y logarítmico. ¿Cuál considera que es mejor?
35. Desarrolle una línea de tendencia para una compañía grande o famosa, como GM, General
Electric o Microsoft, para los últimos 10 años. Puede visitar el sitio web de la empresa. La
mayor parte de las empresas tienen una sección llamada "Financial Information". Vaya a ella
y busque las ventas en los últimos 10 años. Si no conoce el sitio web de la compañía, vaya
a la sección financiera de Yahoo o USA Today, donde hay un lugar para "symbol look up".
Escriba el nombre de la compañía, con lo que obtendrá el símbolo. Busque la empresa por
medio del símbolo y encontrará la información. El símbolo para GM es justamente GM, el
símbolo para General Electric es GE. Comente sobre la línea de tendencia de la compañía
que seleccionó durante el periodo. ¿La tendencia aumenta o disminuye? ¿La tendencia si
gue una ecuación lineal o logarítmica?
36. Seleccione uno de los principales indicadores económicos, como el Promedio Dow Jones,
Nasdaq o S&P 500. Desarrolle una línea de tendencia para el índice durante los últimos 10
años utilizando el valor del índice al final del año, o para los últimos 30 días seleccionando
el valor de cierre del índice durante los mismos 30 días. Encontrará esta información en mu
chos lugares. Por ejemplo, vaya a http://finance.yahoo.com, haga clic en Nasdaq en la es
quina inferior derecha, seleccione historical quotes y un periodo, quizá los últimos 30 días,
y encontrará la información. La podrá descargar directamente a Excel para crear su ecua
ción de tendencia. Comente sobre la línea de tendencia que creó. ¿Va en aumento o se re
duce? ¿La línea de tendencia sigue una ecuación lineal o algorítmica?

Ejercicios de la base de datos.


37. Consulte los datos Baseball 2002, que incluyen información sobre la temporada 2002 de
Béisbol de las Ligas Mayores. Los datos presentan el salario promedio por jugador desde
1976 y el salario mediano de cada jugador desde 1983. Trace la información en una gráfica
y desarrolle una ecuación de tendencia lineal. Compare la velocidad del incremento en la
mediana y del incremento para el promedio. Escriba un breve informe sobre sus hallazgos.
Serie de tiempo y proyección 685

Comandos de software
1. Los comandos de MegaStat para crear los índices esta-
cionales de la página 672 son:
a. Escriba el periodo codificado y el valor de la serie
de tiempo en dos columnas. Quizá también quiera
incluir información sobre los años y trimestres.
b. Seleccione MegaStat, Time Series/Forecasting y
Deseasonalization y presione Enter.
c. Escriba el rango de los datos, indique que la infor
mación es del primer trimestre y haga clic en OK.
686 Capítulo 19

Capítulo 19 Respuestas a las autoevaluaciones


Una introducción a la
teoría de las decisiones

Blackbeard's Phantom Fireworks está considerando introducir dos


nuevos productos. La compañía puede agregar ambos, ninguno o
sólo uno de los dos a la línea actual. El éxito de estos productos
depende de las reacciones de los consumidores. Consulte los datos
en el ejercicio para calcular el valor monetario esperado para cada
decisión. (Vea las Metas 3, 4 y 5, y el Ejercicio 11.)
688 Capítulo 20

Introducción
Desde principios de la década de 1950 se desarrolló una rama de la estadística que se lla-
ma teoría de las decisiones estadísticas, la cual utiliza la probabilidad. Como lo implica
su nombre, el enfoque está en el proceso de la toma de decisiones y explícitamente inclu-
ye los beneficios que de ello puedan resultar. En contraste, la estadística clásica se enfoca
en calcular un parámetro, como la media poblacional, construir un intervalo de confianza o
llevar a cabo una prueba de hipótesis. La estadística clásica no comprende las consecuen-
cias financieras.
La teoría de las decisiones estadísticas se relaciona con determinar, a partir de una se-
rie de alternativas posibles, cuál es la decisión óptima de una serie de condiciones en par-
ticular. Considere los siguientes ejemplos de problemas de toma de decisiones.

• Ford Motor Company debe decidir si compra las cerraduras para las puertas ensambla
das del nuevo modelo del camión Ford F-150 o fabrica y ensambla las cerraduras pa
ra las puertas en su planta de Sandusky,
Ohio. Si siguen aumentando las ventas
del camión F-150, será más productivo fa
bricar y ensamblar las piezas. Si las ven
tas se estabilizan o disminuyen, lo mejor
es comprar las cerraduras para las puer
tas ensambladas. ¿Deben producir o com
prar las cerraduras?
• Banana Republic desarrolló una nueva lí-
nea de chamarras de verano para la lluvia
que son muy populares en regiones del
país con clima frío. Les gustaría comprar
tiempo de televisión comercial durante la
próxima final de basquetbol de la NCAA.
Si los dos equipos que jueguen son de zo-
nas cálidas del país, calculan que sólo una
pequeña proporción de televidentes se interesará por las chamarras. Sin embargo, una se-
rie final entre dos equipos de zonas con clima frío llegaría a una proporción grande de
televidentes que usan chamarras. ¿Deben comprar el tiempo de televisión comercial?
• General Electric está considerando tres opciones respecto a los precios de refrigerado
res para el próximo año. GE podría (1) aumentar los precios un 5%, (2) aumentar los
precios un 2.5% o (3) dejar los precios como están. La decisión final se basará en las
estimaciones de ventas y lo que GE sepa acerca de lo que podrían hacer los demás fa
bricantes de refrigeradores.

En cada uno de estos casos, la decisión se caracteriza por los diversos cursos de ac-
ción alternativos y los diversos factores que no están bajo el control de quien toma las de-
cisiones. Por ejemplo, Banana Republic no tiene el control sobre los equipos de basquetbol
de la NCAA que llegarán a la final. Estos casos se caracterizan por la naturaleza de la to-
ma de decisiones. Se pueden enumerar posibles alternativas de las decisiones, posibles
eventos futuros determinados e incluso probabilidades establecidas, pero las decisiones se
toman ante la incertidumbre.

Elementos de una decisión


Existen tres componentes para cualquier decisión: (1) las opciones al alcance o alternati-
vas, (2) los estados de la naturaleza, que no están bajo el control de quien toma la decisión
y (3) los beneficios. En los párrafos a continuación se explicarán estos conceptos.
Las alternativas, o hechos, son las opciones al alcance de quien toma la decisión. Ford
puede decidir fabricar y ensamblar las cerraduras para puertas en Sandusky o puede deci-
dir comprarlas. Para simplificar nuestra presentación, asumimos que quien toma la decisión
puede seleccionar de un número un tanto reducido de resultados. Sin embargo, con la ayu-
Una introducción a la teoría de las decisiones 689

da de las computadoras, las alternativas de las decisiones se pueden expandir a un gran


número de posibilidades.
Los estados de la naturaleza son eventos futuros no controlados. El estado de la na-
turaleza que de hecho ocurre está fuera del control de quien toma la decisión. Ford no sa-
be si la demanda para el F-150 seguirá siendo alta. Banana Republic no puede determinar
si la final de basquetbol de la NCAA se jugará entre equipos de clima cálido o de clima frío.
Se necesita un beneficio para comparar cada combinación de alternativa de las deci-
siones y estado de naturaleza. Ford puede calcular que si ensambla las cerraduras para
puertas en su planta de Sandusky y la demanda de los F-150 es baja, el beneficio será de
$40 000. Si, por el contrario, compra las cerraduras ensambladas y la demanda es alta, se
calcula que el beneficio es de $22 000.
Los principales elementos de la decisión bajo condiciones de incertidumbre se identifi-
can de manera esquemática:

En muchos casos, podemos tomar mejores decisiones si establecemos las probabilida-


des para los estados de la naturaleza. Estas probabilidades se pueden basar en datos his-
tóricos o estimaciones subjetivas. Ford puede estimar la probabilidad de una demanda alta
en un 0.70. GE puede estimar que la probabilidad de que Amana y otros fabricantes aumen-
ten los precios de sus refrigeradores sea de 0.25.

Un caso que comprende la toma


de decisiones en condiciones de incertidumbre
Desde el principio se debe resaltar que esta descripción de caso sólo incluye los conceptos
fundamentales encontrados en la toma de decisiones. La finalidad de estudiar el caso es
explicar el procedimiento lógico que se sigue.
El primer paso es establecer una tabla de beneficios.

Tabla de beneficios
Bob Hill, un pequeño inversionista, cuenta con $1 100 para invertirlos. Estudió varias acciones
ordinarias y redujo sus opciones a tres, principalmente, Kayser Chemicals, Rim Homes y
Texas Electronics. Estimó que si invirtiera sus $1 100 en Kayser Chemicals y a fin de año
se desarrollara un mercado a la alza fuerte (es decir, que aumentaran de manera drástica
los precios de las acciones), el valor de su acción en Kayser sería más del doble, $2 400.
No obstante, si fuera un mercado a la baja (es decir, que los precios de las acciones baja-
ran), el valor de su acción en Kayser bajaría a $1 000 a fin de año. Sus pronósticos respec-
to al valor de su inversión de $1 100 para las tres acciones en un mercado a la alza y un
mercado a la baja se presentan en la Tabla 20-1. Ésta es una tabla de beneficios.
690 Capítulo 20
Las diversas opciones se llaman alternativas de las decisiones o hechos. En esta si-

TABLA 20-1 Tabla de beneficios para tres acciones ordinarias bajo dos condiciones del mercado

tuación existen tres. Sea A1 la compra de Kayser Chemicals, A, la compra de Rim Homes
y A3 la compra de Texas Electronics. El hecho de que el mercado resulte estar a la baja o
la alza no está bajo el control de Bob Hill. Estos eventos futuros no controlados son los es-
tados de la naturaleza. Sea S1 el mercado a la alza y S2 el mercado a la baja.

Beneficios esperados
Si la tabla de beneficios esperados fuera la única información disponible, el inversionista quizá
tomaría una acción conservadora y compraría Texas Electronics para asegurar al menos
$1 150 a fin de año (una ligera ganancia). Sin embargo, una especulación podría ser com-
prar Kayser Chemicals con la posibilidad de ganar más del doble de su inversión de $1 100.
Tomar una decisión referente a la compra de una de las tres acciones ordinarias sólo
con base en la información de la tabla de beneficios ignoraría los valiosos registros históri-
cos que conserva Moody's Valué Line y otros servicios de inversión relacionados con los
movimientos de los precios de las acciones durante un periodo largo. Por ejemplo, un es-
tudio de estos registros reveló que durante los últimos 10 años los precios en la bolsa de
valores subieron seis veces y sólo bajaron cuatro veces. De acuerdo con esta información,
la probabilidad de un alza en el mercado es 0.60 y la probabilidad de una baja en el mer-
cado es 0.40.
Suponiendo que estas frecuencias históricas son confiables, se pueden combinar la ta-
bla de beneficios y las estimaciones de probabilidad (0.60 y 0.40) para llegar a los benefi-
cios esperados de comprar cada una de las tres acciones. Los beneficios esperados
también se conocen como el valor monetario esperado, EMV (por sus siglas en inglés).
También se puede describir como los beneficios medios. Los cálculos necesarios de los
beneficios esperados por el hecho de comprar Kayser Chemicals se presentan en la Tabla
20-2.

TABLA 20-2 Beneficios esperados por el hecho de comprar Kayser Chemicals, EMV (A)

Para explicar el cálculo de un valor monetario esperado, observe que si el inversionis-


ta compró Kayser Chemicals y los precios del mercado bajaron, a fin de año el valor de la
acción sólo sería de $1 000 (de la Tabla 20-1). Sin embargo, experiencias anteriores reve-
laron que este evento (una baja en el mercado) ocurrió sólo el 40% del tiempo. Por tanto,
a largo plazo, una baja en el mercado contribuiría con $400 al total de beneficios espera-
dos de la acción, que se encuentra por medio de $1 000 x 0.40. La suma de $400 a los
$1 440 esperados bajo condiciones de un mercado a la alza resulta en $1 840, los benefi-
cios "esperados" a largo plazo.
Estos cálculos se resumen de la siguiente manera.
Una introducción a la teoría de las decisiones 691

donde:
se refiere al valor monetario esperado de la alternativa de la decisión /. Pue-
de haber muchas decisiones posibles. Diremos que 1 se refiere a la primera
decisión, 2 a la segunda y así sucesivamente. La letra /en minúscula repre-
senta toda la serie de decisiones.
se refiere a la probabilidad de los estados de la naturaleza. Puede haber un
número ilimitado, por lo que diremos que j representa este posible resultado,
se refiere al valor de los beneficios. Observe que cada beneficio es el resul-
tado de una combinación de una alternativa de la decisión y un estado de
naturaleza.
EMV(A1), el valor monetario esperado para la alternativa de la decisión de comprar la ac-
ción de Kayser Chemicals se calcula por medio de:

Comprar la acción de Kayser Chemicals sólo es una opción posible. Los beneficios es-
perados para el hecho de comprar Kayser Chemicals, Rim Homes y Texas Electronics se
presentan en la Tabla 20-3.
TABLA 20-3 Beneficios esperados para tres acciones

Un análisis de los beneficios esperados en la Tabla 20-3 indica que la compra de Kay-
ser Chemicals redituaría en la ganancia máxima esperada. Este resultado se basa en (1) el
valor futuro estimado de las acciones por parte del inversionista y (2) la experiencia históri-
ca con respecto del alza y la baja en los precios de las acciones. Se debe subrayar que aun
cuando la compra de la acción de Kayser represente la mejor acción bajo el criterio del va-
lor esperado, el inversionista todavía podría decidir comprar la acción de Texas Electronics
a fin de minimizar el riesgo de perder parte de la inversión de $1 100.

Autoevaluación 20-1 Compruebe la conclusión, que se presenta en la Tabla 20-3, de que los beneficios esperados
para el hecho de comprar la acción de Rim Homes es $1 760.

Ejercicios _________________________________
1. Se desarrolló la siguiente tabla de beneficios. Deje P(S:) = 0.30, P(S2) = 0.50 y P(S3) = 0.20.
Calcule el valor monetario esperado para cada alternativa. ¿Qué decisión recomendaría?
692 Capítulo 20

2. La Wilhelms Cola Company planea introducir en el mercado este verano un nuevo refresco
de cola sabor pina. La decisión es si la cola se embotella en envases retornables o en no re-
tornables. Tybo Wilhelms, presidente de Wilhelms Cola Company, analizó el problema con su
representante estatal y estableció que la probabilidad de que se eliminen los envases no re-
tornables es de 0.70. La tabla a continuación muestra las ganancias mensuales estimadas
(en miles de dólares) si la cola de pina se embotella en envases retornables versus no retor-
nables. Desde luego que si se aprueba la ley y la decisión es embotellar la cola en envases
no retornables, todas las ganancias serían por las ventas fuera del estado. Calcule la ganan-
cia esperada para ambas decisiones de embotellamiento. ¿Qué decisión recomienda?

Pérdida de oportunidad
Otro método para analizar una decisión respecto a qué acciones se deben comprar es de-
terminar la ganancia que podría perderse debido a que no se conocía el estado de la natu-
raleza (el comportamiento del mercado) al momento en que el inversionista compró la
acción. Esta pérdida potencial se llama pérdida o costo de oportunidad. A manera de ex-
plicación, suponga que el inversionista compró la acción ordinaria de Rim Homes y se de-
sarrolló un mercado a la alza. Además, suponga que el valor de su acción de Rim Homes
subió de $1 100 a $2 200, como se había anticipado. Pero si el inversionista hubiera com-
prado la acción de Kayser Chemicals y los valores bursátiles subieran, el valor de su acción
de Kayser sería de $2 400 (de la Tabla 20-1). Por lo tanto, el inversionista no obtuvo una
ganancia adicional de $200 al comprar Rim Homes en vez de Kayser Chemicals. En otras
palabras, los $200 representan la pérdida de oportunidad por no saber el estado de la na-
turaleza correcto. Si los precios del mercado sí subieron, el inversionista se habría arrepen-
tido de comprar Rim Homes. Sin embargo, de haber comprado Kayser Chemicals y los
precios del mercado hubieran aumentado, no se habría arrepentido; es decir, no habría una
pérdida de oportunidad.
Las pérdidas de la oportunidad correspondientes a este ejemplo se presentan en la Ta-
bla 20-4. Cada cantidad es el resultado (pérdida de oportunidad) de una combinación par-
ticular de hechos y un estado de la naturaleza; es decir, la compra de la acción y la reacción
del mercado.
Observe que la acción de Kayser Chemicals sería una buena opción de inversión en un
mercado a la alza, Texas Electronics sería la mejor compra en un mercado a la baja y Rim
Homes en cierto modo representa un punto intermedio.
TABLA 20-4 Pérdidas de oportunidad de varias combinaciones de compra de acciones y movimiento de
mercado

Autoevaluación 20-2 Consulte la Tabla 20-4. Compruebe que la pérdida de oportunidad para:
(a) Rim Homes, con una baja en el mercado, es $50.
(b) Texas Electronics, con un alza en el mercado, es $500.
Una introducción a la teoría de las decisiones 693

Ejercicios ______________________________________
3. Consulte el Ejercicio 1. Desarrolle una tabla de pérdida de oportunidad. Determine la pérdi
da de oportunidad para cada decisión.
4. Consulte el Ejercicio 2, que involucra a la Wilhelms Cola Company. Desarrolle una tabla de
la pérdida de oportunidad y determine la pérdida de oportunidad para cada decisión.

Pérdida de oportunidad esperada


Las pérdidas de oportunidad de la Tabla 20-4 de nuevo ignoran la experiencia histórica de
los movimientos bursátiles. Recuerde que la probablidad de la alza de un mercado es 0.60
y que la baja es 0.40. Estas probabilidades y las pérdidas de oportunidad se pueden com-
binar para determinar la pérdida de oportunidad esperada. Estos cálculos respecto a la
decisión de comprar Rim Homes se presentan en la Tabla 20-5. La pérdida de oportunidad
esperada es $140.
Al interpretarse, la pérdida de oportunidad esperada de $140 significa que, a largo pla-
zo, el inversionista perdería la oportunidad de obtener una ganancia adicional de $140 si
decide comprar la acción de Rim Homes. Se incurriría en esta pérdida esperada porque el
inversionista no pudo pronosticar de manera precisa la tendencia del mercado accionario.
En un mercado a la alza, podría ganar $200 adicionales comprando la acción ordinaria de
Kayser Chemicals, pero en un mercado a la baja un inversionista podría ganar $50 adicio-
nales comprando la acción de Texas Electronics. Cuando se pesan mediante la probabili-
dad del evento, la pérdida de oportunidad esperada es $140.

TABLA 20-5 Pérdida de la oportunidad esperada para el hecho de comprar la acción de Rim Homes

Estos cálculos se resumen de la siguiente manera:

donde:

se refiere a la pérdida de oportunidad esperada para una alternativa de la


decisión en particular.
se refiere a la probabilidad asociada a los estados de la naturaleza y. se
refiere a la pérdida de una combinación particular de un estado de la na-
turaleza o una alternativa de la decisión.

EOL(A2), la pérdida de la oportunidad esperada por elegir Rim Homes se calcula de la si-
guiente manera:

Las pérdidas de oportunidad esperada para las tres alternativas de la decisión se presen-
tan en la Tabla 20-6. La pérdida de oportunidad esperada más baja es $60, lo cual signifi-
ca que el inversionista en promedio se arrepentiría menos si comprara Kayser Chemicals.
694 Capítulo 20

TABLA 20-6 Pérdidas de oportunidad esperada para las tres acciones

A propósito, observe que la decisión de comprar la acción de Kayser Chemicals porque


tiene la pérdida de oportunidad esperada más baja refuerza la decisión antes tomada de
que dicha acción finalmente daría como resultado los beneficios esperados más altos
($1 840). Estos dos planteamientos (la pérdida de oportunidad esperada más baja y los be-
neficios esperados más altos) siempre conducirán a la misma decisión respecto a qué cur-
so de acción seguir.

Autoevaluación Consulte la Tabla 20-6 y compruebe que la pérdida de oportunidad esperada para el hecho
de comprar Texas Electronics es $300.

Ejercicios
5. Consulte los Ejercicios 1 y 3. Calcule las pérdidas de oportunidad esperada.
6. Consulte los Ejercicios 2 y 4. Calcule las pérdidas de oportunidad esperada.

Estrategias maximín, maximax y minimax


Varios asesores financieros consideran muy riesgosa la compra de las acciones de Kayser
Chemicals. Observan que los beneficios quizá no sean de $1 840, sino sólo de $1 000 (de
la Tabla 20-1). Bajo el argumento de que el mercado bursátil es demasiado impredecible,
instan al inversionista a tomar una posición más conservadora y comprar Texas Electronics.
Estrategia maximín Lo anterior se llama una estrategia maximín: maximiza la ganancia mínima. Con base en
la tabla de beneficios (Tabla 20-1), su razonamiento es que el inversionista aseguraría por
lo menos una retribución de $1 150; es decir, una pequeña ganancia. Aquellos que están
de acuerdo con esta estrategia un tanto pesimista a veces se les denomina maximiners.
En el otro extremo se encuentran los maximaxer optimistas, quienes elegirían la acción
Estrategia maximax que maximiza la ganancia máxima. Si se siguiera su estrategia maximax, el inversionista
compraría la acción de Kayser Chemicals. Estos optimistas subrayan que en el futuro existe
una posibilidad de vender la acción a $2 400 en vez de sólo los $1 150 que defienden los
maximiners.
Estrategia minimax Otra estrategia es la estrategia minimax. Los asesores que apoyan este planteamien-
to buscarían las pérdidas de la oportunidad en la Tabla 20-4 y elegirían la acción que mini-
miza la pérdida máxima. En este ejemplo, sería la acción de Kayser Chemicals, con una
pérdida de la oportunidad máxima de $150. ¡Recuerde que desea evitar las pérdidas de
oportunidad! Las pérdidas máximas fueron $200 para Rim Homes y $500 para Texas Elec-
tronics.

Valor de la información perfecta


Antes de decidir respecto a una acción, tal vez el inversionista quiera tomar en considera-
¿Cuánto vale la información ción maneras de pronosticar el movimiento del mercado bursátil. Si supiera con precisión
"perfecta"? qué sucedería con el mercado, podría maximizar las ganancias al comprar siempre las ac-
Una introducción a la teoría de las decisiones 695

ciones correctas. La pregunta es: ¿de qué sirve esta información anticipada? El valor del
dólar de esta información se llama valor esperado de la información perfecta, que se es-
cribe EVPI (por sus siglas en inglés). En este ejemplo, significaría que Bob Hill sabría de
antemano si el mercado bursátil subiría o bajaría en un futuro cercano.
Un conocido analista que tiene un despacho grande de correduría dijo que estaría dis-
puesto a proporcionar a Bob la información que considerara importante para pronosticar las
altas y bajas del mercado. Desde luego que esta información causaría honorarios, aún no
determinados, independientemente de si el inversionista la usara. ¿Cuál es la cantidad má-
xima que Bob debe pagar por este servicio especial? ¿$10? ¿$100? ¿$500?
El valor de la información del analista es, en esencia, el valor esperado de la informa-
ción perfecta, porque el inversionista entonces tendría la seguridad de comprar las acciones
más redituables.

VALOR DE LA INFORMACIÓN PERFECTA La diferencia entre los beneficios máximos bajo


condiciones de certidumbre y los beneficios máximos bajo incertidumbre.

En este ejemplo, ésta es la diferencia entre el valor máximo de las acciones a fin de año
bajo condiciones de certidumbre y el valor asociado con la decisión óptima usando el crite-
rio del valor esperado.
Desde un punto de vista práctico, el valor esperado máximo bajo condiciones de certi-
dumbre significa que el inversionista compraría Kayser Chemicals si se pronosticara un al-
za en el mercado y Texas Electronics si una baja en el mercado fuera inminente. Los
beneficios esperados bajo condiciones de certidumbre son $1 900. (Véase la Tabla 20-7).

TABLA 20-7 Cálculos de los beneficios esperados bajo condiciones de certidumbre

Recuerde que si no se conociera el comportamiento real del mercado bursátil (condi-


ciones de incertidumbre), la acción a comprar sería Kayser Chemicals; se calculó que su
valor esperado al final del periodo sería $1 840 (de la Tabla 20-3). Por lo tanto, el valor de
la información perfecta es $60, que se encuentra mediante:

Valor esperado de la acción comprada en condiciones de certidumbre


Valor esperado de la compra (Kayser) en condiciones de incertidumbre
Valor esperado de la información perfecta

En general, el valor esperado de la información perfecta se calcula de la siguiente


manera:

La información que el analista de bolsa pudiera proporcionar valdría hasta $60. En


esencia, el analista estaría "garantizando" un precio de venta promedio de $1 900 y si el
analista pidiera $40 por la información, el inversionista tendría la seguridad de obtener be-
neficios por $1 860, que se encuentra mediante $1 900 - $40. Por tanto, valdría la pena que
el inversionista aceptara esta tarifa ($40) porque el resultado esperado ($1 860) sería ma-
696 Capítulo 20

yor al valor esperado bajo condiciones de incertidumbre ($1 840). Sin embargo, si su cono-
cido pidiera una tarifa de $100 por el servicio, el inversionista sólo obtendría $1 800 en pro-
medio, que se encuentra restando $1 900 - $100. Como es lógico, el servicio por $100 no
valdría la pena porque el inversionista podría esperar $1 840 en promedio sin aceptar este
acuerdo económico. Observe que el valor esperado de la información perfecta ($60) es
igual al mínimo de pérdidas esperadas (Tabla 20-6). Eso no se da por azar.

El resultado del ejemplo de la inversión usando Excel se presenta en la imagen. Los


beneficios esperados y la pérdida de oportunidad esperada son iguales a lo reportado en la
Tabla 20-3 y la Tabla 20-6. Usamos Excel con la Formula Bar (en fx) para encontrar los va-
lores esperados. Sería de utilidad para un problema más grande. Los cálculos en el ejem-
plo de inversión anterior se mantuvieron a un mínimo para hacer un énfasis en los nuevos
términos y los procedimientos de toma de decisiones. Cuando el número de alternativas de
la decisión y el número de estados de la naturaleza son grandes, se recomienda un paque-
te o una hoja de cálculo de computación.

Análisis de sensibilidad
Los beneficios esperados no En la situación anterior sobre la selección de las acciones, la serie de probabilidades aplica-
son muy sensibles. das a los valores de beneficios se derivó de experiencias históricas con condiciones bursáti-
les similares. No obstante, tal vez se escuchen objeciones de que el comportamiento futuro
del mercado puede ser diferente a las experiencias anteriores. A pesar de estas diferencias,
las categorías de las alternativas de la decisión con frecuencia no son tan sensibles a los
cambios dentro de un rango razonable. A manera de ejemplo, suponga que el hermano del
inversionista cree que en lugar de una posibilidad de 60% de un alza en el mercado y una
posibilidad de 40% de una baja, lo inverso es lo correcto, es decir, existe una probabilidad
de 0.40 de que el mercado bursátil suba y una probabilidad de 0.60 de que baje. Más aún,
el primo del inversionista piensa que la probabilidad de un alza en el mercado es de 0.50 y
la baja de 0.50. Una comparación de los beneficios esperados originales (columna izquier-
da), los beneficios esperados para la serie de probabilidades que sugiere el hermano del in-
versionista (columna del centro) y las mencionadas por el primo (columna derecha) se
presentan en la Tabla 20-8. La decisión es la misma en los tres casos: comprar Kayser Che-
micals.
Una introducción a la teoría de las decisiones 697

TABLA 20-8 Beneficios esperados de tres series de probabilidades

Autoevaluación 20-4 Consulte la Tabla 20-8 y compruebe que:


(a) los beneficios esperados de Texas Electronics para la serie de probabilidades del herma
no son $1 450.
(b) los beneficios esperados de Kayser Chemicals para la serie de probabilidades del primo
son $1 700.

Una comparación de las tres series de beneficios esperados en la Tabla 20-8 revela
que la mejor alternativa seguiría siendo comprar Kayser Chemicals. Como es de esperar-
se, existen algunas diferencias en los valores futuros esperados para cada una de las tres
acciones.
Si se presentan cambios drásticos en las probabilidades asignadas, los valores espera-
dos y la decisión óptima pueden cambiar. Por ejemplo, suponga que el pronóstico de un al-
za en el mercado fue de 0.20 y que la baja fue de 0.80. Los beneficios esperados serían
como los que se presentan en la Tabla 20-9. A largo plazo, la mejor alternativa sería com-
prar la acción de Rim Homes. Por lo tanto, el análisis de sensibilidad le permite ver cuan pre-
cisas deben ser las estimaciones de probabilidad a fin de sentirse cómodo con su opción.

TABLA 20-9 Valores esperados de la compra de 3 acciones

Autoevaluación 20-5 ¿Existe alguna opción de probabilidades cuya mejor alternativa fuera comprar la acción de
Texas Electronics? {Sugerencia: La puede obtener de manera algebraica o usando el méto-
do de ensayo y error. Intente una probabilidad un tanto extrema para un alza en el mercado.)

Ejercicios
7. Consulte los Ejercicios 1, 3 y 5. Calcule el valor esperado de la información perfecta.
8. Consulte los Ejercicios 2, 4 y 6. Calcule el valor esperado de la información perfecta.
9. Consulte el Ejercicio 1. Revise las probabilidades de la siguiente manera: P(SJ = 0.50,
P(S2) = 0.20 y P{S3) = 0.30. ¿Cambia la decisión?
10. Consulte el Ejercicio 2. Invierta las probabilidades, es decir, deje que P{S¿ = 0.30 y
P(S2) = 0.70. ¿Altera su decisión?

Árbol de decisión:
representación gráfica
Árboles de decisión
de todos los resultados Una herramienta analítica presentada en el Capítulo 5 que también sirve para estudiar una
posibles. situación de decisión es el árbol de decisión. Básicamente, es una gráfica que presenta to-
698 Capítulo 20

das las acciones posibles y los resultados consecuentes posibles. Se utiliza un cuadro pa-
ra indicar el punto en el que debe tomarse una decisión, y las ramas que parten del cuadro
El árbol de decisión muestra indican las alternativas bajo consideración. Tomando como referencia la Gráfica 20-1, a la
que Kayser Chemicals es la izquierda está el cuadro con tres ramas que parten de éste, que representan el hecho de
mejor compra. comprar Kayser Chemicals, Rim Homes o Texas Electronics.

GRÁFICA 20-1 Árbol de decisión del inversionista

Los tres nodos, o círculos, numerados 1, 2 y 3, representan los beneficios esperados


de cada una de las tres acciones. Las ramas que salen a la derecha de los nodos indican
los eventos de casualidad (alza o baja del mercado) y las probabilidades correspondientes
entre paréntesis. Los números en los extremos de las ramas son los valores futuros estima-
dos al terminar el proceso de decisión en esos puntos. Esto a veces se denomina los be-
neficios condicionales para denotar que los beneficios dependen de una acción particular y
es el resultado de una opción en particular. Por lo tanto, si el inversionista compró acciones
de Rim Homes y el mercado subió, el valor condicional de las acciones sería $2 200.
Después de construirse el árbol de decisión, la mejor estrategia de decisión puede en-
contrarse mediante lo que se conoce con el término de retroinducción. Por ejemplo, suponga
que el inversionista está considerando el hecho de comprar Texas Electronics. Empezando
en la zona inferior derecha en la Gráfica 20-1 con los beneficios anticipados determinados en
un alza en el mercado ($1 900) versus una baja en el mercado ($1 150) y retroceso (mo-
viéndose a la izquierda), se aplican las probabilidades apropiadas para obtener los benefi-
cios esperados de $1 600 [que se encuentran mediante 0.60($1 900) + 0.40($1 150)]. El
inversionista marcaría el valor esperado de $1 600 arriba del nodo 3 encerrado en un cír-
culo como se muestra en la Gráfica 20-1. De igual modo, el inversionista determinaría los
valores esperados para Rim Homes y Kayser Chemicals.
Suponiendo que el inversionista quiere maximizar el valor esperado de la compra de su
acción, $1 840 sería lo preferido por encima de $1 760 o $1 600. Continuando a la izquier-
da hacia el cuadro, el inversionista trazaría una barra doble a través de las ramas que re-
presentan las dos alternativas que rechazó (los números 2 y 3 que representan Rim Homes
y Texas Electronics). La rama sin marca que conduce al cuadro es sin duda la mejor acción
a seguir, principalmente comprar la acción de Kayser Chemicals.
El valor esperado bajo condiciones de certidumbre también se puede presentar a través
de un análisis del árbol de decisión (véase la Gráfica 20-2). Recuerde que bajo condiciones de
certidumbre, el inversionista sabría antes de comprar las acciones si el mercado bursátil su-
birá o bajará. Por consiguiente, compraría Kayser Chemicals en un mercado a la alza y Te-
xas Electronics en un mercado a la baja, y los beneficios esperados serían $1 900. De nuevo,
la retroinducción se usaría para llegar a los beneficios esperados de $1 900.
Una introducción a la teoría de las decisiones 699

Si se cuenta con la información


perfecta: comprar Kayser en el
mercado a la alza; comprar
Texas en el mercado a la baja.

GRÁFICA 20-2 Árbol de decisión con información perfecta

La diferencia monetaria basada en la información perfecta de la Gráfica 20-2 y la deci-


sión basada en la información imperfecta de la Gráfica 20-1 es $60, que se encuentra me-
diante $1 900 - $1 840. Recuerde que los $60 es el valor esperado de la información
perfecta.
El análisis del árbol de decisión proporciona una forma alternativa de realizar los cálcu-
los que se presentan con anterioridad en el capítulo. Algunos gerentes consideran que es-
ta presentación gráfica les ayuda a seguir la lógica de la decisión.

Resumen del capítulo


I. La teoría de las decisiones estadísticas se enfoca en la toma de decisiones a partir de una
serie de alternativas.
A. Los diversos cursos de acción se llaman hechos o alternativas.
B. Los eventos futuros no controlados se llaman estados de la naturaleza. Las probabili-
dades por lo general se asignan a los estados de la naturaleza.
C. La consecuencia de una alternativa de la decisión particular y el estado de la naturale-
za se llaman beneficios.
D. Todas las combinaciones posibles de alternativas de decisión y estado de la naturale-
za dan como resultado una tabla de beneficios.
II. Existen varios criterios para seleccionar la mejor alternativa de decisión.
A. En el criterio del valor monetario esperado (EMV), se calcula el valor esperado para ca
da alternativa de la decisión y se selecciona el óptimo (el mayor si son ganancias, el
menor si son costos).
B. Se puede desarrollar una tabla de pérdida de oportunidad.
1. Una tabla de pérdida de oportunidad se construye tomando la diferencia entre la de
cisión óptima para cada estado de la naturaleza y las otras alternativas de decisión.
2. La diferencia entre la decisión óptima y cualquier otra decisión es la pérdida de opor-
tunidad debido que se toma una decisión en vez de la óptima.
3. La pérdida de oportunidad esperada (EOL) es similar al valor monetario esperado. La
pérdida de oportunidad se combina con las probabilidades de los varios estados de
la naturaleza para cada alternativa de la decisión a fin de determinar la pérdida de opor-
tunidad esperada.
C. La estrategia de maximizar la ganancia mínima se conoce como maximín.
D. La estrategia de maximizar la ganancia máxima se llama maximax.
E. La estrategia que minimiza la pérdida máxima se denomina rninimax.
III. El valor esperado de la información perfecta (EVP) es la diferencia entre los mejores bene-
ficios esperados bajo certidumbre y los mejores beneficios esperados bajo incertidumbre.
IV. El análisis de sensibilidad estudia los efectos de varias probabilidades para los estados de
la naturaleza en los valores esperados.
V. Los árboles de decisión son útiles para estructurar las diversas alternativas. Presentan una
figura de los diversos cursos de acción y los posibles estados de la naturaleza.
700 Capitulo 20

Ejercicios del capitulo


11. Blackbeard's Phantom Fireworks quiere introducir dos nuevos cohetes de botella. La com-
pañía puede agregar ambos a la línea actual, ninguno, o sólo uno de los dos. El éxito de es-
tos productos depende de las reacciones de los consumidores. Estas reacciones se pueden
resumir como "buena", P(S1) = 0.30; "regular", P(S2) = 0.50; o "mala", P(S3) - 0.20. Los in-
gresos de la compañía, en miles de dólares, se calculan en la siguiente tabla de beneficios.

a. Calcule el valor monetario esperado para cada decisión.


b. ¿Qué decisión recomendaría?
c. Desarrolle una tabla de pérdida de oportunidad.
d. Calcule la pérdida de oportunidad esperada para cada decisión.
e. Calcule el valor esperado de la información perfecta.
12. Una ejecutiva de finanzas de A. G. Edwards & Sons vive en Boston, pero con frecuencia de
be viajar a Nueva York. Para llegar hasta allá en carro, en tren o en avión. El costo de un
boleto de avión de Boston a Nueva York cuesta $100, y se calcula que el vuelo tarda 30 mi-
nutos con buen tiempo y 45 minutos con mal tiempo. El costo de un boleto de tren es de
$50, y el viaje dura una hora con buen tiempo y dos horas con mal tiempo. El costo de via-
jar en su propio carro es de $20, y este viaje es de tres horas con buen tiempo y cuatro con
mal tiempo. La ejecutiva asigna un valor de $30 por hora a su tiempo. El pronóstico del tiem
po para mañana es que hay 60% de probabilidades de mal tiempo.
¿Qué decisión recomendaría? (Sugerencia: Establezca una tabla de beneficios y recuer-
de que quiere minimizar costos.) ¿Cuál es el valor esperado de la información perfecta?
13. TheThomas Manufacturing Company dispone de $100 000 para su inversión. El doctor Tho-
mas, director ejecutivo y presidente de la compañía, quisiera ampliar su producción, invertir
el dinero en acciones o comprar un certificado de depósito del banco. Desde luego que se
desconoce si la economía continuará en un nivel alto o si habrá una recesión. Él estima la
posibilidad de una recesión en 0.20. Haya o no una recesión, el certificado de depósito da-
rá como resultado una ganancia de 6%. De existir una recesión, pronostica una pérdida de
10% si expande la producción y una pérdida de 5% sí invierte en acciones. Si no se presen-
ta una recesión, una expasión de la producción daría como resultado una ganancia de 15%
y la inversión en acciones redituaría en una ganancia de 12%.
a. ¿Qué decisión debe tomar si usa la estrategia maximín?
b. ¿Qué decisión debe tomar el doctor Thomas si se emplea la estrategia maximax?
c. ¿Qué decisión se tomaría si utiliza el criterio del valor monetario esperado?
d. ¿Cuál es el valor esperado de la información perfecta?
14. El departamento de control de calidad en Malcomb Products debe inspeccionar cada pieza
en un lote o no inspeccionar ninguna de las piezas. Es decir, existen dos alternativas de es
ta decisión: inspeccionar todas las piezas o no inspeccionar ninguna. De los datos históri
cos, se sabe que la proporción de las piezas defectuosas en el lote, S,, asume la siguiente
distribución de probabilidad.

Para la decisión de no inspeccionar ninguna pieza, el costo de calidad esC- NSK. Para
inspeccionar los artículos en el lote, es C = Nk, donde:
Una introducción a la teoría de las decisiones 701

N = 20 (tamaño del lote)


K= $18.00 (el costo de encontrar un defecto)
k - $0.50 (el costo de muestreo de un artículo)
a. Desarrolle una tabla de beneficios.
b. ¿Qué decisión debe tomarse si se utiliza el criterio del valor esperado?
c. ¿Cuál es el valor esperado de la información perfecta?
15. Dude Ranches Incorporated se fundó bajo la idea de que muchas familias en las áreas del
este y sur de Estados Unidos no tienen suficiente tiempo de vacaciones para viajar en carro
a los ranchos para turistas en las áreas del suroeste y las Montañas Rocallosas. Sin embar-
go, varias encuestas indicaron que había un interés considerable en este tipo de vacacio-
nes familiares, que incluyen montar a caballo, arrear ganado, natación, pesca y actividades
similares. Dude Ranches Incorporated compró un rancho grande cerca de varias ciudades
de! este y construyó un lago, una piscina y otras instalaciones. No obstante, para construir
un número de cabañas familiares en el rancho requeriría de una inversión considerable. Más
aún, argumentaron que la mayoría de esta inversión se perdería si el complejo rancho-gran-
ja fuera un fracaso económico. En cambio, decidieron llegar a un acuerdo con la Mobile Ho-
me Manufacturing Company para que les suministraran una casa móvil auténtica y muy
atractiva tipo rancho. Mobile Homes aceptó entregar una casa móvil el sábado por $300 se-
manales. Mobile Homes debe saber temprano en la mañana del sábado cuántas casas mó-
viles quiere Dude Ranches Incorporated para la semana siguiente. Deben suministrar a
otros clientes y sólo pueden entregar las casas los sábados. Lo anterior es un problema. Du-
de Ranches tendrá algunas reservaciones para el sábado, pero las referencias son muchas
familias sin reservación. En cambio, prefieren revisar las instalaciones antes de tomar una
decisión. Un análisis de los diversos costos involucrados indicaron que se debe cobrar $350
a la semana por cada casa tipo rancho, incluyendo todos los privilegios. El problema básico
es cuántas casas móviles tipo rancho se deben pedir a Mobile Homes cada semana. ¿Du-
de Ranches Incorporated debe pedir 10 (considerado el mínimo), 11, 12, 13 o 14 (conside-
rado el máximo)?
Sin embargo, cualquier decisión basada únicamente en la información de la tabla de be-
neficios ignoraría la valiosa experiencia que Dude Ranches Incorporated adquirió durante
los últimos cuatro años (cerca de 200 semanas), tiempo en el que de hecho operó un ran-
cho turístico en el suroeste. Sus registros indicaron que siempre tenían nueve reservacio-
nes. Asimismo, nunca tuvieron una demanda de 15 o más cabañas. La ocupación de las 10,
11, 12, 13 o 14 cabañas tipo rancho, en parte, representaba las familias que llegaban e ins-
peccionaban las instalaciones antes de rentar. En la tabla a continuación se presenta una
distribución de la frecuencia que demuestra el número de semanas en las cuales se renta-
ron 10, 11, ... 14 cabañas tipo rancho durante el periodo de 200 semanas.

a. Elabore una tabla de beneficios.


b. Determine los beneficios esperados y llegue a una decisión.
c. Establezca una tabla de pérdida de oportunidad.
d. Calcule las pérdidas de oportunidad esperada y llegue a una decisión.
e. Determine el valor de la información perfecta.
16. El propietario del recién construido White Mountain Ski and Swim Lodge está pensando
comprar o rentar varias motonieves para el uso de los huéspedes. El dueño descubrió que
otras obligaciones financieras permitían comprar las unidades. Snowmobiles Incoporated
(SI) rentará una máquina en $20 a la semana, incluyendo cualquier mantenimiento que se
requiera. De acuerdo con SI, el cargo usual por la renta a los huéspedes del hotel es de $25
a la semana. La gasolina y el aceite son extra. Snowmobiles Incorporated sólo renta una má-
702 Capítulo 20

quina durante toda la temporada. El propietario de Ski and Swim, sabiendo que el arrenda-
miento de un número excesivo de motonieves podría ocasionar una pérdida neta para el ho-
tel, investigó los registros de otros propietarios de centros vacacionales. La experiencia
combinada en varios hoteles resultó ser:

a. Diseñe una tabla de beneficios.


b. Calcule las ganancias esperadas de arrendar 7, 8, 9 y 10 vehículos con base en el cos
to de arrendamiento de $20, el cargo de renta de $25 y la experiencia de otros hoteles.
c. ¿Cuál es la alternativa con mayores beneficios?
d. Diseñe una tabla de pérdida de oportunidad.
e. Encuentre las pérdidas de oportunidad esperada por arrendar 7, 8, 9 y 10 motonieves.
f. ¿Qué hecho daría la menor pérdida de oportunidad esperada?
g. Determine el valor esperado de la información perfecta.
h. Sugiera un curso de acción para el propietario de Ski and Swim Lodge. Incluya en su
explicación las diversas cifras, como la ganancia esperada.
17. Casual Furniture World ha recibido muchas consultas respecto a la disponibilidad de mobi-
liario y equipo que pudiera rentarse para fiestas al aire libre en verano. Incluye artículos co-
mo sillas y mesas plegables, una parrilla de lujo, gas propano e iluminación. A nivel local no
existe una renta de equipo de esta naturaleza y la gerencia de la tienda de muebles está
considerando crear una filial que maneje la renta de mobiliario.
Una investigación reveló que la mayoría de las personas interesadas en rentar querían
el equipo completo necesario para una fiesta (12 sillas, cuatro mesas, una parrilla de lujo,
un tanque de gas propano, pinzas, etcétera). La gerencia decidió no comprar un gran número
de juegos completos debido al riesgo financiero que implicaba. Es decir, si la demanda
para los equipos en renta no era tan grande como se anticipaba, se incurriría en una pérdi-
da financiera importante. Además, la compra en firme significaría que el equipo tendría que
almacenarse durante la época fuera de temporada.
Después se halló que una empresa en Boston rentó un equipo completo para fiestas
por $560 durante toda la temporada de verano. Esto equivale a $5 al día. En la información
promocional de la empresa de Boston, se sugería una tarifa de arrendamiento de $15. Por
cada juego rentado, se obtendría una ganancia de $10. Fue entonces que se decidió alqui-
lar el equipo a la empresa de Boston, al menos durante la primera temporada.
Dicha empresa sugirió que, con base en la experiencia combinada de empresas de renta
similares en otras ciudades, que se rentaran 41, 42, 43, 44, 45 y 46 juegos completos para
la temporada. Basada en lo anterior, la gerencia ahora debe decidir qué número de juegos
completos debe rentar durante la temporada que le reditúe la mayor ganancia.
La empresa arrendadora en Boston también le proporcionó a la filial recién creada in-
formación adicional recopilada de varias compañías arrendadoras similares. Observe en la
siguiente tabla (basada en la experiencia de otras empresas arrendadoras) que la experien-
cia de los 360 del total de 6 000 días, o sea 6% de los días, estas empresas arrendadoras
rentaron 41 juegos de fiesta completos. En 10% de los días durante un verano típico, renta-
ron 42 juegos completos, y así sucesivamente.

a. Construya una tabla de beneficios. (Como cifra de revisión, para el hecho de tener a dis-
posición 41 juegos completos y el evento de rentar 41, los beneficios son $410.)
Una introducción a la teoría de las decisiones 703

b. La ganancia diaria esperada por el arrendamiento de 43 juegos completos de la empre-


sa de Boston es $426.70; por 45 juegos, $431.70; y por 46 juegos, $427.45. Organice
en una tabla estas ganancias diarias esperadas y complete la tabla encontrando la ga-
nancia diaria esperada por la renta de 41, 42 y 44 juegos de la empresa de Boston.
c. Con base en la ganancia diaria esperada, ¿qué acción generará la mayor ganancia?
d. La pérdida de la oportunidad esperada por la renta de 43 juegos para fiestas de la em-
presa de Boston es $11.60; por 45 juegos, $6.60; por 46 juegos, $10.85. Organice es-
tas cifras en una tabla de pérdida de oportunidad esperada y complete la tabla
calculando la pérdida de la oportunidad esperada para 41, 42 y 44.
e. De acuerdo con la tabla de pérdida de oportunidad esperada, ¿cuál es el curso de ac-
ción que generará la mayor ganancia? ¿Concuerda con su decisión en (c)?
f. Determine el valor de la información perfecta. Explique qué indica en este problema.
18. Tim Waltzer es propietario y administra Waltzer's Wrecks, una arrendadora de autos de des
cuento cerca del Cleveland Hopkins International Airport. Renta un carro en mal estado a
$20 el día. Tiene un acuerdo con Landrum Leasing para comprar cada carro usado en $6 000.
Sus carros sólo reciben el mantenimiento necesario y, como resultado, al final de un año de
operaciones sólo valen $2 000. Tim decidió vender cada año todos sus carros y comprar una
serie completa de carros usados de Landrum Leasing.
Su contador le proporcionó una distribución de la probabilidad con respecto del número
de carros rentados al día.

Tim es un ávido jugador de golf y tenis. Los fines de semana está en el campo de golf
o jugando tenis bajo techo. Por tanto, su arrendadora de autos sólo abre entre semana. Asi-
mismo, cierra dos semanas en el verano pues se va a un tour de golf.
El contador calcula que el costo por el mantenimiento mínimo y la limpieza de cada ca-
rro rentado es de $1.50.
a. ¿Cuántos carros se deben comprar para maximizar la ganancia?
b. ¿Cuál es el valor esperado de la información perfecta?
704 Capítulo 20

Capítulo 20 Respuestas a las autoevaluaciones


Apéndices

Covarianza
Tablas
Distribución de probabilidad binomial
Valores críticos de ji cuadrada
Distribución de Poisson
Áreas debajo de la curva normal
Tabla de números aleatorios
Distribución t de Student
Valores críticos de la distribución F
Valores T de Wilcoxon
Factores de las tablas de control
Base de datos
Conjunto de datos 1. Real Estáte (Bienes raíces)
Conjunto de datos 2. Major League Baseball (Ligas
Mayores de Béisbol)
Conjunto de datos 3. Wages and Wage Earners (Salarios y
asalariados)
Conjunto de datos 4. CÍA International Economic and
Demographic Data (Datos económicos y demográficos
internacionales)
Conjunto de datos bancarios. Caso
Whitner Autoplex
Software
Inicio de trabajo con MegaStat
Visual Statistics
Apéndice. Covarianza
Material de covarianza para el Capítulo 6
En las páginas 185 y 186 describimos cómo calcular e interpretar la media, también cono-
cida como valor esperado, de una variable aleatoria. Recuerde que la media es el prome-
dio a largo plazo de una distribución de probabilidad discreta. Demostramos que, a largo
plazo, John Ragsadle, asociado de ventas de Pelican Ford, podría esperar vender 2.10
autos cada sábado. A continuación calculamos la varianza y la desviación estándar de la
distribución del número de autos vendidos. La varianza y la desviación estándar mostraron
la variación que el señor Ragsdale podía esperar en el número de autos vendidos.
Suponga que Pelican Ford emplea dos asociados de ventas. La distribución del número
de autos vendidos cada sábado por Bill Valiton, el otro vendedor, se presenta en la tabla
siguiente.

Como gerente de ventas, realmente le interesa saber el número total de vehículos ven-
didos en un sábado en particular. Es decir, le interesa la distribución del número total de
vehículos vendidos, más que las distribuciones individuales del señor Ragsdale y el señor
Valiton. Podemos encontrar cualquier combinación lineal de dos variables aleatorias
mediante la ecuación:

donde:
son las dos variables aleatorias.
son las constantes o ponderaciones.
es la suma de los productos de dos variables aleatorias.
Si queremos encontrar el valor esperado de la suma de dos variables aleatorias y a =
b = 1, la ecuación anterior se simplifica a E(Z) = E(X) + E(Y). En palabras, esto indica que
la media de la distribución de la suma de dos variables aleatorias es la suma de dos valo-
res esperados o medias.
En el ejemplo de Pelican Ford, el número medio de vehículos vendidos por el señor
Valiton es 1.30, calculado así

La media, o valor esperado, del número total de vehículos vendidos por ambos vende-
dores es

Esto representa una solución para una parte del problema. Podemos pensar en lo que
sucederá con la media, o valor esperado, de la suma de dos variables aleatorias. Pero tam-
bién nos interesa la variación de la suma de estas dos variables. Un factor que podría con-
fundirnos es el prospecto de que haya una relación entre ambas variables. En el ejemplo
de Pelican Ford, sería razonable que hubiera una relación entre las ventas del señor
Ragsdale y las del señor Valiton. Por ejemplo, en un verano muy cálido, los prospectos no
van a querer estar bajo el sol, de modo que, por lógica, es probable que las ventas de
ambos asociados sean bajas.

706
La covarianza es una medida de la relación entre dos variables aleatorias.

donde:
es el símbolo de la covarianza.
son los resultados de las variables aleatorias discretas.
son los valores esperados, o medias, de las dos variables discretas
aleatorias.
es la probabilidad conjunta de dos variables aleatorias.
La tabla siguiente presenta la relación entre las ventas del señor Ragsdale y del señor
Valiton. Observamos que la probabilidad de que el señor Ragsdale venda dos autos un
sábado en particular es 0.30. Este valor se encuentra en la última fila de la columna con el
encabezado 2. La probabilidad de que el señor Valiton venda exactamente dos autos es
0.40. Este valor se encuentra en la columna de la extrema derecha de la fila con el
encabezado 2. La probabilidad de que cada uno venda dos autos es 0.20, que se encuen-
tra en la intersección de la fila y la columna. Como estas ventas no son independientes
(recuerde que un caluroso día de verano lo es para ambos vendedores), no esperamos
aplicar la regla especial de la multiplicación. Es decir, P(X,Y) no es igual a P(X)P(Y).

Para determinar la covarianza utilizamos

donde

La covarianza reporta la forma en que dos variables se mueven juntas. El resultado de


0.95 indica que ambas están directamente relacionadas. Es decir, cuando el señor
Ragsdale vende más que su número medio de autos, la tendencia es que el señor Valiton
también venda más que su media.
La principal desventaja de la covarianza es que entendemos poco sobre la magnitud de
la diferencia. Las unidades son "autos al cuadrado". ¿El resultado 0.9500 es mucho o poco?
No sabemos. Si la covarianza fuera un valor negativo, esto indicaría que las dos distribu-
ciones tienen una relación inversa o indirecta. Si fuera 0, ambas distribuciones serían inde-
pendientes.
Como ahora tenemos información acerca de la relación entre las dos variables,
podemos razonar acerca de la varianza de su suma. La varianza de la suma de dos varia-
bles aleatorias se encuentra mediante:

Como antes, los valores de a y b representan las ponderaciones o constantes asig-


nadas. Cuando a = b = 1, la ecuación se simplifica a

707
En palabras, la ecuación anterior indica que la varianza de la suma de dos variables
aleatorias es igual a la suma de las varianzas de ambas variables más la covarianza dos
veces. Esto significa que, cuando queremos considerar la suma de las dos variables, nece-
sitamos tomar en cuenta la variación en cada una de ellas más la relación entre las dos.
Para responder la pregunta sobre la variabilidad del número total de autos vendidos un
sábado, necesitamos encontrar la varianza de la distribución de las ventas para el señor
Valiton. Utilizando la fórmula (6-2),

Recuerde que en la página 186 calculamos la varianza de la distribución del número de


autos vendidos por el señor Ragsdale en 1.29. De modo que la varianza de la suma de las
dos variables es

Para resumir, el número medio de vehículos vendidos cada sábado en Pelican Ford es
3.40 autos y la varianza es 3.60. La desviación estándar es 1.8974 vehículos, que encon-
tramos al calcular la raíz cuadrada de 3.60.
Una de las aplicaciones más útiles de las relaciones anteriores es en el campo del
análisis financiero. A los inversionistas les interesa obtener la tasa de rendimiento más alta,
pero también quieren reducir el riesgo. En términos estadísticos, reducir el riesgo significa
reducir la varianza o la desviación estándar. El ejemplo siguiente nos ayuda a explicar los
detalles.

Ernie DuBruI acaba de heredar $200 000 y va a dividir su herencia en una cartera de dos
inversiones. Después de investigar, Ernie decide invertir 25% en American Funds World Cap
y el resto en Burger International Funds. Para la media de American Funds World Cap el
rendimiento es 12% y la desviación estándar 3%. Para Burger International Funds, la tasa de
rendimiento media es 20% con una desviación estándar de 8%. Después de algunos cálcu-
los, Ernie puede determinar que la covarianza entre las dos inversiones es 12. ¿Cuál es la
tasa de rendimiento esperada para la cartera? ¿A qué conclusión podemos llegar acerca de
la relación entre las dos inversiones? ¿Cuál es la desviación estándar de la cartera?

Ernie puede considerar las dos inversiones como variables aleatorias con medias de 12%
y 20%, respectivamente. La ponderación de la primera inversión es 0.25 (a = 0.25) y 0.75
(b = 0.75) para la segunda. La cantidad de rendimiento esperado para la cartera es 18%,
calculado así:

La covarianza de 12 sugiere que existe una relación positiva entre las dos inversiones,
porque se trata de un número positivo. Sin embargo, el valor de 12 no dice mucho sobre la
fuerza de la relación.
Podemos determinar la varianza de la cartera como sigue:

La raíz cuadrada de 41.0625 es 6.4%, que es la desviación estándar de la suma pon-


derada de las dos variables.
¿Cómo interpreta Ernie esta información? Suponga que tenía la oportunidad de inver-
tir $200 000 en acciones de Internet, para las que la tasa de rendimiento era igual, 18%,
pero la desviación estándar de esta distribución era 8.0%. Esta desviación estándar indica
que hay más riesgo en la inversión en acciones de Internet. La mayoría de los inversionis-
tas quieren reducir el riesgo; de modo que, lo mejor es hacer la inversión que planeó desde
un principio.

708
En los ejemplos anteriores existía una asociación entre las dos distribuciones; es decir,
la covarianza no era igual a 0. Considere el ejemplo siguiente en el que no existe ninguna
asociación entre ambas distribuciones.

Suponga que participamos en un juego con 2 monedas que se lanzan al aire y contamos el
número de caras. Por cada cara, la Casa nos da $1.00; por cada cruz, tenemos que pagar
a la Casa la misma cantidad. Podemos resumir el juego en la tabla siguiente.

Las medias de las dos variables son:

Las varianzas de las dos variables aleatorias son:

La covarianza de las dos variables es:

El hecho de que la covarianza sea 0 indica que las dos variables no están relacionadas.
Es decir, el resultado de la primera moneda no está relacionado con el resultado de la
segunda. Esto ya lo sabíamos por nuestro estudio anterior de la probabilidad, pero el hecho
de que la covarianza sea 0 lo confirma.

Ejercicios
1. La tabla siguiente da dos variables aleatorias.

a. Encuentre la media de las variables x y y.


b. Encuentre la varianza de las variables x y y.
c. Encuentre la covarianza.
d. Calcule el valor esperado de la suma de las dos variables.
e. Calcule la varianza de la suma de las dos variables.

709
2. Un análisis de dos grupos de acciones indica que la tasa de rendimiento medio del primero
es 8% con una desviación estándar de 15%. El segundo tiene una tasa de rendimiento
medio de 14% con una desviación estándar de 20%. Suponga que invertimos 40% en el
primer grupo de acciones y 60% en el segundo.
a. ¿Cuál es la tasa de rendimiento esperada de la inversión total?
b. Si los dos grupos de acciones no están relacionados, ¿cuál es la desviación estándar de
la tasa de rendimiento de la inversión total?
c. Suponga que la covarianza entre los dos grupos de acciones es 150. ¿Cuál es la
desviación estándar para la tasa de rendimiento?

Material de covarianza para el Capítulo 13


Para entender el coeficiente de correlación, empecemos por representar la información en
un diagrama. La Gráfica 13-4 de la página 434 es un diagrama de dispersión de los datos
de Copier Sales of America. Observe que conforme el número de llamadas de ventas
aumenta, también lo hace la cantidad de copiadoras vendidas. El número de unidades ven-
didas se encuentra sobre el eje vertical y el número de llamadas de ventas está sobre el eje
horizontal.
Vamos a calcular la media de las llamadas de ventas (X) y del número de unidades ven-
didas (Y). En la Tabla 13-2 de la página 433, el número de llamadas de ventas es 22.0,
calculado mediante 220/10. El número medio de unidades vendidas es 45, calculado a
través de 450/10. De modo que llegamos a la conclusión de que un representante de ven-
tas típico de Copier Sales of America hace 22 llamadas de ventas y vende 45 copiadoras
en un mes. En la Gráfica 13-4, cambiamos el origen del punto (0,0) a los puntos Esto
nos permitirá entender la asociación entre el número de llamadas de ventas y el número de
copiadoras vendidas.
En este punto, podemos hacer algunas interpretaciones de la información. Si los pun-
tos están dispersos en los cuatro cuadrantes, es probable que exista poca relación entre las
variables. El predominio de los puntos de datos en los Cuadrantes I y III indica una relación
positiva, mientras que los puntos de datos en los Cuadrantes II y IV señalan una relación ne-
gativa.
Para evaluar la relación que observamos en la Gráfica 13-4, calcule el término
Observe la interpretación de este término. Es la suma de los productos y las
desviaciones entre el número de llamadas de ventas y el número medio de llamadas de
ventas y el número de copiadoras vendidas y el número medio de copiadoras vendidas,
para cada uno de los diez vendedores. Para un punto que se encuentra en el primer cua-
drante, los valores Xy Vserán más altos que sus medias. En la Tabla 13-2, Soni Jones hizo
30 llamadas de ventas y vendió 70 copiadoras. Los dos valores son más altos que la media
de 22 llamadas y 45 copiadoras vendidas. El producto de estas desviaciones (30 - 22)(70
- 45) = 200. Otros puntos en el primer cuadrante tienen también un resultado positivo.
Los puntos localizados en el Cuadrante IV tendrán un valor negativo. Mike Kiel, por
ejemplo, hizo 20 llamadas de ventas y vendió 50 copiadoras. De modo que
= (20-22)(50-45)=-10.
Entonces, el valor de los puntos en el Cuadrante IV se deduce de aquellos en el
Cuadrante I. Si el término es un valor positivo, indica una relación entre las
variables. El símbolo se utiliza para identificar este término, que se calcula a
partir de la fórmula siguiente.

El término SSxy, que se encontró mediante la fórmula anterior, indica la relación entre
las variables X y Y. Sin embargo, es difícil interpretarlo porque (a) las unidades se combi-

710
nan con aquellas de Xy Y, y (b) el término podría ser mayor con sólo aumentar el tamaño
de la muestra. Para controlar el tamaño de la muestra, el término se divide entre n - 1, el
tamaño de la muestra menos 1. Éste es el mismo procedimiento que utilizamos al determi-
nar la varianza de la muestra, que describimos en el Capítulo 3. El resultado se conoce
como covarianza.

Volviendo al problema de Copier Sales of America, la covarianza es 100, calculada así:

¿Cómo interpretamos la covarianza? Recuerde que la varianza resume la variabilidad


de una sola variable. La covarianza resume la relación entre dos variables. Difiere de la va-
rianza en que puede asumir valores negativos. Una covarianza negativa indica que las dos
variables tienen una relación inversa. La covarianza es difícil de interpretar, debido a las
unidades involucradas. En este caso, ¿una covarianza de 100 indica que las variables
tienen una relación estrecha o que no están relacionadas? No lo sabemos. Sólo podemos
llegar a la conclusión de que, como éste es un valor positivo, las dos variables tienen una
relación positiva. Una segunda dificultad comprende las unidades de ambas variables. En
este ejemplo, una variable es el número de llamadas y la otra las unidades vendidas. De
modo que las unidades de los resultados no están familiarizados.
Para eliminar el problema con las unidades, la covarianza se estandariza. Es decir, se
divide entre las desviaciones estándar de X y Y. El resultado es el coeficiente de corre-
lación.
Podemos verificar el coeficiente de correlación en el ejemplo de Copier Sales of
America en la página 434. El primer paso consiste en calcular la desviación estándar del
número de llamadas de ventas y el número de copiadoras vendidas. Utilizando los datos de
la Tabla 13-2, las desviaciones estándar son:

El término es 900, que se calculó así:

La covarianza se calculó mediante:

Por último, la correlación es 0.759, la misma que determinamos utilizando la fórmula


13-1 en la página 435.

711
Ejercicios
3. Escriba una breve descripción del coeficiente de correlación. ¿Cuál es su rango de valores?
¿Qué significa cuando es cero? ¿En qué condiciones puede ser mayor de 1.00?
4. Describa qué significa covarianza. ¿Puede ser negativa? ¿Cuál es su rango de valores?
5. Un ejecutivo de una compañía telefónica estudia la relación entre el número de llamadas
telefónicas a la semana y el número de personas en la familia. Se obtuvo una muestra de
doce familias.

Trace la información en un diagrama de dispersión. Calcule la covarianza y el coeficiente de


correlación. ¿La relación es directa o inversa, fuerte o débil?
6. El director del zoológico de Tampa estudia la relación entre el número de admisiones, en
miles, y la temperatura alta, en grados Fahrenheit. Se selecciona una muestra de quince
días y la información obtenida se reporta a continuación.

Trace la información en un diagrama de dispersión. Calcule la covarianza y el coeficiente de


correlación. ¿La relación es directa o inversa? ¿Consideraría que la relación es fuerte o
débil?

712
Apéndice A

Distribución de probabilidad binomial

713
Apéndice A
Distribución de probabilidad binomial (continuación)

714
Apéndice A
Distribución de probabilidad binomial (continuación)

715
Apéndice A
Distribución de probabilidad binomial (continuación)

716
Apéndice A

Distribución de probabilidad binomial (conclusión)

717
Apéndice B
Valores críticos de ji cuadrada

Esta tabla contiene los valores de χ2 que corresponden a un área específica de la cola
derecha y un número específico de grados de libertad.

718
Apéndice C
Distribución de Poisson

719
Apéndice D
Áreas debajo de la curva normal

720
Apéndice E

Tabla de números aleatorios

721
Apéndice F
Distribución t de Student

722
Apéndice G

Valores críticos de la distribución F


en un nivel de significancia de 5%

723
Apéndice G
Valores críticos de la distribución F
en un nivel de significancia de 1% (conclusión)

724
Apéndice H
Valores t de Wilcoxon

725
Apéndice I
Factores de las tablas de control

726
Apéndice J
Conjunto de datos 1. Real Estate (Bienes raíces)

Precio de venta en $000


Número de recámaras
Tamaño de la casa en pies cuadrados
Alberca (1 = sí, 0 = no)
Distancia del centro de la ciudad
Colonia
Cochera (1 = sí, 0 = no)
Número de baños

727
Apéndice J

Conjunto de datos 1. Real Estate (Bienes raíces) (continuación)

728
Apéndice J
Conjunto de datos 1. Real Estate (Bienes raíces) (conclusión)

729
Apéndice K
Conjunto de datos 2. Major League Baseball (Ligas Mayores de Béisbol)

Equipo
Liga (Americana = 1, Nacional = 0)
Construcción (año en que se construyó el estadio)
Tamaño (capacidad del estadio)
Salario (salario total del equipo en 2002, millones de $)
Asistencia (asistencia total a los juegos del equipo en 2002, en 000)
Ganados (número de juegos ganados en 2002)
ERA (Earned Run Average; promedio de carreras ganadas)
Bateo (promedio de bateo del equipo)
HR (número de home runs para el equipo)
Superficie (natural = 0, artificial = 1)
Robadas (bases robadas)
Errores (errores del equipo)
Año
Promedio (salario promedio de los jugadores)
Mediano (salario mediano de los jugadores)

730
731
Apéndice L
Conjunto de datos 3. Wages and Wage Earners (Salarios y asalariados)

Salarios anuales en dólares


Industria (1 = manufacturera, 2 = construcción, 0 = otra)
Ocupación (1 = administrador, 2 = ventas, 3 = empleado de oficina, 4 = servicios,
5 = profesor, 0 = otra)
Años de educación
Residente del sur (1 = sí, 0 = no)
No blanco (1 = sí, 0 = no)
Hispano (1 = sí, 0 = no)
Mujer (1 = sí, 0 = no)
Años de experiencia laboral
Casado (1 = sí, 0 = no)
Edad en años
Sindicalizado (1 = sí, 0 = no)

732
Apéndice L
Conjunto de datos 3. Wages and Wage Earners (Salarios y asalariados)
(continuación)

733
Apéndice L
Conjunto de datos 3. Wages and Wage Earners (Salarios y asalariados)
(continuación)

734
Apéndice L
Conjunto de datos 3. Wages and Wage Earners (Salarios y asalariados)
(conclusión)

735
Apéndice M
Conjunto de datos 4. CIA International Economic and Demographic Data
(Datos económicos y demográficos
internacionales)
Nombre del país
Área total (kilómetros cuadrados)
Miembro del G-20, grupo de países industrializados que promueven la estabilidad
financiera internacional (0 = no es miembro, 1 = sí es miembro)
El país tiene petróleo como recurso natural (0 = no, 1 = el petróleo es un recurso
natural, 2 = el país es miembro de la OPEP (Organización de Países
Exportadores de Petróleo))
Población (expresada en miles)
Porcentaje de la población que tiene 65 años o más
Expectativas de vida al nacer
Alfabetismo: porcentaje de la población de 15 años o más que sabe leer y escribir
Producto Interno Bruto per cápita expresado en miles
Fuerza laboral (expresada en millones)
Porcentaje de desempleo
Exportaciones expresadas en miles de millones de dólares
Importaciones expresadas en miles de millones de dólares
Número de teléfonos móviles o celulares expresado en millones

736
Apéndice M
Conjunto de datos 4. CIA International Economic and Demographic Data
(Datos económicos y demográficos
internacionales) (continuación)

737
Apéndice M
Conjunto de datos 4. CIA International Economic and Demographic Data
(Datos económicos y demográficos
internacionales) (conclusión)

738
Apéndice N

Conjunto de datos bancarios. Caso


Saldo de la cuenta en $
Número de operaciones en cajero automático en el mes
Número de otros servicios bancarios utilizados
Tiene tarjeta de débito (1 = sí, 0 = no)
Recibe intereses sobre la cuenta
Ciudad donde se abrió la cuenta

739
Apéndice O
Whitner Autoplex

Precio de venta Precio de


venta ($000) Edad del
comprador Nacional (0),
Importado (1)

740
Apéndice P
Inicio de trabajo con MegaStat*
MegaStat es un complemento de Excel que realiza análisis estadísticos en una hoja de tra-
bajo de Excel. Después de su instalación, aparece en el menú de Excel y funciona como
cualquier otra opción de Excel.

______________________________
Al hacer clic en MegaStat, aparece el menú principal de Excel (vea la pantalla siguiente).
La mayor parte de las opciones del menú despliegan submenús. Si un elemento del menú
viene con una elipsis (...), al hacer clic en él se abrirá el cuadro de diálogo para esa opción.
Un cuadro de diálogo le permite especificar los datos que se van a utilizar, así como otra
información y opciones. La pantalla siguiente muestra un cuadro de diálogo típico.
Después de seleccionar los datos y las opciones, haga clic en OK; el cuadro de diálogo
desaparece y MegaStat realiza el análisis.

*Escrito por J. B. Orris, Doctor en Filosofía, Butler University. MegaStat es una marca registrada de J. B. Orris protegida por
los derechos de autor. Este documento se escribió para la versión 9.0 de MegaStat; sin embargo, la mayor parte de éste se
puede utilizar con otras versiones.

741
Botones
Cada cuadro de diálogo tiene los cuatro botones del lado inferior derecho. Vea la ilustración
en la página anterior.

OK Este botón también se puede llamar "Calcúlate", "Go", "Execute" o "Do If, e indica a
MegaStat que ha terminado de especificar la información y que ahora el software tiene el
control. Primero, el software valida los valores que usted capturó, luego desaparece y rea-
liza el análisis, y por último despliega la hoja de cálculo con los resultados. Cuando el
cuadro de diálogo desaparece, sigue en la memoria y contiene la misma información, de
modo que se puede volver a abrir posteriormente.

Clear Este botón elimina todos los valores de entrada y recupera cualquier opción prede-
terminada en la forma.

Cancel Este botón se puede llamar "Olvidado". Simplemente oculta el cuadro de diálogo.
Este último no se borra ni se elimina de la memoria. Las formas de usuario no ocupan
mucha memoria, y no hay ningún problema si tiene varias en ella. No obstante, si en reali-
dad quiere descargar la forma, haga clic en la "X" que se encuentra en la esquina superior
derecha de ésta.

Help Este botón presenta ayuda sensible al contexto para la forma de usuario activa. Si
quiere ver el Sistema de Ayuda completo, utilice la selección Help en él menú principal.

Data Selection La mayor parte de los cuadros de diálogo de MegaStat tienen campos en
los que usted selecciona los rangos de entrada que contienen los datos que va a utilizar.
Los rangos de entrada se pueden seleccionar de cuatro formas:

1. Apuntando y arrastrando con el mouse (el método más común). Como el cuadro de
diálogo se abre en la pantalla, es probable que bloquee parte de su información. Estos
cuadros se pueden mover por toda la pantalla si coloca el puntero del ratón sobre la
barra de título (el área a color en la parte superior), hace clic y mantiene presionado el
botón izquierdo del ratón mientras arrastra el cuadro de diálogo a una nueva ubicación.
Incluso puede sacarlo parcialmente de la pantalla.
2. Utilizando la característica AutoExpand de MegaStat. AutoExpand permite la selección
rápida de los datos sin tener que desplazarse por toda la columna. Así es como fun
ciona:

• Asegúrese de que el rango que desee se encuentra en el cuadro de captura. (Haga


clic en él o presione el tabulador.) Un cuadro de captura está activo cuando el pun
tero parpadea sobre él.
• Seleccione una fila de datos haciendo clic en una celda de la columna que quiera.
Si se selecciona más de una columna, arrastre el ratón sobre las columnas.
• Haga clic con el botón derecho del ratón sobre el campo de captura y clic con el
botón izquierdo sobre la etiqueta junto al cuadro de captura. El rango de datos se
va a ampliar para incluir todas las filas en la región en la que seleccionó una fila.

3. Escriba el nombre de un rango. Si anteriormente ya identificó un rango de celdas uti


lizando el cuadro de nombre de Excel, puede usar ese nombre para especificar un
rango de datos en una forma de usuario de MegaStat. Este método puede ser muy útil
si usa los mismos datos para varios procedimientos estadísticos diferentes.
4. Escribir una dirección de rango. Puede escribir cualquier dirección de rango de Excel
válida; por ejemplo, B5:B43. Ésta es la forma menos eficiente de especificar rangos de
datos, pero funciona.

742
Etiquetas de datos
Para la mayor parte de los procedimientos, la primera celda en cada rango de captura
puede ser una etiqueta. Si la primera celda en el rango es texto, se considera una etique-
ta; si la primera celda es un valor numérico, se considera información. Si quiere utilizar
números como etiquetas de las variables, debe capturarlos como texto precedidos con una
comilla, por ejemplo, '2. Aun cuando Excel guarda la hora y la fecha como números,
MegaStat los va reconocer como etiquetas si tienen el formato de valores de hora/fecha.
Si las etiquetas de datos no forman parte del rango de captura, el programa utiliza como
etiqueta la celda que se encuentra inmediatamente arriba del rango de datos, si contiene
un valor de texto.
Si una opción puede considerar como etiquetas toda la primera fila (o columna) de un
rango de captura, cualquier valor numérico en ésta hará que toda la fila se maneje como
información.

Output
Al hacer clic en OK en un cuadro de diálogo de MegaStat, el programa realiza un análisis
estadístico y necesita un lugar donde presentar los resultados, por lo que busca una hoja
de trabajo llamada Output. Si la encuentra, llega hasta el fin de la hoja e inserta los resul-
tados; si no encuentra una hoja de trabajo Output, crea una nueva. MegaStat nunca hará
ningún cambio a las hojas de trabajo del usuario; sólo envía los resultados a la hoja Output.
MegaStat intenta dar formato a los resultados, pero es importante recordar que la hoja
Output es sólo una hoja de trabajo de Excel estándar y el usuario puede modificarla como
quiera. Es posible ajustar el ancho de las columnas y cambiar cualquier formato que con-
sidere necesita mejorar. Puede insertar, eliminar y modificar celdas. Puede copiar todo el
resultado o una parte de éste a otra hoja de trabajo u otra aplicación como un procesador
de texto.
Las gráficas de MegaStat obtienen los valores de las celdas en la hoja Output (o de una
de sus hojas de trabajo en caso del diagrama de dispersión). Puede hacer clic en una grá-
fica y seleccionar "Source Data" para ver qué valores aparecen.
Al hacer clic en una gráfica, el elemento del menú de MegaStat desaparecerá de la
barra de menú principal, ya que el menú Chart se activa. Haga clic fuera de la gráfica para
volver a abrir el menú principal que contiene el elemento de menú de MegaStat.

Repetir la última opción


Una vez que maneja una opción de MegaStat, esta selección del menú le permitirá volver
a abrir el último cuadro de diálogo sin tener que pasar por todas las selecciones de menú.
Esta característica puede ser útil si necesita realizar n cambios o repetir la misma operación
con diferentes conjuntos de datos.

Desactivar MegaStat
Esta opción se usa para eliminar el elemento "MegaStat" de la barra de menú principal. No
borra ningún archivo ni desinstala MegaStat. Para restaurar el elemento MegaStat en el
menú, haga dicen la barra de menú principal de Excel, luego en Tools y seleccione Add-
Ins. En el cuadro de diálogo Add-lns, marque MegaStat y haga clic en OK.

Para desinstalar MegaStat


Este elemento de menú en realidad no desinstala MegaStat. Abre un cuadro de diálogo que
le indica cómo iniciar el proceso de desinstalación.

743
La desinstalación es el proceso de eliminar de su sistema los archivos de MegaStat. No
elimina ningún archivo de datos ni el archivo que utilizó para instalar MegaStat. Puede borrar
el archivo de instalación (MegaStat_Setup.exe) si todavía está en su sistema.

Ayuda / Información
La opción Help abre todo el programa de ayuda de MegaStat, que se muestra a continua-
ción.

La sección "How it works (General operating procedures)" contiene toda la información


en este tutorial. Puede hacer clic en temas específicos o buscar un elemento en particular
haciendo clic en Index.

744
Apéndice Q

Visual Statistics
Visual Statistics 2.0, de Doane, Mathieson, and Tracy, es un paquete de 21 programas de
software y cientos de archivos de datos y ejemplos diseñados para enseñar y aprender
estadística básica. Los módulos de Visual Statistics ofrecen un formato experimental inter-
activo y muy gráfico en el cual aprender estadística. El software y el texto de trabajo pro-
mueven el aprendizaje activo a través de ejercicios que crean competencia, proyectos
individuales y en equipo y bases de datos integradas. El paquete incluye más de 400 con-
juntos de datos.

Menú principal
Para iniciar Visual Statistics, haga clic en el vínculo en el menú del CD-ROM para el alum-
no y siga las instrucciones de instalación. Abra la cubierta y verá un menú como el que
mostramos en la pantalla anterior. En este menú usted podrá: (1) ver un capítulo en el texto
(el botón Show Worktext); (2) ejecutar un módulo de software (el botón Run Module); (3)
salir de Visual Statistics (el botón Exit).

Selección de un programa
Para seleccionar un programa, haga clic en el número de capítulo o en su icono, y luego en
Run module. (Nota: deberá tener el CD-ROM para el alumno en la unidad de CD a fin de
que los programas se ejecuten.)

745
Cada programa está diseñado para ser lo más interactivo y directo posible, con gráfi-
cas animadas y botones de control en la pantalla principal para el programa.

Éstos son sólo algunos ejemplos.

746
Selección de un capítulo
Para seleccionar un capítulo, haga clic en su número, su icono o su título. Al hacer clic en
el capítulo, un cometa cruzará la pantalla hasta el panel Selected Chapter del lado derecho,
y aparecerán los botones Show Worktext y Run Module en el panel. Cada módulo de soft-
ware corresponde a un capítulo en el texto. Los ejercicios de aprendizaje del capítulo le
piden que ejecute el módulo de software correspondiente.

747
El texto de trabajo
El texto de trabajo tiene un capítulo para cada módulo. Cada capítulo en el texto de trabajo
contiene:

• Una lista de conceptos y objetivos de aprendizaje.


• Un panorama general de los conceptos e ilustraciones de los conceptos.
• Una orientación hacia las características del software.
• Ejercicios de aprendizaje estructurados (básicos, intermedios y avanzados).
• Un banco de preguntas para autoevaluación.
• Un glosario de términos.
• Respuestas a las preguntas de autoevaluación.

________________
Cada módulo de Visual Statistics empieza con el Notebook. Hay un Notebook diferente pa-
ra cada módulo, pero todos funcionan de la misma manera. Haga clic en los separadores
para ver cada una de las "páginas" del Notebook. El propósito principal del Notebook es
permitirle elegir el tipo de información que quiere revisar.

• Ejemplos: los ejemplos son conjuntos de datos reales que se seleccionaron para ilus
trar los conceptos del módulo.
• Bases de datos: una base de datos contiene muchas variables. Usted selecciona las
que quiere analizar.
• Editor de datos: le permite crear sus propios conjuntos de datos.
• Escenarios: le permiten experimentar con el proceso que genera los conjuntos de
datos.
• Plantillas: le permiten generar datos que se adaptan a una forma en particular.
• Hágalo usted mismo: le ofrecen un control sobre el proceso de generación de datos.

748
Ayuda
Cada módulo tiene una sección Help en la barra de menú. Haga clic en Help y aparecerá
un índice para los temas sobre los que hay ayuda disponible en ese módulo.

749
Respuestas
a los ejercicios nones de cada capítulo

CAPITULO 1 b. El grupo de compradores más numeroso (21) compra en el


1. a. Intervalo BiLo Supermarket 3, 4 o 5 veces al mes. Algunos clientes visi-
b. Razón tan la tienda sólo una vez al mes, pero otros compran hasta
c. Intervalo en 15 ocasiones.
d. Nominal
e. Ordinal
f. Razón
3. Las respuestas variarán.
5. La información cualitativa no es numérica, mientras que la cuanti-
tativa sí lo es. Los ejemplos variarán según el alumno. 7. Nominal,
ordinal, de intervalo y de razón. Los ejemplos varían. 9. Una
clasificación es exhaustiva si cada objeto aparece en alguna
categoría. 11. Según la información de la muestra 120/300 o
40% aceptarían
una transferencia en el trabajo.
13. Las variables discretas sólo pueden asumir ciertos valores, pero
las variables continuas pueden asumir cualquier valor en cierto rango.
Los ejemplos variarán. 15. Las respuestas variarán.
17. a. El campo de pasto natural o artificial es una variable cualitati-
va, las otras son cuantitativas. b. El campo de pasto natural o
artificial es una variable en el
nivel nominal, las demás son variables en el nivel de razón.
19. a. Todas las variables son cuantitativas, excepto G-20 y
Petróleo. b. Todas las variables son de razón, excepto G-20 y
Petróleo.

f. Para los 50 empleados, casi la mitad recorrieron entre 6 000 j 9


000 millas. Cinco empleados viajaron menos de 3 000 milla; y 2
recorrieron más de 12 000 millas. 13. a. 40
b. 5
c. 11 o 12
d. Alrededor de $18/hr
e. Aproximadamente $9/hr
f. Alrededor de 75%
752 Respuestas

d. Alrededor de 8.7 mil millas.


17. Maxwell Heating & Air Conditioning supera con mucho a las otras
corporaciones en cuanto a las ventas. Mancell Electric &
Plumbing y Mizelle Roofing & Sheet Metal son las dos compañías
con la menor cantidad de ventas en el cuarto trimestre.

19. Los homicidios alcanzaron el número más alto en 1993. Bajaron


en forma continua hasta 2000 y luego empezaron a aumentar
otra vez.

d. Las compras variaron de bajas, alrededor de $80, a altas,


aproximadamente $280. La concentración se encuentra en la
clase de $120 a $160.

21. Crecimiento de la población en Estados Unidos


La población en Estados Unidos ha aumentado en forma continua
desde 1950.
Respuestas a los ejercicios nones de cada capítulo 753

Los impuestos sobre las ventas y el ingreso dominan las ganancias


totales del estado de Georgia. 41. Hay 50 observaciones, de modo
que el número de clases
recomendado es 6. Sin embargo, hay varios estados que tienen
muchas más granjas que otros, de manera que quizá resulte útil
tener una clase abierta. Una posible distribución de la frecuencia
es:
Por mucho, la mayor parte del Ingreso en Carolina del Sur es el
que se gana en el trabajo. Casi tres cuartas partes del ingreso
bruto ajustado proviene de sueldos y salarios. Los dividendos e
IRA contribuyen con otro diez por ciento cada uno.

Veintinueve de los 50 estados, o 58 por ciento, tiene menos de 40


000 granjas. Hay tres estados que tienen más de 100 000
granjas.
43. En 1994, el precio de un Toyota Camry y un Ford Taurus era casi
el mismo, un poco más de $11 000. Desde entonces, el precio de
ambos autos ha subido, pero la tasa de incremento del Camry ha
sido más alta que la del Taurus. La diferencia en el precio de
venta entre ambos autos era mayor en 2000, alrededor de
$6,500. De 2000 a 2001, el precio de venta del Camry bajó casi
$500; ésta fue la única reducción de precios para ambos autos
durante el periodo de 9 años.
45. Los sueldos pagados por las empresas de software aumentaron
de $0.4 a $1.65 mil millones por trimestre entre 1994 y 2002.
Aquellos pagados por los fabricantes aeroespaciales permane-
cieron constantes entre $1 y $1.5 mil millones. Las compañías de
software superaron a las aeroespaciales en 1998.

1. La mayor parte de las casas (53%) se encuentran en el


rango de 180 a 250.
Más de la mitad de los gastos se concentran en las categorías 2. El valor más alto se aproxima a 355; el más bajo, a 110.
Investigación y Salud Pública. 3. Menos de 1% de las casas se vendieron en menos de 125.
754 Respuestas

31. a. 7, calculado por 10- 3.


b. 6, calculado mediante 30/5.
c. 2.4, calculado por 12/5.
d. La diferencia entre el número vendido más alto (10) y el más
bajo (3) es 7. En promedio, el número de representantes de
servicio trabajando se desvía 2.4 de la media de 6.
33. a. 30, calculado por 54 - 24.
b. 38, calculado mediante 380/10.
1. Alrededor de 42 casas se vendieron en menos de 200. c. 7.2, calculado por 72/10.
2. Aproximadamente 55% de las casas se vendieron en d. La diferencia de 54 y 24 es 30. En promedio, el número de
menos de 220. De modo que 45% se vendieron por más. minutos necesarios para instalar una puerta se desvía 7.2
3. Menos de 1 % de las casas se vendieron en menos de minutos de la media de 38 minutos.
125. 35. a. 15, calculado mediante 41 - 26.
c. El precio de venta va de aproximadamente $120 000 a alrede- b. 33.9, calculado por 339/10.
dor de 360 000. Una casa típica se vendió en aproximada- c. 4.12, calculado a través de 41.2/10.
mente $210 000. d. Las calificaciones se desvían 4.12 de la media de 33.9 en
promedio.
37. a. 5
b. 4.4, calculado así

La categoría de ocupaciones 2 tiene menos miembros (5 o 6),


y todas las demás tienen alrededor de 19.

2
49. Alrededor de 69%, calculados por 1-1/(1.8) . 51.
a. Aproximadamente 95%.
b. 47.5%, 2.5%. 53. Debido a que en una distribución de la
frecuencia no conocemos
los valores exactos, el punto medio se usa para cada miembro de
esa clase.
Respuestas a los ejercicios nones de cada capítulo 755

La media y la desviación estándar de los datos agrupados son


estimadores de la media y las desviaciones estándar de los
valores reales.

CAPÍTULO 4
756 Respuestas

c. El tiempo mediano para el transporte público es casi 6 minu-


tos menos. Hay mayor variación en el transporte público. La
diferencia entre Q1 y Q3 es 9.5 minutos para el transporte
público y 5.5 minutos para el privado.
Respuestas a los ejercicios nones de cada capítulo 757

39. La distribución tiene un sesgo positivo. El primer cuartil es aproxi- 53. a. El primer cuartil es 71.5 años y el tercero es 78.5 años. La
madamente $20 y el tercero es aproximadamente $90. Hay un distribución tiene un sesgo negativo con dos externos (Nigeria
externo localizado en $255. La mediana es de $50 más o menos. y Sudáfrica, en 48 y 51).
b. El primer cuartil es 8.3 y el tercero es 24.4.La distribución es
simétrica y no tiene externos.
c. El diagrama de tallo y hojas de la Celda. N = 46, unidad de
hoja = 1.0.

La distribución tiene un sesgo muy positivo. La mediana es 2


y la media es alrededor de 8, que está sobre el tercer cuartil
de 5 más o menos.

CAPÍTULO 5
758 Respuestas
Respuestas a los ejercicios nones de cada capítulo 759
760 Respuestas

37. Una variable aleatoria es un resultado cuantitativo o cualitativo


que se deriva de un experimento con la casualidad. Una distribu-
ción de la probabilidad también incluye la posibilidad de cada
resultado posible.
39. La distribución binomial es una distribución de probabilidad dis-
creta para la que sólo hay dos resultados posibles. Una segunda
parte importante es que la información recopilada es un resultado
de los conteos. Además, un intento es independiente del si-
guiente, y la probabilidad de éxito sigue siendo la misma de un
intento al otro.

CAPÍTULO 7
Respuestas a los ejercicios nones de cada capítulo 761

5. La forma real de una distribución normal depende de su media y


su desviación estándar. Por tanto, hay una distribución normal, y
una curva normal que la acompaña, para una media de 7 y una
desviación estándar de 2. Hay otra curva normal para una media
de $25 000 y una desviación estándar de $1 742, y así sucesiva- 31. a. Sí. (1) Hay dos resultados mutuamente exclusivos: sobrepeso
mente. y no sobrepeso. (2) Es el resultado de contar el número de
éxitos (miembros con sobrepeso). (3) Cada intento es inde-
pendiente. (4) La probabilidad de 0.30 sigue siendo igual para
cada intento.

e. Todas las latas tienen más de 11.00 onzas, de modo que la


probabilidad es 100%.
762 Respuestas
Respuestas a los ejercicios nones de cada capítulo 763

La población tiene mayor dispersión que las medias mués-


trales. Las medias de la muestra varían de 1.33 a 4.0. La
población varía de 0 a 6.

La media de las 10 medias muéstrales es 4.84, que se aproxi-


ma a la media de la población de 4.5. Las medias muéstrales
varían de 2.2 a 7.0, mientras que los valores de la población va-
rían de 0 a 9. De acuerdo con la gráfica anterior, las medias
muéstrales tienden a agruparse entre 4 y 5.
13. Las respuestas varían dependiendo de las monedas que usted
tenga.
764 Respuestas
Respuestas a los ejercicios nones de cada capítulo 765

CAPÍTULO 10
766 Respuestas
Respuestas a los ejercicios nones de cada capítulo 767
768 Respuestas
Respuestas a los ejercicios nones de cada capítulo 769
770 Respuestas
Respuestas a los ejercicios nones de cada capítulo 771
772 Respuestas

CAPÍTULO 13
Respuestas a los ejercicios nones de cada capítulo 773
774 Respuestas
Respuestas a los ejercicios nones de cada capítulo 775
776 Respuestas
Respuestas a los ejercicios nones de cada capítulo 777
778 Respuestas

CAPÍTULO 15
Respuestas a los ejercicios nones de cada capítulo 779

CAPITULO 16
780 Respuestas
Respuestas a los ejercicios nones de cada capítulo 781
782 Respuestas

CAPÍTULO 17
Respuestas a los ejercicios nones de cada capítulo 783
784 Respuestas

CAPÍTULO 18
Respuestas a los ejercicios nones de cada capítulo 785
786 Respuestas
Respuestas a los ejercicios nones de cada capítulo 787
788 Respuestas
Respuestas
a los ejercicios de revisión nones
790 Respuestas

REVISIÓN DE LOS CAPÍTULOS 10-12

REVISIÓN DE LOS CAPÍTULOS 5-7

REVISIÓN DE LOS CAPÍTULOS 13 Y 14

REVISIÓN DE LOS CAPÍTULOS 8 Y 9


Respuestas a los ejercicios de revisión nones 791
Créditos de fotografías

Capítulo 1 Capítulo 7 Capítulo 15


F1.1, Foto cortesía de Wal-Mart Stores, Inc.; F7.1 a y b, Foto cortesía de Victoria's Secret; F15.1, ©Corbis Images/PictureQuest; F15.2,
F1.2, © RF/Corbis; F1.3, © elektraVision F7.2 © RF/Corbis; F7.3, The Good Year Tire AP/Wide World Photos; F15.3, © RF/Corbis
AG/PictureQuest; F1.4, © RF/Corbis and Rubber Company; F7.4, © RF/Corbis
Capítulo 16
Capítulo 2 Capítulo 8 F16.1, PhotoLink/Getty Images; F16.2,
F2.1, cortesía de Merrill Lynch; F2.2, F8.1, © RF/Corbis; F8.2, Photo Disc/Getty cortesía de Nestlé USA—Beverage
Jack Star/PhotoLink/Getty Images; F2.3, Images; F8.3, Terry Wild Stock, Inc. © 2003; División; F16.3, © RubberBall
PhotoDisc/Getty Images F8.4 © BP p.l.c. 2002. Derechos reservados. Productions/PictureQuest; F16.4, Ryan
McVay/Getty Images.

Capítulo 3 Capítulo 9
F3.1, Esta imagen se reprodujo con F9.1, AP/Wide World Photos; F9.2, AP/Wide Capítulo 17
autorización de United Parcel Service of World Photos; F9.3, PhotoLink/Getty Images; F17.1, AP/Wide World Photos; F17.2,
America, Inc. © Copyright 2003 United Parcel F9.4, AP/Wide World Photos cortesía de the National Institute of
Service of America, Inc. Derechos reservados; Standards and Technology, Office of Quality
F3.2, RF/Corbis; F3.3, © Neil Beer/PhotoDisc/ Pograms, Gaithersburg, MD; F17.3, John A.
PictureQuest; F3.4, cortesía de Dell Inc. Capítulo 10 Rizzo/Getty Images; F17.4, imagen por
F10.1, NCR Corporation; F10.2, Christina Sanders; F17.5, cortesía de
Russell Illig/Getty Images; F10.3, ALCOA
Capítulo 4 Tomi/Photoünk/Getty Images; F10.4,
F4.1, © RF/Corbis; F4.2, The Home Depot; AP/Wide World Photos
F4.3, © RF/Corbis; F4.4, PhotoDisc/Getty Capítulo 18
Images; F4.5, SPL/Photo Researchers, Inc. F18.1, © Image Ideas, Inc./PictureQuest
Capítulo 11
F11.1, Terry Wild Stock, Inc. ©2003; F11.2, ©
Capítulo 5 RF/Corbis; F11.3, © RF/Corbis; F11.4, David Capítulo 19
F5.1, AP/Wide World Photos; F5.2, AP/Wide Buffington/Getty Images F19.1, cortesía de PepsiCo; F19.2, derechos
World Photos; F5.3, cortesía de Dean's Food; de autor 1992 Donna Cox y Robert Patterson.
F5.4, © 2003 Busch Entertainment Imagen producida en el National Center for
Corporation. Derechos reservados; F5.5, © Capítulo 12 Supercomputing Applications, University of
RF/Corbis F12.1, © RF/Corbis; F12.2, Don Farrall/Getty Illinois at Urbana—Champaign; F19.3,
Images; F12.3, PhotoLink/Getty Images; PhotoLink/Getty Images.
F12.4, Keith Brofsky/Getty Images
Capítulo 6
F6.1, © elektraVision AG/PictureQuest; F6.2, © Capítulo 20
Corbis Images/PictureQuest; F6.3, © Capítulo 13 F20.1, Akira Kaede/Getty Images;
RF/Corbis; F6.4, LEGO, el logotipo LEGO, la F13.1, Ritz Camera Centers; F13.2, F20.2, AP/Wide World Photos
configuración de los bloques y la minifigura son © The Coca-Cola Company; F13.3,
marcas registradas de the LEGO Group © 2003 Keith Brofsky/Getty Images
The LEGO Group. Las marcas registradas y
los productos LEGO® se utilizaron con
autorización. The LEGO Group no patrocina Capítulo 14
esta publicación. F14.1, © RF/Corbis; F14.2, Ryan McVay/Getty
Images; F14.3, Karl Weatherly/Getty Images

793
Índice

A Bell Telephone Laboratories, 587 Coeficientes de regresión estimados, 449


Best Buy, Inc., 284 Coeficientes de regresión individuales, 489-491
A. C. Nielsen Company, 271 Beta, 321, 344-346 Colgate-Palmolive Co., 5
AARP, 332 Beta (coeficiente de regresión en el mercado Combinación lineal de dos variables aleato-
ACCRA, 620 bursátil), 443, 663 rias, 706
Actos, 688, 690 Bethlehem Steel, 140 Computer Associates, 546
Ajustes del costo de vida, 640 BLS; vea Bureau of Labor Statistics Con diagramas de dispersión, 485-486
Alejados, 110 BMW, 24 Con matriz de correlación, 486-487
Alfa, 321 Bolsa de valores de Nueva York 355, 618, 635 Concepto empírico de probabilidad, 144
AlliedSignal, 589-590 Bossidy, Lawrence, 589-590 Conjuntos de datos
Alternativas, 688, 690 Branch-Smith Printing División, 589 bancarios, 739
American Association of Retired Persons British Airways, 602 bienes raíces, 727-729
(AARP), 332 Bureau of Labor Statistics (BLS), 6, 619, 620, datos demográficos y económicos interna-
American Automobile Association (AAA), 153 633, 634, 637 cionales de la CÍA, 736-738
American Coffee Producers Association, 156 Burger King, 297 liga mayor de béisbol, 730-731
American Management Association, 287 Busch Gardens, 150 salarios y asalariados, 732-735
American Restaurant Association, 282 Bush, George W., 157 Whitner Autoplex, 740
American Society of Investors, 180 Control de calidad
Análisis de correlación, 429-431, 436 causas de la variación, 590
Análisis de datos ordenados control de procesos estadísticos, 587
coeficiente de correlación de rangos de c estadístico, 587, 588
Spearman, 570-572 Cadillac, 589 gráficas de control
correlación de rangos-orden, 569-572 Calidad, definiciones de la, 590 de atributos, 602-605
prueba de Kruskal-Wallis, 564-568 Calificaciones z, 220 de factores, 726
prueba de rangos asignados de Wilcoxon, Carli, G. R., 622 gráfica de porcentaje de defectuosos (p),
556-559 Categorías exhaustivas, 11 602-604
prueba de signos; vea Prueba de signos Categorías mutuamente excluyentes, 11 gráficas de barras c, 604-605
prueba de suma de rangos de Wilcoxon, Categorías; vea Datos de nivel nominal gráficas de rangos, 598-599
561-563 14 puntos de Deming, 587-588 procesos controlados y fuera de control,
Análisis de la varianza en dos direcciones, Causalidad 599-601
406-409 asociación y, 15 uso de, 588, 594-595, 598
Análisis de la varianza por rangos en una correlación y, 436 variable, 595-598
dirección de Kruskal-Wallis, CBS, 296 gráficas de diagnóstico, 590
564-568 CEC; vea Control estadístico de calidad diagramas de esqueleto de pez, 592-593
Análisis de regresión, 429, 440; vea también Cedar Fair, 658-659 gráfica de Pareto, 591-592
Regresión lineal; Regresión Celdas, 524 historia, 587-589
múltiple Census Bureau, 42 muestreo de aceptación, 606-607
Análisis de sensibilidad, 696-697 Chebyshev, P. L, 79 Premio Nacional a la Calidad Baldrige, 589
Análisis de tablas de contingencia, 534-537 Chevrolet, 24 sigma seis, 589-590
Análisis de varianza (ANOVA); vea también Ciclos de negocio, 653 Control estadístico de calidad (CEC), 587, 588
Distribución F Control estadístico del proceso (CEP), 587
Circuit City, 318
diferencias en medias tratamiento, 402-404 CooperTire and Rubber Company, 7
Coeficiente de correlación, 431-432
en dos direcciones, 406-409 cálculo, 435 Correlación, coeficiente de; vea Coeficiente
importancia, 392-393 definición, 433 de correlación
supuestos, 392 derivación, 433-434 Correlación de rangos, 569-572
uso del, 387 fórmula, 435 Correlaciones espurias, 436
Aproximación normal a la distribución fuerza de la relación, 432-433 Covarianza, 706-709, 710-711
binomial, 231-232, 552-553 independencia de la escala de variables, Covarianza de la muestra, 710-711
Árboles de decisión, 697-699 435 CPE; vea Control de proceso estadístico
Arm and Hammer Company, 270-271 relación con el coeficiente de determinación Cuartiles, 105-106
Asimetría y error estándar del estimado, 457- Curva OC; vea Curva operativa característica
coeficiente de Pearson de, 114-115 459 (OC)
software para el coeficiente de, 115 significancia de la prueba de, 438-439 Curva operativa característica (OC), 607
AT&T, 590 Coeficiente de correlación de rangos de CV; vea Coeficiente de variación
Atributos; vea Variables cualitativas Spearman, 570-572
Autocorrelación, 483 Coeficiente de correlación producto-momento
AutoUSA, 24 de Pearson; vea Coeficiente de D
correlación
B Coeficiente de determinación múltiple, 484 Datos ajustados estacionalmente, 674-677
Coeficiente de Pearson de asimetría, 114-115 Datos bivariados, 118
Baldrige National Quality Award, 589 Coeficiente de variación (VC), 112-113 Datos de nivel de intervalo, 12
Banana Republic, 688, 689 Coeficientes de regresión, 449 Datos de nivel nominal, 10-11; vea también ji
Bayes, Thomas, 160-161 en la regresión múltiple, 474-475, 489-491 cuadrada

795
796 Índice

proporciones, 297-298 de Student. 273, 291-292, 489, 722 características, 201


representaciones gráficas. 43-44 desarrollo de la. 291. 451 definición. 201
Datos de nivel ordinal, 11-12; vea también intervalo de confianza para la media de la fórmula. 201
Análisis de datos ordenados población, 292-293 media, 201
Datos del nivel de razón, 12-13 pruebas de hipótesis con el uso de. 335-336 tablas. 202, 719
Datos desestacionalizados. 674-677 uso de la, 293 varianza, 201
Datos en bruto, 25 Distribución /de Student, 273. 291-292, 489. Distribuciones de probabilidad normal, 213
Datos no agrupados, 25 722 área bajo la curva, 219, 222, 224-226. 720
Datos numéricos; vea Variables cuantitativas Distribución z área entre valores, 227-228
Datos univariados. 118 como estadística de prueba, 321 características, 217-218
Datos; vea Variables uso de la, 293 combinación de dos áreas. 227
Defectos; vea Control de calidad Distribuciones con sesgo positivo, 67, 114 desviación estándar, 218
Deflactores, 639 Distribuciones bimodales, 64, 114 estándar; vea Distribución normal estándar
Deming, W, Edwards, 587-588 Distribuciones con sesgo negativo, 67, 114 fórmula. 217
Desviación estándar Distribuciones continuas de probabilidad media, 218
de datos agrupados, 81-82, 83-84 área dentro, 214-215 porcentaje de observaciones. 229-230
de distribución discreta de la probabilidad, F: vea Distribución F Distribuciones de probabilidad uniformes, 213-
185 normales; vea Distribuciones normales de 216
de distribución normal, 218 probabilidad Distribuciones discretas de probabilidad
de la distribución uniforme, 214 f; vea Distribución í binomiales; vea Distribuciones de probabili-
de la muestra, 77 uniforme, 213-216 dad binomiales
de la población. 76, 302 Distribuciones de frecuencia acumulada, 37-39 definición, 184
definición, 74 Distribuciones de frecuencia relativa, 30 desviación estándar, 185-186
ejemplo de software, 78 Distribuciones de frecuencias, 6 hipergeemétrica, 198-200
Regla Empírica, 80, 222-223 acumuladas. 37-39 media, 184-185
teorema de Chebyshev, 79 clases, 25-26 Poisson, 201-203
uso de la, 79 construcción de, 25-28 varianza. 185-186
Desviación estándar de la muestra, 77 definición. 25 Distribuciones en forma de campana, 217;
Desviación estándar de la población, 76, 302 ejemplo de software. 29 vea también Distribuciones de pro-
Desviación media, 73-74 frecuencias de clases, 27-28 babilidad normal
Desviación normal, 220 intervalos de clases, 26, 29 Distribuciones sesgadas, 67, 114
Desviación, media, 73-74; vea también Des- longitud o amplitud de clases, 26 Distribuciones simétricas, 66-67. 80, 114; vea
viación estándar presentaciones gráficas, 31 también Distribuciones de probabili-
Desviaciones normales estándar, 220 hístogramas, 32-33 dad normal
Diagramas de árbol, 158-159, 697-699 polígonos de frecuencia, 33-36 Distribuciones; vea Distribuciones de frecuen-
Diagramas de caja, 108-110 relativas, 30 cia; Distribuciones de la probabili-
Diagramas de causa y efecto, 592-593 sesgadas. 67, 114-115 dad
Diagramas de dispersión, 118-119, 430-431, simétricas, 66-67 DJIA; vea Promedio Industrial Dow Jones
485-486 Distribuciones de la probabilidad hipergeomé- Dólar, poder de compra del, 639-640
Diagramas de esqueleto de pez o de pesca- trica, 198-200
do, 592-593 Distribuciones de probabilidad E
Diagramas de puntos. 97-98 binomial; vea Distribuciones de probabili-
Diagramas de tallo y hojas, 98-99 dad binomial Ecuación de regresión, 440
Diagramas de Venn, 148 características, 182 forma general, 441-443
Disney World. 150, 201 continuas; vea Distribuciones continuas de para la población, 448-449
Dispersión relativa. 112-113 probabilidad Ecuación de tendencia lineal. 661-662
Dispersión; vea también Medidas de dispersión de Poísson, 201-203 Ecuación de tendencia logarítmica, 665-667
razones para estudiarla, 71 definición. 181 Encuesta Literary Digest, 356
relativa, 112-113 discretas; vea Distribuciones discretas de Encuestas, 15
Disraeli. Benjamín, 14 probabilidad Encuestas Gallup, 251
Distribución de muestreo de la media de la generación, 181-182 Environmental Protection Agency (EPA), 4,
muestra, 259-261 hipergeométrica, 198-200 283
desviación estándar, 269 normal: vea Distribuciones de probabilidad EPA; vea Environmental Protection Agency
estimado basado en la, 284 normal Error del muestreo, 258-259
teorema central del límite, 259-261, 268-269 uniforme, 213-216 Error estándar del estimador
uso de la. 270-271. 273 Distribuciones de probabilidad binomial a partir de la tabla ANOVA, 458
Distribución F acumuladas, 195-196 definición, 446
características, 387 aproximación normal a las, 231-232, 552- fórmula. 446-447
comparación de dos varianzas. 388-391 553 múltiple. 481-482, 484
comparación de medias poblacionales, características, 188-189 relación con el coeficiente de correlación y
392, 393 comparadas con las distribuciones hiper- determinación, 457-459
estadísticas de prueba. 388, 395 geométricas, 199 relación con los valores predecidos, 450
prueba global, 487-489 construcción, 189-190 Error estándar múltiple del estimado. 481-482,
uso de la, 388 definición, 188 484
valores críticos. 723-724 ejemplo de software, 192-193 Error estándar
Distribución j¡ cuadrada, 526 formas, 193-194 de la media. 269, 595
Distribución normal estándar, 219-221 fórmula, 189 de la proporción de la muestra, 298, 602
aplicaciones de la, 221. 224-226, 227-228, media, 190-191 factor de corrección para población finita,
229-230 muestreo con reemplazo, 197 300-301
cálculo de las probabilidades, 220-221 tablas, 191, 713-717 tamaño del, 285
tabla de probabilidades, 220, 720 varianza, 190-191 Error tipo I. 320
Distribución / Distribuciones de probabilidad de Poisson, Error tipo II. 320-321
características, 291-292 201-203 probabilidad del, 344-346
Índice 797

Errores; vea Error de muestreo; Error están- General Foods Corporation, 323 publicación de, 619, 620
dar; Error tipo 1; Error Tipo II General Motors, 1, 4, 24, 332, 362, 589, 606 usos especiales de, 638-640
Estadística Gosset, William, 291, 451 índice de precios de Laspeyres, 626-627, 628
aplicaciones para computadora, 17-19 Gould, Stephen Jay, 114 índice de precios de Paasche, 627-629
definición, 4, 5, 58 Gráfica de porcentaje defectuoso (p), 602-604 índice de Precios para el Productor (IPP),
descriptiva, 6-7 Gráficas, 6; vea también Gráficas de control; 619,634,639
equivocada, 14-15, 17 Representaciones gráficas índice de satisfacción del consumidor, 632
historia de la, 10, 291 de barras, 42-43 índice ideal de Fisher, 629
inferencial, 7-8, 140 de líneas, 41-42 índices; vea también índice de Precios al
prueba, 321 de pastel, 43-44 Consumidor
razones para estudiar, 2-4 Gráficas de barras, 42-43 cambio de bases de, 640-641
Estadística de la muestra, 58, 258 Gráficas de barras c, 604-605 como deflactores, 639
Estadística de la prueba, 321 Gráficas de control de temporada, 668-673
Estadística de prueba ji cuadrada, 524 atributos, 602-605 importancia, 619
cálculo, 525-526 íactores, 726 para propósitos especiales, 632-633
valores críticos, 525, 718 gráfica (p) de porcentaje de defectuosos, periodos base, 622, 623
Estadística descriptiva, 6-7 602-604 propósito, 622
Estadística inductiva; vea Estadística inferen- gráficas de barras c, 604-605 índices bursátiles; vea Promedio Industrial Dow
cial, 7-8, 140 gráficas de rangos, 598-599 Jones; Nasdaq; índice 500 de Stan-
Estadísticas z, 220 procesos controlados y fuera de control, dard & Poor's
Estados de la naturaleza, 689 599-601 índices de valores, 631
Estimadores puntuales o de punto, 284 uso de, 588, 594-595, 598 índices estacionales, 668-673
Estrategia de minimax, 694 variables, 595-598 índices no ponderados, 624-626
Estrategia maximax, 694 Gráficas de control de atributos, 602-605 índices ponderados
Estrategia maximin, 694 Gráficas de líneas, 41-42 índice de precios de Laspeyres, 626-627, 628
Estratos, 254-255 Gráficas de pastel, 43-44 índice de precios de Paasche, 627-629
Ética, 17 Gráficas de rango, 598-599 índice ideal de Fisher, 629
Eventos Gran media, 595 Inferencia estadística; vea Estadística de infe-
colectivamente exhaustivos, 144 Graunt, John, 10 rencia
conjuntos, 150 Greenspan, Alan, 2 Información perfecta, valor de la, 694-696
definición, 142 Guinness Brewery, 291 Ingreso real, 638
dependientes, 154 Instituto de Investigaciones Sociales de la
independientes, 153 Universidad de Michigan, 477
mutuamente exclusivos, 143, 147 H Intercepto (ordenada al origen)
Eventos colectivamente exhaustivos, 144 de la línea de regresión, 442
Eventos conjuntos, 150 Hamilton, Alexander, 27 en la regresión múltiple, 474-475
Eventos dependientes, 154 Hammond Iron Works, 71 Intercepto Y, 442
Eventos independientes, 153 Health and Human Services, Department of, 15 Infernal Revenue Service, 26, 604
Eventos mutuamente excluyentes, 143, 147 Hipótesis Intervalos de clases, 26, 29
Experimentos alternativa, 319 Intervalos de confianza
con dos factores, 409 definición, 317 90 por ciento, 287
definición, 141 nula, 319 92 por ciento, 286-287
variables aleatorias, 183-184 Hipótesis alternativa, 319 95 por ciento, 284-285, 286
Extendidos, vea Dispersión Hipótesis nula, 319 99 por ciento, 285, 286
Exxon Mobil, 1, 4 Histog ramas cálculo, 285, 287-288
definición, 32 definición, 284
elaboración, 32-33 en la regresión lineal, 451-452, 453
F Hojas, 99 para la diferencia en las medias de trata-
Factor de corrección para población finita, Home Depot, 651-652 miento, 402-404
Homeland Security, Department of, 11-12 para la media poblacional, 286-287, 292-
300-301
Homoscedasticidad, 483, 496-497 293, 294-295
Factor de corrección por continuidad, 232-235 Huff, Darrell, 17
Factor de mentira, 16 para la proporción, 297-298
Hunt, V. Daniel, 589 simulación en computadora, 288-290
Federal Express, 589 Hyundai, 24
Federal Reserve Board, 6, 619 Intervalos de confianza de 90 por ciento, 287
Federalist, The, 27 Intervalos de confianza de 92 por ciento, 286-
Fisher, Irving, 629 287
Fisher, R. A., 251 I Intervalos de confianza de 95 por ciento, 284-
Fisher, Ronald, 387 IBM, 589 285, 286
Ford Motor Company, 1,14, 24, 534, 589, Intervalos de confianza de 99 por ciento, 285,
Inclusivo o, 151
286
688, 689 Incremento porcentual promedio a través del
Fórmula de combinación, 168-169 Intervalos de predicción, 451, 452-453
tiempo, 70
Fórmula de multiplicación, 165-166 IPC; vea índice de precios al consumidor
índice 500 de Standard & Poor's, 443, 619,
Fórmula de permutación, 166-168 IPP; vea índice de Precios para el Productor
635, 663
Frecuencia esperada, 536 índice agregado simple, 625-626
Frecuencias de clases, 27-28 índice de la bolsa de valores de Nueva York, J
Frecuencias relativas, 144 355, 618, 635 J. D. Power & Associates, 632
Frecuencias relativas de clase, 27-28 índice de precios al consumidor (IPC), 633-634 Jay, John, 27
Frito-Lay, 4-5 compilación de, 637 Johnson and Johnson, 618
componentes, 622, 637
G funciones, 637 K
historia, 637
Gates, William, 4 índices específicos, 637 Kellogg Company, 2
General Electric, 589, 688 periodos base, 637 Kennedy, John F., 99
798 Índice

Kia, 24 con desviación estándar poblacional co- Muestreo de aceptación, 606-607


K-Mart, 316 nocida, 324-328 Muestreo de atributos, 607
Kruskal, W. H., 564 dos muestras pequeñas, 366-368 Muestreo de conglomerados, 255
Kutner, Michael H., 483, 497 prueba de muestra grande con desvia- Multicolinearidad, 486-487
ción estándar desconocida, 329-
330
L N
prueba de muestra pequeña con desvia-
Labor, Department of, 619, 637 ción estándar desconocida, 335-
339 Nachtscheim, Chris J., 483, 497
Landon, Alfred, 255, 356
prueba de una cola, 324-327 Nasdaq, 41, 355, 619, 641
Laspeyres, Etienne, 626
tamaño de la muestra para estimar, 302-303 National Coffee Association, 3
LCI; vea Límite de control inferior
Media ponderada, 61 National Collegiate Athletic Association
Límite de control inferior (LCI), 595, 596
Mediana, 62-63, 105 (NCAA), 161, 688, 689
Límite superior de control (LSC), 595, 596
Límites de control diferencia de la media, 114-115 National Science Foundation, 651
más altos, 595, 596 media, moda y, 66-67 NCAA; vea National Collegiate Athletic Asso-
más bajos, 595, 596 pruebas de hipótesis para la, 554-555 ciation
para el número de defectos por unidad, 604 Medidas de dispersión, 56 Neter, John, 483, 497
coeficiente de variación, 112-113 Nightingale, Florence, 34
para proporciones, 603
Lockheed, 430 cuartiles, 105-106 NIKKEI, 225, 619
Longitud o amplitud de clases, 27 decilos, 105 Nissan, 589
Lorrange Plastics, 7 desviación estándar; vea Estándar, desvia- Nivel de significancia, 320-321
Lotería del estado de Ohio, 43-44 ción Niveles de confianza, 302
LSC; vea Límite superior de control desviación media, 73-74 Niveles de medición, 9-10
percentiles, 105, 106-107 de razón, 12-13
rango, 72 intervalar, 12
M nominal, 10-11
varianza; vea Varianza
Madison, James, 27 Medidas de tendencia central, 56 ordinal, 11-12
ejemplo de software, 66 Nixon, Richard, 99
Margen de error, 298
media; vea Media Nordstrom's, 24
Martin Marietta, 430
mediana; vea Mediana Northwest Airlines, 201-202
Matriz de correlación, 486-487
Maximiners, 694 moda, 63-64, 66-67 Número crítico, 607
McDonald's, 590 promedio, 14-15, 56 Número de aceptación, 607
MCE; vea Media de cuadrados del error MegaStat, 741-744 Números aleatorios
MCT; vea Media de cuadrados de tratamientos Mercedes Benz, 24 búsqueda, 251
Media Merrill Lynch, 5, 23 seudo, 251
aritmética, 59-60, 82 Método de mínimos cuadrados, en pronósti- tablas, 253, 721
de datos agrupados, 81-82 cos, 662-664 Números índice
de la distribución de Poisson, 201 Método de promedios móviles elaboración, 622-623
de la distribución de probabilidad binomial, en series de tiempo, 655-657 definición, 619
190-191 ponderado, 658-659 desarrollo de, 622
de la distribución discreta de probabilidad, Método de razón a promedios móviles, 669- simples, 619-622
184-185 673 Números índice simples, 619-622
de la distribución normal, 218 Métodos no paramétricos; vea Prueba ji cua- Números seudoaleatorios, 251
de la distribución uniforme, 214 drada; Análisis de datos ordenados
de la muestra; vea Media de la muestra Microsoft Corporation, 4, 651
diferencia de la mediana, 114-115 Moda, 63-64, 66-67 O
diferencia entre dos, 357-358 Morlón Thiokol, 430 O'Neal, Shaquille, 234
geométrica, 69-70 Motorola Inc.. 589
mediana, moda y, 66-67 Muestras
poblacional; vea Media poblacional definición, 7 P
ponderada, 61 dependientes, 370-373, 374-375
regla empírica, 80, 222-223 independientes, 356-360, 374-375 Pagos, 689
Media aritmética, 59-60, 82 pareadas, 371 Pagos esperados, 690-691
Media de cuadrados, 399 relación con la población, 8 Parámetros, poblacionales, 57, 258, 283-284
Media de cuadrados de tratamientos, 399 tamaños, 285-286, 301-303 Pareto, Vilfredo, 591
Media de cuadrados del error, 399, 402-403 uso de las, 7-8 Pearson, Karl, 112, 114, 431, 434, 525
Media de la muestra, 58 Muestras aleatorias estratificadas, 254-255 Pendiente de la línea de regresión, 442
distribución muestral de la, 259-261 Muestras aleatorias simples, 252-253 PEO; vea Pérdida esperada de oportunidad
desviación estándar, 269 Muestras aleatorias sistemáticas, 253-254 PepsiCo, Inc., 650
estimado basado en, 284 Muestras aleatorias; vea Muestreo Percentilos, 105, 106-107
teorema central del límite, 259-261, 268- Muestras dependientes, 370-373, 374-375 Pérdida de oportunidad, 692
269 Muestras independientes, 356-360, 374-375 esperada, 693-694
USO de, 270-271, 273 Muestras pareadas, 371 Pérdida esperada de oportunidad (PEO), 693-
valores z, 271, 273 Muestreo 694
Media de la proporción de defectuosos, 602 aceptación, 606-607 Periodos base, 622, 623
Media de los pagos, 690 aleatorio estratificado, 254-255 Permutaciones, 167
Media geométrica, 69-70 aleatorio simple, 252-253 Poblaciones
Media poblacional, 57 aleatorio sistemático, 253-254 definición, 7
intervalos de confianza para la, 286-287, con reemplazo, 197 estratos, 254-255
292-293, 294-295 de atributos, 607 finitas, 197-198, 300
prueba de dos colas para, 324-327 de conglomerados, 255 inferencias en regresión múltiple, 475-479
pruebas de hipótesis para razones para el, 7-8, 251-252 parámetros, 57, 258, 283-284
comparando tres o más, 392, 393 sin reemplazo, 197-198 relación con las muestras, 8
Índice 799

Poblaciones finitas, 197-198, 300 Prueba de rangos asignados de Wilcoxon, Reglas de adición
Poder adquisitivo del dólar, 639-640 556-559 especiales, 147-149
Polígonos de frecuencia, 33-36 valores críticos, 558-559, 725 generales, 149-151
acumulados, 37-39 Prueba de signos, 547, 551 Reglas de decisión, 321-322
Polígonos de frecuencia acumulada, 37-39 pruebas de hipótesis para la mediana, 554- Reglas de multiplicación
Premio Nacional a la Calidad Malcolm 555 especiales, 153-154
Baldrige, 589 uso de la aproximación normal para la generales, 154-155
Principio de mínimos cuadrados, 441 prueba binomial, Reglas de probabilidad
Principios del conteo 552-553 regla del complemento, 148-149
fórmula de combinación, 168-169 Prueba de sumas de rangos de Wilcoxon, regla especial de adición, 147-149
fórmula de multiplicación, 165-166 561-563 regla general de adición, 149-151
fórmula de permutación, 166-168 Prueba de f pareada, 371 regla general de multiplicación, 154-155
Probabilidad Prueba global, 487-489 Reglas de probabilidad; vea Probabilidad, re-
anterior, 161 Prueba ji cuadrada glas de la
clásica, 143-144 análisis de tabla de contingencia, 534-537 Regresión del mejor subconjunto, 491
concepto empírico, 144 limitaciones, 531-532 Regresión lineal
condicional, 154 prueba de bondad de ajuste error estándar del estimador, 446-448, 450,
conjunta, 150 frecuencias esperadas desiguales, 529- 457-459
definición, 141 531 intervalos de confianza, 451-452, 453
eventos, 142 frecuencias esperadas iguales, 523-537 intervalos de predicción, 451, 452-453
experimentos, 141 Prueba í principio de mínimos cuadrados, 441
para el coeficiente de correlación, 438-439 supuestos, 449-450
objetiva, 143
pareada, 371 transformación de datos, 459-461
posterior, 161
Pruebas de distribución libre, 547 trazo de la línea, 443
principios del conteo
Pruebas de hipótesis; vea también Análisis de Regresión múltiple
fórmula de la combinación, 168-169
la varianza autocorrelación, 483
fórmula de la multiplicación, 165-166
con dos muestras; vea Pruebas de hipóte- supuestos, 482-483
fórmula de la permutación, 166-168 sis con dos muestras tablas ANOVA, 483-484
regla especial de multiplicación, 153-154 con una muestra; vea Pruebas de hipótesis Regresión por pasos, 491
resultados, 141-142 Relaciones curvilíneas, 459-461
con una muestra
subjetiva, 145 correlación de rangos, 571-572 Relaciones no lineales, 459-461
Teorema de Bayes, 160-162 definición, 318 Representaciones gráficas; vea también Gráfi-
Probabilidad anterior, 161 para la mediana, 554-555 cas
Probabilidad binomial acumulada procedimiento de cinco pasos, 318-323 árboles de decisión, 697-699
distribuciones, 195-196 prueba de bondad de ajuste, 523-526 de información estadística, 4-5
Probabilidad clásica, 143-144 valores p, 328-329, 341-342 de las distribuciones de frecuencia, 31
Probabilidad condicional, 154 Pruebas de hipótesis con dos muestras diagramas de árbol, 158-159, 697-699
Probabilidad conjunta, 150 muestras dependientes, 370-373 diagramas de caja, 108-110
Probabilidad objetiva, 143 muestras independientes, 356-360 diagramas de dispersión, 118-119, 430-
Probabilidad posterior, 161 para la proporción, 362-364 431,485-486
Probabilidad subjetiva, 145 prueba de las medias de muestra pequeña, diagramas de punto, 97-98
Procesos; vea Control de calidad 366-368 diagramas de tallo y hoja, 98-99
Promedio Industrial Dow Jones (DJIA), 41, 619, Pruebas de hipótesis con una muestra diagramas de Venn, 148
634-635, 641 para la media poblacional erróneas, 15-16
Promedio simple de índices de precios, 624- con desviación estándar poblacional co- gráficas de control de calidad
625 nocida, 324-328 diagramas de esqueleto de pescado,
Promedios, 14-15, 56 con desviación estándar poblacional co- 592-593
Promedios móviles ponderados, 658-659 nocida y muestra pequeña, 335- gráficas de Pareto, 591-592
Pronóstico 339 histogramas, 32-33
a largo plazo, 651 con desviación estándar poblacional polígonos de frecuencia, 33-36
con datos desestacionalizados, 675-677 desconocida y muestra grande, polígonos de frecuencia acumulados, 37-39
errores en, 676 329-330 Residuales, 481. 495-497
Pronóstico a largo plazo; vea Pronóstico solución de software, 341 -342 Resultados
Proporción combinada, 362 para la proporción, 331-334 conteo, 165
Proporción de la muestra, 298 Pruebas de significancia de dos colas, 324- definición, 141-142
error estándar de la, 298, 602 327 Riesgo del consumidor, 607
Proporción de la población, 298 Pruebas de significancia de una cola, 323- Riesgo del productor, 607
pruebas de hipótesis para, 332-334 324, 327-328 Ritz-Carlton Hotel Corporation, 589
tamaño de la muestra para estimar, 303- Puntos medios de clases, 29 Rockwell International, 430
304 Roosevelt, Franklin D., 255, 356
Proporciones Roper ASQ, 251
combinadas, 362 R
de la muestra, 298 rde Pearson, vea Coeficiente de correlación
s
de la población, 298, 303-304 RAND Corporation, 251 Segunda Guerra Mundial, 201, 322, 587
definición, 297 Rango, 72 Selección de variables, 489-491
intervalos de confianza para, 297-298 Recopilación de datos, 5-6 análisis de residuales, 495-497
pruebas de hipótesis para Regla del complemento, 148-149 coeficientes de regresión, 474-475, 489-491
dos muestras, 362-364 Regla empírica, 80, 222-223 ecuación general, 475
una muestra, 331-334 Regla especial de adición, 147-149 error estándar múltiple del estimador, 481-
Prueba de ANOVA, 394-395 Regla especial de multiplicación, 153-154 482, 484
Prueba de bondad de ajuste Regla general de adición, 149-151 homoscedasticidad, 483, 496-497
frecuencias esperadas desiguales, 529-531 Regla general de multiplicación, 154-155 inferencias acerca de los parámetros pobla-
frecuencias esperadas ¡guales, 523-526 Regla normal, 80 cionales, 475-479
800 Índice

intercepto, 474-475 problemas, 688 Variables dummy, 492


modelos, 475 tabla de pagos, 689-690 Variables independientes, 431, 489-491
multicolinearidad, 486-487 valor de la información perfecta, 694-696 Variación; vea también Dispersión
variables cualitativas independientes, 492- Teoría de la decisión estadística, 688; vea aleatoria, 395
494 también Teoría de la Decisión asignable, 590
Series de tiempo Teoría de la probabilidad, 140 causas de la, 590
datos desestacionalizados, 674-677 Thompson Photo Works, 474 de la probabilidad, 590
definición, 651 Tippett, L, 251 estacional; vea Variación estacional
ecuación de tendencia lineal, 661-662 Toyota, 283 irregular, 654-655
índices estacionales, 668-673 Transformaciones, 459-461 no explicada, 455, 456, 458
método de mínimos cuadrados, 662-664 Tratamientos, 393, 402-404 total, 394
método de promedios móviles, 655-657 Tuchman, Barbara W., 590 total, en V, 455-456
promedios móviles ponderados, 658-659 Tufte, Edward R., 16 tratamiento, 394-395
tendencias no lineales, 665-667 Tukey, John W., 99 Variación aleatoria, 395, 590
tendencias seculares, 651-652 Variación asignable, 590
variación estacional, 654, 668 Variación del tratamiento, 394-395
U
variaciones cíclicas de las, 653 Variación estacional, 654, 668
variaciones irregulares, 654-655 Ubicación central, medidas de; vea Medidas Variación irregular, 654-655
Servicio Postal de Estados Unidos, 57 de ubicación Variación no explicada, 455, 456, 458
Shewhart, Walter A., 587 Universidad de Michigan, 549 Variación total, 394
Sigma seis, 589-590 Universidad de Wisconsin-Stout, 589 Variación total en Y, 455-456
Significancia estadística, 329 UPS, 55 Variaciones cíclicas, 653
sin ponderar, 624-626 Varianza; vea también Análisis de la varianza
ponderados; vea índices ponderados (ANOVA)
valor, 631 V combinadas, 366
Software Valor de la información perfecta, 694-696 de la distribución de diferencias, 357
MegStat, 741-744 de la distribución de Poisson, 201
programas de estadística, 17-19 Valor esperado de la información perfecta de la distribución de probabilidad binomial,
Visual Statistics, 745-749 (VEIP), 694-696 190-191
Software para el coeficiente de asimetría, 115 Valor monetario esperado (VME), 690-691 de la distribución de probabilidad discreta,
Southwest Airlines, 604 Valores críticos, 322 185-186
Spearman, Charles, 570 Valores esperados, 184 de la muestra, 76-77
SSM Health Care, 589 Valores normales estándar, 220 de la suma de dos variables aleatorias,
Starbucks, 73 Valores P, 328-329, 341-342, 439 707-708
State Farm Insurance, 7 Valores predecidos, 450 definición, 74
Suma de cuadrados del error, en dos direccio- Valores z, 220, 271, 273 error, 484
nes, 408 Variables poblacional, 74-75
Sutter Home Winery, 252 aleatorias, 183 Varianza combinada, 366
cualitativas, 8-9 Varianza de la muestra, 76-77
cuantitativas, 8, 9 Varianza de la población, 74-75
T de bloque, 407-408 comparación de dos, 388-391
dependientes, 431 Varianza del error, 484
Tabla de pagos, 689-690
dummy, 492 VEIP; vea Valor esperado de la información
Tablas de ANOVA, 397 independientes, 431
en regresión lineal, 457-458 perfecta
cualitativas, 492-494 Venn, J., 148
en regresión múltiple, 483-484 selección de, 489-491
Tablas de contingencia, 119-120, 155-157, Visual Statistics, 745-749
niveles de medición, 9-13 VME; vea Valor monetario esperado
535
relación entre dos, 118
Tablas de control de variables, 595-598 tipos de, 8-9
Tablas de Pareto, 591-592
Variables aleatorias
Tallos, 99
Taster's Choice, 547
combinación lineal, 706
continuas, 184
w
Teamsters Union, 299 definición, 183 Wallis, W. A., 564
Technology Research Corporation, 589 discretas, 184 Wal-Mart, 1,4, 316
Tendencias no lineales, 665-667 varianza de la suma de, 707-708 Wells, H. G., 2
Tendencias seculares, 651-652 Variables aleatorias continuas, 184 Wendy's, 61, 139
Teorema central del límite, 263-264, 268-269 Variables aleatorias discretas, 184 Westinghouse, 590
Teorema de Bayes, 160-162 Variables continuas, 9 Wilcoxon. Frank, 556
Teorema de Chebyshev, 79 Variables cualitativas; vea también Datos de
Teoría de decisión nivel nominal
análisis de sensibilidad, 696-697
definición, 8-9 X
árboles de decisión, 697-699 en regresión múltiple, 492-494
elementos de las decisiones, 688-689 Variables cuantitativas Xerox, 589
estrategias de maximin, maximax y mini- continuas, 9
max, 694 definición, 8, 9
pagos esperados, 690-691 discretas, 9
pérdida de oportunidad, 692 Variables de bloques, 407-408 Y
pérdida esperada de la oportunidad, 693- Variables dependientes, 431
694 Yates, F., 251
Variables discretas, 9
FÓRMULAS CLAVE
Áreas bajo la curva normal

También podría gustarte