Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Estadistica para Administracion Berenson y Levine Completo 4ta Edicion PDF
Estadistica para Administracion Berenson y Levine Completo 4ta Edicion PDF
---~
UN METODO ESTADISTICO
TIPO DE DATOS
Numericos
Categ6ricos
npo de analisis
Descripci6n de un grupo o
diversos grupos
lnferencia acerca de un
grupo
Comparaci6n de dos
grupos
Comparaci6n de mas de
dos grupos
Analisis de Ia relaci6n
entre dos variables
(Secci6n 3.4) 0
Regresi6n lineal simple (Capitulo 12)0
Prueba t de correlaci6n (Secci6n 12. 7)
Analisis de Ia relaci6n
entre dos o mas variables
,..j
~ ~-------
________
-oo
z
-6.0
-5.5
-5.0
-4.5
-4.0
-3.9
-3.8
-3.7
-3.6
-3.5
-3.4
-3.3
-3.2
-3.1
0.00
0.01
0.000000001
0.000000019
0.000000287
0.000003398
0.000031671
0.00005 0.00005
0.00007 0.00007
0.00011
0.00010
0.00016 0.00015
0.00023 0.00022
0.00034 0.00032
0.00048 0.00047
0.00069 0.00066
0.00097 0.00094
0.02
0.03
0.04
0.05
0.06
0.07
0.08
0.09
0.00004
0.00006
0.00009
0.00014
0.00020
0.00029
0.00042
0.00060
0.00084
0.00004
0.00006
0.00009
0.00013
0.00019
0.00028
0.00040
0.00058
0.00082
0.00004
0.00006
0.00008
0.00013
0.00019
0.00027
0.00039
0.00056
0.00079
0.00004
0.00005
0.00008
0.00012
0.00018
0.00026
0.00038
0.00054
0.00076
0.00003
0.00005 .
0.00008
0.00012
0.00017
0.00025
0.00036
0.00052
0.00074
0.00003
0.00005
0.00008
0.00011
0.00017
0.00024
0.00035
0.00050
0.00071
-. ~~-: ~)/.
;.
~r-
0.00004
0.00007
0.00010
0.00015
0.00022
0.00031
0.00045
0.00064
0.00090
0.00004
0.00006
0.00010
0.00014
0.00021
0.00030
0.00043
0.00062
0.00087
---.:3.0
0 .00135
0.00131
0 .00126
0.00122
0 .00118
0.00114
0.00111
0.00107
0.00103
0 .00100
-2.9
-2.8
-2.7
-2.6
-2.5
-2.4
0.0019
0.0026
0.0035
0.0047
0.0062
0.0082
0.0018
0.0025
0.0034
0.0045
0.0060
0.0080
0.0018
0.0024
'
0.0033
0.0044
0.0059
0.0078
0.0017
0.0023
0.0032
0.0043
0.0057
0.0075
0.0016
0.0023
0.0031
0.0041
0.0055
0.0073
0.0016
0.0022
0.0030
0.0040
0.0054
0.0071
0.0015
0.0021
0.0028
0.0038
0.0051
0.0068
0.0014
0.0020
0.0027
0.0037
0.0049
0.0066
0.0014
0.0019
-2J
0.0107
0.01Utl
0.0102
0.00\J\J
0.00\Jo
0 .0139
0.0136
0 .0132
0.0129
0 .0125
0.0119
U.UU~'J
0.0116
U .UU~{
-2.2
O.UU~4
0.0122
0.0015
0.0021
0.0029
0.0039
0.0052
0.0069
U.UU'Jl
0.0113
0.0110
-2.1
0.0179
0.0174
0.0170
0.0166
0.0162
0.0158
0.0154
0.0150
0.0146
0.0143
-2.0
0.0228
0.0222
0.0217
0.0212
0.0207
0.0202
0.0197
0.0192
0.0188
0.0183
0.0268
0.0336
0.0418
0.0516
0.0630
0.0764
0.0918
0.1093
0.1292
0.1515
0.1762
0.2033
0.2327
0.2643
0.2981
0.3336
0.3707
0.4090
0.4483
0.4880
0.0262
0.0329
0.0409
0.0505
0.0618
0.0749
0.0901
0.1075
0.1271
0.1492
0.1736
0.2005
0.2296
0.2611
0.2946
0.3300
0.3669
0.4052
0.4443
0.4840
0.0256
0.0322
0.0401
0.0495
0.0606
0.0735
0.0885
0.1056
0.1251
0.1469
0.1711
0.1977
0.2266
0.2578
0.2912
0.3264
0.3632
0.4013
0.4404
0.4801
0.0250
0.0314
0.0392
0.0485
0.0594
0.0721
0.0869
0.1038
0.1230
0.1446
0.1685
0.1949
0.2236
0.2546
0.2877
0.3228
0.3594
0.3974
0.4364
0.4761
0.0244
0.0307
0.0384
0.0475
0.0582
0.0708
0.0853
0.1020
0.1210
0.1423
0.1660
0.1922
0.2206
0.2514
0.2843
0.3192
0.3557
0.3936
0.4325
0.4721
0.0239
0.0301
0.0375
. 0.0465
0.0571
0.0694
0.0838
0.1003
0.1190
0.1401
0.1635
0.1894
0.2177
0.2482
0.2810
0.3156
0.3520
0.3897
0.4286
0.4681
0.0233
0.0294
0.0367
0.0455
0.0559
0.0681
0.0823
0.0985
0.1170
0.1379
0.1611
0.1867
0.2148
0.2451
0.2776
. 0.3121
0.3483
0.3859
0.4247
0.4641
-1.9
-1.8
-1.7
-1.6
-1.5
-1.4
-1.3
-1.2
-1.1
-1.0
-0.9
-0.8
-0.7
-0.6
-0.5
-0.4
-0.3
-0.2
-0.1
-0.0
0.0287
0.0359
0.0446
0.0548
0.0668
0.0808
. 0.0968
0.1151
0.1357
0.1587
0.1841
0.2119
0.2420
0.2743
0.3085
0.3446
0.3821
0.4207
0.4602
0.5000
0.0281
0.0351
0.0436
0.0537
0.0655
0.0793
0.0951
0.1131
0.1335
0.1562
0.1814
0.2090
0.2388
0.2709
0.3050
0.3409
0.3783
0.4168
0.4562
0.4960
0.0274
0.0344
0.0427
0.0526
0.0643
0.0778
0.0934
0.1112
0.1314
0.1539
0.1788
0.2061
0.2358
0.2676
0.3015
0.3372
0.3745
0.4129
0.4522
0.4920
0.0026
0.0036
0.0048
0.0064
U.UOM
(contimia)
..
z
0.0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1.0
1.1
1.2
1.3
1.4
1.5
1.6
1.7
1.8
1.9
2.0
2.1
2.2
2.3
2.4
2.5
2.6
2.7
2.8
2.9
3.0
3.1
3.2
3.3
3.4
3.5
3.6
3.7
3.8
3.9
4.0
4.5
5.0
5.5
6.0
0.00
0.01
0.5040
0.5000
0.5438
0.5398
0.5832
0.5793
0.6217
0.6179
0.6591
0.6554
0.6950
0.6915
0.7291
0.7257
0.7612
0.7580
0.7910
0.7881
0.8186
0.8159
0.8438
0.8413
0.8665
0.8643
0.8869
0.8849
0.9049
0.9032
0.9207
0.9192
0.9345
0.9332
0.9463
0.9452
0.9564
0.9554
0.9649
0.9641
0.9719
0.9713
0.9778
0.9772
0.9826
0.9821
0.9864
0.9861
0.9896
0.9893
0.9920
0.9918
0.9940
0.9938
0.9955
0.9953
0.9966
0.9965
0.9975
0.9974
0.9982
0.9981
0.99869 .
0.99865
0.99906
0.99903
0.99934
0.99931
0.99952 0.99953
0.99966 0.99968
0.99978
0.99977
0.99984 0.99985
0.99990
0.99989
0.99993 0.99993
0.99995
0.99995
0.999968329
0.999996602
0.999999713
0.999999981
0.999999999
0.02
0.03
0.04
0.05
0.06
0.07
0.08
0.09
0.5080
0.5478
0.5871
0.6255
0.6628
0.6985
0.7324
0.7642
0.7939
0.8212
0.8461
0.8686
0.8888
0.9066
0.9222
0.9357
0.9474
0.9573
0.9656
0.9726
0.9783
0.9830
0.9868
0.9898
0.9922
0.9941
0.9956
0.9967
0.9976
0.9982
0.99874
0.99910
0.99936
0.99955
0.99969
0.99978
0.99985
0.99990
0.99993
0.99996
0.5120
0.5517
0.5910
0.6293
0.6664
0.7019
0.7357
0.7673
0.7967
0.8238
0.8485
0.8708
0.8907
0.9082
0.9236
0.9370
0.9484
0.9582
0.9664
0.9732
0.9788
0.9834
0.9871
0.9901
0.9925
0.9943
0.9957
0.9968
0.9977
0.9983
0.99878
0.99913
0.99938
0.99957
0.99970
0.99979
0.99986
0.99990
0.99994
0.99996
0.5160
0.5557
0.5948
0.6331
0.6700
0.7054
0.7389
0.7704
0.7995
0.8264
0.8508
0.8729
0.8925
0.9099
0.9251
0.9382
0.9495
0.9591
0.9671
0.9738
0.9793
0.9838
0.9875
0.9904
0.9927
0.9945
0.9959
0.9969
0.9977
0.9984
0.99882
0.99916
0.99940
0.99958
0.99971
0.99980
0.99986
0.99991
0.99994
0.99996
0.5199
0.5596
0.5.987
0.6368
0.6736
0.7088
0.7422
0.7734
0.8023
0.8289
0.8531
0.8749
0.8944
0.9115
0.9265
0.9394
0.9505
0.9599
0.9678
0.9744
0.9798
0.9842
0.9878
0.9906
0.9929
0.9946
0.9960
0.9970
0.9978
0.9984
0.99886
0.99918
0.99942
0.99960
0.99972
0.99981
0.99987
0.99991
0.99994
0.99996
0.5239
0.5636
0.6026
0.6406
0.6772
0.7123
0.7454
0.7764
0.8051
0.8315
0.8554
0.8770
0.8962
0.9131
0.9279
0.9406
0.9515
0.9608
0.9686
0.9750
0.9803
0.9846
0.9881
0.9909
0.9931
0.9948
0.9961
0.9971
0.9979
0.9985
0.99889
0.99921
0.99944
0.99961
0.99973
0.99981
0.99987
0.99992
0.99994
0.99996
0.5279
0.5675
0.6064
0.6443
0.6808
0.7157
0.7486
0.7794
0.8078
0.8340
0.8577
0.8790
0.8980
0.9147
0.9292
0.9418
0.9525
0.9616
0.9693
0.9756
0.9808
0.9850
0.9884
0.9911
0.9932
0.9949
0.9962
0.9972
0.9979
0.9985
0.99893
0.99924
0.99946
0.99962
0.99974
0.99982
0.99988
0.99992
0.99995
0.99996
0.5319
0.5714
0.6103
0.6480
0.6844
0.7190
0.7518
0.7823
0.8106
0.8365
0.8599
0.8810
0.8997
0.9162
0.9306
0.9429
0.9535
0.9625
0.9699
0.9761
0.9812
0.9854
0.9887
0.9913
0.9934
0.9951
0.9963 .
0.9973
0.9980
0.9986
0.99897
0.99926
0.99948
0.99964
0.99975
0.99983
0.99988
0.99992
0.99995
0.99997
0.5359
0.5753
0.6141
0.6517
0.6879
0.7224
0.7549
0.7852
0.8133
0.8389
0.8621
0.8830
0.9015 .
0.9177
0.9319
0.9441
0.9545
0.9633
0.9706
0.9767
0.9817
0.9857
0.9890
0.9916
0.9936
0.9952
0.9964
0.9974
0.9981
0.9986
0.99900
0.99929
0.99950
0.99965
0.99976
0.99983
0.99989
0.99992
0.99995
0.99997
i'
ESTE LIBRO A SU ~?
Material de calidad para elegir: Ademils de los libros listados, tambien tiene Ia opci6n de incluir cualquiera de los casos de Prentice Hall Custom Business Resources, que le da acceso a
los casos (y notas de ensefianza en ocasiones disponibles) de Darden, Harvard, Ivey, NACRA y
Thunderbird. La mayoria de los casos pueden revisarse en nuestro sitio Web.
Fle:rlbilidad: Elija Unicamente el material que desea, ya sea de un solo titulo o de varios (mas
los casos) y organice la secuencia que requiere.
Apoyo instruccional: Usted tiene acceso directo al texto especifico del CD-ROM que acompafia a este libro, asi como copias de escritorio de su libro m (Just-In-Time).
Materiales externos: Tambien cuenta con Ia opci6n de incluir basta 20% del texto proveniente de libros y materiales ajenos a Prentice Hall Custom Business Resources.
Ahorros en costos: Los estudiantes pagan solo por el material que usted elija. El precio base
es de USD $6.00, mas $2.00 para material de casos, mas $.09 por pagina. El texto puede reunirse con otros libros de texto de Pearson para obtener un descuento del 10%. El material extemo
tiene un precio de $.1 0 por pagina mas las tarifas por permisos.
CaUdad del producto final: La portada del libro, asi como Ia pagina del titulo incluiriln su
nombre, .escuela, departamento, nombre de Ia materia y nUm.ero de secci6n. El libro quedaril
unpreso en blanco y 'negro, y p~rfectamente encuademado. La tabla de contenidos estara becha
a la medida. El nUm.ero de paginas seguira una secuencia a lo largo del texto.
Vlsite nuestro sitio Web en www.prenhali.com/custombusiness y cree su texto a Ia medida
en nuestro "bookbuildsite" o descargue las formas para ordenar por Internet.
.~
---- - ~..,
ESTADfSTICA
::_: PARA ADMINISTRACI6N
I!
'
- ~~~
-~
'
r ,.
..
'1
i.
t:
. '
:_
' -~ . .
________,
DAVID M. LEVINE
Departamento de Estadistica y Sistemas de Informacion Computacionales
Zicklin School ofBusiness, Baruch College, City University ofNew York
TIMOTHY
C. KREHBIEL
MARK L. BERENSON
Departamento de Ciencias de Ia Informacion y Decision
School ofBusiness, Montclair State University
Traduccion:
----PEARSON
Educa<.'i6n
[-:5 l6
~'\rr=
\\ j l _ _
1)
,~
'
PJRlENJl.~C[E
rnJAll.
o
o
o
o
PRODUCCION/ADMINISTRACION DE OPERACION
o
o
o
o
o
o
o
o
o
o
0
o
o
o
o
o
o
Justo a Tie.mpo
o
o
Para mayor informacion, o para hablar con un representante del servicio a la medida,
llame al 1-800-777-6872.
www.prenhall.com/custombusiness
*La selecci6n de titulos del programajusto a tiempo (m) esta sujeto a cambios
CONTENIDO BREVE
Prefacio xxiii
1
INTRODUCCI6N Y RECOLECCI6N DE DATOS 1
2
PRESENTACI6N DE DATOS EN TABLAS Y GRAFICAS 21
3
MEDIDAS NUMERICAS DESCRIPTIVAS 71
4
PROBABILIDAD BAsiCA 121
5
ALGUNAS IMPORTANTES DISTRIBUCIONES DE PROBABILIDAD DISCRETA 153
6
LA DISTRIBUCI6N NORMAL 177
7
DISTRIBUCIONES MUESTRALES 205
8
ESTIMACI6N DE INTERVALOS DE CONFIANZA 237
9
FUNDAMENTOS DE LA PRUEBA DE HIP6TESIS: PRUEBAS DE UNA MUESTRA 271
10
PRUEBAS DE DOS MUESTRAS Y ANOVA DE UNA VIA 311
11
PRUEBAS DE CHI CUADRADA 377
12
REGRES16N LINEAL SIMPLE 409
13
REGRESI6N MULTIPLE 465
14 APLICACIONES ESTADfSTICAS EN ADMINISTRACI6N DE LA CALIDAD
Y PRODUCTIVIDAD 505
Apendices A - G 537
Soluciones a los autoexamenes y respuestas a problemas pares seleccionados
fndice 615
589
xi
--
CONTENIDO
Prefacio xxiii
1.1
1.2
1.3
1.4
Recoleccion de datosh 7
ldentificaci6n de las fuentes de datos 7
Tipos de datos 8
Resumen 9
Conceptos clave 10
Problemas de repaso 11
lntroduccion a los casos Web 11
A.1 lntroduccion del uso de los programas estadisticos 12
Al.l Uso de Windows 12
Al.2 Introducci6n a Excel 13
Al.3 Introducci6n a Minitab 17
Al.4 (Tema CD-ROM) lntroducci6n a SPSS
1.5
21
22
22
Tabla de resumen 22
Gnifica de barras
23
Gnifica de pastel
24
Piagrama de Pareto
2.2
25
30
2.3
29
30
32
32
Distribuci6n de frecuencias
relativa~. y
Distribuci6n acumulativa
35
distribuci6n de porcentajes
34
Histograma 37
Poligono
38
40
xiii
xiv
Contenido
2.4
45
2.5
Diagrama de dispersi6n
Series de tiempo
2.6
47
48
71
73
La mediana
Lamoda
76
Cuartiles
77
75
La media geometrica
Rango
79
80
81
Rango intercuartil
72
82
85
86
88
88
3.2
La media poblacional
94
97
99
3.4
99
I 00
95
96
La regia de Chebyshev
3.3
89
103
Coeficiente de correlaci6n
105
103
89
72
Contenido
3.5
109
Aspectos eticos 11 0
Resumen 110
Conceptos clave 111
Problemas de repaso 112
Caso actual: Administraci6n del Springville Herald 118
122
124
125
125
127
4.2
118
128
131
133
lndependencia estadistica
Reglas de multiplicaci6n
134
136
4.3
Teorema de bayes
4.4
Reglas de conteo
4.5
139
143
137
151
DISCRETA
153
155
5.2
5.3
Distribuci6n de Poisson
Res"men 171
166
156
XV
xvi
~:
Contenido
j.,'
i '
A.5
I (
I '
. I
!i;
,I
I~ !
j
.II'
.. I
',I,
'
6.2
6.3
178
178
DISTRIBUCIONES MUESTRALES
205
7.2
7.3
7.4
7.5
J._..
Contenido
8.2
244
8.3
8.4
8~5
274
9.2
278
281
xvii
---- --,_
xviii
Contenido
9.3
286
287
290
297
301
10
311
312
313
318
322
332
356
336
Contenido
xix
Resumen 361
Conceptos clave 363
Problemas de repaso 363
Caso actual: Administracion del Springville Herald 369
Caso Web 370
A.10 Uso del software para pruebas de dos muestras y ANOVA de una via 371
AlO.l Excel 371
A10.2 Minitab 373
Al0.3 (Tema del CD-ROM) SPSS
11
389
12
409
410
410
421
XX
- --
- -- -- --
Contenido
438
440
441
442
12.8 Estimacion de los valores de Ia media y prediccion de los valores individuales 445
La estimaci6n del intervalo de confianza
El intervalo de predicci6n
445
447
13
REGRESI6N MULTIPLE
465
467
4 72
473
478
480
484
492
Contenido
A 13.2 Minitab
503
506
509
509
520
521
La gnifica X 523
Resumen 527
Conceptos clave 528
Problemas de repaso 528
Caso actual: Administracion del Springville Herald 533
A.14 Uso de software para las graficas de control 535
Al4.1 Excel 535
Al4.2 Minitab 535
Al4.3 (Tema de CD-ROM) SPSS
APENDICES
537
A.
538
540
B.
Notacion de sumatoria
c.
D.
E.
Tablas
F.
G.
544
549
574
576
615
589
512
518
xxi
!i ____________________________
PREFACIO
_ _______________
Filosoffa educacional
Durante muchos aiios de ensefiar estadistica a estudiantes de adnrinistraci6n, continuamente hemos
buscado fonnas para mejorar estos cursos. Nuestra activa participaci6n en las series "Haciendo la
estadistica mas efectiva en las escuelas y en la administraci6n" en el Instituto de Ciencias de la Decisi6n y en las conferencias de la American Statistical Association, asi como la oportunidad de atender a un diversificado grupo de estudiantes en las grandes universidades, ha moldeado nuestra visi6n
de la ensefianza de estos cursos. A lo largo de los aiios, nuestra visi6n ha llegado a incluir estos principios clave:
1.
2.
3.
4.
Cada capitulo en este texto ha pasado por una revisi6n mayor y ahora se utiliza un estilo de escritura mas activo y conversacional que los estudi~tes apreciaran. Las oraciones se han acortado y simplificado.
El texto se enfoca ahora mas en aquellos temas que se cubren de forma caracteristica en un
primer curso. La cobertura de la regresi6n multiple se redujo y se elimin6 el pron6stico de las
series de tiempo.
xxiii
__j
xxiv
Prefacio
En el texto se incluyen ahora muchos mas ejemplos de la vida cotidiana. Tales ejemplos incluyen aquellos acerca de las compras on line (capitulo 2), el tiempo para estar listo en la maflana (c~;tpitulo 3), y el tiempo de espera en un restaurante de comida rapida (capitulo 9).
Hemos simplificado muchos problemas para que no contengan masde cuatro partes.
Se incluyen f6rmulas importantes al final de cada capitulo.
AI final del texto se proporcionan las soluciones a las preguntas de los autoexamenes.
Se incluye un mapa para seleccionar el metodo estadistico adecuado al inicio del texto para
ayudar a los estudiantes a seleccionar la tecnica apropiada y para realizar conexiones entre los
temas.
Se han agregado a este texto muchos ejemplos y ejercicios nuevos tornados de The Wall Street
Journal, USA Today y Consumer Reports, asi como de otras fuentes.
En casi todos los capitulos se incluye al final un caso web. AI visitar sitios Web relacionados
con las empresas e investigar los temas que surgen del escenario "Uso de la estadistica" al inicio de cada capitulo, los estudiantes aprenden a identificar el mal uso que se le da a la informaci6n estadistica. Los casos Web requieren que los estudiantes examinen cuidadosamente
las a~aciones y la informaci6n variada para descubrir que datos son los mas relevantes para el caso. Los alumnos entonces debenin determinar si los datos apoyan las conclusiones y
afirmaciones. (En el Manual de soluciones para el instructor se incluyen algunos consejos para usar los casos Web.)
81
2'
I
3:
Data
4 Sample Standard Deviation
5 Sample Mean
6 Sample Size
7 Confidence level
a:
28.95
110.27
. 100
95%
g,
Intermediate Calculations
10 Standard Error of the Mean
11 Degrees of Freedom
12 t Value
13 Interval Half Width
14
Confidence lntental
15
16 Interval lower Limit
17 Interval Upper limit
2.8950
99
BUSQRT(B8)
B6 -1
1.9842
5.7443
TINV(1-B7,B11)
B12* B10
1114.53
116.01
B5 -B13
B5+ B13
Muchas de las hojas de trabajo estandar de Excel examinadas en los apendices Excel estan incluidas como ilustraciones dentro de los capitulos. Cada ilustraci6n (vease el ejemplo de arriba) incluye un listado de todas las f6rmulas de celda contenidas en la hoja de trabajo. (Los
usuarios de PHStat2 tambien encontraran informativas estas ilustraciones ya que son consistentes con las hojas de trabajo que el PHStat2 genera.)
Con este texto se incluye gratis una versi6n actualizada de PHStat2: PHStat2 versi6n 2.5, la
versi6n mas nueva de agregados de Prentice Hall para Excel. Esta versi6n actualizada incluye
elementos como la regresi6n mUltiple con variables independientes en columnas no contiguas, diagramas de tallo y hojas y graficas de caja y bigote mejorados, la prueba Z para la
diferencia de dos medias, la prueba de Levene para la homogeneidad de la varianza y el
procedimiento de Marascuilo de multiples comparaciones para proporciones. (Encontrara
apoyo para ~1 uso de PHStat2, incluyendo ac!Ualizaciones gratis cuando esten ~isponibles, en
www.prenhall.com/phstat.)
---
-------
- ----- -
- -- - . -
Prefacio
XXV
Uso Minitab, version 14, lamas reciente del software estadfstico de Minitab. Todos los resultados y todos los apendices de Minitab en este texto provienen de esa version, la ultima del
software estadistico de Minitab.
Caracteristicas distintivas
Hemos dado continuidad a muchos elementos tradicionales de ediciones anteriores. Hemos resaltado algunas de las siguientes caracteristicas:
Escenarios de negocios "Uso de Ia estadistica" Cada capitulo inicia con un ejemplo del
"Uso de la estadistica", que muestra c6mo Ia estadistica se utiliza en la contabilidad, las finanzas, la administraci6n o el marketing. Cada escenario se usa a lo largo del capitulo para ofrecer un contexto aplicado para los conceptos.
..
,.
,,
xxvi
Prefacio
USC DE LA ESTADfSTICA
Comparaci6n de los rendimientos
de los fondos de inversion
Entre las muchas opciones de inversi6n disponibles en Ia actualidad, una
elecci6n com\m para quienes piensan en su retiro son los fondos de inversi6n. Si usted decide invertir en fondos de inversi6n su cuenta de retiro, Lque
haria para bacer una elecci6n razonable de entre todos los fondos disponibles hoy?
Primero deberia conocer las diferentes categorias de los fondos de inversi6n. Deberia conocer las estrategias de los profesionales que administran los fondos. Llnvierten en valores de alto riesgo o hacen elecciones nuls
conservadoras? LEI fonda se especializa en tm deterrninado tama.llo de compaffia, uno cuya reserva principal totaliza un gran eapital o tmo de capital reducido? LCobra el fondo comisiones por administraci6n que reducen el porcentaje de utilidad del inversionista? Y, por supuesto, deberia conocer que
tan bien el fonda ba manejado las inversiones en el pasado.
Todos estos son datos que debe revisar cuando considere varias posibi
lidades de invertir en fondos de inversi6n. LC6mo "poner manos a Ia obra"
con estos datos y cxplorarlos de manera exbaustiva?
Enfasis en el anaiisis de datos e interpretacion de los resultados en computadora. Creemos que el uso del software es una parte integral del aprendizaje de la estadistica. Nuestro enfoque destaca el analisis de datos interpretando los resultados de Excel y Minitab, al mismo
tiempo que reduce el enfasis en hacer calculos. Por esa razon, hemos incluido mas resultados
de computadora y los hemos integrado al texto. Por ejemplo, en las tab las y graficas del capitulo 2, el enfoque es en la interpretacion, no en su construccion manual. En nuestra exposicion
de la prueba de hipotesis del capitulo 9 basta el II, se inciuyen de forma extensa los resultados de computadora para que el enfasis se ponga en el metoda del valor-p. En nuestra explicacion de Ia regresion lineal simple del capitulo 12, suponemos que se utiliza Excel o Minitab.
Asi que el enfasis esta en Ia interpretacion del resultado y no en los calculos manuales.
Auxiliares pedagogicos. Se incluyen en cada capitulo, con un estilo de escritura sencillo,
cuadros de ecuaciones numeradas, una serie de ejemplos para reforzar los conceptos aprendidos, problemas divididos en Aprendizaje basico y Aplicacion de conceptos, asi como conceptos clave.
Apendices al final del capitulo. Usando Excel y la version 14 de Minitab con ilustraciones,
se incluyen instrucciones f~ciles de seguir. Las instrucciones para PHStat2 se incluyen en el
apendice G. Los apendices SPSS se incluyen en el CD-ROM que acompafia este texto.
Respuestas. Se incluyen las respuestas para la mayoria de los ejercicios pares al fmal dellibro.
PHStat2. En el CD-ROM para estudiantes se incluye un programa complementario para Excel
que incrementa sus capacidades estadisticas y ejecuta para usted el menu de seleccion de bajo
nivel y las entradas de las tareas de hojas de trabajo asociadas con la realizacion de los analisis estadisticos en Excel. AI combinarlo con el Data Analysis ToolPak de Excel, se pueden
ilustrar virtualmente todos los metodos estadisticos enseil.ados en un curso de introduccion a
Ia estadistica utilizando Excel.
Estudios de caso y proyectos en equipo. Se incluyen estudios de caso detallados al fmal de
varios capitulos. El caso del Springville Herald se incluye al fmal de practicamente todos los
capitulos como tema integrador. AI fmal de muchos capitulos se incluye un Proyecto en equipo relacionado con los fondos de inversion como tema integrador.
Exploraciones visuales. Se incluye gratuitamente con este texto un libro de trabajo de Excel,
que permite a los estudiantes explorar de forma interactiva conceptos importantes en estadistica descriptiva, probabilidad, distribucion normal y analisis de regresion. Por ejemplo, en Ia
estadistica descriptiva, los estudiantes observan el efecto que tiene el cambia de datos en
la media, mediana, cuartiles y desviacion estandar. En las distribuciones muestrales, los estudiantes utilizan Ia simulacion para explorar el efecto del tamafio de Ia muestra en Ia distribucion muestral. Con Ia distribucion normal, los estudiantes logran ver el efecto que tienen los
cambios en Ia media y Ia desviacion estandar sobre las areas bajo Ia curva normal. En el analisis de regresi6n, los alumnos tienen Ia oportunidad de ajustar una linea y observar como
cambia la pendiente y como Ia intersecci6n afecta el ajuste. (Exploraciones visuales requiere
la instalaci6n del sistema de seguridad Medio de Excel.)
Prefacio
xxvii
Paquete complementario
El paquete complementario que acompaiia este texto incluye el siguiente material:
Manual de soluciones para el instructor. Este manual incluye recomendaciones de enseilanza para cada capitulo, detalles extra para la solucion de problemas y muchas soluciones para
Excel y Minitab.
Manual de soluciones para el estudiante. Este manual proporciona soluciones detalladas
para practicamente todos los ejercicios pares.
Archivo de reactivos de examen. El archive de reactivos de examen contiene preguntas de
cierto/falso, de opcion mUltiple, llenado y solucion de problemas con base en las defmiciones,
conceptos e ideas desarrollados en cada capitulo del texto.
Software de examenes TestGen. Este banco de examenes impreso esti diseilado para utilizarse con el software generador de examenes TestGen. Este paquete computarizado permite a
los instructores diseilar, guardar y generar examenes para el sal6n de clases. El programa permite a los maestros editar, aumentar o borrar las preguntas del banco de examenes; editar las
graficas existentes y crear nuevas; analizar los resultados de los examenes, y organizar una
base de datos de las ptuebas y de los resultados de los alumnos. Este software permite una mayor flexibilidad y es facil de utilizar. Ofrece muchas opciones para organizar y presentar las
pruebas, junto con una caracteristica de buscar y seleccionar. El programa esti disponible tanto en el CD-ROM del instructor como en el catilogo on line de Prentice Hall para su descarga.
Centro de recursos para el instructor. Este centro de recursos para el instructor contiene los
archives electronicos completes para el Manual de soluciones del instructor (en Word), el Archive de reactivos de exam en (en Word), el Archive computarizado de reactivos de examen
(Word), TestGen, y presentaciones en PowerPoint.
Herramientas administrativas para el curso y tareas
Prentice Hall's OneKey. Ofrece los mejores recursos de enseilanza y aprendizaje en un solo lugl!I. Todo lo que usted necesita para planear y administrar su curso lo encontrara en OneKey para Estadistica en Ia administracion, Un primer curso, 4a. edicion, y es todo lo que sus alumnos
necesitan para tener acceso a los materiales de su curse en cualquier memento y desde cualquier
Iugar. La compilaci6n de recursos esti convenientemente organizada siguiendo los capitulos del
libro de texto e incluye: vinculos a examenes, presentaciones en PowerPoint, archives de datos,
vinculos a los casos Web, descarga de PHStat2, Descarga de Exploraciones visuales, Manual de
soluciones para el estudiante, asi como recursos instruccionales adicionales.
WebCT y Pizarr6n. Con la instalacion local de alg6n curse de sistema de administracion.
Prentice Hall brinda contenidos diseilados especificamente para este libro de texto con el fm
de crear un juego complete para el curse, integrado estrechamente con las herramientas del
sistema de administraci6n del curso.
PH Grade Assist. Este sistema on line de tareas y evaluacion permite al instructor asignar
problemas para que los estudiantes practiquen y resuelvan tareas o examenes. Los problemas,
tornados directamente del texto, son generados algoritmicamente, para que cada estudiante reciba un problema ligeramente diferente con una respuesta distinta. Esta caracteristica permite
al alumna realizar intentos mUltiples para adquirir mas practica y mejorar su competencia. El
PH Grade Assist califica los resultados y los traslada a las hojas de trabajo de Excel.
Sitio Web acompaiiante. Este sitio contiene:
Una guia de estudio en linea con preguntas de cierto/falso, de opcion mUltiple y de ensayo,
diseiladas para probar la comprensi6n del alumna en los temas del capitulo.
Archives con presentaciones en PowerPoint con lo mas importante del capitulo y sus
correspondientes formulas.
Archives de datos de los alumnos para los problemas del texto en Excel, Minitab y SPSS.
Versi6n Minitab para el estudiante. Por un costo adicional razonable, se puede incluir una
versi6n para el alumna de Minitab Version 14. Por favor, pongase en contacto con su representante de ventas de Prentice Hall para informacion sobre como hacer un pedido.
Versi6n SPSS para el alumno. Por un costo adicional razonable, se puede incluir una version
del SPSS 12 con este texto. Por favor, p6ngase en .contacto con su representante de ventas de
Prentice Hall para informacion sobre como hacer un pedido.
Sitio Web del texto. Este texto tiene una pagina en la World Wide Web en www.prenhall.
com/levine. Este sitio ofrece muchos de los recursos tanto para maestros como para alumnos.
PHStat2 tiene una pagina en la World Wide Web en www.prenhall.com/phstat.
"""
xxviii
Prefacio
Es posible encontrar una pagina indice para el material de apoyo para todos los casas Web
incluidos en este texto en www.prenhall.com/Springville/Springvillecc.htm.
Agradecimientos
I
, I
Estamos especialmente agradecidos con muchas organizaciones y empresas que nos permitieron utilizar sus datos para desarrollar problemas y ejemplos a lo largo del texto. Quisieramos agradecer a
The New York Times, Consumer Union (editores de Consumer Reports), Mergent's Investor Service
(editores de Mergent's Handbook of Common Stocks) y CEEPress.
Ademas, quisieramos dar las gracias a Biometrika Trustees, American Cyanimid CompaJ?.y,
Rand Corporation y la American Society for Testing and Materials (por su amable permiso para publicar varias tablas en el apendice E), asi como a la American Statistical Association (por su permiso para publicar diagramas de American Statician).
Comentarios finales
Hemos llegado lejos para hacer este texto solido desde el punta de vista pedagogico y libre de errores. Si tiene cualquier sugerencia o requiere de alguna aclaracion sobre el material, o si encuentra alglin
error, por favor envie un mensaje a David_Levine@BARUCH.CUNY.EDU o KREHBITC@MUOIDO.EDU. Incluya la frase BSFC-version 4 en el espacio de Asunto de su correo electr6nico. Para mayor informacion acerca del uso de PHStat2, vease los apendices F y G, y el archivo de
lectura PHStat2 en el CD-ROM que acompafia este libra.
David M. Levine
Timothy C Krehbiel
Mark L Berenson
CAPITULO
CONCEPTOS BASICOS DE LA
ESTADrSTICA
1.2
EL CRECIMIENTO DE LA ESTADrSTICA
Y LAS TECNOLOGrAS DE LA
INFORMACION
1.3
1.4
RECOLECCI6N DE DATOS
Identificaci6n de las fuentes de datos
1.5
TIPOS DE DATOS
A.1
OBJETIVOS DE APRENDIZAJE
En este capitulo, aprendecl:
C6mo se usa la estadistica en los negocios
Cwil~s son las bases de datos que se utilizan en los negocios
Los tipos de datos usados en negocios
uso
DE LA ESTADfSTICA
Good Tunes-Parte I
Good Tunes es un comerciante minorista en linea de sistemas de entretenimiento, que busca expandir su negocio abriendo varias tiendas. Para obtener
el fmanciamiento que garantice su expansion, Good Tunes requiere solicitar
prestamos a los bancos locales. Los administradores de Ia firma acuerdan reillizar una presentaci6n con diapositivas que expliquen su negocio y muestren
su situacion real para convencer a los banqueros de prestarles el dinero que
necesitan. A usted se le pide que ayude en el proceso de preparacion de las
diapositivas. ,Que hechos incluiria? l,Como los presentaria?
II
odos los dias usted hace acopio de noticias e informacion que le sirven de guia en su vida. Asi,
escuchar el reporte meteorol6gico le ayudani a decidir que ropa usar, y si vive en una ciudad
grande tal vez deba escuchar el reporte vial que le indique Ia mejor rota para llegar al trabajo o a Ia
escuela.
Sus gustos personates, asi como las cosas que no le agradan, tambien rigen algunas de sus decisiones. A pesar de las criticas negativas que escucha acerca de alguna pelicula, tal vez decida verla
solo por Ia admiraci6n que siente hacia cierto actor.
De igual forma, los administradores de empresas deben tomar decisiones todos los dias. Aunque en ocasiones evidencian sus "impulses viscerales" al tomar decisiones (lo que se conoce formalmente como toma de decision no estructurada), Ia mayoria de las veces deciden a partir de hechos
concretes. Como estudiante de negocios, usted no debe tomar decisiones no estructuradas, ya que
estas requieren de intuicion y discemirniento que se desarrollan tras muchos afios de experiencia.
Sin embargo, puede aprender procedirnientos y metodos que le ayudaran a tomar mejores decisiones
basadas en hechos concretes. Cuando comience a farniliarizarse con los procedirnientos y metodos
irnplicados en Ia recoleccion, Ia presentacion y Ia elaboracion de resfunenes de un conjunto de datos,
o a obtener conclusiones acerca de tales datos, entonces habra descubierto Ia estadistica.
En el escenario de Good Tunes, usted debe partir de Ia suposicion razonable de que los banqueros buscan tomar decisiones basadas en hechos concretos que usted presentara, y no en otros factores, tales como antojos, gustos o aversiones personales. Presentar informacion. erronea o aun
correcta pero de forma inadecuada, podria llevar a los banqueros a tomar decisiones administrativas
equivocadas, lo cual pondria en riesgo el futuro de Good Tunes. Usted necesita saber de estadistica
para presentar los hechos necesarios, y para aprender estadistica lo primero que debe conocer son
sus conceptos basicos.
1.1
VARIABLES
Ejemplos de variables son el genero al que usted pertenece, su especialidad o campo de estudio,
la cantidad de dinero que tiene en su cartera y el tiempo que le toma alistarse por la manana para ir
a Ia escuela. El aspecto esencial de Ia palabra variable es Ia idea de que las cosas difieren y las personas tambien. Tal vez la persona que esta sentada a su lado sea hombre, qui.za se este especializando en algUn. campo de estudio totalmente diferente del suyo, de seguro tendra una cantidad diferente de dinero en su cartera y sin duda ocupara una cantidad de tiempo diferente al suyo para alistarse
e ir al trabajo cada manana. Se debe distinguir entre una variable, como el genero, y su valor para
una observaci6n individual (por ejemplo, "masculino").
Todas las variables deben tener una definicion operacional, es decir, un significado universalmente aceptado que sea claro para todos aquellos que esten relacionados con el analisis. La falta de
definiciones operacionales genera confusion. Un ejemplo notable de confusion que ilustra la importancia de las definiciones operacionales es el de las elecciones presidenciales del ano 2000 en Estados Unidos y las boletas electorales del estado de Florida que estuvieron en disputa (Jackie Calmes
y Edward P. Foldessy, "In Election Review, Bus Wins with No Supreme Court Help", The Wall
Street Journal, 12 de noviembre de 2001, A1, A14). Con la ayuda del National Opinion Research
Center de la Universidad de Chicago, se llev6 a cabo una revision de 175,010 boletas que fueron rechazadas porque no registraban votos presidenciales, o bien, porque contenian votos a favor de dos
o mas candidatos. Se utilizaron nueve estandares o definiciones operacionales para evaluar las boletas. Estos nueve estandares generaron diferentes resultados. Tres de los estandares (incluido uno
propuesto por AI Gore) llevaron a George Bush a tener margenes de victoria que iban de 225 a 493
votos. Seis de los estandares (incluido uno propuesto por George Bush) llevaron a AI Gore a tener
margenes de victoria que iban de 42 a 171 votos.
POBLACION
La poblacion consiste en todos los miembros de un grupo acerca de los cuales se desea obtener
~onclusion.
MUESTRA
Una muestra es una parte de Ia poblaci6n seleccionada para analisis.
PARAMETRO
1
I ESTADfSTICO
! Un estad.fstico es Ia medida nunierica que describe alguna caracteristica de Ia muestra.
Ahora que se han definido las variables, usted necesita comprender el significado de conceptos
como poblaci6n, muestra, parametro y estadistico.
Ejemplos de poblaciones son todos los estudiantes de tiempo completo de una universidad,
todos los votantes registrados en la ciudad de Nueva York, y la gente que fue de compras al centro
comercial de alguna ciudad el pasado fm de semana. Las muestras podrian seleccionarse a partir de
cada una de esas tres poblaciones. Los ejemplos incluyen 10 alumnos de tiempo completo seleccionados para participar en una investigaci6n, 500 votantes registrados en Nueva York con los que se
entablo comunicacion via telefonica para realizar una encuesta politica, y 30 compradores del centro comercial encuestados sobre el grado de satisfacci6n del consumidor. En cada caso, la gente de
la muestra representa una porcion o subconjunto de la gente comprendida eilla poblaci6n.
La cantidad promedio que gasto la gente que fue de compras al centro comercial el fm de semana pasado es un parametro. Se requiere informacion de todos los compradores para calcular este
parametro. La cantidad promedio que gastaron los 30 compradores que respondieron ala encuesta
sobre el grado de satisfaccion del consumidor es un estadistico. La informacio~ de estos 30 compradores se emplea para calcular el estadistico.
La estadistica se divide en dos ramas, ambas aplicables a la adrninistraci6n de negocios:L estadfstica descriptiva se enfoca en la recolecci6n, resumen y presentaci6n de un conjunto de datos. La estadfstica ioferencial utiliza datos de las muestras para obtener conclusiones acerca de cierta poblaci6n.
La estadistica descriptiva tiene sus raices en la necesidad de las grandes organizaciones politicas
y sociales de guardar registros. Por ejemplo, cada decada desde 1790, en Estados Unidos se realiza
un censo que recolecta y resume datos acerca de los ciudadanos. A traves de los aftos, el U.S. Census Bureau ha sido uno de los grupos que ha mejorado los metodos de estadistica descriptiva. Los
fundamentos de la estadistica inferencial se basan en las matematicas de la teoria de la probabilidad.
Los metodos itiferenciales utilizan los datos de la muestra para calcular los estadisticos que proporcionan los estimados de las caracteristicas de una poblaci6n.
En la actualidad, los metodos estadisticos se aplican en diferentes areas de los negocios. La
contabilidad utiliza metodos estadisticos para seleccionar muestras con el prop6sito de auditar y para entender los costos de los conductores en la contabilidad de costos. Las fmanzas usan metodos estadisticos para seleccionar entre altemativas de cuentas de inversi6n y para analizar las mediciones
financieras a traves del tiempo. La administraci6n utiliza metodos estadisticos para mejorar la calidad de los productos manufacturados o los servicios que ofrece una organizaci6n. El marketing emplea metodos estadisticos para estimar el nfunero de consumidores que prefieren un producto sobre
otro y para saber por que lo prefieren, asi como para obtener conclusiones que permitan detelminar
la mejor estrategia de publicidad que incremente las ventas de un producto.
1.2
EL CRECIMIENTO DE LA ESTADfSTICA
Y LAS TECNOLOGfAS DE LA INFORMACION
Durante el siglo pasado, la estadistica jug6 un papel importante al promover el uso de la tecnologia
de la informaci6n y esta, por su parte, contribuy6 a difundir el uso de la estadistica. Al iniciar el siglo XX, la expansi6n de los requerimientos de manejo de datos asociados con el censo federalllev6
directamente al desarrollo de maquinas tabuladoras que fueron las antecesoras de los sistemas computacionales que utilizan los negocios en Ia actualidad. Especialistas como Pearson, Fisher, Gosset,
Neyman, Wald y Tukey establecieron las recnicas de Ia estadistica inferencial modema, en respuesta
a Ia necesidad de analizar grandes conjuntos de datos poblacionales que, ya para entonces, implicaban costos elevados, consumian mucho tiempo y eran dificiles de recopilar. El desarrollo de los primeros sistemas computacionales permiti6 a otros disefiar programas de c6mputo que facilitaran el
calculo y procesamiento de datos impuestos por tales tecnicas. A la vez, esos programas iniciales
permitieron a los responsables de tomar decisiones hacer un mayor uso de los metodos estadisticos;
por otra parte, los recientes avances en la tecnologia de Ia informaci6n ayudaron a difundir el empleo de metodos estadisticos mas complejos.
En la actualidad, cuando escuche acerca de comerciantes minoristas que invierten en "sistemas
de administraci6n de relaciones con el cliente", o en un paquete productor de bienes dedicado al
"data mining" para descubrir las preferencias de los consumidores, se dara cuenta de que las tecnicas estadisticas son como los cimientos de esas aplicaciones de la tecnologia de la informaci6n. Aun
cuando tales aplicaciones pudieran requerir programaci6n a Ia medida, durante muchos aftos los negocios han tenido acceso a paquetes estadfsticos, tales como Minitab y SPSS, que son programas estandarizados para ayudar a los administradores a usar una amplia gama de tecnicas estadisticas para
automatizar el procesamiento y calculo de datos que requieren esas tecnicas. Mientras que en el pasado esos paquetes estaban disponibles s6lo en centros computacionales corporativos, el aumento en
el poder y la conectividad de las computadoras personales ha llevado estos paquetes al escritorio,
donde se han reunido con herramientas familiares como los procesadores de palabras, las hojas de
calculo y los programas de la Web.
Los costos de arrendamiento y capacitaci6n asociados a los paquetes estadisticos han llevado a
muchos a considerar el uso de las funciones de graficos y estadisticos del programa Excel, de Microsoft. Sin embargo, es necesario que sea cuidadoso de las preocupaciones que muchos especialistas
en la materia tienen acerca de que tan completos y precisos son los resultados estadisticos de Excel.
Por desgracia, algunos investigadores han determinado que ciertas herramientas estadisticas del programa contienen fallas que pueden invalidar los resultados, en especial cuando los conjuntos de datos
usados son muy grandes o tienen propiedades estadisticas poco usuales (vea la referencia 3 al fmal
del capitulo). Esta claro que cuando usted utilice Excel, debera ser cuidadoso acerca de los datos y
analisis que maneje. El hecho de que quiza las complicaciones sobrepasen los beneficios de las
atractivas _caracteristicas de Excel es todav~a un enigma sin respuesta para l~s negocios.
-----~--------
---------- -------
1.3
Este texto considera estos cuatro objetivos como principio organizador. La figura 1.1 muestra la
forma en que cada capitulo se relaciona con estos objetivos. Usted explorani los metodos implicados
en la recolecci6n, presentaci6n y descripci6n de informaci6n en lo que resta de este capitulo asi
;2::s~~~15~~2;;;~~:1:n
de decisi6n>;
'i
-~-- ~e-l
r:~;-~-;..~.::~l-~_S_:t <?_b-~t..cig~~~
...~.~ , :::~; '-~~;;-.;; ~:; i " ;;-;.,...~;,.;~
_l:i_'~ ~~d~~-~~~~C~()J~_,s_:::__r J::....:-~,_-~I_'d:~~~-~'?-'_:S. Ilil;~~tg_.:.c:~2):_~ -;_.;:
.:
t -:. -'-"d_e8cripc
- - _'i_ 6n
- - ----- -,
asa as-oen.a-- , -
f . !~~'::?'""
i.~~""r~~~ ~
1
" -~-
i:
I'
lntroducci6n y
recolecci6n
de datos (capftulo 1}
Probabilidad basica
(capftulo 4)
eo =""==--"'-'"--"~r-""''' _, -~,_,,,.
li
.-
i:
e os .procesos -.
~,:
!'.
Aplicaci~nes estadfsticas
en Ia administraci6n de
j: calidad y productividad
r
(capftulo 14)
f::Z: .:.:- -~ ::.-.--;.:-: .:. -- ,:-~-:... . -:.:
,::-~-~-.:.
j:
-li
L--'-==='o='=---""-~~"""'"'~"=-
La distribuci6n normal
(capitulo 6)
1:
b,,,.oc-c.;_c-~-'~'~"--f-=~~~'=""-''-
.f
!;
lII
r
j;
Distribuciones
de muestras
(capitulo 7)
L~::...:.:::::._;;.:~~.:..:.:t ::=.:.~.~
i
!
r.
It
Fundamentos de Ia
prueba de hip6tesis
(capftulos 9-11)
.
~ =..:....--'-=-"=-"-"'"-=-""--=----'
Regresi6n
multiple
(capitulo 13)
~~:~~ --..:..........:.: ~
vari~r:~ ;
Regresi6n
lineal simple
(capftulo 12)
'
Medidas
descriptivas
numericas
(capitulo 3)
pfironb61stidcosl _ "--
:con a es e as
~ Algunas distribuciones
~
importantes de
, probabilidad discreta
[
(capitulo 5)
""-~==.,.--=="'l'=.=;_==c~"'"=
Presentaci6 n
de datos en tablas y
graficas (capftulo 2)
~,~,:===r'-'-~'-'-"-=""==
~)
-~------.,
__......__-:.._;__ ---..:,_;_/
- - ---
---- - - - - -
uso
DE LA ESTADISTICA
Good Tunes-Parte II
Los Pt'opietarios de Good Tunes han decidido apoyar los datos financieros de su solicitud de prestamo, con los datos referentes a las percepciones de los clientes acerca del negocio Good Tunes. Para
ayudar a evaluar estas percepciones, Good Tunes ha pedido a sus clientes responder y devolver una
encuesta, que se incluye en cada pedido, acerca del grado de satisfacci6n con la empresa. La encuesta iricluye las siguientes preguntas:
l,Culintos dfas pasaron desde el momento en que orden6 su mercancia hasta que la recibio?
l,Culinto dinero (en d6lares estadounidenses) espera gastar en equipo electronico y de estereo en los pr6ximos 12 meses? _ _ __
En general, l,c6mo calificaria el servicio que ofrece Good Tunes de acuerdo con su mas reciente compra?
Peor de lo esperado
Mucho mejor de lo esperado
0
0
Mucho peor de lo esperado
Mejor de lo esperado
0
0
Como era de esperarse
0
l,C6mo calificaria la calidad de los articulos que recientemente compr6 en Good Tunes? .
0
Peor de lo esperado
0
Mucho mejor de lo esperado
Mejor de lo esperado
0
Mucho peor de lo esperado
0
Como era de esperarse
0
l,Es probable que compre mercancia adicional a traves de Good Tunes en los pr6ximos 12
meses? Sf 0 No 0
A usted se le pide revisar esta encuesta. l,Que tipo de datos pretende recolectar? l,Qu6 tipo de
informacion es posible generar a partir de los datos obtenidos por la encuesta? l,C6mo puede Good
Tunes usar dicha informacion para mejorar la calidad del servicio y la mercancia? l,C6mo podria
Good Tunes utilizar la informaci6n para aumentar la probabilidad de obtener el prestamo? l,QU:e
otras preguntas sugiere que se incluyan en la encuesta?
1.4
RECOLECCI6N DE DATOS
Administrar un negocio de forma efectiva requiere Ia recolecci6n de los dato~ apropiados. En muchas ocasiones, los datos son medidas que se obtienen de los elementos de-uni muestra, y las muestras se toman de Ia poblaci6n, de tal forma que sean lo mas representativas posible. La tecnica mas
comUn. para asegurar una representaci6n adecuada es usar una muestra aleatoria. (Vea el capitulo 7
para una explicaci6n mas detallada de las tecnicas de muestreo.)
Existen diversas circunstancias que requieren la recoleccion de datos:
Un analista de investigacion de mercados necesita evaluar la efectividad de una nueva campaiia publicitaria en television.
Un productor farmaceutico necesita determinar si un nuevo medicamento es mas efectivo que
los que actualmente se consumen.
Un administrador de operaciones desea monitorear el proceso de producci6n para comprobar si
la calidad de cierto producto satisface los estandares de la compaiiia.
Un auditor desea revisar las transacciones financieras de una empresa para determinar si esta
cumple o no con principios contables aceptables.
Un inversionista potencial desea determinar que fumas industriales tienen mayor probabilidad
de crecer de forma acelerada en un periodo de recuperaci6n economica.
Las fuentes de datos se clasifican en fuentes primarias y fuentes secundarias. Cuando el recolector de datos es quien los usa para el analisis, la fuente es primaria. Cuando una organizacion o
individuo han compilado los datos que utiliza otra organizaci6n o individuo, la fiiente es secundaria.
Las organizaciones e indivi.d uos que recolectan y publican datos, generalmente los utilizan como fuente primaria y despues permiten a otros usarlos como fuente secundaria. Por ejemplo, el gobiemo federal de Estados Unidos recolecta y distribuye datos tanto para propositos publicos como
privados. El Bureau of Labor S~tistics recolecta los datos que emplea y tambien distribuye cada
mes el Consumer Price Index. El Census Bureau supervisa una gran variedad de encuestas actuales
referentes a poblaci6n, vivienda e industria, y lleva a cabo estudios especiales en temas como el crimen, los viajes y el cuidado de la salud.
Las empresas de investigacion de mercado y las asociaciones de comercio tambien distribuyen
datos referentes a industrias o mercados especificos. Los servicios de inversion como Mergent proporcionan datos financieros en una base de compaiiia a compaiiia. Servicios como los de A. C. Nielsen ofrecen a sus clientes datos que permiten la comparaci6n de los productos del cliente con los de
sus competidores. Todos los dias los peri6dicos estan repletos de informacion numerica referente a
los precios de las acciones, las condiciones del clima y estadisticas deportivas.
Como expresamos antes, conducir un experimento es otra fuente importante de recolecci6n de
datos. Por ejemplo, para probar Ia efectividad de un detergente, un experimentador determina que
marcas son mas eficientes para dejar limpia Ia ropa sucia, lavandola directamente, en Iugar de preguntar a los clientes que marca creen que sea mas eficaz. Diseiios experimentales adecuados generalmente son tema de estudio en textos mas avanzados porque a menudo implican procedimientos
estadisticos muy complejos. Sin embargo, consideraremos algunos conceptos fundamentales del diseiio experimental en el capitulo 10. .
Realizar una encuesta es la tercera fuente de datos importante. En ella se pregunta a Ia gente sobre sus creencias, actitudes, comportamientos y otras caracteristicas. Las respuestas posteriormente
se editan, codifican y tabulan para su analisis.
1.5
TIPOS DE DATOS
Los datos son los valores observados de las variables, por ejemplo, las respuestas a una encuesta. Los
especialistas desarrollan encuestas para lidiar con una gran variedad de variables diferentes. Como
se ilustra en la figura 1.2, existen dos tipos de variables: categ6ricas y numericas.
FIGURA 1.2
Tipos de variables.
Tipo de preguntas
Tipo de dato
Categ6rico
=--ooooj~
t
.
~ 0 sere 0 --
Respuestas
Sf D
NoD
Numero
lCuanto mide7
Pulgadas
Numerico ~
Continuo
'~
Las variables categoricas producen respuestas categ6ricas, tales como si o no. Un ejemplo es
Ia respuesta a Ia pregunta "l,Posee actualmente algunas acciones o bonos?", porque se limita a una
resjmesta de si o no. Otro ejemplo es Ia respuesta a Ia pregunta de la encuesta de Good Tunes (presentada en Ia pagina 6) "l,Es probable que compre mercancia adicional a traves de Good Tunes en
los pr6ximos 12 meses?" En ocasiones, las variables categ6ricas tambien generan mas de dos posibles repuestas. Por ejemplo, "l,que dia de la semana es mas probable que coma en un restaurante?".
Las variables numericas producen respuestas tales como la estatura en pulgadas. Otros ejemplos son: "l,cuanto dinero (en d6lares estadounidenses) espera gastar en equipo electr6nico y de estereo en los pr6ximos 12 meses?" (Tornado de Ia encuesta del grado de satisfacci6n del cliente de
Good Tunes), o Ia respuesta a Ia pregunta "l,A cuantas revistas esta suscrito actualmente?" Hay dos
tipos de variables numericas: discretas y continuas.
Las variables discretas producen respuestas numericas que surgen de un proceso de conteo.
"El nfunero de revistas a las que esta suscrito" es un ejemplo de una variable numerica discreta, porque Ia respuesta es una de un nfunero fmito de nfuneros enteros. Una persona se suscribe a cero, una,
dos, 0 mas revistas.
Las variables continuas producen respuestas numericas que surgen de un proceso de medici6n. La estatura es un ejemplo de una variable numerica continua, porque Ia respuesta toma cual- '
quier valor dentro de un continuo o intervalo, dependiendo de Ia precision del instrumento que se
utilice para medir. Por ejemplo, una persona podria medir 67 pulgadas, 67{- pulgadas, 67-fr pulgadas
o 67 580 pulgadas, dependiendo de Ia precision de los instrumentos disponibles.
No hay dos personas que midan exactamente lo mismo y cuanto mas precisos sean los dispositivos de medici6n, mayor sera la probabilidad de detectar las diferencias entre las estaturas. Sin embargo, Ia mayoria de los dispositivos de medici6n no son tan precisos como para detectar pequeiias
diferencias. Por lo tanto, a menudo encontramos observaciones enlazadas a los datos experimentales o de encuesta, aun cuando Ia variable sea verdaderamente continua, y te6riciunente todos los valores de una variable contiriua son diferentes.
-
I
d
c
6
u
p
Resumen
9
-,
~p~~d~i~,~~~~ ~~- .:__~::_: -': ~ __:_______:1.7 -Pam ~ :.,:d., I" 'iguient" Lobi., detennine ,; ~
1.1 Se venden tres diferentes bebidas en un restaurante de cornida nipida: refrescos, te y cafe. Explique por que el tipo de bebida es un ejemplo de variable categ6rica.
1.2 En el restaurante de comida nipida se venden refrescos en
tres tamafios: chico, mediano y grande. Explique por que el tamafio de la bebida es una variable categ6rica.
1.3 Suponga que mide el tiempo que le toma bajar de Internet
un archivo de MP3 .
a. Explique por que el tiempo que le toma bajarlo es una variable numerica.
b. l,Esta variable es discreta o continua?
Aplicaci6n de conceptos
1 AUTO 1.4 Para cada una de las siguientes variables, deterV Examen mine si es categ6rica o numerica. Si la variable es
numerica, determine si es discreta o continua.
a. Nllmero de aparatos telef6nicos por casa.
b. Duraci6n (en minutos) de la llamada de larga distancia mas
prolongada hecha cada mes.
c. Si existe en la casa una linea telef6nica conectada a un m6dem de computadora.
d. Si hay un fax en la casa.
1.5 La siguiente informaci6n Se recolecta de estudiantes que salen de la libreria del campus durante la
primera semana de clases:
Cantidad de tiempo que pasan de compras en Ia libreria.
Nllmero de libros de texto comprados.
Especialidad academica.
Genero.
ASISTENCIA
de PH Grade
a.
b.
c.
d.
Clasifique cada una de estas variables como categ6ricas o numericas. Si la variable es numerica, determine si es discreta o
continua.
a.
b.
, c.
d.
1.6 Para cada una de las siguientes variables, determine si la variable es categ6rica o numerica. Si Ia variable es numerica, indique si es discreta o continua.
Nombre del proveedor de Internet.
Cantidad de tiempo que navega en Internet por semana.
Nllmero de correos electr6nicos recibidos en una semana.
Cantidad de compras hechas en linea durante un mes.
L,
.l-
RESUMEN
ilLS
II-
tas a la segunda pregurita (cantidad de dinero gastado) son continuas. Despues de recolectar los datos, deben organizarse y
prepararse para realizar varios analisis. En los siguientes dos
capitulos se desarrollaran los temas de tablas, grafi.cas y una
gran variedad de medidas numericas que son utiles para analizar los datos.
10
CONCEPTOS CLAVE
Datos 8
Defmici6n operacional 3
Estadistica 2
Estadistica descriptiva 4
Estadistica inferencial 4
Estadistico 3
Fuentes primarias 7
Fuentes secundarias 7
Grupo focal 8
Muestra 3
Paquetes estadisticos 4
Parametro 3
Poblaci6n 3
Variables 3
Variables categ6ricas 8
Variables continuas 8
Variables discretas 8
Variables numericas 8
PROBLEMAS DE REPASO
Revision de su comprensi6n
1.12 l. Cmil es la diferencia entre una muestra y una poblacion?
Aplicaci6n de conceptos
1.18 La Data and Story Library (lib.stat.cmu.edu!DASL) es
una libreria de archivos de datos e historias en linea, que ilustra
el uso de los metodos estadisticos basicos. Las historias estan .
clasificadas por metodo y por tema. Visite este sitio y de clic en
List all topics. Seleccione una historia y elabore un resumen de
c6mo se ha utilizado Ia estadistica en ella.
1.19 Visite el sitio oficial de Microsoft Excel (www.microsoft.
com/office/excel). Explique como cree que sea util el programa
Excel en el campo de la estadistica.
1.20 Visite el sitio oficial de Minitab Web (wWw.minitab.
com). Explique c6mo cree que Minitab resulte util en el campo
de la estadistica.
1.21 Visite el sitio oficial de SPSS (www.spss.com). Explique
como cree que sea util el SPSS en el campo de Ia estadistica.
1.22 La organizacion Gallup pone a disposicion los resultados
de las elecciones en su sitio Web (www.gallup.com). Visitelo y
de clic en algt!n articulo que le interese de Ia seccion "Top Stories".
a. De un ejemplo de una variable categorica que se encuentre
en el articulo.
b. De un ejemplo de una variable numerica encontrada en el
articulo.
-c. La variable que seleccion6 en b), (.es discreta o continua?
1.23 El sitio del u .s. Census Bureau (www.census.gov) contiene la informacion de las encuestas sobre poblaci6n, negocios, geografia y otros temas. Visite el sitio, de clic en Housing,
en la seccion "People". Despues de clic en American Housing
Survey.
a. Describa brevemente el American Housing Survey.
b. De un ejemplo de una variable categorica que haya encontrado en la encuesta.
c. De un ejemplo de una variable numerica que haya encontrado en Ia encuesta.
d. La variable que seleccion6 en c), (.es discreta o continua?
1.24 En el sitio Web del u.s. Census Bureau (www.census.
gov), de clic en Survey of Business Owners en Ia seccion "Business" y lea Ia descripcion The Survey of Business Owners
and Self-Employed Persons (SBO). De clic en SB0-1, en Ia seccion ''Forms and Instructions" para visualizar Ia forma de encuesta usada.
a. De un ejemplo de una variable aleatoria categ6rica encontrada en esta encuesta.
b. De un ejemplo de una variable aleat01ja numerica encontrada en esta encuesta.
c. La variable que selecciono en b), (.es discreta o continua?
1.25 En un reporte basado en un estadistico del Departamento
del Transporte de Estados Unidos u.s., Ia empresa JetBlue fue
la nt1mero 1 en calidad entre todas las lineas aereas de ese pais
en 2003. JetBlue obtuvo el segundo mejor tiempo de desempeiio, al Uegar a tiempo el 86% de las veces. Tambien los clientes
de JetBlue Uenaron menos formatos de quejas que los de todas
las demas lineas aereas, salvo una ("JetBlue calificada como Ia
linea aerea nfunero 1, dice el reporte", USAToday.com, 5 de
abril, 2004).
a. l. Cual o cua.les de los cuatro tipos de fuentes de datos listados en la seccion 1.4 en la pagina 7 cree que se utilizaron en
este estudio?
b. Nombre una variable categ6rica usada en este articulo.
c. Nombre una variable numerica usada en este articulo.
1.26 De acuerdo con una encuesta de Goldman Sachs, s6lo
cerca del 4% de los hogares estadounidenses utilizan los servicios bancarios on line. Una encuesta realizada por Cyber Dialogue investig6 las razones por las que Ia gente abandona el
banco on line despues de intentarlo. A continuaci6n se ofrece
un listado parcial de los resultados obtenidos por la encuesta_
25%
20%
11%
Demasiado costoso
11%
5%
Un administrador de ventas que trabaja con un programa de gnificas "facil de usar", elige una gnifica inapropiada que oscurece las relaciones de los datos.
El editor de un reporte anual presenta la gratica de los
ingresos con un eje Y reducido que crea la falsa impresi6n de que ha habido un gran incremento eil. los ingresos.
Un analista genera estadisticos sin significado acerca
de un conjunto de datos categ6ricos al usar un tipo de
analisis disefiado para datos numericos.
11
12
2. Kirk, R.E., ed., Statistical Issues : A Reader for the Behavioral Sciences (Monterey, CA: Brooks/Cole, 1972).
3. McCullough, B.D. y B. Wilson, "On the accuracy of statistical procedures in Microsoft Excel 97", Computational
Statistics and Data Analysis, 31 (1999), 27-37.
4. Microsoft Excel 2003 (Redmond, WA: Microsoft Corporation, 2002).
Apendice 1
be seleccionar el Archivo en el menu de opciones y posteriormente Ia opci6n Abrir del submenu que aparece.
A1.1
USC DE WINDOWS
Apendice
Hacer clic o seleccionar: Mover el raton sobre un objeto y
presionar el boton primario.
Programas de apertura
Usted puede elegir una de dos formas para abrir directamente
programas como Excel, Minitab o SPSS. Estas formas son:
13
Ventanas de dialogo
Muchas entradas u opciones disponibles para utilizar el programa muestran ventanas adicionales conocidas como ventanas de
dialogo. Las de Excel 2003 permiten abrir o irnprimir un archivo (vea la figuraA1.2), y contienen los siguientes elementos en
comtin:
Bot6n de ayuda con el signo de interrogaci6n: Dar clic
en este boton le permite seleccionar un elemento de la ventana de dialogo y desplegar un mensaje de ayuda en cuanto a su uso.
Cuadro de lista bacia abajo: Al hacer clic en el boton se
despliega bacia abajo una lista de opciones, que aparece en
la esquina derecha de la ventana.
Cuadro de lista: Despliega una lista de opciones. En ocasiones incluye una barra de desplazamiento o guia si la
lista es mas grande de lo que el tamaiio del cuadro podria
mostrar.
Cuadro de texto: Ofrece un espacio para escribir una entrada. En ocasiones estos cuadros se combinan con una lista
bacia abajo o con botones (que se observan en las pagina
de la ventana en la figuraA1.2), con formas alternativas de
especificar una entrada.
Cuadro de exploraci6n: Ofrece una serie de opciones para elegir desde cero, una o mas de una opcion (compare
con los botones de 6pcion).
Iconos: Permiten un acceso directo a otras aplicaciones en
Windows en las que se pueden almacenar los archivos.
Botones de opcion: Muestra un conjunto de elecciones
mutuamente excluyentes en las cuales solo una opcion
puede elegirse a la vez.
Botones de comando: Permite al programa realizar alguna accion que generalmente cierra la ventana de dialogo
actual y muestra una adicional. El bot6n Aceptar hace que
el prograrna acme usando los valores y escenarios en uso
de la ventana de dialogo. El bot6n Cancelar cierra el cuadro de dialogo y cancela la operaci6n asociada con el.
14
Botones para
modificar
el tamar'io
Bot6n de signo
de interrogaci6n
Apendice
cutar metodos estadisticos avanzados. Puede instalar PHStat2
add-in de Prentice Hall (incluido en el CD-ROM que acompaiia a
este texto), el cualle permitir.i extender y reforzar el paquete de
herramientas para analisis de datos que contiene Microsoft. (No
es necesario usar el PHStat2 para emplear Excel con este texto,
aunque al hacerlo simplificara el uso de Excel para realizar los
analisis estadisticos.)
Con Excel es posible crear o abrir y guardar archivos que
se Haman hojas de trabajo. Estos son conjuntos de hojas de
trabajo y objetos relacionados, tales como graficas que contienen datos originales, asi como calculos y resultados asociados
con uno o mas analisis. Por la amplia difusion de Excel, resulta
conveniente usarlo, pero algunos especialistas en estadistica
han manifestado su preocupacion en relacion con el hecho de
que arroja resultados que no son totalmente confiables y precisos para algunos procedimientos estadisticos. Aunque Microsoft ha mejorado muchas de sus funciones estadisticas a partir
de Excel2003, es necesario ser precavidos en su uso para analisis de datos, ademas de los que presenta este texto. (Si piensa
instalar el PHStat2, asegirrese de leer primero el apendice F y el
archivo "Leame" de PHStat2 que aparecen en el CD-ROM incluido.)
15
16
r;: Barras
~ Lineas
(I Circular
hi XY (Pispersi6n)
W. Areas
An~os
*Radial
ttJ Superficie
_!l 6~~s
0 0
...
'I
!,
~~- _ =:I!
''"
....
....
;;:;::===:::.)1
6 li:J
___jj
'0r---------------------~
35~------------------~ -
30~----------------~
25 t-------------------1
20+-----------------~
1
~~= ======================~======
~J 0En~nhojaruva: 6jG=rci=fic,;.;o,;;,l==========='
mlecmo~en:
II c..a~~r
= =-"d _
!=
JH=
oia=l==-=
-=o=
o=
--=-=
0
Il
<aWl
1:-11 ~- ?.>
Ill f:lnill*-
Apendice
17
Tftulos
FIGURA A 1.4 Asistente de graficos. Paso 3,-pestanas de Ia ventana de dialogo.
Despues de guardar el trabajo, considere guardar el archivo una segunda vez, con un nombre diferente, para crear una
copia de respaldo. Los archivos de discos en los que no se escribe, como los del CD-ROM que acompaii.a este texto, no se pueden guardar en sus carpetas originates.
A 1.3
INTRODUCCI6N A MINITAB
-18
:21f5(
Loat. it
lib
era
lot)' A OOCU!8D
.,III d 11!!1
ACCESS.MTW
ODIICALMTW
lolll\JAI.FIN)$
' MAIL.MTW
MOY!Ni.MTW
PEN.MTW
Deolclap
~
/
lot)'DOCU!8D
QJ
lot)'~
M~N-
Fie nome:
~SS.MTW
Fietal~
IMn.or.-;.~
D.=iplion. l
()ptiono...
il
il
Pmiow...
rw-
Open
...
I
I
Concol
c:'Open
Use las barras de desplazamiento, si aparecen, para mostrar la lista completa de archivos.
Seleccione el folder correcto de la lista bacia abajo Buscar
en que aparece en la parte superior de la ventana de dilllogo.
Cambie el valor de Tipo de archivos en la lista bacia abajo en el boton de la ventana de dialogo. Seleccione Archivos de texto de la lista para ver cualquier archivo de texto;
para listar cada archivo del folder, seleccione Todos los
archivos.
Despues de guardar el trabajo, considere guardar el archivo una segunda vez, con un nombre diferente, para crear un respaldo de su trabajo. Los archivos que se abren de discos en los
que no se puede escribir, como el CD-ROM que acompafia este
texto,.no se pueden guardar en sus carpetas originales.
Para guardar un Proyecto de Minitab, seleccione tambien
Archivo ,. Guardar Proyecto como. La ventana de dialogo
de Guardar el Proyecto como incluye el boton Opciones que
muestra una ventana de dialogo en la que se pueden seleccionar
partes del proyecto ademas de las hojas de calculo que guardara.
Apendice
l8J
r. LeftJustfled
(" Centered
/
Title:
Help
OK
Cancel
e
y
e
i0
II
l.
~r
l>S
19
CAPITULO
Presentaci6n de datos
en tablas y graficas
USO DE LA ESTADfSTICA:
2.1
Tabla de resumen
Grafica de barras
Gnifica de pastel
Diagrama de Pareto
2.2
Poligono
Poligono de porcentaje acumulado (ojiva)
Tabla de contingencia
Grafica de barras agrupadas
2.5
Arreglo ordenado
Diagrama de tallo y hojas
2.3
Distribuci6n de frecuencias
Distribuci6n de frecuencias relativas
y distribuci6n de porcentajes
Distribuci6n acumulativa
Histograma
Diagrama de dispersion
Series de tiempo
2.6
A .2
OBJETIVOS DE APRENDIZAJE
En este capftulo, aprendera:
A desarrollar tablas y gnificas para datos categ6ricos
A desarrollar tab las y graficas para datos numericos
.Los principios para presentar graficas de forma adecuada
,.
- --
~------~-- -~-
EJEMPLO 2.1
23
~~~~~-------~-----------~-----
I
I
II
TABLA 2.2
Tabla de resumen de
frecuencia y porcentaje
perteneciente al nivel
fnen~iesgo para 121
~ os de inversion .
Niimero de fondos
Porcentaje de fondos
58
46
17
121
47.93
38.02
14.05
100.00
Bajo
Promedio
Alto
Total
Grafica de barras.
En una grlifica de barras, cada barra muestra una categoria, su longitud representa la cantidad, frecuencia o porcentaje de los valores que caen en cada categoria. La figura 2.1 muestra una grafica de
barras para las razones de comprar regalos en linea durante la temporada festiva, de acuerdo con la
tabla 2.1.
FIGURA 2.1
Grafica de barras
Grafica de barras de
Excel con lasrazones
por las cuales se
compran regalos en
linea durante Ia
temporada festiva .
Velocided
Verleded en Ia selecciOn
Conventencia
:n
Comparaci6n de compra
Ja
la
e.1
la
ad
0%
5%
10%
15%
20 %
25 %
30%
40%
Porcentaje
Las graficas de barras permiten comparar los porcentajes de diferentes categorias. En la figura
2.1 las razones mas comunes para comprar en linea son los gastos de envio gratis y la conveniencia,
seguidos por la comparaci6n de compra. Muy pocos respondieron que compran en linea por su variedad en la seleccion o velocidad.
EJEMPLO 2.2
24
SOLUCI6N
La mayoria de los fondos de inversi6n son de bajo riesgo ode riesgo promedio (104 0 e186%). Muy
pocos de los fondos de inversion son de alto nivel de riesgo (17 o ell4%).
FIGURA 2.2
Grafica de barras de
Excel con los niveles
de riesgo de los
fondos de inversion.
Graftca de barras
Bajo
Alto
., '
Promedlo
20 .
10
30
40
so
60
70
Griifica de pastel
La gratica de pastel es un circulo que se divide en partes para representar las categorias. El tamafio
de cada rebanada varia de acuerdo con el porcentaje de cada categoria. En la tabla 2.1, por ejemplo,
el 33 % de los encuestados afmnaron que la conveniencia era Ia principal razon para comprar en
linea. Asi, al construir Ia gratica de pastel, los 360 que conforman el circulo se multiplican por 0. 33,
de lo que resulta una rebanada del pastel que abarca l18 .8 de los 360 del circulo. En Ia figura
2.3 se observa que Ia grafica permite visualizar Ia porcion del pastel entero que esta en cada categoria. En esta figura, Ia razon que se refiere a Ia conveniencia abarca el 33% del pastel y Ia de Ia velocidad solo el4%.
FIGURA 2.3
Grafica de pastel de
Excel con las razones
per las que se compran
regales en lfnea durante
Ia temporada festiva .
Grafica de pastel
Variedad de selecci6n
6%
Velocidad
4%
Comparaci6n
de compras
23%
Gastos
de envfo
gratis 34%
Area de Ia grafica
- - -- - - - - -
25
l Que gnifica se debe utilizar? La seleccion de una grafica en particular depende de Ia intencion
de quien Ia construye. Si la comparacion de categorias es lo mas importante, podria utilizar una gnifica de barras. Si lo importante es observar la parte del total que esta en una categoria en particular;
deberia utilizar la grafica de pastel.
EJEMPLO 2.3
SOLUCI6N
(Vea la figura 2.4.) La mayoria de los fondos de inversion son de riesgo bajo ode riesgo promedio
(aproximadamente el86%). Muy pocos son fondos de alto riesgo (aproximadamente el14%).
FIGURA 2.4
Grafica de pastel
de Excel con los
niveles de riesgo de
los fondos de inversion.
Grafica de pastel
Promedio
38%
14%
Diagrama de Pareto
En un diagrams de Pareto las respuestas categorizadas se trazan en orden descendente de acuerdo
con sus frecuencias y se combinan con la linea de porcentaje acumulado en Ia misma grafica. Este
diagrama permite identificar situaciones en las que se da el principio de Pareto.
PRINCJPIO DE PARETO
El principio de Pareto existe cuando la mayoria de los elementos de un conj~to de datos caen
en un pequefio nUm.ero de categorias, y las pocas observaciones restantes se dispersan en un gran 1
nUm.ero de categorias. A menudo nos referimos a estos dos grupos como lo "poco vital" y lo "muI
cho trivial".
____
_
_
___
j
- - - - - - --- - - - ---- - - - - - - - - - - - - - - - - - El diagrama de Pareto permite separar a lo "poco vital" de lo "mucho trivial", lo que nos permite enfocarnos en las categorias importantes. En las situaciones en las que los datos en estudio consisten en informacion defectuosa o incompleta, el diagrama de Pareto se convierte en una herrarnienta
valiosa para dar prioridad a los esfuerzos de mejoramiento.
La tabla 2.3 presenta datos de una gran compafiia de moldeado de inyeccion que produce componentes moldeados de plastico para teclados de computadora, lavadoras, automoviles y televisores.
Los datos presentados en Ia tabla 2.3 consisten en todos los teclados de computadora defectuosos
producidos durante un periodo de tres meses. TECLADO
26
TABLA 2.3
Tabla de resumen de las
causas de los defectos
en los teclados de
computadora en un
periodo de tres meses.
Causa
Frecuencia
Mancha negra
Dail.o
Embarque
Marcas de clavijas
Rasguftos
lmpacto en el molde
Raya plateada
Marca de hundimiento
Marca de spray
Deformaci6n
Total
Porcentaje
413
1,039
258
834
442
275
413
371
292
1,987
6,324
6.53
16.43
4.08
13.19
6.99
4.35
6.53
5.87
4.62
31.42
100.01
E
I
La tabla 2.4 presenta un resumen para los defectos de los teclados de computadora, en Ia que las
categorias estan ordenadas de acuerdo con el porcentaje (y no alfabeticamente). Los porcentajes
acumulados para las categorias ordenadas tambien forman parte de Ia tabla.
TABLA 2.4
Tabla ordenada de
resumen de las causas
de los defectos en
los teclados de
computadora en un
periodo de tres meses.
Causa
Deformaci6n
Dailo
Marca de clavijas
Rasguiios
Mancha negra
Raya plateada
Marca de hundimiento
Marca de spray
Impacto en el molde
Em barque
Total
Frecuencia
Porcentaje
1,987
1,039
834
442
413
413
371
292
275
258
6,324
31.42
16.43
13.19
6.99
6.53
6.53
5.87
4.62
4.35
4.08
100.Dl
Porcentaje
acumulativo
31.42
47.85
61.04
68.03
74.56
81.09
86.96
91.58
95 .93
100.00
En Ia tabla 2.4la primera categoria en Ia lista es la deformaci6n (con el 31.42% de los defectos ),
seguida por dailo (16.43%) y marca de clavijas (13.19%). Las dos categorias mas frecuentes --deformaci6n y dail~ abarcan el47.85% de los defectos; las tres categorias mas frecuentes --deformaci6n, dailo y milrcas de clavijas- abarcan el 61 .04% de los defectos, y asf sucesivamente. La figura
2.5 es un diagrama de Pareto basado en los resultados mostrados en forma tabular en Ia tabla 2.4.
La figura 2.5 presenta las barras de forma vertical a lo largo de la linea de porcentaje acumulado. 1 La linea acumulativa esta trazada en el punto medio de cada barra a una altura semejante al
porcentaje acumulado. Si sigue Ia linea, vera que estas tres primeras categorias abarcan mas del 60% de
las correcciones. Como las categorias del diagrama de Pareto estan ordenadas por Ia frecuencia
de ocurrencia, quienes taman decisiones podran ver d6nde concentrar sus esfuerzos para mejorar el
proceso. Los intentos de reducir los defectos por deformaci6n, dailo y marcas de clavijas deberan
generar el mayor gasto. Despues podran hacerse esfuerzos para reducir los rasguftos y las manchas
negras.
Para que una tabla de resumen incluya todas las categorias, aun aquellas con menos defectos,
en algunos casos se debera agregar la categoria de Otros o Mtscelimea. Para estos casas, la bar-ra se
coloca a la derecha de las demas.
FIGURA 2.5
Diagrama de Pareto en
Excel para los datos de
los defectos de teclado.
27
Deformacl6n
las
jes
Dalla
Marcaa
Rasgul\ol
de clavljas
Mancha
negra
Raya
Marca de
Marca lmpacto en Embarque
plateada hundimiento de spray
el molde
Oefecto
EJEMPLO 2.4
SOLUCI6N
En Ia figura 2.6, io's gastos de envio gratis y Ia conveniencia abarcan el 67% de las razones para
comprar en linea, mientras que los gastos de envio gratis, conveniencia y comparaci6n de compras
abarcan el 90%.
FIGURA 2;6
Diagrama de Pareto
Minitab, de las razones
para comprar regales
en linea durante Ia
temporada festiva.
)S),
je-
.l!l
60
40
Iii
------ -- -
aaura
lU-
: al
de
cia
: ei
ran
1as
OS,
.se
Cuenta
Porcentaje
Porcentaje acumulado
34
34.0
34.0
33
33.0
67.0
23
23.0
90.0
6
6.0
96.0
4
4.0
100.0
28
Aprendizaje basico
Fuente
AskJeeves
Frecuencia
Categorfa
28
MSN-Microsoft
Yahoo
Otros
Categorfa
Porcentaje
Categorfa
Porcentaje
12
29
c
D
35
24
3
19
32
15
25
6
13
A
B
Porcentaje
Aplicaci6n de conceptos
Puede resolver los problemas 2.3 a 2. 10 manualmente o usando Excel, Minitab o SPSS.
1 AUTO 2.3 En una encuesta se pregunt6 a 150 ejecutivos
Cantidad (miles
de millones de $)
American Express
Discover
MasterCard
Visa
8.04
1.97
15.57
25.96
Porcentaje
15.6
3.8
30.2
50.4
V Examen cual creian que era el error mas com\ln de los candi-
datos durante las entrevistas de trabajo. Los resultados (USA Today Snapshots, 19 de noviembre, 2001) fueron los
siguientes:
diagrama de Pareto.
b. z,Cual de los metodos graficos refleja mejor los datos?
Raz6n
Poco o nulo conocimiento de Ia compailla
Sin preparaci6n para discutir sus planes
profesionales
Escaso entusiasmo
Falta de contacto visual
Sin preparaci6n para discutir sus habilidades/
experiencias
Otras razones
Porcentaje
2.6 La siguiente tabla representa las fuentes de energia electrica utilizadas en Estados Unidos en un ailo reciente:
44
Fuente
23
16
5
Carbon
Plantas hidroelectricas
Gas natural
Nuclear
Petr6leo
Otras
3
9
Porcentaje
51
6
16
21
3
3
2.7 Un articulo (P. Kitchen, "Retirement Plan: To Keep Working", Newsddy, 24 de septiembre, 2003) expuso los resultados
de una muestra de 2,001 estadounidenses de entre 50 y 70 ailos
T
p
e
c
rE
lc
2.9 Un analista registr6las causas de las caidas de una red durante los pasados seis meses.
Planes
Raz6n de Ia falla
Porcentaje
Numero
Habitaci6n sucia
Habitaci6n sin equipamiento
Habitaci6n que no esta lista
Habitaci6n demasiado ruidosa
Habitaci6n que requiere de mantenimiento
Habitaci6n con pocas camas
Habitaci6n que no tiene las caracteristicas prometidas
, No tiene instalaciones especiales
Porcentaje
12
59
20
9
32
17
12
10
17
9
7
2
2.2
1
3
29
2
32
1
Frecuencia
Conexi6n fisica
Falla de energia
Software del servidor
Hardware del servidor
Servidor falto de memoria
Banda ancha inadecuada
29
10
7
46
3
29
TABLA 2.5
Ouclacl
50
34
44
31
36
F~tra
37
44
S
S
43
26
51
38
39
38
34
38
43
49
14
48
53
56
37
48
23
29
24
26
26
27
38
34
34
48
38
44
51
40
51
30
39
36
50
27
42
45
37
38
23
41
55
28
26
37
33
35
39
35
31
41
22
50
32
39
45
35
63
53
39
30
32
24
33
29
32
30
38
38
36
25
28
31
32
38
29
33
30
25
25
50
44
44
de Ia cildad
37
27
31
51
30
44
23
39
26
30
Arreglo ordenado
Un arreglo ordenado es una secuencia de datos ordenados del menor al mayor valor. La tabla 2.6
contiene Ia formacion ordenada para el precio de las comidas en restaurantes citadinos y de los suburbios. RESTRATE En Ia tabla 2.6 se observa que el precio de una comida en los restaurantes citadinos se encuentra entre $14 y $63, y que en los restaurantes fuera de Ia ciudad se encuentra entre $23
y$55.
TABLA 2.6
Arreglo ordenado
del precio por persona
en 50 restaurantes
de Ia ciudad y 50
restaurantes fuera de
Ia ciudad.
Oudad
14
33
38
43
50
50
25
35
39
44
50
26
35
39
44
51
27
35
39
45
51
30
36
39
45
53
31
36
40
48
53
31
37
41
48
56
32
37
42
49
63
24
28
31
37
41
24
28
32
37
43
25
29
32
38
44
25
29
32
38
44
26
29
33
38
48
26
30
33
38
51
26
30
34
38
51
26
30
34 .
38
55
22
34
38
23
34
38
44
44
50
Fuera de Ia dudad
23
27
30
36
39
23
27
31
37
39
83998
4559
631
El primer valor de 5.35 se redondea a 5.4. Su tallo (fila) es 5 y su hoja es 4. El segundo valor de 4.75
se redondea a 4.8. Su tallo (fila) es 4 y su hoja es 8.
EJEMPLO 2.5
SOLUCION
A partir de Ia figura 2.7 se concluye que:
31
FIGURA 2.7
.6
J1- -
121
:3
l
4
7
22
33
55
(17)
49
31
21
16
8
2
l
l
l
2
2
3
3
4
4
5
5
6
6
7
7
4
589
033
566777777889999
00111123344
5555555666777777788899
00000011222233444
555666777778888999
0000123344
56789
11122234
666778
l
8
_ ___ ___ _j
:s
r-
Aprendizaje basico
i-
:e
9 147
:a
'------'
10 02238
11
68 94 63 75 71 88 64
2.12 Para los siguientes datos obtenidos de una
muestra de n = 7 de las puntuaciones parciales de Ia
materia de sistemas de informacion, realice un diagrama de tallo y hojas:
12 223489
13
'------'
80 54 69 98 93 53 74
2.13 Elabore un arreglo ordenado para los siguientes datos obtenidos de una muestra de n = 7 de las
puntuaciones parciales de la materia de marketing:
88 78 78 73 91 78 85
2.14 Elabore un arreglo ordenado a partir del diagrama de tallo y hojas con Ia siguiente muestra de
'5
7 446
8
19
9 2
Aplicaci6n de conceptos
2.15 El siguiente diagrama de tallo y hojas representa Ia cantidad de gasolina comprada en galones
(con hojas en decenas de galones) para una muestra
de 25 autos que utilizan una estacion de servicio en la autopista de
Nueva Jersey:
de PH Grade
le
02
de PH Grade
COST!
5 0
ASimNCIA
125566777
26 28 20 20 21
22 25 25
18 25
15 20
18 20 25 25 22 30 30 30 15 20 29
Fuente: "The New Face ofBanking ", Copyright c:> 2000 by Consumers
Union of U.S., Inc., Yonkers NY 10703-1057. Adaptado con el permiso de
Consumer Reports, junio de 2000.
32
12 8
5 0
5 5 6 6 10 10
10 6 9 12 0 5
9 7 10
10 8 5
7
5
7
9
HAMBURGUESAS
19
31
34
35
39 39 43
POLLO
.7
15
16
16
18 22
25
27
33
39
2.3
2.19 Los siguientes datos representan el costo promedio diario de hotel y de Ia renta de auto para 20 ciudades de Estados
Unidos durante una semana en octubre de 2003. HOTEL-CAR
Ciudad
Hotel
Autos
San Francisco
Los Angeles
Seattle
Phoenix
Denver
Dallas
Houston
Minneapolis
Chicago
St. Louis
Nueva Orleans
Detroit
Cleveland
Atlanta
Orlando
Miami
Pittsburg
Boston
Nueva York
Washington, D.C.
205
179
185
210
128
145
177
117
221
159
205
128
165
180
198
158
132
283
269
204
47
41
49
38
32
48
49
41
56
41
50
32
34
46
41
40
39
67
69
40
a. Coloque los datos para el costo del hotel y el costo de Ia renta de auto en dos arreglos ordenados.
b. Elabore un diagrama de tallo y hojas para el costo del hotel
y el costo de Ia renta de auto.
c. l,Que aporta mayor informacion: el arreglo ordenado o el
diagrama de tallo y hojas? Explique su respuesta.
d. l,Alrededor de que valor, si lo hay, se concentran los costos
del hotel y de la renta de auto? Explique su.respuesta.
Distribucion de frecuencias
La distribuci6n de frecuencias nos ayuda a obtener conclusiones de un conjunto de datos grande.
Una distribuci6n de frecuencias es una tabla de resumen en Ia que los datos estan organizados
en clases 0 grupos numericamente ordenados.
fr
5
d
rE
Sl
33
(l.l)
Los datos de los restaurantes citadinos constituyen una muestra de 50 establecimientos. Para este tamaiio de muestra es aceptable tener I 0 agrupamientos o clases. En Ia formacion ordenada de Ia
tabla 2.6 en Ia pagina 30, el rango de los datos es $63- $14 = $49. Mediante la ecuacion (2.1), se
aproxima Ia amplitud del intervalo de clase de Ia siguiente forma:
Amplitud del intervalo =
Se debe elegir una amplitud de intervalo que simplifique Ia lectura e interpretacion. Por tanto,
en Iugar de usar una amplitud de intervalo de $4.90, se deberia elegir una amplitud de intervalo de
$5.00.
Para construir una tabla de distribucion de frecuencias, se deberan establecer limites de clase
claramente defmidos para cada agrupamiento de clase, para que los valores esten clasificados adecuadamente. Cada valor se coloca en una y solo una clase. Se debe evitar el traslape de clases.
Puesto que se ha establecido Ia amplitud de cada intervalo de clase para el costo de Ia comida
en $5, es necesario establecer los limites para los diferentes agrupamientos o clases, para que asf se
incluya el rango completo de valores. Siempre que sea posible, uno deberia elegir tales limites para
simplificar Ia lectura e interpretacion. Asf, como los costos varian de $14 a $63, para los restaurantes de Ia ciudad, el primer intervalo de clase vade $10 a menos de $15, el segundo vade $15 a menos de $20, y asf sucesivamente, basta que se hayan formado 11 clases. Cada clase tiene una amplitud de intervalo de $5, sin traslaparse. El centro de cada clase, el punto medio de la clase, esta a Ia
mitad del camino entre ellimite inferior y ellimite superior de Ia clase. Por tanto, el punto medio de
la clase que vade $10 a por debajo de $15 es $12.5, el punto medio de Ia eiase que vade $15 a por
debajo de $20 es $17.5, etcetera. La tabla 2.7 es una distribucion de frecuencias para el costo por comida de los 50 restaurantes de Ia ciudad y para los 50 restaurantes fuera de Ia ciudad.
:I
:I
s
n
0
ll-
~~ = 4.9
TABLA 2.7
Frecuencia de Ia ciudad
Distribuci6n de
frecuencias del costo
por comida para
50 restaurantes
de Ia ciudad y 50
restaurantes de los
suburbios.
1
0
2
3
7
14
8
5
8
1
1
50
0
0
4
13
13
12
4
1
2
1
0
50
34
EJEMPLO 2.6
SOLUCI6N
El porcentaje de rendimientos en 2003 de los fondos de crecimiento esta concentrado significativamente entre el 30 y el 50, con una ligera concentraci6n entre el20 y el 30 (vea Ia tabla 2.8). El porcentaje de rendimientos en 2003 de los fondos de valor esta concentrado entre el 30 y el 50, con algunos entre 20 y 30 y entre 50 y 70. No debe comparar directamente las frecuencias de los fondos de
crecimiento y los fondos de valor puesto que en Ia muestra hay 49 fondos de crecimiento y 72 fondos de valor.
TABLA 2.8
Distribuci6n de
frecuencias del
rendimiento en 2003
de los fondos de
inversion de
imiento y de valor.
Frecuencia de crecimiento
Frecuencia de valor
13
15
20
20
10
9
2
72
5
5
0
49
---
- - . -. --- -
TABLA 2.9
Distribuci6n de
frecuencias relativa
y distribuci6n de
porcentajes del costo
de las comidas en
restaurantes de Ia
ciudad y de los
suburbios.
y
a
Ciudad
Costo por com.ida ($)
10 pero menos que $15
15 pero menos que $20
20 pero menos que $25
25 pero menos que $30
30 pero menos que $35 .
35 pero menos que $40
40 pero menos que $45
45 pero menos que $50
50 pero menos que $55
55 pero menos que $60
60 pero menos que $65
Total
Suburbios
35
2.0
0.0
4.0
6.0
14.0
28.0
16.0
10.0
16.0
2.0
2.0
100.0
0.0
0.0
8.0
26.0
26.0
24.0
8.0
2.0
4.0
2.0
0.0
100.0
IS
l-
~------
EJEMPLO 2.7
i-
r-
En el escenario de "Uso de Ia estadistica", se le pide que compare el rendimiento en 2003 de los fondos de inversion de crecimiento y de valor. MUTUALFUNDS2004 Construya una distribucion de frecuencias relativa y una distribucion de porcentajes para los fondos de crecimiento y para los fondos
de valor.
lIe
1-
SOLUCION
Se concluye (vea Ia tabla 2.10) que el rendimiento en 2003 de los fondos de crecimiento es ligeramente inferior a Ia de los fondos de valor y que el18.37% de los fondos de crecimiento tienen rendimientos entre 20 y 30 en comparacion con el12.5% de los fondos de valores. Los fondos de valor
tienen rendimientos ligeramente mayores (entre 50 y 60, y entre 60 y 70) que los fondos de crecimiento.
TABLA 2.10
I
fe~a
Distribuci6n de
frecuencias relativa
y distribuci6n de
porcentajes del
rendimiento en 2003
de los fondos de
inversion de
crecimiento y de valor.
Porcentaje anual
de rendimiento en 2003
10 pero menos que 20
20 pero menos que 30
30 pero menos que 40
40 pero menos que 50
50 pero menos que 60
60 pero menos que 70
70 pero menos que 80
Total
Crecimiento
Proporcion
0.0408
0.1837
0.2653
0.3061
0.1020
0.1020
0.0000
1.0000
Valor
Porcentaje
Proporcion
Porcentaje
4.08
18.37
26.53
30.61
10.20
10.20
0.00
100.0
0.0278
0.1250
0.2778
0.2778
0.1389
0.1250
0.0278
1.0000
2.78
12.50
27.78
27.78
13.89
12.50
2.78
100.0
reIa
:ea
~n-
di-
relos
lU-
:n1 el
:on
Distribuci6n acumulativa
La distribucion de porcentaje acumulado constituye una manera de presentar Ia informacion del
porcentaje de los valores que estan por debajo de cierto valor. Por ejemplo, tal vez se desea conocer
que porcentaje de las comidas de los restaurantes de Ia ciudad cuestan menos que $20, menos que
$30, menos que $50, etcetera. La distribucion de porcenta]e se usa para formar una distribucion de
porcentaje acumulado. A partir de Ia tabla 2.12, se sa~e que el 0.00% de las comidas cuestan menos
de $10, el2% cuesta menos de $15, el2% tambien cuesta menos de $20 (porque ninguna de las comidas cuestan entre $15 y $20), el6% (2 + 4%) cuesta menos de $25, y asi sucesivamente, hasta que
el100% de comidas cuestan menos de $65. La tabla 2.11 ilustra como desarrollar Ia distribucion de
porcentaje acumulado para el costo de las comidas en restaorantes de Ia ciudad.
36
TABLA 2.11
Desarrollo de Ia
distribuci6n de
porcentaje acumulado
del costa de las
comidas en los
restaurantes de Ia
ciudad.
Porcentaje
2
0
4
6
14
28
16
10
16
2
2
0
2
2=2+0
6=2+0+4
12=2 +0+4+ 6
26=2 +0+4+6 + 14
54 =2 + 0 +4 + 6 + 14 + 28
70 = 2 + 0 + 4 + 6 + 14 + 28 +
80 = 2 + 0 + 4 + 6 + 14 + 28 +
96 = 2 + 0 + 4 + 6 + 14 + 28 +
98=2 +0+4+6+ 14+28+
I 00 = 2 + 0 + 4 + 6 + 14 + 28 +
16
I6 +
I6 +
I6+
I6 +
I0
10 + 16
10+ 16 +2
10 + 16 + 2 + 2
La tabla 2.12 resume los porcentajes acumulados del costo de las comidas en restaurantes de Ia
ciudad y de los suburbios. La distribucion acumulativa muestra claramente que los costos de Ia comida son inferiores en los restaurantes de los suburbios que en los de Ia ciudad: en el34% de los restaurantes de los suburbios cuesta menos de $30, en comparacion con solo el12% de los restaurantes
de la ciudad; en el 60% de los restaurantes de los suburbios cuesta menos de $35 en comparacion
con solo el26% de los restaurantes de Ia ciudad; en el84% de los restaurantes de los suburbios cuesta menos de $40 en comparaci6n con solo el 54% de los restaurantes de Ia ciudad.
TABLA 2.12
Distribuci6n de
porcentajes
acumulados del costa
de las comidas en
restaurantes de Ia
ciudad y de los
suburbios.
Costo ($)
Porcentaje de restaurantes
de Ia ciudad con valor
menor al indicado
10
15
20
25
30
35
40
45
50
55
60
65
0
2
2
6
I2
26
54
70
80
96
98
100
=--~-~~~------~
f~"'"~~~ ~-~~
~~=-~
Porcentaje de restaurantes
de los suburbios con valor
menor al indicado
0
0
0
8
34
60
84
92
94
98
IOO
100
. -
"
! EJEMPLO 2.8
Ii
En el escenario "Uso de Ia estadistica'', se Je pide comparar el rendimiento anual en 2003 de los fondos de inversion de crecirniento y de valor. MUTUALFUNDS2004 Construya una distribucion de porcentaje acumulado para los fondos de crecimiento y para los fondos de valor.
SOLUCI6N
La distribuci6n acumulativa de Ia tabla 2.I3 indica que los fondos de crecimiento tienen un rendimiento ligeramente mayor que los fondos de valor: el 22.45% de los fondos de crecirniento tienen
rendimientos por debajo de 30 en comparaci6n con el15.28% de los fondos de valor; el48.98% de
los fondos de crecimiento tienen rendimientos por debajo de 40 en comparaci6n con el 43.06%
de los fondos de valor; el 79.59% de los fondos de crecirniento tienen rendirnientos por debajo de 50
en comparaci6n con el 70.83% de los fondos de valor.
TABLA 2.13
Distribuciones de
porcentaje acumulado
del rendimiento en
2003 de los fondos de
crecimiento y de valor.
Rendimiento anual
10
20
30
40
50
60
70
80
Porcentaje menor
del valor indicado del
fondo de crecimiento
Porcentaje menor
del valor indicado del
fondo de valor
0.00
4.08
22.45
48.98
79.59
89.80
100.00
100.00
0.00
2.78
15.28
43.06
70.83
84.72
97.22
100.00
37
Histograma
El histograma es una gnifica de barras para datos nUDilericos agrupados en los que las frecuencias o
los porcentajes de cada grupo de datos nUDilericos estin representados por barras individuates. En un
histograma, no hay brechas entre las barras adyacentes como en Ia gnifica de barras de los datos categ6ricos. La variable que nos interesa se coloca a lo largo del eje (X) horizontal. El eje (Y) vertical
representa la frecuencia o el porcentaje de los valores por intervalo de clase.
La figura 2.8 muestra un histograma de frecuencia Minitab para el costo de las comidas en los
restaurantes de la ciudad. El histograma indica que el costo de las comidas en los restaurantes de Ia
ciudad se concentra entre aproximadanilente $30 y $55. Muy pocas comidas cuestan menos de $20 o
mas de $55.
: la
;oestes
i6n
es-
FIGURA 2.8
Histograma Minitab
para el costo de
las comidas en
restaurantes de Ia
ciudad.
~
t:
QJ
u..
onlOr-
tdiilen
, de
6%
: 50
-- -- -------------
EJEMPLO 2.9
38
CAPth o 2
FIGURA 2.9A
Histograma del
porcentaje
del rendimiento 2003
(Panel A -Fondos de
crecimiento y Panel 8
-Fondos de valor).
Fondos de credmlento
16~-------------------------------------------------------------,
15
25
35
45
. 55
65
75
65
75
FIGURA 2.98
Fondos de valor
15
25
35
45
Porcentaje anual de rendlmlen!Xl en 2003
55
Poligono
Es dificil y confuso realizar multiples histogramas en la misma grafica cuando comparamos dos o
mas conjuntos de datos. AI sobreponer las barras verticales de un histograma en otro se dificulta Ia
interpretaci6n. Cuando hay dos o mas grupos, es conveniente utilizar un poligono de porcentaje.
0
39
POLfGONO DE PORCENTAJE
El poHgono de porcentaje se crea al bacer que el punto medio de cada clase represente los datos .
de esa clase y despues se conecta Ia secuencia de puntos medios con sus respectivos porcentajes de
clase.
La figura 2.10 muestra los poligonos de porcentaje para el costo de los alimentos en los restaurantes<le'--la ciudad y de los suburbios. El poligono para los restaurantes de los suburbios esta concentrado a la izquierda (correspondiente al costo menor) del poligono para los restaurantes de Ia
ciudad. Los porcentajes de los costos mas altos para los restaurantes de los suburbios corresponden
a los puntos medios de clase de $27.50 y $32.50, mientras que los porcentajes de costo mayores para
los restaurantes de Ia ciudad corresponden a los puntos medios de clase de $37.50.
FIGURA 2.10
Polfgonos de
porcentaje del coste
de las comidas para
los restaurantes de
Ia ciudad y de los
suburbios.
Polfgono de porcentaje
12.5
17.5
22.5
27.5
32.5
37.5
42.5
47.5
52.5 57.5
62.5
Los poligonos de Ia figura2.10 tienenpuntos cuyos valores en el ejeXrepresentan el punto medio del intervalo de clase. Por ejemplo, observe los puntos trazados en el eje X en 22.5 ($22.50). El
punto para los restaurantes de los suburbios (el mas alto) representa el becbo de que el 8% de estos
restaurantes tienen costos por comida que van de los $20 a los $25. El punto para los restaurantes de
Ia ciudad (el mas bajo) representa el becho de que el4% de estos restaurantes tienen costos de comida entre $20 y $25.
Cuando elabore poligonos o bistogramas, el eje vertical (Y) debe mostrar el verdadero cero u
"origen", para no distorsionar el caracter de los datos. El eje horizontal (X) no necesita especificar el
. punto cero para Ia variable de interes, aunque el rango de Ia variable debe constituir Ia mayor porci6n del eje.
EJEMPLO 2.10
dos o
~tala
1e.
SOLUCI6N
La figura 2.11 muestra que Ia distribuci6n de los fondos de crecimiento tiene un rendimiento anual
menor en comparaci6n con los fondos de valor, los cuales tielien mayores rendimientos.
40
FIGURA 2.11
Polfgonos de
porcentaje para el
rendimiento en 2003 .
Polfgono de porcentaje
.... degrOftcal
~ % r-------------------~------------------~,------------------,
II
I
15
25
35
45
55
65
75
FIGURA 2.12
Polfgonos de
porcentaje acumulado
del coste de las
comidas en
restaurantes de Ia
ciudad y de los
suburbios.
S.SS
14.SS
tS.SS
41
de los suburbios. Esto indica que los restaurantes de Ia ciudad tienen menos comidas que cuestan por
debajo de un valor en particular. Por ejemplo, el 12% de las comidas de los restaurantes de Ia ciudad
cuestan menos de $30 en comparaci6n con el34% de las comidas de los restaurantes de los suburbios.
\
~-EJEMPLO 2.11
En el escenario "Uso de Ia estadistica", se le pide que compare el rendimiento de los fondos de inversion de crecimiento y de valor. MUTUALFUNDS2004 Elabore poligonos de porcentaje acumulado
para los fondos de crecimiento y para los fondos de valor.
SOLUCI6N
La figura 2.13 ilustra los poligonos de porcentaje acumulado en Excel del porcentaje de rendimiento en 2003 de los fondos de crecimiento y de valor. La curva para los fondos de valor se localiza
ligeramente a Ia derecha de Ia curva para los fondos de crecimiento. Esto indica que los fondos de
valor tienen menos rendimientos por debajo de un valor especifico. Por ejemplo, el 70.83% de los
fondos de valor tienen rendimientos menores de 50 en comparaci6n con el 79.59% de los fondos de
crecimiento.
I
I
I'
I
II
FIGURA 2.13
Polfgonos de
porcentaje acumulado
para el porcentaje de
rendimiento en 2003 .
'
50 X
40X
30X
20X
tox
ox
'"
tll.llll
2ll.llll
3ll.llll
.,_,
5ll.liS
11.8ll
71.llll
Rendlmlento en 2003
Aprendizaje basico
__
F
42
mente, basta que Ia ultima clase fue 700 a 749. Si dos solicitantes obtuvieron puntuaciones en el intervalo 450 a 499, y 16 solicitantes obtuvieron puntuaciones en el intervalo 500 a 549:
a. j,Que porcentaje de solicitantes calific6 por debajo de 500?
b. j,Que porcentaje de solicitantes calific6 entre 500 y 549?
c. (,Que porcentaje de solicitantes calific6 por debajo de 550?
d. (,Que porcentaje de solicitantes calific6 por debajo de 750?
Aplicacion de conceptos
-o.002
-o.ooos
-o.0025
0.0025
-o.002
2
b:
-0.001
0.001
0.001
-o.0025
0.0035
0.0005
-o.ooos
-o.0025
-o.003
-o.001
-o.003
-o.001
-o.003
0.002
t2
b:
P'
Cl
li
L
0.001
0.002
-o.002
-o.ooos
-o.002
Ft
-o.ooos
-o.001
-o.001
0.0005
I,
-o.0015
0.0005
-o.003
0.003
-o.0015
0.002
-o.001
0.0015
-o.002
-o.ooos
-o.003
0.0005
0.001
0.002
-o.ooos
AStSTENCtA
de PH Grade
1,
1,
1,
a.
b
96
171
202
178
147
102
153
197
127
82
0.0025
-o.0025
0.001
-o.002
c.
157
185
90
116
172
111
148 213
130
165
-o.0025
-o.0025
-o.ooos
-o.0015
-o.002
d.
141
149 206
175
123
128
144
168
109
167
95
163
150
154
130
143
187
166
139
149
108
119
183
151
114
135
191
137
129
158
de porcentaje.
d. i,El molino realiza un buen trabajo, de acuerdo con los requerimientos de la empresa automovilistica? Explique su
respuesta.
8.343
8.317
8.383
8.348
8.410
8.351
8.373
8.481
8.422
8.476
8.382
8.484
8.403
8.414
8.419
8.385
8.465
8.498
8.447
8.436
8.413
8.489
8.414
8.481
8.415
8.479
8.429
8.458
8.462
8.460
8.444
8.429
8.460
8.412
8.420
8.410
8.405
8.323
8.420
8.447
8.405
8.439
8.411
8.427
8.420
8.498
-o.002
0.002
0.0005
-0.0015
-o.OOI
8.396
0.0005
0.001
0.001
-o.ooos
-o.OOI
8.409
0.0025
0.001
0.0005
-o.0015
0.0005
0.001
0.001
0.001
-o.ooos
-o.0025
0.002
-o.002
0.0025
-o.ooos
0.0025
0.001
-o.003
0.001
-o.oo1
0.002
0.005
-o.0015
-o.0015
0.0025
2
111
ci
w
(
2.4: Tab1as y graficas de datos bivariados
12
0
15
11
0
12
2.25 La compaiiia productora del problema 2.24 tambien fabrica aislantes electricos. Si estos se descomponen cuando estan en uso, es probable que ocurra un corto circuito. Para probarlos, se efectUa una prueba destructiva en laboratories de alta
potencia, que determinaran cuanta fuerza se requiere para descomponer los aislantes. La fuerza se mide observando cuantas
Iibras deben aplicarse al aislante antes de que se descomponga.
La fuerza de 30 aislantes probados se muestra a continuaci6n.
FORCE
1,870
1,728
1,592
1,662
1,866
1,764
1,734
1,662
1,734
1,774
1,550
1,756
1,762
1,866
1,820
1,744
1,788
1,688
1,810
1,752
1,680
1,810
1,652
1,736
12
13
15
12
12
6n
:e-
1,656
1,610
1,634
1,784
1,522
1,696
1.999 1.996
1.997
1.992
1.994
1.986
uti! (en horas) de una muestra de 40 bulbos de 100 watts producidos por el fabricante A y la muestra B a 40 bulbos de 100
watts producidos por otro fabricante. BULBS
1.984 1.981
1.973
1.975
1.971
1.969 1.966
1.967
1.963
1.957
1.951
1.951
1.947
1.941
1.938
1.908
1.894
Fabricante A
:ro
:tise
de
ue
:er
)rue
silas
su
Fabricante B
684
6CJ7
720
773
821
819
836
888
8CJ7
903
848
852
852
907
912
918
942
943
959
962
986
992
831
835
859
860
868
870
876
952
893
899
90S
909
911
922
924
926
926
939
943
946
954
CJ71
972
CJ77
1,016 1,041
2.4
TABLAS
43
1.941
En negocios es comlin el estudio de patrones que pueden existir entre dos o mas variables categ6ricas.
Tabla de contingencia
de
tue
;ir,
Una tabla de clasificaci6n (o contingencia) cruzada presenta los resultados de dos variables categ6ricas. Las respuestas en conjunto se clasifican de tal manera que las categorias de una variable se
localizan en las filas; y las categorias de la otra variable se localizan en las columnas. Los valores localizados en las intersecciones de las filas y las columnas se Haman celdas. La tabla se construye dependiendo del tipo de contingencia, las celdas para cada combinaci6n de fila-columna contienen la
frecuencia, el porcentaje del total global, el porcentaje del total de las filas o el porcentaje total de las
columnas.
Suponga que en el escenario de "Uso de la estadistica" se quiere examinar si hay o noun patr6n
o relacion entre el nivelde riesgo y el objetivo del fondo de inversion (crecimiento contra valor). La
tabla 2.14 resume esta informacion para los 121 fondos de inversion.
44
TABLA 2.14
Tabla de contingencia
que muestra el fondo
objetivo y el fondo de
riesgo.
NIVEL DE RIESGO
OBJETIVO
Alto
Promedio
Bajo
Total
Credmiento
Valor
Total
14
3
17
23
23
46
12
46
58
49
72
121
Se elaboro esta tabla de contingencia etiquetando las respuestas en conjunto para carla uno de
los 121 fondos de inversion con respecto al objetivo y al riesgo en una de las seis posibles celdas en
la tabla. Asi, el primer fondo en la lista (AFBA Five Star USA Global Institutional) esta clasificado como fondo de crecimiento con riesgo promedio. Por tanto, registre la respuesta conjunta dentro de la
celda que forma la interseccion de la primera fila y la segunda collimna. Las 120 respuestas conjuntas restantes se registran de forma similar. Cada celda contiene Ia frecuencia para la combinacion fila-columna.
Para explorar cualquier posible patron o relacion entre fondos objetivos y de riesgo, es conveniente realizar tab las de contingencia basadas en porcentajes. Primero convierta en porcentajes estos
resultados con base en los siguientes tres totales:
TABLA 2.15
Tabla de contingencia
que muestra el fondo
objetivo y el fondo de
riesgo con base en el
porcentaje del total
global.
NIVEL DE RIESGO
OBJETIVO
Alto
Promedio
Bajo
Total
Crecimiento
Valor
Total
11.57
2.48
14.05
19.01
19.01
38.02
9.92
38.02
47.93
40.50
59.50
100.00
TABLA 2.16
Tabla de contingencia
que muestra el fondo
objetivo y el fonda de
riesgo con base en el
porcentaje del total de
las filas.
NIVEL DE RIESGO
OBJETIVO
Alto
Promedio
Bajo
Total
Creelmiento
Valor
Total
28.57
4.17
14.05
46.94
31.94
38.02
24.49
63.89
47.93
100.00
100.00
100.00
l.
jk "
I:J:
NML DE RIESGO
TABLA 2.17
Tabla de contingencia
que muestra el fondo
objetivo y el fonda de
riesgo con base en el
porcentaje del total de
las columnas.
OBJETIVO
Alto
Promedio
Bajo
Total
Credmiento
Valor
Total
82.35
17.65
100.00
50.00
50.00
100.00
20.69
79.31
100.00
40.50
59.50
100.00
La tabla 2.15 muestra que el14.05% de los fondos de inversion de Ia muestra son de alto riesgo, el40.5% son fondos de crecimiento y el11.57% son fondos de crecirniento de alto riesgo. Latabla 2.16 muestra que el28.57% de los fondos de crecimiento son de alto riesgo y el24.49% son de
bajo riesgo. La tabla 2.17 muestra que el82.35% de los fondos de alto riesgo y s6lo el20.69% de los
fondos de bajo riesgo son fondos de crecimiento. Las tablas revelan que los fondos de crecimiento
tienen mayor probabilidad de ser de alto riesgo, mientras que los fondos de valor tienen mayor probabilidad de ser de bajo riesgo.
G,
& '
lit
a.
b.
45
:le
~n
ola
n-
fi-
FIGURA 2.14
Grafica de barras
agrupadas de Excel
para el objetivo y
riesgo de los fondos.
e:os
..
'
Val!lf'
D Bajo
.. .
Alto
a Promedlo
Creclmlento
111
211
30
40
411
Aprendizaje basico
ASISTENCIA
ies-
Genero: M M M M F M F F M M F M M M M F M F M M
Especialidad: CCAAMMCAAACCAAAACCAC
1 ta-
o. de
:los
dos filas representen la categoria de genero y las tres columnas representen la categoria de la especialidad academica.
b. Elabore tablas de contingencia a partir de los porcentajes de
las respuestas de los 40 estudiantes, con base en los porcentajes de las filas y en los porcentajes de las columnas.
~nto
pro-
Total
20
40
80
80
40
40
100
200
de PH Grade
j AUTO
la producci6n en una fabrica de semiconductores presentan datos de defectos en una muestra de 450 placas
de silicio. La siguiente tabla presenta un resumen de las respues-
46
320
80
400
14
36
50
334
116
450
Fuente: S. W. Hall, Analysis ofDefectivity ofSemiconductor Wafers by Contingency Table, Proceedings Institute of Environmental Sciences. Vol.1
(1994), 177-183.
a. Construya tablas de contingencia basadas en el total de porcentajes, porcentajes de fila y porcentajes de columna.
b. Elabore una gnifica de barras agrupadas de Ia calidad de las
placas de silicio basada en la condici6n del troquel.
c. i,A que conclusiones llega a partir de esos analisis?
de PH Grade
TURNO
PRUEBAS DE
LABORATORIO REALIZADAS
Dia
Tarde
Total
Insastifactorias
Sastifactorias
Total
16
654
670
24
306
330
40
960
1,000
a. Elabore tablas de contingencia basadas en los porcentajes totales, los porcentajes de filas y los porcentajes de columnas.
b. l,Que tipo de porcentaje (de fila, de columna o total) considera que es el mas informativo para estos datos? Explique su
respuesta.
c. i,A que conclusiones llegara el director dellaboratorio, respecto a! patron de pruebas de laboratorio insatisfactorias?
DISFRUTA
COMPRANDO ROPA
Si
No
Total
GENERO
Masculino
Femenino
Total
136
104
240
224
36
260
360
140
500
Limited
Kohl's
Nordstrom
Talbots
AnnTaylor
Abril 01
Abril 02
1,159.0
781.7
596.5
544.9
402.6
139.9
114.2
962.0
899.0
620.4
678.9
418.3
130.1
124.8
Fuente: Ann Zimmerman, "Retail Sales Grow Modestly", The Wall Street
Journal, 10 de mayo, 2002, B4.
2.34 Con elfin de estimular las ventas de 2003, los fabricantes de autos ofrecieron grandes incentivos, en forma de rebajas
en efectivo para los compradores de autos nuevos. Por ejemplo, los compradores de autos de marca Lincoln recibieron un
promedio de rebajas de $4,086. A pesar de tales rebajas, los fabricantes estadounidenses de autos perdieron una parte del mercarlo global en favor de Ia competencia intemacional.
2001
2003
Buick
Chevrolet
Chrysler
Ford
Lincoln
1,939
1,654
1,835
1,334
2,449
3,655
3,231
2,832
2,752
4,086
Fuente: K Lundegaard y S. Freeman, "Detroit s Challenge: Weaning Buy ers from Years ofDeals", The Wall Street Journal, 6 de enero, 2004, Al.
FABRICANTE
Nissan
Honda
Toyota
Chrysler
Ford
GM
47
72,164
90,173
143,729
162,205
229,238
296,788 (
2.5
FIGURA 2.15
Diagrama de dispersion
de Excel para Ia
proporci6n de gasto y
el rendimiento en 2003.
Dlagrama de dispersi6n
90
80
.
70
.. .......
, . .. ..
~
. '.
4 : .
:'-' '
'
. ..
.. .
...... . ,.......
. .. .
:
.
30
., .'
.. :. . ' . . ! :
... --" ~ -
ii 50
.
~
.!!
. 40
~
;+
8'0
'.-, .. ::-:. ..
'
'-. ~. ~ :~~
.. ! '. .. - . ..
20
t
10
..
'
.~
'......
'
.. .:
,.'i..-
0
0
0.5
1.5
2.5
3.5
Propord6n de gastD
Aunque hay una gran variaci6n en Ia proporci6n del gasto y el rendimiento en 2003 de los fondos de inversion, parece habe~ una relaci6n creciente (positiv~) entre Ia proporci6n del gasto ~ el
48
Series de tiempo
El diagrams de series de tien@o se usa para estudiar patrones en las variables a traves del tiempo.
Cada valor se traza como un prl~to de dos dimensiones. Un diagrama de series de tiempo muestra el
periodo de tiempo en el eje horizontal X y la variable de interes en el eje vertical Y.
La figura 2.I6 es un diagrama de series de tiempo para el pago mensual de hipoteca (en d6lares
de 2002) de I988 a 2002. HOUSESNY
FIGURA 2.16
Diagrama de series de
tiempo de Excel del
hago mensual de
ipoteca en d61ares
de 2002 (periodo de
1988 a 2002).
Pagos mensuales de hlpoteca para casas en eJ 6rea de Nueva York (1988-2002) en d61ares de 2002
1800
1600
1400
1200
..,1000
I!!
..!!!
800
600
400
. ,'
200
0
198$
1988
1910
1992
1994
1996
1998
2000
2002
2004
Aflo
Los pagos mensuales de hipoteca ( considerados en dolares de 2002) bajaron al final de los 80 y
principios de los 90, solo para nivelarse. Comenzaron a aumentar de nuevo a partir de I999.
r- - - -..-
,_____.---~ ------- - --
r;-,r;;;.,~, l?ln
10
12
15
18
2I
IS
24
I8
30
36
I2
27
45
54
. ~
--~--------~-----
Aprendizaje basico
2
c
I<
d
Ano
1992 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002
Ventas
13.0 17.0 19.0 20.0 20.5 20.5 20.5 20.0 19.0 17.0 13.0
I
E
(
r
I
Lti-
On
Aplicaci6n de conceptos
Ciudad
>0.
el
es
Modelo
Maytag MTB 1956GB
Kenmore7118
Maytag MTB2156GE
Kenmore Elite
Amana ART21 07B
GEGTS18KCM
Kenmore 7198
Frigidaire Gallery GLHT216TA
Kenmore 7285
Whirlpool Gold GR9SHKXK
Frigidaire Gallery GLRT216TA
GEGTS22KCM
Whirlpool ETF 1TTXK.
Whirlpool Gold GR2SHXK.
Frigidaire FRT18P5A
825
750
850
1000
800
600
750
680
680
940
680
650
800
1050
510
36
43
39
38
38
40
35
38
40
37
40
44
43
40
40
J
~s
5)
)2
.0
2.39 Los siguientes datos SECURITY representan la proporcion del volumen de ventas de las pantallas de preabordaje en
los aeropuertos en 1998 y 1999 y las violaciones de seguridad
detectadas por millones de pasajeros.
Ciudad
St. Louis
Atlanta
Houston
Boston
Chicago
Denver
Dallas
Baltimore
Seattleffacoma
San Francisco
VolumeD de ventas
Violaciones
416
375
237
207
200
193
156
155
140
110
11.9
7.3
10.6
22.9
6.5
15.2
18.2
21.7
31.5
20.7
49
VolumeD de veDtas
Violaciones
100
90
88
79
70
64
53
47
37
9.9
14.8
25.1
13.5
10.3
13.1
30.1
31.8
14.9
Orlando
Wastgton-D, les
Los Angeles
Detroit
SanJuan
Miami
Nueva York-JFK
Washington-Reagan
Honolulu
Fuente: Alan B. Krueger, "A Small Dose of Common Sense Would Help
Congress Break the Gridlock over Airport Security", The New York Times,
15 de noviembre, 2001, C2.
a. Elabore un diagrama de dispersion con la proporcion de volumeD de ventas de las pantallas de preabordaje en el eje X y
las violaciones de seguridad detectadas en el eje Y.
b. i,A que conclusiones llega acerca de Ia relacion entre la proporcion del volumen de ventas de las pantallas de preabordaje y las violaciones de seguridad detectadas?
AUTO 2.40 Los siguientes datos CELLPHONE representan
./&..amen el tiempo de Hamada en horas en el modo digital y Ia
capacidad de Ia bateria en horas-miliamperes de los
telefonos celulares.
Tiempo de
Uamada
Capacidad de
las baterfas
4.50
4.00
3.00
2.00
2.75
1.75
1.75
2.25
1.75
800
1500
1300
1550
900
875
750
1100
850
Tiempo de
Uamada
1.50
2.25
2.25
3.25
2.25
2.25
2.50
2.2.5
2.00
Capacidad de
las baterias
450
900
900
900
700
800
800
900
900
50
Nombre
NAPA Legend Professional Line 7575
Exide Nascar Select 75-84N
DieHard Weatherhandler 30375 (South)
DieHard Weatherhandler 30075 (North)
EverStart 75-5
Duralast 75-D
Interstate Mega-Tron MT-7 5
EverStart 75-2
ACDelco Maintenance free 75A-72
Motorcraft Premier Silver Series BXT-75
DieHard Gold 33165 (South)
EverStart Extreme 65-2N (North)
ACDelco Maintenance Free 65-84
Exide 65-60
EverStart Extreme 65-2 (South)
DieHard Gold 33065 (North)
Duralast Gold 34DT-DGS (South)
Duralast Gold 34DT-DGN (North)
Interstate Mega-Tron Plus MTP-78DT
Optima Red Top 34/78-1050
ACDelco Professional 78DT-7YR
EverStart High Power DT-3
DieHard Weatherhandler 30034 (North)
DieHard Weatherhandler 30334 (South)
Precio (S)
Ci
60
80
60
60
30
50
&0
60
80
80
80
60
92
85
60
80
70
70
96
140
80
40
60
60
630
630
525
650
525
650
650
650
650
700
700
850
850
850
675
900
800
900
800
750
850
630
540
525
4.7
4.6
4.7
4.3
4.4
4.5
4.5
4.5
4.5
4.5
4.4
4.4
4.3
4.4
4.2
4.3
4.2
4.3
4.3
4.2
4.2
4.1
4.1
4.1
4.0
4.1
4.0
4.0
4.1
4.0
4.0
4.1
3.9
3.9
4.0
- 4.0
4.2
4.2
4.3
4.5
4.4
4.5
4.5
4.9
4.9
5.4
5.6
5.8
5.6
5.6
5.7
5.9
5.8
5.8
5.8
5.8
5.7
5.8
5.9
6.0
5.9
6.0
5.9
6.1
6.2
6.4
6.3
6.2
6.2
6.1
6.1
5.8
1995
1996
1997
1998
1999
2000
2001
2002
2003
0.6
2.5
4.5
7.0
10.5
15.5
22.0
28.0
33.0
Aiio
NFL
NBA
MLB
NHL
1995
1996
1997
1998
1999
2000
2001
2002
19.6
18.5
17.4
18.1
18.3
17.0
16.9
18.6
10.6
10.2
10.8
7.8
7.2
6.7
6.8
5.8
15.9
9.8
10.4
9.4
10.0
7.7
9.8
8.9
3.6
3.2
2.4
2.6
3.3
2.8
3.1
2.6
51
Fuente: S. Fatsis, "Salaries, Promos, and Flying Solo ", The Wall Street
Journal, 9 defebrero, 2004, R.4.
2.6
FIGURA 2.17
Muestra "impropia" de
Ia exportaci6n de vino
australiano a Estados
Unidos en millones de
gal ones.
Fuente: Adaptado de 5.
Watterson, "Liquid Gold
-Australians Are Changing
the World of Wine. Even the
French Seem Grateful",
Time, 22 de noviembre,
1999, 68.
:.
'II
i\\'H
:. ~ :
;
\i
\
}
',. ,, iF'
S\'
..:_~
1989
3.67 \\\!
Ill
2.25 !ji-
'
'.
'
~~ ............. ~-
:.......,....,. __ ...c-"'!':Y ,
1992
1995
1997
En Ia figura 2.17, el icono de Ia copa de vino que representa los 6.77 mill ones de galones para
1997 no parece tener casi el doble de tamaii.o del icono de la copa de vino que representa los 3.67
mill ones de galones para 1995; tampoco el icono de la copa de vino que representa los 2.25 mill ones
de galones para 1992 parece tener el doble de tamafio del icono de copa de vino que representa 1.04
millones de galones para 1989. La raz6n para esto, en parte, es que el icono tridimensional de Ia copa de vino se utiliza para representar las dos dimensiones de exportaci6n y tiempo. Aunque Ia presentaci6n de la copa de vino puede atraer la vista, los datos deberian presentarse en una tabla de resumen o en un diagrama de series de tiempo.
Ademcis del tipo de distorsi6n creada por los iconos de la copa de vino en la grcifica de Ia revista Time que muestra la figura 2.17, el uso impropio de los ejes vertical y horizontallleva a distorsiones. La figura 2.18 en Ia pagina 52 presenta otra grcifica usada en el mismo articulo de Time.
Existen varios problemas graves en la grafica. Primero, no hay punto cero en el eje vertical. Segundo, Ia superficie en acres de 135,326 para el periodo de 1949 a 1950 esta trazada por arriba de Ia
superficie en acres de 150,300 para 1969 a 1970. Tercero, noes obvio que la diferencia entre 1979
a 1980 y de 1997 a 1998 (71,569 acres) es aproximadamente tres y media veces la diferencia entre
1979-1980 y 1969-1970 (21,775 acres). Cuarto, no hay valores escalares en el eje horizontal. Los
afl.os estcin trazados junto a los totales de la superficie en acres, no en el eje horizontal. Quinto,
los valores para la dimensi6n del tiempo no estcin espaciados de forma apropiada a lo largo del eje
horizontal. El valor para 1979-1980 es mucho mas cercano al de 1990 que a 1969-1970;
52
FIGURA 2.18
Muestra "impropia" de
Ia cantidad de terrene
plantado con uvas para
Ia industria vitivinfcola.
Fl
Ve
P'
P'
Fuente: Adaptado de S.
Watterson. "Liquid Gold
-AustraliansAre Changing
the World of Wine. Even the
French Seem Grateful",
Time, 22 de noviembre,
1999, 68-69.
Otros tipos de muestras que atraen la vista y que vemos generalmente en las revistas y periodicos, a menudo incluyen informacion innecesaria y solo generan confusion. La figura 2.19 representa una de estas muestras. La gr{lfica ilustra los productos con la mayor participacion de mercado en
la industria de las bebidas gaseosas en 1999. Esto genera mucha confusion, aunque la gnifica esta diseiiada para mostrar las diferencias en la participaci6n de mercado entre las bebidas gaseosas. Las
ilustraciones del burbujeo para cada una de las bebidas ocupa mucho espacio de la grafica respecto
a los datos. La misma informacion podria transmitirse con una grafica de barras o con una gr{lfica de
pastel.
FIGURA 2.19
Diagrama de Ia
participaci6n de
mercado de las bebidas
gaseosas en 1999.
Fuente: Adaptado de Anne
B. Carey y Sam Ward,
"Coke Still Has Most Fizz",
USA Today, 10 de mayo,
2000, 18.
,.
.
Coca-Cola clas1ca
20%
L"
AJ
Coca
dietetica Mountain
9%
Dew
7%
per
cua
cor
qm
Ta1
cia:
2.~
per
cua
Algunas directrices para desarrollar buenas graficas son las siguientes:
La grafica no debe distorsionar los datos.
La grafica no deberia contener adomos innecesarios (algunas veces denominados basura grafica).
Cualquier grafica de dos dimensiones debe contener una escala para cada eje.
La escala del eje vertical debe comenzar en cero.
Todos los ejes deben estar adecuadamente rotulados.
La grafica debe tener un titulo.
Debe usarse una grafica lo mas sencilla posible para un conjunto de datos.
Una de las fuentes mas grandes de graficas impropias es el Asistente grafico de Excel. La figura 2.20
representa la ventana de dialogo del paso 1 del Asistente para gr{lficos. Es posible elegir entre columna, barra, linea, pastel y area de grafica, asi como tipos de graficas mas complicadas como anillos, radial, superficie, burbujas, cotizaciones, cilindrico, c6nico y piramidal. Estas graficas mas
complejas deben usarse solo ocasionalmente pues son mas dificiles de interpretar que las graficas
simples que abarcamos en este capitulo.
--
con
sid1
lec1
en 1
2.<4
per.
ado
rez,
ma1
da.
clru
2.4
dor
mu1
FIGURA 2.20
Ventana de dialogo del
paso 1 del Asistente
para graficos de Excel.
53
D 1:1
~ estnW ~ peroonaizlldao I
,...,., de !PlieD:
<J
Circular
ki XY (Dispersi6n)
~Areas
@ Anllos
, *Rodiol
(jl SUperficie
I ~ EiurbujM
I"
I
!
l'
.. ,
-~
I.
La mayoria de los ejemplos del uso inadecuado de las graticas son resultado de no poner atenci6n en las directrices para crear buenas graticas. Sin embargo, surgen problemas eticos cuando las
graficas se construyen para mal informar a prop6sito al lector. Sea como fuere, uno debe extremar
precauciones al tratar de obtener conclusiones de las graficas que se desvian de las directrices mencionadas en este capitulo.
--~-- ---------~---]
.
.
Aplicaci6n de conceptos
2.46 (Proyecto estudiantil) Traiga a clase una grafica de un
peri6dico o de una revista, que considere que no representa adecuadamente una variable numerica. Presentela a su maestro con
comentarios sobre por que cree que es inadecuada. (,Considera
que Ia intenci6n de la grafica es engaiiar a prop6sito al lector?
Tambien preparese para hacer un comentario al respecto en
clase.
54
67
46
Washington
Chicago
46
46
ttt
Filadelfia
St. lou is
Baltimore
a. Indique una caracteristica de esta gnifica que viole los prin, cipios de las graficas bien hechas.
b. Disefie una grafica altemativa para los datos proporcionados
en esta figura.
2.51 La siguiente muestra visual indica Ia fuente de Ia electricidad en Estados Unidos, y aparecio en USA Today:
El carb6n es Ia principal fuente de electricidad
60
50
40
30
20
10
RESUMEN
Como se observa en Ia tabla 2.18, este capitulo trat6 acerca de
Ia presentacion de datos. Usted ha usado diferentes tablas y
graficas para obtener conclusiones acerca de las compras en linea, el cos to de las co midas en restaurantes en Ia ciudad y en
los suburbios, y del conjunto de fondos de inversion que se pre-
Problemas de repaso
ta
:ta
la
TABLA 2.18
Mapa para seleccionar
tablas y graficas.
Tipe de datos
Numericos
Tipo de analisis
Categ6ricos
Tabular, organizar y
presentar gnificamente
los valores de la variable
Presentar graficamente
la relaci6n entre dos
variables
na
7)
de
ier
ur-
ica
El
orlos.
:nte
55
una
.e y
afi-
27,
run
sen
una
udal
a de
gra-
a.
:n en
el de
.2004
CONCEPTOS CLAVE
Agrupaciones o clases 33
Amplitud de un intervalo de clase 33
Arreglo ordenado 30
Basura grafica 52
Celdas 43
Diagrama de tallo y hoja 30
Diagrama de dispersion 47
Diagrama de Pareto 25
Distribucion de frecuencia relativa 34
Distribucion de frecuencias 32
40
pllar
pirat.
ca de
;a pi-
PROBLEMAS DE REPASO
Revision de su comprensi6n
2.55 l,Como es que los histogramas y los poligonos difieren
con respecto a su construccion y uso?
2.56 l,Cuando realizaria una tabla de resumen?
2.57 l,Cuales son las ventajas y/o desventajas del uso de la
gnifica de barras, la grafica de pastel o el diagrama de Pareto?
;io del
;apituiptivas
. datos.
2.58 Compare y contraste la grafica de barras para datos categ6ricos contra el histograma para datos numericos.
2.59 l,Cual es la diferencia entre el diagrama de series de
tiempo y el diagrama de dispersion?
2.60 l,Por que se dice que la caracteristica principal del diagrama de Pareto es que permite separar a lo "poco vital" de lo
"mucho trivial"?
2.61 j,Que porcentaje de fracasos pueden ayudar a interpretar
los resultados encontrados en una tabla de contingencia?
Aplicaci6n de conceptos
Puede resolver manualmente los problemas 2.62 a
2.74 o usando' Excel, Minitab o SPSS. Le recomendamos usar Excel, Minitab o SPSS para resolver los problemas 2.75 a 2.85.
2.62 Los _d atos en la parte superior de la pa_g ina 56 representan
el desglose del precio de un nuevo libro de texto.
56
Porcentaje
Categorias de ingresos
Editor
Costos de producci6n
Marketing y promoci6n
Costos administrativos e impuestos
Ganancia despues de impuestos
Libreria
Salarios y prestaciones de empleados
Operaciones
Ganancias antes de impuestos
Autor
Flete
64.8
32.3
15.4
10.0
7.1
22.4
11.3
6.6
4.5
Tipo de
de pago
1999
2001
2003
Porcentaje
Porcentaje
Porcentaje
Efectivo
Cheque
Debito
Credito (
Otros
39
18
21
22
0
33
18
26
21
2
32
15
31
21
11.6
1.2
a. Realice una gnifica de barras, una gratica de pastel y un diagrama de Pareto para las cuatro categorias de editor, libreria,
autor y flete.
b. Elabore un diagrama de Pareto usando las cuatro subcategorias de editor y las tres subcategorias de libreria junto con las
categorias de autor y flete.
c. Con base en los resultados de los incisos a) y b), i,a que conclusiones se llega con relaci6n a quien obtiene las ganancias
por la venta de los nuevos libros de texto? i,Le sorprenden
estos resultados? Explique su respuesta.
2.63 Los siguientes datos representan la participaci6n de mercado para Ia reparaci6n de autom6viles y de camiones ligeros
en 1992 y 2002.
Esta
Brru
Aler
Jape
Fran
Holl
Finl:
1992
2002
Porcentaje
3.9
6.0
7.3
12.7
39.1
8.1
21.6
7.3
6.4
16.2
29.5
8.9
26.6
6.4
a. Elabore una grafica de barras, una grafica de pastel y un diagrama de Pareto para cada afio.
b. Realice una grafica de barras agrupada para la participaci6n
de mercado en 1992 y 2002.
c. Con base en los resultados de los incisos a) y b), i,que cambios en la participaci6n de mercado ocurrieron entre 1992 y
2002?
2.64 Los siguientes datos representan c6mo realizaron sus pagos los consumidores en las tiendas en 1999,2001 y 2003.
Mar1
Nesc
Tres
Meli
FuentE
Tipo de
bebida
Agua embotellada
Lacteo/otros
Jugos
Refrescos
Bebidas energeticas
Te
Porcentaje
Mar
Tod~
Total
Especialistas foraneos
Tiendas de refacciones
con espacios de servicio
Especialistas en reparaci6n
Estaciones de servicio, talleres
Tiendas de neumaticos
Distribuidor de vehiculos
Otros
Pais
Fuent.
Fuente: T. Lewin, "When Books Break the Bank", The New York Times,
16 de septiembre, 2003, B1, B4.
Fuente
Pr
1998
2000
2002
Consumo
Consumo
Consumo
2.5
0.3
3.1
54.0
1.9
1.9
63.7
4.1
0.3
3.7
53.0
2.2
2.0
65.3
6.7
0.3
4.0
52.5
2.5
1.9
67.9
Fuente: T. Howard, "Coke, Pepsi Sales Up, but Core Colas Flat", USA Today, 21 de julio, 2003, 3B.
2.66 Brasil es el segundo pais consumidor de cafe en el mundo. A diferencia de Ia mayoria de los mercados donde unas
cuantas corporaciones dominan el tostado y Ia venta del cafe,
en ese pais estan activos mas de 2,000 pequefios tostadores de
cafe. La corporaci6n Sara Lee se ha convertido en el vendedor
de cafe al detalle lider en Brasil, al adquirir varios tostadores de
cafe (Miriam Jordan, "Sara Lee Wants to Percolate through all
Brasil", The Wall Street Journal, 8 de mayo, 2002, A14). En Ia
pagina 57 se presentan los datos de las siete naciones mas consumidoras de cafe y el desglose de los lideres del mercado en
Brasil.
a. Cc
pa
m:
b. Cc
pa
ad
2.67
nales
subdi"
Regi
Nort1
Me
E.l
Ca
CentJ
Ve
Br.
Ob
Euro1
No
In~
On
A/ric,
Lit
Nil
AI,
An
Ob
Problemas de repaso
18.6
12.8
9.2
6.7
5.4
1.8
0.9
Estados Unidos
Brasil
Alemania
Jap6n
Francia
Rolanda
Finlandia
Medio Oriente
Arabia Saudita
683 .6
259.2
112.5
97.8
94.0
89.7
13.2
5.5
11.7
Irak
Emiratos Arabes Unidos
Kuwait
Iran
Qatar
oman
Marca
27.6%
6.1%
4.8%
4.0%
57.5%
57
44.0
24.0
5.0
4.7
10.3
59.0
48.6
5.4
5.0
2.67 Los siguientes datos representan las reservas convencionales probadas de petr6leo en miles de millones de barriles,
subdivididos por region y pais.
Region y pais
Reservas
convencionales probadas
(en miles de millones
de barriles)
Reservas
Norteamerica
Mexico
54.8
28.3
21.8
4.7
E.U.
Canada
Centro y Sudamerica
Venezuela
Brasil
Otros en Centro y Sudamerica
Europa Occidental
Noruega
Inglaterra
. Otros en Europa Occidental
A/rica
Libia
Nigeria
Argelia
Angola
Otros en Africa
95.2
76.9
8.1
10.2
17.2
9.5
5.0
2.7
74.9
29.5
22.5
9.2
5.4
8.3
UL
Ado
1990
1991
1992
1993
1994
1995
1996
1997
1998
1999
2000
2001
0
0
6
1
169
2
0
1
3
0
2,717
-58
Muertes en miles
Causa
Humoyfuego
Ahogamiento accidental
Muertes inducidas por el alcohol
Enfermedad de Alzheimer
Asalto con armas de fuego
Asalto sin armas de fuego
Asma
Cancer
Embolia y enfermedades relacionadas
Enfisema
Diabetes
Enfermedades cardiacas
Caidas
Vlli
Influenza y neumonia
Lesiones en el trabajo
Accidentes en vehiculos
Suicidio
Muertes relacionadas con las drogas
3.3
3.3
18.5
49.0
10.4
5.7
4.4
551.8
166.0
16.9
68.7
710.0
12.0
14.4
67.0
5.3
41.8
28.3
15.9
b. Eiabore una grafica de barras, una grafica de pastel y un diagrama de Pareto para los tipos de platillos ordenados.
c. l,Prefiere un diagrama de Pareto o una grafica de pastel para
estos datos? l,Por que?
d. l,A que conclusiones llegara el dueiio del restaurante en relaci6n con la demanda de los diferentes tipos de platillos?
GENERO
ORDENO POSTRE
Si
No
Total
2.69 El dueiio de un restaurante que sirve platillos estilo Continental estaba interesado en estudiar los patrones de demanda
para el periodo de viemes a domingo (fin de semana). Guard6
registros que indicaban el nfunero de 6rdenes para cada tiim de
platillo. Los datos son los siguientes:
Tipo de platillo
Res
Polio
Pato
Pescado
Pasta
Mariscos
Tern era
Femenino
Total
96
224
320
40
240
280
136
464
600
PLATILLO DE RES
ORDENO POSTRE
Si
Masculino
No
Total
Si
No
71
116
187
65
348
413
Total
136
464
. 600
Numero servido
187
103
25
122
63
74
26
METODO
PORaNTAJE DE CIUDADES
QUE LO USARON
2002
1980
2000
Tarjetas perforadas
Maquinas con palanca
Papeletas
Escaneo 6ptico
Electr6nico
Mixto
18.5
36.7
40.7
0.8
0.2
3.1
18.5
14.4
11.9
41.5.
9.3
4.4
15.5
10.6
10.5
43 .0
16.3
4.1
......... .
Problemas de r:;o
PORCENTAJE DE VOTANTES
REGISTRADOS QUE LO USARON
METODO
1980
2000
2002
Tarjetas perforadas
Maquinas con palanca
Papeletas
Escaneo 6ptico
Electr6nico
Mixto
31.7
42.9
10.5
2.1
0.7
12.0
31.4
17.4
1.5
30.8
12.2
6.7
22.6
15.5
1.3
31.8
19.6
9.3
2,030
137
82
81
58
54
62
Fuente: Robert L., Simison, "Ford Steps Up Recall without Firestone", The
Wall Street Journal, 14 de agosto, 2000, A3.
Incidente
Quejas de
garantfa para
el modelo ATX
Quejas de
garantia para el
modelo Wilderness
Separaci6n de la
banda de rodadura
Ponchadura
Otro/desconocido
1,365
77
422
59
41
66
Total
1,864
166
59
137
110
32
27
31
110
29
4
27 152
29 61
28 29
52 30
2
35
26
22
123
94
25
36
81
31
74 27
26 5
14 13
26 20 23
2.74 Los datos del archivo PIZZA representan el costo por rebanada en do lares, el ntimero de calorias por rebanada y Ia cantidad de grasa en gramos por rebanada para una muestra de 36
productos de pizza.
Fuente: "Frozen Pizza on the Rise", Copyright 10 2002 por Consumer
Union of U.S., Inc. , Yonkers, NY 10703-1057. Adaptado con permiso de
Consumer Reports, enero de 2002, 40-41.
60
c. Elabore distribuciones de porcentaje acumulado y trace ojivas (poligonos de porcentaje acumulado) para grasa, costo y
calorias.
d. Elabore diagramas de dispersion para el costo y las calorias,
costo y grasa, y calorias y grasa.
e. Con base en el inciso a) al d), j,a que conclusiones llega
acerca del costo, grasas y calorias de estos productos de
pizza?
2.75 Un articulo en Quality Engineering examin6 la viscosidad (resistencia al flujo) de un producto quimico producido en
partidas. Tome en cuenta que la viscosidad del quimico necesita estar entre 13 y 18 para cumplir con las especificaciones de la
empresa. Los datos para las 120 partidas estan en los datos del
archivo. CHEMICAL
Fuente: D.S: Holmes y A.E. Mergen, "Parabolic Control Limits for the Exponentially Weighted Moving Average Control Charts", Quality Engineering, vol. 4 (1992), 487-495.
2.n
1,Regalar articulos promocionales incrementa la asistencia a los juegos de la liga de beisbol? Un articulo en Sport Mar-
c
t
d
ti
c
p
c
a
b
c.
d.
2.
si: .
p~
taJ
qt
ca
cic
2.79 Suponga que de sea estudiar las caracteristicas de los modelos de autom6viles del aiio 2002 en terminos de las siguientes
variables: caballos de potencia, millas por gal6n, longitud, anchura, requerimiento de angulo de giro, peso y volumen de carga. AUT02002
Fuente: "The 2002 Cars", Copy right ~!::!' 2002 por Consumers Union of
U.S., Inc., Yonkers, NY 10703-1057. Adaptado con permiso de Consumer
Reports, abril de 2002, 22-71.
2.80 En relaci6n con las caracteristicas de los modelos de autom6viles del aiio 2002 AUT02002 del problema 2.79,
a. Construya una tabla de contingencia del tipo de tracci6n con
el tipo de gasolina.
.
.
b. Elabore una grafica de barras agrupadas del tipo de tracci6n
con el tipo de gasolina.
20
lo:
in1
Je,
VO
ga:
ne:
a.
b.
c.
d.
e.
2.8
cio,
los :
a. (
]
b. I
}
c.
j,
c
a
Fuen
Unio.
Cons,
Problemas de repaso
c. Con base en los resultados de los incisos a) y b), (,parece
haber relaci6n entre el tipo de transmisi6n y el tipo de gasolina?
61
62
-- -
--------------
---:-- )
Los datos del archivo MUTUALFUNDS2004 contienen informacion respecto a 12 variables de una muestra de 121 fondos de
inversion. Las variables son:
Fund -El nombre del fondo de inversion.
Category-Tipo de acciones que comprende el fondo de inversion: de gran capital, capital medio, capital reducido.
Objective -Objetivo de las acciones que comprenden el
fondo de inversion: crecimiento o valor.
Assets -Activos en millones de dolares.
Fees -Cargos por ventas (si o no).
Expense ratio -Relacion entre gastos y activos netos en
porcentaje.
2003 Return -Rendirniento de 12 meses en 2003.
Three-year return -Rendimiento anualizado de 200 I a 2003.
Five-year return -Rendimiento anualizado de 1999 a 2003.
Risk -Factor de riesgo de perdida de los fondos de inversion clasificado como bajo, promedio o alto.
Best quarter -Mejor resultado trimestral1999 a 2003.
Worst quarter -Peor resultado trimestral1999 a 2003.
"v
y
l.
2.
3.
4.
5.
~!A\~: ~~~1r~D1~ rs
Puc
plic
tro,
Ta
En el escenario de "Uso de Ia estadistica" se le pidio que
recabara informacion que ayudara a elegir buenas opciones de inversion. Las fuentes para tal inforri1acion incluyen
firmas de correduria y consejeros de inversion. Aplique sus
dr
'
Apendice
63
~s
a
te
Apendice 2
[1.
!S
le
)-
para tablas
A2.1
y graficas
EXCEL
Puede usar Excel para crear muchas de las tablas y graficas explicadas en este capitulo. Sino ha leido aoo el apendice 1.2 "Introduccion a Excel", en la pagina 13, debe hacerlo ahora.
Tablas de resumen
Use el Asistente para tablas y graficos dinamicos para generar
una tabla de resumen. Si no esta familiarizado con las Tablas
dinamicas, primero lea "Uso del Asistente para tablas y graficos dinamicos" (vea el apendice F). Para gene~ar una tabla
de resumen similar ala tabla 2.2 en la pagina 23, abra la hoja de
64
En Ia ventana de di!Uogo de Disefio, primero mueva una copia de Ia pestafia Riesgo al area de FILA.
Despues mueva Ia segunda copia de Ia pestafia Riesgo
al:irea de DATOS, lo que cambia Ia pestafia a Con teo
de riesgo. De clic en Aceptar para regresar a Ia ventana de dililogo principal del paso 3 y de clic en el bot6n de Opciones para continuar.
En Ia ventana de dialogo de Opciones para Ia tabla
dinlimica, ingrese un nombre autodescriptivo para Ia
tabla en el cuadro de edici6n Nombre y 0 en el cuadro de edici6n Mostrar para celdas vacias. De clic
en Aceptar para regresar a Ia ventana de dialogo principal del paso 3.
De clic en Finalizar en Ia ventana de dialogo
principal del paso 3 para producir Ia tabla dinlimica.
Arreglo ordenado
Renombre Ia nueva boja de trabajo con un nombre autodescriptivo. (Puede cerrar cualquier barra de berramientas o ventanas
que aparezcan sobre Ia tabla dinamica para rrlejorar Ia visualizaci6n.)
Para agregar una columna de porcentaje, ingrese Porcentaje en la celda C4 de Ia nueva boja de trabajo e ingrese la
formula =BS/B$8 en Ia celda CS. Copie esta f6rmula bacia abajo basta la celda C7 . Formatee el rango de celda C5:C7 para
mostrar el porcentaje. Ajuste el nfunero de decimates mostrados y el ancbo de la columna C si desea generar una tabla similar a la de la figura A2.1 .
~--~ ~ -
-~~-~
...
....
17
58
121
-- - --::-~
-
~ ~-
48%
-
_ , ... ......... _
Use el Asistente para graficos de Excel para generar una gcifica de barra o de pasteL Sino esta familiarizado con este asistente, lea antes "Uso del Asistente para graficos de Excel" (pagina
15). Primero cree una tabla de resumen de Ia tabla dinlimica.
Con la tabla en pantalla, de clic en una celda fuera de Ia tabla,
seleccione Insertar -+ Gdfica y baga las siguientes entradas
en las ventanas de dialogo del Asistente grafico:
Paso 1: De clic en Barra (para una grafica de barra) o en Pastel en la ventana Tipos estandar Tipo de grafico y
deje seleccionado el primerSubtipo de gdfico. De
clic en Siguiente.
Paso 2: Con el cursor parpadeante en Ia ventana Rango de
datos, de clic en la tabla dinamica para que Excel Ilene la direcci6n de Ia tabla dinamica por usted. De clic
en Siguiente.
Yea Ia se<
PHStat2g1
!ados com
produzcan
je acurnul~
.Tablas d
de barr;
Paso 1:
s,
Ia
Si
Paso 2: In
Paso 3: St
en
va
Poligon
acumuh
Use el Data Analysis Toolpak: para crear distribuciones de frecuencias e histogramas. Abra Ia hoja de trabajo que contenga los
datos que desee resumir. Seleccione Heriamieotas -+ Analisis
de datos. De Ia lista que aparece en Ia ventana de dialogo de
Analisis de datos, seleccione Histograma y de clic en Aceptar.
En la ventana de dililogo de Histograma (vea Ia figuraA2.2) in-
0 Yea Ia
PHStat2g
Use los A1
crear tabla:
Para crear 1
pagina 44,
Datos. Sel
namicos (l
realice las !
tente de tat
Conteo de riesgo
'
Total Porcentaje
Riesgo
pr~'!ledio_______
38%
46
grese eln
pues selec
nados co1
acompafil
grafica y
masypoi
Ladi
juntos o e
~tra~----------~------------~
: 1 Rango de
~trada:
:!-'". . "
r
Oil
Oil
B.6b.Jios_ __________ _ _ _ _ _ __ _ j
Aa!ptar
Cancelar
Ayyda
de salida- - --;:====:::;:;
~nes
r Ranoo de ~~=
:I \o !J.oja
:Ir P!f'elo (Hist011ama ordenado)
Ir
i
1
En IJ'1a
3J
nueva:
En ~ libro nuevo
~orcentaje acumUado
j ~~eargra~
01
lo
Ri
pa
go
co:
dir
tat
de
Ac
pal
Para crear u
fuera de Ia t
realice las s:
As.istente gri
Apendice
;o
)S
ic
.r .
.ic
Je
.el
grese el rango de celda de los datos en Rango de entrada. Despues seleccione Rotulos si esta utilizando datos que esten ordenados como los datos en los archivos Excel del CD-ROM que
acompafta a este texto. Por ultimo, seleccione Resultado de Ia
gdfica y de clic en Aceptar. (Vea la secci6n G.3 [Histogramas y poligonos] para una explicacion sobre el Bin Range.)
La distribucion de frecuencias y el histograma apareceran
juntos o en una hoja de trabajo separada.
Sl
0-
te-
en
na
2.
:ollr.
ea
triec-
1ue
de
nte
frelos
isis
, de
tar.
lm-
E).
65
Diagrama de dispersion
Use el Asistente para graficos para generar un diagrama de dispersion. Para crear un diagrama de dispersion similar a1 de la figura 2.15 de la pagina 47, abra la hoja de trabajo de MUTUALFUNDS2004.XLS en Datos. Seleccione Insertar -+ Grafico, y
haga las siguientes entradas en las ventanas de dililogo del Asistente grafico:
Paso 1: De clic en XY (Dispersion) de Ia ventana de Graftcos tipo estandar y deje seleccionado el primer Subtipo grafico. De clic en Siguiente.
Paso 2: Ingrese F1:G122 en la ventana de Rango de datos, seleccione la opcion Columnas y de clic en Siguiente.
A2.2
MINITAB
66
Reclasificar datos
Grafica de barras
Los datos a menudo se ordenan para que los valores de las variables se apilen verticalmente bacia abajo en una columna. En
muchos casos se requiere analizar de forma separa'da los diferentes subgrupos en terminos de una variable numerica de interes. Por ejemplo, en los datos de los fondos de inversion, tal.vez
usted quiera analizar de forma separada el porcentaje del rendimiento en 2003 de los fondos de crecimiento y de los fondos
de valor. Esto se logra reclasificando la variable del porcentaje de
rendimiento 2003, para que, en una columna, esten localizados
los porcentajes de rendimiento en 2003 de los fondos de crecimiento y, en otra, los porcentajes de rendimiento en 4003 de los
fondos de valor.
Para lograr esto, abra la hoja de trabajo MUTUALFUNDS
2004.MTW. Select Data -+ Unstack Columns (Seleccionar Datos-+ Reclasificar columnas). Despues haga lo siguiente:
Paso 1: En la ventana de dialogo con el titulo Unstack Columns (vea la figuraA2.3), ingrese C7 o Return 2003
(Rendimiento 2003) en el cuadro de edici6n Unstack
the data in (Reclasificar los datos en).
. ~:Jo,~
Bar Charts
Par<
fica
Pas'
I
C2
CJ
Fund
Cateqory
Objective
C4
Assets
C5
C6
C7
CB
C9
Return 2002
Cl
ClO
Cll
C12
~~se
IObjec~~ol-- -~ ~-.~~~~~~
au.ter
Stack
~:y~~~~t
lndude mlaolng U 8 aubsulptVIIIUe
Risk
'
Best Quarto Sture unstadced data:
ll=st Quart
r.: In new warbheet
Nerne:
(Op.t l.onal)
Gr;
Par1
lap
Seh
Des
Select
Help
OK
I I
Cencel -- 1
~ ~-
- - =-I
Pas
Cancel
C2
C3
C4
C5
C6
C7
cs
C9
CH
en
Cl;
Cl <
Cl t
Fl(
de
Apendice
llnhw s from a table, One column orvct~~f'#~~-
Oar flt<itt
Cl
C2
Reason
Percenioge (%)
'
,,.,certoge ro
Groph vllilblos:
~vlrilblc
s......
67
Lob*. ..
Select
(rii;.K~.;; 5a~l
i:
Grafica de pastel
,,-=------~
:1
Cl
C2
C3
C4
C5
C6
C7
cs
cs
C10
C11
C12
C1 3
C14
Fund
Categmy
Objective
Aset
Fees
E>epen,.ratio
Retwn2003
3Yr-RetU<n
5-Yr-Retwn
Risk
Best Quadet
Worst Quarter
!
Relwn 2003 Growtl
Return 200(Va!ue (
o.rt-dola
.S.
Diagrama de Pareto
Para generar el diagrama de Pareto de la figura 2.6 en la pagina
27, abra Ia hoja de trabajo KEYBOARD.MTW. Este conjunto de
datos contiene las causas de los defectos en Ia columna Cl y Ia
frecuencia de los defectos en la columna C2. Seleccione Stat_.
Quality Tools _. Pareto Chart (Stat _. Herramientas de Calidad _. Diagrama de Pareto). En Ia ventana de dialogo del diagrama de Pareto (vea Ia figura A2.8).
Paso 1: Seleccione Ia opci6n Chart defects table (Tabla de
defectos de grafica).
rPie~~a.;.;..;_ 1 -
) M...... G._ -~
;~-
Sol~
H.-,
UboL.
o.tAr Optiant...
OK
Crrcel
"
FIGURA A2.6 Ventana de dialogo para graficas
Paso 4! En Ia ventana Combine defects after the first (Combinar defectos despues de), ingrese 99.9.
de pastel de Minitab.
68
BY variable. ;n;
r.
DA1one
tuptionaiJ
graph. s ame or.derl.,g 1of bars )i
:t
:'
~~--~--'
Jf~-RY--~
Combine deleda - -
I,
I ~ . t __ _ "Into one
leo"
Cancel
!
j:
I
I'
,[
'I '
Carad
Ii
Paso 2: En la ventana de dililogo Histogram-Simple (vea la figura A2.11 ), ingrese C7 o Return 2003 en el cuadro
de edici6n Graph Variables. De clic en el bot6n OK.
Assets
C4
C6
r::7
Grilli> vlliabloo:
'- ~
cs
cs
C11
C12
C13
C14
lr::'R:=;.;,2003';:::;:,~---------.,..,2
-1 --I .- =;;:v.;:_
i-M"..;.G;t;::. I ~ -o;; o;,..,...:.~ I
('~5;._.~
,,1
'I,,
I
;:
s.:ec~
By Yllliable:
I.
- H... -
~- ~
~--1
.I
'I.
Select
He\?
Increment
I
Para seleccionar los colores para las barras y los hordes en los
histogramas,
OK
~I
p
ti
Histograma
Para generar el histograma de los rendimientos en 2003 de todos los fondos de inversion, abra la hoja de trabajo MUTUALFUNDS2004.MTW. Seleccione Graph ~ Histogram (Grafica ~
Histograma).
Paso 1: En la ventana de dialogo de Histograms (vea la figura
A2.10) seleccione Simple. De clic en el bot6n OK.
Paso 4: Para definir sus propios agrupamientos de clase, seleccione Ia pestafia Binning. Seleccione Ia opci6n
Midpoint (Punto medio) para especificar los puntos
medios o Ia opci6n Cutpoints (Puntos limite) para especificar los lirnites de clase. Seleccione Ia opci6n
Midpoint/Cutpoint positions. Ingrese el conjunto de
valores en el cuadro de edici6n.
P:
~----------------------Apendice
Si desea crear histogramas separados para los fondos de crecimiento y de valor similares a los de Ia figura 2.9, en Ia pagina
38, primero debe reclasificar los datos (vea Ia pagina 66) y
crear variables separadas para el rendimiento en el aiio 2003 de
los fondos de crecimiento y de valor. Entonces podra crear histogramas separados para cada uno de los dos grupos.
Tabla de contingencia
gC3 ObjecliYe
~~!JOIV
C4
C5
ll.ssel:
Fees
C6
EMpense ratio
C7 Return 2003
CB :l"frReturn
C9 li-Yr.fleturn
I C10 Risk
C11 Best Quarter
C12 Worst Quarter
C13 Return2003_GrowU'
C14 Return 2003_Value
Categorical vortobleo:
Forrows:
j~Ob~j=ec:-:-hr::
ve=--------; For columno: ~~R~
j,sk~
;;;:
. _~========
Forlayero:
Display
; r;; CaWits
r;; Row percents
r;; Cal- percents
~ -]
Data ViM.-
-,
1
, lohjjpleGrl!lhr.. I
II
H.-,
Date Optiano...
OK:;;;]
;<;~ ~
Scatterplots
.-,=,-~
'w'"llhR~
Si1111e
R Total percents
Help
~~=~(2-4.-JnU
(epllonoQ
Select
69
OK
Wdh GrllUP*
{l2J[C[([
Caneel
H~
Paso 2: En Ia ventana de dialogo con el titulo ScatterplotSimple (vea Ia figura A2.l5), ingrese C7 o ' Return
2003' en el cuadro de edicion de las variables Yen Ia
fila 1. Ingrese C6 o 'Expense ratio' (Proporcion de
gastos) en el cuadro de edicion de las variables X en
Ia fila 1. De clic en el boton OK.
70
; C4
C6
r:T
. C8
C9
I C11
I C12
I C13
' C14
.._
E_...rllio
A...., 21m
:h'r.flolwn
5-Vr.fl....,
Beat Quellar
W'cnt Quellar
R...., 2003_Growtl
R....,2003_Vu
. ll
3.1
3.2
CAPITULO
3.1
3.4
LA COVARIANZA Y EL COEFICIENTE
DE CORRELACI6N
La covarianza
Coeficiente de correlaci6n
3.5
A.3
OBJETIVOS DE APRENDIZAJE
En este capitulo, aprendeni:
A describir las propiedades de tendencia central, variaci6n y
forma de los datos numericos
A calcular las medidas descriptivas de una poblaci6n
A construir e interpretar una gratica de caja y bigote
A describir Ia covarianza y el coeficiente de correlaci6n
72
uso
DE LA ESTADiSTICA
Evaluacion de los rendimientos de los fondos
de inversion
Retomemos el estudio de los fondos de inversi6n presentado en el capitulo 2.
Usted debe decidir en que clases de fondos invertir. En el capitulo anterior se
estudi6 c6mo presentar datos en tablas y gnificas. Sin embargo, al ocuparse
de datos numericos como el rendimiento de las inversiones en los fondos de
inversi6n durante 2003, tambien necesita resumir los datos y plantear preguntas estadisticas. i,Cual es la tendencia central del rendimiento de los diversos
fondos? Por ejemplo, l,Cwil fue el rendimiento promedio de los fondos de inversi6n con riesgo bajo, medio y alto durante 2003? l,Que tanta variabilidad
hay en los rendimientos? i,El rendimiento de los fondos de alto riesgo varia
mas que el correspondiente a los de riesgo promedio o bajo? i,C6mo puede
utilizar esta informaci6n al decidir en cwiles fondos invertir?
ara las variables numericas, usted necesita mas que la simple imagen visual de una variable
obtenida a partir de las gnificas analizadas en el capitulo 2. Por ejemplo, a usted le gustaria determinar no s6lo si durante 2003 los fondos mas riesgosos tuvieron un rendimiento superior, sino
tambien si tuvieron mas variaci6n y c6mo se distribuyeron en cada grupo de riesgo. Tambien desea
examinar si existe alguna relaci6n entre el coeficiente de gastos y los rendimientos de 2003. La lectura de este capitulo le permitira aprender sabre algunos metodos de medici6n:
Tendencia central, es la medida que describe c6mo todos los valores de los datos se agrupan
Tambien aprendeni sabre la covarianza y el coeficiente de correlaci6n, que ayudan a medir la fuerza
de asociaci6n entre dos variables numericas.
3.1
----
- - --- - --
---- -
- - - --
- ------------
73
La media
La media aritmetica (por lo generalllamada la media) es la medida mas com6n de la tendencia
central. La media es la medida mas com6n en la que todos los valores desempeilan el mismo papel.
La media sirve como "punto de equilibria" del conjunto de datos (como el punto de apoyo de un baJancin). La media se calcula sumando todos los valores del conjunto de datos y dividiendo el resultado por el numero de valores considerados.
Para representar a la media de una muestra, utilice el simbolo X, llamado X testada. Si se considera una muestra que contiene n valores, la ecuacion de su media se escribe como:
X 1 +X2 + +Xn
X=
n
Xx + X2 + + Xn por el termin~ LX; , que significa la suma de todos los val ores X; desde el prii=l
mer valor de X, que es Xj, hasta el ultimo valor de X, que es Xn, para formar la ecuaci6n (3 .1 ), una
definicion formal de Ia media de una muestra.
_Lx;
x =.a._
(3.1)
donde
X= media de la muestra
n = nfu:nero de valores o tamafl.o de la muestra
X; = i-esimo valor de la variable X
n
LX
i=l
Como todos los valores desempeilan un papel semejante, una media se vera muy afectada por
cualquier valor que difiera mucho de los demas en el conjunto de datos. Cuando tenga tales valores
extremos, debe evitar el uso de Ia media.
La media sugiere cual es un valor "tipico" o central del conjunto de datos. Por ejemplo, si usted
conoce el tiempo que le lleva arreglarse por las mananas, podra planear mejor su inicio del dia y
reducir al minimo cualquier retraso (o adelanto) para llegar a su destino. Suponga que define en minutos (redondeando al minuto mas cercano) el tiempo que le lleva arreglarse, desde que se Jevanta
basta que sale de ~asa. A lo largo de 10 dias Mbiles consecutivo~, usted recaba los tiempos que se
muestran a continuaci6n: TIMES
Dia:
nempo (mlnvtos):
10
39
29
43
52
39
44
40
31
44
35
74
X=
x =.l:L_
n
x=
39 + 29 + 43 +52+ 39 + 44 + 40 + 31 + 44 + 3-5
10
x = 396
= 39.6
10
A pesar de que ni un solo dia de la muestra tuvo en realidad el valor de 39.6 minutos, asignar 40 minutos a su arreglo personal seria un buen criterio para planear su inicio del dia, pero solo porque esos
10 dias no contienen ninglln valor extremo.
Compare lo anterior con el caso en que el valor del cuatro dia fue de 102 minutos en Iugar de
52. Este valor extremo provocaria que la media aumentara a 44.6 minutos, como se observa a continuacion:
X suma de los valores
nW:nero de valores
LX;
x = .l:L_
n
446
X = - = 44.6
10
f.
Un valor extremo elevola media en mas del10%, de 39.6 a 44.6 minutos. En contraste con Ia media
original, que estaba "en medio", mayor que cinco de los tiempos (y menor que los otros cinco), la
nueva media es mayor que 9 de los I 0 tiempos de arreglo. El valor extremo provoco que Ia media
sea una mala medida de tendencia central.
EJEMPLO 3.1
SOLUCI6N
El rendimiento medio en 2003 de los fondos de inversion para capitales reducidos (MUTUALFUNDS2004) es 51.53 calculados de la siguiente manera:
X=
~---
i EJ
I
I
I
r
= 463.8
.9
=51.53
El arreglo ordenado de los nueve fondos de inversion de alto riesgo para pequeiios capitales es:
37.3
39.2 44.2
44.5
53.8
56.6
59.3
62.4
66.5
Cuatro de estos rendimientos estan por debajo de la media de 51.53, y cinco estanpor encima de ella.
.
75
La mediana
La mediana es el valor que divide en dos partes iguales a un conjunto de datos ya ordenado. La mediana no se ve afectada por los valores extremos, de manera que puede utilizarse cuando estan presentes.
Para calcular Ia mediana del conjunto de datos, primero ordene los valores de menor a mayor.
Utilice Ia ecuacion (3.2) para calcular Ia clasificacion del valor que corresponde a Ia mediana.
- -- ---------------- - "---------------------------- ----------
---~
i MEDIANA
i El 50% de los valores son menores que Ia mediana y el otro SQG/o son mayores.
'
1
Mediana = n + valor clasificado
. 2
(3.2)
Regia I Si en el conjunto de datos hay un nfunero impar de valores, Ia mediana es el valor colocado en medio.
Regia 2 Si en el conjunto de dat<;>s hay un nfunero par de valores, entonces Ia mediana es el
promedio de los dos valores colocados en medio.
Para calcular Ia mediana de Ia muestra de los 10 tiempos para arreglarse en las maiianas, los tiempos
diarios se ordenan de Ia siguiente manera:
Valores ordenados:
29
31
35
39 39 40 43
44
44
52
10
ClasificadOn:
4
i
Mediana = 39.5
Puesto que para esta muestra de 10 elementos el resultado dedividir n + l por 2 es (10 + l)/2 = 5.5,
debe utilizarse Ia regia 2 y promediar los valores clasificados quinto y sexto, 39 y 40. Por lo tanto, Ia
mediana es 39.5. Una mediana de 39.5 significa que Ia mitad de los dias, el tienipo necesario para
arreglarse es menor o igual que 39.5 minutos, y Ia Oira mitad de los dias es mayor o igual que 39.5
minutos. Esta mediana de 39.5 minutos es muy cercana a Ia media del tiempo para arreglarse de
39.6 minutos.
EJEMPLO 3.2
76
Valores ordenados:
37.3
39.2
44.2
44.5
53.8
56.6
59.3
62.4
66.5
ClasificadOn:
1
tar
Mediana
pe
La mediana del rendimiento es 53.8. La mitad de estos fondos de inversion tienen rendimientos
iguales o menores que 53.8 y la otra mitad tiene rendimientos iguales o superiores.
Po.
ect
se
La moda
La moda es el valor del conjunto de datos que aparece con mayor frecuencia. AI igual que en la mediana y a diferencia de la media, los valores extremos no afectan a la moda. Usted solo debe utilizar
la media con prop6sitos descriptivos, ya que varia mas de una muestra a otra que la media o la mediana. Con frecuencia, en un conjunto de datos no existe moda, o bien, hay varias modas. Por ejemplo, considere los ~tos de tiempo para arreglarse que se muestran a continuacion.
29
31
35
39
39
40
43
44
44
52
Existen dos modas, 39 y 44 minutos, ya que cada uno de estos valores aparece dos veces.
EJEMPLO 3.3
CALCULO DE LA MODA
El gerente de sistemas encargado de la red de una empresa lleva un registro del numero de fallas del
servidor que se presentan por dia. Calcule la moda de los siguientes datos, que representan el n1lmero de fallas diarias del servidor durante las ultimas dos semanas.
1 3
26
SOLUCI6N
El arreglo ordenado de estos datos es:
0
1 2
26
Como el3 aparece cinco veces, mas que ning1ln otro valor, la moda es 3. De esta forma, el gerente
de sistemas se dara cuenta de que la situaci6n mas com1ln es la presencia de tres fallas del servidor
al dia. Para este conjunto de datos, la mediana tambien es igual a 3, mientras que la media es de 4.5.
El valor extremo de 26 es atipico. Con estos datos, la mediana y la moda miden la tendencia central
mejor que la moda.
Un conjunto de datos no tiene moda cuando ninguno de los valores es "mas frecuente". En el ejemplo 3.4 aparece un conjunto de datos sin moda.
EJEMPLO 3.4
SOLUCI6N
El arreglo ordenado para estos datos es:
37.3
39.2
44.2
44.5
53.8
56.6
59.3
62.4
66.5
Estos datos no tienen moda. Ninguno de sus valores aparece con mayor frecuencia; cada uno aparece solo una v.ez.
cal
pe1
cia:
77
Cuartiles
IEf 0 1, Ia mediana y el 0 3
tambien son e/25, 50 y 75
percenti/, respectivamente.
Por lo general, las
ecuaciones (3.2), (3.3) y (3.4)
se expresan en terminos de
calculo de percentiles:
percentil (p * 1OOt = valor
clasificado p * (n + 1).
Los cuartiles dividen a un conjunto de datos en cuatro partes iguales: el primer cuartil Q1 separa al
25.0%, que abarca a los valores mas pequefios, del 75.0% restante, constituido por los que son mayores. El segundo cuartil Q2 es la mediana: 50.0% de sus valores son menores que la mediana y
50.0% son mayores. El tercer cuartil Q3 separa al25.0%, que abarca a los valores mas grandes, del
75.0% restante constituido por los que son menores. Las ecuaciones (3.3) y (3.4) defmen a los cuartiles primero y tercero.I
PRIMER CUARTIL 0 1
El25.0% de los valores son menores que el primer cuartil Q1, y el75.0% son mayores que el primer cuartil Q1
Q1 = n ; 1 valor clasificado
(3.3)
.TERCER CUARTIL 0 3
El 75.0% de los valores son menores que el tercer cuartil Q3, y el25.0% son mayores que el tercer cuartil Q3.
Q3 =
3(n+1)
.
valor clasificado
4
(3.4)
Con el fin de ilustrar el calculo de los cuartiles para los datos referentes a los tiempos para arreglarse, se ordenan de menor a mayor.
Valores ordenados:
29
31
35
39 39
40 43
44 44 52
Oasiflcadon:
4
9 10
El primer cuartil es el valor clasificado como (n + l)/4 = (10 + 1)/4 = 2.75. AI emplear la tercera regia de los cuartiles, redondeamos al tercer valor clasificado. Para los datos sobre el tiempo necesario para arreglarse, el valor clasificado como tercero es 35 minutos.lnterprete el primer cuartil de 35
como que el 25% de los dfas el tiempo necesario para arreglarse es menor o igual a 35 minutos, y
que el 75% de los dfas ese tiempo es mayor o igual a 35 minutos.
.
El tercer cuartil es el valor clasificado como 3(n + l)/4 = 3(10 + l)/4 = 8.25. Empleando latercera regia de Ips cuartiles, redondeamos al valor clasificado como octavo. El valor clasificado como
octavo en los datos del tiempo necesario para arreglarse es de 44 minutos. lnterprete esto como que
el 75% de los dfas, el tiempo necesario para arreglarse es menor o igual que 44 minutos, y que el
25% de los dfas ese tiempo es mayor o igual que 44 minutos.
78
SOLUCI6N
Ordenados de menor a mayor, los porcentajes de rendimiento de los nueve fondos de inversi6n de
alto riesgo para pequeiios capitales durante 2003 son:
Valor clasifkaclo:
37.3
39.2
44.2
44.5
53.8
56.6
59.3
62.4
66.5
OasiflcadOn:
~=
=
(n
+ 1)
valor clasificado
Por lo tanto, al utilizar la segunda regia, resulta que Q1 es el valor clasificado como 2.5, que esta justo a la mitad entre los valores clasificados como segundo y tercero. Como el valor clasificado
como segundo es 39.2 y el tercero es 44.2, el primer cuartil Q1 es el que esta justo en medio de 39.2
y 44.2. De esta forma,
Q!
Q3 =
.
3(n + 1)
valor clastficado
4
Asi, al utilizar la segunda regla, Q3 es el valor clasificado entre los valores septimo y octavo. Como
el valor clasificado como septimo es 59.3 y el octavo es 62.4, el tercer cuartil Q3 es el que estajusto
en medio de 59.3 y 62.4. De esta forma,
Q3
L,
Un primer cuartil de 41.7 seiiala que el 25% de los rendimientos obtenidos durante 2003 por los
fondos de alto riesgo para pequeiios capitales fueron menores o iguales que 41.7, mientras que el
- - - -----:-- 75% de ellos fueron mayores o iguales que 41.7. El tercer cuartil de 60.85 indica que el75% de los
rendimientos obtenidos durante el mismo aiio por los fondos de alto riesgo para pequeiios capita
les fueron menores o iguales que 60.85 y que el 25% fueron mayores o iguales que 60.85.
79
La media geometrica
La media geometrica y Ia raz6n geometrica de rendimiento miden el estado de una inversi6n en el
tiempo. La media geometries mide Ia raz6n de cambio de una variable en el tiempo. La ecuaci6n
3.5 define a Ia media geometrica.
l MEDIA GEOMtTRICA
: La media geometrica es Ia raiz n-esima del producto de n valores
Xa (X1 xX2 XXXn) 11"
(3.5)
,----------------------------------------------------- -
(3.6)
Para ilustra:r-el-.uso de estas medidas, considere una inversi6n de $100,000 que se reduce hasta tener
un valor de $50,000 al fmal del afi.o 1 y luego recupera su valor original de $100,000 al finalizar el
afi.o 2. La tasa de rendimiento de esta inversi6n en el periodo de dos afi.os es 0, porque los valores inicial y fmal pennanecen sin cambio. Sin embargo, la media aritmetica de las tasas de rendimiento
anuales de esta inversi6n es
;-
.o
.2
Rt = (50, 000 -
Al utilizar Ia ecuaci6n (3.6), se sabe que la media geometrica de la tasa de rendimiento para los dos
afi.oses
lfo
=[1.0]112 -
los
~ el
los
ita-
112
=1-1=0
Por lo tanto, Ia media geometrica de Ia tasa de rendimiento refleja con mayor exactitud el cambio
(cero) del valor de la inversi6n durante el periodo de dos afi.os de la media aritmetica.
...
--~-~
80
EJEMPLO 3.6
El porcentaje de cambio del indice compuesto NASDAQ fue del-31.53% en 2002 y del +50.01% en
2003. Calcule Ia tasa geometrica de rendimiento.
SOLUCI6N
AI utilizar Ia ecuacion (3 .6), se sabe que la media geometrica de la tasa de rendimiento del indice
NASDAQ para los dos afios es
= 1.0135 -1 = 0.0135
La media geometrica de la tasa de rendimiento del indice NASDAQ para los dos afios es del1.35%.
Ran go
El rango es la medida numerica descriptiva mas sencilla de Ia variacion en un conjunto de datos.
RAN GO
El rango es igual al valor mayor menos el valor menor.
(3.7)
--- -
Para determinar el rango de los tiempos necesarios para arreglarse, los datos se ordenan de menor a
mayor:
29
31
35
39
39
40
43
44
44
52
EJE
Al emplear la ecuacion (3.7), se sabe que el rango es de 52-29 = 23 minutos. Un rango de 23 minutos sefi.ala que la mayor diferencia del tienipo necesario para arreglarse por la manana entre dos
dias cualesquiera es de 23 minutos.
EJEMPLO 3.7
SOLUCI6N
Ordenados de menor a mayor, los rendimientos en 2003 de los nueve fondos de inversion de alto
riesgo para pequefi.os capitales son:
37.3
39.2
44.2
44.5
53.8
56.6
59.3
62.4
66.5
Por lo tanto, al utilizar la ecuacion 3.7, se sabe que el rango = 66.5-37.3 = 29.2.
La mayor diferencia entre dos rendimientos cualesquiera de.los fondos de inversion de alto riesgo para pequefi.os capitales es de 29.2.
81
El rango mide la distribuci6n total del conjunto de datos. Aunque el rango es una medida simple de la variacion total de los datos, no toma en cuenta como se distribuyen los datos entre los valores menor y mayor. En otras palabras, el rango no indica si los valores estan distribuidos de manera
uniforme a todo lo largo del conjunto de datos, agrupados cerca de la parte media, o agrupados cerca de uno o ambos extremos. De esta manera, resulta engaiioso utilizar el rango como medida de la
variacion cuando al menos uno de los valores es extremo.
Rango intercuartil
El rango intercuartil (tambien llamado dispersion media) es la diferencia entre el tercer y primer
cuartil de un conjunto de datos.
RANGO INTERCUARTIL
El rango intercuartil es Ia diferencia entre los cuartiles tercero y primero.
Rango intercuartil = Q3 - QI
(3.8)
El rango intercuartil mide Ia dispersion en la mitad (parte central) de los datos, asi que no se ve
influido por los valores extremos. Para determinar el rango intercuartil de los tiempos necesarios para arreglarse
29 31
35
39
39 40 43
44
44
52
=44- 35
= 9 minutos
Por lo tanto, el rango intercuartil del tiempo necesario para arreglarse es de 9 minutos. Por lo general, a! intervale de 35 a 44 se le denomina Ia mitad media.
EJEMPLO 3.8
SOLUCI6N .
Ordenados de menor a mayor, los rendimientos de los nueve fondos de inversion de alto riesgo para
pequefios capitales durante 2003 son:
r1-
37.3
3.9.2 44.2
44.5
53.8
56.6
59.3
62.4 66.5
Utilice la ecuacion 3.8 y los resultados obtenidos en la pagina 78, Q1 = 41.7 y Q3 = 60.85.
to
Ito
Como el rango intercuartil no toma en cuenta ninglln valor menor que Q 1 ni mayor que Q3, no
seve afectado por los valores extremos. Las medidas de resumen como la mediana, QI, Q3, Y el rango intercuartil, que no reciben la influencia de valores extremos, se denominan medidas resistentes.
82
-2
-2
s2
"'"
-2
~(Xi -X)
'""'i==..t.___--,-__
n-1
(3.9)
,
(
donde
X=media
n = tamafio de la muestra
L (X; -xi= sumatoria de los cuadrados de todas las diferencias entre los valores de Xi y X
i=J
S=fi2=
"'"
-2
~(X; -X)
i=l
n-1
(3.10)
83
Si el denominador fuese n en vez den -1, la ecuaci6n (3.9) [y el tennino intemo de la ecuaci6n
(3.10)] calcularia el promedio de las diferencias con respecto ala media elevadas al cuadrado.
Sin embargo, se utiliza n - 1 porque ciertas propiedades matematicas convenientes del estadistico
S 2 lo bacen apropiado para la inferencia estadistica (que analizaremos en el capitulo 7). Confonne
aumenta el tamailo de la muestra, se hace cada vez mas pequeila la diferencia entre dividir por n o
porn-l.
Es mas probable que usted utilice la desviaci6n estandar de la muestra como medida de la variaci6n [defmida en la ecuaci6n (3.10)]. Adiferencia de la varianza de la muestra, que es una cantidad elevada a1 cuadrado, la desviaci6n estandar siempre es un nfunero con las mismas unidades que
los datos de muestra originates. La desviaci6n estandar le ayuda a conocer de que manera se agrupan
o distribuyen un conjunto de datos con respecto a su media. En casi todos los conjuntos de datos, la
mayoria de los valores observados quedan dentro de un intervalo de mas menos una desviaci6n estandar por encima y por debajo de la media. Por esa raz6n. conocer la media y la desviaci6n estandar ayuda a defmir por lo menos d6nde se agrupa la mayoria de los valores de los datos.
Para calcular a mano la varianza S 2 y la desviaci6n estandar S de una muestra:
Paso 1: Calcule la diferencia entre cada uno de los valores y la media.
Paso 2: Eleve al cuadrado cada una de esas diferencias.
Paso 3: Sume las diferencias elevadas al cuadrado.
Paso 4: Divida el total entre n -1, para obtener Ia varianza de Ia muestra.
Paso S: Extraiga Ia rafz cuadrada de la varianza de Ia muestra, para obtener la desviaci6n estandar
de la muestra.
La tabla 3.1 muestra los cuatro primeros pasos Pal!.. calcular Ia varianza de los datos referentes a1 tiempo necesario para arreglarse, con una media (X)= 39.6 (vea el calculo de la media en la
pagina 74). En la segunda columna se muestra el paso l. En la tercera columna se muestra el paso 2.
En la parte inferior se muestra la suma de la diferencias elevadas al cuadrado (paso 3). Luego, este
total se divide entre 10- 1 = 9, para calcular la varianza (paso 4).
TABLA 3.1
Calculo de Ia varianza
del tiempo necesario
para arreglarse.
X=39.6
(X)
Paso 1:
CXt-X)
Paso 2:
(X1 -X)2
39
29
43
52
39
44
40
31
44
35
-o.60
-10.60
3.40
12.40
-o.60
4.40
0.40
-8.60
4.40
-4.60
0.36
112.36
11.56
153.76
0.36
19.36
0.16
73.96
19.36
21.16
Paso3:
Suma:
Paso 4:
Dividido por (n- 1):
412.40
45.82
Tiempo
~
~
84
-2
.~.)Xi -X)
n-l
sz =-"i-::.!.1_ _ __
ri
+ (35- 39.6) 2
Ci
10-1
412.4
=-9
= 45.82
Puesto que la varianza esta en urtidades cuadradas (en minutos cuadrados en este caso), para
calcular la desviacion estandar se calcula Ia raiz cuadrada de Ia varianza. AI utilizar Ia ecuacion
(3.10) de la pagina 82, Ia desviacion estandar S de Ia muestra es:
I
s=
..fS2
-2
.,.(Xi -X)
=
i-1
n-l
../45.82
6.77
Esto indica que los tiempos necesarios para arreglarse en esta muestra se agru.Q_an dentro de los 6.J7
minutos que circundan a Ia media de 39.6 minutos (es decir, se agrupan entre X- IS= 32.83 y X+
IS= 46.37). De hecho, 7 de los IO quedan dentro de este intervalo.
AI utilizar Ia segunda columna de Ia tabla 3 .I, tambien es posible calcular que Ia suma de las diferencias entre cada uno de los valores y Ia media es cero. Para todo conjunto de datos, esta suma
siempre sera igual a cero:
n
i=!
Esta propiedad es una de las razones por las que Ia media se utiliza como Ia medida mas comllll de
tendencia central.
~ EJEMPLO 3.9
I
l
SOLUCI6N
La tabla 3.2 ilustra el calculo de Ia varianza y Ia desviacion estandar del rendimiento en 2003 para
los fondos de inversion de alto riesgo para pequefios capitales. Utilice Ia ecuacion (3.9) de Ia pagina82:
n
-2
sz =
.t...CXi -X)
....,i=::.!.I_ _ __
n -I
+ (66.5- 51.53) 2
=~------~--~------~----~~------~
9-1
891.16
=-8
= 111.395
TABLA 3.2
Calculo de Ia varianza
del rendimiento en
2003 para los fondos
de inversion de alto
riesgo para pequenos
capitales.
85
X=51.5333
Rendimiento
2003
Paso 1:
(X;-X)
Paso 2:
(X;-X)2
44.5
39.2
62.4
59.3
56.6
53.8
37.3
44.2
66.5
-7.0333
-12.3333
10.8667
7.7667
5.0667
2.2667
-14.2333
-7.3333
14.9667
49.4678
152.1111
118.0844
60.3211
25.6711
5.1378
202.5878
53.7778
224.0011
Paso3:
Suma:
Paso 4:
Dividido por (n- 1):
891.16
111.395
AI utilizar la ecuaci6n (3.10) de la pagina 82, se sabe que la desviaci6n estandar S de la muestra es:
11
""
-2
k..J(XiX)
S=fii =
..o.;i==1- - - -
n-1
= v'lll.395 = 10.55
La desviaci6n estandar de 10.55 indica que los rendimientos en 2003 de los fondos de inversion
de alto riesgo para pequefios capitales se agrupan dentro de los 10.55 que rodean ala media de 51.53
(es decir, se agrupan entre X - 1S = 40.98 y X + IS= 62.08). De hecho, el 55.6% (5 de 9) de los
rendimientos en 2003 quedan dentro de este intervalo.
A continuaci6n se resumen las caracteristicas del rango, del rango intercuartil, de la varianza y
de la desviaci6n estandar.
Cuanto mas esparcidos o dispersos estan los datos, son mayores el rango, el rango intercuartil,
la varianza y la desviaci6n estandar.
Cuanto mas concentrados u homogeneos son los datos, son menores el rango, el rango intercuartil, la varianza y la desviaci6n estandar.
Si todos los valores son los mismos (de tal manera que no hay variaci6n de los datos), el rango,
el rango intercuartil, la varianza y la desviaci6n estandar son iguales a cero.
Ninguna de las medidas de la variaci6n (rango, rango intercuartil, desviaci6n estandar y varianza) puede ser negativa.
Coeficiente de variacion
A diferencia de las medidas de la variaci6n antes expuestas, el coeficiente de variacion es una medida relativa de la variaci6n que siempre se expresa como porcentaje, mas que en terminos de las
unidades de los datos en particular. E1 coeficiente de variaci6n, que se denota mediante el simbolo
CV, mide de dispersion de los datos con respecto a la media.
86
- COEFICIENTE DE VARIACION
El coeficiente de variaci6n es igual a Ia desviaci6n estandar dividida por Ia media, multiplicada
por 100%.
cv = (~)100%
donde
(3.11)
X = mectia de la muestra
.i
cv = (
X=
77
~) 100% = ( 639.6
) 100% = 17.10%
~MPLO 3.10
p
1
SOLUCI6N
Como las unidades difieren para el peso y volumen, el gerente de operaciones debe comparar Ia variabilidad relativa en ambos tipos de medidas.
Para el peso, el coeficiente de variaci6n es
CVw = (
39
)oo% = 15.0%
26.0
Puntuaciones Z
Un valor e:x:tremo o atfpico es un valor ubicado muy lejos de Ia media. Las puntuaciones Z son uti
les para identificar atipicos. Cuanto mayor es la puntuaci6n Z, mayor es Ia distancia entre tal valor Y
. la media. La puntuaci6n Z es igual a Ia diferencia entre ese valor y Ia media, dividida por Ia desvia
cion estandar.
E.
87
' PUNTUACIONES Z
X-X
(3.12)
Z=--
Si se consideran los tiempos necesarios para arreglarse por la manana, se observa que la media es de
39.6 minutos y la desviacion estandar de 6.77 minutos. El tiempo necesario para arreglarse el primer
dia es de 39.0 minutos. La puntuacion Z para el dia 1 se calcula a partir de
X-X
Z=-S
39.0-39.6
6.77
= -0.09
La tabla 3.3 muestra las puntuaciones Z de los 10 dias . La mayor es de 1.83 para el dia 4, cuando el tiempo necesario para arreglarse fue de 52 minutos. La menor fue -1.57 para el dia 2, cuando el tiempo
necesario para arreglarse fue de 29 minutos. Como regia general, una puntuacion Z se considera atipica si es menor que -3 .0 o mayor que +3.0. Ninguno de los tiempos satisface este criterio.
TABLA 3.3
Puntuaciones Z para los
10 tiempos necesarios
para arreglarse.
Media
DesviaciOn estlindar
EJEMPLO 3.11
Tiempo (X)
Puntuaci6n Z
39
29
43
52
39
44
40
31
44
35
39.6
6.77
-0.09
-1.57
0.50
1.83
-0.09
0.65
0.06
-1.27
0.65
-0.68
SOLUCI6N
La tabla 3.4 ilustra las puntuaciones Z de los rendimientos en 2003 de los fondos de inversion dealto riesgo para pequeiios capitales. La puntuacion Z mas grande es 1.42, correspondiente a un rendimiento porcentual de 66.5. La puntuacion Z mas baja es -1.35, correspondiente a un rendimiento
porcentual de 37.3. Como regla general, se considera que una puntuaci6n Z es atipica si es menor
que -3.0 o mayor que +3.0. Ninguno de los rendimientos porcentuales satisface el criterio para considerarlo atipico.
88
--
TABLA 3.4
Puntuaci6n Z del
rendimiento en 2003 de
los fondos de inversion
de alto riesgo para
pequefios capitales.
Rendimiento 2003
Puntuaciones Z
44.5
39.2
62.4
Mecla
DesviadOn estindar
1..
59.3
~6.6
53.8
37.3
44.2
66.5
51.53
10.55
-0.67
-1.17
1.03
0.74
0.48
0.21
-1.35
-{).69
1.42
Forma
Una tercera e importante propiedad que describe a un conjunto de datos numericos es la forma. Forma es el patron de distribuci6n de los valores de los datos a traves del rango de todos los valores. La
distribuci6n puede ser simetrica cuando los valores pequedos y grandes se equilibran entre si, o asimetrica, cuando muestra desequilibrio de los valores pequedos o grandes.
La forma influye en la relaci6n de la media con la mediana de las siguientes maneras:
FIGURA 3.1
Comparaci6n de tres
conjuntos de datos con
distinta forma .
Panel A
Asimetricos negatives
o sesgo izquierdo
Panel B
Simetrico
PaneiC
Asimetrico positivo
o sesgo derecho
Los datos del panel A son negativos, o sesgados a Ia izquierda. En este panel, la mayoria de los
valores estan en la parte superior de la distribuci6n. Existe una cola larga y Ia distorsi6n bacia la izquierda es provocada por algunos valores muy pequedos. Estos valores extremadamente pequeilos
empujan la media bacia abajo, de manera que la media es menor que la mediana.
Los datos del panel B son simetricos. Cada mitad de la curva es una imagen al espejo del otro.
Los valores bajos y altos de la escala se equilibran, y la media es igual a la mediana.
Los datos del panel C son asimetricos positivos o sesgados a Ia derecha. En este panel, lamayoria de los valores estan en la parte inferior de Ia distribuci6n. Existe una larga cola a la derecba de
la distribuci6n y cierta distorsi6n bacia la derecba provocada por algunos valores muy grandes. Estos valores sumamente grandes empujan ala media bacia arriba, de manera que la media resulta mayor que la mediana.
- - -- - -- - -- --
- --- - ----- -- -
- - -- -- - ------ - - - - - - ------- -
- -
89
:\..__ -~----------"------
tl X
20
:. .:
ltr- .
60
---==-~L [[--~-
respecto ala media elevadas a/ cubo. Un valor de asimetria de cero indica una distribuci6n simetrica. La curtosis mide la concentraci6n relativa de valores en el centro de la distribuci6n al compararlos con las colas y se basa en las diferencias con respecto a la media elevadas a la cuarta potencia.
Esta medida no se analiza en el presente texto (vea la referencia 2).
A partir de la figura 3 .2 de la pagina 90, los resultados de estadistica descriptiva en Excel para
el rendimiento de los fondos en 2003, con base en su nivel de riesgo, parecen mostrar ligeras diferencias para los tres niveles de riesgo en su rendimiento porcentual de 2003. Los fondo~ de alto Tiesgo tienen una media y una mediana ligeramente mayores que los de riesgo bajo y medio. Existe muy
poca diferencia entre las desviaciones estandar de los tres grupos.
- -
90
FIGURA 3.2
01
Estadfstica descriptiva
en Excel para el
rendimiento de los
fondos en 2003 con
base en su nivel.de
riesgo.
tll
re
A
p
fE
~
51
de
co
a.
FIGURA 3.3
Estadfstica descriptiva
en Minitab para el
rendimiento de los
fondos en 2003 con
base en su nivel de
riesgo .
b.
c.
If
Mean
46 42.96
17 45.99
58 41.36
Va:r::iable
Ri11k
Retum 2003 ave:r::aoe
high
low
Hexili.Ulll
Ql Median
StDev CoefVa:r:: Hiniaua
03
13.87
32.29
41.00 49.83
19.70 32.63
12.86
27.95
44.50 57.05
14.90 38.25
40.25 48.95
12.43
30.04
15.80 31.23
Range
78.00 58.30
66.50 51.60
71.20 55.40
fASt
~
F()
IQR
17.20
18.80
17.73
Fue;
- - - --- - - - - - - - - -------
----------------~--------,----
ofU
sum.
Aprendizaje basico
'------'
'------'
7 4 9 7 3 12
a. Calcule la media, la mediana y la moda.
b. Calcule el rango, el rango intercuartil, la varianza, la desviaci6n estandar y el coeficiente de variaci6n.
Pan
guit
a. <
b. (
e
12 7 4 9 0 7 3
a. Calcule la media, la mediana y la moda.
b. Calcule el rango, el rango intercuartil, la varianza, la desviaci6n estandar y el coeficiente de variaci6n.
c. Describa la forma del conjunto de datos.
c. l
d. (
c
g
3.8
alcru
bre c
7 -5 -8 7 9
a. Calcule la media, la mediana y la moda.
b . Calcule e1 ran go, el rango intercuartil, la varianza, la des viacion estandar y el coeficiente de variaci6n.
c. Describa la forma del conjunto de datos.
6.It
tinu(
a. D
ci
b. l,l
dt
91
3.5 Suponga que la tasa de rendimiento de una acci6n en particular durante los dos ultimos aiios fue
1..-------' del 10 y del 30%. Calcule la media geometrica de la
tasa de rendimiento (Nota: Una tasa de rendimiento del 10% se
registra como 0.10 y una del30% como 0.30).
Aplicaci6n de conceptos
Puede resolver los problemas 3.6 a 3.20 manualmente o en Excel, Minitab o SPSS.
3.6 El gerente de operaciones de una fabrica de
llantas quiere comparar el diametro interno real
de dos tipos de neumaticos, que se espera sean de
575 milimetros en ambos casos. Se seleccion6 una muestra
de cinco llantas de cada tipo y se ordenaron de menor a mayor,
como se aprecia a continuaci6n:
ASISTENCIA
de PH Grade
Tipo Y
TipoX
568
570
575
578
584
I 573
574
575
577
578
3.7 Los siguientes datos representan el total de grasas en las hamburguesas y productos de pollo de una
muestra tomada de cadenas de comida rapida. FASTFOOD
Hamburguesas
19
31
34
35
39
39
43
Polio
7 9
15
16
16
18
22
25
27
33
39
Fuente: ''Quick bites ", Derechos reservados :> 2000 por Consumers Union
of U. S. , Inc., Yonkers, NY 10703-1057. Adoptado con autorizacion de Consumer Reports, marzo de 2001, 46.
Universidad
Prodocto
Para las hamburguesas y los productos de polio realice lo siguiente por separado:
a, Ca!cule Ia media, Ia mediana, primero y tercer cuartiles.
b. Calcule la varianza, Ia desviaci6n estandar, el rango, el rango intercuartil y el coeficiente de variaci6n.
c. (.Los datos son asimetricos? De ser asi, t.c6mo?
d. Con base en los resultados de los incisos a) a c), l,que conclusiones se obtienen en relaci6n con las diferencias en la
grasa total de las hamburguesas y los productos de pollo?
3 8 La mediana del precio de una casa en diciembre de 2003
~lcanza $173,200, un incremento del6.7% respecto a diciemre de 2002. En todo el aiio, las ventas alcanzaron un record de
~- 1 millones de casas (James R. Hagerty, "Housing Prices Contmue to Rise", The Wall Street Journal, 27 de enero, 2004, Dl).
a, ~escriba Ia forma de Ia distribuci6n correspondiente al preC!o <;le las casas vendidas.
.
b. i.Por que cree usted que el articulo informa sobre Ia mediana
de los precios y no sobre Ia media?
1,589
593
1,223
869
423
1,720
708
1,425
922
308
Calorias Grasa
240
260
8.0
3.5
350
22.0
350
20.0
420
16.0
510
22.0
530
19.0
Fuente: "Coffee as Candy at Dunkin ' Donuts and Starbucks ", Derechos
Reservados <0 2004 por Consumers Union of U.S., Inc. , Yonkers, NY
1 0703105 7, organizacion sin fines de lucro. Adaptado con autorizacion de
Consumer Reports,junio de 2004, 9, solo con propositos educativos. Nose
autoriza su reproduccion o uso comercial. www.CoosumerReports.org
92
Hotel
Ciudad
San Francisco
Los Angeles
Seattle
Phoenix
Denver
Dallas
Houston
Minneapolis
Chicago
St. Louis
Nueva Orleans
Detroit
Cleveland
Atlanta
Orlando
Miami
Pittsburg
Boston
Nueva York
Washington, D.C.
Automoviles
205
179
185
210
128
145
177
117
221
159
205
128
165
180
198
158
132
283
269
204
47
41
49
38
32
48
49
41
56
41
50
32
34
46
41
40
39
67
69
40
Para cada una de las variables (costo de hotel y costo del auto):
a. Calcule la media, la mediana, primero y tercer cuartiles.
b. Calcule la varianza, la desviaci6n estandar, el rango, el rango intercuartil, el coeficiente de variaci6n y las puntuaciones
Z. i,Existe un valor extremo? Explique su respuesta.
c. (.Los datos son asimetricos? De ser asi, (.C6mo?
d. Con base en los resultados de los incisos a) a c), (.que conclusiones se obtienen en relaci6n con el costo diario de una
habitaci6n de hotel y la renta de un autom6vil?
3.12 A continuaci6n se indica el costo de 14 modelos de camara digital de 3 megapixeles en una tienda especializada. CAMERA
62.5
37.5
75.0
45.0 47.5
15.0 25.0
d
al
B.
a.
b.
c.
d.
3.
ci.
he
Pf
qt
de
m
tif
1153.
a.
b.
c.
d.
a. Calcule la media, la mediana y la moda. AI observar la distribuci6n de los tiempos transcurridos hasta la falla, (,cuales
medidas de ubicaci6n le parecen mas apropiadas y cuales menos adecuadas para utilizarlas con estos datos? (,Por
que?
b. Calcule el rango, la varianza y la desviaci6n estandar.
c. l. Que le recomendaria a un fabric ante si quisiera anunciar
que sus baterias "duran 400 horas"? (Nota: No existe una
respuesta exacta para esta pregunta; se trata de decir c6mo
hacer precisa tal afirmaci6n.)
d. Suponga que, en Iugar de 342, el primer valor fue de 1,342.
Repita los incisos a) a c) utilizando este valor. Elabore un
comentario sobre la diferencia de los resultados.
do:
Yt
Bo
Ca
rer.
3:
se ,
dat
pre
Do
se[
r
3.1: Medidas de tendencia central, variacion y forma
durante ese horario por una semana. Se selecciona una muestra
aleatoria de 15 tlientes y se tienen los siguientes resultados:
BANJO
93
Afto
DJIA
SPSOO
Russell2000
WilshireSOOO
2003
2002
2001
2000
25.30
-15.Dl
-5.44
-6.20
26.40
-22.10
-11.90
-9.10
45.40
-21.58
-1.03
-3.02
29.40
- 20.90
-10.97
-10.89
b. Calcule la varianza, la desviacion estandar, el rango, el rango intercuartil, el coeficiente de variacion y las puntuaciones
z. (,Ex.iste algful valor atipico? Explique su respuesta.
3.16 Suponga que otra sucursal, ubicada en una zona residencial, tambien se preocupa por el tiempo de espera desde de la
hora del almuerzo hasta Ia 1:00 PM. Se registra el tiempo de espera en minutos (defmido como el tiempo transcurrido des de
que el cliente se forma en' la fila hasta que llega a Ia ventanilla
del cajero) de todos los clientes durante ese horario por una semana. Se selecciona una muestra aleatoria de 15 clientes y se
tienen los siguientes resultados: BANK2
9.66 5.90 8.02 5.79 8.73 3.82 8.01
8.35 10.49 6.68 5.64 4.08 6.17 9.91 5.47
a. Calcule la media, la mediana, primero y tercer cuartiles.
b. Calcule la varianza, la desviacion estlindar, el rango, el rango intercuartil y el coeficiente de variacion. (,Existe algful
valor atipico? Explique su respuesta.
c. (,Los datos son asimetricos? De ser asi, (,como?
d. Un cliente llega a la sucursal durante la hora del almuerzo y
pregunta a} gerente CUllnto tendni que esperar, este le responde: "Menos de cinco minutos, con toda seguridad". Con
base en sus resultados de los incisos a) y b), evalue Ia exactitud de tal afmnacion.
A 1 afto
A30 meses
Mercado de dinero
2003
2002
2001
2000
1.20
1.98
3.60
5.46
1.76
2.74
3.97
5.64
0.61
1.02
1.73
2.09
a. Calcule la tasa de rendimiento geometrica de los certificados de deposito a un afio, 30 meses y en el mercado de dinero.
b. (,Que conclusiones se obtienen en relacion con las tasas de
rendimiento geometricas de los tres depositos?
c. Compare los resultados del inciso b) con los de los problemas 3.18b) y 3.20b).
3.20 Durante el periodo de 2000 a 2003, se observo una gran
volatilidad en el valor de los metales. Los datos que se presentan en la siguiente tabla METALRETURN representan la tasa de
rendimiento total de platino, oro y plata de 2000 a 2003.
Afto
Platino
Oro
Plata
2003
2002
2001
2000
34.2
24.5
-21.3
-23.3
19.5
24.5
1.2
1.8
24.0
5.5
-3.0
-5.9
94
3.2
TABLA 3.5
Rendimiento en 2003
de Ia poblaci6n
compuesta por los
cinco mayores bonos
de capital.
Rendimiento a
52 semanas
(en porcentaje)
Fondo de capital .
3.8
Vanguard GNMA
Vanguard Total Bond Index
Pimco Total Return Admin
Pimco Total Return Instl
America Bond Fund
6.5
7.0
7.3
12.9
La media poblacional
La media poblacional se representa por medio.del simbolo Jl, la letra griega mu minuscula. La
ecuaci6n (3 .13) define ala media poblacional.
MEDIA POBLACIONAL
La media poblacional es la suma de los valores de Ia poblaci6n dividida por el tamaiio de la poblaci6nN.
(3.13)
Jl = media poblacional
donde
Xi =
Para calcular el rendimiento medio de la poblaci6n de bonos de capitallistados en la tabla 3.5, se utiliza la ecuaci6n (3 .13),
N
Jl
xi
De esta manera, el rendimiento medio en 2003 de tales bonos de capital es del 7.5%.
95
VARIANZA POBLACIONAL
La varianza poblacional es Ia suma de las diferencias con respecto a Ia media de la poblaci6n elevada ~ cuadrado y dividida por el tamaiio de la poblaci6n N.
N
cr2
L(X; -J.1)2
.:.;i=;;;.ol_ _ __
(3.14)
donde
L (X; - J.1 )2
elevadas al cuadrado
i=l
cr=
i-1
(3.15)
Para calcular Ia varianza poblacional correspondiente a los datos de la tabla 3.5 de la pagina 94,
se utiliza Ia ecuaci6n (3.14),
N
:Lex;- 1.1) 2
cr2
= ....:i-=..1~--N
(3.8- 7.5) 2 + (6.5- 7.5) 2 + (7.0- 7.5) 2 + (7.3- 7.5) 2 + (12.9- 7.5) 2
5
44 14
= 8.828
5
r
96
a=-W =
-=i==-1 - - N
= .Js.s2s = 2.97
Por lo tanto, el rendimiento tipico en 2003 difiere de Ia media de 7.5 en aproximadamente 2.97. Esta enorme variacion sugiere que los grandes bonos de capital tienen resultados muy distintos.
La regia empirica
En Ia mayoria de los conjuntos de datos, una gran parte de los valores tienden a agruparse en alg1ln
Iugar cercano a Ia mediana. En los conjuntos de datos asimetricos a Ia derecha, el agrupamiento se
presenta a Ia izquierda de Ia media, es decir en un valor menor que Ia media. En los conjuntos de datos asimetricos a Ia izquierda, el agrupamiento se presenta a la derecha de Ia media, es decir en un
valor mayor que Ia media. En los conjuntos de datos simetricos, donde Ia mediana y la media son
iguales, con frecuencia los valores tienden a agruparse alrededor de Ia media y Ia mediana, generando una distribucion con forma de campana. En las distribuciones de esta clase, utilizar Ia regia empirica permite examinar la variabilidad:
Aproximadamente el68% de los valores se encuentran a una distancia de 1 desviacion estandar de Ia media.
Aproximadamente el 95% de los valores se encuentran a una distancia de 2 desviaciones estindar de Ia media.
Aproximadamente el 99.7% se encuentran a una distancia de 3 desviaciones estandar de Ia
media.
La regia empirica ayuda a medir como se distribuyen los valores por encima y debajo de Ia
media. Esto permite identificar los valores atipicos cuando se analiza un conjunto de datos numericos. La regia empirica implica que, en las distribuciones con forma de campana, aproximadamente
solo uno de cada 20 valores estara alejado de la media mas alla de dos desviaciones estandar en cualquier direccion. Por regia general, los valores que no se encuentran en el intervalo ll 2cr se consideran como posibles atipicos. Esta regia tambien implica que solo alrededor de tres de cada 1,000
estaran alejados de Ia media mas alla de tres desviaciones estandar. Por lo tanto, casi siempre se consideran como extremos los valores que no se encuentran en el intervalo ll 3cr. En los conjuntos de
datos con mucha asimetria, o en los que por alguna otra razon no tienen forma de campana, en Iugar
de la regia empirica se debe aplicar la regia de Chebyshev, que se explica en Ia pagina 97.
~--
EJEMPLO 3.12
La cantidad media de llenado de una poblacion integrada por 12latas de gaseosa es de 12.06 onzas,
con una desviacion estandar de 0.02. Tambien se sabe que esta poblacion tiene forma de campana.
Describa Ia distribucion de Ia cantidad de llenado de las latas. l,Existe una gran probabilidad de que
una lata tenga menos de 12 onzas de gaseosa?
SOLUCI6N
2cr =
ll 3cr =
II
!
2(0.02)
12.06 3(0.02)
12.06
= (12.02, 12.10)
= (12.00, 12.12)
Utilizando la regia empirica, aproximadamente el 68% de las latas tendran entre 12.04 y 12.08 on
zas, aproximadamente el95% tendra entre 12.02 y 12.10 onzas, y aproximadamente el99.7% tendr.i
entre 12.00 y 12.12 onzas. Asi que es muy poco probable que una lata tenga menos de 12 onzas.
TAE
Vari;
con
mec
' EJE
97
La regia de Chebyshev
La regia de Chebyshev (referencia I) establece que para todo conjunto de datos, independientemente de su forma, el porcentaje de valores que se encuentran a una distancia de k desviaciones estandar o menos de la media, debe ser por lo menos igual a
(1- 1/Jcl) X 100%
Puede usar esta regia para todo valor de k mayor que 1. Considere una k = 2. La regia de Chebyshev
establece que al menos [1- (112)2] x 100% = 75% de los valores deben estar dentro de 2 desviaciones estandar de la media.
La regia de Chebyshev es muy general y se aplica a cualquier tipo de distribuci6n. La regia sefiala por lo menos el porcentaje de valores que quedan dentro de una distancia dada de la media. Sin
embargo, si el conjunto de datos tiene una forma que se aproxima a la de campana, la regia empirica reflejara con mayor precisi6n la mayor concentraci6n de datos cerca de la media. En la tabla 3.6
se comparan Ia regia empirica y Ia de Chebyshev.
TABLA 3.6
Variaci6n de los datos
con respecto a Ia
media.
EJEMPLO 3.13
Chebyshev
(para toda distribucion)
Intervalo
(!l- a, !l + a)
(!l - 2a, ll + 2a)
(!l- 3a, !l + 3a)
Regia empfrica
(distribucion con forma de campana)
Almenos 0%
Almenos 75%
AI menos 88.89%
Aproximadamente 68%
Aproximadamente 95%
Aproximadamente 99.7%
3a
Como la distribuci6n posiblemente sea asimetrica, noes pertinente utilizar Ia regia empirica. Usando Ia regia de Chebyshev nose puede decir algo sobre el porcentaje de latas que tienen entre 12.04
y 12.08 onzas. Es posible determinar que al menos el 75% de las latas tendnin entre 12.02 y 12.10
onzas, y que por lo menos el 88.89% tendnin entre 12.00 y 12.12 onzas. Por lo tanto, entre 0 y
11.11% de las latas tienen menos de 12 onzas.
Cuando se tienen datos muestrales, estas dos reglas pe~ten entender c6mo se distribuyen los
datos alrededor de la media. En todo caso, use el valor de X que calcul6, en Iugar de Jl y el que
calcul6 para S en Iugar de a. Los resultados calculado~empleando los estadisticos muestrales son
aproximaciones, ya que utiliz6 estadisticos muestrales (.K, S) y no parametros poblacionales (J..L, a).
p
98
Aprendizaje basico
'------'
Aplicaci6n de conceptos
~AUTO
ciones trimestrales de impuestos por ventas (en miles de do lares), correspondientes al periodo que tinaliz6 en marzo de 2004, enviados al contralor del poblado Fair
Lake por los ~0 negocios establecidos en dicha localidad: TAX
Exam en
I0.3
11.1
9.6
9.0
I4.5
13.0
6.7
Il.O
8.4
I0.3
13.0
11.2
7.3
5.3
12.5
8.0
11 .8
8.7
10.6
9.5
Il.l
I0.2
11.1
9.9
9.8
11.6
15.1
I2.5
6.5
7.5
10.0
12.9
9.2
10.0
12.8
12.5
9.3
10.4
12.7
10.5
9.3
11 .5
10.7
11.6
7.8
IO.S
7.6
10.I
8.9
8.6
Vanguard GNMA
Vanguard Total Bond Mkt. Index
Bond Fund of America A
Franklin Calif. Tax-Free Inc. A
Vanguard Short-Term Corp.
Activos
(miles de millones
de d6lares)
I9.5
I6.8
13.7
I2.8
T~
Re
re:
nL
di
10.9
3.27 Los datos en el archivo DOWRETURN muestran el rendimiento anualizado de 10 aiios (1994-2003) correspondiente a
30 empresas incluidas en e1 Dow Jones Industrials.
a. Calcule la media de esta poblaci6n. Interprete este nUm.ero.
b . Calcule la varianza y la desviaci6n estandar de esta poblaci6n. Interprete la desviaci6n estandar.
c. Utilice la regla empirica o la de Chebyshev, la que resulte
apropiada, para explicar aUn mas la variaci6n de este conjunto de datos.
d. Utilizando los resultados de c), l,existen algunos datos atipi-
cos? Explique su respuesta.
3.3
99
permite determinar la forma de Ia distribuci6n. En la tabla 3.7 se explica c6mo las relaciones entre
los "cinco nfuneros" le permiten reconocer la forma del conjunto de datos.
Tipo de distribuci6n
TABLA 3.7
Relaciones entre el
resumen de cinco
numeros y el tipo de
distribuci6n
Comparaci6n
Asimetrico a
Ia izquierda
Simetrico
Asimetrico
a Ia derecha
La distancia de
Xmenor a la mediana
contra Ia distancia
de la mediana a
Xmayor
La distancia de Xmenor
a la mediana es
menorque
la distancia de la
mediana a Xmayor
La distancia de
Xmenora Q 1 contra
la distancia de Q3 a
La distancia de
Xmcnor a Q 1 es mayor
que la distancia de
Ambas distancias
son iguales.
~ayor
Q3a~ayor
La distancia de
Xmcnor a Q 1 es menor
que la distancia de
Q3aXmayor
La distancia de QI
a la mediana contra
la distancia de Ia
medianaaQ3
La distancia de Q1 a
la mediana es mayor
que Ia distancia de 1~
medianaa Q3
Ambas distancias
son iguales.
La distancia de Q1 a
la mediana es menor
que la distancia de la
mediana a Q3.
Para la muestra de 10 tiempos necesarios para arreglarse, el menor valor es 29 minutos y el mayor es 52 minutos (vea las paginas 75 y 77). Los calculos ya realizados en la secci6n 3.1 indican que
la mediana = 39.5, el primer cuartil = 35, y el tercer cuartil = 44. Por lo tanto, el resumen de cinco
puntos es:
29
35
39.5
44
52
La distancia deXmenor ala mediana (39.5- 29 = 10.5) es ligeramente menor que la distancia de
la mediana a Xroayor(52- 39.5 = 12.5). La distancia de Xmenor a Q1 (35- 29 = 6) es ligeramente roenor que la distancia de Q3 aXmayor (52 - 44 = 8). De esta forma, los tiempos para arreglarse son ligeramente asimetricos a Ia derecha.
EJEMPLO 3.14
Los 121 fondos de inversi6n que forman parte del escenario "Uso de la estadistica" (vea la pagina
72), se clasifican de acuerdo con el nivel de riesgo (bajo, medio y alto) y el tamaiio del capital invertido (pequefio, mediano y gran capital). Calcule el resumen de cinco puntos del rendimiento en 2003
de los nueve fondos de inversi6n de alto riesgo para pequefios capitales. MUTUALFUNDS2004
F
100
lc
37.3 41.7
53 .8 60.85
Ci
66.5
e.
in
La distancia deXmenor ala mediana (53.8- 37.3 = 16.5) es mayor que la distancia de la mediana a Xmayor (66.5- 53 .8 = 12.7). Esto indica asimetria ala izquierda. La distancia de Xmenor a Q1
(41.7- 37.3 = 4.4) es ligeramente menor que la distancia de Q3 aXmayor(66.5- 60.85 = 5.65). Esto
indica una ligera asimetria a la derecha. Por lo tanto, los resultados son incongruentes.
Cl
a/
2(
lo
dl
pr
FIGURA 3.4
Grafica de caja y bigote
del tiempo necesario
para arreglarse.
20
25
30
35
40
45
50
55
Tiempo (minutos)
La linea vertical dibujada dentro de la caja representa a la mediana. La linea vertical a Ia izquierda de Ia caja representa la ubicacion de Q1 y Ia linea vertical a la derecha de Ia caja representa
Ia ubicacion de Q3 De esta forma, la caja contiene al 50% de los valores de la distribucion. El 25%
inferior de los datos se representa mediante una linea (es decir, un bigote) que une ellado izquierdo
de la caja con Ia ubicacion del menor valor, Xmenor De Ia misma manera, el25% superior de los datos se representa mediante un bigote que une el lado derecho de la caja con Ia ubicacion del valor
mayor, Xmayor
La grlifica de caja y bigote de los tiempos necesarios para arreglarse que aparece en Ia figura
3.4 muestra una muy ligera asimetria a Ia derecha, ya que la distancia entre la mediana y el valor mayor es levemente mayor que la distancia entre el menor valor y la mediana. El bigote derecho es un
poco mas largo que el izquierdo.
I EMPLO
l
3.15
Fie
Gri
big
cor
cua
-
3.3 : Analisis exploratorio de datos
101
SOLUCI6N
En Ia figura 3.5 aparece la grafica de caja y bigote de los rendimientos en 2003 para los fondos de
inversi6n de riesgo bajo, promedio, y alto, elaborada en Minitab. Este programa muestra la grafica
de manerit vertical, de inferior (bajo) a superior (alto). El asterisco (*)de los fondos de riesgo promedio representa Ia presencia de valores atipicos. 2 La media del porcentaje de rendimiento y los
cuartiles de los fondos de alto riesgo son mayores que los correspondientes a los fondos de riesgo
bajo o promedio. Los fondos de riesgo promedio son asimetricos a la derecha, a causa del rendimiento extremadamente alto de uno de ellos (78). Los fondos de alto riesgo aparecen asimetricos a
Ia izquierda por ellargo bigote inferior, pero la mediana del rendimiento esta mas cerca del primer
cuartil que del tercero. Los fondos de bajo riesgo aparecen ligeramente asimetricos a la derecha porque el bigote superior es mas largo que el interior.
FIGURA 3.5
Grafica de caja y bigote
de los rendimientos en
2003, en Minitab, para
los fondos de inversion
de riesgo bajo,
promedio y alto.
eo
70
(\')
860
N
c:
Q)S()
~Q)4Q
:g30
Q)
a:
20
10"-------~------------~~------------~------~
promedio
alto
bajo
Riesgo
En la figura 3.6 se comprueba la relaci6n que existe entre la grafica de caja y bigote y el poligono de cuatro tipos distintos de distribuci6n. (Nota: El area bajo cada poligono se divide en cuartiles
que corresponden al resumen de cinco nfuneros de la gnifica de caja y bigote.)
FIGURA 3.6
G.raficas de caja y
b1gote, y sus polfgonos
correspondientes, de
cuatro distribuciones ..
r-----~-----~
r-------~--1
Panel A
Distribuci6n en forma de campana
PanelS
Distribuci6n asimetrica a Ia izquierda
I '.:
.. ~
'I
I '<',
. I
, ..
r--~-------1
r-- -1.....___.._____.r--- ~
PaneiC
Distribuci6n asimetrica a Ia derecha
PaneiD
Di$tribuci6n rectangular
102
3.3
soft
lla:
nist
lugl
vos
tos
2,0(
de a
sa q
nue
a! pt
reut
Fuen
Softn
1153.
a. E
b. R
Jc
.....
Aprendizaje basico
'----'-----'
12
7 -5 -8 7 9
a. Elabore el resumen de cinco nfuneros.
b. Construya su gratica de caja y bigote, y describa la forma.
c. Compare su respuesta del inciso b) con Ia del problema 3.4c)
de Ia pagina 90. Analicela.
Aplicaci6n de conceptos
Puede resolver los problemas 3.31 a 3.36 manualmente o en Excel, Minitab o SPSS.
3.3~
2628
3.32 Durante el cic1o esco1ar 2002-2003, muchas universidades estadounidenses elevaron sus cuotas y tarifas de manutenci6n, como consecuencia de la reducci6n de los subsidios
estatales (Mary Beth Marklein, "Public Universities Raise Tuition, Fees -and Ire", USA Today, 8 de agosto, 2002, 1A-2A). A
continuaci6n se representa el cambio del costo de inscripci6n,
un dormitorio compartido y el plan de alimentaci6n mas solicitado entre los ciclos escolares 2001-2002 y 2002-2003, para
una muestra de 10 universidades publicas. COLLEGECOST
Universidad
Cambioen
el costo ($)
1,589
593
1,223
869
423
1,720
708
1,425
922
308
cheq
de de
(en c
consc
de 2l
b~
Fuente
Union
deCor
a.
El;
de
b. Re
vu
c. l,Q
Ia 1
nej
3.35
hambt
cadenl
62.5
15.0 25.0
1153.
a. Elabore el resumen de cinco nUm.eros.
b. Realice su gratica de caja y bigote, y describa la forma de
los datos.
3.34 Los siguientes datos representan la tarifa (en dolares) por
cheque devuelto de una muestra de 23 bancos, para los clientes
de deposito directo que conservan un saldo de $1 00 y la cuota
(en d6lares) mensual por manejo de cuenta, si sus cuentas no
conservan el saldo minirno requerido de $1,500, de una muestra
de 26 bancos. BANKCOSTl BANKCOST2
.
3.4
103
Hamburguesas
19 31 34 35 39 39 43
Polio
7 9 15 16 16 18 22 25 27 33 39
Fuente: "Quick Bites", Copyright tO 2001 por Consumers Union of US.,
Inc., Yonkers, NY 10703-1057. Adaptado con autorizacion de Consumer
Reports, marzo de 2001, 46.
La covarianza
La covarianza mide la fortaleza de Ia relacion lineal entre dos variables numericas (Xy Y). La ecuacion 3.16 define la covarianza de una muestra y el ejemplo 3.16 ilustra su uso.
F
104
LA COVARIANZA MUESTRAL
n
L (X, - X)(li - Y)
cov(X,Y) = ..~..:=""-------
n-1
(3.16)
' - - -
EJEMPLO 3.16
Tip<
entr
9.579
= -9-1
= 1.19738
TABLA 3.8
Coeficiente de gastos
Coeficiente de gastos y
rendimientos en 2003
de los fondos de
inversion de alto riesgo
para pequerios
capitales.
1.25
0.72
1.57
1.40
1.33
1.61
1.68
37.3
39.2
44.2
44.5
53.8
56.6
59.3
1~
~.4
1~
~.5
FIGURA 3.7
I
I
II
Rendimiento en 2003
:c
:8
A
Expe... Retum2003
OC-XBe.,f\'-YBe.,
1 ratio 00
M
1.47078
37.3
2
1.25
7.81111
39.2
3
0.72
-1.58889
44.2
4
1.57
-0.32822
44.5
5
1.4
-0.05289
1.33
53.8
6
1.Dl44
1.61
56.6
7
2.53711
1.68
59.3
8.
62.4
0.72444
1.42
9
-2.29489
66.5
10
1.2
11
Celcullltlons
12
1.353333333
13
XBer
51..53333333
YBer
14
lf-1
8
15
9.57900
16
Sum
1.19738
Covariance
17
Fl(;
AVERAGE(A2:A10)
AVERAGE(82:B10)
COUNT(A2:A10 )1
SUM(C2:C10)
C161C15
--
105
La covarianza tiene un defecto importante como medida de la relaci6n lineal entre dos variables
numericas. Como la covarianza puede tener cualquier valor, es imposible determinar la fortaleza relativa de Ia relaci6n. Para ello, es necesario calcular el coeficiente de correlaci6n.
Coeficiente de correlaci6n
El coeficiente de correlaci6n mide Ia fortaleza relativa de una relaci6n lineal entre dos variables numericas. Los valores del coeficiente de correlaci6n varian desde -1 para una correlaci6n negativa
perfecta, hasta + 1 para una correlaci6n positiva perfecta. Perfecta quiere decir que si se trazaran los
puntas en un diagrama de dispersion, todos ellos se podrian unir por media de una linea recta. AI tratar con datos poblacionales para variables numericas, se utiliza Ia letra griega p como simbolo del
coeficiente de correlaci6n. En Ia figura 3.8 se ilustran tres tipos diferentes de asociaci6n entre dos
variables.
FIGURA 3.8
Tipos de asociaci6n
entre variables.
'-,, _
0
0
,,,
~,
Panel A
Correlaci6n negativa
perfects (p =-1)
('I
(p= 0)
() L)
PanelS
Sin correlaci6n
_..,<
'.,.-
__.,....
_,.,.._
0 (:) 0 0
)(
PaneiC
Correlaci6n positiva
perfects (p = +1)
En el panel A de Ia figura 3.8 hay una relaci6n lineal negativa perfecta entre X y Y. De esta manera, el coeficiente de relaci6n p es igual a -1, y al aumentar X, Y disminuye de una manera perfectamente predecible. El panel B ilustra una situaci6n en Ia que no existe relaci6n entre X y Y. En este
caso, el coeficiente de correlaci6n p es igual a 0, y al aumentar X no existe tendencia de Y a aumentar ni disminuir. El panel C ilustra una relaci6n positiva perfecta en Ia que p es igual a+ 1. En este caso, Y aumenta de una manera perfectamente predecible cuando lo hace X
Cuando se tienen datos muestrales, se calcula el coeficiente muestral de correlaci6n r. AI utilizar
los datos de una muestra, es dificil que se tenga un coeficiente muestral de exactamente + 1 o -1 . En
Ia figura 3.9 de Ia pagina 106 se presentan diagramas de dispersi6n, con sus respectivos coeficientes
muestrales de correlaci6n r para seis conjuntos de datos, cada uno de los cuales contiene 100 valoresdeXyY.
En el panel A, el coeficiente de correlaci6n r es -o.9. Como se observa, donde los val ores de X
son mas pequefios existe una fuerte tendencia a que los valores de Y sean grandes. De Ia rnisma forma, los valores pequefios de X tienden a herrnanarse con valores pequefios en Y. No todos los datos
quedan sabre una linea recta, por lo que Ia asociaci6n entre X y Y no se describe como perfecta. Los
datos del panel B tienen un coeficiente de correlaci6n igual a -o.6, y los valores pequefios de X tienden a herrnanarse con los valores grandes de Y. La relaci6n lineal entre X y Yen el panel B no es tan
fuerte como en el panel A. Asi, el coeficiente de correlaci6n en el panel B no es tan negativo como
en el panel A. En el panel C, la relaci6n lineal entre X y Yes muy debil, r = -o.3, y s6lo existe una
ligera tendencia de los valores pequefios de X a herrnanarse con los mas grandes de Y. En los paneles D a F se describen conjuntos de datos con coeficientes de correlaci6n positivos, porque los valores pequeiios de X tienden a herrnanarse con los valores pequefios de Y, y los val ores grandes de X
tienden a asociarse con los valores grandes de Y.
En el analisis de Ia figura 3.9, las -relaciones se describieron deliberadamente como tendencias
y no como causa-efecto. Ese terrnino se utiliz6 con un prop6sito. La sola correlaci6n no prueba que
r
106
... ..........
- ...,.; ....
..
.. .,,,....'...
100 -
50-
tt
-100
r= - .9
100 -
.. . .. :
50-
-100
-200
100
200
r= - .3
PaneiC
100 -
...
PaneiE
r=.6
300
400
50-
200
T
200
.. ...
4t
100
T
100
~
!
I.
*
t"'
100 -
-L-r-------,-------~------~------~
I
I
-100
T
0
r=.S
T
-100
-200
-~--~-----~~--~~--~----~--~
Panel D
.
.
..
.
.
.
,.
...
.... .-..,.
50-
...-. .. .
., ...
..,...
-L---r-----~-----r-,----,,------r-,----,J,
-300
'. ...
50-
100
-100
.. .. .
. .. ,.. ..
-200
r=-.6
100-
~------r------r--~--~----~-J
..30IJ
PanelS
0-
Panel A
50-
-~------------~------------r-,----~
-200
~
!
. ...
. .
..
.. .....
, . . .,.
.
... :''
. , .
100 -
0 -
'
, .....
. ..
.......
..... .
.,.
150
50
PaneiF
c
c
300
r=.9
I<
n
c
ri
c
FIGURA 3.9 Seis diagramas de dispersion creados con Minitab y sus respectivos
coeficientes de correlaci6n r.
existe un efecto de causalidad, es decir, que el cambio en el valor de una variable caus6 el cambio en
la otra variable. Una correlaci6n fuerte puede producirse por simple coincidencia, por el efecto de
una tercera variable que no se tom6 en cuenta en el calculo, o por una relaci6n de causa-efecto. Seria necesario realizar un analisis adicional para determinar cuai de estas tres situaciones produce
verdaderamente la correlaci6n. Por tanto, se afinna que la causalidad implica correlaci6n, perola sola correlaci6n noimplica causalidad.
La ecuaci6n (3 .17) define el coeficiente muestral de correlaci6n r y el ejemplo 3 .17 ilustra
su uso.
107
r = _co_v_,_(X--'' -Y_..)
(3.17)
SxSy
n
L (X; - X)(Yi - f)
cov(X, Y) = .:.:i-=<1- - - - - -
donde
n-1
n
""
-2
."-)X; -X)
Sx=
_,_i==I-n---1--
n
""
-2
""',(Yi - Y)
i=l
n-1
Sy=
El ejemplo 3.17 ilustra el calculo del coeficiente muestral de correlaci6n r mediante Ia ecuaci6n
(3.17).
EJEMPLO 3.17
cov(X, Y)
= --'--:.........:..
Sx Sy
1.19738
=-------(0.287663)(1 0.554383)
= 0.3943786
FIGURA 3.10
Hoja de Excel que
calcula el coeficiente
de correlaci6n entre
los gastos y los
rendimientos en 2003
de los fondos de alto
ries~o para pequefios
cap1tales.
IE
A
0
B
c
1 Expe-ndlo Retum2003 (X..XBelf (V-YB~ ~..XB~YB~
2
1.25
37.3
0.0107
202.5878
1.4108
3
o.n
39.2
OA011
152.1111
7.8111
1.57
0..11469
53.7778
-1.5889
44.2
5
U.U711
.0.3282
1.4
445 0.111122
6
1.33
OJI005
5.1378
.0.11529
53.8
7
1.61
56.6
0.11659
25.6711
1.3004
60.3211
25371
1.68
59.3
0.1067
8
9
118.1*4
o.n44
1.42
62.4
0.11044
10
1.2
224.0011
..2.2949
665
0.8235
11
891.16
Sums:
0.662
9.5790
12
13
C.lculatl14
XBer
1 353333333
15
YBer
5153333333
n-1
16
8
17
Cowrie nee
1.19738
18
0.281662997
Sx
Sy
19
10.554382911
20
8.394378596
"
-AVERAGE(A2:A10)
AVERAGE(B2:810)
COUNT(A2:A10) 1
E111E16
SQRT(C111E16)
SQRT(D111E16)
CORREL(A2:A10,B2:B10)
or
E171(E18 * E19)
108
a.
b. (
c. i
I
d. i
3.4
nes
En resumen, el coeficiente de correlacion seiiala la relacion, o asociacion, lineal entre dos variables numericas. Cuando el coeficiente de correlacion se acerca a +I o -1, es mas fuerte la relacion
lineal entre las dos variables. Cuando el coeficiente de correlacion se acerca a 0, existe poca o ninguna relacion lineal. El signo del coeficiente de correlacion seiiala si los datos se correlacionan de
manera positiva (es decir, los val ores mas grandes de X se suelen hermanar con los valores mas
grandes de Y) o negativa (es decir, los val ores mas grandes de X se suelen hermanar con los valores
mas pequeiios de 1'). La existencia de una correlacion fuerte no implica un efecto causal. Solo seiiala las tendencias presentes en los datos.
Pa
Un
Es1
Jaf
Ch
Ca:
Ho
M(
._l
Aprendizaje basico
3.37 A continuacion se presenta un conjunto de datos para una
muestra con n = 11 elementos:
X
21
8 3
6 10
12
15 24 9 18 30 36
9 15
12 27
45
18
54
a. Calcule la covarianza.
b. Calcule el coeficiente de correlacion.
c. i., Que tan fuerte es la relacion entre X y Y? Explique su res-
puesta.
Aplicaci6n de conceptos
Puede resolver los problemas 3.38 a 3.43 manualmente o en Excel, Minitab o SPSS.
3.38 En un articulo publicado recientemente (J. Clements,
"Why Investors Should Put up to 30% of Their Stock Portfolio
in Foreign Funds", The Wall Street Journal, 26 de noviembre,
2003, D 1) que analiza las inversiones en acciones extranjeras
asegura que: el coeficiente de correlacion entre el rendimiento
de inversiones en acciones estadounidenses y acciones intemacionales de gran capital fue de 0.80; entre acciones estadounidenses y acciones intemacionales de pequeiio capital fue de
0.53; entre acciones estadounidenses y boi).os intemacionales
fue de 0.03; entre acciones estadounidenses y acciones de mercarlos emergentes fue de 0.71; y entre acciones estadounidenses
y deuda de mercados emergentes fue de 0.58.
a. i.,Que conclusiones se obtienen sobre la fortaleza de la relacion entre el rendimiento de inversiones en acciones estadounidenses y los otros cinco tipos de inversiones?
b. Compare los resultados de a) con los del problema 3.39a).
3.39 Un articulo publicado recientemente (J. Clements, "Why
Investors Should Put up to 30% of Their Stock Portfolio inForeign Funds", The Wall Street Journal, 26 de noviembre, 2003,
D 1) que analiza las inversiones en bonos extranjeros asegura
que: el coeficiente de relacion entre el rendimiento de la inversion en bonos estadounidenses y acciones intemacionales de
gran capital fue de -o.l3; entre bonos estadounidenses y acciones intemacionales de pequeiio capital fue de -Q.l8; entre bonos estadounidenses y bonos intemacionales fue de 0.48; entre
bonos estadounidenses y acciones de mercados emergentes fue
de -o.20; y entre bonos estadounidenses y deuda de mercados
emergentes fue de 0.10.
a. i_,Que .conclusiones se obtienen sobre la fortaleza de la relacion entre el rendimiento de las inversiones en bonos estadounidenses y los otros cinco tipos de inversiones?
b. Compare los resultados de a) con los del problema 3.38a).
3.40 Los siguientes datos COFFEEDRINK representan las calorias y la grasa (en gramos) que contienen las raciones con 16
onzas de bebidas a base de cafe servidas en Dunkin' Donuts y
en Starbucks.
Producto
Calorias Grasa
Co
Tai
Sin
Fue1
Trcu;
a. <
b. (
c. i
(
1
d. i
los
mill
Ch
St.
Atl
Ho
240
260
8.0
3.5
350
22.0
Bo
Ch
De
Da
350
20.0
Ba:
Se;
420
16.0
510
22.0
530
19.0
3.41 Los siguientes datos representan el valor de exportaciones e importaciones de varios paises en 200 1: EXPIMP
Pais
Exportaciones
Importaciones
874.1
730.8
403.5
266.2
259.9
191.1
158.5
150.4
122.5
121.8
912.8
1180.2
349.1
243.6
227.2
202.0
176.2
141.1
107.3
116.0
Union Europea
Estados Unidos
Japon
China
Canadi
Hong Kong
Mexico
Corea del Sur
Taiwan
Singapur
a. Calcule la covarianza.
b. Calcule el coeficiente de correlacion.
~~~I 3.s
Traspaso
Infracciones
416
375
237
207
200
193
156
155
140
11.9
7.3
10.6
22.9
6.5
15.2
18.2
21.7
31.5
Ciudad
San Francisco
Orlando
Washington-Dulles
Los Angeles
Detroit
SanJuan
Miami
Nueva York-JFK
Washington-Reagan
Honolulu
109
Traspaso
Infracciones
110
100
90
88
79
70
20.7
9.9
14.8
25.1
13.5
10.3
13.1
30.1
31.8
14.9
64
53
47
37
Fuente: Alan B. Krueger, "A Small Dose of Common Sense Would Help
Congress Break the Gridlock over Airport Security", The New York nmes,
15 de noviembre, 2001, C2.
a. Calcule la covarianza.
b. Calcule el coeficiente de correlacion.
c. j,Que conclusiones obtiene sobre la relacion que existe entre
Ia tasa de traspaso de los dispositivos y las infracciones de
seguridad detectadas?
Capacidad
de Ia bateria
Tiempo
deuso
Capacidad
de Ia bateria
800
1500
1300
1550
900
875
750
1100
850
1.50
2.25
2.25
3.25
2.25
2.25
2.50
2.25
2.00
450
900
900
900
700
800
800
900
900
a. Calcule la covarianza.
b. Calcule el coeficiente de correlacion.
c. j,Que conclusiones se obtienen sobre la relacion entre la capacidad de la bateria y el tiempo de uso en modo digital?
d. Usted espera que los telefonos con bateria de mayor capacidad tengan un tiempo de uso superioqLo sustentan los
datos?
11 0
Me
Me
Me
Pri
Aspectos eticos
En todos los analisis de datos, los aspectos eticos son de vital importancia. Como consumidor cotidiano de informacion, usted debe cuestionar lo que lee en periodicos y revistas, lo que escucha en la
radio y la televisi6n, asi como lo que ve en Internet. A lo largo del tiempo, se ha manifestado mucho
escepticismo sobre el proposito, el enfoque y la objetividad de los estudios que se publican. Quiza
ningUn comentario al respecto es mas representativo que la frase atribuida al famoso estadista britanico del siglo XIX, Benjamin Disraeli: "Existen tres clases de mentiras: las mentiras, las mentiras detestables y la estadistica".
Las consideraciones eticas aparecen al decidir cuales resultados incluir en un reporte. Usted debe documentar los resultados tanto buenos como malos. Ademas, al hacer exposiciones orales y presentar reportes escritos, debe comunicar los resultados de manera imparcial, objetiva y neutral. El
comportamiento falto de etica se presenta al seleccionar de forma deliberada una medida resumida
inapropiada (por ejemplo, la media de un conjunto de datos muy asimetrico), para distorsionar los
hechos con el fm de respaldar una posicion en particular. Tambien es etico dejar de reportar de manera selectiva descubrimientos pertinentes, cuando estos no respaldan una posicion en particular.
Ter
RaJ
Rar
RaJ
Rar
Var
RESUMEN
Este capitulo trato sobre las medidas descriptivas. En este y el
capitulo anterior, estudi6 la estadistica deseriptiva: c6mo se presentan los datos en tab las y graficas y luego su resumen, descripcion, analisis e interpretaci6n. AI manejar los datos relacionados
con los fondos de inversion, usted tuvo la oportunidad de presentar
informacion util mediante el uso de diagramas circulares, histogramas y otros metodos graticos. Exploro las caracteristicas del
desempeiio en el pasado, como la tendencia central, variabilidad y forma, utilizando medidas descriptivas numericas como
la media, la mediana, los cuartiles, el rango, la desviacion estandar y el coeficiente de correlacion. En la tabla 3.9 se presenta una lista de las medidas descriptivas numericas incluidas en
este capitulo.
En el capitulo siguiente, se estudiaran los principios basicosde la probabilidad, con el fin de eliminar la brecha entre el
tema de la estadistica descriptiva y el de la estadistica inferencial.
TABLA 3.9
Tipo de analisis
Datos numericos
Resumen de las
medidas numericas
descriptivas.
S=
Ati1
AsiJ
AsiJ
Coe
Coe
(
Coe
Co,
Co,
. Conceptos clave
FORMULAS IMPORTANTES
Media de una muestra
Coeficiente de variaci6n
LX;
=1=1-
cv
Z =X
n +- va1or c1as1'ficado
Mediana
= 2
(3.2)
N
Q1 = n + valor clasificado
Ix;
(3.3)
Jl
Tercer cuartil Q3
3(n + 1)
=.l:L_
N
(3.13)
Varianza poblacional
.
valor clasificado
(3.4)
L(X;- Jl)2
Media geometrica
=(X,
-X
s (312)
.
Media poblacional
Primer cuartil Q 1
Xa
02
x2 X .. . X Xn)lln
(3.5)
Ran go
Rango = Xmayor - Xmenor
Rango intercuartil
L(X;- J.!)2
La covarianza muestral
(3.8)
L (X; - X)(Y; - Y)
cov(X, Y)
"'
-2
"""'(X; -X)
n-1
(3.15)
= ""i=::L'----
(3.14)
(3.6)
cr=
(3. 7)
Rango intercuartil = Q3 - Q1
= "";-"''---N
82
(3.11)
Puntuaciones Z
Median a
}oo%
(3.1)
= (;
= -"i-::...1- -n--1- - -
(3.16)
(3.9)
r = cov{X,Y)
SxSy
(3.17)
"
'
-2
"""'(X;
-X)
s =.JS2 = ..:.i=='~--n-1
(3.10)
CONCEPTOS CLAVE
Atipico 86
Asimetria 88
Asimetricos positivos 88
Coeficiente de correlaci6n 105
Coeficiente muestral de
correlaci6n 106
Coeficiente de variaci6n 85
Covarianza 103
Covan
anza de una muest:ra 103
Cuartiles 77
Desviaci6n estandar 82
Desviaci6n estandar de una muestra
82
Desviaci6n estandar poblacional
Dispersion 72
Dispersion media 81
Distribuci6n 72
Forma 72
95 .
Moda
76
111
112
Puntuaciones Z 86
Q1: primer cuartil 77
Q2 : segundo cuartil 77
Q3: tercer cuartil 77
Rango 80
Rango intercuartil 81
Regia de Chebyshev 97
Regia empirica 96
Resumen de cinco nfuneros 99
Sesgados a Ia derecha 88
Sesgados a Ia izquierda 88
Simetrica 88
Suma de cuadrados 82
Tendencia central 72
Valor extrema 86
Variacion 72
Varianza 82
Varianza para una muestra
Varianza poblacional 95
a
b
82
c
d
3
q
PROBLEMAS DE REPASO
Revision de su comprension
3.44 ~ Cuales son las propiedades de un conjunto de datos numericos?
3.45
~Que
3.46 ~ Cuales son las diferencias entre media, mediana y moda, y cuales son las ventajas y desventajas de cada una de elias?
3.47
~Como
cuartil?
3.48
~Que
3.49
~Que
mide Ia puntuacion Z?
3.50
3~51 ~Como nos ayuda Ia regia empirica a explicar de que maneras se agrupan y distribuyen los valores de un conjunto de datos numericos?
3.52
~En
hev?
3.53
~Que
3.54
~En
lacion?
rc
t
Puede resolver los problemas 3.55 a 3,61 manualmente o en Excel, Minitab, o SPSS. Le recomendamos
resolver los problemas 3.62 a 3.80 con Excel, Minitab, o SPSS.
3.55 Una caracteristica de calidad que resulta de interes en el
proceso de llenado de bolsitas de te es el peso que contienen. Si
las bolsas quedan semivacias, se presentan dos problemas. Primero, los clientes no podrian prepararse el te tan cargado como
lo desean. Segundo, Ia empresa podria infringir las !eyes de veracidad en lo descrito en Ia etiqueta. En este producto, el peso
irnpreso en Ia etiqueta del paquete seiiala que, en promedio, hay
5.5 gramos de teen cada bolsa. Si Ia cantidad media de teen
una bolsa supera ese peso, Ia empresa esta. regalando producto.
c
u
fc
g
d
BAGS
5
5.41
5.51
5.55
5.58
5.36
Aplicacion de conceptos
y
I<
p
permitido vender cierta clase de seguro de vida, llamado Segura de Vida de Caja de Ahorro (SBLI, siglas en ingles para Savings Bank Life Insurance). El proceso de aprobacion se compone de cada etapa de suscripcion, la cual incluye una revision
de Ia solicitud, una consulta a Ia oficina de informacion medica,
posibles peticiones de informacion medica adicional y examenes medicos, asi como Ia etapa de consolidacion durante Ia cual
se generan las p61izas y se envian al banco para su entrega. La
capacidad de entregar a los clientes de manera oportuna las polizas aprobadas resulta vital para que este servicio sea rentable
para el banco. En el transcurso de un mes, se selecciono una
muestra aleatoria de 27 polizas aprobadas, y se registro el siguiente tiempo de procesamiento total, en dias: INSURANCE
73 19 16 64 28 28 31 90 60 56 31 56 22 18
45 48 17 17 17 91 92 63 50 51 69 16 17
3
a
b
c.
3
p
u
p
v
eJ
0
h
e:
8
8
8.
8
8
.......
Problemas de repaso
a. Calcule Ia media, Ia mediana, primero y tercer cuartiles.
b. Calcule el rango, el rango intercuartil, Ia varianza, Ia desviacion estandar y el coeficiente de variacion.
c. Elabore una gnifica de caja y bigote. l,Los datos son asimetricos? De ser asi, (,Como?
d. l,Que le responderia usted a un cliente que entra al banco
con el fin de comprar este tipo de p6liza de seguros y le pregunta cUlinto dura el proceso de aprobacion?
35
137
11
19
126
110
12
165
32
29
13 10
27
33
31
27
123
81
74
27
61 . 35
94
31
26
28
29
26
25
14
13
52
30
22
36
26
20
23
110 29
152
68
113
a. Calcule la media, la mediana, el rango y la desviaci6n estandar de la anchura. Interprete estas medidas de tendencia central y variabilidad.
b. Elabore el resumen de cinco ntimeros.
c. Realice su grafica de caja y bigote y describa Ia forma.
d. l,Que concluye sobre el ntimero de canaletas que satisfacen
las necesidades de la empresa, a! medir entre 8.31 y 8.61
pulgadas de ancho?
1.02 0.53 0.93 1.60 0.80 1.05 6.32 3.93 5.45 0.97
114
7.50
7.96
8.92
PlantaR
9.54 11.46 16.62 12.62 25.75 15.41 14.29 13.13 13.7110.04
5.75 12.46 9.17 13.21
3.63 Los recortes presupuestales estatales forzaron el aumento en los costas de manutencion para las universidades publicas
durante el ciclo escolar 2003-2004. Los datos que se encuentran en el archivo TUITION incluyen la diferencia en los costas
de manutencion entre los ciclos 2002-2003 y 2003-2004 para
los alumnos procedentes del mismo estado donde se encuentra
la institucion y los procedentes de otros estados.
a. Calcule la media. la mediana. primero y tercer cuartiles de la
diferencia en los costas de manutencion entre los ciclos
2002-2003 y 2003-2004 para los alumnos procedentes del
mismo estado donde se encuentra Ia instituci6n y los procedentes de otros estados.
b. Calcule el rango, el rango intercuartil, la varianza, la desviaci6n estandar y el coeficiente de variacion de la diferencia
en los costas de manutencion entre los ciclos 2002-2003 y
2003-2004 para los alumnos procedentes del mismo estado
donde se encuentra Ia institucion y los procedentes de otros
estados.
c. Elabore Ia gnifica de caja y bigote de la diferencia en los
costos de manutencion entre los ciclos 2002-2003 y 20032004 para los alumnos procedentes del mismo estado donde
se encuentra la institucion y los procedentes de otros estados. {,Los datos son asimetricos? De ser asi, J,c6mo?
d. J,Que conclusiones obtendria en relacion con Ia diferencia
en los costas de manutencion entre los ciclos 2002-2003 y
2003-2004 para los alumnos procedentes del mismo estado
donde se encuentra la institucion y los procedentes de otros
estados?
Realice lo siguiente para los cuatro tipos de comida (comida seca para perro, comida enlatada para perro, comida seca para gato y comida enlatada para gato ), y para las variables costo por
servicio, proteina en gramos y grasa en gramos:
a. Calcule la media, Ia mediana. primero y tercer cuartiles.
b. Calcule el rango, el rango intercuartil, Ia varianza. la desviacion estandar y el coeficiente de variaci6n.
c.
3
0
Sl
p
I!
p
n
t<
p
d
n
s:
j:
a
t:
tc
a
b
d
(
2
d
c
t
s
a
t
Problemas de repaso
c. Elabore las graficas de barras de !ado a !ado y Ia de caja y bigote, de los cuatro tipos (comida seca para perrci, comida enlatada para perro, comida seca para gato y comida enlatada
para gato). (.Son asimetricos los datos de alguno de los tipos
de comida? De ser asi, (.c6mo?
d. i,Que conclusiones obtiene en relaci6n con las diferencias
entre los cuatro tipos (comida seca para perro, comida enlatada para perro, comida seca para gato y comida enlatada
para gato)?
115
3.69 Los datos incluidos en el arcbivo AIRCLEANERS representan el precio, el costo anual de energia y el costo anual del
filtro de unos limpiadores de aire.
a. Calcule el coeficiente de correlacion entre el precio y el costo de energia.
b. Calcule el coeficiente de correlaci6n entre el precio y el costo del filtro.
c: l,Que conclusiones obtiene sobre Ia relaci6n del costo de
energia y del costG del filtro con el precio de los limpiadores
de aire?
Fuente: "Portable Room Air Cleaners ", Copyright :> 2002 par Consumers
Union of U.S., Inc., Yonkers, NY 10703-1057. Adaptado con autorizacion
de Consumer Reports,febrero de 2002, 47.
3.71 Usted quiere estudiar las caracteristicas de los automoviles modelo 2002, en terminos de las siguientes variables: millas
por galon, longitud, anchura, necesidades de circunferencia de
viraje, peso y capacidad del compartimiento de equipaje. AUT02002
Fuente: "The 2002 Cars ", Copyright :> 2002 por Consumers Union of
U.S., Inc., Yonkers, NY 10703-1057. Adaptado con autorizacion de Consumer Reports, abril de 2002.
116
o1
3.72 Consulte los datos del problema 3.71. Usted quiere comparar los vehiculos utilitarios (o suv, siglas en ingles para
sports utility vehicles) con los que no son de ese tipo, en terminos de millas por gal6n, longitud, anchura, necesidades de circunferencia de viraje, peso y capacidad del compartimiento de
carga. Para cada una de esas variables, y considerando dos tipos
de vehiculos:
a. Calcule la media, Ia mediana, primero y tercer cuartiles.
b. Calcule el rango, el rango intercuariil, Ia varianza, Ia desvia
ci6n estandar y el coeficiente de variaci6n.
c. Elabore las graficas de barras de lado a lado y de caja y bigote. t,Los datos son asimetricos? De ser asi, t,c6mo?
d. t,Que conclusiones obtiene en relaci6n con las diferencias
entre los suv y los vehiculos de otra clase?
Para los restaurantes de Nueva York y Long Island, las variables calificaci6n de Ia comida, calificaci6n del decorado, calificaci6n del servicio y calificaci6n del precio por persona:
a. Calcule la media, la mediana, primero y tercer cuartiles.
ra
PI
ril
tu
te
d<
to
re
pE
di
qt
di
to
de
di.
Ej
3.
el
ca
co
(ru
Ci(
ve
Y'
en
ev
(pi
de
mi
ba
art
cic
tar
50,000
40,000
D
D
U>
f 30,000
:0
.,
dif
en
COl
to<
cri
EICamino
Sequoia
Stanford
20,000
10,000
El
N/D
0~----~~----~~----------~----~~-------
Bypass de arterias
coronarias
Alumbramiento
normal
Trasplante
de cadera
D En todas las operaciones, los costos del Sequoia son los promedios
del 50% medio de todos los precios.
D .Los datos de Stanford son el costo p.romedio de todas las operaciones.
Fuente: Stanford Medical Center, Sequoia Hospital y Hospital El Camino.
da
Ver
------- - -----........
jiiiiii>
Problemas de repaso
ofrecio a trabajar voluntariamente con Excel, Minitab o SPSS para obtener informacion resumida, tablas y graticas necesarias
para el conjunto de datos que contiene diversas variables numericas y categoricas estipulado por el maestro como objeto de estudio. Se le acerca con los resultados impresos y exclama: "Lo
tengo todo: -las medias, las medianas, las desviaciones estindar, las gnificas de caja y bigote, y los diagramas de pastel- de
todas nuestras variables. El problema es que algunos de los
resultados parecen extrailos, como las gnificas de caja y bigote
para genera y mayores de edad, y los diagramas de pastel del indice de nivel de estudios y de Ia estatura. Tampoco entiendo por
que el profesor Krehbiel dice que no podemos obtener Ia estadistica descriptiva de algunas de las variables; jlas tengo para
todo! Mira, la media de Ia estatura es 68.23, Ia media del indice
de nivel de estudios es 2.76, Ia media del genera es 1.50, Ia media para los mayores de edad es 4.33". l,Cwil seria su respuesta?
UD lJ-..:
~ (6\
.:=::,; \VJ
_. !=!
L5 rc?
\- _, (6)
_.
- -- -
------
R
1.5
r;~.:Jn
R
[Ui 0t.J
rol ((j\
LS (CY
.~ .;:::.~
\.~1
- --
- - - -- - - -
Ei archivo MUTUALFUNDS2004 contiene informacion relacionada con 12 variables a partir de una muestra de 121 fondos de inversion. Las variables son:
Fund -Nombre del fonda de inversion.
Category - Tipo de acciones que abarca el fonda de inversion: pequefio, mediano o gran capital.
?bjective -Dbjetivo de las acciones que abarca el fonda de
Inversion: crecimiento o valor.
Assets - Activos en rnillones de dolare~.
Fees -:cargos por venta (no o sf).
11 7
118
II
(,Para que variable del caso Administracion del Springville Herald del capitulo 2 (vea la pagina 62) son necesarias las medidas numericas descriptivas? Para la variable que identifique:
1. Calcule las medidas descriptivas numericas apropiadas y
elabore un diagrarna de caja y bigote.
Aplique sus conocimientos sobre el uso de las medidas numericas descriptivas a este Caso Web que es continuaci6n
del capitulo 2.
Visite de nuevo el sitio web de servicio de inversion
StockTout www.prenhall.com/Springville/StockToutHome.htm, reexamine su datos de respaldo y luego responda lo
siguiente:
1. Reexamine los datos que exploro al resolver el Caso Web
del capitulo 2. (,Es posible calcular medidas descriptivas
de todas las variables? (,Como respaldarian estas estadisti-
1. Kendall, M.G. y A. Stuart, The Advanced Theory of Statistics, vol. 1 (Londres: Charles W. Griffin, 1958).
2. Microsoft Excel 2003 (Redmond, WA: Microsoft Corporation, 2002).
3. Minitab Version 14 (State College, PA: Minitab Inc., 2004).
4. SPSS Base 12.0 Brief Guide (Upper Saddle River, NJ: Prentice Hall, 2003).
c:
c
:rv
cas resumidas las demandas de StockTout? (,Como influyen esas estadisticas resumidas en su percepcion del registro StockTout?
2. Evalue los metodos utilizados por StockTout para resumir
los resultados de su encuesta a los clientes www.prenhall.com/Springville/ST_Survey.htm. (,Hay algo que
usted haria de otra manera para resumir estos resultados?
3. Observe que la Ultima pregunta de la encuesta tiene menos respuestas . (,Que factores pueden haber limitado el
ntimero de respuestas a esa pregunta?
Pa
lee
cu
de
fw
di<
da
yJ
int
ro
20
fw
Pc
Apendice 3
Co
Uso de software
PIJ
Ex
dir
Pc:
Ab
fig
Pat
fie;
CI
lllil
CIU
qu(
+
Apendice
roenor, y de clic en Aceptar. Los resultados aparecen en otra
hoja de trabajo.
0 puede usar cualquiera de esas funciones de estadisticas
muestrales de Ia hoja de trabajo con sus propias formulas, incluyendo PROMEDIO (para Ia media), MEDIANA, MODA,
CUARTIL, DESVEST, VAR, MIN, MAX, SUMA, CONTAR,
MAYOR o MENOR.
ada
~0 de ~trada:
I Agrupado por:
I P' B,O!Uos en Ia prinera fila
r Opdones de s a l d a - - - - - - --
--,
Rango de (illida:
Ir
r
IP'
Resumen de estadisticas
tjvel de confianza para Ia me<ia:
K-1!simo mtvor:
~%
i-l1_ __
11
119
A3.2 MINITAB
Calculo de estadistica descriptiva
Para generar Ia estadistica descriptiva de los rendimientos en
2003 correspondientes a los distintos niveles de riesgo que aparecen en la figura 3.3 de la pagina 90, abra la hoja de trabajo
MUTUALFUNDS2004.MTW. Seleccione Stat -t Basic Statistics
-t Display Descriptive Statistics.
Paso 1: En la ventana de di8.1ogo Display Descriptive Statistics (vea Ia figura A3 .2), introduzca C7 o Return
2003 en el cuadro de edicion Variables. Escriba ClO o
Risk en 1a ventana de editar By variables (optional):
Para introducir una de esas funciones en Ia hoja de trabajo, seleccione una celda vacia y luego Insertar -t Funcion. En el
cuadro de dialogo Funcion, seleccione Estadistica en la lista
desplegable y luego desplacese basta encontrar y seleccionar Ia
funci6n que desea utilizar. De clic en Aceptar. En Ia ventana de
dialogo Argumentos de Ia funcion, introduzca el rango de celdas de los datos a resumir, y de clic en Aceptar. (Para MAYOR
YMENOR, introduzca 1 como valor de K; y para CUARTIL,
introduzca 1 o 3 como valor de Cuart, segU.n se trate del primeroo tercer cuartil.) En las versiones de Excel previas a Excel
2003, puede encontrar errores en los resultados a! utilizar Ia
funci6n CUARTIL.
Para Ia covarianza
~bra el archivo de Excel Covariance.xls, que se muestra en Ia
Igura 3.7 de Ia pagina 104. Si desea utilizar esta hoja con otros
pfiares de variables, siga las instrucciones en pantalla para modilear 1
CIS e a:ea de Ia tabla. Observe en Ia figura 3.7 que .la celda
. contiene una formula que usa Ia funcion CONT. Esta perroue que Excel actualice de forma automatica el valor de n
cuando se modifica el tamafio del area de Ia tabla, y garantizil
que el t
errnmo n - 1 siempre sea el correcto.
120
'94iii"'M1M*Wi''
P" Me.n
r SE of mean
P" Standard deviation
r Variance
P" Coetlldent of variation
1'7 Rm quartile
P' Median
P" Third quartile
P'
lnterquarllle range
r Trimmed mean
r:. Sum
C4
C6
C7
CB
C9
Cll
C12
r N nonmlsslng
r Nmlsslng
P" Ntotal
r Cumulallve N
r Percent
r Cumulative percent
P" Minimum
P" Maximum
P" Range
r
r
r
r
@MMIMfblld
Sum of squares
Slcewnesa
Kurtosis
MSSD
d
..:J
-
Sc:&..
S~Ject~
I
OK
Grll!lhvlrilllloo:
A..ets
E><Pense ratio
Retum 2003
3YrAetum
5YrReturn
Best Ouatter
WorstQwrter
Labels..
-M~Gr;..,..=
H..-,
DataOpijcn...
lc
OK
I
'I
'I
...
oa~av-
Cancel
Cancel
4.1
. '(1>.~ ::t"~
Correlation
Variables:
Siqllo
WlhG~
T[fA~
H""
1 lc
o~
..:J
Select
Help
Display p-values
Cancel
4.~
- -
CAPITULO
Probabilidad basica
USO DE LA ESTADrSTICA: La empresa Consumer Electronics
4.1
4.2
CONCEPTOS BASICOS
DE PROBABILIDAD
Espacios muestrales y eventos
Tablas de contingencia y diagramas de Venn
Probabilidad simple (marginal)
Probabilidad conjunta
Regla general de la adici6n
PROBABILIDAD CONDICIONAL
Calculo de probabilidades condicionales
Arboles de decisi6n
Independencia estadistica
Reglas de multiplicaci6n
Probabilidad marginal usando la regla
general de la multiplicaci6n
4.3
TEOREMA DE BAYES
4.4
REGLAS DE CONTEO
4.5
CONSIDERACIONES ETICAS
Y PROBABILIDAD
A.4
OBJETIVOS DE APRENDIZAJE
En este capitulo, aprendera:
Conceptos de probabilidad basica
Probabilidad condicional
El uso del teorema de Bayes para revisar probabilidades
Varias reglas de conteo
uso
DE LA ESTADfSTICA
La empresa Consumer Electronics
Usted es gerente de marketing de Ia empresa Consumer Electronics. Analiza
los resultados de una encuesta realizada en 1,000 hogares concerniente a sus
intenciones de comprar un equipo de televisi6n de pantalla grande (definido
como de 31 pulgadas o mas) en los siguientes 12 meses. Investigaciones de
este tipo reciben el nombre de estudios de intenci6n de compra. Como seguimiento encuestani los mismos hogares 12 meses despues para ver si realmente compraron el equipo. Ademas, a usted le interesa saber si quienes
compraron Ia televisi6n de pantalla grande tambien compraron una televisi6n de alta definici6n (HDTV), si adquirieron un equipo reproductor de DVD
en los Ultimos 12 meses, y si estuvieron satisfechos con la compra del equipo
de televisi6n de pantalla grande. Algunas de las preguntas que le gustaria
plantear son:
l,Cual es la probabilidad de que en un hogar se planee comprar un televisor de pantalla grande el aiio pr6ximo?
l, Cual es Ia probabilidad de que en ese hogar se compre realmente un televisor de pantalla
grande?
l,Cual es Ia probabilidad de que en un hogar en el que se planea comprar un televisor de pantalla grande este realmente se adquiera?
Si en un hogar se planea comprar una televisi6n de pantalla grande, l,Cual es Ia probabilidad de
que Ia compra se realice?
l,El conocimiento de que en ese hogar se planea comprar un televisor cambia la posibilidad de
predecir si ahi se comprara el equipo de televisi6n?
l,Cual es la probabilidad de que el hogar donde se compra un televisor de pantalla grande se
comprara un HDTV?
l,Cual es la probabilidad de que en un hogar donde se compra un televisor de pantalla grande
tambien se compre un equipo reproductor de DVD?
l,Cual es Ia probabilidad de que un hogar donde se compra un televisor de pantalla grande estara satisfecho de su compra?
Las respuestas a estas y otras preguntas le ayudaran a desarrollar futuras estrategias de ventas y
de marketing. Por ejemplo, j,las campaiias de venta para los equipos de televisi6n de pantalla grande
deberian enfocarse en aquellos clientes que manifiestan su intenci6n de comprar? l,Se persuade con
mayor facilidad a los individuos dispuestos a comprar un televisores de pantalla grande de comprar
uno de alta definici6n y/o un DVD?
4.1
'
'
123
varia entre 0 y 1 inclusive. Un evento que no tiene oportunidad de ocurrir (por ejemplo, un evento
imposible) tiene una probabilidad de 0. Un evento que ocurrira con toda seguridad (es deci.T, un
even to seguro) tiene una probabilidad de 1. Existen tres aproximaciones sujetas a 1a probabilidad:
En una probabilidad clasica a priori, la probabilidad de exito se basa en el conocimiento previo del proceso implicado. En el caso mas simple, en el que cada resultado es igualmente probable,
la oportunidad de ocurrencia de un evento se define en la ecuacion 4.1 .
PROBABILIDAD DE OCURRENCIA
Probabilidad de ocurrencia = ;
donde
(4.1)
Considere un mazo de cartas estandar con 26 cartas rojas y 26 cartas negras. La probabilidad de
seleccionar una carta negra es de 26/52 = 0.50, puesto que hay X = 26 cartas negras y T = 52 cartas
en total. t,Que indica esta probabilidad? Si se reemp1aza cada carta despues de haberla seleccionado,
t,significa que una de las dos siguientes cartas sera negra? No, porque usted no puede decir con certeza lo que sucedera en las selecciones posteriores. Sin embargo, puede decir que a la larga, si este
proceso de seleccion se repite continuamente, la proporcion de cartas negras seleccionadas se aproximara a 0.50.
EJEMPLO 4.1
Los ejemplos descritos usan el punto de vista de la probabilidad clasica a priori porque el numero de formas en las que un evento puede ocurrir y el nfunero total de resultados posibles se conocen por la composicion del mazo de cartas o de las caras del dado.
En el punto de vista de la probabilidad clasica empirica, los resultados se basan en datos observados, no en un conocimiento previo del proceso. Ejemplos de este tipo de probabilidad son la
proporcion de individuos en el escenario "Uso de la estadistica" que realmente compren la television, la proporcion de votantes registrados que optan por un determinado candidato politico, o la
proporcion de alumnos que tienen un empleo de medio tiempo. Por ejempio, si usted realiza una encuesta a alumnos, y el 60% de ellos afirman que tienen un trabajo de medio tiempo, entonces hay
una probabilidad de 0.60 de que un alumno en particular tenga un trabajo de medio tiempo.
El tercer punto de vista de la probabilidad, la probabilidad subjetiva, se distingue de los otros
dos en que la probabilidad subjetiva difiere de persona a persona. Por ejemplo, tal vez el equipo de
desarrollo para un nuevo producto asigne una probabilidad de 0.6 ala oportunidad de exito para el
producto, mientras que el presidente de la empresa es menos optirnista y asigna una probabilidad de
0.3 . La asignacion de probabilidades subjetivas a diferentes resultados generalmente se basa en una
combinacion de las experiencias pasadas del individuo, la opinion personal y d analisis de una sittiacion particular. La probabilidad subjetiva es particularmente util"al tomar decisiones en situacio-
nes en las que no es posible usar la probabilidad clasica a priori o la probabilidadclasica empirica.
124
-~-
Sacar dos caras allanzar al aire dos monedas es un ejemplo de evento conjunto, pues consiste en obtener cara allanzar al aire Ia primera moneda y cara allanzar Ia segunda moneda.
' El complemento del evento A (al que se le asigna el simbolo A') incluye todos los eventos que
: no son parte de A.
El complemento de una cara es una cruz, puesto que es el Unico evento que no es una cara. El complemento de una cara de cinco puntos es no tener una cara de cinco puntos. No obtener un !ado de
cinco puntos consiste en obtener un lado uno, dos, tres, cuatro o seis.
EJEMPLO 4.2
TABLA 4.1
Comportamiento de
compras para equipos
de television de
pantalla grande.
REAlMENTE LO COMPRO
PLANEA COMPRARLO
Si
No
Total
Sf
No
Total
200 .
100
300
50
650
700
250
750
1,000
SOLUCI6N El espacio muestral consiste en las I ,000 personas encuestadas. Los eventos simples
son "planea comprarlo", "no planea comprarlo", "compra" y "no compra". El complemento del
evento "planea comprarlo" es "no planea comprarlo". El evento "planea comprarlo y realmente lo
compra" es un evento conjunto porque quien responde debe planear comprar Ia televisi6n y realmente comprarla.
L=----------~~---------------------------------------------------------------~---------
125
B = realmente compro
B' = no lo compro
AI diseftar un diagrama de Venn (vea la figura 4.2), usted debe determinar el valor de la interseccion de A y B para dividir el espacio muestral en sus partes. A n B consiste en los 200 hogares en
los que se plane6 comprar y realmente se compr6 el equipo de television de pantalla grande. El
evento remanente A (planean comprar), consiste en 50 hogares en los que se planeo comprar el televisor de pantalla grande pero que finalmente no lo compraron. El remanente del evento B (realmente compraron) consiste en 100 hogares en los que no se planeo comprar un equipo de televisi6n de
pantalla grande, pero en los que finalmente se compro uno. El resto de los 650 hogares repiesenta a
aquellos que ni planearon ni compraron un equipo de television de pantalla grande.
An8
An8
~----~v~----~1
AU 8=350
FIGURA 4.1
Diagrama de Venn para los eventos
Ay B.
FIGURA 4.2
Diagrama de Venn para el ejemplo
de Consumer Electronics.
126 CAPiTuLO 4
Probabilidad basica
P(planear comprar) =
250
= 1 000 = 0 25
'
Por lo tanto, hay un 0.25 (o un 25%) de probabilidad de que en un hagar se planee comprar un equipo de television de pantalla grande.
Ala probabilidad simple tambien se le llama probabilidad marginal, porque es posible calcular el numero total de los exitos (el nfunero total de quienes planearon comprar) a partir del margen
apropiado de la tabla de contingencia (vea Ia tabla 4.1 en Ia pagina 124). El ejemplo 4.3 ilustra otra
aplicacion de Ia probabilidad simple.
E.
~~JEMPLO 4.3
TABLA 4.2
Comportamiento de
compra respecto a
los HDTV y los DVD.
COMPRO DVD
COMPRO HDTV
HDTV
No HDTV
Total
Si
No
Total
38
70
108
42
150
192
80
220
300
I
I
L~~-~-
A = compro un HDTV
A' = no compro un HDTV
P(HDTV) =
B = compr6 un DVD
B' =no compro.un DVD
80
= 300 =0.267
Hay una probabilidad del 26.7% de que el equipo de television de pantalla grande seleccionado al
azar comprado sea un HDTV.
-------
- - - -
4.1 : Conceptos basicos de probabilidad
127
Probabilidad conjunta
La probabilidad marginal se refiere a Ia probabilidad de ocurrencia de eventos simples. La probabilidad conjunta se refiere a Ia probabilidad de ocurrencia que implica a dos o mas eventos. Un ejemplo de probabilidad conjunta es la probabilidad de que se obtenga cara al lanzar Ia primera vez Ia
moneda al aire y cara allanzar por segunda vez Ia moneda.
En relacion con Ia tabla 4.1 en Ia pagina 124, aquellos individuos que planearon comprar y
realmente compraron el televisor de pantalla grande se identifican con los resultados de una celda
singular "si-planearon comprar y si-realmente lo compraron". Como el grupo esta formado por
200 hogares, la probabilidad de elegir un hogar que planee comprar y realmente lo compre es
= 1,000 = 0 20
El ejemplo 4.4 tambien demuestra como se determina Ia probabilidad conjunta.
EJEMPLO 4.4
.
P (te Ievtsor HDTV y DVD) =
= 300 = 0.127
Por lo tanto, tenemos una probabilidad dell2.7% de que el hogar seleccionado al azar en el que
se adquirio un equipo de television de pantalla grande, haya comprado un HDTV y un DVD.
Se puede ver Ia probabilidad marginal de un evento en particular usando el concepto de probabilidad conjunta que se explico antes. La probabilidad marginal de un evento consiste en un conjunto de probabilidades conjuntas. Por ejemplo, si 8 consiste en dos eventos, 8 1 y 8 2, entonces P(A), la
probabilidad del evento A, consiste en Ia probabilidad conjunta de que el evento A ocurra con el
evento 8 1 y Ia probabilidad conjunta de que el evento A ocurra con el evento 8 2 Use la ecuacion
(4.2) para calcular las probabilidades marginales.
PROBABILIDAD MARGINAL
P(A) =P(Ay8 1) + P(AyB~ + +P(AyB,J
(4.2)
It -- .
128
Dos eventos son mutuamente excluyentes si ambos eventos no pueden ocurrir de manera simultanea.
AI tirar una moneda a! aire, cara y cruz son eventos mutuamente excluyentes. El resultado de tirar
una moneda al aire no puede ser al mismo tiempo cara y cruz.
Cara y cruz en una moneda son eventos colectivamente exhaustivos. Uno de ellos debe ocurrir.
Si no ocurre cara, entonces debe ocurrir cruz. Si cruz no ocurre, entonces debe ocurrir cara.
Ser masculino y ser femenino son eventos mutuamente excluyentes y colectivamente exhaustivos. Ninguna persona es de ambos sexos (son mutuamente excluyentes), y todos son uno u otro (son
colectivamente exhaustivos).
La ecuacion (4.2) sirve para calcular Ia probabilidad marginal de planear Ia compra de un equipo de television de pantalla grande.
P (planear Ia compra) = P (planear comprar y comprar)
+ P (planear comprar y no comprar)
200
1,000
+..2L
1,000
250
= 1 000 = 0 25
'
EJ
Usted obtendni el mismo resultado si suma el nfunero de resultados que conforman el evento simple
"planear Ia compra".
Ap
- 50 + 100 + 200 - 350 - 0 35
-:- 1,000 1,000 1,000 - 1,000 - "
A menudo encontrara mas facil determinar P(A o B), Ia probabilidad del evento A o B, median
te Ia regia general de Ia adid6n defmida en Ia ecuaci6n (4.3).
~
c. l
IJ
129
(4.3)
= 1,000 =
035
La regia general de la adici6n consiste en tomar la probabilidad de A y sumarla a la probabilidad deB, y despues sustraer el evento conjunto de A y B de este total, porque el evento conjunto ya
se incluy6 tanto en el ca.Iculo de la probabilidad de A yen la probabilidad de B . En relaci6n con la
tabla 4.1 en la pagina 124, si los resultados del evento "planean comprar" se suman a aquellos del
evento "realmente compraron", el evento conjunto "planearon comprar y realmente compraron" se
incluye en cada uno de estos eventos simples. Por lo tanto, como este evento conjunto se ha contado
dos veces, debe restarse para obtener el resultado correcto. El ejemplo 4.5 ilustra otra aplicaci6n de
la regia general de la adici6n.
EJEMPLO 4.5
HDTV y
SOLUCION
=.!Q_+ 108 -~
300
300
300
150
= 300 = 0.50
Por lo tanto, se tiene el 50.0% de probabilidad de que el hogar seleccionado al azar en el que se adquiri6 un equipo de televisi6n de pantalla grande, se haya comprado un HDTV o un DVD.
Aprendizaje basico
ASISTENCIA
de PH Grade
c .
130
A'
B'
10
20
20
40
I7AiJTOl
c.
a. eventoA?
b. evento A'?
c. evento A y B?
d. evento A o B?
Maneja bacia
el trabajo
A
A'
B'
10
25
30
35
a. evento A'?
b. evento A y B?
c. evento A' y B'?
d. evento A' o B'?
Aplicaci6n de conceptos
ASISTENCIA 4.5 Para cada uno de los siguientes enunciados, inde PH Grade dique si el tipo de probabilidad implicada es un
Sf
No
Total
Cl
Propietario
de casa
lnquilino
Total
824
176
1,000
681
319
1,000
1,505
495
2,000
qt
OJ
cc
ba
H
pa
th
Sin
partlculas
Con
particulas
320
80
400
14
36
334
50
450
Total
116
Fuente: S. W. Hall, Analysis ofDefectivity ofsemiconductor Wafers by Contingency Table, Proceedings of Institute of Environmental Sciences, vol. 1
(1994), 177-183.
a.
b.
c.
d.
ha
Al
Cc
ra
az
a.
b.
c.
d.
4:
pol
("\
Ch
20(
sen
des
de .
hili
pro
a .
4.2
131
PROBABILIDAD CONDICIONAL
Calculo de probabilidades condicionales
Cada ejemplo en la seccion 4.1 implico encontrar Ia probabilidad de un evento muestreado del espacio muestral completo.l,Como se determina Ia probabilidad de un evento si cierta informacion acerca de los eventos implicados es ya conocida?
La probabilidad condicional se refiere a Ia probabilidad del evento A, dada informacion acerca de 1~ ocurrencia de otro evento B.
PROBABILIDAD CONDICIONAL
La probabilidad de A dado B es igual ala probabilidad de Ay B dividida por la probabilidad deB
P(A IB)= P(Ay B)
P(B)
(4.4a)
13 2
de A
donde
(4.4b)
En relacion con el escenario de "Uso de Ia estadistica" que se refiere ala compra de un equipo de television de pantalla grande, suponga que en cierto hogar se planea comprar un equipo de television
de pantalla grande. Ahora, L,cual es Ia probabilidad de que en ese hogar se compre realmente el equipo de television? En este ejemplo el objetivo es encontrar P(compra real planea comprar). Aqui se
le proporciona Ia informacion de que el hogar planea comprar el equipo de television de pantalla
grande. Por lo tanto, el espacio muestral no consiste en todos los l ,000 hogares de Ia encuesta. Consiste solo en aquellos que realmente compraron el equipo de television de pantalla grande. De 250
de esos hogares, 200 compraron realmente el equipo de television de pantalla grande. Por lo tanto
(vea Ia tabla 4.1 en Ia pagina 124 o la figura 4.2 en la pagina 125), Ia probabilidad de que en un hogar realmente se compre un equipo de television de pantalla grande dado que lo planeo comprar es
~----''--''-------~
L_ __
200
= 250 = 0.80
P(AyB)
P(A)
,
Fl
donde
Ar
pa
Cc
,I
20011,ooo
25011 000
'
EJEMPLO 4.6
133
SOLUCI6N Como se sabe en que hogares compraron un HDTV, el espacio muestral se reduce a
80 hogares. De estos 80, 38 tambien compraron un DVD. Por lo tanto, Ia probabilidad de que un hogar comprara un DVD, dado que el hogar compr6 un HDTV es:
nfunero que compr6 HDTV y DVD
,
numero que compr6 HDTV
38
= 80 = 0.475
B = compr6 HDTV
entonces
P(A IB)=
P(Ay B)
P(B)
38/300
= 80/300 = 0.475
Entonces, dado que en un hogar se compr6 un HDTV, hay un 47.5% de posibilidades de que tambien
haya comprado un DVD. Se puede comparar esta probabilidad condicional con Ia probabilidad marginal de comprar un DVD, Ia cual es de I 08/300 = 0.36, o del 36%. Estos resultados indican que los
hogares en los que se compr6 un HDTV tienen mas probabilidades de comprar un DVD que los hogares que compraron un equipo de televisi6n de pantalla grande que no es un HDTV.
Arboles de decision
En Ia tabla 4.1 en Ia pagina 124, los hogares se clasifican de acuerdo con sus planes de comprar ode
si realmente compraron el equipo de televisi6n de pantalla grande. Un arbol de decisi6n es una
altemativa para Ia tabla de contingencia. La figura 4.3 representa el arbol de decisi6n para este
ejemplo.
FIGURA 4.3
Arbol de decision
para el ejemplo de
Consumer Electronics.
Conjunto
total de
hogares
1,000
P(A' y 8)
100
1,000
P(A' y 8 ,) = 650
1,000
En Ia figura 4.3 iniciando a Ia izquierda con el conjunto total de hogares, se abren dos "ramas"
para indicar si planearon o no comprar el equipo de televisi6n de pantalla grande. Cada una de estas
ramas tiene dos subramas, correspondientes a si el hogar realmente compr6 o no el equipo de televisi6n de pantalla grande. Las probabilidades al final de las ramas iniciales representan Ia probabilidad
134
200/1,000
,
25011 000
EJEMPLO 4.7
= compr6 HDTV
P(AyB)
P(B IA)= P(A)
B = compr6 un DVD
38/300
80/300
i E
= 0.475
I
I
I
I T.
FIGURA 4.4
Arbol de decision para
haber comprado un DVD
y un HDTY.
S;
Cl
te
g
Conjunto
completo
de hogares
42
P(A y 8') 300
P<A'
v81 .. :go
lndependencia estadfstica
En el ejemplo relacionado cQn la compra de equipos de televisi6n de pantalla grande, la probabili
dad condicional es de 200/250 = 0.80 de que en el hogar selecCionado realmente se haya comprado
un equipo de televisi6n de pantalla grande, luego de que se plane6 comprarlo. La probabilidad sinl
135
ple de seleccionar un hogar que realmente hizo la compra es de 300/1,000 = 0.30. Estos resultados
muestran que el conocimiento previo de que en el hogar se planeo comprar afecto la probabilidad de
que el hogar realmente comprara el equipo de television. En otras palabras, el resultado de un evento es dependiente del resultado de un segundo evento.
Cuando el resultado de un evento no afecta la probabilidad de ocurrencia de otro evento, se dice que los eventos son estadisticamente independientes. La independencia estadfstica se determina
mediante la ecuacion (4.5).
INDEPENDENCIA ESTADfSTICA
Dos eventos A y B son estadisticamente independientes si y solo si
(4.S)
donde
EJEMPLO 4.8
TABLA 4.3
Satisfacci6n con Ia
compra de equipos de
television de pantalla
' grande.
Total
Sf
No
Total
64
176
240
16
44
80
220
300
60
Determine si estar satisfecho con la compra y el tipo de televisor comprado son estadisticamente independientes.
SOLUCI6N
= 64
= 0.80
80
lo que es igual a
P{satisfecho) =
~~~ = 0.80
Asi que estar satisfecho con la compra y el tipo de equipo de television comprado son estadisticamente independientes. El conocimiento de un evento no afecta Ia probabilidad del otro evento.
136
Reglas de multiplicacion
AI manipular Ia f6rmuia de Ia probabilidad condicional, es posible determinar Ia probabilidad conjunta P(A y B) de Ia probabilidad condicional de un evento. La regia general de Ia multiplicacion
se obtiene con Ia ayuda de Ia ecuaci6n (4.4a) en Ia pagina 131.
P(A IB) =
P(AyB)
P(B)
.---
-~
..-- - -
--------
-------~-:--;-----------------~---------:---------
.......... ~
= P(A I B)P(B)
(4.6) .
EJEMPLO 4.9
Considere los 80 hogares en los que se compr6 un HDTV. En Ia tabla 4.3 en Ia pagina 135 se observa
que en 64 hogares estan satisfechos con su compra y en 16 hogares no estan satisfechos. Suponga que
se seleccionan al azar dos hogares de los 80 que realizaron Ia compra. Encuentre Ia probabilidad de
que ambos hogares esten satisfechos con su adquisici6n.
= P(A IB)P(B)
La probabilidad de que el primer hogar este satisfecho con Ia compra es de 64/80. Sin embargo, Ia
probabilidad de que el segundo hogar tambien este satisfecho con Ia compra depende del resultado
de Ia primera selecci6n. Si el primer hogar no se devuelve a Ia muestra despues de determinar el nivel de satisfacci6n (muestreo sin sustituci6n), entonces el nfunero de hogares restantes sera de 79. Si
el primer hogar esta satisfecho, Ia probabilidad de que el segundo hogar tambien este satisfecho es
63/79, porque en Ia muestra permanecen 63 hogares satisfechos. Por lo tanto,
P(AyB)=(~~)(~) = 0.6380
Hay 63.80% de posibilidades de que ambos hogares muestreados esten satisfechos con sus compras.
La regia de multiplicacion para eventos independientes se obtiene al sustituir P(A) por P(A IB)
en Ia ecuaci6n (4.6).
l(
L___ _ _______
P(A.y B) = P(A)P(B)
(4.7)
a.
b.
c.
d
t
4.2: Probabilidad condicional
13 7
Si esta regla sirve para dos eventos, A y B, entonces A y B son estadfsticamente independientes.
Por lo tanto, existen dos maneras de determinar la independencia estadistica.
1. Los eventos A y B son estadistic&mente independientes si y s6lo si P(A J B) = P(A).
2. Los eventos A y B son estadisticamente independientes si y s6lo si P(Ay B) = P(A)P(B).
entonces, al usar la regia general de la multiplicaci6n, la ecuaci6n (4.8) defme la probabilidad marginal.
(4.8)
donde
P(A) = (
,.
ol
:s
= 200
)(
+~
1,000
IS.
250
1,000
= 0.25
Aprendizaje basico
4.16 A partir de Ia siguiente tabla de contingencia:
B)
A
A'
.d
1,000
B'
10
20
20
40
~Cuat es la probabilidad de
a. A IB?
A
A'
B'
10
25
30
35
l,Cual es la probabilidad de
b. A IB'?
c. A' I B'?
a. A IB?
b. A'IB'?
c. A IB'?
d.
13 8
4.18 Si P(A y B)
.____
4.19 Si P(A) = 0.7 y P(B) = 0.6, y siA y B son esta__.. disticamente independientes, encuentre P(A y B).
'-----'
Aplicaci6n de conceptos
1 AUTO 4.21 En Estados Unidos una encuesta sobre vivienV Examen da estudi6 como llegan al trabajo los propietarios de
casa ("How People Get to Work," USA Today
Snapshots, 25 de febrero, 2003, 1A). Suponga que la encuesta
consisti6 en una muestra de 1,000 propietarios de casa y 1,000
inquilinos.
Maneja al trabajo
Si
No
Total
Propietario
Inquilino
Total
824
176
1,000
681
319
1,000
1,505
495
2,000
4.22 Un estudio de mejoramiento de la producci6n de un fabricante de semiconductores proporcion6 datos de defectos para
una muestra de 450 placas de silicio. La siguiente tabla presenta un resumen de las respuestas ados preguntas: "j,Se encontraron particulas en el troquel que produjo la placa de silicio?", y
"j,La placa era buena o mala?"
Sin
particulas
320
80
400 .
Total
14
36
334
116
450
Fuente: S. W. Hall, Analysis ofDefectivity ofSemiconductor Wafers by Contingency Table, Proceedings Institute of Environmental Sciences, Vol. 1
(1994), 177-183.
4.
se1
au
yt
tac
rec
un.
aul
Un
sitt
un:
a.
b.
c.
4.2
50(
trar.
el a
aiio
prir
aiio
PRI
All
Ba.
y b).
d. j,Son los dos eventos "ser blanco" y "demandar por prejuicios" estadisticamente independientes? Explique su respuesta.
Particulas
50
metropolitana grande para estudiar el comportamiento del consumidor. Los resultados fueron los siguientes:
GENERO
DISFRUTA COMPRANDO
ROPA
Masculino
Si
No
Total
136
104
240
Femenino
Total
224
36
260
360
140
500
a.
4.26 Cada ail.o se compilan las clasificaciones respecto al desempefio de los autos nuevos durante los primeros 90 dias de
uso. Suponga que los autos se han clasificado de acuerdo a si el
auto necesita una garantia relacionada con reparaci6n (sf o no)
y el pais en el que la empresa manufacturera tiene su sede (Estados Unidos o fuera de Estados Unidos). Con base en los datos
recabados, la probabilidad de que un auto nuevo necesite de
una garantia de reparaci6n es de 0.04, la probabilidad de que el
auto sea manufacturado por una empresa con sede en Estados
Unidos es de 0.60, y la probabilidad de que el auto nuevo necesite una garantia de reparaci6n y haya sido manufacturado por
una empresa con sede en Estados Unidos es de 0.025.
a. Suponga que usted sabe que una empresa asentada en los
Estados Unidos manufactur6 el auto. l,Cwil es la probabilidad de que el auto necesite una garantia de reparaci6n?
b. Suponga que sabe que una empresa con sede en Estados
Unidos no manufactur6 el auto. l,Cwil es la probabilidad de
que el auto necesite una garantia de reparaci6n?
c. ,La necesidad de una garantia de reparaci6n y la sede de la
empresa que manufactura autos son estadisticamente independientes?
Alto
Bajo
29
10
10
4.3
139
TEOREMA DE BAYES
El teorema de Bayes se utiliza para revisar probabilidades previamente calculadas cuando se posee
nueva informaci6n. Desarrollado por el Reverendo Thomas Bayes en el siglo XVIII (vea Ia referencia 1), el teorema de Bayes es una extensi6n de lo que ha aprendido hasta ahora acerca de Ia probabilidad condicional.
El teorema de Bayes se aplica a 1a siguiente situaci6n. La empresa Consumer Electronics esta
considerando comercializar un nuevo modelo de televisor. En el pasado, el 40% de los equipos de
televisi6n que la empresa lanz6 al mercado tuvieron exito y el 60% no fueron exitosos. Antes de lanzar al mercado el equipo de televisi6n. el departamento de investigaci6n de mercados realiza un extenso estudio y entrega un reporte, ya sea favorable o desfavorable. En el pasado, el 80% de los equipos
de televisi6n exitosos habfan recibido un reporte de investigaci6n favorable y el 30% de los equipos de televisi6n no exitosos habian recibido un reporte de investigaci6n favorable. Para los nuevos
modelos de televisi6n bajo consideraci6n, el departamento de investigaci6n de mercado ha entregado un reporte favorable. (,Cual es Ia probabilidad de que el equipo de television tenga exito en el
mercado?
140
tel
El teorema de Bayes se obtiene por sustitucion de la ecuaci6n (4.8) en la pagina 13 7 para P(A) en la
ecuaci6n de arriba.
1 TEOREMA DE BAYES
i donde B1es el i-esimo evento de los k eventos mutuamente excluyentes y colectivamente exhaus-
! tivos.
- - --------------------------Para usar la ~cuacion (4.9) para el ejemplo del televisor comercializado, sea
evento F = reporte favorable
y
P(S) = 0.40
=0.60
P(FIS') = 0.30
P(S')
Entonces, al utilizar la ecuacion (4.9),
P(FIS)P(S)
P(SIF) = P(FIS)P(S) + P(FIS')P(S')
= _ _(.:_0_.80--'-)(.:_0_.4....:.0)___
(0.80)(0.40) + (0.30)(0.60)
=
0.32
0.32
=-0.32 + 0.18
0.50
= 0.64
La probabilidad de un equipo de television exitoso, dado que se recibio un reporte favorable, es
de 0.64. Asi pues, la probabilidad de un equipo de television no exitoso, dado que se recibio un reporte favorable, es de 1-0.64 = 0.36. La tabla 4.4 resume el calculo de las probabilidades y Ia figura 4.5 presenta el arbol de decision.
TABLA 4.4 Calculo del teorema de Bayes para el ejemplo de Ia comercializaci6n del televisor
EventoS;
pa1
de
P(AyB)
P(AIB)P(B)
P(A)
P(B A) = P(A) =
fli
Arl
Probabilidad
previa
P(Si)
Probabilidad
condicional
P(FI Si)
Probabilidad
conjunta
P(F I S;)P(S;)
Probabilidad
revisada
P(S;I F)
0.40
0.60 -
0.80
0.30
0.32
0.18
0.50
141
FIGURA 4.5
Arbol de decision
para Ia comercializacion
del nuevo equipo de
television.
r- . -. - .-
. ---- - --
:
'
.~.:e~n:-~~~~~~.,.
r------
----7- -"":---~ - -
---- - ,
. "'
. ;
,,--.-):: v:o.
EJEMPLO 4.10
SOLUCI6N
Sea
P(D) =0.03
P(T I D) = 0.90
P(D') =0.97
P(D
P(T,D)P(D)
IT) -- P(T,D)P(D)
+ P(TiD')P(D')
-.,---___:_.L.......:.........:.....,..::....___
= _ _(~0~.90:...;.)~(0_...0.:...!.3):.....__
(0.90)(0.03) + (0.02)(0.97)
=
0.0270
0.0270 + 0.0194
0.0270
=-0.0464
= 0.582
La probabilidad de que Ia enfermedad este realmente presente dado que un resultado positivo ha
ocurrido (indicando Ia presencia de Ia enfermedad) es de 0.582. La tabla 4.5 resume el calculo de las
probabilidades y la figura 4.6 presenta ellirbol de decision.
142
TABLA 4.5 Calculos del teorema de Bayes para el problema de diagn6stico medico
EventoD1
=
=
D tiene Ia enfermeclad
D' no tiene Ia enfermeclad
ten!
ofe1
tion
a. ~
Probabilidad
previa
Probabilidad
condicional
Probabilidad
conjunta
Probabilidad
revisada
P(Di)
P(TIDi)
P(T I Di)P(D;)
P(Dtl1)
0.03
0.97
0.90
0.02
0.0270
0.0194
0.0464
b. i
1
4.3
rios
COil
FIGURA 4.6
Arbol de decision para
el problema de
diagn6stico medico.
~ -----
r P(Dy
f-
--:-1
'. .
.'
n P(TJD) P(D)
'
~~-- :;-~;.r~.:::a,.~.;;)
'
~.J....:.::....o:
. ,-:
,----- ------
---- -~-
,,,- . ~
'
.. ...,.,
'
...
_
--
ho'
--- - '
____
que
en!
Bai
Wal
blec
por
el 2
neg
cine
ci6r
sigt
a. ~
,_ ,~
- ~
l- ,
b. I
4.3
trat
El denominador en el teorema de Bayes representa P(T), la probabilidad de un resultado positivo en la prueba, el cual en este caso es de 0.0464 o un 4.64%.
Aprendizaje basico
4.30 Si P(B) = 0.05, P(A IB) = 0.80, P(B') = 0.95,
Aplicaci6n de conceptos
4.32 En el ejemplo 4.10 de Ia pagina 141, suponga que Ia probabilidad de que Ia prueba de diagn6s1i6o medico de un resultado
positivo si Ia enfennedad no esta presente se reduce de 0.02 a
0. 0 1. A partir de esta infonnaci6n,
a. Si la prueba de diagn6stico medico ha resultada positiva (indicando Ia presencia de la enfennedad), l,Cmil es la probabilidad de que la enfennedad este realmente presente?
.b. Si Ia prueba de diagn6stico medico ha dado un resultado negativo (indicando que la enfennedad no esta presente), l,Cual
es la probabilidad de que la enfennedad no este presente?
ASISTENCIA
de PH Grade
/AUTO
mujeres casados durante las horas de mayor audiencia. Con base en los registros anteriores, el directivo
ha determinado que durante las horas de mayor audiencia los
maridos ven televisi6n el 60% del tiempo. Cuando el marido ve
televisi6n, la esposa tambien lo hace el 40% del tiempo. Cuando el marido no ve televisi6n, la esposa ve televisi6n el 30% del
tiempo. Encuentre la probabilidad de que
a. si la esposa ve televisi6n, el esposo tarnbien lo haga.
b. la esposa vea televisi6n durante las horas de mayor audiencia.
4.34 La empresa Olive Construction esta deterrninando si deberia presentar una oferta para un nuevo
L - - - _ _ J centro comercial. En el pasado, el principal competidor de Olive, Ia empresa Base Construction, ha propuesto ofertas el 70% del tiempo. Si Base Construction no presenta ofertaS
para un trabajo, la probabilidad de que Olive Construction ob
EJI
4.35 Los trabajadores despedidos que se volvieron empresarios porque no encontraron empleo en otra empresa se conocen
como empresarios por necesidad. El Wall Street Journal reporta
que estos empresarios tienen menos posibilidad de crecimiento
en los grandes negocios que los empresarios por elecci6n (Jeff
Bailey, "Desire-More Than Need-Builds a Business", The
Wall Street Journal, 21 de mayo, 2001, B4). Este articulo establece que el 89% de los empresarios en Estados Unidos lo son
por eleccion y que el 11% son empresarios por necesidad. Solo
el 2% de los empresarios por necesidad esperan que su nuevo
negocio de empleo a 20 0 mas personas dentro de los siguientes
cinco alios, mientras que el 14% de los empresarios por elecci6n esperan emplear por lo menos a 20 personas dentro de los
siguientes cinco alios.
a. Si se selecciona al azar a un empresario y este espera que su
nuevo negocio emplee a 20 o mas personas dentro de los siguientes cinco alios, (.Cual es la probabilidad de que este individuo sea un empresario por eleccion?
b. Discuta las posibles razones por las que los empresarios por
eleccion tienen mas posibilidades de creer que sus negocios
creceran.
4.4
143
REGLAS DE CONTEO
En Ia ecuacion (4.1) de la pagina 123, la probabilidad de ocurrencia de un resultado se definio como
el nfune~o de formas en las que el resultado ocurre, dividido por el nfunero total de resultados posibles. En muchos casos, hay un gran nfunero de posibles resultados y es dificil determinar el nfunero
exacto. En estas circunstancias se han desarrollado las reglas para contar el nfunero posible de resultados. En este apartado se presentan cinco diferentes reglas de conteo.
REGLA DE CONTEO 1
Si cualquiera de los eventos k mutuamente excluyentes y colectivamente exhaustivos pueden
ocurrir en cada uno de los ensayos n, el nfunerode posibles resultados es igual a
k"
EJEMPLO 4.11
(4.10)
REGLA DE CONTEO 1
Suponga que se Ianza una moneda al aire cinco veces. l.,Cual es el nfunero de diferentes resultados
posibles (Ia secuencia de caras y cruces)?
SOLUCI6N Si se Ianza al aire una moneda (que tiene dos !ados) cinco veces, con Ia ecuacion
(4.10), el nfunero de resultados es 2 5 =2 x2 x 2 x 2 x 2 = 32.
'
..
-,
144
-EJEMPLO 4.12
SQLUCI6N Si un dado (con seis caras) se Ianza dos veces, con la ecuaci6n (4.10), el nfunero de
resultados diferentes es 62 = 36.
La segunda regia de conteo es una versi6n mas general que Ia primera y permite al nfunero posible de eventos de diferir de ensayo a ensayo.
I REGLA DE CONTEO 2
es
ck1><k2> . . (k,.) -
(4.11)
REGLA DE CONTEO 2
EJEMPLO 4.13
Un departamento estatal de vehiculos automotores desea saber cuantos nfuneros para las placas es-
. tan disponibles si las placas incluyen tres letras seguidas por tres nfuneros.
SOLUCI6N Mediante la ecuaci6n (4.11 ), se sabe que si una placa incluye tres letras seguidas por
tres numeros (0 basta 9), el n11mero total de resultados posibles es (26)(26)(26)(10)(10)(10) =
17,576,000.
EJEMPLO 4.14
El menu de un restaurante tiene un precio fijo para las cenas completas que consisten en un aperitivo, un platillo principal, una bebida y un postre. Se tiene la posibilidad de elegir entre cinco aperitivos, 10 platillos, tres bebidas y seis postres. Determine el n11mero total de cenas posibles.
SOLUCI6N Mediante la ecuaci6n (4.11), se sabe que el numero total de cenas posibles es
(5)(10)(3)(6) = 900.
La tercera regia de conteo esta relacionada con el calculo del nfunero de maneras en las que un
conjunto de cosas puede arreglarse en orden.
I -
i REGLA DE CONTEO 3
(n)(n- 1) . . . (1)
(4.12)
r----1
EJE
~- EJEMPLO 4.15
I
i
REGLA DE CONTEO 3
Si un conjunto de seis libros de texto se colocan en una repisa. l,de cuantas formas es posible orde
nar estos seis libros de texto?
SOLUCI6N Para empezar, hay ane precisar que cualquiera de los seis libros podria ocupar la pri
mera posici6n en la rep;-'P- Ilene la primera oosici6n, hay cinco libros a elegir para
T -
II
I
I
II
---
p
4.4: Reglas de conteo
145
llenar Ia segunda. Se continua con este procedimiento de asignaci6n basta que todas las posiciones
esten ocupadas. El nfunero de formas en las que es posible acomodar los seis libros es
n!
= 6! = (6)(5)(4)(3)(2)(1) = 720
En muchos casos se necesita saber el nfunero de formas en las que un subconjunto de un grupo completo de cosas puede arreglarse en orden. _Cada posible arreglo es llamado permutaci6n.
REGLA DE CONTEO 4
: Permutaciones: EI nfunero de maneras para arreglar X objetos seleccionados den objetos en orf denes
p -
n!
(4.13)
" X - (n-X)!
EJEMPLO 4.16
REGLA DE CONTEO 4
Si se modifica el ejemplo 4.15, y entonces tenemos seis libros de texto pero s6lo hay espacio para
cuatro libros en la repisa, l,de cuantas maneras es posible acomodar estos libros en la repisa?
SOLUCI6N. Con la ecuacion (4.13), se sabe que el nfunero de arreglos ordenados de cuatro libros
seleccionados de seis libros es igual a
p :
n X
n!
~ ~: (6)(5)(4)(3)(2)(1) :
360
(n- X)! (6-: 4)!
(2)(1)
En muchas situaciones no interesa el orden de los resultados, sino solo el nfunero de maneras en
las que X objetos pueden seleccionarse a partir de n cosas, sin consideracion de orden. Esta regia se
llama Ia regia de las combinaciones.
; REGLA DE CONTEO 5
, Combinaciones: El nfunero de maneras de seleccionar X objetos a partir de ~ objetos, sin considerar el orden, es igual a
n X-
n.
X!(n-X)!
(4.14)
AI comparar esta regia con Ia anterior, se observa que difiere s6lo en Ia inclusion del termino X!
en el denominador. Cuando se usan las permutaciones, todos los arreglos de los X objetos son diStinguibles. Con las combinaciones, los X! posibles arreglos de objetos scin irrelevantes.
EJEMPLO 4.17
REGLA DE CONTEO 5
Se modifican el ejemplo 4.16, de manera que el orden de los libros en Ia repisa sea irrelevante, l,de
cuantas maneras es posible arreglar estos libros en Ia repisa?
SOLUCI6N AI utilizar Ia ecuaci6n (4.14), se sabe que el nfunero de combinaciones de cuatro libros seleccionados de seis libros es igual a
C =
n!
=
6!
= (6)(5)( 4)(3)(2)(1) :
15
x
X! (n- X)! 4! (6- 4)!_ ( 4)(3)(2)(1)(2)(1)
- --- --------------------------------- - -- -
146
r------------------------
4.39 La cerradura de Ia b6veda de un banco consta de tres discos, cada uno con 30 posiciones. Para que Ia b6veda abi:a, cada
uno de los tres discos debe de estar en Ia posici6n correcta.
a. ~Cuantas posibles "combinaciones de disco" diferentes hay
para esta cerradura?
b. ~Cuai es Ia probabilidad de que, si se selecciona al azar Ia
posici6n de cada disco, se abra Ia b6veda del banco?
c. Explique por que las "combinaciones de disco" no son combinaciones matematicas que se expresen con Ia ecuaci6n
(4.14).
4.40 a. Si se Ianza al aire una moneda siete veces,
~cuantos
4.42 A usted le gustaria hacer una ensalada que contenga Iechuga, jitomate, pepino y germinados. Se dirige hacia el supermercado con el fm de comprar un tipo de cada uno de estos
ingredientes. Ahi descubre que existen ocho tipos de Iechuga,
cuatro tipos de jitomates, tres tipos de pepinos y tres tipos de
germinados en venta. ~ Cuantos tipos diferentes de ensaladas
tiene para elegir?
~cwintas
IJAuTOl
I
A
4.
de
4:48 La Quiniela, en Ia pista local .de carreras, consiste en el_egir los caballos que llegaran en primero y segundo lugares en
una carrera sin consideraci6n del orden. Si ocho caballos estan
inscritos en Ia carrera, ~cuantas combinaciones de quiniela
habra?
En
pre
Ba
4.50 En una loteria diaria los dos nilmeros ganadores se seleccionan de entre 100 nilmeros. l,Cwintas posibles combinaciones
de nilmeros ganadores son posibles?
Pre
Prt
P(t.
ReJ
P(/;
Pr(
P(,~
4.5
P(J.
lnd
P(A
Re~
P(A
R~
P(A
F 6rmulas importantes
147
Con estos antecedentes, podria detenerse a considerar como engaiioso y posiblemente no etico
el reciente comercial de una loteria estatal que afiiiilaba: "No pararemos hasta que hagamos de cada
uno un millonario". Como Ia loteria aporta millones de dolares a la tesoreria estatal, el Estado nunca dejara de permitirla, aunque en la vida nadie podni estar seguro de volverse millonario al ganar Ia
loteria.
Otro ejemplo de una aplicacion potencialmente no etica de Ia publicidad se relaciona con una
carta de inversion que promete un 90% de probabilidad de obtener una ganancia del 20% anual
sobre la inversion. Para que el reclamo de Ia carta fuera ~tico, el servicio de inversion necesita a) explicar Ia base de esta estimacion de probabilidad, b) hacer la afiiiilacion de probabilidad en otro
formato, tal como 9 oportunidades en 10, y c) explicar que sucede ala inversion en el10% de los casos en los que no se logra una ganancia del20% (por ejemplo, ;,se pierde Ia inversion?).
Aplicacion de conceptos
4.52 Escriba un mensaje publicitario para la loteria estatal que
describa de forma etica Ia probabilidad de ganar.
4.53 Escriba un mensaje publicitario para Ia carta de inversion, que afirme eticamente Ia probabilidad de obtener una ganancia del 20%.
RES U M eN
En este capitulo se desarrollaron conceptos concemientes a Ia
probabilidad basica, Ia probabilidad condiciona1, el teorema de
Bayes y las reglas de conteo. En el siguiente capitulo se desa-
FORMULAS IMPORTANTES.
Probabilidad marginal usando Ia regia general de Ia multiplicacion
Probabilidad de ocorrencia
Probabilidad de ocurrencia = X
T
(4.1)
P(A)
Probabilidad marginal
P(A) = P(Ay B 1) + P(Ay BiJ + + P(Ay Bk)
(4.2)
Teorema de Bayes
(4.3)
P(A B,)P(B,)
Probabilidad condicional
P(A IB)
= P(Ay B)
(4.4a)
P(B)
P(BIA>
= P(AyB)
(4.8)
P(B1IA) =
Regia de conteo 1
lC'
(4.4b)
P(A)
lndependencia estadistica
P(A IB)= P(A) (4.5)
Regia general de Ia multiplicacion
P(A y B) =P(A IB)P(B) ( 4.6)
Regia de Ia multiplicacion para eventos independientes
P(Ay B)== P(A)P(B) (4.7)
(4.10)
Regia de conteo 2
(kl)(kiJ . . . (kn)
(4.11)
Factoriales .
p -
n!
n X-
(n- X)!
(4.13)
Combinaciones
n!
n ~ - X! (n _ X)!
(4.14)
(4.9)
148
-r
d.
CONCEPTOS CLAVE
e.
Arbol de decision 133
Colectivamente exhaustivo
Combinaciones 149
Complemento 124
Diagrama de Venn 125
Espacio muestral 124
Evento 124
Evento conjunto 124
Evento imposible 123
Evento seguro 123
Evento simple 124
128
f.
4.4
traJ
intc
traJ
FOI
ye1
nes
An;
Am
dos
PROBLEMAS DE REPASO
Revision de su comprensi6n
table?
d. Suponga que sabe que Ia botella fue llenada en Ia maquina I.
j,Cual es Ia probabilidad de que sea no aceptable?
e. Suponga que sabe que Ia botella es no aceptable.j,Cual es Ia
probabilidad de que haya sido llenada en Ia maquina I?
f. Explique Ia diferencia en las respuestas de los incisos d)
ye).
(Sugerencia: Realice una tabla de contingencia 2 x 2 o un diagrama de Venn para evaluar las probabilidades.)
actividad !aboral eran extremadamente importantes. Los resultados en porcentajes son los siguientes:
Hombres
Mujeres
63%
59
55
48
40
21
77%
69
74
60
53
34
c. l
t
IJ
1:
4.6!
tiner
los c
a do
postJ
estu<
el ge
resul
ORD
Aplicaci6n de conceptos
4.62 Una compaiiia embotelladora de bebidas refrescantes
mantiene registros concemientes al nfunero de botellas inaceptables de las maquinas de llenado y sellado. Con base en datos
anteriores, Ia probabilidad de que una botella provenga de Ia
maquina I y sea no aceptable es de 0.01, y Ia probabilidad de
que una botella provenga de Ia maquina II y sea no aceptable es
de 0.025. La mitad de las botellas se llenan en Ia maquina I y Ia
otra mitad se llena en Ia maquina II. Si se selecciona al azar una
botella, j,cual es Ia probabilidad de que
a. sea una botella no aceptable?
b. haya sido llenada en Ia maquina I y sea una botella aceptable?
a. I
b. l
M1
Ha
d.~
VEl
Sf
No
Tou
--
ORDI
Sf
No
Tota
Problemas de repaso
d. Ja persona sea mujer y sienta que tener flexibilidad en las
horas es un aspecto importante del trabajo?
e. Dado que Ia persona siente que tener una buena relaci6n con
el jefe es un aspecto importante del trabajo, l,Cwil es Ia probabilidad de que Ia persona sea hombre?
c. l,Las cosas que los trabajadores dicen que son extremadamente importantes del trabajo son estadisticamente independientes del genero de quien responde? Explique por que.
SITIO WEB DE
TRANSACOONES PUBUCAS
VENTAS (EN MILLONES DE DOlARES)
Sf
No
71
99
88
232
4.65 El dueilo de un restaurante que sirve platillos estilo Continental, esta interesado en estudiar los patrones de 6rdenes de
los clientes para el periodo de fm de semana que va de viemes
a domingo. Se llevaron registros que indican Ia demanda de
postre durante el mismo periodo de tiempo. El dueilo decidi6
estudiar otras dos variables junto con si ordenan o no un postre:
el genero del individuo y si orden6 o no el platillo de res. Los
resultados son los siguientes:
GENERO
ORDENO POSTRE
Si
No
Total
--
ORDEN() POSTRE
Si
No
Total
---
Masculino
Femenino
Total
el 70% de su valor en relaci6n con el d6lar de Estados Unidos. Esta devaluaci6n incremento drasticamente el precio de los productos de importaci6n. De acuerdo
con una encuesta conducida por AC Nielsen en abril de 2002, el
68% de los clientes en Argentina compraban menos productos
que antes de Ia devaluaci6n, el24% compraba el mismo n1lmero de productos y el 8% compraba mas productos. Ademas, en
una tendencia bacia Ia compra de marcas menos caras, el 88%
indic6 que habian cambiado las marcas que compraban. (Michelle Wallin, "Argentines Hone Art of Shopping in a Crisis",
The Wall Street Journal, 28 de mayo, 2002, A15.) Suponga que
se report6 el siguiente conjunto de resultados.
L-----'
96
224
320
149
40
240
280
136
464
600
PlATILLO DE RES
Sf
No
Total
71
116
187
65
348
413
136
464
600
150
Menos
lgual
Mas
Total
10
262
272
14
82
96
24
8
32
48
352
400
Aplique sus conocimientos acerca de las tab/as de contingencia y de Ia ap/icaci6n apropiada de las probabilidades
simple y conjunta en Ia continuaci6n del Caso Web del capitulo 3.
Visite la pagina Web StockTout Guaranteed Investment
Package en www.prenhall.com/Springville/ST_ Guaranteed.htm. Lea las .quejas y examine los datos que las apoyan.
Despues responda a las siguientes preguntas:
1. Kirk, R. L. (ed.), Statistical Issues: A Reader for the Behavioral Sciences (Belmont, CA: Wadsworth, 1972).
2. Microsoft Excel 2003 (Redmond, WA: Microsoft Corp.,
2002).
4.69 La prueba de
das al inmunosorbente es el tipo mas comUn. de prueba de monitoreo para detectar el VIH. Un resultado
positivo de una prueba ELISA indica la presencia del VIH. La
prueba de ELISA tiene un alto grado de sensibilidad (para detectar la infecci6n) y de especificidad (para detectar la no infecci6n). (Visite el sitio HIVInsite, en HIVInsite.ucsf.edu/.) Suponga que Ia probabilidad de que una persona este infectada
con el VIH para una determinada poblaci6n es de 0.015. Si el
VIH esta realmente presente, la probabilidad de que la prueba de
ELISA de un resultado positivo es de 0.995. Si el VIH no esta
realmente presente, la probabilidad de un resultado positivo en
la prueba de ELISA es de 0.01. Use el teorema de Bayes para encontrar Ia probabilidad de que el VIH este realmente presente si
la prueba de ELISA da un resultado positivo.
de PH Grade
A4
Pa1
Abr
con
ada]
das
bill
sim
pue
som
......
--- - ----
Apendice
151
EXCEL
CAEfTULO
5.2
DISTRIBUCI6N DE PROBABILIDAD DE
UNA VARIABLE ALEATORIA DISCRETA
Valor esperado de una variable aleatoria discreta
Varianza y desviaci6n estandar de una variable
aleatoria discreta
DISTRIBUCI6N BINOMIAL
5.3
DISTRIBUCI6N DE POISSON
A.5
OBJETIVOS DE APRENDIZAJE
En este capitulo, aprendeni:
Las propiedades de una distribuci6n de probabilidad
A calcular el valor esperado, la varianza y Ia desviaci6n
estandar de una distribuci6n de probabilidad
A calcular las probabilidades de las distribuciones binomial y
de Poisson
C6mo utilizar las distribuciones binomial y de Poisson para .
resolver problemas financieros
154
uso
DE LA ESTADfSTICA
TJ
Di
pr'
nu
ap
. Sllo'pp ing
can
&In<!!
Ademas de recabar, procesar, almacenar y transformar la informaci6n fi.Ilanciera, los sistemas de informaci6n contable Ia distribuyen entre los responsa.
bles de tomar decisiones, tanto intemos como extemos, de una organizaci6n
de negocios (vea Ia referencia 5). Estos sistemas auditan continuamente 1a
informaci6n contable en busca de errores y de informaci6n incompleta o inverosimil. Por ejemplo, cuando los clientes de la empresa de remodelaciones
Saxon hacen un pedido en linea, el sistema de informaci6n contable revisa
los formatos de pedido en busca de posibles errores. Se marcan todas las facturas cuestionables y se les incluye en el reporte diario de excepciones. Los
datos recabados Ultimamente porIa empresa muestran que la posibilidad de
:= ~ -:.-:~--~~ \~11;
=~i~i:r:::~=~~!:r~~a:~U:!~ ~;~~:a;:x:ar~~:~~::::::;~
-ct
.w.ttorotri.,..aproo.;ousslloppinjjhtoronlo!?ackhotw
JORtfrjM SbopojML!Sl; Wouldyouiklto sevtlht ltem5
m'/(Mcartes a shopping fst? Clid< her. to SM SbQPOjM
'LiS.
. Fiiii111 t.M5
, *31ffilm *1!.1Hi !.1! 1.!11'
S&tJo:ut s104.94
'
a.-cnt
;CC2f01
t:'~
11u 7
stu'
Fl
Di:
bil
hif
pc
' - - - - - - ' - - - - - - - - - - - - - - - - - ' de tamaiio especifico. Por ejemplo, en una muestra compuesta por cuatro formatos, <,cwll seria Ia posibilidad de que ninguno de ellos resulte marcado? l,Y de que uno lo sea?
5.1
TA
La distribucion de probabilidad para una variable aleatoria discreta es una lista mutuamente excluyente de todos los posibles resultados numericos para una variable aleatoria tal que una
ca
es1
nu
ap
Por ejemplo, la tabla 5.1 ofrece la distribuci6n de la cantidad de creditos aprobados por semana
en la oticina de una sucursal bancaria local. La lista de la tabla 5.1 es colectivamente exhaustiva por
que se han incluido todos los.posibles resultados. Entonces, las probabilidades deben sumar 1. En Ia
figura 5.1 aparece Ia representaci6n grafica de la tabla 5.1.
.,
TABLA 5.1
Distribuci6n de
probabilidad del
numero de hipotecas
aprobadas por semana.
Probabilidad
0.10
0.10
0.20
0.30
0.15
0.10
0.05
2
3
4
5
6
FIGURA 5.1
Distribuci6n de probabilidad del numero de
hipotecas aprobadas
por semana.
15 5
PIX)
.3
.2
.1
r5
T
6 X
i VALORESPERADO
. Jl
= E(X) = LX1P(X1)
(5.1)
i=l
donde
En la tabla 5.2 se calcula el valor esperado de la distribuci6n de probabilidad del nfunero de hipotecas aprobadas por semana (tabla 5.1), utilizando la ecuaci6n (5.1).
TABLA 5.2
Calculo del valor
e~perado para el
numero de hipotecas
aprobadas por semana .
IDpotecas aprobadas
por semana (X;)
0
1
2
3
4
5
6
Probabilidad
P(X;)
0.10
0.10
0.20
0.30
0.15
0.10
0.05
1.00
X;P(X;)
(0)(0.10) = 0.0
(1)(0.10) = 0.1
(2)(0.20) = 0.4
(3)(0.30) = 0.9
(4)(0.15) = 0.6
(5)(0.10) = 0.5
(6)(0.05) = 0.3
f.1 =E(X)=2.g
156
,-
1-1
= E(X) = L
T~
X;P(X;)
ce
i=l
Ia
de
hiF
= 2.8
po
La cifra de 2.8 obtenida para el valor esperado del nfunero de hipotecas aprobadas noes "significativa literalmente", porque el nfunero real de hipotecas aprobadas durante una semana determinada debe ser un valor entero. El valor esperado representa la media de hipotecas aprobadas por
semana.
Ap
N
cr2
(5.2)
'
: donde
0
I
2
3
4
a. C
(5.3)
b.
c.
i=l
En la tabla 5.3 se calculan la varianza y la desviaci6n estandar del nfunero de hipotecas aprobadas por semana, mediante las ecuaciones (5.2) y (5.3).
c
c
~
D
0
1
2
3
4
a.
C;
b. C;
y
c.
c,
Ia:
Apli
Asi, la media de hipotecas aprobadas por semana es 2.8, Ia varianza es 2.46 y Ia desviaci6n es
tandar es 1.57.
TABLA 5.3
Calculo de Ia varianza y
Ia desviaci6n estandar
del numero de
hipotecas aprobadas
por semana.
15 7
Probabilidad
Hipotecas aprobadas
por semana (X;)
P(X;)
0
1
2
3
4
5
6
0.10
0.10
0.20
0.30
0.15
0.10
0.05
X;P(XiJ
(0)(0.10) =
(IXO.IO) =
(2X0.20) =
(3)(0.30) =
(4)(0.15) =
(5)(0.10) =
(6)(0.05) =
0.0
0.1
0.4
0.9
0.6
0.5
0.3
(0 - 2.8i(O.l 0) = 0. 784
(1- 2.8f(0.10) = 0.324
(2- 2.8)2(0.20) = 0.128
(3 - 2.8f(0.30) = 0.012
(4- 2.8)2(0.15) = 0.216
(5- 2.8)2(0.1 0) = 0.484
(6- 2.8)2(0.05) = 0.512
N
a2
= _L[X1 -
E(X)] 2 P(X1)
=2.46
i=l
a= 1.57
de Konig Motors, concesionario automotriz suburbano, sintetiz6 el numero de autom6viles vendidos al dia en Ia siguiente
tabla:
Aprendizaje basico
Distribuci6n A
Distribuci6n B
P(X)
P(X)
0
I
2
3
4
0.50
0.20
0.15
0.10
0.05
0
1
2
3
4
0.05
0.10
0.15
0.20
0.50
Numero de autom6viles
vendidos al dia
0
1
2
3
4
5
6
7
Distribuci6n C
Distribuci6n D
P(X)
P(X)
0.20
0.20
0.20
0.20
0.20
0
1
2
3
4
0.10
0.20
0.40
0.20
0.10
I
2
3
4
Aplicacion de conceptos
5.3 Utilizando los registros de Ia empresa correspondientes a los ultimos 500 dias habiles, el gerente
'
8
9
10
11
Total
Frecuencia
de ocorrencia
40
100
142
66
36
30
26
20
16
14
8
2
500
0
1
2
3
4
P(X)
0.10
0.20
0.45
0.15
0.05
0.05
15 8
5.5 El gerente de un sistema de redes de computadoras desarroll6la siguiente distribuci6n de probabilidad para el nUm.ero de interrupciones a! dia:
Interrupciones (X)
P(X)
0
1
2
3
0.32
0.35
0.18
0.08
0.04
0.02
0.01
5
6
5.2
,,
DISTRIBUCI6N BINOMIAL
En los siguientes dos apartados se utilizan modelos matematicos para resolver problemas financieros.
, Un mode1o matematico es una expresi6n matematica que se utiliza para representar una variable
: de interes.
!
Cuando se dispone de una expresi6n matematica, es factible calcular Ia probabilidad de ocorrencia exacta correspondiente a cualquier resultado especifico para Ia variable aleatoria.
La distribuci6n de probabilidad binomial es uno de los modelos matematicos mas utiles. La
distribuci6n binomial se utiliza cuando Ia variable aleatoria discreta de interes es el nllmero de exitos en una muestra compuesta por n observaciones. La distribuci6n binomial tiene cuatro propieda
des fundamentales:
159
Suponga que en una muestra de cuatro pedidos, usted observa el siguiente resultado:
Primer pedido
Marcado
Segundo pedido
Tercer pedido
Cuarto pedido
Marcado
Sinmarcar
Marcado
i,Cwil es la probabilidad de tener tres exitos (formatos de pedido marcados) con esta secuencia en
particular, en una muestra compuesta por cuatro pedidos? Puesto que Ia probabilidad hist6rica de un
pedido marcado es de 0.10, Ia probabilidad de que cada pedido se presente con dicha secuencia es
Primer pedido
p= 0.10
Segundo pedido
Tercer pedido
Cuarto pedido
p = 0.10
1-p=0.90
p = 0.10
Cada uno de los resultados es independiente de los demas, ya que los formatos de pedido se seleccionaron de una poblaci6n extremadamente grande o pnicticamente infinita y sin reemplazarlos.
Por tanto, Ia probabilidad de tener esta secuencia en particular es
= (0.10)3 (0.90) 1
= 0.0009
Este resultado s6lo seiiala Ia probabilidad de que aparezcan tres formatos de pedido marcados
( exitos) extraidos de una muestra de cuatro con una secuencia especifica. Para encontrar cUiintas
maneras hay de seleccionar X objetos de entre n objetos, independientemente de Ia secuencia, se utiliza Ia regia de las combinaciones dada en Ia ecuaci6n (5.4).
i
COMBINACIONES
El nt1mero de combinaciones para seleccionar X objetos de entre n objetos esta dado por:
C n
donde
(5.4)
n!
x- X!(n- X)!
C _
n!
x- X!(n-X)!
4!
3!(4-3)!
= 4 X 3X 2 X 1 =4
(3x2x1)(1)
160
Usted puede hacer una deducci6n intuitiva similar para los demas resultados posibles de Ia variable aleatoria: cero, uno, dos y cuatro forniatos de pedido marcados. Siileiiibargo, a medida que n,
el tamaiio de Ia muestra, es mayor, los calculos implicados para este metodo intuitivo requieren de
mas tiempo. Existe un modelo matematico que brinda una f6rmula general para calcular cualquier
probabilidad binomial. La ecuaci6n (5.5) es el modelo matematico que se utiliza para representar Ia
distribuci6n de probabilidad binomial y calcular el nUmero de exitos (X), dados los valores n y p .
n!
x(l- )"-X
X!(n-X)!p
p
! donde
n = numero de observaciones
p = probabilidad de exitos
1 - p = probabilidad de fracasos
especi.fica. El termino:
r---
n!
X!(n-X)!
/ EJ
indica cw:intas combinaciones de esos X exitos de entre n observaciones son posibles. Asi, dado el
nfunero de observaciones n y Ia probabilidad de exito p, Ia probabilidad de obtener X exitos es:
P(X) = (nfunero de secuencias posibles) x (probabilidad de una secuencia especifica)
n!
x(l
)"-x
X!(n- X)!p
- p
EJEMPLO 5.1
P(X = 3) =
=
41
(0.1)3 (1- 0.1)4- 3
3!(4- 3)!
41
(0.1)\0.9)1
3!(4- 3)!
= 4(0.1)(0.1)(0.1)(0.9) = 0.0036
En los ejemplos 5.2 y 5.3 se muestran los calculos para otros valores de X
------------------------------------------------------~-
L.. _ ___ -
EJEMPLO 5.2
161
SOLUCI6N En el ejemplo 5.1 usted encontr6 que Ia probabilidad de obtener exactamente tres
formatos marcados a partir de una muestra de cuatro es 0.0036. Para calcular la probabilidad de obtener por lo menos tres formatos marcados, es necesario sumar la probabilidad de los tres formatos
marcados y la probabilidad de cuatro formatos marcados. La probabilidad de obtener cuatro formatos marcados es:
i
P(X = 4) =
_.)
41
(O.lt(l- 0.1)4 -4
4!(4- 4)!
~(0.1)4 (0.9)0
4!(0)!
= 1(0.1)(0.1)(0.1)(0.1) = 0.0001
Asi, la probabilidad de obtener al menos tres formatos de pedido marcados es:
P(X
3)
= P(X = 3)+P(X = 4)
= 0.0036 + 0.0001
= 0.0037
Existe un 0.37% de posibilidad de tener al menos tres formatos de pedido marcados en una muestra
compuesta por cuatro formatos.
EJEMPLO 5.3
= 4 Y p = 0.1
Si la posibilidad de que un formato de pedido sea marcado es de 0.1, ,que probabilidad existe de que
haya menos de tres formatos marcados en una muestra compuesta por cuatro?
SOLUCI6N
Se utiliza la ecuaci6n (5.5) de Ia pagina 160 para calcular cada una de las probabilidades:
P(X
= 0) =
4
!
(0.1)0 (1- 0.1)4- 0
0!(4- 0)!
P(X
= 1) =
4
!
(0.1)'(1- 0.1)4 - 1
1!(4-1)!
P(X
= 2) =
4
!
(0.1) 2 (1- 0.1)4- 2
2!(4-2)!
= 0.6561
= 0.2916
= 0.0486
=I -
0.0037
3)
= 0.9963
Tal vez los cillculos realizados en el ejemplo 5.3 resulten tediosos, sobre todo conforme n aumenta.
Para evitar la monotonia que implica efectuar los calculos, es factible encontrar muchas probabilidades binorniales directamente en Ia tabla E.6, que se reproduce parcialmente en Ia tabla 5.4. La tabla
TABLA 5.4
Como encontrar Ia
probabilidad binomial
para n = 4, X= 2 y
p = 0.1.
0.01
0.02
0.9606
0.0388
0.9224
0.0753
3
4
0.0000
0.0000
0.0000
0.0000
E>
de
bil
p
Fl
G1
0.0036
0.0001
Fuente: Tabla E. 6.
Tambien es posible calcular las probabilidades binomiales que aparecen en la tabla E.6 utilizando Excel o Minitab. En la figura 5.2 aparece una hoja de trabajo de Excel para calcular probabilidades binomiales, yen la figura 5.3 se ilustra el resultado en Minitab.
FIGURA 5.2
Hoja de trabajo de
Excel para calcular
probabilidades
binomiales.
A
1 Tagged Orders
2
Datil
3
4 Samplellze
5 Probability of ..ca.
6
. 4
0.1
Statlsllcs
84*85
0.4
8 lie an
:9 Variance
10 Standard deviation
BI* (185)
SQRT(B9)
0.36
0.6
11
t2 Binomial Probabilities Table
13
X POO
1_4
a 0.6561
15
1 0.2916
16
2 O..G486
3 0.11036
17
18
4 0..0001
FIGURA 5.3
Calculo de Ia
distribuci6n binomial
para n = 4 y p = 0.1
en Minitab.
Binomial with n
X
0
1
2
3
P( X
=X
= 4 and p = 0.1
0.6561
0.2916
0.0486
0.0036
0.0001
EJE
La forma de probabilidad binomial depende de los valores deny p . Siempre que p = 0.5, la distribuci6n binomial es simetrica, independientemente de lo grande o pequeiio del valor den. Cuando
p 1:- 0.5, la distribuci6n es asimetrica. Cuanto mas se acerca p a 0.5 y el nfunero de observaciones n
es mayor, menos asimetrica se vuelve la distribuci6n. Por ejemplo, la distribuci6n del nfunero de
formatos marcados es muy asimetrica ala derecha, porque p = 0.1 y n = 4 (vea la figura 5.4).
163
FIGURA 5.4
Grafica de barras de
Excel de Ia distribuci6n
.
de probabilidad
binomial con n = 4 y
p = 0.1.
...g
La media de la distribuci6n binomial es igual al producto den por p . En Iugar de calcular lamedia de Ia distribuci6n de probabilidad utilizando la ecuaci6n (5.1) de Ia piigina 155, utilice la ecuaci6n (5.6) para calcular Ia media de las variables que siguen a Ia distribuci6n binomial.
J.L=E(X)=np
(5.6)
En promedio, y a Ia larga, te6ricamente usted esperaria J.L = E(X) = np = (4)(0.1) = 0.4 formatos de
pedido marcados en una muestra compuesta por cuatro formatos.
La desviaci6n estiindar de Ia distribuci6n binomial se calcula mediante Ia ecuaci6n (5 .7).
(5.7)
= ~4(0.1)(0.9) = 0.6
Este resultado es el rnismo que calcularia si utilizara Ia ecuaci6n (5.3) de Ia piigina 156.
EJEMPLO 5.4
164
5
u
5
SOLUCI6N Puesto que se trata de tres pedidos y Ia probabilidad de tener un pedidq servido con
exactitudes del88%, n = 3 y p = 0.88. Mediante las ecuaciones (5.5), (5.6) y (5.7)
P(X
= 3) =
=
5.
3
!
(0.88) 3(1 - 0.88)3- 3
3!(3- 3)!
3
'
(0.88) 3 (0.12) 0
3!(3- 3)!
= 1(0.88)(0.88)(0.88)(1) = 0.6815
P(X
3
!
(0.88) 0 (1- 0.88) 3- 0
0!(3- 0)!
= 0) = .
3
'
(0.88) 0 (0.12) 3
= 0!(30)!
= 1(1)(0.12)(0.12)(0.12) = 0.0017
Ii
II
I
qt
a.
b.
c.
d.
~
e
c.
d.
Af
5.~
P(X = 2) =
3
(0.88) 2 (1- 0.88)3- 2
!
2!(3- 2)!
UD<
ale;
una
cin1
3
2
'
(0.88) (0.12i
= 2!(32)!
5.1
= 3(0.88)(0.88)(0.12) = 0.2788
jo,
con
que
+ 0.6815
= 0.9603
J.1
lar1
dec
a. I
b. j
c. 11
d.~
cr =
= ~3(0.88)(0. 12)
= .,Jo.3168 = 0.563
La probabilidad de que los tres pedidos se sirvan con exactitudes de 0.6815 o del68.15%. La
probabilidad de que ninguno de los pedidos se sirva con exactitudes de 0.0017 o del 0.17%. La probabilidad de que por lo menos dos pedidos se sirvan con exactitudes de 0.9603 o del 96.03%. La
media de pedidos servidos con exactitud en una muestra de tres pedidos es 2.64 y la desviaci6n es
tandar es 0.563.
En este aparlado se explic6 la distribuci6n binomial, la cual desempefta un papel aUn mas it11
portante cuando se utiliza en problemas de inferencia estadistica que implican la estimaci6n o prue
ba de hip6tesis sobre proporciones (como analizaremos en los capitulos 8 y 9).
de ni
giae
D) de
leccj,
La le
ex an:
~cua
a. en
b. al
c. nil
d. no
Aprendizaje basico
5.7 Si n
que
= 5 y p = 0.40,
a. X=4
b.
x:s 3
c. X< 2
d. X>l
Aplicaci6n de conceptos
5. 9 Se supone que el aumento o la dismiriuci6n del precio de
una acci6n durante el transcurso de un dia habil es un evento
aleatorio igualmente posible. l.,Cwil es la probabilidad de que
una acci6n muestre un aumento en su precio al cierre durante
cinco dias consecutivos?
5.1 0 El 60% de los estadounidenses leen su contrato de trabajo, incluyendo las Ietras pequefias ("Snapshots," usatoday.
com, 20 de enero, 2004). Suponga que el nfunero de empleados
que leen cada una de las palabras de su contrato se puede modeJar utilizando la distribuci6n binomial. Considerando un grupo
de cinco empleados, encuentre cual es la probabilidad de que:
a. Los cinco lean cada una de las palabras de su contrato.
b. AI menos tres lean cada una de las palabras de su contrato.
c. Menos de dos lean cada una de las palabras de su contrato.
d. ~Cuales serian sus respuestas para los incisos a) a c), si la
probabilidad de que un empleado lea cada una de las palabras de su contrato es de 0.80?
ASJSTENCJA
mUltiple, en el que cada pregunta tiene cuatro opciones. Suponga que ella no conoce la respuesta correcta
d~ ninguna de las preguntas, y que decidi6 utilizar una estrategia en la que colocara cuatro pelotas (marcadas como A, B, C y
D) ~entro de una caja. Ahora, para responder cada pregunta, se~Cciona una pelota de manera aleatoria y la devuelve a la caja.
a Ietra de la pelota determinara su respuesta a la pregunta. El
~xa~en se compone de cinco preguntas de opci6n multiple.
~CuaJ es la probabilidad de que ella obtenga
a .
Cinco respuestas correctas?
b. al menos cuatro respuestas correctas?
c .
- IUnguna respuesta correcta?
d. no mas de dos respuestas correctas?
de PH Grade
165
5.13 Durante varios afios se ha reducido el porcentaje de comisi6n que las lineas aereas comerciales pagan a los agentes de
viajes. Muchas agencias, en busca de mejorar sus ingresos, eobran ahora a sus clientes una cuota por boleto, generalmente de
entre I 0 y 25 d6lares. De acuerdo con la sociedad estadounidense de agentes boleteros, cerca del 90% de los agentes de viajes cobra cuotas a sus clientes cuando estos adquieren boletos
de avi6n (Kortney Stringer, "American Air Fees for Travel
Agents to Be Cut Again", The Wall Street Journal, 20 de agosto, 2001 , B2).
a. La cifra del 90% citada por la sociedad estadounidense de
agentes boleteros, (.quedaria mejor clasificada como probabilidad clasica a priori, probabilidad clasica empirica o probabilidad subjetiva?
b. Usted selecciona una muestra aleatoria de 10 agencias de
viajes. Suponga que el nfunero de 10 agencias de viajes que
cobran una cuota por boleto se distribuye como variable
a1eatoria binomial. (.Cua1es son la media y la desviaci6n estandar de esta distribuci6n?
c. (.Que suposiciones es necesario hacer en el inciso b)?
5.14 Consulte el problema 5.13 y calcule la probabilidad de
que de 10 agencias de viajes:
a. ninguna cobre cuota por boleto.
b. exactamente una cobre cuota por boleto.
c. dos o menos cobren cuota por boleto.
d. tres o mas cobren cuota por boleto.
ASJSTENCJA
automaticamente si el cliente ha excedido o no su limite de credito. Los registros sefialan que la probabilidad de que los clientes exceden su limite de credito es de 0.05. Suponga que durante un dia determinado, 20 clientes hicieron un pedido. Suponga
tambien que el nfunero de clientes que segU.n el sistema AIS excedieron su limite de credito esta distribuido como variable
aleatoria binomial.
a. (.Cuales son la media y la desviaci6n estandar del nfunero de
clientes que excedieron su limite de credito?
b. l.,CUlil es la probabilidad de que ningU_n cliente exceda su limite de credito?
c. l.,Cwil es la probabilidad de que solo un cliente exceda su limite de credito?
d. (.Cual es la probabilidad de que dos o mas clientes excedan
su limite de credito?
- - -- - - - - -- - - --
166
- . .
-- - -
---
-~-
5.3
DISTRIBUCI6N DE POISSON
Muchos estudios se basan en el conteo de las veces que se presenta un evento dentro de un area de
oportunidad dada. El area de oportunidad es una unidad continua o intervalo de tiempo, volumen,
o area en donde se puede presentar mas de un evento. Algunos ejemplos serian los defectos en Ia superficie de un refrigerador, el nfu:nero de fallas de Ia red en un dia, o el nfu:nero de pulgas que tiene
un perro. Cuando se tiene un area de oportunidad como estas, se utiliza Ia distribucion de Poisson
para calcular las probabilidades si:
Le interesa contar las veces que se presenta un evento en particular dentro de un area de oportunidad determinada. El area de oportunidad se define por tiempo, extension, area, etcetera.
La probabilidad de que un evento se presente en un area de oportunidad dada es igual para todas las areas de oportunidad.
La probabilidad de que dos o mas eventos se presenten en un area de oportunidad tiende a cero
conforme esa area se vuelve menor.
Considere el nfu:nero de clientes que llegan a un banco ubicado en Ia zona central de negocios
de una gran ciudad, durante Ia hora del almuerzo. A usted le interesa conocer el nfu:nero de clientes
que llegan cada minuto. i,Esta situacion concuerda con las cuatro propiedades de Ia distribuci6n de
Poisson mencionadas anteriormente? Primero, el evento de interes es un cliente y el area de oportu
nidad esta definida como un intervalo de 1 minuto. j,Llegaran cero clientes, un cliente, dos clientes,
etcetera? Seglindo, es razonable suponer que Ia probabilidad de que llegue un cliente durante un
intervalo especifico de l minuto es igual a Ia probabilidad correspondiente a todos los demas inter
valos de 1 minuto. Tercero, Ia llegada de un cliente durante cualquier intervalo de I minuto no influ
ye en (es decir, es estadisticamente independiente de) Ia llegada de cualquier otro cliente durante
cualquier otro intervalo de I minuto. Por Ultimo, Ia probabilidad de que lleguen dos o mas c!ien
tes durante un periodo de tiempo dado tiende a cero a medida que dicho intervalo de tiempo es roenor. Por ejemplo, Ia probabilidad de que dos clientes lleguen durante un intervalo de tiempo con una
amplitud de 1/IOO de segundo es virtualmente cero. Asi, es factible utilizar Ia distribucion de Pois
son para deierminar las probabilidades correspondientes al nfu:nero de clientes que llegan al banCO
dilrante un intervalo de tiempo de I minuto mientras es Ia hora del almuerzo.
167
La distribuci6n de Poisson tiene un panunetro, llamado A (la letra griega lambda minuscula),
que es Ia media o el nl1mero esperado de eventos p6r unidad. La varianza de Ia distribuci6n de PoisEl nl1mero de eventos X de Ia vason tambien es igual a A., y su desviaci6n estandar es igual a
riable aleatoria de Poisson fluctUa desde 0 basta infinito.
En la ecuaci6n (5.8) se presenta la expresi6n matematica de la distribuci6n de Poisson para el
calculo de Ia probabilidad de X eventos, dado que se esperan A eventos.
..fi: .
P(X)
donde
= _e-""-
(5.8)
Xl
Para demostrar la distribuci6n de Poisson, suponga que la media de clientes que llega al banco
por minuto durante la hora que va del mediodia a Ia 1 PM es igual a 3.0. l,Cwil es Ia probabilidad de
que lleguen exactamente dos clientes durante un minuto dado? l,Y cual es Ia probabilidad de que lleguen mas de dos clientes durante un minuto dado?
AI utilizar Ia ecuaci6n (5.8) y A= 3, se sabe que Ia probabilidad de que lleguen exactamente dos
clientes durante el transcurso de un minuto dado es
2
30
9
P(X = 2) = e- ( 30 ) =
= 0.2240
2!
(2.71828) 3(2)
Para determinar Ia probabilidad de que lleguen mas de dos clientes durante un minuto dado
P(X > 2) = 1 -
e-3.0(3.0)0
[
e-3.0(3.0)1
e-3.0(3.0)2]
+ ---'--~
~
= 1 - 0.4232 = 0.5768
De esta forma, existe una posibilidad del 57.68% de que lleguen mas de dos clientes en el mismo
minuto.
Para evitar Ia monotonia que implica realizar estos calculos, podra encontrar muclias probabilidades de Poisson directamente en Ia tabla E.7, que se reproduce de manera parcial en Ia tabla 5.5. La
. . - . . . - - - - - - - - - - - - - - - -- - 168
----
tabla E. 7 indica las probabilidades correspondientes a la variable aleatoria de Poisson para los valores de X= 0, 1, 2, .. . , de una selecci6n de valores del parametro A.. Para encontrar Ia probabilidad de
que lleguen exactamente dos clientes durante un minuto dado, cuando Ia media de clientes que llegan por minuto es de 3.0, se lee Ia probabilidad correspondiente a Ia fila X= 2 y la columna A.= 3.0
de Ia tabla. El resultado es 0.2240, como muestra Ia tabla 5.5.
TABLA 5.5
Calculo de Ia
probabilidad de
Poisson para A. = 3.
Fll
ca
dis
par
A.
X
2.1
2.2
.1225
.2572
.1108
.2438
.1890
.0992
.0417
.0146
.0044
.0011
.0003
.0001
.0000
.0000
.1966
.1082
.0476
.0174
.0055
.0015
.0004
.0001
.0000
.0000
4
5
6
7
8
9
10
11
12
.1680
.1008
.0504
.0216
.0081
.0027
.0008
.0002
.0001
Fuente: Tabla E. 7.
Tambien es factible calcular las probabilidades de Poisson que aparecen en Ia tabla E.7 utilizando Excel o Minitab. En la figura 5.5 se muestra una hoja de trabajo de Excel para la distribuci6n de
Poisson con A.= 3. En la figura 5.6 aparece el resultado en Minitab.
FIGURA 5.5
Hoja de trabajo de
Excel para el calculo
de probabilidades de
Poisson.
B
A
I
.1 Cultomer Antvllls Anelylls
If)
EJE
D818
3
3
4 Averege/Expected number of MJc:ce.es: I
5
I
6 Polaon Probabilities Teble
P(X)
7
X
POISSON(AS, $E$.t, FALSE)
0.849787
8
8
0.149361
POISSON(A9, $E$.t, FALSE)
9
1
POISSON(A10, $E$.t, FALSE)
0.224042
2
10
POISSON(A11, $E$.t, FALSE)
0.224042
11
3
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
ZT
2B
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
0.168031
0.1-19
0.1150409
0.821&04
o.-102
0.802701
O.U.10
0.800221
0.11011055
0.000013
0.800003
0.000001
0.1100000
0.1100000
0.1100000
0.11801100
0.1100000
f.'SiSTE
~
c. Si
d. Si
FIGURA 5.6
Calculo de Ia
distribuci6n de Poisson
para ').. = 3 en Minitab.
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
EJEMPLO 5.5
169
P( X
=X
0.049787
0.149361
0.224042
o. 224042
0.168031
0.100819
0.050409
0.021604
0.008102
0.002701
0.000810
0.000221
0.000055
0.000013
0.000003
0.000001
P(X
= 0) = e- .\
2 .5)0
0!
P(X ~ 1)
1
(2.71828) 25 (1)
= 0.0821
= 1- P(X = 0)
= 1-0.0821
= 0.9179
La probabilidad de que nose presentaran fallas durante un mes dadoes de 0.0821. La probabilidad
de que se presente al menos una falla es de 0.9179.
___ _I
~prendizaje basico
SISTENCtA
170
5.20 Suponga una distribuci6n de Poisson con f...= 5.0. Determine la probabilidad de que
a. X= 1.
b. X< 1.
c. X> 1.
d. xs 1.
Aplicacion de conceptos
Puede resolver los problemas 5.21 a 5.31 manualmente, en Excel o en Minitab.
5.21 Suponga que el nfunero de errores que se presentan durante un dia en una red de area local (LAN) se distribuye como
una variable aleatoria de Poisson. La media de errores de red
ocurridos durante un dia es 2.4. ~Cmil es la probabilidad de que
en un dia determinado:
a. se presenten cero errores?
b. se presente s6lo un error?
c. se presenten dos o mas errores?
d. se presenten menos de tres errores?
5.23 De acuerdo con los datos del problema 5.22, l,Culintas galletas de un lote de 100 esperaria desechar el gerente, si las politicas de la empresa exigen que todas las galletas con chispas
de chocolate deben tener al menos cuatro chispas?
5.24 El Departamento de Transporte de EUA registra las estadisticas de las maletas maltratadas por cada 1,000 pasajeros. En
2003, Jet Blue tuvo 3.21 maletas maltratadas por cada 1,000 pasajeros. ~Cuai es la probabilidad de que, con los pr6ximos
1,000 pasajeros, Jet Blue tenga
a. ninguna maleta maltratada?
b. al menos una maleta maltratada?
c. al menos dos maletas maltratadas?
d. Compare los resultados de los incisos a) a c) con los de Delta en el problema 5.25, incisos a) a c).
5.25 El Departamento de Transporte de EUA registra las estadisticas de las maletas maltratadas por cada 1,000 pasajeros. En
2003, Delta tuvo 3.84 maletas maltratadas por cada 1,000 pasajeros. ~Cual es la probabilidad de que, con los pr6ximos 1,000
pasajeros, Delta tenga
a. ninguna maleta maltratada?
b. al menos una maleta maltratada?
c. al menos dos maletas maltratadas?
d. Compare los resultados de los incisos a) a c) con los de Jet
Blue en el problema 5.24, incisos a) a c).
5.26 Con base en experiencias anteriores, se supo'------' ne que el nfunero de imperfecciones por pie en los
rollos de papel con graduaci6n 2 obedece a una distribuci6n de Poisson, con una media de 1 imperfecci6n por cada cinco pies de papel (0.2 imperfecciones por pie). ~Cual es la
probabilidad de que
a. en un rollo de un pie existan al menos dos imperfecciones?
b. en un rollo de 12 pies exista al menos 1 imperfecci6n?
c. en un rollo de 50 pies existan entre 5 y 15 (inclusive) imper. fecciones?
a
0
a.
5.27 J.D. Power y Asociados calculan y publican varias estadisticas relacionadas con la calidad de los autom6viles. La calificaci6n Calidad Inicial mide el nfunero de problemas por cada
autom6vil nuevo que se vende. Con los modelos 2003, el Lexus
fue el mejor con 1.63 problemas por autom6vil. El Kia coreano fue el peor, con 5.09 problemas por autom6vil (L. Hawkins,
"Finding a Car That's Built to Last?" The Wall Street Journal, 9
de julio, 2003, Dl, D5). Sea la variable aleatoria X igual al numero de problemas de un Lexus recien comprado.
Er
Yi
eSI
lid
ob
ci(
xo
COl
Val
Jl=
Va1
Des
cr=
Cor
area
desv
V;
distr
distr
hi
Conceptos clave
a Ia empresa. Los datos recabados antes sefialan que se reciben
0.4llamadas por minuto.
a. ~Cuales propiedades deben ser verdaderas con respecto a Ia
situaci6n antes descrita para utilizar una distribuci6n de
Poisson con Ia finalidad de calcular las probabilidades relacionadas con el nfunero de llamadas telef6nicas recibidas
durante un periodo de 1 minuto?
171
RESUMEN
En este capitulo estudi6 Ia esperanza matematica y el desarrollo
y aplicaci6n de las distribuciones binomial y de Poisson. En el
escenario "Uso de Ia estadistica" aprendi6 a calcular probabilidades a partir de Ia distribuci6n binomial relacionada con Ia
observaci6n de las facturas marcadas por el sistema de informacion contable utilizado por Ia empresa de remodelaciones Saxon. En el siguiente capitulo, se desarrollara Ia distribuci6n
continua mas importante: Ia distribuci6n normal.
FORMULAS IMPORTANTES
Valor esperado f1 de una variable aleatoria discreta
N
J.l.
= E(X) =
L X;P(X;)
P(X) =
(5.1)
i=l
cr =
(5.2)
J.l. = E(X) = np
(5.6)
,J;Z =
(5.5)
i=l
cr::::
n!
x(l - )n-X
X!(n-X)!p
p
cr
(5.7)
Combinaciones
C
n!
II X ::
.
X!(n -X)!
(5.3)
-l..~.,x
P(X)
= _e-
X!
(5.8)
(5.4)
CONCEPTOS CLAVE
area de oportunidad 166
desviaci6n estandar de una
. Variable aleatoria discreta 156
d~stribuci6n de Poisson 166
dis~buci6n de probabilidad
hmomial 158
distribuci6n de probabilidad de
una variable aleatoria
discreta 154
modelo matematico 158
regia de combinaciones 159
172
PROBLEMAS DE REPASO
Revision de su comprensi6n
5.32 (.Cual es el significado del valor esperado de una distribucion de probabilidad?
Aplicaci6n de conceptos
Puede resolver los problemas 5.35 a 5.51 manualmente, en Excel o en Minitab.
5.35 Los seguros de contingencias permiten a los promotores
de especticulos deportivos y de entretenimiento contar con proteccion de perdidas financieras causadas por circunstancias fuera
de su control, como los aguaceros. Por ejemplo, cada primavera el Ayuntamiento Central de la ciudad de Cincinnati pone en
marcha el Festival de Cincinnati. Esa epoca del aiio es lluviosa
en la zona, y la posibilidad de que llueva mas de una pulgada
durante un fin de semana es de alrededor de una de cuatro. En
un articulo publicado por el Cincinnati Enquirer, escrito por
Jim Knippenberg ("Chicken Pox Means 3 Dog Night Remedy",
Cincinnati Enquirer, 28 de mayo, 1997, E1), se muestran los
detalles de la poliza de seguro contratada por el Ayuntamiento
Central. La poliza abarca el pago de $100,000 dolares si llueve
mas de una pulgada durante el fm de semana del festival. Se informo que el costo de la p6liza fue de $6,500 d6lares.
a. Determine si cree o no que el monto de esas cifras es correcto. (Sugerencia: Calcule el valor esperado de las utilidades
que recibira la empresa a8eguradora.)
b. Suponga que los montos son correctos. (.Esta poliza es una
buena transaccion para el Ayuntamiento Central de Cincinnati?
5.36 Desde 1872 basta 2000, los precios de las acciones subieron el 74% de los aiios (Mark Hulbert, "The Stock Market
Must Rise in 2002? Think Again", The New York Times, 6 de
diciembre, 2001, Business, 6). Con base en esta informacion, y
suponiendo una distribucion binomial, (.Cual cree que es la probabilidad de que aumenten los precios en el mercado de valores
a. el proximo aiio?
b. el aiio siguiente al proximo?
c. en cuatro de los proximos cinco aiios?
d. en ninguno de los proximos cinco aiios?
e. Para este caso, (.que suposicion de Ia distribucion binomial
no seria valida?
5.37 El costo medio de una llamada telefonica controlada por
un sistema automatico de servicio al cliente es de $0.45. El costo medio de una llamada telefonica a traves de una operadora es
de $5.50. Sin embargo, conforme mas empresas instrurnentan
sistemas automaticos, aumenta mas la molestia de los clientes
con ese sistema. Muchos clientes se apresuran a salir del sistema automatico cuando reciben una opcion como "Para hablar
con un representante de ventas, marque cero". De acuerdo con
el Centro para Conservacion de Clientes, el 40% de todas las
a
b
c
d
5
lc
II
01
pl
e!
Ia
~
5.38 Una teoria referente al indice industrial Dow Jones afirma que es probable que este se incremente durante los aiios de
eleccion presidencial en Estados Unidos. De 1964 a 2000, el indice industrial Dow Jones ha aumentado en ocho de los 10 aiios
en los que ha habido eleccion presidencial en ese pais. Suponiendo que este indicador es un evento aleatorio sin valor de
pronostico, usted esperaria que fuese correcto el 50% de las veces. (.Cual es Ia probabilidad de que el indice industrial Dow
Jones aumente en ocho o mas de los 10 aiios de eleccion presidencial estadounidense, si Ia verdadera probabilidad de incremento es
a. 0.50?
b. 0.70?
c. 0.90?
d. Con base en los resultados de los incisos a) a c), (.Cual cree
que es la probabilidad de que se incremente el indice industrial Dow Jones en un aiio en el que hay elecciones presidenciales en Estados Unidos?
Ul
bi
de
AI
2(
a.
b.
c.
d.
5.~
qu~
a.
b.
C. I
d,
5.4
que
ci6r
a.
b.
c.
d.
1
r
(
----...
Problemas de repaso
b. un articulo tarde exactamente mas de 3 dias?
c. dos 0 mas articulos tarden mas de tres dias?
d. i, Cuales son la media y la desviaci6n estandar de la distribuci6n de probabilidad?
5.40 Consulte el problema 5.39. Silos envios se realizan utilizando Priority Mail, i,Cual es Ia probabilidad de que
a. ningtm articulo tarde mas de 3 dias?
b. un articulo tarde exactamente mas de 3 dias?
c. dos 0 mas articulos tarden mas de 3 dias?
d. i,Cuales son la media y la desviaci6n estandar de la distribuci6n de probabilidad?
e. Compare los resultados de los incisos a) a c) con los del problema 5.39, incisos a) a c).
5.41 La publicidad en las salas de cine esta aumentando. Por
lo general, de 60 a 90 segundos de duraci6n, estos anuncios son
mas largos y extravagantes, y muestran la tendencia a sostener mas audiencias cautivas que los anuncios de televisi6n. Asi
pues, no resulta sorprendente que las tasas de retenci6n de los
espectadores de los anuncios en cine sean superiores que las de
los anuncios por televisi6n. De acuerdo con una encuesta realizada por la divisi6n ComQUEST del BBM Bureau of Measurement de Toronto, la probabilidad de que un espectador recuerde
un anuncio que vio en el cine es de 0. 74, mientras que la probabilidad de que un espectador recuerde un anuncio de 30 segundos que vio por televisi6n es de 0.37 (Nate Hendley, "Cinema
Advertising Comes of Age", Marketing Magazine, 6 de mayo,
2002, 16).
a. La probabilidad de 0.74 reportada por el BBM Bureau of
Measurement, i,quedaria mejor clasificada como probabilidad clasica a priori, probabilidad clasica empirica o probabilidad subjetiva?
b. Suponga que se seleccionan como muestra, de manera aleatoria, 10 espectadores de un anuncio en cine. Considere la
variable aleatoria definida por el nfunero de espectadores
que recuerdan el anuncio. i,Culiles suposiciones se deben hacer, para asumir que la distribuci6n de esta variable es la de
una variable aleatoria binomial?
c. Suponiendo que el nfunero de espectadores que recuerdan el
anuncio en el cine es una variable aleatoria binomial, i,CUales son Ia media y Ia desviaci6n estandar de esta distribuci6n?
d. Con base en su respuesta al inciso c), si ninguno de los espectadores puede recordar el anuncio, i,que se infiere con
respecto a Ia probabilidad de 0.74 mencionada en el articulo?
5.42 Consulte el problema 5.41. Calcule la probabilidad de
que de 10 espectadores:
a. ninguno recuerde el anuncio.
b. los lO recuerde el anuncio.
c. mas de Ia mitad recuerde el anuncio.
d. ocho o mas recuerden el anuncio.
173
e. Compare los resultados de los incisos a) a d) con los del problema 5.42, incisos a) a d).
174
Cuando el ganador del Super Bowl es de la Conferencia Americana, el indice industrial Dow Jones desciende durante ese ailo.
En ellapso comprendido entre 1967 y 2003, un periodo de 37
ailos, el indicador ha resultado correcto en 31 de ellos. Suponiendo que este indicador es un evento aleatorio sin valor
de pron6stico, usted esperaria que fuese correcto el SO% de las
veces.
a. ;, Cual es Ia probabilidad de que el indicador resulte correcto
31 veces o mas en 3 7 aiios?
b. ;,Que le dice lo anterior acerca de Ia utilidad de este indicador?
A
Pc
al.
El departamento de mercadotecnia del Herald trata de incrementar sus ventas por suscripci6n, a traves de una intensa
campaiia de marketing directo que incluye mensajes por correo,
cupones de descuento y solicitudes por telefono. La retroalimentaci6n procedente de estas actividades seilala que, tanto para suscriptores como para clientes potenciales, Ia entrega del
peri6dico temprano por la ma.iiana es un factor muy importante.
Luego de varias sesiones con lluvia de ideas, un equipo
compuesto por miembros de los departamentos de marketing y
At
tie
de
SQ
taJ
Apendice
da cuarto de bora el porcentaje de peri6dicos que faltaban por
entregar, de 6:00AM a 8:00AM. Jan Shapiro record6 que en los
formatos de suscripci6n se preguntaba a los clientes a que bora
esperaban recibir su ejemplar del Herald. Esos datos se combinaron despues y se colocaron en una pagina Web interna del
Herald (vea el archivo Circulation_Data.htm que se encuentra en Ia carpeta HeraldCase del CD-ROM que acompafia este
volumen o entre a www.prenhall.com/HeraldCase/Circulation_Data.htm).
SH5.1
SH5.2
EJERCICIOS
Revise los datos internos y proponga una bora razonable (al
cuarto de bora mas cercano) para garantizar Ia entrega. Como
ayuda para explorar los efectos de su elecci6n, calcule las siguientes probabilidades:
175
_]
1. Bernstein, P. L., Against the Gods: The Remarkable Story
ofRisk (Nueva York: Wiley, 1996).
2. Emery, D. R. y J.D. Finnerty, Corporate Financial Management, 2a. ed. (Upper Saddle River, NJ: Prentice Hall,
2000).
3. Kirk, R. L., ed., Statistical Issues: A Reader for the Behavioral Sciences (Belmont, CA: Wadsworth, 1972).
4. Levine, D. M., P. Ramsey yR. Smidt, Applied Statistics for
Engineers and Scientists Using Microsoft Excel and Minitab (Upper Saddle River, NJ: Prentice Hall, 2001).
Apendice 5
5. Mescove, S.A., M. G. Simkin y A. Barganoff, Core Concepts of Accounting Information Systems, 7a. ed. (Nueva
York: John Wiley, 2001.
6. Microsoft Excel 2003 (Redmond, WA: Microsoft Corp.,
2002).
7. Minitab for Windows Version 14 (State College, PA: Minitab Inc., 2004).
EXCEL
Ia
176
~~
BmoflthtiiJI'>frrhufmn
1
I
A5.2
MINITAB
Prollelllllty
r.
Cumuletlve prabulllty
Numberoftrlel:
IL .~ - -
Probability of eucce..:
1-1._ ~- ,_. __
_j
- J
l r.;
Input cullmn:
Optlonlil tllonlge:
C:
I111Jut cunnt
Optlonlillllontge:
~~s;.-;;-~,
6.
que llegan al banco, utilizado en Ia seccion 5.3. Para calcular
los resultados que se muestran en la figura 5.6 de Ia pagina 169,
1. Introduzca los valores 0 al 15 en las filas 1 a 16 de Ia columna Cl.
2. Para calcular probabilidades de Poisson, seleccione Calc
-+ Probability Distributions -+ Poisson. En el cuadro de
diatogo Poisson Distribution (distribucion de Poisson, vea
Ia figura A5.2), seleccione Ia opcion Probability para calcular las probabilidades de X exitos para todos los valores
de X En el cuadro de editar Mean:, introduzca el valor
A. de 3. Seleccione el boton con Ia opcion Input column: e
introduzca C1 en el cuadro de edicion. De clic en OK.
Para ilustrar el uso de Minitab, tome en cuenta el sistema de informacion contable analizado en la seccion 5.2. Para calcular
los resultados de la figura 5.3 de la pagina 162,
Probability
Cumulative jtrabelllllty
Wean:
'-"13_ _--.J
O~ttlonal storsge:
-=:=J
,lcl____
Input cunatent
L:.':-.:Jt::!:..::._:~.L/ZJ
Optlonel storage:
Input culuma:
ll . OK . I
0
!:'"Ci.;;i"
6.
6.
CAPITULO
La distribuci6n normal
6.1
DISTRIBUCIONES DE PROBABILIDAD
CONTINUA
6.2
LA DISTRIBUCI6N NORMAL
6.3
EVALUAC16N DE LA NORMALIDAD
Evaluaci6n de las propiedades
Construcci6n de un plano de probabilidad normal
A.6
OBJETIVOS DE APRENDIZAJE
En este capitulo, aprendera:
A calcular probabilidades de una distribuci6n normal
A usar el plano de distribuci6n normal para determinar
si un conjunto de datos esta distribuido de forma
aproximadamente normal
,I
178
uso DE LA ESTADiSTICA
Tiempo de descarga para Ia pagina principal
de un sitio Web
Suponga que usted es el disefl.ador del sitio Web OnCampus! que se dirige a
los estudiantes universitarios. Para atraer y retener a los usuarios, necesita
asegurarse de que la pagina principal se descargue rapidamente. Tanto el disefl.o de la pagina principal como la carga en el servidor Web de la empresa
afectan el tiempo de descarga. Para revisar que tan rapido se carga la pagina
principal, se abre un navegador en una PC de las oficinas corporativas de
OnCampus! y se mide el tiempo de descarga, cuantos segundos pasan desde
que se enlaza con el sitio Web hasta que la pagina principal se abre por completo. Datos anteriores indican que la media del tiempo de descarga es de 7
segundos y la desviacion estandar es de 2 segundos. Aproximadamente dos terceras partes del tiempo de descarga estan entre 5 y 9 segundos, y cerca del 95% de los tiempos de descarga estan entre
los 3 y los 11 segundos. En otras palabras, los tiempos de descarga se distribuyen como una curva en
forma de campana con un agrupamiento alrededor de la media de 7 segundos. j,Como usaria esta informacion para responder las preguntas acerca de los tiempos de descarga de Ia pagina principal actual?
n el capitulo anterior, los gerentes de Saxon Home Improvement Company, querian ser capaces
de resolver problemas referentes al numero de ocurrencias de cierto tipo de resultados en un tamafl.o de muestra dado. Como disefiador Web de OnCampus!, usted se enfrenta a una tarea diferente, una que implica una medicion continua porque el tiempo de descarga podria tener cualquier valor y no solo un nUmero entero. l,Como podria responder a preguntas como las siguientes acerca de
esta variable numerica continua?
Como en el capitulo anterior, se utilizara la distribucion de probabilidad como modelo. Leer este capitulo le ayudara a aprender acerca de las caracteristicas de la distribucion de la probabilidad continua y como usar la distribucion normal para resolver problemas de negocios.
6.1
Fl
Tr
cc
179
FIGURA 6.1
Tres distribuciones
continuas.
Valores de X
Panel A
Distribuci6n normal
Valores de X
PaneiB
Distribuci6n uniforme
Valores de X
PaneiC
Distribuci6n exponencial
Muchas variables continuas comunes en el mundo de los negocios tienen distribuciones que se
asemejan estrechamente a Ia distribuci6n normal.
La distribuci6n normal sirve para acercarse a diversas distribuciones de probabilidad discreta,
como Ia distribuci6n binomial y Ia distribuci61i de Poisson.
La distribuci6n normal proporciona Ia base para Ia estadistica inferencial clasica por su relaci6n con el teorema de limite central (que se estudiara en el apartado 7.2).
En Ia practica, muchas variables tienen distribuciones que se asemejan a las propiedades te6ricas de Ia distribuci6n normal. Los datos de Ia tabla 6.1 representan el espesor (en pulgadas) de
10,000 pulidores de cobre producidos por una gran empresa. La variable continua de interes, el espesor, puede aproximarse a Ia distribuci6n normal. Las medidas del espesor de los 10,000 pulidores
de cobre, se agrupan en el intervalo de 0.0190 a 0.0192 pulgadas y se distribuyen simetricamente alrededor de ese agruparniento formando un patron con forma de campana. Como se demuestra en Ia
tabla 6.1, si este listado que nose traslapa (es mutuamente excluyente) contiene todos los intervalos
de clase posibles (es colectivamente exhaustivo), las probabilidades sumaran I. Tal distribuci6n de
probabilidad es una distribuci6n de frecuencia r~lativa, como se describe en el apartado 2.3 donde, a
excepci6n de dos clases abiertas al fmal, el punto medio de cada dos intervalos representa los datos
en ese intervale.
180
TABLA 6.1
Grosor de 10,000
pulidores de cobre ~
Frecuencia relativa
Debajo de 0.0180
0.0180 < 0.0182
0.0182 < 0.0184
0.0184 < 0.0186
0.0186 < 0.0188
0.0188 < 0.0190
0.0190 < 0.0192
0.0192 < 0.0194
0.0194 < 0.0196
0.0196 < 0.0198
0.0198 < 0.0200
0.0200 < 0.0202
0.0202 0 mas
Total
48/10,000 = 0.0048
122/10,000 = 0.0122
325/10,000 = 0.0325
695/10,000 = 0.0695
1,198/10,000 = 0.1198
1,664/10,000 = 0.1664
1,896/10,000 = 0.1896
1,664110,000 = 0.1664
1,198/10,000 = 0.1198
695/10,000 = 0.0695
325/10,000 = 0.0325
122/10,000 = 0.0122
48/10,000 = 0.0048
1.0000
F
Tr
n(
FIGURA 6.2
Histograma de
frecuencia relativa y
polfgono del espesor
de 10,000 pulidores de
cobre.
.20
><:
G) .15
-c
-c
Ill
;g
.10
:cIll
.c
.05
tornados de Ia tabla 6. 1.
oL-.-~=c~-L-L~~~~~~~~~-.-
donde
J.1 es Ia media
(6.1)
Es
E.2,
est<
Alu
estc
E.1
cr es la desviaci6n estandar
CO-
Star
Dist
181
Puesto que e y 1t son constantes matematicas, las probabilidades de una variable aleatoria X dependen solo de dos parametros de Ia distribuci6n normal: Ia media J.l y Ia desviaci6n estandar cr. Cada vez que se especifique una combinaci6n particular de Ia IJ. y Ia cr, se genera una distribucion de
probabilidad normal diferente. La figura 6.3 ilustra tres distribuciones normales diferentes. La distribucion normal A y B tienen la rnisma media (J.l), pero tienen desviaciones estandar diferentes. Las
distribuciones A y C tienen Ia rnisma desviacion estandar (cr), pero tienen medias diferentes. Las distribuciones B y C representan dos funciones de densidad de probabilidad normal que difieren con
respecto a Ia J.l y l.a cr.
FIGURA 6.3
Tres distribuciones
normales.
La expresion matematica en Ia ecuacion ( 6.1) es tediosa de calcular y requiere del calculo integral.
Por fortuna estan disponibles tablas de probabilidad normal para evitar estos calculos complicados. El
primer paso para encontrar probabilidades normales es usar Ia formula de transformacion, de Ia
ecuacion (6.2), para convertir cualquier variable aleatoria normal X en una variable aleatoria normal estandarizada Z.
FORMULA DE TRANSFORMACIQN
El valor Z es igual a la diferencia entre X y la media !J., dividida por Ia desviacion estandar cr.
X-J.I.
Z=-cr
(6.2)
Aunque los datos originates para Ia variable aleatoriaXtenian una media 1J. y una desviacion estandar cr, la variable aleatoria estandarizada Z siempre tendra una media 1J. = 0 y una desviacion
estandar cr = 1.
AI sustituir J.l = 0 y cr = 1 en la ecuacion (6.1), Ia funcion de densidad de probabilidad de una variable normal estandarizada Z esta dada en Ia ecuacion (6.3).
Standardized Normal
Distribution Table".
_1_e-{1/2)Z2
&
(6.3)
9-7
z =--=+1
2
182
1-7
Z=--=-3
2
Entonces, la desviaci6n estandar es la unidad de medida. En otras palabras, un tiempo de 9 segundos es 2 segundos (es decir, 1 desviaci6n estandar) mas alto, o mas Iento, que la media de tiempo de 7 segundos. De forma similar, un tiempo de 1 segundo es 6 segundos (es decir, 3 desviaciones
estandar) mas bajo, 0 mas rapido, que la media de tiempo.
.
FIGURA 6.4
Escalas de
transformaci6n .
!l-1cr
ll- 2cr
ll
-2
-1
+1
Escala X Ill= 7, cr = 2)
+2
+3
Para ilustrar mejor la f6rmula de transformaci6n, suponga que la pagina principal de otro sitio
Web tiene un tiempo de descarga que se distribuye normalmente con una media ll = 4 segundos y
una desviaci6n estandar cr = 1 segundo. Esta distribuci6n se ilustra en Ia figura 6.5.
FIGURA 6.5
T.
E1
ac
Cl
Una escala de
transformaci6n
d iferente .
Tiempo de descarga
de otra pagina principal
Fl
De
l'l'lE
di~
es1
ac1
Escala X Ill= 4, cr = 1)
-3
-2
-1
+ 1 +2
+3
183
Comparando estos resultados con los del sitio Web OnCampus!, se observa que el tiempo de
descarga de 5 segundos es 1 desviaci6n estandat por arriba de la media de tiempo de descarga porque
5-4
Z=--=+1
1
Un tiempo de 1 segundo es 3 desviaciones estandar por debajo de Ia media de tiempo de descarga
porque
1-4
Z=--=-3
1
Las dos curvas con forma de campana en las figuras 6.4 y 6.5 muestran los poligonos de frecuencia relativa de distribuciones normales representando el tiempo de descarga (en segundos) para
los dos sitios Web. Como los tiempos de descarga representan Ia poblaci6n completa, las probabilidades o proporci6n de area bajo Ia curva entera deben sumar 1.
Suponga que desea encontrar Ia probabilidad de que el tiempo de descarga para el sitio Web
OnCampus! sea menor a 9 segundos. Primero, se utiliza Ia ecuaci6n (6.2) de la pagina 181 para
transformar X= 9 a unidades estandarizadas Z. Puesto que X= 9 es una desviaci6n estandar por arriba de Ia media. Z = + 1.00. En seguida se utiliza Ia tabla E.2 para encontrar el area acumulativa bajo
la curva normal calculada men or que (es decir, a Ia izquierda de) Z = + 1.00. Para leer la probabilidad
o area bajo Ia curva menor que Z = + 1.00 se revisa la columna Z de Ia tabla E.2 hasta Iocalizar el valor Z de interes (en decimos) en Ia fila Z de 1.0. A continuaci6n lea a traves de esta fila hasta que intersecte Ia columna que contiene ellugar del valor Zen los centesimos. Por lo tanto, en el cuerpo de
la tabla, la probabilidad tabulada para Z = 1.00 corresponde con la intersecci6n de Ia fila Z = 1.0
con la columna Z = .00, como se muestra en la tabla 6.2, Ia cual se extrajo de Ia tabla E.2. Esta probabilidad es de 0.8413. Como se ilustra en Ia figura 6.6, hay un 84.13% de posibilidad de que el
tiempo de descarga sea menor a 9 segundos.
TABLA 6.2
Encontrar el area
acumulativa bajo Ia
curva normal.
.01
.02
.03
.04
.05
.06
.07
.08
.09
.5040
.5438
.5832
.6217
.6591
.6950
.7291
.7612
.7910
.8186
.8438
.5080
.5478
.5871
.6255
.6628
.6985
.7324
.7642
.7939
.8212
.8461
.5120
.5517
.5910
.6293
.6664
.7019
.7357
.7673
.7967
.8238
.8485
.5160
.5557
.5948
.6331
.6700
.7054
.7389
.7704
.7995
.8264
.8508
.5199
.5596
.5987
.6368
.6736
.7088
.7422
.7734
.8023
.8289
.8531
.5239
.5636
.6026
.6406
.6772
.7123
.7454
.7764
.8051
.8315
.8554
.5279
.5675
.6064
.6443
.6808
.7157
.7486
.7794
.8078
.8340
.8577
.5319
.5714
.6103
.6480
.6844
.7190
.7518
.7823
.8106
.8365
.8599
.5359
.5753
.6141
.6517
.6879
.7224
.7549
.7852
.8133
.8389
.8621
FIGURA 6.6
Determinacion del area
~enor que Z de una
Tiempo de descarga de Ia
pagina principal de OnCampusl
,.-=,
distribuci6n normal
estandarizada
acumulativa.
_ _____ /
',
/ \ ( Are
-~
_,
0.8413
~"===--.
~T---
7
0
11
13
Escala X
Escala Z-
184
FIGURA 6.7
Otra pagina principal
Demostraci6n de Ia
transformaci6n de
escalas para porciones
correspondientes
acumulativas bajo dos
curvas normales.
Ahora que ha aprendido a usar la tabla E.2 con la ecuaci6n (6.2), esta en condiciones de responder muchas preguntas relacionadas con la pagina OnCampus! usando la distribuci6n normal.
FIGURA 6.8
Encontrar P(X > 9).
F
Tiempo de descarga de Ia pagina
principal de OnCampusl
-3.00 --2.00
Et
P(
11
13
Escala X
-1.00
+1.00
+2.00
+3.00
Escala Z
...,.,
6.2: La distribuci6n normal
EJEMPLO 6.2
185
FIGURA 6.9
Encontrar P(7 < X< 9).
Z = X-
J.L
9 - 7 = +1.00
2
Area 0.5000
11
Escala X
13
Escala Z
7-7
z =- = 0.00
2
Al utilizar la tabla E.2, se sabe que el area bajo la curva normal menor que la media de Z = 0.00
es 0.5000. Por lo tanto, el area bajo la curva entre Z= 0.00 y Z= 1.00 es 0.8413-0.5000 = 0.3413.
EJEMPLO 6.3
FIGURA 6.10
Encontrar
cr
5
-3.00 -2.00 -1.00
11
13
Escala X
Escala Z
186
--
r~~~--~----~--
EJEMPLo 6.4
l,Cmil es la probabilidad de que el tiempo de descarga este entre 5 y 9 segundos, es decir, P(5
<
X< 9)?
SOLUCI6N En la figura 6.11 se observa que el area de interes se localiza entre dos valores, 5 y 9.
Como la tabla E.2 le permite encontrar probabilidades menores que un valor en particular de interes,
siga los siguientes tres pasos para encontrar la probabilidad deseada:
1. Determine la probabilidad de nienos de 9 segundos.
2. Determine la probabilidad de menos de 5 segundos.
3. Sustraiga el resultado menor del mayor.
FIGURA 6.11
Encontrar P(S
Z= X-ll =-1.00
cr
F
E
cr
Area sombreada
0.8413 - 0.1587 = 0.6826
-3.00
-2.00
-1.00
+1.00
11
13
+2.00 +3.00
Escala X
Escala Z
Para este ejemplo, ya se complet6 el paso 1. El area bajo la curva normal menor que 9 segundos
es 0.8413. Para encontrar el area bajo la curva normal menor que 5 segundos (paso 2),
z = 5-
E.
= -1.00
En la tabla E.2, busque Z = -1.00 y encuentre 0.1587. Para el paso 3, Ia probabilidad de que el
tiempo de descarga sea entre 5 y 9 segundos es 0.8413-0.1587 = 0.6826, como se muestra en la figura 6.11.
Fl
' En
El resultado del ejemplo 6.4 es irnportante y le permite generalizar los resultados. Para cualquier distribuci6n normal existe un 0.6826 de posibilidad de que un articulo seleccionado aleatoriamente caiga dentro de I desviaci6n estandar de la media. A partir de la figura 6.I2, se sabe que
ligeramente mas del 95% de los articulos caeran dentro de 2 desviaciones estandar. Por lo tanto,
95.44% de los tiempos de descarga estan entre 3 y I1 segundos. A partir de la figura 6.13, se sabe
que el99.73% de los articulos caerlin dentro de 3 desviaciones estandar por arriba o por debajo de
la media. Asi, el 99.73% de los tiempos de descarga estan entre I y 13 segundos. Por lo tanto, es poco probable (0.0027, o solo 27 en cada 10,000) que el tiempo de descarga sea tan rapido o tan Iento
que tome menos de I segundo o mas de I3 segundos. Es por esto que 6cr (es decir, de 3 desviaciones
estandar por arriba de la media a 3 desviaciones estandar por debajo de la media) a menudo se usa
como ~a aproximacion practica del rango para una distribuci6n normal de datos.
Por lo tanto, para cualquier distribuci6n normal:
Aproximadamente el 68.26% de los articulos caeran dentro de I desviaci6n estandar alrededor de la media.
Aproximadamente el95.44% de los articulos caeran dentro de 2 desviaciones estandar alrededor de la media.
Aproximadamente el99.73% de los articulos caeran dentro de 3 desviaciones estandar alrededor de la media.
'
El resultado anterior es la justificaci6n para la regia empirica presentada en la pagina 96. Cuanto mas cerca siga un conjunto de datos a la distribuci6n normal, mas precisa y exacta es la regia empirica.
i
j
FIGURA 6.12
Encontrar P(3 < X< 11 ).
X-J.L
z .. --=+2.00
a
X-J.L
Z=--=-2.00
a
-3.00
FIGURA 6.13
Encontrar P(1 < X< 13).
-2.00
-1.00
11
Escala X
Escala Z
Z=---;;-;00
z., -X-J.L
- = - 3.00
X-J.L
EJEMPLO 6.5
13
-3.00
187
-2.00
-1.00
11
13
Escala X
Escala Z
SOLUCI6N Para calcular Ia probabilidad de que un tiempo de descarga este por debajo de 3.5 segundos, es necesario examinar Ia region baja de Ia cola izquierda de Ia figura 6.14.
FIGURA 6.14
Encontrar P(X < 3.5).
3.5
-3.00
-1.75 -1.00
X-J.L
z., a
-1.75
7
0
13
Escala X
Escala Z
Para determinar el area bajo Ia curva por debajo de 3.5 segundos, primero calcule
Busque el valor Z en Ia tabla E.2 apareando Ia fila Z apropiada (-1 .7), con Ia columna Z apropiada
(.05) como se muestra en Ia tabla 6.3 (que se extrajo de Ia tabla E.2). La probabilidad resultante o
area bajo Ia curva menor que -1.75 desviaciones estandar por debajo de Ia media es 0.0401.
188
TABLA 6.3
.00
.01
.02
.03
.0446
.0548
.0436
.0537
.0427
.0526
.0418
.0516
Encontrar un area
acumulativa bajo Ia
curva normal.
8]]
-1.6
.04
.06
.07
.08
.09
.0392
.0485
.0384
.0475
.0375
.0465
.0367
.0455
.0409 .. [MQI]
.0505
.0495
Utilice el comando de exploraci6n visual de Ia distribuci6n normal para ver los efectos de los cambios en
Ia media y Ia desviaci6n estandar en el area bajo una
curva de distribuci6n normal.
Abra el archive Visual Explorations.xla y seleccione VisuaiExplorations ~ Normal Distribution de Ia
barra del menu de Excel. Vera Ia curva normal para el
ejemplo de "Uso de Ia estadistica" de Ia descarga de Ia
pagina principal, asi como un panel de control flotante
que le permite ajustar Ia forma de Ia curva y el area
sombreada bajo Ia curva (vea ilustraci6n abajo).
Normal D1stnbuhon
Use los botones del panel de control para cambiar los valores para Ia media, Ia desviaci6n estandar
y el valor X, mientras nota sus efectos en Ia probabilidad del valor X< = y el area sombreada correspondiente bajo Ia curva (vea Ia ilustraci6n de abajo). Si
lo prefiere, seleccione Ia opci6n Val ores Z para ver Ia
curva normal rotulada con Valores Z.
De die en el bot6n Reset para reajustar los valeres del panel de control o de die en Ayuda para informacion adicional sobre el problema. De die en
Finalizar cuando haya terminado de explorar.
T,
E1
qt
ur
Fl
Er
__,_,_,, r;-:~
de
std.~ rz-~
xvu:
~ofX<
r;-~
1.sooo
189
Los ejemplos 6.1 a 6.5 requieren que use las tablas normales para encontrar un area bajo la curva normal que corresponds a un valor X especifico. En muchas circunstancias usted desea hacer lo
contrario. Los ejemplos 6.6 y 6.7 ilustran como encontrar el valor X que corresponde a un area especifica.
EJEMPLO 6.6
SOLUCI6N Como se espera que ellO% de las paginas principales se descarguen por debajo de X
segundos, el area bajo la curva normal menor a este valor Z es 0.1000. En el cuerpo de la tabla E.2,
busque el area o probabilidad de 0.1000. El resultado mas cercano es 0.1003, como se muestra en la
tabla 6.4 (que se extrajo de la tabla E.2).
TABLA 6 . 4
Encontrar un Valor Z
que corresponde a
un area acumulativa
particular (0.10) bajo
Ia curva normal.
-1.5
-1.4
-1.3
.00
.01
.02
.03
.04
.05
.06
.07
.09
.0668
.0808
.0968
.0655
.0793
.0951
.0643
.0778
.0934
.0630
.0764
.0918
.0618
.0749
.0901
.0606
.0735
.0885
.0594
.0721
.0869
.0582
.0708 .
.0853
.0 71
.0 94
.0 38
.0559
.0681
.0823
.0985
l-1.21
Fuente: Extraido de la tabla E. 2.
Trabajando desde esta area a los margenes de la tabla, el valor Z correspondiente a la fila Z
(-1 .2) y la columna Z (.08) es -1.28 (vea la figura 6.15).
FIGURA 6.15
Encontrar Z para
determinar X.
Area es 0.9000
Escala X
-1 .28
Escala Z
Una vez que encuentre Z, use la formula de transformaci6n de la ecuaci6n (6.2) en la pagina
181 para determinar el valor X como sigue. Sea
X -ll
Z=-cr
entonces
AI sustituir ll = 7, cr = 2 y Z = -1 .28,
190
(6.4)
Para encontrar un valor particular asociado con una probabilidad conocida, siga estos pasos.
1. Dibuje la curva normal, despues coloque los valores para las medias en las escalas respectivas
XyZ.
2. Encuentre el area acumulativa menor que X
3. Sombree el area de interes.
4. Con la tabla E.2, determine el valor Z correspondiente al area bajo la curva normal por debajo
de X
5. Con Ia ecuaci6n (6.4), resuelva para X:
EJEMPLO 6.7
SOLUCI6N Primero, necesita encontrar el valor inferior de X (llamado XL). Despues debe encontrar el valor superior de X (llamado Xu). Como el 95% de los valores estan entre XL y Xu. y XL y
Xuestan. a Ia misma distancia de la media, el2.5% de los valores estan por debajo de XL (vea la fi-
gura 6.16).
FIGURA 6.16
Encontrar Z para
determinar XL.
T
E
q
a,
0
I!
I
I
I!
XL
Escala X
-1.96
Escala Z
Aunque XL no es conocido, se puede encontrar el Z correspondiente porque el area bajo la curva normal menor a este Z es 0.0250. En el cuerpo de Ia tabla 6.5, busque la probabilidad 0.0250.
TABLA 6.5
.00
.02
.03
.04
.05
.0217
.0212
.0207
.0202
.0344
.0336
.0329
.0232
.01
.06
.07
.08
.09
.0314
.0192
.0244
.0307
.0188
.0239
.0301
.0183
.0233
.0294
Encuentre el valor Z
~
! correspondiente al area
I
I
'
acumulativa de 0.025
bajo Ia curva normal.
-1.8
.0359
.0351
'f
6.2: La distribuci6n normal
191
Trabajando desde el cuerpo de Ia tabla bacia los margenes, se observa que el valor Z que corresponde a una fila Zen especial (-1.9) y a una columna Z (.06) es -1.96,
Una vez que encuentre Z, el Ultimo paso es usar Ia ecuaci6n (6.4) de Ia pagina 190, de Ia siguiente manera,
X=j.i.+Za
= 7 + (-1.96)(2)
= 7-3.92
= 3.08 segundos
Se sigue un proceso parecido para encontrar Xu. Puesto que solo el2.5% de las descargas de las
paginas principales toman mas de Xu segundos, el 97.5% de las descargas de paginas principales toroan menos de Xu segundos. Para Ia simetria de una distribuci6n normal, el valor Z deseado, como
se muestra en Ia figura 6.17, es +1.96 (porque Z cae a Ia derecha de Ia media estandarizada, de 0).
Tambien se puede extraer este valor Z de Ia tabla 6.6. Note que 0.975 es el area bajo Ia curva normal
menor que el valor Z de + 1.96.
FIGURA 6.17
Encontrar Z para
determinar Xu.
TABLA 6.6
Encontrar un valor Z
~ue corresponda al
area acumulativa de
0.975 bajo Ia curva
normal.
.00
.01
.02
.03
Xu
Escala X
+1.96
Escala Z
.04
.OS
+1.8 .9641
.9664 .9671
.9678
.9649 .9656
1+1.91~~~~~~~~~~~~~~~
+2.0 .9772
.9788 .9793
.9798
.9778 .9783
.07
.08
.09
.9693
.9756
.9808
.9699
.9761
.9812
.9706
.9767
.9817
= 7 + (+1.96)(2)
= 7 + 3.92
= 10.92 segundos
Por lo tanto, el95% de los tiempos de descarga estan entre 3.08 y 10.92 segundos.
Tambien se podria utilizar Excel o Minitab para calcular probabilidades normales. La figura
6.18 ilustra una hoja de trabajo de Excel para los ejemplos 6.5 y 6.6, y Ia figura 6.19 ilustra un resultado de Minitab para los ejemplos 6.1 y 6.6.
192
FIGURA 6.18
Hoja de trabajo de
Excel para calcular
probabilidades
normales.
1 Normal Probabilities I
2
1
3
Common Dahl
4 Me en
5 Standard Deviation
I
I
I
6
7
Probability for X <
B X Value
9 ZVelue
10
11
12
13
14
15
FIGURA 6.19
Probabilidades
normales en Minitab.
P(X<3.5)
7
2
3.5
-1.75
0.11401
NORMSINV(B13)
NORMINV(B13, 84, 815)
P ( X <= X )
0. 841345
0.1
4.43690
a
- - - - - - -- - - - -- - - - - - -
Aprendizaje basico
AStSTENCtA
de PH Grade
a.
b.
c.
d.
6.2 Dada una distribuci6n normal estandarizada (con una media de 0 y una desviaci6n estindar de 1, como en Ia tabla E.2),
i,Cmil es Ia probabilidad de que
a. Z este entre -1.57 y 1.84?
b. Z sea menor que -1.57 o mayor a 1.84?
c. i,Cual es el valor de Z si solo el2.5% de todos los posibles
valores de z son mas grandes?
d. Entre cuales dos valores de Z (distribuidos simetricamente
alrededor de Ia media) estaran contenidos el 68.26% de todos los posibles valores Z?
c.
d.
(con una media de 0 y una desviaci6n estindar de 1 como en Ia tabla E.2), i,Cual es Ia probabilidad de que
Z sea menor que 1.08?
Z sea mayor que -o.21?
Z sea menor que -0.21 o mayor que Ia media?
Z sea menor que -o.21 o mayor que 1.08?
c.
d
6.4 Dada una distribuci6n normal .estandarizada (con una media de 0 y una desviaci6n estindar de 1 como en Ia tabla E.2),
determine las siguientes probabilidades:
a. P(Z > 1.08)
b. P(Z<-Q.21)
c. P(-1.96<Z<-Q.21)
d. i,Cmil es el valor de Z si s6lo 15.87% de todos los valores
_posibles de Z son mayores?
c.
d.
1.1. =
100 Y
C!i
da
ro:
a.
b.
b. X< 70?
c. X< 80 oX> 11 0?
d. el 80% de los valores esten entre los dos valores X (simetricarnente distribuidos alrededor de Ia media)?
a. X>43?
b. X< 42?
c. el 5% de los valores sean menores que el valor X?
d. el 60% de los val ores esten entre los dos valores X (simetricamente distribuidos alrededor de Ia media)?
Aplicaci6n de conceptos
6.7 Durante 2001, el61.3% de los hogares en Estados Unidos
compraron cafe de grano y gastaron un promedio de $36.16 en
cafe de grano durante el aiio ("Annual Product Preference
Study", Progressive Grocer, 1 de mayo, 2002, 31). Considere
el desembolso anual para cafe de grano en los hogares que lo
compran, suponiendo que este desembolso se distribuye aproximadamente como una variable aleatoria normal con una media de $36.16 y una desviacion estandar de $10.00.
a. Encuentre la probabilidad de que un hogar gaste menos de
$25.00.
b. Encuentre Ia probabilidad de que un hogar gaste mas de
$50.00.
c. ,Que proporcion de los hogares gastan entre $30.00 y
$40.00?
d. ,El 99% de los hogares gastan menos de que cantidad?
1 AUTO 6.8 La empresa Toby's Truck determina
V Examen que, en una base anual, Ia distancia recorrida por camion se distribuye normalmente con una media de 50.0 mil millas y una desviacion estandar de 12.0 mil millas.
a. (.Que proporcion de camiones se espera que recorran entre
34.0 y 50.0 mil millas en el afio?
b. (.Que porcentaje de camiones se espera que recorran por debajo de 30.0 o por arriba de 60.0 mil millas en el aiio?
c. i,Cuantas millas habran sido recorridas por a! menos el80%
de los camiones?
d. i,Cuales serian sus respuestas a los incisos a) a c) si Ia desviaci6n estandar fuera de 10.0 mil millas?
ASISTENCIA
de PH Grade
6.9 La fuerza de rompimiento de las bolsas de phistico usadas para empacar productos se distribuye
normalmente con una media de 5 Iibras por pulgada
~uadrada y una desviaci6n estandar de 1.5 Iibras por pulgaa cuadrada. (.Que proporci6n de bolsas tienen una fuerza de
rompimiento de
SISTENCIA
de PHGrade
a.
b.
c.
d.
193
6.1 0 Un conjunto de calificaciones fmales para un curso de Introduccion a la estadistica se distribuye normalmente con una
media de 73 y una desviacion estandar de 8.
a. l,Culil es Ia probabilidad de que un alurnno obtenga una calificacion de 91 o menos en este examen?
b. l,Cual es Ia probabilidad de que un alurnno obtenga una calificacion entre 65 y 89?
c. Hay una probabilidad del 5% de que un alurnno que realice
el examen obtenga notas mayores a que calificacion?
d. Si el profesor califica con base en una curva (da 10 al10%
mas alto de Ia clase sin importar Ia calificacion), l,un alurnno
estara mejor con una calificacion de 81 en este examen o
con una calificacion de 68 en un examen diferente donde Ia
media es de 62 y la desviacion estandar es de 3? Muestre estadisticamente su respuesta y explique.
6.11 Un analisis estadistico de 1,000 llamadas de larga distancia realizadas desde las oficinas de Ia corporacion Bricks and
Clicks Computer Corporation indica que Ia duracion de estas
llamadas se distribuye normalmente con una media de J..l = 240
segundos y cr = 40 segundos.
a. l. Cual es Ia probabilidad de que una llamada haya durado
menos de 180 segundos?
b. l,Cual es la probabilidad de que una Hamada especifica haya
durado entre 180 y 300 segundos?
c. l,Cuai es Ia probabilidad de que una llaniada haya durado
entre 110 y 180 segundos?
d. l,Cual es Ia duracion de una Hamada en particular si solo el
I% de todas las llamadas son mas coitas?
6.12 Al nfunero de acciones negociadas diariamente en Ia Bolsa de Valores de Nueva (NYSE) se le conoce como el volumen
negociado. El23 de abril de 2004 se negociaron 1.395 miles de
millones de acciones ("NYSE Volume", The Wall Street Journal, 26 de abril, 2004, C2). Este volumen de negociaciones se
acerca a la media del volumen para Ia NYSE. Suponga que el
numero de acciones negociadas en la NYSE es una variable aleatoria normal con una media de 1.4 miles de millones y una
desviacion estandar de 0.15 miles de millones. Para un dia seleccionado aleatoriamente, (.Cual es Ia probabilidad de que el
volumen negociado de Ia NYSE sea:
a. menor a I. 7 miles de millones?
b. menor a 1.25 miles de millones?
c. menor a 1.0 mil miHones?
d. mayor a 1.0 mil millones?
194
6.3
EVALUACI6N DE LA NORMALIDAD
Como se discuti6 en la secci6n 6.2, muchas de las variables continuas usadas en negocios se asemejan estrechamente a una distribuci6n normal. Sin embargo, muchas variables importantes ni siquiera pueden ser aproximadas por la distribuci6n normal. Esta secci6n presenta dos modelos para evaluar si un conjunto de datos puede ser aproximado por una distribuci6n normal:
1. Compare las caracterfsticas del conjunto de datos con las propiedades de la distribuci6n normal.
2. Realice un plano de probabilidad normal.
Construya gnificas y observe su apariencia. Para conjuntos de datos pequefios o de tamafio moderado, disefie un diagrama de tallo y hojas o una grafica de caja y bigote. Para conjuntos de datos mas grandes, elabore Ia distribuci6n de frecuencia y trace el histograma o poligono.
Calcule medidas numericas descriptivas y compare las caracterfsticas de los datos con las propiedades te6ricas de una distribuci6n normal. Compare la media y la mediana. i,El rango intercuartil es aproximadamente 1.33 veces la desviaci6n estandar? l,Es el rango aproximadamente
6 veces la desviaci6n estandar?
Evalue como se distribuyen los datos. Determine si aproximadamente dos tercios de los valores
caen entre la media 1 desviaci6n estandar. Determine si aproximadamente cuatro quintos de
los val ores caen entre la media 1.28 desviaciones estandar. Determine si aproximadamente 19
de cada 20 valores caen entre Ia media 2 desviaciones estandar.
j,Los rendimientos en 2003 de los fondos de inversion que se analizaron en los capitulos 2 y 3 tienen
las propiedades de la distribuci6n normal? La figura 6.20 muestra Ia estadistica descriptiva para estos datos y Ia figura 6.21 presenta una grafica de caja y bigote.
FIGURA 6.20
Estadfstica descriptiva
en Excel para los
rendimientos en 2003
de los fondos de
inversion .
A
1.
B
Return 2.003
2
Mean
42.6215
Standard Error
1.1852
Median
40.8
Mode
37.5
13.0369
7 Standard Deviation
169.9609
8 Sample Variance
.0.2828
9 Kurtosis
0.3500
10 Skewness
11 Range
63.1
12 Minimum
-- - -- -14.9
78
13 Maximum
14 Sum
_ ___2157!~
15 Count
121
Lars.!!!(!}
78
~
17 Smallestf:o---- ,- - -14.9
3
4
5
6
T)
Va
Y!
co
un
---
- - -
.........
6.3: Evaluaci6ndelanormalidad
195
FIGURA 6.21
Grafica de caja y bigote
en Minitab para los
rendimientos 2003 de
los fondos de inversion .
70
60
30
20
w"-------------------------------------------~
Con base en estas afrrmaciones y en los criterios anteriormente dados, se concluye que los rendimientos para 2003 estan aproximadamente distribuidos de forma normal. Sin embargo, las afmnaciones I y 2 indican que los rendimientos en 2003 estan sesgados ligeramente hacia la derecha.
TABLA 6.7
Valores ordenados
Y sus valores Z
correspondientes para
una muestra den = 19.
Valor ordenado
Va1orZ
Valor ordenado
ValorZ
0.13
0.25
0.39
0.52
0.67
0.84
1.04
1.28
1.65
-1.65
11
2
3
4
5
6
7
8
9
10
-1.28
-1.04
-Q.84
-0.67
-Q.52
-Q.39
-Q.25
-o.13
0.00
12
13
14
15
16
17
18
19
196
FIGURA 6.22
Graficas de
probabilidad normal
para una distribuci6n
sesgada hacia Ia
izquierda, de una
distribuci6n normal y
de una distribuci6n
sesgada hacia Ia
derecha.
Normal
PaneiB
La figura 6.21 muestra una grafica de probabilidad normal cuantil-cuantil de Excel y Ia figura
6.24 muestra una grafica de probabilidad normal de Minitab para los rendirnientos en 2003.
! I
FIGURA 6.23
Grafica de probabilidad
normal de Excel para
los rendimientos en
6:
2003.
80
70
,.,
60
50
Cl
Cl
N
..
.,..,..
'
e" 40
'6
c
"
It
Ci
30
20
10
0
.J
.1
ValorZ
Las figuras 6.23 y 6.24 muestran que Ia grafica de probabilidad normal de los rendirnientos en
2003 se aproxirna a una linea recta. Se concluye que los rendirnientos en 2003 estan distribuidos
aproxirnadamente de forma normal.
FIGURA 6.24
Grafica de probabilidad
normal de Minitab para
los rendimientos en
2003.
197
"'
i
" -r-L___ L___ L __ l_ __ J __ __J___ J____.L ___
I
.
i
..
c
Cll
u
a..
8!
9S
90
80
-~- - -
- , ___ l __ _ - ; - - -- T -- - ~ . - - , --- ~r
i
l
I
'
l
I
~
___ L_ ___i __ _l
..I_J_ ___ j_ __ J_
~r l
-f----t ---t---+---1---1----:----:----t
30
20
10
l
;
I
~
!
I
I
I
-r---~---~---~ -
____I
I
I
'
I
I
i
I
I
j
I
I
I
I
I
I
I
I
I
I
I
!
-, - -- ~ -- - ~----r---r - --r- --r --- ~-- -,---~ -- -4-
~ --- l----1---~ -- -~ --- ~- ---i-- - -~- -- ~ --- ~ --- } --- + -- -- ~ --- ~----iI
20
30
_L ___ __l __ _l ___ j ___ j ___ j ____L___ L___ L___ l ___ l ___j ___ j ___ j_
: ; : ' : : : : : : : : : : :
I
L~
I
0.1~'--~
' ---+
' --~--~
--~--~--~--~
--~--~--~--~
--~
--~
10
Aprendizaje basico
Ciudad
39, los
de PH Grade valores Z mas pequeilos y mas grandes son -1.96 y
+1.96, y el valor Z medic (es decir, 20) es 0.00.
ASISTENCIA
Aplicaci6n de conceptos
Puede resolver los problemas 6. 16 a 6. 19 manualmente o en Excel, Minitab o SPSS. Le recomendamos
resolver los problemas 6.20 a 6.22 con Excel, Minitab o SPSS.
6.16 El precio diario de hotel para 25 ciudades en
--...:.:.:..~
40
so
Retum2003
Nueva Orleans
Nueva York
Norfolk
Oahu Island
Orlando
Phoenix
San Diego
San Francisco
Seattle
St. Louis
Tampa
Washington
60
70
80
Precio de hotel
121.59
167.43
62.88
119.76
98.57
123.19
110.23
123.51
95.09
74.68
97.08
123.27
Ciudad
Precio de hotel
Anaheim
95.26
78.91
112.92
96.90
77.43
74.22
77.71
95.02
76.26
95.78
140.61
78.64
74.61
Atlanta
Boston
Chicago
Dallas
Denver
Detroit
Filadelfia
Houston
Los Angeles
Miami
Minneapolis
Nashville
198
1.48 1.75 0.78 2.85 0.52 1.60 4.15 3.97 1.48 3.10
1.02 0.53 0.93 1.60 0.80 1.05 6.32 3.93 5.45 0.97
Oficina central//. Tiempo para reparar problemas
(minutos)
7.55 3.75 0.10 1.10 0.60 0.52 3.30 2.10 0.58 4.02
3.75 0.65 1.92 0.60 1.53 4.23 0.08 1.48 1.65 0.72
Determine, para cada una de las dos locaciones, si los datos. parecen distribuirse de forma aproximadamente normal:
a. evaluando las propiedades reales frente a las propiedades
te6ricas.
b. realizando una gnifica de probabilidad normal.
PlantaA
15.62 5.29 16.25 10.92 11.46 21.62 8.45 8.58 5.41 11.42
11.62 7.29 17.50 17.96 14.42 10.50 7.58 9.29 7.54 18.92
Planta B
9.54 11.46 16.62 12.62 25.75 15.41 1429 13.13 13.71 10.04
5.75 12.46 19.17 13.21 16.00 12.33 14.25 15.37 16.25 19.71
Determine, para cada una de las dos plantas, si los datos pareceo o no distribuirse en forma aproximadamente normal:
a. evaluando las propiedades reales frente a las propiedades
te6ricas.
b. construyendo una gnifica de probabilidad normal.
Ciudad
Atlanta
Boston
Chicago
Cleveland
Dallas
Denver
Detroit
Houston
Los Angeles
Miami
Minneapolis
Ciudad
Nueva York
Orlando
Filadelfia
Phoenix
Sacramento
San Francisco
Seattle
Tampa
Washington
Puntuacion de credito
6.:
688
671
688
660
676
686
691
675
693
da
tra
ci11
En
nai
ga
La
((;
En
Z=
dis1
dis1
f6n
8.57 8.60 8.54 8.69 8.52 8.63 8.72 8.58 8.66 8.66
8.57 8.66 8.62 8.66 8.69 8.57 8.58 8.65 8.68 8.56
8.54 8.65 8.65 8.62 8.66 8.61 8.64 8.73 8.62 8.60
Puntuacion de credito
8.69 8.50 8.58 8.63 8.66 8.59 8.69 8.70 8.54 8.62
670
705
680
690
653
675
675
655
667
672
707
8.63 8.61 8.65 8.59 8.61 8.56 8.64 8.65 8.67 8.61
8.64 8.61 8.67 8.65 8.55 8.71 8.75 8.56 8.62 8.66
Fuente: W. L. Peam and K. S. Chen, "A Practic~l Implementation of the
Process Capability Indez Cpk", Quality Engineering, 1997, 9, 721-737.
Re
6.2
Illo
dad
6.2
lac
6.2
eva
Problemas de repaso
6.22 Los siguientes datos representan el costo de la electricidad en dolares durante el mes de julio de 2004 para una muestra aleatoria de 50 departamentos de dos habitaciones en una
ciudad grande: UTll..ITY
96
171
202
178
147
157
185
90
116
172
141
149
206
175
123
95
163
150
154
130
108
119
183
151
114
135
102
111
153 197
148 213
127
130
165
128
144
168
109
167
143
187
166
139
149
191
137
129
158
82
199
RESUMEN
En este capitulo usted utilizo la distribucion normal en el escenario "Uso de Ia estadistica" para estudiar el tiempo de descarga de una pagina Web. Ademas, estudi6 la grafica de probabili-
dad normal. En el siguiente capitulo, usara la distribucion normal para desarrollar el tema de Ia estadistica inferencial.
F6RMULAS IMPORTANTES
La funcion de densidad de Ia probabilidad normal
((X) =_I_ e-(1/2)[(X-~t)/a]2
~cr
(6.1)
(6.2)
(6.3)
Encontrar el valor X
X= J.1 + Zcr (6.4)
CONCEPTOS CLAVE
distribucion normal 179
distribucion normal estandarizada
acumulativa 181
fonnula de transformacion 181
195
PROBLEMAS DE REPASO
Revision de su comprensi6n
. .
6.23 ~Por que es que s6lo una tabla de distribuci6n normal como la tabla E.2 es necesaria para encontrar cualquier probabilidad por debajo de la curva normal?
6.24 ~Como se encuentra el area entre dos valores debajo de
Ia curva normal?
625 ~Como se encuentra el valor X que corresponde a un percentil dada una distribuci6n normal?
626 ~Como se utiliza la grafica de probabilidad normal para
' ,_ ~i un conjunto de datos esta distribuido normalmente?
Aplicaci6n de conceptos
6.27 Una maquina de coser industrial usa cojinetes-que deben
tener un diametro de O.i5 pulgadas. Los limites inferior y superior especificados dentro de los que los cojinetes pueden operar
son 0.74 y 0.76 pulgadas, respectivamente. La experiencia indica que el diametro real de los cojinetes se distribuye de forma
aproximadamente normal con una media de 0.753 pulgadas y
una desviaci6n estandar de 0.004 pulgadas. ~Cuai es la probabilidad de que el cojinete este
a. entre el diametro objetivo y la media real?
b. entre ellimite inferior especificado y el diametro objetivo?
c. por encima del limite superior especificado?
200
la distribuci6n se distribuye normalmente con Ia media y desviaci6n estandar indicadas arriba. Encuentre Ia probabilidad de
que el rendimiento para los bonos de gobiemo a largo plazo sera
a. mayor del 0%. b. mayor del I 0%.
c. mayor del 20%.
d. menor del-10%.
e. Discuta las diferencias entre los rendirnientos anuales de las
acciones comunes y los bonos de gobiemo a largo plazo.
6.33 El Wall Street Journal report6 que casi todos los principales indices de acciones habian tenido fuertes ganancias en los ultimos 12 meses ("What's Hot... and Not'', The Wall Street Journal,
26 de abril, 2004, C3). El rendimiento anual del S&P 500, que
comprende 500 grandes empresas, fue de aproximadamente del
+27%. Los rendimientos de un aiio de Russell2000, que agrupa
a 2000 pequefias empresas, fue de aproximadamente el +52%. A
lo largo de Ia historia, los rendimientos de un afio son aproximadamente normales. La desviaci6n estandar para los rendimientos S&P 500 es aproximadamente del 20% y para Russell 2000
Ia desviaci6n estandar es aproximadamente del35%.
a. l,Cual es Ia probabilidad de que una acci6n de S&P 500 haya ganado el30% 0 mas en el ultimo afio? l,Que haya ganado el60% 0 mas en el ultimo aiio?
b. l,Cual es Ia probabilidad de que una acci6n de S&P 500 perdiera dinero el afio pasado? i,Y de que perdiera el30% o mas
dinero?
c. Repita los incisos a) y b) para las acciones en Russell 2000.
d. Escriba un breve resumen acerca de lo que haya encontrado.
Asegtirese de incluir una explicaci6n acerca de los riesgos
asociados a tener una desviaci6n estandar grande.
6.34 El New York Times report6 (Laurie J. Flynn, "Tax Surfrog", The New York Times, 25 de marzo, 2002, CIO) que Ia media del tiempo de descarga para Ia pagina principal del sitio
Web Internal Revenue Service www.irs.gov es de 0.8 segun
dos. Suponga que el tiempo de descarga se distribuye normalmente con una desviaci6n estandar de 0.2 segundos. l,Cual es Ia
probabilidad de que el tiempo de descarga sea
a; menor a 1 segundo?
b. de entre 0.5 y 1.5 segundos?
c. de mas de 0.5 segundos?
d. el 99% de los tiempos de descarga estan por arriba l,de cuan
tos segundos?
e. l,Entre cuales dos valores simetricamente distribuidos alre
dedor de Ia media se encuentra el 95% de los tiempos de
descarga?
c
a
b
c
d
N
di
d<
I
El
en
lac
Ca
La
Obj
que
dia
so .
est
f
Caso actual
6.36 (Proyecto de grupo) De acuerdo con Burton G. Malkiel,
los cambios diarios en el precio de cierre de las acciones sigue
un camino a/eatorio (es decir, estos eventos diarios son independientes uno del otro y se mueven bacia arriba o hacia debajo de forma aleatoria) y pueden aproximarse a una curva normal. Para probar esta teoria, utilice el periodico o Internet para
seleccionar una empresa que cotice en la Bolsa de Valores de
Nueva York, una empresa que cotice en el American Stock
Exchange, y una empresa que cotice "sobre el escritorio" (es
decir, en el mercado nacional NASDAQ) y despues haga lo siguiente:
1. Registre los cambios diarios del precio de cierre de las acciones para cada una de las empresas durante 6 semanas
consecutivas (para que asi tenga 30 valores por empresa).
2. Registre los cambios diarios del cierre del precio de las acciones para cada una de estas empresas durante 6 semanas
consecutivas (para que asi tenga 30 valores por empresa).
Para cada uno de sus seis conjuntos de datos, determine si los
datos se distribuyen de forma aproximadamente normal
a. examinando una gnifica de tallo y hoja, un histograma o poligono y una gnifica de caja y bigote.
b. evaluando las propiedades reales frente a las propiedades
te6ricas.
c. realizando una gnifica de probabilidad normal.
d. Analice los resultados de los incisos a), b) y c). l,Que concluye ahora sobre sus tres compafiias con respecto a los
precios de cierre diarios y los cambios en los precios de cierre? l,Cual de los conjuntos de datos, si acaso alguno, se
aproxima a una distribucion normal?
Nota: La teoria del camino a/eatorio pertenece a los cambios
diarios en el precio de cierre de las acciones, no a! precio diario
de cierre de las acciones.
201
Los datos del archivo MUTUALFUNDS2004 contienen informacion respecto a 12 variables de una muestra de 121 fondos de
inversion. Las variables son:
Fund -El nombre del fondo de inversion.
Category - Tipo de acciones comprendidas en el fondo de
inversion: pequefio capital, capital medio, gran capital.
Objective -Objetivo de las acciones comprendidas en el
fondo de inversion: crecimiento o valor.
Assets -Activos en millones de dolares.
Fees -Cargos por ventas (si o no).
Expense ratio -Relacion entre gastos y activos netos en
porcentaje.
2003 Return -Rendimiento de 12 meses en el2003.
Three-year return -Rendimiento anualizado de 2001 a
2003.
Five-year return -Rendimiento anualizado de 1999 a 2003.
Risk -Factor riesgo-perdida de los fondos de inversion clasificado como bajo, promedio o alto.
.
Best quarter -Mejor rendimiento trimestral de 1999 a 2003.
Worst quarter -Peor rendimiento trimestral de 1999 a 2003.
6.37 Considere las variables de relaci6n de gastos, rendimiento anualizado a tres afios y rendimiento anualizado a cinco
afios. Para cada una de estas variables, determine si los datos se
distribuyen aproximadamente de forma normal
a. evaluando las propiedades reales frente a las teoricas.
b. construyendo una grafica de probabilidad normal.
EJERCICIO
SH6.1 Suponiendo que la distribucion no ha cambiado con
respecto a la del afio pasado, l,cual es la probabilidad
de que la tonalidad de la mancha sea:
a. menor a 1.0?
b. entre 0.95 y 1.0?
c. entre 1.0 y 1.05?
d. menos de 0.95 o mayor que 1.05?
SH6.2 El objetivo del equipo de produccion es reducir Ia probabilidad de que Ia tonalidad oscura este por debajo de
0.95 o por arriba de 1.05. l,Seria mejor enfocarse en el
proceso de mejoramiento que disminuyo la media del
valor objetivo de 1.0 o en el proceso de mejoramiento
,que redujo Ia desviacion estandar a 0.075? Explique
porque.
- - - - - - -- - - - - - -- -
202
-
-- - - -- -
--- -
~~ ~
.L.i'10)13r~r2rDlrsfKnrco
,S r.= Lr D lJ'.S-=
.
I
c!
~ ~- c ~.r-0..:::-;
Apendice 6
A6.2 MINITAB
Uso de Minitab para calcular probabilidades
normales
Puede usar Minitab en Iugar de la tabla E.2 para calcular proba
bilidades normales. Para encontrar la probabilidad de que un
tiempo de descarga sea menor a 9 segundos con una fl = 7 y una
0'
=2:
I
I
q
Apendice
Asset
' C6
C7
Expense ratio
ca
Mean:
I?~ o
=:::]
-~==--d!
G>Input conetent .
Worst Quarter
!~
~0,~~-~
L~=~=~;:
__-_-.
___- _
-_-.':
,..,- - _
-
!I
Graph
""""'*
I[~~-~-~-~~:
~
!!
f' o~.
']
r --s..-=-, r~~~-,
I
f: .:1.;s;~c' r-o.;o;;;~-,
i l"c~,.,=j
li' - H.
Standard deviation:
Ret<m2003
3Yr-Retum
C9 5-Yr-Relurn
C11 Best Qua~teJ
~ ICumuletiYe pnlllallllltil
C. Inverse cumulaUYe probability
..,.'~\~
I C4
I C12
C ProhbUily density
203
Optlo..l lllllrage:
CAPfTUL07
Distribuciones muestrales
7.1
DISTRIBUCIONES MUESTRALES
7.2
7.3
DISTRIBUCIONES MUESTRALES
DE UNA PROPORCI6N
7.4
Muestra estratificada
Muestra de conglomerados
7.5
A.7
OBJETIVOS DE APRENDIZAJE
En este capitulo, aprendera:
El concepto de distribuci6n muestral
A calcular probabilidades relacionadas con la media y la
proporci6n muestrales
La importancia del Teorema del limite central
A distinguir entre los distintos metodos de muestreo para
encuestas
206
uso
DE LA ESTADIST.ICA
Proceso de empaquetado de cajas de cereal
En las plantas de Oxford Cereal Company se llenan miles de cajas de cereales en cada turno de ocho horas. Como gerente operativo de una planta, usted
se encarga de supervisar Ia cantidad de cereal que contienen las cajas. Se supone que Ia media delllenado es de 368 gramos de cereal, como indica Ia etiqueta del paquete. Por Ia rapidez del proceso, el peso del cereal varia de una
caja a otra, provocando que algunas cajas tengan excedente y otras faltante.
Si el proceso no funciona adecuadamente, el peso neto del contenido de las
cajas podria diferir mucho de los 368 gramos que indica Ia etiqueta, basta resultar inaceptable. Como pesar cada una de las cajas seria un proceso muy
Iento, costoso e ineficaz, usted debe sacar una muestra de cajas y tomar una
decisi6n con respecto a Ia probabilidad de que el proceso de llenado de cereales funcione de manera adecuada. Cada vez que selecciQ!la una muestra y
pesa las cajas que Ia compone_g, calcula Ia media muestral X Necesita determinar la probabilidad de que X haya sido extraida de forma aleatoria de una
poblaci6n cuya media poblacional es de 368 gramos. Con base en esta evaluaci6n, tendni que decidir si conserva, modifica o detiene el proceso.
TJ
Nt
co
de
ao
Fl
NL
co
n el capitulo anterior, usted utiliz6 la distribuci6n normal para estudiar la distribuci6n de los
tiempos de descarga del sitio Web On Campus! En este capitulo, necesita decidir sobre et proceso de llenado, con base en una muestra de cajas de cereal. Aprendeni acerca de las distribuciones
muestrales y como utilizarlas para resolver problemas empresariales. AI igual que en el capitulo anterior, para calc~lar las probabilidades se utiliza Ia distribuci6n normal.
7.1
DISTRIBUCIONES MUESTRALES
En muchas aplicaciones usted quiere realizar inferencias estadisticas, esto es, utilizar estadisticos
calculados a partir de muestras para estimar los valores de los parametros de Ia poblacion. En este
capitulo aprendeni sobre Ia media muestral, un estadistico utilizado para estimar Ia media poblacional (un parametro). Tambien aprendera acerca de Ia proporci6n muestral, un estadistico que se
utiliza para estimar la proporcion poblacional (un parametro). El principal problema a! realizar una
inferencia estadistica radica en obtener conclusiones sobre Ia poblaci6n, no sobre la muestra. Por
ejemplo, una persona que se encarga de realizar encuestas politicas se interesa en los resultados
muestrales solo como mecanismo para estimar Ia proporci6n de votos real que recibira cada uno de
los candidatos a partir de Ia poblaci6n de votantes. Del mismo modo, como gerente operativo de Ia
Oxford Cereal Company, a usted solo le interesa utilizar Ia media muestral calculada a partir de una
muestra de cajas de cereal para estimar el peso medio incluido en una poblaci6n de cajas.
En Ia pnictica, de Ia poblacion total usted selecciona una muestra aleatoria simple de tamaiio
predeterminado. Determina que elementos forman parte de Ia muestra mediante el uso de un generadar de nfunero aleatorio, como una tabla de nfuneros aleatorios (vea la secci6n 7.4 y la tabla E.l), o
a traves de Excel o Minitab (vea Ia pagina 234).
Hipoteticamente, a! utilizar un esta~istico muestral para estimar un parametro poblacional, de
be examinar toda posible muestra que pudiera presentarse. La distribucion muestral es la distribu
ci6n de los resultados que se presentan si en realidad se seleccionaron todas las muestras posibles.
po
cu;
ad
f'
7.2: Distribuci6n muestral de la media
7.2
207
TABLA 7.1
Numero de errores
cometidos por cada uno
de los cuatro asistentes
administrativos.
Asistente administrativo
Numero de errores
X1 =3
X2 = 2
Ana
Roberto
Carla
David
x3 = 1
x4 =4
FIGURA7.1
Numero de errores
cometidos por una
poblaci6n de
cuatro asistentes
administrativos.
3
CCI
;:;
c::
Q)
:::l
C)
Q)
..t
3
Numero de errores
2
I4
Cuando se tienen los datos de una poblaci6n, la media se calcula utilizando la ecuaci6n (7.1):
MEDIA POBLACIONAL
La media poblacional es la suma de los valqres de la poblaci6n dividida por el tamafio de la poblaci6nN.
(7.1)
cr=
i=l
(7.2)
208
Fl
ll =
Di
3+2+1+4
= 2.5 errores
4
de
en
cr =
~ (3- 2.5) 2 + (2 -
pc
pc
2.5) 2 + (1 - 2.5) 2 + (4 - 2.5) 2
4
ad
= 1.1 2 errores
Fu
de
Si a partir de esta poblaci6n usted selecciona muestras compuestas por dos asistentes administrativos con reemplazo, habra 16 muestras posibles (Nn = 42 = 16). La tabla 7.2 presenta los resultados
de las 16 muestras posibles. Si calcula el promedio de las medias de las 16 muestras, la media de estos valores, Jl X es igual a 2.5, que es tambien Ia media poblacionalll.
TABLA 7.2
Las 16 muestras de
n = 2 asistentes
administrativos, de
una poblaci6n
de N = 4 asistentes
administrativos, al
muestrear con
reemplazo.
Muestra
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
Asistentes
administrativos
Ana. Ana
Ana. Roberto
Ana. Carla
Ana. David
Roberto, Ana
Roberto, Roberto
Roberto, Carla
Roberto, David
Carla. Ana
Carla. Roberto
Carla. Carla
Carla. David
David, Ana
David, Roberto
David, Carla
David, David
Resultado de Ia muestra
3, 3
3,2
3, 1
3, 4
2, 3
2, 2
2, 1
2,4
1, 3
1, 2
1, 1
1, 4
4,3
4,2
4, 1
4,4
Media muestral
XI
=3
Xz = 2.5
x3 =2
x4 = 3.5
X5 = 2.5
x6=2
x7= 1.5
x =3
x9=2
8
XIO = 1.5
=1
=2.5
= 3.5
=3
XIs =2.5
=4
llx = 2.5
X 11
XI2
x13
x14
x16
Puesto que Ia m_edia de las 16 medias muestrales es igual a la media poblacional, Ia media
muestral es un estimador imparcial de la media poblacional. Por lo tanto, aunque no sepa que tan
cercana esta Ia media muestral de cualquier muestra seleccionada a la media poblacional, al menos
estara seguro de que la media de todas las medias muestrales posibles que se pueden seleccionar es
igual a la media poblacional.
EJ
209
FIGURA 7.2
Distribuci6n muestral
de Ia media basada
en todas las muestras
posibles conformadas
por dos asistentes
administrativos.
5
4
de Ia tabla 7.2.
0
0
I
2
3
Numero de errores
El valor de la desviaci6n estandar de todas las medias muestrales posibles, llamado error estandar de Ia media, expresa cuanto varia la media muestral entre una muestra y otra. La ecuaci6n
(7.3) define a1 error estandar de la media al hacer muestras con o sin reemplazo (vea la pagina 221)
de una poblaci6n enorme o infinita.
(7.3)
Por lo tanto, cuando aumenta el tamafio de la muestra, el error estandar de la media se reduce en un
factor igual a la raiz cuadrada del tamafio de la muestra.
Tambien es factible utilizar la ecuaci6n (7.3) como aproximaci6n del error estandar de la media
cuando la muestra seleccionada sin reemplazo incluye a menos del 5% de la poblaci6n total. En el
ejemplo 7.1 se calcula el error estandar de la media para tal situaci6n.
EJEMPLO 7.1
SOLUCI6N Al utilizar la ecuaci6n (7.3) mencionada antes, conn= 25 y cr = 15, se determina que
el error estandar de la media es
210
Por lo tanto, si la poblaci6n tiene una distribuci6n normal con una media f.l. y una desviaci6n
estandar cr, entonces la distribud6n muestral de X para muestras de n = I tambien debe seguir una
distribuci6n normal con media f.l.x = f.l. y error estandar de la media <Jx = cr/.Jl =cr. Ademas, al
aumentar el tamaiio de la muestra, la distribuci6n muestral de Ia media conserva una distribuci6n
normal con media f.l. x = f.l., pero se reduce el error estandar de la media, de manera que una mayor
proporci6n de las medias muestrales se encuentra mas cerca de Ia media poblacional. La figura 7.3
FIGURA 7.3
Distribuci6n muestral
de Ia media de 500
muestras con tamanos
de n = 1, 2, 4, 8, 16 y 32,
seleccionadas de una
poblaci6n normal.
n=32
,t
I
I
I
I
I
I
I
I
I
I
I
I
I
n=S
n=4
se,
de
mL
las
pn
ap
ve1
211
ilustra esta reducci6n de la variabilidad en la que se seleccionaron 500 muestras con tamalios de 1,
2, 4, 8, 16 y 32 de manera aleatoria de una poblaci6n con distribuci6n normal. A partir de los poligonos de la figura 7.3, usted observa que a pesar de que la distribuci6n muestral de la media es aproximadamente 1 normal para cada tamalio de la muestra, las medias muestrales tienen una distribuci6n
mas estrecha alrededor de la media poblacional conforme aumenta el tamalio de la muestra.
AI examinar el concepto de la distribuci6n muestral de la media, considere de nuevo el escenario "Uso de la estadistica" descrito en la pagina 206. El equipo empaquetador que llena las cajas con
368 gramos de cereal esta programado de manera tal que la cantidad de cereal introducido en una caja tenga una distribuci6n normal, con una media de 368 gramos. A partir de la experiencia, se determin6 que la desviaci6n estandar poblacional de este proceso de llenado es de 15 gramos.
Si se selecciona de manera aleatoria una muestra 25 cajas de las miles que se llenan durante un
dia, y se calcula el peso promedio de esta muestra, l,que tipo de resultado se espera? Por ejemplo,
l,Cree que la media muestral puede ser de 368 gramos? l,De 200 gramos? l,De 365 gramos?
La muestra acrua como una representaci6n en miniatura de la poblaci6n, de tal manera que si
los valores de la poblaci6n tienen una distribuci6n normal, los valores de la muestra deben tener una
distribuci6n aproximadamente normal. De esta forma, si la media poblacionales de 368 gramos, la
media muestral tiene buenas posibilidades de acercarse a 368 gramos.
l,C6mo se determina la probabilidad de que una muestra de 25 cajas tenga una media inferior a
365 gramos? A partir de la distribuci6n normal (secci6n 6.2) usted sabe que puede encontrar el area
debajo de cualquier valor X al convertir a unidades estandarizadas Z.
X -Jl
Z = -cr
En los ejemplos de la secci6n 6.2, se estudi6 cuanto difiere de la media cualquier valor sen!11o X
Ahora, en el ejemplo de llenado de cajas de cereal, el valor implicado es una media muestral X y usted quiere ~terminar la probabilidad de que una media muestral sea inferior a 365. De esta manera,
al sustituir Xpor X, Jlx por )l y cr.x por cr, se define el valor Z apropiado en la ecuaci6n(7.4):
-
- - - - - - - --- - -
x -llx =x--llcr_x
cr
(7.4)
..Jn
L -- -
----
- -- - - - - - - - -
Para encontrar el area que se encuentra debajo de 365 gramos, a partir de la ecuaci6n (7.4),
z=
X-Jl.x
cr.x
365-368
-3
= - = -1.00
15
3
./25
En la tabla E.2 el area correspondiente a Z = -1.00 es 0.1587. Por lo tanto, el15.87% de todas las
muestras posibles con un tamalio de 25 tienen una media niuestral inferior a 365 gramos.
Esta afirmaci6n no es lo mismo que decir que cierto porcentaje individual de las cajas tendra
menos de 365 gramos de cereal. Calcule ese porcentaje de la siguiente manera:
Z =X (j
)l
En la tabla E.2, el area correspondiente a Z = -o.20 es 0.4207. Por lo tanto, cabe esperar que el
42.07% de todas las cajas individuales tengan un contenido inferior a 365 gramos. AI comparar esos
resultados, observara que se encuentran muchas mas cajas individuales debajo de los 365 gramos
- -- - - - - - -
212
que medias muestra/es. Este resultado se explica por el hecho de que cada una de las muestras se
compone de 25 valores distintos, algunos pequefios y otros grandes. Al promediar, se diluye la importailcia de cualquier valor individual, sobre todo cuando el tamafio de la muestra es grande. De esta forma, Ia posibilidad de que Ia media muestral de 25 cajas este alejada de la media poblacionales
menor que la posibilidad de que lo este una sola caja.
Los ejemplos 7.2 y 7.3 ilustran como el uso de distintos tamafios de la muestra influye sobre
esos resultados.
EJEMPLO 7.2
SOLUCION
cr x = .f;z
15
15
= -Jwo = 10 = 1.5
AI cuadruplicar el tamafio de 1a muestra de 25 a 100, se reduce a Ia mitad el error estandar de Ia media (de 3 a 1.5 gramos). Esto prueba que el uso de una muestra mas grande tiene como resultado una
menor variabilidad de las medias muestrales entre una muestra y otra.
l
EJEMPLO 7.3
.flOO
De acuerdo con la tabla E.2, el area menor que Z = -2.00 es 0.0228. Por lo tanto, el 2.28% de las
muestras compuestas por 100 cajas tienen una media inferior a 365 gramos, en comparaci6n con el
15.87% de las muestras de 25 cajas.
A veces se requiere encontrar el intervalo que abarca una proporci6n fija de medias muestrales. Se
necesita determinar la distancia arriba y abajo de Ia media poblacional que abarque un area especifica de la curva normal. Al utilizar Ia ecuaci6n (7 .4) de la pagina 211 ,
X -J.L
Z =-<J
.rn
Despejando para X se obtiene la ecuaci6n (7 .5).
213
EJEMPLO 7.4
XL
-
Ku
= 368 + (-1.96)
= 368 + (1.96)
15
r;:;
v25
15
r;:;
v25
= 368-5.88 = 362.12
Por lo tanto, el 95% de todas las medias muestrales correspondientes a muestras de 25 cajas se encuentra entre 362.12 y 373.88 gramos.
'
214
FIGURA 7.4
Distribuci6n muestral de
Ia media de distintas
poblaciones para
muestras de n = 2, 5 y 30.
Poblaci6n
Poblaci6n
Poblaci6n
Valores de X
Valores de X
Valores de X
Distribuci6n
muestral de X
Distribuci6n
muestral de X
Distribuci6n
muestral de X
Valores de X
Valores de X
Distribuci6n
muestral de X
Distribuci6n
muestral de X
Distribuci6n
muestral de X
Valores de
II ..
~
<-
Valores de X
Valores de
Distribuci6n
muestral de X
Distribuci6n
muestral de X
Distribuci6n
muestral de X
Valores de
L
F
c
lc
c
E
'c
d
'.'
: n=30
Valores de X
Panel A
Poblaci6n normal
Valores de X
PanelS
Poblaci6n uniforme
Valores de X
PaneiC
Poblaci6n exponencial
El panel B de la figura 7.4 describe la distribuci6n muestral de una poblaci6n con distribuci6n
uniforme (o rectangular). Cuando se seleccionan muestras con un tarnafio n = 2, hay un efecto de
compensaci6n o restricci6n central ya en funcionamiento. Para n = 5, Ia distribuci6n muestral tiene
forma acampanada y aproximadamente normal. Cuando n = 30, la distribuci6n muestral se aserneja
mucho a una distribuci6n normal. Por lo general, cuanto mayor es el tamafio de la muestra, mas se
inclinara la distribuci6n muestral a_seguir una distribuci6n normal. En todos los casos, la media de
cada una de las distribuciones muestrales es igual a la media de la pobla:ci6n, y la variabilidad dis
minuye cuando aumenta el tarnafio de la muestra.
215
El panel C de la figura 7.4 muestra una distribuci6n exponencial. Esta poblaci6n es extremadamente asimetrica bacia la derecba. Cuando n = 2, la distribuci6n muestral continua siendo muy
asimetrica bacia Ia derecba, pero mucbo menos que Ia distribuci6n de Ia poblaci6n. Para n = 5, Ia
distribuci6n muestral es mas asimetrica, con solo una ligera asimetria bacia Ia derecba. Cuando
n = 30, Ia distribuci6n muestral tiene una apariencia aproximadamente normal. Una vez mas, Ia media de cada una de las distribuciones muestrales es igual a Ia media de Ia poblaci6n, y Ia variabilidad
disminuye al aumentar el tamaiio de Ia muestra.
Utilizando los resultados surgidos de estas reconocidas distribuciones estadisticas (normal, uniforme y exponencial), se obtienen las siguientes conclusiones con respecto al teorema del limite
central.
Para Ia mayor parte de las distribuciones poblacionales, sin importar su forma, Ia distribuci6n muestral de Ia media tiene una distribuci6n aproximadamente normal cuando se seleccionan muestras
de por lo menos 30 elementos.
Si Ia distribuci6n poblacional es bastante simetrica, la distribuci6n muestral de la media es
aproximadamente normal en muestras tan pequefias como las de 5 elementos.
Si la poblaci6n tiene una distribuci6n normal, la distribuci6n muestral de la media tambien tiene una distribuci6n normal, independientemente del tamaiio de la muestra.
El teorema del limite central es importantisimo al utilizar Ia inferencia estadistica para obtener
conclusiones sobre una poblaci6n. Permite elaborar inferencias sobre la media poblacional sin necesidad de conocer la forma especifica de su distribuci6n.
' _-
~-...:
-~-~-~~~"'
:"',:
,_ .. -::"">
,:_~:~(P~9)~~Q~~~.,.~~~~ ~~gijrJ~~~:~~~~~-u;~~~~~;u~~~-~~1~~.~,:&~
.:.
-::
-<;
-of-
0,:
.l'
:. .
.. ; .. .
'
- -~-
' .
.;: ;. -l;:...
. '
!ools
1!,ata
IHtll
ll I II'
D
IJTools
l!tjndow
i l' ~ ,..2. ~ I
per toly:
!tl
~_,.
AdoQePOF
- fJ X
Q
a ];) i u ::.J '::J :.:J 'V ..:J
c; '~'~
W! S
Frequency Table
0.9
O.B
0.7
0.6
0.5
0.4
0.3
0.2
0.1
--
'
. '!.
;:.,
Ready
. -
rrf~
---
,-
216
Aprendizaje basico
7.1 Dada una distribuci6n normal con J.1. = 100 y
de PH Grade 0' = 10, si se selecciona ~ muestra den= 25, z,cual
AStSTENCtA
a.
b.
c.
d.
AStSTENCtA
a.
b.
c.
d.
Aplicaci6n de conceptos
7.3 lndique cu8.1 es la distribuci6n muestral para muestras de
25 elementos, en cada una de las tres siguientes poblaciones.
a. Vales de viaticos para una universidad durante un afio academico.
b. Registros de ausencia ( dias de ausencia por afio) durante
2004 para los empleados de una gran empresa manufacturera.
c. Ventas anuales (en gal ones) de gasolina sin plomo de las gasolineras ubicadas en una ciudad particular.
7.4 Los siguientes datos representan el nlimero de dias de ausencia a! afio de una poblaci6n de seis empleados de una empresa pequefia:
3
10
de PH Grade
c.
d.
7
fc
B
.........
7.3: Distribuciones muestrales de una proporci6n
a. ~Cmil es la probabilidad de que la media muestral sea menor
que 0.75 segundos?
b. ~Cuat es la probabilidad de que la media muestral se encuentre entre 0.70 y 0.90 segundos?
c. La probabilidad de que Ia media muestral se encuentre entre
dos valores simetricamente distribuidos alrededor de Ia media poblacionales del80%. ~Cllliles son esos dos valores?
d. Existe un 90% de probabilidades de que la media muestral
sea menor ~de que valor?
7.10 En el articulo descrito en el problema 7.9, tambien se informaba que el tiempo medio de descarga del sitio Web de H&R
Block www.hrblock.com fue de 2.5 segundos. Suponga que el
7.3
21 7
tiempo de descarga de este sitio Web tuvo una distribuci6n normal, con una desviaci6n estandar de 0.5 segundos. Si se selecciona una muestra aleatoria de 30 tiempos de descarga.
a. ~Clllil es Ia probabilidad de que Ia media muestral sea menor
que 2.75 segundos?
b. ~Cuat es Ia probabilidad de que la media muestral se encuentre entre 2.70 y 2.90 segundos?
c. Hay una probabilidad del 80% de que la media muestral se
encuentre entre dos valores simetricamente distribuidos alrededor de la media poblacional. ~Cmiles son esos valores?
d. Existe un 90% de probabilidades de que la media muestral
sea menor ,de que valor?
PROPORCI6N MUESTRAL
X
= -;; =
7
( .6)
La proporci6n muestral p asume valores entre 0 y 1. Si todos los individuos cuentan con la caracteristica, se asigna a cada uno un valor de 1 y p es igual a 1. Si la mitad de individuos cuentan con
la caracteristica, asigne un valor de 1 a una mitad y de 0 ala otra mitad, y pes igual a 0.5. Si ninguno de los individuos posee Ia car!!teristica, asigne a cada uno una calificaci6n de 0, y p es igual a 0.
Mientras Ia media muestral Xes un estimador parcial de la media poblacionall.l., el estadistico
p es un estimador parcial de la proporci6n poblacional1t. Por analogia con la distribuci6n muestral
de la media, el error estandar para Ia proporcion crP se da en la ecuaci6n (7. 7).
~1t(l- 1t)
n
(7.7)
Si usted selecciona todas las muestras posibles de cierto tamail.o, la distribuci6n de todas las proporciones muestrales posibles se denomina distribucion muestral de Ia proporcion. AI realizar
muestras con reemplazo de una poblaci6n finita, la distribuci6n muestral de la proporci6n sigue la
distribuci6n binomial, como se analiz6 en la secci6n 5.2. Sin embargo, puede utilizar la distribuci6n
218
normal para aproximar la distribuci6n binomial cuando n1t y n(l -1t) son cada uno de por lo menos
5. En la mayoria de los casos en los que se realizan inferencias con respecto ala proporci6n, el tamaiio de la muestra es lo bastante sustancial como para satisfacer las condiciones necesarias para
utilizar la aproximaci6n normal (vea la referencia 1). Por eso, en muchos casos, se uti~ la distribuci6n normal para estimar la distribuci6n muestral de la proporci6n. Sustituyendo p por X, 1t por J.l
y
~1t(l: 1t)
por
t
D
z = -=p==-=1t=
~1t(l: 1t)
c
a
b
(7.8)
c.
d.
Para ilustrar la distribuci6n muestral de la proporci6n, suponga que el gerente de la sucursallocal de un banco determina que el 40% de todos los clientes tienen varias cuentas en el banco. Si se
selecciona una muestra aleatoria de 200 clientes, la probabilidad de que la proporci6n muestral de
clientes con varias cuentas sea menor que 0.30 se calcula como sigue.
Puesto que n1t = 200(0.40) = 80 2:: 5 y n(l -1t) = 200(0.60) = 120 2:: 5, el tamaiio de la muestra
tiene la magnitud suficiente como para suponer que la distribuci6n muestral de la proporci6n tiene
una distribuci6n aproximadamente normal. Utilizando la ecuaci6n (7.8),
z-
di;
en
de
p-1t
an
~1t(l: 1t)
lee
a.
0.30-0.40
-Q.10
-Q.lO
(0.40)(0.60) =
~0.24
= 0.0346
200
200
b.
.
c.
= -2.89
Al emplear la tabla E.2, se observa que el area que queda bajo la curva normal menor que Z =
d.
- 2.89 es 0.0019. Por lo tanto, la probabilidad de que la proporci6n muestral sea menor que 0.30 es
0.0019, algo muy poco probable. Esto significa que si la proporci6n real de exitos en la poblaci6n
es 0.40, se espera que menos de la quinta parte dell % de las muestras den= 200 tenga proporciones muestrales menores que 0.30.
7.1
gac
imi
que
emI
(Ca:
Mis
Aprendizaje basico
7.11 En una muestra aleatoria de 64 personas, 48
de elias se clasifican como "exitosas". Si la propor' -- ---' cion poblacionales 0.70.
a. Determine la proporci6n muestralp de personas "exitosas".
b. Determine el error estlindar para la proporci6n.
.------, 7.12 Se seleccion6 una muestra aleatoria de 50 amas
de casa para participar en una encuesta telef6nica. La
pregunta clave que se les plante6 fue: "l, Tiene usted o
alg6n miembro de su familia un telefono celular con mensajes de
texto?" De las 50 participantes, 15 resp0ndieron que si y 35 dijeron que no. Si la proporci6n de poblaci6n es de 0.40.
'----------'
be
pr
nos celulares.
b. Encuentre el error estlindar para la proporci6n.
7.13 Los siguientes datos representan las respuestas ( Y para si
y N para no) obtenidas de una muestra de 40 universitarios a Ia
pregunta: ~l. Tiene usted actualmente acciones bursatiles de
cualquier tipo?"
NNYNNYNYNYNNYNYYNNNY
NYNNNNYNNYYNNNYNNYNN
Si la proporci6n poblacional es 0.30.
.
a. Encuentre la proporci6n muestral p de estudiantes universl
tarios que poseen acciones bursatiles.
b. Encuentre el error estlindar para la proporci6n.
200.
200
jere:
a.
i,
1
b. i,
e
c. i,'
e
d.
n:
7.11
Pulcu
Aplicaci6n de conceptos
1 AUTO 7.14 Una persona que realiza encuestas
V Exam en politicas efectUa un amilisis de resultados
muestrales, con objeto de hacer pron6sticos sobre la noche de la elecci6n. Suponiendo que se trata de
una elecci6n en la que s6lo participan dos candidatos, si en la
muestra uno de ellos recibe el 55% de los votos, entonces se
pronostica que sera el ganador de la elecci6n. Si se selecciona
una muestra aleatoria de 100 votantes, determine cual es la probabilidad de que se pronostique un candidato como ganador
cuando:
a. El porcentaje real de sus votos es del 50.1 %.
b. El porcentaje real de sus votos es del 60%.
c. El porcentaje real de sus votos es del49% (yen realidad perdera Ia elecci6n).
d. Si se aumenta el tamafio de Ia muestra a 400, l,cuales serian
sus respuestas a los incisos a), b) y c)? Analicelo.
ASISTENCIA
de PH Grade
7.15 Usted planea realizar un experimento de marketing en el que los estudiantes deben probar una
de dos marcas de bebidas gaseosas distintas. Su labor consiste en identificar correctamente cual es la marca que
probaron. Usted selecciona una muestra aleatoria de 200 estudiantes y supone que no cuentan con facultades para distinguir
entre ambas marcas. (Nota: Si un individuo carece de facultades para distinguir entre los dos bebidas gaseosas, entonces
ambas marcas tienen las mismas probabilidades de resultar seleccionadas.)
a. i,Cual es la probabilidad de que la muestra obtenga entre 50
y 60% de identificaciones correctas?
b. Hay una probabilidad del 90% de que el porcentaje muestral
se encuentre dentro de l,Cuales limites sirnetricos del porcentaje poblacional?
c. i,Cual es la probabilidad de que el porcentaje muestral de
identificaciones correctas sea mayor del65%?
d. l,Que es mas probable que ocurra: mas del 60% de identificaciones correctas en la muestra de 200, o mas del 55% de
identificaciones correctas en una muestra de 1,000? Expliqueporque.
ASISTENCIA
de PH Grade
7.16 Catalyst, una empresa neoyorquina dedicada a la investigaci6n, realiz6 un estudio sobre las mujeres que ocupan cargos
importantes en ambientes corporativos. El estudio concluy6
que poco mas del 15% de los funcionarios corporativos de las
empresas que forman parte de Ia lista Fortune 500 son mujeres
(Carol Hymowitz, "Women Put Noses to the Grindstone, and
Miss Opportunities", The Wall Street Journal, 3 de febrero,
2004, Bl). Suponga que se selecciona una muestra aleatoria de
~00 funcionarios corporativos, y que la proporci6n real de muJeres es de 0.15.
a. i,Cual es la probabilidad de que en esta muestra menos del
15% de los funcionarios corporativos sean mujeres?
b. i,Cual es la probabilidad de que en esta muestra entre el13 y
el 17% de los funcionarios corporativos sean mujeres?
c. i.Cual es la probabilidad de que en esta muestra entre el 10 y
ei 20% de los funcionarios corporativos sean mujeres?
d. Si se hubiese seleccionado una muestra de 100 sujetos, i,C6mo cambiarian sus respuestas de los incisos a) a c)?
7
.17 El programa Friends de la NBC fue el espectaculo mas poPUlar de TiVo durante la semana del 18 al24 de abril de 2004.
219
de PHGrade
7.20 Un articulo (P. Kitchen, "Retirement Plan: To Keep Working", Newsday, 24 de septiembre, 2003) analiza los planes de
jubilaci6n para los estadounidenses con edades de 50 a 70 afios
que fueron empleados de tiempo completo o parcial. De los
entrevistados, el29% dijeron que no pensaron trabajar para obtener un salario. Si usted selecciona una muestra aleatoria de
400 estadounidenses con edades de 50 a 70 afios que fueron
empleados de tiempo completo o parcial.
a. i,Cual es la probabilidad de que la muestra contenga entre el
25 y el30% de los que no pensaron en trabajar para obtener
un salario?
b. Si una muestra actual de 400 estadounidenses con edades de
50 a 70 afios que fueron empleados de tiempo completo o
parcial contiene un 35% de los que no pensaron en trabajar para obtener un salario, l,que se infiere sobre la estimaci6n poblacional del 29%? Explique su respuesta.
220
7.4
ximadamente 0.25 (Tom Herman, "Unhappy Returns: IRS Moves to Bring Back Random Audits", The Wall Street Journal, 20
de junio, 2002, AI). Suponga que se selecciona una muestra
aleatoria de 100 auditorias. l,Cwil es la probabilidad de que la
muestra tenga
a. entre 24 y 26% de auditorias sin cambio?
b. entre 20 y 30% de auditorias sin cambio?
c. mas de 30% de auditorias sin cambio?
7.22 El IRS anunci6 que planea reanudar las auditorias totalmente aleatorias el proximo aii.o. Suponga que usted selecciona
una muestra aleatoria de 200 auditorias totalmente aleatorias, y
que s6lo el 10% de todos los rendimientos archivados tienen
como resultado auditorias que indican el pago de impuestos
adicionales. l.Cwil es la probabilidad de que la muestra tenga
a. entre el89 y el91% de auditorias sin cambio?
b. entre el 85 y el 95% de auditorias sin cambio?
c. mas del 95% de auditorias sin cambio?
El proceso de muestreo comienza por la definicion del marco. El marco es una lista de los elementos que constituyen la poblaci6n. Los marcos son fuentes de datos, como listas, directorios o
mapas de la poblaci6n. Las muestras se extraen de esos marcos. Si los marcos excluyen algunos grupos de la poblaci6n, los resultados seran inexactos o sesgados. El uso de marcos diferentes para generar los datos podria conducir a conclusiones opuestas.
Una vez seleccionado el marco, se extrae la muestra. E:xisten dos clases de muestras, que se
ilustran en la figura 7.5: las muestras probabilisticas y las no probabilisticas.
FIGURA 7.5
Tipos de muestras utilizadas
Tipos de muestras.
Muestras probabilfsticas
Muestras no probabilfsticas
Muestra
de juicio
'
Muestra de
asignaci6n
Muestra de
Muestra Muestra de Muestra
de
conveniencia aleatoria sistematica Muestra conglomerados
estratificada
segmento
simple
En una muestra no probabilistica, usted selecciona los elementos o individuos sin conocer sUS
probabilidades de selecci6n. De tal manera, la teoria desarrollada para el muestreo probabilistico no
221
222
EJEMPLO 7.5
- ---
TABLA 7.3
I
I
I
%
I
I
I
I
I
I
II
Columna
223
Fila
01
02
03
04
05
lnido de Ia 06
selecd6n
07
(fila 06;
08
columna OS) 09
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
00000
12345
00001
67890
11111
12345
11112
67890
22222
12345
22223
67890
33333
12345
33334
67890
49280
61870
43898
62993
33850
97340
70543
89382
37818
60430
82975
39087
55700
14756
32166
23236
45794
09893
54382
94750
70297
85157
11100
36871
23913
88924
41657
65923
93912
58555
03364
29776
93809
72142
22834
66158
71938
24586
23997
53251
73751
26926
20505
74598
89923
34135
47954
02340
50775
48357
35779
07468
25078
30454
51438
88472
10087
00796
67140
14130
84731
40355
93247
78643
70654
31888
15130
14225
91499
37089
53140
32979
12860
30592
63308
00283
08612
86129
84598
85507
04334
10072
95945
50785
96593
19436
54324
32596
75912
92827
81718
82455
68514
14523
20048
33340
26575
74697
57143
16090
81163
98083
78496
56095
71865
63919
55980
34101
22380
23298
55790
08401
11865
83832
63491
06546
78305
46427
68479
80336
42050
57600
96644
17381
51690
07275
97349
97653
20664
79488
36394
64688
81277
16703
56203
69229
26299
()3397
32768
04233
83246
55058
56788
27686
94598
82341
40881
89439
68856
54607
89863
20775
91550
12872
76783
11095
68239
66090
53362
92671
28661
49420
44251
18928
33825
47651
52551
96297
46162
26940
44104
12250
28707
25853
72407
02348
45091
08078
64647
31708
92470
20461
88872
44940
15925
13675
59208
43189
57070
69662
04877
47182
78822
83554
36858
82949
73742
25815
35041
55538
Fuente: Obtenida de The Rand Corporation. A Million Random Digits with 100,000 Normal Deviates (Glencoe, IL. : The Free Press, 1955) y se incluye completa en Ia tabla E.l en el apendice E de este libro.
Muestra sistematica
En una muestra sistematica, los N elementos del marco se dividen en n grupos de k elementos,
donde
k= N
n
Usted redondea k al entero mas cercano. Para seleccionar una muestra sistematica, elija de
forma aleatoria el primer elemento a seleccionar de entre los primeros k efementos ciel marco.
Luego seleccione de los n - 1 elementos restantes tomando cada k-esimo elemento a partir de todo el marco.
Si el marco se compone de una lista de cheques, recibos o facturas prenumerados, es mas facil
extraer una muestra sistematica que una muestra aleatoria simple. Una muestra sistematica tambien
es un mecanismo muy conveniente para recabar datos de agendas telef6nicas, listas de alumnos y articulos consecutivos que salen de una linea de ensamblaje.
Para extraer una muestra sistematica de n = ,40 a partir de Ia poblaci6n de N = 800 empleados,
divida el marco de 800 en 40 grupos de 20 empleados cada uno. Luego seleccione un nfunero aleatorio de los primeros 20 individuos, e inc~uya cada vigesimo individuo tras Ia primera selecci9n de
Ia muestra. Por ejemplo, si el primer nfunero seleccionado es 008, sus selecciones subsiguientes son
""
224
Muestra estratificada
En una muestra estratificada, primero subdivida N elementos del marco en subpoblaciones separadas, o estratos. Un estrato se define mediante algunas caracteristicas comunes. Seleccione una
muestra aleatoria simple dentro de cada uno de los estratos, y combine los resultados de muestras
aleatorias simples distintas. Este metodo es mas eficiente que el muestreo aleatorio simple y que el
sistematico, porque garantiza la representacion de los elementos a lo largo de toda la poblacion. La
homogeneidad de los elementos dentro de cada estrato brinda mayor precision al estimar los panimetros poblacionales subyacentes.
EJEMPLO 7.6
SOLUCI6N Si supone una tasa de respuesta del 80%, necesitara distribuir 40 formularios para
obtener las 32 respuestas deseadas. El marco esta formado por una lista con los nombres y nfuneros
de correo de todos los N = 800 empleados de tiempo completo incluidos en los archivos de personal de
la empresa. Como el 25% de los empleados de tiempo completo son administrativos, primero divida el marco poblacional en dos estratos: una lista subpoblacional con cada uno de los 200 trabajadores
de nivel administrativo y otra lista subpoblacional con cada uno de los 600 trabajadores de tiempo
completo no administrativos. Puesto que el primer estrato se compone de una lista con 200 administrativos, le asigna codigos numericos de tres digitos del 001 al200. Como el segundo estrato contiene una lista de 600 trabajadores no administrativos, le asigna codigos numericos de tres digitos del
001 al600.
Para recopilar una muestra estratificada proporcional a las dimensiones de los estratos, se selec
ciona el25% de Ia muestra general de primer estrato y el 75% restante del segundo. Usted toma dos
muestras aleatorias simples distintas, cada una basada en un punto de partida aleatorio diferente en
la tabla de nfuneros aleatorios (tabla E.l). De Ia primera muestra, selecciona 10 de las personas in
cluidas en la lista de 200 trabajadores administrativos que componen el primer estrato, y la segunda
muestra selecciona 30 de las personas incluidas en Ia lista de 600 trabajadores no administrativos
que componen al segundo estrato. Luego combina los resultados, para reflejar la composicion de toda la empresa.
-~
Muestra de conglomerados
En una muestra de conglomerados, .divida los N elementos del marco en varios conglomerados, ~e
tal manera que cada uno sea representativo de toda la poblacion. Luego tome una muestra aleatona
de conglomerados, y estudie todos los elementos de cada conglomerado seleccionado. Los conglomerados son designaciones de suceso natural, como paises, distritos electorales, cuadras de una ciu
dad, hogares o territorios de venta.
.
Con frecuencia, el muestreo de conglomerados tiene una mejor relacion costo-eficacia que el
muestreo aleatorio simple, sobre todo si la poblaci6n se distribuye en una region geografica extenSS
Sin embargo, para generar resultados tan precisos como los que se obtienen a partir del muestreo
aleatorio simple o del estratificado, a menudo el muestreo de conglomerados necesita una mues!J11
de mayor tamafio. En la referencia 1 encontrara una explicacion mas detallada de los procesos de
muestreo sistematico, estratificado y de conglomerados.
a.
b.
7.~
par
nic.
ale<
mue
sica
men1
mue!
7.28
YD).
que d
cae C<
muest
aleato
(Si re1
descril
g;
Para m
Lasigu
de los 4
~
MUjere
llornbn
l'ota/
225
- - - - - - - - - - --- - - - - - -
Aprendizaje basico
ASISTENCIA
Aplicaci6n de conceptos
7.26 En un estudio consistente en entrevistas personales a los
participantes (en Iugar de utilizar encuestas por correo o telef6nicas), explique por que resulta menos pnictica una muestra
aleatoria simple que cualquier otro de los metodos.
ASISTENCIA
de PH Grade
/o AUTo
7.29 El presidente de una universidad con una poblaci6n de N = 4,000 estudiantes de tiempo completo, solicita al secretario que realice una encuesta
era. m~dir Ia satisfacci6n de la calidad de vida en el plantel.
da Sigutente tabla muestra una clasificaci6n por genero y grado
e los 4,000 estudiantes de tiempo completo inscritos:
e. Suponga que cada uno de los N = 4,000 estudiantes de tiempo completo inscritos viven en uno de los 20 dormitorios del
campus. Cada dormitorio tiene cuatro pisos, con 50 camas
cada uno, por lo que aloja 200 estudiantes. Es politica de Ia
instituci6n integrar por completo a sus alumnos por genero y
grado en cada uno de los pisos de cada dormitorio. Si el secretario recaba un marco por medio de una Iista de todos los
alumnos que ocupan cada uno de los pisos de cada dormitorio, l,que tipo de muestra debe extraer? Discutalo.
7.30 En un diario de ventas se conservan facturas prenumeradas. Estan foliadas del 0001 al5,000.
a. Comenzando en la fila 16 de la columna 1, y procediendo de
forma horizontal en 1a tabla E.l, seleccione una muestra
aleatoria simple de 50 nfuneros de factura.
b. Seleccione una muestra sistematica de 50 nfuneros de factura. Para ello, utilice como punto de partida los nfuneros aleatorios de la fila 20 de las columnas 5 a 7.
Examen
Genero
Mujeres
Hombres
Total
Designaci6n de Ia clase
20
JO
40
tO
700
560
1,260
520
460
980
500
400
900
480
380
860
Total
2,200
1,800
4,000
226
7.5
Errores de encuesta
Aun cuando las encuestas utilizan metodos de muestreo probabilisticos, estan sujetas a errores potenciales. Cuatro tipos de errores de encuesta son:
Error de cobertura.
Error de no respuesta.
Error de muestreo.
Error de medicion.
Un buen diseiio de encuesta de investigacion pretende reducir al minimo estos distintos errores, con
frecuencia a un costo considerable.
Error de cobertura La clave para hacer una seleccion apropiada de la muestra es partir de un
marco adecuado. Recuerde, el marco es una lista actualizada de todos los elementos, a partir de Ia
cual podra seleccionar la muestra. El error de cobertura se presenta cuando se excluyen del mar
co ciertos grupos de elementos, de tal manera que no tienen posibilidad de resultar seleccionados
como parte de la muestra. El error de cobertura provoca un sesgo de selecci6n. Si el marco es ina
decuado porque no se incluyeron de man era apropiada ciertos grupos de elementos, toda muestra
probabilistica aleatoria seleccionada dara una estimacion de las caracteristicas del marco, no de Ia
poblacion real.
Error de no respuesta No todas las personas estan dispuestas a responder una encuesta. De he
cho, las investigaciones han descubierto 9ue los individuos de las clases economicas mas altaS. Y
mas bajas suelen responder a las encuestas con menos frecuencia que las personas de clase media.
El error de no respuesta surge a partir de la omision al recabar datos de todos los elementos de Ia
muestra, y tiene como resultado un sesgo de no respuesta. Puesto que por regia general no es posible suponer que las personas que declinan responder ala encuesta son semejantes a las que silo
hacen, es necesario hacer un seguimiento de la falta de respuestas tras un periodo de tiempo espe
227
cificado. Usted debe realizar varios intentos para convencer a tales individuos de que respondan Ia
encuesta. Luego, las respuestas de seguimiento se comparan con las respuestas iniciales, para efectuar inferencias validas a partir de Ia encuesta (referenda I).
El modo de respuesta utilizado influye en Ia tasa de respuesta. Las entrevistas personates y telef6nicas suelen producir una tasa de respuesta mayor que las encuestas por correo, pero a mayor
costo. A continuaci6n se muestra un famoso ejemplo de error de cobertura y sesgo de no respuesta.
En I936, Ia revista Literary Digest pronostico que el gobernador de Kansas, Alf Landon, recibiria el 57% de los votos en las elecciones presidenciales estadounidenses, y derrotaria de forma
abrumadora al presidente Franklin D. Roosevelt, que se postulaba para un segundo periodo. Sin
embargo, Landon fue facilmente derrotado al recibir s6lo el 38% de los votos. Nunca antes habia
ocurrido que una revista cometiera un error semejante con respecto a una encuesta tan importante.
En consecuencia, tal pron6stico arruin6 la credibilidad del publico en Ia revista, lo que, con el tiempo, deriv6 en bancarrota. En Literary Digest creyeron haber hecho todo de manera correcta. Basaron
su pron6stico en una muestra de gran tamailo, 2.4 millones de participantes en una encuesta enviada
a IO millones de votantes registrados.l,Cual fue el error? Existen dos respuestas: sesgo de selecci6n
y sesgo de no respuesta.
Para comprender el papel que desempefia el sesgo de selecci6n, es necesario conocer ciertos
antecedentes hist6ricos. En I936, Estados Unidos todavia sufria los efectos de la Gran Depresi6n.
Sin tomar esto en cuenta, el Literary Digest recopil6 su marco de fuentes tales como directorios
telef6nicos, listas de miembros de clubes, suscriptores y registros de autom6vil (referenda 7).
Inadvertidamente, seleccionaron un marco compuesto primordialmente por gente acomodada que
excluy6 a Ia mayor parte de Ia poblaci6n votante, quienes durante la Gran Depresi6n no podian
costear telefonos, afiliaci6n a clubes, suscripciones ni autom6viles. De esta manera, el57% de votos que se estim6 para Landon pudo haber sido muy cercano al marco, pero en realidad no lo fue
para la poblaci6n estadounidense total.
El error de no respuesta gener6 un posible sesgo, ya que Ia gran muestra de 10 millones de votantes registrados obtuvo s6lo 2.4 millones de respuestas. Una tasa de respuesta de s6lo un 24% esta muy lejos de producir estimaciones exactas de los parametros poblacionales, y no cuenta con mecanismos para garantizar que los 7.6 millones de individuos que no respondieron tengan una opini6n
similar. Sin embargo, el problema causado por el sesgo de no respuesta resulta secundario en comparaci6n con el sesgo de selecci6n. Incluso si hubieran respondido los I 0 millones de votantes registrados en la muestra, esto no hubiera compensado el hecho de que la composici6n del marco diferia
de manera sustancial de Ia poblaci6n votante real.
Error de muestreo Existen tres razones primordiales por las que usted selecciona una muestra
en vez de realizar un censo completo: es mas conveniente, menos costoso y mas eficiente. Sin embargo, Ia casualidad dicta cuales individuos o elementos seran o no incluidos en la muestra. El error
de muestreo refleja la heterogeneidad o "diferencia de posibilidad" entre una muestra y otra, con
base en la probabilidad de que determinados individuos o elementos sean seleccionados en muestras
particulares.
Cuando usted lee los resultados de encuestas en peri6dicos o revistas, con frecuencia encontrara un enunciado relacionado con el margen de error o Ia precisi6n. Por ejemplo, "se considera que
los resultados de esta encuesta estan a 4 puntos porcentuales del valor real". Este margen de error
representa a! error de muestreo. El error de muestreo se reduce extrayendo muestras de mayor tamafio, pero esto tambien aumenta el costo de Ia encuesta.
Error de mediciOn En Ia practica de una buena investigaci6n, usted disefia un cuestionario con
intenci6n de recabar informaci6n significativa. Pero aqui se enfrenta a un dilema: es mas facil hablar
de medidas significativas que obtenerlas. Considere el siguiente proverbio:
Un hombre con un reloj siempre sabe que hora es;
Un hombre con dos relojes siempre indaga, para identi.ficar Ia hora correcta;
Un hombre con diez relojes siempre recuerda lo dificil que es medir el tiempo.
Por desgracia, el proceso de obtener una medici6n con frecuencia esta regido por Io que resulta
conveniente y no por lo que es necesario. A menudo las mediciones son en realidad s6lo una representaci6n de las que se desean. Se ha observado mucho al error de medici6n que surge como resul-
228
a
j(
ci
Cl
7
1,
0(
d(
te
ac
7.
en
4<
Consideraciones eticas
Las consideraciones eticas surgen en relaci6n con los cuatro tipos de errores potenciales que pueden
surgir al disefiar encuestas que utilizan muestras probabilisticas: error de cobertura, error de no respuesta, error de muestreo y error de medicion. El error de cobertura da como resultado un sesgo en Ia
seleccion, y se convierte en un problema etico si se excluye del marco a individuos o grupos especificos, en forma deliberada, de manera que los resultados de la encuesta se inclinen hacia una posicion
mas favorable para el interesado. El error de no respuesta puede conducir al sesgo de no respuesta, y
se convierte en un problema etico si el interesado disefia deliberadamente la encuesta de tal manera
que se reduzca a la posibilidad de que la respondan grupos o individuos especificos. El error de muestreo se convierte en un problema etico si al mostrar los resultados se omite deliberadamente hacer referencia al tamafio de la muestra y al margen de error, de manera que el interesado promueva un punto
de vista que, de otra forma, no seria verdaderamente slgnificativo. El error de medici6n se convierte en
un problema etico en alguna de las siguientes tres situaciones: 1. cuando el interesado en la encueslll
elige preguntas tendenciosas que dirigen las respuestas en una direccion especifica; 2. cuando el entre
vistador, mediante ademanes y tonos, provoca deliberadamente un efecto halo o, de cualquier otra for
rna, dirige las respuestas en una direcci6n especifica; 3. cuando el encuestado, desdefiando el proceso
de encuestas, proporciona informacion falsa de manera intencional.
Tambien surgen algunos problemas eticos cuando se utilizan los resultados de las muestras no
probabilisticas para sacar conclusiones acerca de toda Ia poblacion. Cuando se utiliza un metodo de
muestreo no probabilistico, es necesario explicar los procedirnientos de muestreo y asentar que los
resultados no deben generalizarse mas alia de Ia muestra.
,------1
- - - - -----------------
r 1 lfi@~OJ~~x&~
En
dia
mu
Ia r
bla
ses;
de 1
"
Aplicaci6n de conceptos
7.32 "Una encuesta sefiala que Ia gran mayoria de los estudiantes universitarios son duefios de su propia computadora
personal." (,Que informacion le gustaria conocer antes de aceptar los resultados de Ia encuesta?
7.33 Se selecciona una muestra aleatoria simple de n = 300
empleados de tiempo completo a partir de una lista de Ia empresa que contiene los nombres de todos los N = 5,000 empleados
de tiempo completo, con el fin de evaluar Ia satisfaccion con el
trabajo.
a. Encuentre un ejemplo de posible error de cobertura.
b. Encuentre un ejemplo de posible error de no respuesta.
7.34 De acuerdo con una encuesta realizada a 1,000 suscriptores de AOL (Harry Berkowitz, "Screen Name Loyalty", NeWS
day, 1 de diciembre, 2002, A42), el 92% de los suscriptores de
AOL respondieron: ''No quiero cambiar mi direcci6n de corre~
electr6nico", como raz6n para continuar con el servicio. /,Que
informacion le gustaria conocer antes de aceptar los resultados
de la encuesta?
7.35 Forrester Research Inc. realiz6 una encuesta entre collt
pradores en linea (Michael Totty, "The Masses Have Arrived",
The Wall Street Journal, 27 de enero, 2003, R8).
0"::
Erro
z:: .
229
F6rmulas importantes
De quienes han realizado compras en linea por menos de un
afio, el 39% tiene licenciatura, el57% esta conformado por mujeres, y su ingreso anual medio es de $52,300. ,Que informacion le gustaria conocer antes de aceptar los resultados de la encuesta?
RESUMEN
~
En este capitulo se estudi6 la distribucion muestral de la media muestral, el teorema del limite central y la distribuci6n
muestral de la proporci6n de la muestra. Usted aprendio que
Ia media muestral es un estimador sin sesgo de la media poblacional y que la proporcion muestral es un estimador sin
sesgo de la proporcion poblacional. AI observar el peso medio
de una muestra de cajas de cereal rellenas por la Oxford Ce-
FORMULAS IMPORTANTES
Media poblacional
X = 1-l + z
LX;
ll ==
(7.1)
i=!__
X
n
p =-
~i=~t'------
(7.2)
cr
crg == ~
..Jn
(7.3)
(7.6)
= ~1t(l-1t)
n
(7.7)
z == K- 1-lx = x- 1-1
crx
(7.5)
L(X; _,_l)2
cr ==
cr
.Jn
Proporcion muestral
cr
.Jn
z-
(7.4)
p-1t
~1t(l ~ '1t)
(7.8)
230
CONCEPTOS CLAVE
conglomerados 224
distribuci6n muestral 206
distribuci6n muestral de Ia
media 207
distribuci6n muestral de la
proporci6n 217
error de cobertura 226
error de muestreo 227
error de no respuesta 226
error estandar de la media 209
ci
ci
muestra probabilistica 221
muestra sistematica 223
muestrear sin reemplazo 221
muestreo con reemplazo 221
muestreo de conveniencia 221
sesgo de no respuesta 226
sesgo de selecci6n 226
sin sesgo 207
tabla de nW:neros aleatorios 221
teorema del limite central 213
de
H
Ui
eJ
i,<
a.
b.
c.
d.
PROBLEMAS DE REPASO
Revision de su aprendizaje
7.39 l,Por que la media muestral es un estimador sin sesgo de
la media poblacional?
7.40 l,Por que se reduce el error estandar de Ia media conforme aumenta el tamafio de la muestra n?
7.41 l,Por que para una muestra con el tamafio suficientemente grande, la distribuci6n muestral de la media sigue una distribuci6n normal a pesar de que la poblaci6n quiza no tenga una
distribuci6n normal?
7.42 l,Cual es Ia diferencia entre una distribuci6n de probabilidad y una distribuci6n muestral?
cia previa sefiala que el diametro real de los cojinetes tiene una
distribuci6n aproximadamente normal, con una media de 0.753
pulgadas y una desviaci6n estandar de 0.004 pulgadas. Si se selecciona una muestra aleatoria de 25 cojinetes, l,Cual es Ia probabilidad de que la media muestral se encuentre
a. entre el objetivo y Ia media poblacional de 0.753?
b. entre ellimite inferior de las especificaciones y el objetivo?
c. sobre ellimite superior a las especificaciones?
d. bajo ellimite inferior de las especificaciones?
e. Existe un 93% de probabilidad de que el diametro medio
muestral sea mayor l,de que valor?
seosa tiene una distribuci6n normal, con una media de 2.0 litros
y una desviaci6n estandar de 0.05 litros. Si se selecciona una
muestra aleatoria de 25 botellas, l,CU!il es Ia probabilidad de que
la media muestral este
a. entre 1.99 y 2.0 litros?
b. bajo 1.98 litros?
c. sobre 2.011itros?
d. Existe una probabilidad del 99% de que la media muestral
contenga por lo menos l,cuanta bebida gaseosa?
e. Hay una probabilidad del 99% de que Ia media muestral
contenga valor que se encuentra entre l,Cuales dos valores
(distribuidos simetricamente alrededor de la media)?
enorme plantaci6n que tiene una variedad de naranja. La cantidad de jugo extraido de cada una de estas naranjas tiene una
distribuci6n aproximadamente normal, con una media de 4.70
onzas y una desviaci6n estandar de 0.40 onzas. Suponga que
selecciona una muestra aleatoria de 25 naranjas:
a. l.Cual es la probabilidad de que la media muestral sea de por
lo menos 4.60 onzas?
b. ijay una probabilidad del 70% de que la media muestral se
encuentre entre dos valores simetricamente distribuidos alrededor de la media poblacional. l,Cuales son esos valores?
c. Existe un 77% de probabilidad de que la media muestral este por encima de l,cual valor?
7.43 l,En que circunstancias la distribuci6n muestral de la proporci6n sigue una distribuci6n aproximadamente normal?
7.49 l,Cual es la diferencia que existe entre una muestra estratificada y una muestra de conglomerados?
Aplicaci6n de conceptos
7.50 Una maquina de coser industrial utiliza cojinetes que deben tener un diametro de 0.75 pulgadas. Los limites inferior y
superior especificados dentro de los que los cojinetes pueden
operar son 0.74 y 0.76 pulgadas, respectivamente. La experien-
7.
du
cic
co
re1
Re
20
de
un
sel
cic
mi
a.
b.
c.
7.!
dw
les,
est
Ch!
Qu
ren
cor
una
div
ga 1
a. :
b. I
C, I
Sit
taj:
UDI
d, I
e. c
f. I
g. (
i
h. (
7.s.
cior
lfan
Problemas de repaso
7.53 DiGiorno's tiene en Ia television algunos de los comerciales mas creativos y agradables de pizzas congeladas. La seccion revisora de publicidad del USA Today asegura que al 20%
de los espectadores les gustan "mucho" los anuncios (Theresa
Howard, "DiGiorno Campaign Delivers Major Sales", www.
usatoday.com, 1 de abril, 2002). Suponga que los anuncios se
exponen a una muestra de 400 espectadores de television.
~,cual es Ia probabilidad de que Ia muestra tenga entre
a. 18 y 22% de personas a quienes los anuncios les gustan
"mucho"?
b. 16 y 24% de personas a quienes los anuncios les gustan
"mucho"?
c. 14 y 26% de personas a quienes los anuncios les gustan
"mucho"?
d. 12 y 28% de personas a quienes los anuncios les gustan
"mucho"?
75
: 6 La realizacion de encuestas politicas se ha valido tradi-
231
232
7.63 (Proyecto de grupo) El nUmero de autom6viles en espera, formados en un servicio de lavado, se distribuye de la siguiente manera:
Nlimero de autom6vlles
Probabilidad
0
1
2
0.25
0.40
0.20
0.10
0.04
0.01
Usted utiliza la tabla de nUmeros aleatorios (tabla E.l) para seleccioriar muestras a partir de esta distribuci6n, asignando numeros para la fila de espera, como se expresa continuaci6n:
1. Comenzando en la fila correspondiente al dia del roes en el
que usted naci6.
2. Seleccionando un nUmero aleatorio de dos digitos.
3. Si selecciona un nUmero aleatorio de 00 a 24, registre una
longitud de 0; si es de 25 a 64, registre una longitud de 1; si
es de 65 a 84, registre una longitud de 2; si es de 85 a 94, registre una longitud de 3; si es de 95 a 98, registre una longitud de 4; si es de 99, registre una longitud de 5.
Seleccione muestras de n = 2, n = 5 y n = 10. Calcu1e la media de cada muestra. Por ejemplo, si la muestra con un tamafio de 2 tiene como resultado los numeros aleatorios 18 y 46,
estos corresponderan a las longitudes de la fila de espera de 0
y 1, respectivamente, produciendo una media muestral de
0.5 . Si cada estudiante selecciona cinco muestras diferentes
para cada tamafio de la muestra, se puede desarrollar una frecuencia de distribuci6n de las medias muestrales (para cada
tamafio de la muestra) a partir de los resultados de todo elsal6n. i,Que conclusiones se obtienen con respecto ala distribuci6n muestral de la media conforme aumenta el tamafio de Ia
muestra?
<;
I.
'
7.64 (Proyecto de grupo) La tabla de nUmeros aleatorios permite simular Ia selecci6n de distintas pelotas de colores en un
recipiente, de Ia siguiente manera:
1. Comenzando en Ia fila correspondiente al dia del roes en el
que usted naci6.
2. Seleccione nUmeros de up. digito.
3. Si selecciona un digito aleatorio entre 0 y 6, considere que Ia
pelota es blanca; si el digito aleatorio es 7, 8 o 9, considere
que la pelota es roja.
c
e:
lc
dl
Zl
te
re
1.
2.
'
'
"'
l.G
3
4
5
2. a,
3. Gc
tir
19
4.
Le:
En,
tab
.... J
. . ....
. ....
'
Referencias
- -------
23 3
- - - - - - - - - - - - - -----------------
(~5.\~ ;~CC:U[I)Jf~l1
-.
---- - -
pasado, i,Cual es la probabilidad de que la tonalidad oscura media de los puntos sea:
a. menor que 1.0?
b. entre 0.95 y 1.0?
c. entre 1.0 y 1.05?
d. menor que 0.95 o mayor que 1.05?
e. Suponga que la media de la muestra de 25 puntos tomada el dia de hoy es 0.952. Con base en este resultado, i,que conclusion se obtiene con respecto a Ia
tonalidad oscura del peri6dico? Explique su respuesta.
'
'
'
...
-~
Aplique sus conocimientos sobre las distribuciones muestrales a este caso Web, que reconsidera el escenario "Uso de Ia
estadistica " de la Oxford Cereals.
La organizaci6n TriCities Consumers Concerned About
Cereal Companies That Cheat (TCCACCTC) sospecha que las
empresas de cereales, incluida la Oxford Cereals, engaiia a
los consumidores al empacar los cereales con menos peso
del sefialado en la etiqueta. Visite el sitio Web de la organizaci6n en www.prenhall.com/Springville/CereaiCheaters.htm, examine sus quejas y datos de respaldo, y luego
responda lo siguiente:
1. i, Yerran los procedimientos de recopilaci6n de datos utilizados por la TCCACCT para obtener sus conclusiones?
i,Cuales procedimientos podria seguir el grupo para hacer
mas rigurosos sus analisis?
2. Suponga que las dos muestras compuestas por cinco cajas
de cereal (una muestra por cada una de las dos variedades)
mencionadas en el sitio Web de Ia TCCACCT se recogieron
de manera aleatoria. Para cada una de las muestras, haga lo
siguiente:
- - - - _. ________ , _ _ _ _ _ __ _________ _ j
234
Apendice 7
A7.2
EXCEL
llrulorrn
..
,,
:(;-.~~
[l1 .. 1nbut1on
;
'""
""', ,
.-
'.o
r-
IIIII
___.llllll
~'~=~~ ----~- IIIII
e rUnere5 Aleatlrils:
l)sriluaien:
----
MINITAB
L...;....__ _
nes R
0
llt.llnp
saliU
illiU:
Enun~nueve
0 Vea la secci6n 0.10 (Simulacion de distribucion muestral) si desea que PHStat2 genere una version mejorada de esta
hoja.
F
d
Apendice
Stristlc
~ su..
r.; Me1111
(", Somofsquarn
(" , Ntat81
r. Minimum
("MIDCbnum
(" Naollflllulng
(" Nmlssfng
("_ Madlan
C Rlloge
Input vorlblea:
C1-c30
----..~,.-,-
-~
------
-~--
Select
Help -
235
-~
-- -- ..
CAPITULO
-- - -----------
Estimaci6n de intervalos
de confianza
USO DE LA ESTADfSTICA: Factura de ventas auditadas en la empresa de remodelaciones Saxon
8.1
8.2
8.3
8.4
8.5
A.S
OBJETIVOS DE APRENDIZAJE
En este capitulo, aprendera:
A construir e interpretar estimaciones de intervalo de
confianza para la media y la proporcion
Como determinar el tamafio de la muestra necesario para
desarrollar un intervalo de confianza para la media o la
proporcion
23 8
uso
DE LA ESTADfSTICA
Facturas de ventas auditadas en Ia empresa
de remodelaciones Saxon
La empresa de remodelaciones Saxon distribuye productos para el mantenimiento del hogar en el noreste de Estados Unidos. Como contador de la empresa, usted es responsable de la exactitud en la administracion de un inventario integrado y del sistema de informacion de ventas. Podria revisar los
contenidos de cada registro para verificar la exactitud del sistema, pero una
revision muy detallada resulta costosa, ademas de que requiere mucho tiempo. Un mejor metodo es usar las tecnicas de estadistica inferencial para obtener conclusiones acerca de la poblacion de todos los registros a partir de una
muestra relativamente pequeil.a recolectada durante una auditoria. AI final de
cada mes, selecciona una muestra de las facturas de ventas para determinar
lo siguiente:
l Que tan precisos son estos resultados extraidos a partir de las muestras y c6mo usar esta
informacion? [.Son las muestras lo suficientemente grandes para aportar la informacion que
necesita?
a estadistica inferencial es el proceso de uso de los resultados derivados de las muestras para obtener conclusiones acerca de las caracteristicas de una poblacion. La estadistica inferencial nos
permite estimar caracteristicas desconocidas como Ia media de Ia poblacion o Ia proporcion de Ia
poblacion. Existen dos tipos de estimaciones usadas para estimar los parametros de Ia poblaci6n:
Ia estimacion puntual y Ia estimacion de intervalo. Una estimaci6n puntual es el valor de un solo
estadistico de muestra. Una estimacion del intervalo de confianza es un rango de nmneros, llama
do intervalo, construido alrededor de Ia estimacion puntual. El intervalo de confianza se construye
de manera que Ia probabilidad del parametro de Ia poblacion se localice en algU.n Iugar dentro del in
tervalo conocido.
Suponga que quiere estimar la media del puntaje GPA (Grade Point Average) de todos los alum
nos en su universidad. La media del GPA para todos los alumnos es una media desconocida de la poblacion, simbolizada como 1..1. Usted selecciona una muestra de alumnos y encuentra que la media es
de 2.80. La muestra de la media X= 2.80 es la estimacion puntual de la media poblacionall..l.. l,Que
tan preciso es el 2.80? Para responder esta pregunta debe construir una estimacion del intervalo de
confianza.
En este capitulo aprendera como construir e interpretar estimaciones de intervalo de confianza.
Recuerde que la media de la muestra X es una estimacion puntual de 'la media poblacional 1..1. Sin
embargo, Ia media de la muestra puede variar de una muestra a otra porque depende de los elemen
tos seleccionados en la muestra. Tomando en cuenta la variabilidad de muestra a muestra (vea la sec
cion 7.2 sobre la distribucion muestral de Ia media), aprenderli a desarrollar la estimacion del inte~
valo para la media poblacional. El intervalo construido tendra una confianza especificada de Ia estl
macion correcta del valor del parametro poblacional1..1.. En otras palabras, existe una confianza espe
cificada de que 1..1. se encuentre en algtl.n Iugar en el rango de nmneros definidos por el intervalo.
Suponga que despues de estudiar'este capitulo, encuentra que un intervalo de confianza ~,el
95% para Ia media del GPA de su universidad es (2. 75 $1..1. $ 2.85). Puede interpretar esta estimacto~
del intervalo estableciendo que esta 95% confiado en que Ia media del GPA en su universidad este
entre 2.75 y 2.85. Hay un 5% de posibilidades de que Ia media del GPA este por debajo de 2.75 o par
arriba de 2.85.
Fll
Est
de
dif(
n=
pol
f.l=
23 9
Despues de aprender acerca del intervalo de confianza para la media, aprendeni c6mo desarrollar un intervalo de estimaci6n para la proporci6n de la poblaci6n. Entonces comprendeni que tan
grande debe ser la muestra seleccionada al construir intervalos de confianza.
8.1
.J25)
356.42 ~ ll ~ 368.18
Como la media poblacionalJl (igual a 368) esta incluida dentro del intervalo, esta muestra ha llevado a una correcta afirmaci6n acerca dell (vea la figura 8.1).
FIGURA 8 .1
Estimaci6n del intervale
de confianza para cinco
diferentes muestras de
n == 25 tomadas de una
poblaci6n donde
ll == 368 y 0" = 15.
362.12
x, = 362.3
x2 = 369.5
x3 =36o
362.3
356.42
354.12
356.24
368.18
I
363.62
365.88
360
X4 =362.12
X5 = 373.88
368
I
362.12
1369.5
I
I
I
375.38
3~8
368
373.88
379.76
240
Para continuar con este ejemplo hipotetico, suponga que para una muestra diferente de n = 25
cajas, 1a media es 369.5. E1 intervalo desarrollado para esta muestra es
369.5 (1.96)(15)/( .,fiS)
o 369.5 5.88. El estimado es
363.62 ~ f.l. ~ 375.38
Puesto que 1a media pob1aciona1 f.1. (igual a 368) esta incluida tambien dentro de este intervalo, esta
aftrmacion sobre f.1. es correcta.
Ahora bien, antes de que piense que siempre que se desarrolla una estimacion del intervalo de
confianza se hacen aftrmaciones correctas sobre f.l., suponga que una tercera hipotesis de una muestra de n = 25 cajas es seleccionada y la media de la muestra es igual a 360 gramos. E1 interva1o desarrollado aqui es 360 (1.96)(15)/ ( ..fE) o 360 = 5.88. En este caso, la estimacion de f.1. es
354.12 ~ f.l. ~ 365.88
Esta estimaci6n no es correcta, porque la media poblacional no esta incluida en el intervalo desarrollado para esta muestra (vea la figura 8.1 en la pagina 239). Asi, para algunas muestras, la estimaci6n del intervalo de f.1. es correcta, pero para otras es incorrecta. En la practica solo se selecciona
una muestra, y puesto que la media poblacional es desconocida, no es posible determinar si la estimacion del intervalo es correcta.
Para resolver el dilema de tener en ocasiones un intervalo que proporcione una estimaci6n correcta y en otras tener un intervalo que proporcione una estimacion incorrecta, se requiere determinar la proporcion de muestras que generan intervalos que dan por resultado afirmaciones correctas
acerca de la JEedia poblacional f.l.. Para hacerlo, co_!!sidere dos diferentes J!!Uestras hipoteticas: el caso en el que X = 362.12 gramos y el caso en que X = 373.88 gramos. SiX= 362.12, el intervalo es
362.12 (1.96)(15)/ ( ..fE) o 362.12 5.88. Esto lleva al siguiente intervalo
356.24 ~ f.l. $ 368.00
Como la media poblacional de 368 esta en ellimite superior del intervalo, la afirmacion es co
rrecta (vea la figura 8.1).
CuandoX = 373.88, el intervalo es 373.88 (1.96)(15)/(
o 373.88 5.88. El intervalo para la media de la muestra es
.J25)
"Estoy 95% confiado en que la media de la cantidad de cereal en la poblacion de cajas se encuen
tra entre 362.12 y 373.88 gramos."
FIG I
Curvi
deter
nece~
de cc
FIGU
Curva
deterr
necesi
de cor
241
En algunas situaciones, usted quisiera tener un mayor grado de confianza (como el 99%) de incluir la media poblacional dentro del intervale. En otros casos, podria aceptar un menor grado de
confianza (como el90%), a1 estimar la media poblacional de forma correcta.
En general, el nivel de confianza se simboliza con (1- a) x 100%, donde a es la proporci6n
de las colas de la distribuci6n que estan fuera del intervale de confianza. La proporci6n de la cola superior de la distribuci6n es aJ2, y la proporci6n de la cola inferior de la distribuci6n es aJ2. Utilice
la ecuaci6n (8.1) para construir una estimaci6n de intervale de confianza (1 -a) x 100% de lamedia con una cr conocida.
XZ~
.Jn
cr
(8.1)
X-Z-S:jl.:SX+Z-
.Jn
.Jn
donde Z = valor correspondiente a un area acumulativa de I - aJ2 de la distribuci6n normal estandarizada, esto es, una probabilidad de la cola superior de aJ2.
Se llama valor critico al valor de Z necesario para construir un intervale de confianza para la
distribuci6n. El 95% de confianza corresponde a un valor a de 0.05. El valor critico Z correspondiente al area acumulativa de 0.9750 es 1.96 porque hay 0.025 en la cola superior de la distribuci6n
y el area acumulativa menor a Z= 1.96 es 0.975 .
Hay un valor critico diferente para cada nivel de confianza 1 - a. Un nivel de confianza del
95% lleva a un valor Z de I .96 (vea la figura 8.2). El 99% de confianza corresponde a un valor a de
0.01. El valor de Z es aproximadamente 2.58 porque el area de la cola alta es 0.005 y el area acumulativa menor a Z = 2.58 es 0.995 (vea la figura 8.3).
FIGURA 8.2
Curva normal para
determinar el valor de Z
necesario para el 95%
de confianza .
11
-1 .96
+1.96
FIGURA 8.3
Curva normal para
determinar el valor Z
necesario para el 99%
de confianza.
..~
242
EJEMPLO 8.1
Ap1
ASIS1
de PI-
8.3
coni
dew
Un fabricante de papel para computadora tiene un proceso de producci6n que opera continuamente
a lo largo del turno completo. Se espera que el papel tenga una media de longitud de 11 pulgadas y
una desviaci6n estandar de 0.02 pulgadas. A intervalos peri6dicos, se selecciona una muestra para
determinar si la media de longitud del papel es igual a 11 pulgadas o para ver si algo ha salido mal
durante el proceso que haya cambiado la longitud del papel que se fabrica. Usted selecciona una
muestra aleatoria de 100 hojas; la media de longitud del papel es de I 0.998 pulgadas. Construya una estimaci6n del intervalo de confianza del 95% para la media poblacional de la 1ongitud del papel.
nific
SOLUCI6N
Se emplea la ecuaci6n (8.1) de la pagina 241 , con Z = 1.96 para un 95% de con-
fianza,
x z ~ = 10.998 (1.96) 0 02
.Jn
.JWo
= 10.998 0.00392
10.99408 :;;; ll :;;; 11.00192
Asi, con un 95% de confianza, usted concluye que la media poblacional esta entre 10.99408 y
11.00192 pulgadas. Como el interva1o incluye alll, valor que indica que el proceso de producci6n
funciona adecuadamente, no hay raz6n para creer que algo esta mal con el proceso de fabricacion.
Para ver el efecto de usar un intervalo de confianza del 99%, examine el ejemplo 8.2.
8.4
ejem
8.5
lacio
medi
das?
8.6
dee!
11.0(
Apli
ASISTE
de PH '
torcc
cione
de pi
a! eat<
turac
a.
Para ver el efecto de usar un intervalo de confianza del99%, examine el ejemplo 8.2.
EJEMPLO 8.2
SOLUCI6N Usando Ia ecuaci6n (8.1) de la pagina 241, con Z = 2.58 para un nivel de confianz8
del99%,
c,
de
un
b. C<
el
c. i,I
!at
----- - -
243
-I
Aprendizaje basico
8.1 SiX= 85, cr = 8 y n = 64, construya una estima-
L-------'
8.2 SiX= 125, cr = 24 y n = 36, construya una estimaci6n de intervalo de confianza del 99% para Ia
media poblacional de !l
.
ASISTENCIA
de PH Grade
8.5 De los resultados del ejemplo 8.1, en Ia pagina 242, en relaci6n con Ia producci6n de papel, j,es verdad que el 95% de las
medias de Ia muestra caeran entre 10.99408 y 11.00192 pulgadas? Explique su respuesta.
8.6 En el ejemplo 8.1 de Ia pagina 242, j,es cierto que no puede estar seguro si Ia media poblacional esta entre 10.99408 y
11.00192 pulgadas? Explique su respuesta.
Aplicaci6n de conceptos
ASISTENCIA 8.7 El gerente de una tienda de articulos para pintar
quiere estimar Ia cantidad real de pintura contenida
en latas de 1 gal6n compradas con las de un productor conocido a nivel nacional. Se sabe, a partir de las especificaciones del fabricante, que Ia desviaci6n estandar de Ia cantidad
de pintura es igual a 0.02 gal6n. Se selecciona una muestra
aleatoria de 50 latas y Ia media muestral de Ia cantidad de pintura contenida en una lata es de 0.995 por gal6n.
a. Construya una estimaci6n de intervalo de confianza del 99%
de Ia media poblaciona1 cantidad de pintura contenida en
una lata de 1 ga16n.
b. Con base en sus resultados, i,Cree usted que el gerente tiene
el derecho de quejarse con el fabricante? i,Por que?
c. i,Debe suponerse que la poblaci6n cantidad de pintura por
lata se distribuye normalrnente? Explique su respuesta.
de PH Grade
8.2
c. i,Debe suponerse que la vida de la poblaci6n de focos se distribuye normalrnente? Explique por que.
d. Suponga que Ia desviaci6n estandar cambia a 80 horas.
i,Cuales son sus respuestas para los incisos a) y b)?
de PH Grade
Distribuci6n t Student
AI comenzar el siglo XX, un especialista en estadistica de la Guinness Breweries en Irlanda (vea la
referencia 3) Ilamado WilliamS. Gosset deseaba hacer inferencias acerca de Ia media cuando Ia cr
fuera desconocida. Como a los empleados de Guinness no se les permitia publicar el trabajo de in-
--- -------.. . . .
244
X-f.!
t=--
Fn
Esta expresi6n tiene la misma forma que el estadistico Zen la ecuaci6n (7.4) de la pagina 211, con
la excepci6n de que Sse usa para estimar la cr desconocida. El concepto de grados de libertad se explica mas adelante en Ia pagina 245.
Propiedades de Ia distribuci6n t
En apariencia, la distribuci6n t es muy similar a la distribuci6n normal estandarizada. Ambas distribuciones tienen forma de campana. Sin embargo, Ia distribuci6n t tiene mayor area en los extremos
y menos en el centro, a diferencia de la distribuci6n normal (vea la figura 8.4). Puesto que el valor
de cr es desconocido, y se emplea S para estimarlo, los valores t son mas variables que los valores Z.
FIGURA 8.4
Distribuci6n
estandarizada normal y
distribuci6n t para 5
grados de libertad .
F
D
gr
Normal estandarizada
Distribuci6n t
para 5 grados
de libertad
TABLA 8.1
Determinacion del valor
critico de Ia tabla t para
un area de 0 .025 en
cada cola con 99
grades de libertad.
245
.25
.10
.05
.01
.005
1
2
3
4
5
1.0000
0.8165
0.764"9
0.7407
0.7267
3.0777
1.8856
1.6377
1.5332
1.4759
6.3138
2.9200
2.3534
2.1318
2.0150
31.8207
6.9646
4.5407
3.7469
3.3649
63.6574
9.9248
5.8409
4.6041
4.0322
96
97
98
0.6771
0.6770
0.6770
6.6796
0.6770
1.2904
1.2903
1.2902
i.2962
1.2901
1.6609
1.6607
1.6606
1.6664
1.6602
100
1. 850
1. 847
1. 45
11.98421
1.9840
2.3658
2.3654
2.3650
2.3646
2.3642
2.6280
2.6275
2.6269 .
2.6264
2.6259
FIGURA 8.5
Distribuci6n t para 99
grades de libertad.
tg9
""'
-z
.L.. (X;- X)
i=l
Para calcular SZ, primero necesita conocer X Por lo tanto, solo n - 1 de los valores de Ia muestra son libres de variar. Esto significa que tiene n - 1 grados de libertad. Por ejemplo, suponga que
una muestra de cinco valores tiene una media de 20. ~Cuantos_yalores requiere conocer antes de poder deterrninar los valores restantes? EI hecho de que n = 5 y X= 20 tambien indica que
n
LX; = 100
i=l
yaque
n
L X;
i=l ,
=X
En consecuencia, cuando se conocen cuatro de los valores, el quinto no sera libre de variar porque Ia
suma debe ser igual a 100. Por ejemplo, si cuatro de los valores son 18, 24, 19 y 16, el quinto valor
debe ser 23 para que Ia suma sea igual a 100.
246
X tn-1
..Jn
E
(8.2)
donde tn-1 es el valor critico de 1a distribuci6n t conn- 1 grados de libertad para un area de aJ2
en Ia cola superior.
Para ilustrar Ia aplicaci6n de Ia estimaci6n del intervalo de confianza para Ia media cuando Ia
desviaci6n estandar cr es desconocida, regrese al escenario "Uso de Ia estadistica" de Ia empresa de
remodelaciones Saxon, de Ia pagina 238. Seleccione una muestra de 100 facturas de Ia poblaci6n
de facturas de ventas durante el mes; Ia media de Ia muestra de las 100 facturas de ventas es de
$110.27, con una desviaci6n estandar de $28.95. Para un nivel de confianza del95%, el valor criti
co derivado de Ia distribuci6n t (como se muestra en Ia tabla 8.1) es de 1.9842. AI emplear Ia ecua
cion (8.2),
T)l
Fu
rec
el .
Xtn-l..Jn
= 110.27 (1.9842)
-y100
= 110.27 5.74
FIGURA 8.6
Hoja de trabajo de
Excel para calcular una
estimaci6n del intervale
de confianza para Ia
media de Ia cantidad
de facturas de ventas
para Ia empresa de
remodelaciones Saxon.
A
1
2
3
4
5
6
Data
Sample Standard Deviation
!Sample Mean
!Sample Size
7 :confidence Level
FIG
Estir
del i
28.95
110.27
100
95%
conf
8
9
Intermediate Calculations
10 !Standard Error of the Mean
11 Degrees of Freedom
12 t Value
13 Interval Half Width
14
-15 1
Confidence Interval
16 llnterval Lower Limit
17 Interval Upper Limit
dec
2.8950
99
1.9842
5.7443
104.53
116.01
=841RAIZ(86)
=86 -1
=DISTR.T INV.(1-B7,B11)
=812 * 810
=85 -813
=85+ 813
requ
los a
247
Asi, con un nivel de confianza del 95%, usted concluye que Ia cantidad media de las facturas de
ventas esta entre $104.53 y $116.01. El nivel de confianza del95% indica que si selecciona todas las
muestras posibles de 100 (algo que nunca se hace en Ia pnictica), el95% de los intervalos desarrollados incluirian Ia media poblacional en alg(m Iugar dentro del intervalo. La validez de esta estimaci6n del intervalo de confianza depende de Ia suposici6n de Ia normalidad de Ia distribuci6n de Ia
cantidad de las facturas de ventas. Con una muestra de 100, Ia suposici6n de normalidad noes demasiado restrictiva y posiblemente es adecuado el uso de Ia distribuci6n t. El ejemplo 8.3 ilustra como se construye el intervalo de confianza para Ia media cuando Ia desviaci6n estandar de Ia poblaci6n es desconocida.
EJEMPLO 8.3
TABLA 8.2
Fuerza (en Iibras)
requerida para romper
el aislante.
1,870
1,866
1,820
1,728
1,764
1,744
1,656
1,734
1,788
1,610
1,662
1,688
1,634
1,734
1,810
1,784
1,774
1,752
1,522
1,550
1,680
1,696
1,756
1,810
1,592
1,762
1,652
1,662
1,866
1,736
SOLUCION La figura 8.7 muestra que Ia media muestral esX= 1,723.4libras y Ia desviaci6n estandar es S = 89.55 Iibras. AI utilizar Ia ecuaci6n (8.2) de Ia pagina 246 para construir un intervalo
de confianza, se requiere determinar el valor critico a partir de Ia tabla t para un area de 0.025 en
cada_s:ola con 29 grados de libertad. En Ia tabla E.3, se observa que t29 = 2.0452. Asi, al considerar
que X= 1,723.4, S= 89.55, n = 30 y t29 = 2.0452,
= 1,723.4 (2.0452)
v30
= 1,723.4 33.44
1,689.96 s;
).l.
s; 1,756.84
FIGURA 8.7
Estimaci6n en Minitab
del intervale de
confianza para Ia media
de cantidad de fuerza
~equ~rida para romper
os arslantes electricos.
One-Sample T: Force
Va~iable
Fo~ce
N
30
89.55
16.35
95% CI
(1689.96, 1756.84)
Usted concluye con un nivel de confianza del95% que Ia fuerza media requerida para 1a poblaci6n de aislantes esta entre 1,689.96 y 1,756.84libras. La validez de esta estimaci6n del intervalo de
confianza depende de Ia suposici6n de que Ia fuerza requerida se distribuye normalmetite. Sin embargo, recuerde que es factible relajar ligeramente esta suposici6n cuando trabaja con muestras de
- -------.. . . .
248
FIGURA 8.8
Grafica de probabilidad
normal de Minitab para
Ia cantidad de fuerza
requerida para romper
los aislantes electricos.
9S
t--------:-----
--~-
I
I
I
I
I
I
I
I
I
I
I
: t~~~~~:j~~~~~~~t~~~~~~i~~~~~~j~~~~~~~t~:~~:~jjt~~~~~t~::~~~i
I
1~ r~j~~~~~~~~J!i~~~~~.~j~~j=~~~~~~=~=~~~=~=~jj1
s.o
s
I
I
I
I .
I
I
I
I
I
I
I
I
I
I
I
I
1500
1600
1700
I
I
I
I
I
I
I
I
I
I
I
1
1800
1900
Force
FIGURA 8.9
Grafica de caja y bigote
de Minitab para Ia
cantidad de fuerza
requerida para romper
los aislantes electricos.
Bo~<plot of Force
ra
lo
cc
ca
ti
pr
or
In
1500
1600
1700
Force
1800
1900
su.
co:
de
po
mi.
(Er
De
20(
a.
b.
c.
Aprendizaje basico
a.
b.
c.
d.
e.
1 - a = 0.95, n =
I -a= 0.99, n =
I -a= 0.95, n =
I -a= 0.95, n =
I- a= 0.90, n =
ASISTENCJA
10.
10.
32.
65.
16.
new
ros 1
lllU)
de 1<
mati
duac
con
enp;
Una
derc
Prod
8.14 Construya un intervalo de confianza del 95% para la media poblacional, basado en los numeros 1, 2, 3, 4, 5, 6 y 20.
Cambie el n1lmero 20 por el 7 y recalcule el intervalo de confianza. Usando estos resultados, describa el efecto de un valor
atipico (es decir, un valor extremo) en un intervalo de confianza.
Aplicaci6n de conceptos
Puede resolver los problemas B. 15 a 8.22 con o sin
Excel, Minitab o SPSSS. Debe usar Excel, Minitab o
SPSS para resolver el problema 8.23.
1 AlJTO 8.15 El propietario de una papeleria deV Examen sea estimar la media del valor al menudeo
de las tarjetas de felicitacion que la tienda
tiene en su inventario. Una muestra aleatoria de 20 tarjetas de
felicitacion indica una media de valor de $1.67 y una desviacion esuindar de $0.32.
a. Suponiendo una distribucion normal, construya una estimacion del intervalo de confianza del 95% para la media del
valor de todas las tarjetas de felicitacion en el inventario de
Ia tienda.
b. ,Como podrian ser utiles los resultados del inciso a) para
ayudar a! duefio de la tienda a estimar el valor total de su inventario?
ASISTENCIA
de PH Grade
8.16 El hospital Southside en Bay Shore, de Nueva York, generalmente lleva a cabo pruebas de estres para estudiar el museuto cardiaco despues de que una persona ha sufrido un ataque al
corazon. Los miembros del departamento de imagen diagnostica dirigen un proyecto de mejorarniento para tratar de reducir el
tiempo de procesarniento de las pruebas de estres. El tiempo de
procesamiento se define como el tiempo que pasa desde que se
ordena la prueba basta que el radiologo firma los resultados.
Inicialmente la media del tiempo de procesarniento para los resultados de una prueba de estres era de 68 horas. Despues de incorporar cambios al proceso de pruebas de esfuerzo, el equipo
de mejoramiento de calidad recolecto una muestra de 50 tiempo~ de procesamiento. En esta muestra, la media de procesamiento fue de 32 horas con una desviacion esuindar de 9 horas
(Eric Godin, Dennis Raven, Carolyn Sweetapple y Frank R.
Del Guidice, "Faster Test Results", Quality Progress, enero de
2004, 37(1):33-39).
a. Construya un intervalo de confianza del 95% para la media
poblacional del tiempo de procesarniento.
b. lnterprete el intervalo construido en el inciso a).
c. i,Cree que el proyecto de mejorarniento de calidad fue exitoso? Explique por que.
ASISTENCIA
249
n = 18 reporta una media muestral de indice de banda de rodamiento de 195.3 y una desviacion estandar de 21.4.
a. Suponiendo que la poblacion de indices de banda de rodamiento se distribuye normalmente, construya una estimacion del intervalo de confianza de Ia media poblacional del
indice de rodarniento para neumaticos hechos por este fabricante bajo esta marca.
b. ,Cree que la organizacion de consumidores deberia acusar
al fabricante de producir neumaticos que no cumplen con la
informacion de desempefio proporcionada en la pared interna del neumatico? Explique su respuesta.
c. Explique por que un indice de rodarniento observado de 210
para un neumatico especifico es usual, aun cuando esui fuera del intervale de confianza desarrollado en el inciso a).
20 20 21
25 25 22
22 25 25
30 30 30
18 25 15 20
15 20 29
cosn
12 8
5 0
5 5 6
10 6 9
6
12
10
0
lO
5
9 7 lO 7 7
10
54 5 35
11 19 126
12 4 165
13
lO
33
68
137 31
110 110
32 29
27
4
5
27
29
28
52
152 2
61 35
29 26
30 22
123 81 74 27
94 31 26 5
25
1 14 13
36 26 20 23
250
8.21 En el estado de Nueva York se permite a Ia banca de ahorro vender un seguro de vida llamado Savings Bank Life Insurance (SBLI). El proceso de aprobacion consiste en suscribir, lo
que incluye revisar la solicitud, realizar un control del centro de
informacion medica, realizar posibles peticiones para informacion medica adicional y examenes medicos, y una fase de compilacion de poliza, donde las paginas de Ia poliza se generan y
se envian al banco para su entrega. Para el banco, Ia capacidad
de entrega oportuna de las polizas aprobadas a los clientes es
esencial para Ia rentabilidad de este servicio. Se selecciono una
muestra aleatoria de 27 polizas aprobadas durante el periodo de
1 mes INSURANCE y el tiempo de procesamiento total en elias
registrado :
73 19 16 64 28 28 31 90 60 56 31 56 22 18
45 48 17 17 17 91 92 63 50 51 69 16 17
a. Construya una estimacion del intervalo de confianza del
95% de la media del tiempo de procesamiento.
b. t,Que suposicion debe hacerse acerca de Ia distribucion de Ia
poblacion en el inciso a)?
c. l, Cree que Ia suposicion hecha en el inciso b) es infringida
seriamente? Explique su respuesta.
Hotel
Automoviles
205
179
185
210
128
145
177
117
221
47
41
49
38
32
48
49
41
56
Ciudad
St. Louis
New Orleans
Detroit
Cleveland
Atlanta
Orlando
Miami
Pittsburgh
Boston
New York
Washington D.C.
Hotel
Automoviles
159
205
128
165
180
198
158
132
283
269
204
41
50
32
34
46
41
40
39
67
69
40
FI G
Hoj<
ExcE
estir
dec
8.3
pro~
de v
cont
251
pZ~p(1~ p)
0
(8.3)
donde
= proporci6n
tr
e 1a roues a =
1t = proporci6n de Ia poblaci6n
pZ~p(I~ p)
=0.10 (1.96)
(0.10)(0.90)
100
=0.10 (1.96)(0.03)
=0.10 0.0588
0.04I2
~ 1t ~
0.1588
Asi, usted tiene un nivel de confianza del 95% de que entre el4.I2 y el I5 .88% de todas las facturas
de ventas contienen errores. La figura 8.10 muestra una hoja de trabajo de Excel para estos datos,
mientras que la figura 8.11 ilustra un resultado de Minitab.
FIGURA 8.10
Hoja de trabajo de
Excel para formar una
estimaci6n del intervale
de confianza para Ia
proporci6n de facturas
de ventas que
contienen errores.
)
rt.
la
a-
A
B
1 Proportion of In-Error Sales Invoices
2
Data
4 Sample Size
5 !Number of Successes
6 Confidence Level
7
Intermediate Calculations
B
9 Sample Proportion
10 ZValue
11 Standard Error of the Proportion
12 Interval Half Width
0.1
-1 .9600
0.03
0.0588
13
Confidence Interval
14
15 Interval Lower Limit
16 Interval Upper Limit
0.0412
0.1588
100
10
95%
=85184
=DISTR.NORM.ESTAND.INV((1- 86)12)
=RAIZ(89 (1 - 86)184)
=A8S(810 811)
=89 -812
=89 - 812
252
Sample
1
X
N Sample p
10 100 0.100000
95% CI
(0.041201, 0.158799)
Ol
re
cc
a.
El ejemplo 8.4 ilustra otra aplicacion de Ia estimacion del intervalo de confianza para la proporcion.
b.
8..
EJEMPLO 8.4
SOLUCION
cu
qu
el
ke1
ve
a.
b.
p
pZ~p(1:p)
~----
= 0.175
(1.645)
(0.175)(0.825)
200
8.~
ViB:
hot
que
Ia e
a. '
I
= 0.175 (1.645)(0.0269)
b.
= 0.175 0.0442
0.1308 :;:;
1t :;:;
0.2192
c. i
Usted concluye con un 90% de confianza que entre el13.08 y el21.92% de los periodicos impresos
en el dia tienen alglin defecto.
8.2'
dos
en u
cuar
La ecuacion (8.3) contiene un estadistico Z ya que se puede usar la distribucion normal para
aproximar la distribucion binomial cuando el tamaiio de Ia muestra es lo suficieritemente grande. En
el ejemplo 8.4, el intervalo de confianza usando Z proporciona una excelente aproximacion para la
proporcion de Ia poblacion porque tanto X como n -X son mayores que 5. Sin embargo, si no s.e
tiene un tamaiio de muestra lo suficientemente grande, entonces se deberia usar Ia distribuci6n bJ
nomial en Iugar de Ia ecuacion (8.3) (vea las referencias 1, 2 y 7). Fishery Yates (vea la referencia_2)
han tabulado intervalos de confianza exactos para diferentes tamaiios de muestras y para proporcJO
nes de exitos, y pueden calcularse con Mini tab.
cios
vici1
con!
nob
de d
rnsn
a, C
c:
Ci
d1
b, Ir
~
~
Aprendizaje basico
8.24 Si n = 200 y X= 50, construya una estimacion
'-------'
t __
___J
n
8.25 Sin= 400 y X= 25, construya una estimacJO
or
del intervalo de confianza del 99% para la proP
cion de Ia poblacion.
se lie
Iulan
------.........,.
8.3: Estimaci6n del intervalo de confianza para una proporci6n
Aplicaci6n de conceptos
ASISTENCIA
1 AUTO 8.26 Una empresa telef6nica desea estiV Examen mar Ia proporci6n de hogares en los que
se contrataria una linea telef6nica adicional. Se seleccion6 una muestra-aleatoria de 500 hogares. Los
resultados indican que a un costo reducido, 135 de los hogares
contratarian una linea telef6nica adicional.
a. Construya una estimaci6n del intervalo de confianza del
99% de la proporci6n poblacional de hogares que contratarian una linea telef6nica adicional.
b. i, Como podria el gerente a cargo de los programas promocionales relacionados con los clientes residenciales, usar los
resultados del inciso a)?
de PH Grade
8.27 De acuerdo con el Center for Work-Life Policy, una encuesta realizada con 500 mujeres con altos niveles educativos
que abandonaron sus carreras por razones familiares, indic6 que
el 66% de elias deseaban regresar al trabajo (Anne Marie Chaker y Hillary Stout, "After Years Off, Women Struggle to Revive Careers", The Wall Street Journal, mayo 6, 2004, A1).
a. Construya un intervalo de confianza del 95% para Ia proporci6n poblacional de mujeres con altos niveles educativos
que abandonaron sus carreras por razones familiares y que
desean regresar al trabajo.
b. Interprete el intervalo en el inciso a).
' que
no t~nian el suficiente tiempo para ser buenos administradores
de dmero (" Seniors Confused by Financial Choices-Study"
lllsnbc.com, mayo 6, 2004).
'
a. ~~nstruya un intervalo de confianza del 95% para Ia propor. Cion poblacional de consumidores de edad avanzada que
creen no tener tiempo suficiente para ser buenos administradores de dinero.
b. Interprete el intervalo en el inciso a).
~ 515 TENCIA
e PH Grade
253
8.32 La unidad Clinique de los cosmeticos Estee Lauder realiz6 una encuesta entre mujeres trabajadoras en Norteamerica.
De 1,000 mujeres encuestadas, el55% pensaba que las empresas deberian reservar los puestos durante seis meses o menos
para aquellas con permiso de maternidad, y el45% consideraba
que deberian reservar sus puestos durante mas de seis meses
("Work Week", The Wall Street Journal, 11 de septiembre,
2001, A1).
a. Construya un intervalo de confianza del 95% para la proporci6n de las mujeres trabajadoras en Norteamerica quienes
creen que las empresas deberian reservar los puestos durante seis meses o menos para aquellas con permiso de matemidad.
b. Interprete el intervalo construido en a).
8.33 Un gran numero de empresas tratan de reducir el costo de
los medicamentos prescritos, solicitando a sus empleados que los
compren a traves de un programa obligatorio de orden por
correo. En una encuesta realizada entre 600 empleados, 126 indicaron que tienen un programa obligatorio de orden por
correo, o bien, adoptarian uno para fines de 2004 (Barbara Martinez, "Forcing Employees to Buy Drugs Via Mail", The Wall
Street Journal, 18 de febrero, 2004, D1).
a. Construya un iniervalo de confianza del 95% para la proporci6n de la poblaci6n de empleados que tienen un programa
obligatorio de orden por correo o que adoptarian uno para finales de 2004.
b. Construya un intervalo de confianza del 99% para la proporci6n de Ia poblaci6n de empleados que tienen un programa
ob1igatorio de orden por correo o que adoptarian uno para finales de 2004.
c. lnterprete los intervalos en los incisos a) y b).
d. Discuta el efecto en la estimaci6n del intervalo de confianza
al modificar el nivel de confianza.
254
8.4
1En
La cantidad sumada o sustraida de Xes igual a la mitad de la amplitud del intervalo. Esta cantidad representa la cantidad de imprecision en la estimaci6n que resulta del error de muestreo. El
error de muestreo 1 e se defme como
e=z_!!_
Fn
Al resolver n se obtiene el tamafio de muestra necesario para construir una estimacion del intervalo
de confianza adecuado para la media. "Adecuado" significa que el intervalo resultante tendra una
cantidad aceptable de error de muestreo.
Fl
HI
E>
el
P<
de
P<
re
En algunas relaciones de negocio a negocio que requieren de la estimacion de parametros importantes, los contratos legales son los que especifican los niveles de error aceptables y el nivel de confianza
requerido. Para las empresas del sector alimentario o medicinal, las regulaciones gubemamentales a
menudo especifican los errores de muestreo y los niveles de confianza. En general, sin embargo, no
es tan facil especificar los dos factores necesarios para determinar el tamafio de Ia muestra. l,C6rno
se determina el nivel de confianza y el error de muestreo? Por lo general, solo por un experto en la
materia (es decir, el individuo mas fainiliarizado con las variables estudiadas) es quien responde
a estas preguntas. Aunque el 95% es el nivel de confianza mas usado, si desea mayor confianza, entonces el 99% podria ser mas adecuado; si considera aceptable un menor nivel de confianza, entonces podria usar el 90%. Para el error de muestreo no deberia pensar que tanto error de muestreo Ie
E.
255
gustaria tener (usted no desea realmente tener errores), sino que tanto podria tolerar a! sacar las conclusiones de estos datos.
Ademas de especificar el nivel de confianza y el error de muestreo, usted requiere una estimacion de Ia desviaci6n estandar. Por desgracia, rara vez conoce Ia desviacion estandar poblacional cr.
En algunas ocasiones es posible estimar Ia desviacion estandar a partir de datos pasados. En otras situaciones, puede hacer una cuidadosa conjetura tomando en cuenta el rango y Ia distribucion de Ia
variable. Por ejemplo, si supone que hay una distribuci6n normal, el rango es aproximadamente
igual a 6 cr (es decir, 3cr alrededor de Ia media), por lo que puede estimar cr como el rango dividido
por 6. Si no es posible estimar Ia cr de esta forma, tiene Ia opcion de llevar a cabo un estudio a pequefia escala y estimar Ia desviacion estandar a partir de los datos resultantes.
Para investigar como deterrninar el tamafio de Ia muestra necesario para Ia estimacion de Ia media poblacional, vuelva a considerar Ia auditoria de Ia empresa de remodelaciones Saxon. En Ia
seccion 8.2, usted seleccion6 una muestra de 100 facturas de ventas y desarrollo una estimacion del
intervalo de confianza del 95% de Ia media poblacional de Ia cantidad registrada en las facturas
de ventas. l,Como determino este tamafio de muestra? l,Deberia haber seleccionado un tamafio de
muestra diferente?
Suponga que, despues de consultar con los funcionarios de Ia empresa, determina que desea un
error de muestreo no mayor a $5, junto con un nivel de confianza del 95%. Los datos pasados indican que Ia desviaci6n estandar de Ia cantidad de ventas es aproximadamente de $25. Entonces, e =
$5, cr = $25 y Z = $1.96 (para un nivel de confianza del 95% ). AI utilizar Ia ecuacion (8.4),
Z 2cr 2
(1.96) 2 (25) 2
n = - - = -'-----'--:---'-e2
(5)2
= 96.04
Como Ia regia general es satisfacer ligeramente de mas el criterio redondeando el tamafio de la muestra hacia arriba hasta el siguiente nfunero entero, usted deberia seleccionar un tamafio de muestra de
97. Asi pues, el tamafio de Ia muestra 100 considerado en Ia pagina 246 se acerca a lo requerido para
satisfacer las necesidades de Ia empresa con base en Ia estimaci6n de Ia desviaci6n estandar, el nivel
de confianza deseado y el error de muestreo. Puesto que Ia desviacion estandar calculada es ligeramente mayor a Ia esperada, $28.95 comparada con $25.00, el intervalo de confianza es ligeramente
mas amplio que el deseado. La figura 8.12 ilustra una hoja de trabajo de Excel usada para determinar el tamafio de Ia muestra.
FIGURA 8.12
Hoja de trabajo de
Excel para determinar
el tamafio de Ia muestra
para Ia estimaci6n de Ia
media de Ia cantidad
de ventas facturadas
para Ia empresa de
remodelaciones Saxon.
8
A
1 For the Mean Sales Invoice Amount
2
I
Data
3
25
4 Population Standard Deviation
5
5 Sampling Error
95%
6 Confidence Level
71
8 1
lntemediate Calculations
-1.9600
9 iZYalue
96.0365
10 Calculated Sample Size
11
12
Result
97
13 1Sample Size Needed
NORMSINV((1 86)12)
((89 * 84}/85)"2
ROUNDUP(810, 0}
El ejemplo 8.5 ilustra otra aplicacion de como deterrninar el tamafio de Ia muestra necesario para desarrollar un intervalo de confianza para Ia media.
----------EJEMPLO 8.5
P 91 r--.u_..,....,., o.T
"l~'11ii'"'
256
= 61.47
Por lo tanto, el tamaiio de Ia muestra que se debe seleccionar es de 62 aislantes, porque la regia general para determinar el tamaiio de !a muestra es siempre redondear bacia arriba al siguiente valor
entero para satisfacer ligeramente de mas el criterio deseado.
Obtendremos un error de muestreo realligeramente mayor que 25 si Ia desviaci6n estandar de
la muestra calculada en esta muestra de 62 es mayor a 100, y ligeramente menor si la desviaci6n estandar de Ia muestra es menor a 100.
e=z.!!_
.j;,
e=
z~rt(l: rt)
AI resolver n usted obtiene el tamaiio de Ia muestra necesario para desarrollar Ia estimaci6n del intervalo de confianza para Ia proporci6n.
e al cuadrado.
(8.5)
FiGl
Para determinar el tamaiio de Ia muestra debe conocer tres factores:
1. El nivel de confianza deseado, que determina el valor de Z, el valor critico para Ia distribuci6n
normal estandarizada.
2. El error de muestreo e aceptable.
3. La proporci6n poblacionalrt.
En la practica, seleccionar estas cantidades requiere de cierta planeaci6n. Una vez que determine el
nivel de confianza deseado, podra encontrar el valor Z adecuado para Ia distribuci6n normal estaJI
darizada. El error de muestr~o e iJ;ldica Ia cantidad de error que esta dispuesto a tolerar al estimar Ia
Hoja ,
Excel
el tarr
rnues1
Ia pro
factur;
errore
de ren
Saxon
--
------------ -- -
257
proporci6n poblacional. La tercera cantidad 1t jes en realidad el panimetro poblacional que desea estimar! Entonces, l,C6mo se establece un valor para el misri::w objeto del que estamos tomando una
muestra para poder determinarlo?
Tenemos aqui dos altemativas. En muchas situaciones se cuenta con informaci6n anterior o
experiencias relevantes que proporcionan una estimaci6n cuidadosa de 1t. 0, si no se cuenta con informaci6n anterior o experiencias relevantes, se trata de proporcionar un valor para 1t que nunca subestime el tamail.o de muestra necesario. Con referencia a Ia ecuaci6n (8.5), observe que la cantidad
1t(1 - 1t) aparece en el numerador. Por eso, se requiere determinar el valor de 1t que baga Ia cantidad 1t{l -1t) lomas grande posible. Cuando 1t = 0.5, el producto 1t(1 -1t) logra su resultado maximo.
Para mostrar esto, los valores de 1t junto con los productos que los acompafian de 1t(1 -1t) son como
sigue:
Cuando 1t = 0.9, entonces 1t(1
Cuando 1t = 0.7, entonces 1t(1
Cuando 1t = 0.5, entonces 1t(1
Cuando 1t = 0.3, entonces 1t(1
Cuando 1t = 0.1 , entonces 1t(1
Por lo tanto, cuando no se tiene conocimiento previo o una estimaci6n de Ia proporci6n poblacional1t, se deberia usar 1t = 0.5 para determinar el tamafio de Ia muestra. Esto produce el tamaii.o de
muestra mas grande posible y deriva en el mayor costo posible del muestreo. AI utilizar 1t = 0.5 podria sobreestimarse el tamaii.o de muestra necesario porque se usa Ia proporci6n de muestra real al
desarrollar el intervalo de confianza. Obtendra un intervalo de confianza mas estrecbo que el que
pretendia originalmente, si Ia muestra de Ia proporci6n real es diferente a 0.5. Una precisi6n mas alta deriva en tener que invertir mas tiempo y dinero para conseguir una muestra de mayor tamafio.
Volviendo al escenario de "Uso de Ia estadistica" de Ia empresa de remodelaciones Saxon, suponga que los procedimientos de auditoria requieren una estimaci6n de confianza del 95% de la proporci6n poblacional de las facturas de ventas con errores dentro de 0.07. Los resultados del roes anterior indican que Ia proporci6n mas grande ba sido de no mas de 0.15. De esta forma, usando Ia
ecuaci6n (8 .5) de la pagina 256 y e = 0.07, 1t = 0.15 y Z= 1.96 para el95% de confianza,
Z 21t(1- 1t)
n = ----'--____:_
e2
- (1.96) 2 (0.15)(0.85)
(0.07) 2
= 99.96
Como la regia general es redondear el tamafio de Ia muestra bacia arriba basta el siguiente entero para satisfacer ligeramente de mas el criterio, se necesita un tamafio de muestra de 100. Entonces, el
tamafio de la muestra necesario para satisfacer los requerimientos de la empresa con base en la estimaci6n de la proporci6n, el nivel de confianza deseado y el error de muestreo es igual al tamaii.o de
la muestra tornado en la pagina 251. El intervalo de confianza real es mas reducido que el que se requiere puesto que Ia proporci6n es 0.10, mientras que se us6 0.15 para 1t en la ecuaci6n (8.5). La figura 8.13 muestra una boja de trabajo de Excel.
FIGURA 8.13
Hoja de trabajo de
Excel para determinar
el tamafio de Ia
~uestra para estimar
fa proporci6n de
acturas de ventas con
~rrores de Ia empresa
e remodelaciones
Saxon.
j
A
B
1 For the Proportion of In-Error Sales Invoices
2
I
Data
3
5
6
7
B
9
10
11
12
13
0.15
0.07
95'!1.
Intermediate Calculations
ZYalue
'
-1.9600
99.9563
NORMSINV((1 86)12)
(B9A2 B4 (1 84))/BSA-2
I
Result
Semple Size Needed
100
ROUNDUP(B10, 0)
'
25 8
El ejeinplo 8.6 proporciona una segunda aplicacion para determinar el tamailo de lamuestra para la estimacion de la proporcion poblacional.
EJEMPLO 8.6
8
la
Usted desea tener un 90% de confianza al estimar la proporcion de oficinistas que responden su correo electronico dentro de una hora hasta dentro 0.05 . Como nose ha realizado un estudio previo,
no existe informacion disponible de datos pasados. Determine el tamailo de la muestra necesario.
C(
fi(
t8
tr;
SOLUCION Puesto que no hay informacion disponible de datos pasados, suponga que 1t = 0.50.
Use la ecuacion (8.5) de la pagina 256 y e = 0.05, 1t = 0.50 y Z = 1.645 para un 90% de confianza,
8.
0(
n=
(1.645) 2 (0.50)(0.50)
~-.....:....-'----,-'-'---'-
te.
df
lit
Sc
0.
Pr
(0.05)2
= 270.6
De manera que se necesita una muestra de 271 oficinistas para estimar la proporcion de la poblaci6n
dentro de 0.05 con un 90% de confianza.
!hi
no
es;
I [)~@[SCW&ill :?&~&
'------ -- - - - - - - - - - - - - - - - - - - - - - - - - - - - -'--- - - - - - - - - - -
se:
de
na
a.
Aprendizaje basico
b.
c.
ASISTENCIA
8.37 ~Que tamafio de muestra se requiere si se desea tener un nivel de confianza del95% en la estimacion de la media poblacional con un error de muestreo de 0.02, mientras que existe una evidencia historica de
que la proporcion poblacional es aproximadamente de 0.40?
'--- - - - '
Aplicaci6n de conceptos
1 AUTO 8.38 Se planea realizar una encuesta para determiV Examen nar la media anual de los gastos medicos familiares
de los empleados de una gran empresa. El gerente
desea tener un nivel de confianza del95% en que la media de la
muestra este correcta con $50 de la poblacion de media anual
de gastos medicos familiares. Un estudio previo indica que la
desviacion estandar es aproximadamente de $400.
a. ~Que tan grande necesita ser el tamafio de la muestra?
b. Si el gerente desea estar correcto con $25, ~que tamafio de
muestra necesita?
8.
u~
cit
du:
est
a.
b.
c.
d.
8.4
Uti1
con
a.
259
8.48
- - --
- -- -- - - - --
260
--
8.5
II
p:
dis
ern
RESUMEN
En este capitulo se explic6 la estimacion de los intervalos de
confianza para las caracteristicas de una poblacion, asi como Ia
determinacion del tamafio de Ia muestra. Usted aprendio como
un contador de la empresa de remodelaciones Saxon puede usar
los datos de una auditoria para estimar parametros poblaciona-
Re
8.5
con:
tica:
Tipo de datos
TABLA 8.3
Resumen de temas en
el capitulo 8.
Tipo de amilisis
Numericos
Categ6ricos
Intervalo de confianza
para un parametro
poblacional
8.5
cion
8.5:
mue
por i
8.5~
estin
Para determinar que ecuacion es conveniente emplear en una
situacion especifica, usted necesita hacerse varias preguntas:
8.5~
tico c
liber
8.55
deter
0.20
Apli
FORMULAS IMPORTANTES
Intervalo de confianza para Ia media (cr conocida)
XZ
Fn
(8.1)
Puec
C)(cE
Sf'Ss
8.56
tiow,
13 de
- -- -
Problemas de repaso
X tn-1
.[,;
tn-1 .[,;
261
(8.2)
X-
--- ----..-""""'-
:5 ll :5 X+
tn-1 .[,;
e2
z)
=Z
1t(1- 1t)
e2
(8.5)
CONCEPTOS CLAVE
distribucion t Student 244
error de muestreo 254
PROBLEMAS DE REPASO
Revision de su comprensi6n
8.50 l,Por que nunca podemos realmente tener un nivel de
confianza del 100% en la estimacion correcta de las caracteristicas de la poblacion de interes?
8.51 l,Cmindo se usa la distribucion t al construir la estimacion del intervalo de confianza para la media?
8.52 l,Por que es cierto que para un determinado tamafio de
muestra n se logra un incremento en la confianza al ampliar (y,
par Io tanto, hacer menos preciso) el intervalo de confianza?
8.53 l,Cmindo se usa Ia distribucion normal para construir una
estimacion de confianza para Ia media?
8.54 Para un nivel de confianza dado, wor que es el valor critico de t menor para 80 grados de libertad que para 20 grados de
libertad?
8.55 l,Por que es menor el tamafio de muestra necesario para
determinar la proporcion cuando la proporcion poblacional es
0.20 que cuando es 0.50?
Aplicaci6n de conceptos
~Uede resolver los problemas 8.56 a 8.70 con o sin
Xcel, Minitab o SPSS. Debe usar Excel, Minitab o
SPss para resolver los problemas 8.71 a 8.74.
~ 5 6
8.57 En la actualidad, las empresas pasan mas tiempo analizando a los aspirantes que antes. Un resultado de este proceso
de estudio mas exhaustivo es que las compafiias encuentran que
muchos aspirantes exageran la verdad en sus solicitudes. Un estudio realizado por Automatic Data Processing encontro incongruencias entre el aspirante y sus empleadores anteriores en el
44% de las solicitudes analizadas. Por desgracia, el articulo no
revelo el tamafio de la muestra usada en el estudio (Stephanie
Armour, "Security Checks Worry Workers", USA Today, 19 de
junio, 2002~ B1).
a. Suponga que se analizaron 500 solicitudes. Construya una
estimacion del intervalo de confianza del 95% paraIa proporcion poblacional de las solicitudes que contienen imprecisiones con respecto a los empleadores anteriores.
....
262
8
p
II
II
d:
Ia
ql
et
a.
b.
c.
8.
ni
de
diJ
no
pa:
te .
0(
rot
a.
b.
Su1
des
c.
d. '
e.
8.6.
Vel
diar
enfc
los<
mas
clier
q Problemas de repaso
8.63 El director de investigaci6n de mercado de la tienda departamental Dotty's desea estudiar los gastos de mujeres en cosmeticos. Se disefia una encuesta para estimar la proporci6n de
mujeres que compran sus cosmeticos principalmente en la tienda departamental Dotty's, y la media de la cantidad anual que
las mujeres gastan en cosmeticos. Una encuesta anterior mostr6
que Ia desviaci6n estandar de Ia cantidad que las mujeres gastan
en cosmeticos en un aiio es de aproximadamente $18.
a. ,Que tamaiio de muestra se necesita para tener un nivel de
confianza del 99% en Ia estimaci6n de Ia media poblacional con 5?
b. l, Que tamaiio de muestra se necesita para tener un nivel de
confianza del 90% en Ia estimaci6n de Ia proporci6n poblacional con 0.045?
c. Con base en los resultados de los incisos a) y b), j,Cuantos de
los clientes con tarjeta de credito de la tienda deben ser
muestreados? Explique su respuesta.
8.64 La gerente de una sucursal de una cadena de librerias a
nivel nacional desea estudiar las caracteristicas de los clientes
de su tienda. Ella decide enfocarse en dos variables: la cantidad de
dinero gastado por sus clientes y si los clientes considerarian o
no comprar videos educativos relacionados con Ia preparaci6n
para los examenes de graduaci6n tales como el GMAT (Graduate Management Admission Test), GRE (Graduate Record Exam)
o el LSAT (Law School Admission Test). Los resultados de una
muestra de 70 clientes so~ los siguientes:
Cantidad gastada:X= $28.52, S= $11.39.
28 clientes afmnaron que considerarian comprar los videos educativos.
a. Construya una estimaci6n del intervalo de confianza del
95% para Ia media poblacional de Ia cantidad gastada en Ia
libreria.
b. Construya una estimaci6n del intervalo de confianza del
90% de Ia proporci6n poblacional de clientes que considerarian comprar videos educativos.
Suponga que el gerente de sucursal de otra tienda de esa cadena
desea realizar una encuesta similar en su tienda.
c. (.Que tamaiio de muestra se necesita para tener un nivel de
confianza del95% al estimar Ia media poblacional de Ia cantidad gastada en su tienda con $2 si se supone que Ia desviaci6n estandar es de $1 0?
d. /,Que tamaiio de muestra se necesita para tener un nivel de
confianza del 90% en la estimaci6n de Ia proporci6n poblacional de quienes considerarian comprar los videos educativos con 0.04?
e. Con base en sus respuestas a los incisos c) y d), l,de que
tamaiio deberia ser Ia muestra que el gerente nec~sita considerar?
8.65 El gerente de sucursal de una tienda de distribuci6n anivet nacional de articulos para mascotas (tienda 1) desea estudiar las caracteristicas de sus clientes. Particularmente decide
enfocarse en dos variables: Ia cantidad de dinero gastado por
los clientes y si los clientes poseen solo un perro, solo un gato 0
m~s de un perro y/o gato. Los resultados de una muestra de 70
chentes son:
Cantidad de dinero gastado: X= $21.34, S = $9.22.
37 clientes solo poseen un perro.
26 clientes solo poseen un gato.
263
264
8.312
8.476
8.436
8.460
8.396
8.343
8.382
8.413
8.444
8.447
8.481
8.498
8.458
8.323
8.409
8.422
8.447
8.462
8.420
5.65 5.44 5.42 5.40 5.53 5.34 5.54 5.45 5.52 5.41
5.57 5.40 5.53 5.54 5.55 5.62 5.56 5.46 5.44 5.51
5.47 5.40 5.47 5.61 5.53 5.32 5.67 5.29 5.49 5.55
5.77 5.57 5.42 5.58 5.58 5.50 5.32 5.50 5.53 5.58
5.61 5.45 5.44 5.25 5.56 5.63 5.50 5.57 5.67 5.36
8.70 El fabricante de tablillas de asfalto "Boston" y "Vermont" ofrece a sus clientes una garantia de 20 afios en Ia mayo-
8.71 El productor de las tablillas de asfalto ''Boston" y "Vermont" sabe que el peso del producto es un factor importante
en Ia percepcion de calidad que tiene el cliente. La Ultima etapa en
Ia linea de ensamblaje empaca las tablillas antes de que sean
colocadas en paletas de madera. Una vez que Ia paleta esta llena (para casi todas las marcas, una paleta sostiene 16 cuadros
de tablillas ), es pes ada y se registra Ia medida. Los datos del archivo PALLET contienen el peso (en Iibras) de una muestra de
368 paletas de tablillas Boston y 330 paletas de tablillas Vermont.
a. Construya una estimaci6n del intervale de confianza del
95% de Ia media del peso para las tabWlas Boston.
b. Construya una estimacion del intervale de confianza del
95% de Ia media del peso para las tablillas Vermont.
c. Evalue si la suposicion necesaria para los incisos a) y b) se
ha infringido seriamente.
d. Con base en los resultados de los incisos a) y b), 1,a que conclusiones se llega respecto a Ia media del peso de las tablillas Boston y Vermont?
8.72 Zagat publica las clasificacimies de los restaurantes en
diferentes ciudades de Estados Unidos. El archivo de datos
RESTRATE contiene Ia clasificacion de Zagat para comida, decoracion y servicio, asi como el precio por persona de una
muestra de 50 restaurantes localizados en Ia ciudad de Nueva
York y 50 restaurantes localizados en Long Island, un suburbia
de Ia ciudad de Nueva York.
Fuente: Zagat Survey 2002 New York City Restaurants y Zagat surveY
2001 /2002 Long Island Restaurants.
I,
p:
rr
S\
Ia
fie
ri:
er
pr
1
5.
6.
7.
Caso actual
a. Construya una estimaci6n del intervalo de confianza del
95% para Ia media de la clasificacion comida, para Ia media
de la clasificacion decoracion, para Ia media de Ia clasificacion servicio y para Ia media del precio por persona.
b. i.,A que conclusiones se llega acerca de los restaurantes en Ia
ciudad de Nueva York y de Long Island a partir de los resultados en el inciso a)?
265
8.74 Remitase a! proyecto en equipo en Ia pagina 62. Construya todos los intervalos de confianza de las caracteristicas de Ia
poblacion de bajo riesgo, de riesgo promedio y de alto riesgo de
los fondos de inversion que sean apropiados. Incluya estas estimaciones en un reporte dirigido al vicepresidente de investigaci6n del servicio de inversion fmanciera. MUTUALFUNDS2004
.
.I
Frecuencia
352
54
Frecuencia
136
216
266
Tipo de suscripci6n
Frecuencia
Lunes a sabado
18
Domingos U.nicamente
25
Toda Ia semana
93
Frecuencia
78
95
Ocasionalmente o nunca
43
Frecuencia
138
2 o 3 domingos al mes
54
24
Frecuencia
Tienda de menudeo
74
95
Supermercado
13
13
Frecuencia
Si
46
No
170
l~&~@.'(!~~
. I
SH8
$4.15 3.60 4.10 3.60 3.60 3.60 4.40 3.15 4.00 3.75 4.00
3.25 3.75 3.30 3.75 3.65 4.00 4.10 3.90 3.50 3.75 3.00
3.40 4.00 3.80 3.50 4.10 4.25 3.50 3.90 3.95 4.30 4.20
3.50 3.75 3.30 3.85 3.20 4.40 3.80 3.40 3.50 2.85 3.75
3.80 3.90
Lee un peri6dico que no
es el Springville Herald
Si
No
Frecuencia
138
214
1.
2.
3.
4.
66
286
EJERCICIOS
SH8.1
21
Otras locaciones
Considerarian la suscripci6n de prueba
si ofrecen descuento
SH8.2
---- -------- -----~- .. - - - -----------~dos formas de pago de forma desigual y que muestran difeAplique su conocimiento sabre Ia estimaci6n del intervalo de
confianza en este Caso Web que proviene del Caso Web Onrentes comportamientos de compra al usar una u otra forma
Campus! del capitulo 6.
de pago. Por esa raz6n, ella quisiera determinar primero:
a. La proporci6n de clientes que usan PAF y la proporci6n
Entre otras caracteristicas, el sitio Web OnCampus! perde clientes que usan tarjeta de credito para pagar sus
mite que los clientes compren en linea mercancia OnCampus! LifeStyles. Para manejar el proceso de pago, la gerencia
compras.
de OnCampus! ha contratado las siguientes firmas:
b. La media de la cantidad de compra al usar PAF y Ia media
de la cantidad de compra cuando se usa tarjeta de credito.
PayAFriend (PAF): Un sistema de pagos en linea en el que
Ayude a VIrginia Duffy preparando lin analisis apropiado balos clientes y negocios tales como OnCampus! se registran para realizar pagos de forma segura y conveniente sin
sado en una muestra aleatoria de 50 transacciones que ella ha
necesidad de usar tarjeta de credito.
preparado y colocado en un archivo interno en el sitio Web
OnCampus! www.prenhall.com/Springville/OnCampus_
Continental Banking Company (Conbanco): Un proveedor de servicios de procesamiento que permite a los clienPymtSample.htm. Resuma sus descubrimientos y determine
si las conjeturas de VIrginia Duffy acerca de los comportates de OnCampus! pagar mercancia con tarjetas de credito
mientos de los clientes de OnCampus! son correctas. Sidereconocidas a nivel nacional expedidas por una instituci6n fmanciera.
sea que el error muestral no sea mayor que $3, l,la muestra
Para reducir costas, la gerencia considera eliminar uno de eselegida por Duffy es lo suficientemente grande como para
tos dos sistemas de pago. Sin embargo, Virginia Duffy, del
desarrollar un analisis valido?
departamento de ventas, considera que los clientes usan las
AS.
Par
de
Ahr.
coot
liza
G.Il
jo a
daq
nive
OVt
pan
una ]
Par
de I
Abra
8.6 d
ra de
G.12
bie 1,
fiall2
OVe
Para
nere
Apendice
.267
----------------------- - - -
--- - - - - - - - - - - - - - - - - - - -- .. -
-------
__ ______________________
..
Apendice 8
EXCEL
268
A8.2 MINITAB
: {- \".. : ~
1-Sample t- Optoons
lJ
d
PI
cc
Ill
! Alternative;
l!i!Gqu.=a=l
= =S=
FIG
Pro1
1-Sample t (Test and Confidence Interval)
l
I
~
I
!!I
1
r
il:; 0
'1;t;.::
Samples In columns:
r=
~~--=--=.,...,.~
Summarized data
Sample
siz;.~
M'eaM
Apendice
3. Seleccione Options (vea figura A8.2). En Ia ventana de
dialogo !-Sample t-Options, ingrese 95.0 en Ia el cuadro
de edici6n de Confidence level. De clic en OK.
4. De clic en OK de nuevo.
1 Proportion - Optmns
Test proportion:
Io. 5
Inot equal
IC
OK ~~
cancel
~... ~~\.~
; ',:;:.
Alternative:
269
C Samples In columns:
::J
1.
<-:
~'
Summarized dahl
Number of trials:
lr.l::-:o_q=-.-. - - ..""1'i
Number of events:
~~-~~~-~~-J
~~=-==.;;
Hcl; -~
tervalo de confianza para Ia proporci6n poblacional del problema en Ia secci6n 8.3 de Ia empresa de remodelaciones Saxon,
1. Seleccione Stat -+ Basic Statistics -+ 1 Proportion.
2. En Ia ventana de dialogo 1 Proportion (vea Ia figura A8.3),
seleccione Ia opci6n Summarized data. Ingrese 100 en el
cuadro de edici6n Number of trials. Ingrese 10 en el cuadro de edici6n Number of events.
3. De clic en el bot6n Options. En Ia ventana de dia!ogo Proportion-Options (vea Ia figura A8.4), ingrese 95 en el cuadro de edici6n Confidence level. Seleccione Use test and
interval based on normal distribution en el cuadro de
exploraci6n. De clic en el bot6n OK para regresar a Ia ventana de dia!ogo 1 proportion.
4. De clic en OK.
CAPITULO
Fundamentos de la prueha
de hip6tesis: pruehas de una muestra
USO DE LA ESTAD[STICA: Una visita mas a la Oxford Cereal Company
9.1
9.2
9.3
METODOLOG[A DE LA PRUEBA
DE HIP6TESIS
Hip6tesis nula y alternativa
Valor critico del estadistico de prueba
Regiones de rechazo y aceptaci6n
Riesgos de Ia toma de decisiones al utilizar
la metodologia de Ia prueba de hip6tesis
PRUEBA Z DE HIP6TESIS PARA
LA MEDIA (cr CONOCIDA)
Metodo del valor critico para Ia prueba de
hip6tesis
Metodo del valor-p para Ia prueba de hip6tesis
Conexi6n entre Ia estimaci6n del intervalo
de confianza y Ia prueba de hip6tesis
PRUEBAS DE UNA COLA
Metodo del valor critico
Metodo del valor-p
9.4
9.5
9.6
A.9
OBJETIVOS DE APRENDIZAJE
En este capitulo, aprendera:
Los principios basicos de las pruebas de hip6tesis
C6mo utilizar las pruebas de hip6tesis para comprobar una media o
proporci6n
Las suposiciones de cada uno de los procedimientos de prueba de
hip6tesis, c6mo evaluarlos, y las consecuencias si se infringen seriamente
C6mo evitar los obstaculos implicitos en las pruebas de hip6tesis
Los asuntos eticos implicados en las pruebas de hip6tesis
272
uso
DE LA ESTADISTICA
Una visita mas a Ia Oxford Cereal Company
Como en el escenario "Uso de la estadistica" del capitulo 7, imagine que usted es el gerente operativo de la Oxford Cereal Company y responsable de
vigilar la cantidad empacada en cada caja de cereal. Selecciona y pesa una
muestra aleatoria de 25 cajas, con el fin de calcular la media muestral e investigar que tanto se acercan los pesos de llenado a la especificaci6n de 368
gramos establecida por la empresa. Esta vez debe tomar una decision y concluir si el peso medio de llenado de todo el proceso es igual a 368 gramos
(o no), con objeto de saber si el proceso de llenado requiere de ajustes. i.,C6mo puede tomar esta decision de una manera razonada?
diferencia del capitulo 7, donde el problema que enfrentaba el gerente de operaciones consistia
en determinar si la media muestral era congruente con la media poblacional conocida, este
escenario "Uso de la estadistica" pregunta: 1.,Como se logra validar la afirmaci6n de que la media
poblaciona) es de 368 gramos, utilizando la media muestral? Para validar tal afirmaci6n, primero se
necesita establecer la afliiilacion sin ambigiiedades. Por ejemplo, la media poblacional es de 368
gramos. En el metodo inferencial conocido como prueba de hip6tesis, se considera la evidencia (el
estadistico de muestra) para ver siesta respalda mejor al enunciado, Uamado hip6tesis nu/a, o la altemativa mutuamente excluyente que, en este caso, establece que la media poblacional no es de 368
gramos.
En este capitulo nos concentramos en la prueba de hip6tesis, otro aspecto de la inferencia estadistica que, al igual que la estimaci6n del intervalo de confianza, se basa en informacion de la riluestra. Se desarrolla una metodologia paso a paso que le permita hacer inferencias sobre un parametro
poblacional mediante el am:ilisis diferencial entre los resultados observados (estadistico de la roues
tra) y los resultados esperados si la hipotesis subyacente es realmente cierta. Por ejernplo, 1.,es el pe
so medio de las cajas de cereal incluidas en la muestra obtenida de la Oxford Cereal Company un
valor congruente con lo que usted esperaria si la media de toda la poblaci6n de cajas de cereales es
de 368 gramos? 1.,0 puede usted inferir que la media poblacional no es igual a 368 gramos porque Ia
media muestral es significativamente diferente a 368 gramos?
9.1
EJ
La prueba de hip6tesis suele comenzar con alguna teoria, af1III1aci6n, o aseveracion sobre un para
metro especifico de una poblaci6n. Por ejemplo, su hipotesis inicial sobre el ejercicio del cereal es
que el proceso esta funcionando adecuadamente, lo que significa que ei promedio de llenado es de
368 gramos, y que no es necesario emprender acciones correctivas.
La hipotesis de que el parametro poblacional es igual a la especificacion de la empresa se de
nomina hipotesis nula. Una hip6tesis nula siempre es una de status quo, y se denota mediante el
simbolo H0. Aqui, la hip6tesis nula expresa que el proceso de llenado esta funcionando de manera
adecuada y, por lo tanto, el llenado medio concuerda con la especificacion de 368 gramos. Esto se
establece como:
H 0 : fl = 368
A pesar de que solo se cuenta con informacion de la muestra, la hip6tesis nula se escribe en tennin~
de la poblacion. Recuerde, usted se concentra en la poblaci6n de todas las cajas de cereal. El estadl~
tico de muestra se utiliza para hacer inferencias sobre todo el proceso de llenado. Una inferenciS
273
podria ser que los resultados observados a partir de los datos de Ia muestra indican que Ia hipotesis
es falsa. Si se considera que Ia hipotesis nula es falsa, entonces habra otra afrrmacion que debe ser
cierta.
Siempre que se especifica una hipotesis nula, tambien se determina una hipotesis altemativa
que debe ser cierta si Ia hipotesis nula es falsa. La hip6tesis alternativa H 1 es opuesta a Ia hipotesis
nula H 0. En el ejemplo del cereal, esto se determina como:
EJEMPLO 9.1
H 0 : !l=4.5
La hipotesis altemativa es opuesta la hipotesis nula. Puesto que la hipotesis nula dice que Ia
media poblacional es 4.5 minutos, la hipotesis altemativa dice que Ia media poblacional no es 4.5
minutos. Esto se establece como:
------------------------------------------------------------------------------------------
274
FIGURA 9.1
Regiones de rechazo y
aceptaci6n en Ia prueba
de hip6tesis.
Regi6n de
rechazo
Regi6n de
no rechazo
Regi6n de
rechazo
........
9.I : Metodologia de la prueba de hip6tesis
~ 75
La regi6n de rechazo se compone de los valores del estadistico de prueba con muy pocas posibilidades de presentarse en caso de que Ia hip6tesis nula sea cierta. Es mas probable que tales valores se presenten si la hipotesis nula es falsa. Por lo tanto, si un valor del estadistico de prueba queda
dentro de esta region de rechazo, Ia hip6tesis nula se rechaza porque ese valor tiene pocas posibilidades de presentarse si Ia hip6tesis nula es cierta.
Para tomar una decision con respecto a la hipotesis nula, antes debe determinarse emil es el valor critico del estadistico de prueba. Ese valor separa Ia regi6n de aceptacion de Ia regi6n de rechazo. Determinar este valor critico depende del tamaiio de Ia regi6n de rechazo. El tamafio de la region
de rechazo se relaciona directamente con los riesgos implicitos al utilizar solo evidencia muestral
para tomar decisiones con respecto a un parametro poblacional.
Un error tipo I se presenta cuando se rechaza la hip6tesis nula H 0 siendo cierta y no deberia rechazarse. La probabilidad de que se presente un error tipo I es a.
Un error tipo ll se presenta cuando no se rechaza la hip6tesis nula H 0 siendo falSa y deberia re' chazarse. La probabilidad de que se presente un error tipo II es ~
En el escenario de Ia Oxford Cereal Company, cometeria un error tipo I si concluyera que elllenado
medio de Ia poblacion no es 368 cuando es 368. Por su parte, cometeria un error tipo II si concluyera que elllenado medio de Ia poblacion es 368 cuando no es 368.
El nivel de signijicancia (a) La probabilidad de cometer un error tipo I, denotado por a (Ia
letra griega a/fa minuscula), se denomina como nivel de significancia del estadistico de prueba.
Tradicionalmente, el error tipo I se controla al decidir el nivel de riesgo que esta dispuesto a correr
al rechazar Ia hip6tesis nula, siendo esta cierta. Como el nivel de significancia se especifica antes de
realizar la prueba de hip6tesis, el riesgo de cometer un error tipo I, a, esta directamente bajo su control. Por lo general, se seleccionan niveles de 0.01 , 0.5 o 0.10. La selecci6n de un nivel de riesgo especifico para cometer un error tipo I depende del costo que irnplicaria cometerlo. Despues de especificar el valor de a, usted conoce el tamafio de Ia regi6n de rechazo, porque a es la probabilidad de
rechazo bajo la hipotesis nula. A partir de este hecho, se determina el valor o los valores criticos que
dividen las zonas de rechazo y aceptaci6n.
Coe.ficiente ae con.fianza El complemento de Ia probabilidad de un error tipo I (1 - a) se denomina coeficiente de confianza. AI multiplicarlo po~ 100%, el coeficiente de confianza produce el
nivel de confianza estudiado al construir intervalos de confianza (vea la secci6n 8.1 ).
El coeficiente de contlanza, 1 - a, expresa Ia probabilidad de que Ia hip6tesis nula H 0 no se rechace cuando es cierta y no debe rechazarse. El nivel de confianza de una prueba de hip6tesis es
(1 -a) X 100%.
En terrninos de Ia metodologia de prueb'a de hip6tesis, el coeficiente de confianza representa la probabilidad de concluir que el valor del panimetro especificado en la hipotesis nula es
aceptable cuando es cierta. En el escenario de la Oxford Cereal Company, el coeficiente de
confianza mide la probabilidad de concluir que elllenado poblacional medio es de 368 gramos
cuando en realidad es 368 gramos.
276
El riesgo ~ La probabilidad de cometer un error tipo II se denota por media de ~ (la letra griega
beta minuscula). A diferencia del error tipo I, el cual usted controla mediante la seleccion de a, Ia
posibilidad de cometer un error tipo II depende de la diferencia que existe entre los valores hipotetico y real del parametro poblacional. Como es mas facil encontrar diferencias grandes que pequeiias,
si la diferencia que existe entre los valores hipotetico y real del parametro poblacional es grande, ~
es pequeiia. Por ejemplo, si la media poblacional verdadera es 330 gramos, existe una pequeiia posibilidad (~) de que usted deduzca que la media no ha cambiado de 368. Por otra parte, si la diferencia entre los valores hiporetico y real del parametro es pequefia, la probabilidad de que cometa un
error tipo II es mayor. De tal modo, si la media poblacional es en realidad de 367 gramos, usted tiene una gran probabilidad de cometer un error tipo II al concluir que la media poblacional es todavia
de 368 gramos.
~) se
A
La potencia de una prueba estadistica, 1 - ~. es la probabilidad de que se rechace Ia hipotesis
nula cuando es falsa y deberia rechazarse.
9..
en
~
9.1
9.:
TABLA 9.1
Prueba de hip6tesis y
toma de decisiones.
9.1
Situaci6n real
Decisi6n estadistica
H 0 verdadera
me
H 0 falsa
Error tipo II
No se rechaza H 0
Decision correcta
Confianza = 1 - a
Se rechaza H 0
Errortipo I
P(error tipo I)
Decision correcta
Potencia = 1 - 13
~
9.1
0.0
9.1
muc
Una forma de reducir Ia probabilidad de cometer un error tipo II consiste en aumentar el taroa
iio de la muestra. Por lo general, las muestras grandes permiten detectar incluso diferencias pequeiias entre valores hipoteticos y parametros poblacionales. Para un nivel de a dado, aumentar el taroa
iio de Ia muestra reducira ~ y asi se incrementara el poder de Ia prueba para detectar que Ia hipotesis
nula H0 es falsa. Sin embargo, siempre existe un limite para sus recursos, y esto afectara la decision
de que tan grande debe ser la muestra tomada. De esta forma, para un tamaiio dado de Ia muestra, usted debe considerar las comparaciones entre los dos tipos de errores posibles. Como el riesgo del
error tipo I se controla directamente, este se reducira seleccionando un valor mas pequeiio para a..
Por ejemplo, si son considerables las consecuencias negativas asociadas con un error tipo I, puede
seleccionar a= 0.01 en Iugar de 0.05. Sin embargo, cuando a se reduce,~ aumenta, por lo que reducir el riesgo de un error tipo I tiene como resultado un aumento en el riesgo del error tipo IT. por
otra parte, si desea reducir ~. puede seleccionar un valor mayor para a. Por lo tanto, si es importan
te tratar de evitar un error tipo II, habra que seleccionar una a de 0.5 o 0.10 en Iugar de 0.01.
90,
Ap
que
laq1
cisic
nul a
pliqi
llneJ
277
En el escenario de Ia Oxford Cereal Company, el riesgo de cometer un error tipo I implica concluir que Ia media ha cambiado de los 368 gramos hipotetizados, cuando en realidad eso no ha ocurrido. El riesgo de cometer un error tipo IT implica concluir que Ia media no ha cambiado de los 368
gramos hipotetizados, cuando en realidad eso ha ocurrido. La selecci6n de valores razonables para a
y ~ depende del costo inherente a cada tipo de error. Por ejemplo, si resulta muy costoso modificar
el proceso de llenado de cereal, entonces usted desearia estar muy convencido de que necesita hacer
un cambio antes de efectuarlo. En este caso, el riesgo de cometer un error tipo I es mas importante,
y usted seleccionaria una a pequeila. Por otra parte, si quiere estar muy seguro de detectar cambios
con respecto a Ia media de 368 gramos, es mas importante el riesgo de cometer un error tipo IT, y entonces seleccionaria un mayor nivel de a.
Aprendizaje basico
9.1 L,Para que hip6tesis utiliza el simbolo H 0?
9.2 L,Para que hip6tesis utiliza el simbolo H 1?
9.3 L,Que simbolo utiliza para el nivel de significancia o posibilidad de cometer un error de tipo I?
9.4 L,Que simbolo utiliza para Ia posibilidad de cometer un
error de tipo IT?
ASISTENCIA
__
Aplicaci6n de conceptos
9.13 En el sistema legal estadounidense, al acusado
se le considera inocente basta que se demuestre que
es culpable. Considere una hip6tesis nula H 0 , en la
que el acusado es inocente, y una hip6tesis altemativa H 1, en
Ia que el acusado es culpable. Un jurado tiene dos posibles decisiones: encarcelar al acusado (es decir, rechazar Ia hip6tesis
n~la) o exonerarlo (es decir, no rechazar Ia hip6tesis nula). ExPhque el significado de los riesgos de cometer un error tipo I o
un error tipo II en este ejemplo.
ASISTENCIA
de PH Grade
__ _
~
c__~ j
_ __
9.14 Suponga que al acusado del problema 9.13 se le corisidera culpable basta demostrar su inocencia, como ocurre en otros
sistemas judiciales. L,En que difieren estas hip6tesis nula y altemativa de las establecidas en el problema 9.13? l. Cuales son
aquf los significados de los riesgos de cometer un error tipo I o
un error tipo IT?
9.15 La Food and Drug Administration de Estados Unidos
(FDA) es responsable de aprobar los nuevos medicamentos.
Muchos grupos de consumidores creen que el proceso de aprobaci6n es muy sencillo y que, por eso, se han aprobado muchos
medicamentos que despues resultan inseguros. Por otra parte,
hay un buen numero de cabilderos de Ia industria farmaceutica
que pugnan por un proceso de aprobaci6n mas complaciente,
de manera que a las empresas farmaceuticas se les aprueben
medicinas nuevas con mas facilidad y rapidez (Rochelle Sharpe, "FDA Tries to Find Right Balance on Drug Approvals", The
Wall Street Journal, 20 de abril, 1999, A24). Considere una hip6tesis nula que establece que un medicamento nuevo a'lln sin
aprobar es inseguro, y una hip6tesis altemativa que establece
que un medicamento nuevo a'lln sin aprobar es seguro.
a. Explique los riesgos de cometer un error tipo I o tipo II.
b. l. Que tipo de error tratan de evitar los grupos de consumidores? Explique su respuesta.
c. L,Que tipo de error tratan de evitar los grupos de cabilderos?
Explique su respuesta.
d. L,C6mo seria posible reducir las posibilidades de cometer los
errores tipo I y tipo II?
1 AUTO 9.16 Como consecuencia de las quejas
V Examen de alumnos y maestros en relaci6n con
sus retrasos, el decano de una gran universidad pretende ajustar los horarios de .clase programados,
con elfin de dejar un lapso adecuado de traslado entre clases, y
esta listo para emprender un estudio. Hasta ahora, el decano ha
considerado que 20 minutos entre una clase y otra debe ser suficiente. Elabore las hip6tesis nula H0 y altemativa H 1.
ASISTEI'jCIA
de PH Grade
278
s
(
r
9.2
Ahora que ya estudi6la metodologia de Ia prueba de hip6tesis, recuerde que en el escenario "Uso de
Ia estadistica" de Ia pagina 272, Ia Oxford Cereal Company quiere determinar si el proceso de llenado del cereal funciona de man era adecuada (es decir, si elllenado medio a lo largo de todo el proceso de empaque continua en los 368 gramos especificados y nose requiere acci6n correctiva). Para
evaluar el requisito de 368 gramos, usted toma una muestra aleatoria de 25 cajas, pesa cada una, y
luego eval-.la la diferencia existente con el estadistico de muestra y el parametro poblacional establecido en la hip6tesis, comparando para ello el peso medio (en gramos) de la muestra con la media
esperada de 368 gramos especificada por la empresa. Para este proceso de llenado, las hip6tesis nula y altemativa son:
H 0:Jl = 368
H1 : Jl-:~:
368
Cuando se conoce la desviaci6n estandar, cr, y si la poblaci6n tiene una distribuci6n normal, usted utiliza la prueba Z. Si la poblaci6n no tiene una distribuci6n normal, todavia se puede utilizar Ia
prueba Z si el tamaiio de la muestra es lo bastante grande como paraque tenga efecto el teorema del
limite central (vea Ia secci6n 7.2). La ecuaci6n (9. 1)~efme al estadistico de pruebaZparadetenninar Ia diferencia que existe entre la media muestral X y la media poblacional J.1 cuando se conoce Ia
desviaci6n estandar cr.
(9.1)
~
En la ecuaci6n (9 .1 ), el numerador mide que~ lejos (en valor absoluto) esta la media muestral observada X de Ia media hipotetizada Jl. El_ilenominador es el error estandar de Ia media, por lo que Z
representa Ia diferencia que existe entre X y J.1 en unidades del error estandar.
Ftc
El valor observado del estadistico de prueba Z, ecuaci6n (9.1), se compara con los valores critic~
Estos val ores criticos se expresan como val ores Z estandarizados (es decir, en unidades de des~~~ci6n estandar). Por ejemplo, si usted utiliza un nivel de significancia de 0.05, el tamaiio de la reg1on
de rechazo es 0.05. Puesto que la regi6n de rechazo se divide en dos colas de la distribuci6n (esto se
denomina prueba de dos colas), se divide el 0.05 en dos partes iguales de 0.025 cada una. Una
regi6n de rechazo de 0.025 en cada cola de la distribuci6n normal tiene como resultado un area
acumulada de 0.025 bajo el valor criticojnferior y un area acumulada de 0.975 bajo el valor enrico
superior. De acuerdo con Ia tabla de distribuci6n normal estandarizada acumulativa (tabla E.2), lo;
valores criticos que dividen las regiones de rechazo y aceptaci6n son -1 .96 y +1.96. La figura 9.
ilustra que si la media es realmente de 36.8 gramos, como afirma H 0 , entonces los valores del esta
distico Z tienen una distribuci6n normal estandarizada centrada en Z = 0 (la cual corresponde a un
l?ru,
sob
(cr c
nive
deC
..
9.2: Prueba Z de hip6tesis para 1a media (a conocida)
279
valor X de 368 gramos). Los valores de Z mayores que +1.96 o menores que -1.96 indican que X
esta muy alejada de la 1.1 = 368 hipotetizada, por lo que seria muy poco probable que se presentara
uno de estos valores si H 0 fuera verdadera.
FIGURA 9.2
Prueba de una hip6tesis
sobre Ia media
(cr conocida) con un
nivel de significancia
de 0.05.
-1 .96
+1.96
Regi6n de
rechazo
Regi6n de
rechazo
Valor
crftico
368
Valor
crftico
.J25
Puesto que el estadistico de prueba Z = + 1.50 se encuentra entre -1.96 y + 1.96, usted no rechaza H 0 (vea la figura 9.3). Usted sigue creyendo que la cantidad media de llenado es de 368 gramos.
Para tomar en cuenta la posibilidad de un error tipo II, redacta 1a conclusion como "no existe suficiente evidencia de que elllenado medio sea diferente a 368 gramos".
FIGURA 9.3
Prueba de una hip6tesis
sabre Ia media
(cr conocida) con un
nivel de significancia
de 0.05.
+1.50 +1.96
Regi6n de
Regi6n
no rechazo
de rechazo
--
- ~
280
E.
EXPOSICION 9.1: MtfODO DE SEIS PASOS DE LA PRUEBA DE HIPOTESIS
1. Prepare Ia hip6tesis nula, H 0, y la hip6tesis alternativa H 1
2. Seleccione el nivel de significancia, a, y el tamailo de Ia muestra, n. El nivel de significancia se especifica de acuerdo con Ia importancia relativa de los riesgos de oometer errores tipo I y tipo II en el problema.
3. Determine el estadistico de prueba y Ia distribuci6n muestral apropiados.
4. Dete_rmine los valores criticos que dividen las zonas de rechazo y aceptaci6n.
S. Recopile los datos y calcule el valor del estadistico de prueba.
6. Tome Ia decisi6n estadistica y establezca Ia conclusi6n administrativa. Si el estadistico de
prueba queda en Ia regi6n de no rechazo, usted no rechaza Ia hip6tesis nula H 0 Si el estadistico de prueba queda en la regi6n de rechazo, usted rechaza Ia hip6tesis nula. La conclusi6n
administrativa se escribe en el contexto del problema real.
~~-
1 EJEMPLO 9.2
!
!
______
...
L
1
.. _
281
EJEMPLO 9.3
Usted es gerente de un restaurante de comida nipida. Quiere determinar si el tiempo de espera al pedir una orden se ha modificado durante el ultimo mes con respecto a su valor de media poblacional
previo de 4.5 minutos. A partir de la experiencia anterior, supone que la desviaci6n estandar de la
poblaci6n es de 1.2 minutos. Selecciona una muestra de 25 6rdenes durante un periodo de una hora.
La media muestral es de 5.1 minutos. Utilice el metodo de seis pasos de la exposici6n 9.1 de la pagina 280, para determinar si existe evidencia de que, con un nivel de significancia de 0.05, el tiempo de espera medio para servir una orden se ha modificado durante el ultimo mes con respecto a su
valor de media pob1acional previo de 4.5 minutos.
SOLUCI6N
Paso 1: La hip6tesis nula dice que la media poblacional no ha cambiado con respecto a su valor
previo de 4.5 minutos.
La hip6tesis altemativa es opuesta a la hip6tesis nula. Puesto que la hip6tesis nula dice que
Ia media poblacional es de 4.5 minutos, Ia hip6tesis altemativa dice que la media poblacional no es de 4.5 minutos.
Paso 2: Usted ha seleccionado una muestra den= 25. El nivel de significancia es 0.05 (es decir,
ex= 0.05).
Paso 3: Puesto que conoce o, usted utiliza la distribuci6n normal y el estadistico de prueba Z.
Paso 4: Como ex = 0.05, los valores criticos del estadistico de prueba Z son -1 .96 y +1.96. La regi6n de rechazo es Z < -1.96 o Z > + 1.96. La zona de no rechazo es -1.96 < Z < +1.96.
Paso 5: Usted recopila los datos y calcula X= 5.1. Utilizando 1a ecuaci6n (9 .l) de la pagina 278,
calcule el estadistico de prueba.
1.2
..;;,
55
Paso 6: Puesto que Z = 2.50 > 1.96, usted rechaza la hip6tesis nula. Concluye que existe evidencia
de que el tiempo de espera al pedir una orden se ha modificado con respecto a su valor de
media poblacional previo de 4.5 minutos. El tiempo de espera media de los clientes ahora
es mayor que el mes pasado.
----~~-~----
--
-------------------------------~-
El valor-p es la probabilidad de obtener un estadistico de prueba igual o mas extremo que el resultado de la muestra, dado que la hip6tesis nula H 0 es cierta.
El valor-p, que a menudo se denomina nivel de signi.ficancia observado, es el nivel mas pequeiio en
el que se puede rechazar H 0
Las reglas de decisi6n para rechazar H 0 en el metodo del valor-p son:
. . ..
282
l_
---- - --
- --- -- -
Para comprender mejor el metodo del valor-p, consideramos de nuevo el escenario de la Oxford
Cereal Company. Usted prob6 si elllenado medio era igual o no a 368 gramos. El estadistico de
prueba tuvo como resultado un valor Z de + 1.50 y usted no rechaz6 la hip6tesis nula porque + 1.50
era menor que el valor critico superior de+ 1.96 y mayor que el valor critico inferior de -1.96.
Para utilizar el metodo del valor-p en la prueba de dos colas, encuentre la probabilidad de obtener un estadistico de prueba Z igual o mas extremo que 1.50 unidades de desviaci6n estlindar con
respecto al centro de una distribuci6n normal estandarizada. En otras palabras, es necesario calcular
la probabilidad de un valor Z mayor que + 1.50 junto con la probabilidad de un valor Z menor que
-1.50. La tabla E.2 muestra que la probabilidad de un valor Z inferior a -1 .50 es de 0.0668. La probabilidad de un valor inferior a+ 1.50 es 0.9332 y la probabilidad de un valor por arriba de+ 1.50 es
1 - 0.9332 = 0.0668. Por lo tanto, el valor-p para esta prueba de dos colas es 0.0668 + 0.0668 =
0.1336 (vea la figura 9.4). De esta forma, la probabilidad de un resultado igual o mas extremo que el
observado es 0.1336. Como 0.1336 es mayor que a= 0.05, no rechace la hip6tesis nula.
FIGURA 9.4
Calculo de un valor-p
para una prueba de
dos colas.
En este ejemplo, la media muestral observada es de 372.5 gramos, 4.5 gramos arriba del valor
establecido en la hip6tesis y el valor-pes 0.1336. De esta forma, si Ia media poblacionales de 368
gramos, hay un 13.36% de posibilidades de que la media muestral se encuentre a mas de 4.5 gramos
de 368 (es decir, mayor o igual que 372.5 gramos, o menor o igual que 363.5 gramos). Por lo tanto,
aunque 372.5 se encuentra por arriba del valor de 368 hipotetizado, cuando la media poblacionales
de 368, no es altamente probable un resultado tan o mas extremo que 372.5.
A menos que usted este manejando un estadistico de prueba que siga una distribuci6n normal,
el calculo del valor-p resultara muy complicado. Sin embargo, algunos programas de c6mputo como
Excel, Minitab o SPSS exponen en forma rutinaria el valor-p como parte del resultado de los procedimientos de prueba de hip6tesis. La figura 9.5 muestra una hoja de trabajo de Excel correspondiente a! ejemplo de llenado de cereal analizado en esta secci6n.
FIGURA 9.5
Hoja de Ia prueba Zen
Excel para el ejemplo
de llenado de cereal.
B
A
I
1 Cereal-Filling Process Hypothnls Test
...
Data
Null Hypothnls
Laval of Significance
6 ;Population Standanl Deviation
7 Sampla Size
B Sample Mean
3
..5
368
O.D5
15
25
3n.5
9
10
11
12
13
14
15
16
17
18
Intermediate Calculations
Standard Error of the Mean
Z Test Statlsllc
3
1.5
:861R~IZ(87)
=(88. 84)1811
'
Two-Tall Test
Lowar Critical Value
-1.96011
I
1.9600
Upper Critical Value
I
p.Value
0.1336
I
Do notre act the null hypothnls
=DISTR.NORM.ESTAND.INV(1 8512)
=DISTR.NORM.ESTAND.INV(1 8512)
=2 (1 DISTR.NORM.ESTAND.(A8S(812)))
283
La exposici6n 9.2 muestra un resumen del metodo del valor-p para Ia prueba de hip6tesis.
cia se especifica de acuerdo con Ia importancia relativa de los riesgos de cometer errores
tipo I y tipo II en el problema.
3. Determine el estadistico de prueba y Ia distribuci6n muestral apropiados.
, 4. Recopile los datos, encuentre el valor del esiadistico de prueba y calcule el valor-p.
5. Tome Ia decisi6n estadistica y establezca Ia conclusi6n administrativa. Si el valor-p es mayor o igual que a, no rechace Ia hip6tesis nula H 0 Si el valor-p es menor que o:, rechace Ia
hip6tesis nula. Recuerde Ia frase: si el valor-p es bajo, entonces H 0 debe irse. La conclusi6n administrativa se escribe en el contexto del problema real.
, EJEMPLO 9.4 .
H 0: J.L=4.5
La hip6tesis alternativa es opuesta a Ia hip6tesis nula. Puesto que la hip6tesis nula dice que
Ia media poblacional es de 4.5 minutos, la hip6tesis alternativa dice que Ia media poblacional no es de 4.5 minutos.
z=
.Jn
1.2
...
...J
284
Paso 5: Puesto que el valor-p = 0.0124 <a.= 0.05, usted rechaza la hip6tesis nula. Concluye que
existe evidencia de que el tiempo de espera al pedir una orden se ha modificado con respecto a su valor de media poblacional previo de 4.5 minutos. El tiempo de espera medio de
los clientes ahora es mayor que el mes pasado.
-------- ----------------------------- --
y Ia prueba de hip6tesis
En este capitulo y en el anterior se analizan los dos componentes principales de la inferencia estadistica: la estimaci6n del intervalo de confianza y la prueba de hip6tesis. Aunque ambas se basan en el
mismo conjunto de conceptos, se utilizan con distintos prop6sitos. En el capitulo 8 se utilizaron intervalos de confianza para estimar parametros. En este capitulo, la prueba de hip6tesis se utiliza para tomar decisiones respecto a valores especificos de los parametros poblacionales. Las prueba de
hip6tesis se utilizan al tratar de comprobar que un par:imetro es menor que, mayor que, o diferente
que un valor especificado. Sin embargo, la interpretaci6n adecuada de un intervalo de confianza
tambien indica si un parametro es menor que, mayor que, o diferente que un valor especificado.
Por ejemplo, en esta secci6n usted prob6 si la media poblacional era diferente a 368 gramos,
mediante el uso de la ecuaci6n (9.1) de la pagina 278:
12
~
~
-J.L
Z=-0'
J;z
En Iugar de probar la hip6tesis nula de que Jl = 368 gramos, llegara a la misma conclusi6n si
conforma un intervalo de confianza estimado de Jl. Si el valor establecido en la hip6tesis de Jl = 368
queda dentro del intervalo, no rechace la hip6tesis nula porque 368 no se considera un valor inusitado. Por otra parte, si el valor hipotetizado no queda dentro del intervalo, rechace la hip6tesis nula
porque "368 gramos" entonces se considera un valor inusual. AI emplear la ecuaci6n (8.1) de la pagina 241 y los datos siguientes:
IASiS
Ap
XZ~
de a.
sena_
Yun:
dazo
J;z
de 6\
. ll
Ia
15
372.5 (1.96) ,--;:;
v25
Ill
o..
372.5 5.88
b. c~
to l(
da
d. i.C
de manera que
366.62::::; ll::::; 378.38
de
18
Puesto que el intervalo incluye a1 valor,de 368 gramos establecidos en la hip6tesis, no rechacode0
wt
hip6tesis nula. No existe evidencia suficiente de que la media de la cantidad de llenado duran b de
8
el proceso no sea de 368 gramos. Usted obtuvo la misma decisi6n mediante el uso de la prue
hip6tesis.
~(
Aprendizaje basico
9.20 Si usted utiliza un nivel de significancia de
'-------' 0.05 en una prueba de hipotesis (de dos colas), l,que
decidiria si el valor del estadistico de prueba Z
calculado fuera +2.21?
9.21 Si usted utiliza un nivel de significancia de
0.10 en una prueba de hipotesis (de dos colas), j,cual
seria su regia decision para rechazar una hipotesis
nula donde Ia media poblacional es 500 si utiliza Ia prueba Z?
ASISTENCIA
de PH Grade
de PH Grade
'-------'
'-------'
dos colas calcula que el valor del estadistico de prueba Z es -1.38. l,Cual es el valor-p?
b.
envases de un galon adquiridos a un reconocido fancante es realmente de un galon. Usted sabe que las especifi-
285
286
c. j,Cwil seria su respuesta al inciso a), si Ia desviacion estandar fuera de 0.05 onzas?
d. l,Cual seria su respuesta al inciso a), si Ia media muestral
fuera de 7.952 onzas y Ia desviacion estandar de 0.15 onzas?
9.33 Los cajeros automaticos deben contar con efectivo suficiente para satisfacer los retiros de los clientes durante todo el
fm de semana. Pero si se deja en ellos demasiado efectivo innecesariamente, el banco se priva de Ia oportunidad de invertir
ese dinero y ganar intereses. Suponga que en una sucursal especifica Ia cantidad media poblacional de dinero retirado del
cajero automatico por transaccion durante el fm de semana es
TJ
Ci
de
pn
di!
esi
pn
a
9.3
Fit
Pn.
unc
me
un
de
287
y -1 .65, puesto que toda la regi6n de rechazo esta en la cola inferior de la distribuci6n normal estandarizada y contiene un area de 0.05.
La regia de decisi6n es:
Rechace H0 si Z < ~ 1.645;
de otra manera, no rechace Ho-
TABLA 9.2
Calculo del valor crftico
del estadfstico de
prueba Z a partir de Ia
distribuci6n normal
estandarizada, para una
prueba de una cola con
a. = 0.05.
z
0
.00
0
-1.8 .0359
-1.7 .0446
.02
.01
.03
.06
.07
.08
.09
.0331
.0436
.0344
.0427
.0336
.0418
.03 9
.03 2
.0314
.0392
.0485
.0307
.0384
.0475
.0301
.0375
.0465
.0294
.0367
.0455
FIGURA 9.6
Prueba de hip6tesis de
una cola para una
media (cr conocida) con
un nivel de significancia
de 0.05.
Paso 5: Usted selecciona una muestra de 25 envases de leche y calcula que el punto medio de congelaci6n muestral es de -o.550. Utilizando n = 25,X= -0.550, cr= 0.008, y la ecuaci6n
(9.1) de la pagina 278,
z = x - ll = -o.550 (J
Fn
( -o.545) = _ _
3 125
0.008
.J25
Paso 6: Puesto que Z = -3.125 < -1.645, usted rechaza la hip6tesis nula (vea la figura 9.6) y concluye que el punto medio de congelaci6n de 1a leche suministrada esta por debajo de
-Q.545 o. La empresa debe emprender una investigaci6n del proveedor de leche, porque el
punto medio de congelaci6n se encuentra muy por debajo de lo que cabria esperar como
posibilidad.
288
FIGURA 9.7
Determinacion del
valor-p en una prueba
de una cola.
FIGURA 9.8
Resultado de Ia prueba
Zen Excel para el
ejemplo de Ia
producci6n de leche.
I
I
3
Data
&L4 Hull Hwothesis
5 Level of Significance
s Population Standard Deviation
7 Sample Size
8 Sample Mean
.11.545
0.115
o.ooa
25
.11.55
9
10
Intermediate Calculations
11 . Standard Error of the Mean
12 Z Test Statistic
13
14
Lower-Tall Test
15 Lower Critical Value
16 p-Value
Reject the null hypothesis
17
0.0016
=B61RAIZ(B7)
.3.125
=(B8 84)1811
-1.6449
OJI009
=DISTR.NORM.ESTAND.INV(B5)
=DISTR.NORM.ESTAND.(B12)
Paso 5: El valor-p de 0.0009 es menor que a= 0.05. Usted rechaza H 0. Concluye que el punto medio de conge lac ion de la leche suministrada esta por debajo de -0.545 o. La empresa debe
emprender una investigacion del proveedor de leche, porque el punto medio de congelacion se encuentra muy por debajo de lo que cabria esperar como posibilidad.
EJEMPLO 9.5
SOLUCI6N
~
~
Pruc
,...
9.3 : Pruebas de una cola
289
Paso 5: Selecciono una muestra de 50 ~lillas de chocolate y el peso medio muestral result6 de
6.034 onzas. Utilizando n =50, X= 6.034, cr = 0.02, y la ecuacion (9.1) de la pagina 278:
0.02
..[;,
.J50
Para realizar pruebas de hipotesis de una cola, hay que formular H 0 y H 1 de manera apropiada.
A continuacion se encuentra un resumen de las hip6tesis nula y altemativa para pruebas de una cola.
1. La hipotesis nula H 0 representa al status quo o creencia actual en una situacion.
2. La hip6tesis altemativa H 1 es lo opuesto a la hipotesis nula y representa una afirmaci6n de investigacion o inferencia especifica que quisiera demostrar.
3. Si usted rechaza la hipotesis nula, tiene una prueba estadistica de que la hipotesis altemativa es
correcta.
4. Si usted no rechaza la hipotesis nula, entonces no ha podido demostrar la hipotesis altemativa.
Sin embargo, el no poder demostrar la hipotesis altemativa no significa que se haya demostrado la hip6tesis nula.
5. La hipotesis nula (H0) siempre se refiere a un_valor especifico delparametro poblacional (como J.L), no a un estadistico de muestra (como X).
6. El enunciado que describe la hipotesis nula siempre contiene un signo de igual en relaci6n con
el valor especifico del parametro (por ejemplo, H 0 : Jl 2:: -0.545 C).
7. El enunciado que describe la hipotesis altemativa nunca contiene un signo de igual relacionado
con el valor especifico del parametro (por ejemplo, H 1: Jl < -0.545 C).
Aprendizaje basico
_ __ J
de PH Grade
9.41 En el problema 9.40, z,cual es su decision estadistica si probo la hip6tesis nula con un nivel de significancia de 0.01?
9.42 En una prueba de hipotesis con una cola en la que serechaza H0 s6lo en Ia cola inferior, se calcul6 que el valor del estadistico de prueba Z es + 1.38, z,cual es el valor-p?
Aplicaci6n de conceptos
9.39 En el problema 9.38, z,cual es su decision estadistica si probo la hipotesis nula con un nivel de significancia de 0.05?
ASISTENCIA
ca barras de acero. Si el proceso de producci6n funciona de forma adecuada, las barras de acero que se
fabrican tienen una longitud media de por lo menos 2.8 pies,
con una desviaci6n estandar de 0.20 (como lo determinan las
especificaciones de ingenieria del equipo de producci6n). Las
barras de acero mas largas se pueden utilizar o modificar, pero
de PH Grade
290
9.46 En Estados Unidos, los nifios son responsables por ventas que ascienden a 36 mil millones de dolares al aiio. Cuando
9.4
Psychology, 2003, 13(3):278-288). Suponga que quiere demostrar que los nifios de su ciudad promedian mas de cinco salidas
a la tienda por semana. Sea flla media poblacional del nfunero
de veces que los niiios de su ciudad salen a la tienda.
a. Determine las hip6tesis nula y altemativa.
b. Explique el significado de los errores tipo I y tipo IT en el
contexto del escenario anterior.
c. Suponga que realiza un estudio en la ciudad donde vive.
Con base en estudios previos, usted supone que Ia desviacion estandar del numero de salidas a la tienda es de 1.6.
Toma una muestra de 100 nifios y descubre que el numero
medio de salidas a Ia tienda es de 5.47. Con un nivel de significancia de 0.01, l,existen evidencias de que el numero
medio poblacional de salidas a la tienda es mayor que cinco
por semana?
d. Interprete el significado del valor-pen el inciso c).
9.47 Las politicas de una sucursal bancaria especifica establecen que sus cajeros automaticos deben contener efectivo suficiente para satisfacer a los clientes que hacen retiros durante todo el fin de semana. La aceptacion del cliente depende de que
tales servicios satisfagan sus necesidades. En esta sucursal, Ia
cantidad media poblacional de dinero retirado del cajero automatico por transacci6n durante el fm de semana es de 160 d6lares, con una desviacion estandar poblaciona1 de 30 d6lares. Suponga que en una muestra de 36 transacciones, se descubre que
la cantidad media muestral de dinero retirado es de 172 dolares.
a. Utilizando el metodo del valor critico para probar Ia hip6tesis, con un nivel de significancia de 0.05, l,existen evidencias para creer que la cantidad media poblacional retirada es
mayor que 160 d6lares?
b. Utilizando el metodo del valor-p para probar Ia hip6tesis,
con un nivel de significancia de 0.05, l,existen evidencias
para creer que la cantidad media poblacional retirada es rna
yor que 160 dolares?
c. Interprete el significado del valor-p en este problema.
d. Compare sus conclusiones para los incisos a) y b).
.X -fl.
t=-s-
(9.2)
{;
donde el estadistico de prueba t sigue una distribuci6n t que tiene n - 1 grados de libertad.
--
......
9.4: Prueba t de hip6tesis para Ia media (o desconocida)
291
Para ejemplificar e1 uso de esta prueba t, volvamos al escenario "Uso de Ia estadfstica" referente aIa empresa de remode1aciones Saxon de 1a pagina 238. Durante los Ultimos cinco afios, e1 monto medio por factura es de 120 d6lares. Como contador de la empresa, siesta cantidad cambia, usted
debe informar al departamento de finanzas. En otras palabras, se utiliza la prueba de hip6tesis para
tratar de demostrar que el monto medio por factura esta aumentando o disminuyendo.
FIGURA 9.9
Prueba de una hip6tesis
con respecto a Ia media
(~ desconocida), con un
nlvel de significancia de
O.OS Y con 11 grados
de libertad.
t,,
0
I
Regi6n de
rechazo
Regi6n de
, no rechazo
Regi6n de
rechazo
I
Valor
crftico
$120
Valor
crftico
292
TABLA 9.3
Determinacion del valor
crftico para un area de
0.025 en cada cola, con
11 grades de libertad, a
partir de Ia tabla t.
FIG I
Resu
Grados
de libertad
I
2
3
4
5
6
7
8
9
10
11
.25
.10
.05
.01
.005
1.0000
0.8165
0.7649
0.7407
0.7267
0.7176
0.7111
0.7064
0.7027
0.6998
3.0777
1.8856
1.6377
1.5332
1.4759
1.4398
1.4149 .
1.3968
1.3830
1.3722
6.3138
2.9200
2.3534
2.1318
2.0150
1.9432
1.8946
1.8595
1.8331
1.8125
31.8207
6.9646
4.5407
3.7469
3.3649
3.1427
2.9980
2.8965
2.8214
2.7638
2.7181
63 .6574
9.9248
5.8409
4.6041
4.0322
3.7074
3.4995
3.3554
3.2498
3.1693
3.1058
para
mue!
Paso 5: Los siguientes datos, INVOICES, son las cantidades (en d6lares) en una muestra de 12 facturas.
108.98
93.32
152.22
91.97
111.45
111.56
110.59
75.71
127.46
128.58
107.26
135.11
AI utilizar las ecuaciones (3.1) y (3.10) de las paginas 73 y 82, o el resultado de Excel de
la figura 9 .I 0 o el de Minitab de la figura 9.11 :
n
L X;
"""
- 2
..J(X;- X)
x = _EL_
= $112.85
n
..!;i==..! _ _ _ _
S=
n-1
= $20.80
FIGURA 9.10
Hoja de Excel para Ia
prueba t de una
muestra de las facturas.
20.80
.fl2
B
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
uata
Null Hypothesis
Level of Siqniflcance
Sample Size
Sample Mean
Sample Standard Deviation
....
120
Cuand.
O.Q5
tamario
12
112.85
Sestim,
20.8
Intermediate Calculations
Standard Error of the Mean
Degrees of Freedom
6.0044
t Test Statistic
-1.1908
11
Two-Tall' Test
.2.2010
Lowar Critical Valua
2.2010
Upper Critical Valua
p-Valua
0.2588
Do not rajact tha null hypothesis
SUficien1
fJOca dit
BSIRAIZ(B6)
distribu(
86 -1
"'(87- 84)1811
tanto, ct
lamue51
120,de
=-(DISTR.T.INV.(85, 812))
=DISTR.T.INV.(85, 812)
:DISTR.T(A8S(813), 812, 2)
en Iugar
293
FIGURA 9.11
Resultado de Minitab
para Ia prueba t de una
muestra de las facturas.
Test of mu
Va:ti8h1e
Amount
120 vs not
120
IT
Mem
StDev
SE Mem
12
112.851
20.798
6.004
95~
CI
(99.636, 126.065)
T
-1.19
0.259
Paso 6: Puesto que -2.201 <I= -1.19 < 2.201, nose rechaza Ia hip6tesis nula H 0. No existen evidencias suficientes para concluir que la cantidad media por factura no supera 120 d6lares.
Debe informarse al departamento de finanzas que Ia auditoria sugiere que el monto medio
por factura no ha cambiado.
-
Revision de suposiciones
'Cuando se cuenta con un
tarn ano
- de muestra grande,
S estirna cr con precision
Sufi .
ICiente para que exista
poca diferencia entre las
dJstribuciones t y Z. Por to
tanto
' cuando el tamaiio de
Ia rnu
estra es mayor que
120 de .,.
'
ut1 1za una prueba Z
en lugar de una prueba t.
La prueba t de una muestra se utiliza cuando no se conoce la desviaci6n estandar a, y se estima empleando la desviaci6n estandar muestral 1 S. La prueba I se considera un procedirniento parametrico
clcisico, que hace varias suposiciones rigurosas que se deben sostener para gatantizar que sus resultados sean validos.
Para utilizar Ia prueba I de una muestra, se supone que los datos representan una muestra aleatoria procedente de una poblaci6n con distribuci6n normal. En Ia practica, mientras el tamafio de la
muestra no sea muy pequefio y la poblaci6n no sea muy asirnetrica, Ia distribuci6n 1 brinda una buena aproximaci6n de la distribuci6n muestral de la media, cuando cr no se conoce.
Existen varias formas de evaluar la suposici6n de normalidad necesaria para utilizar la prueba t.
Se puede observar que tanto concuerdan los estadisticos muestrales con las propiedades te6ricas de
la distribuci6n normal. Tambien se podria usar un histograma, una grafica de tallo y hoja, una grafica de caja y bigote o una grafica de probabilidad normal. Vea mas detalles sobre la evaluaci6n de la
normalidad en la secci6n 6.3, pagina 194.
294
La figura 9.12 muestra el resultado de Excel para los datos de estadistica descriptiva. La figura
9.13 muestra una gratica de caja y bigote de Minitab. La figura 9.14 muestra una gratica de probabilidad normal de Minitab.
FIGURA 9.12
Estadfstica descriptiva
para los datos de las
facturas de venta.
1
Invoice Amount
2
3 Mun
112.8508333
4 Standard Error
6.003863082
5 Median
111.02
Mode
#N/A
7 Standard Deviation
8
9
10
11
12
13
14
15
16
17
20.7979918
432.5564629
0.172707598
0.13363802
76.51
75.71
152.22
1354.21
12
152.22
75.71
Sample Variance
Kurtosis
Skewnees
Range
Minimum
Maximum
Sum
Count
Largest(1)
Smallest(1)
- ~
FIGURA 9.13
Grafica de caja y bigote
de Minitab para los
datos de las facturas de
venta.
Bolcplot of Amou1t
(with Ho _and !IS" t1:a oftda u_ lniBN~I fir b
mNn)
est
9.~
Ia f
9.5
ticc
tesi
a. I
b. I
9.5
..
esta
110
1.20
Amount
80
70
1<10
150
160
b. ~
9.5;
pobj
prue
FIGURA 9.14
Grafica de probabilidad
normal de Minitab para
los datos de las facturas
de venta.
9.5:
pobJ
Prue
HTT--r-o--r~--~~~--.-,-~~r-o--r~r-~-r-,--n
I
I
to
t-
I
I
I
I
I
I
I
I
l
I
I
I
I
I
I
I
I
I
I
I
I
I
I
j.
I
I
Apl
Pue
mer
rno!
~--+ --1
I
I
I
---t--"'1---}--I
I
I
I
I
+-- '1 ----1-- -r--
7'0
-J..-
-1--l---.
_ __ -'--J- - - l- - - .J,_
I
I
I
I
I
1
I
I
j - ~~==+==~===~==~==4==~==~=~==4===~==r.==~===~==}==~==~==~==t
~-- t--~---~--t --1--~-- -~--t :-l-- - ~--t -- ~---~ - -t-- i- - ~---r - - t
2e
&O
~- -+-- ~- --~--+-~-- ~--- ~- - !-- +-- ~-- ~- - ~-- -1--- ~--~ ---l---:--- ~
It---1'l - -1I --t-l --1-l I-- -1-I - Ir - - 1':- -1-I - Ir -- t-I - --1-l -1--I It--- -tl---t--l rl - l
I
I'
I
I
I
I
I
I
I
I
I
I
I
I
I
I
I
I
I
I
I
I
I
I
I
I
I
I
I
I
I
I
--t
r---r--l---r--r--t--l---r--t--1---r--t--l---r--t--i--l---r--t
70
eo
100
110
120
Amount
130
1<10
150
!
160
Min
295
Puesto que Ia media es muy cercana a Ia mediana, los puntos sobre Ia gratica de probabilidad
normal parecen aumentar siguiendo una linea aproximadamente recta, y Ia gratica de caja y bigote
parece aproximadamente simetrica. Se puede suponer que Ia poblaci6n de facturas tiene una distribuci6n normal. Entonces, Ia suposici6n de normalidad es valida y tambien lo son los resultados del
auditor.
La prueba t es una prueba robusta. No pierde fuerza si Ia forma de Ia poblaci6n se desvia un
poco de una distribuci6n normal, en especial cuando el tamafio de Ia muestra es lo bastante grande
como para permitir que el estadistico de prueba t reciba Ia influencia del teorema de limite central
(vea la secci6n 7.2). Sin embargo, es probable que se obtengan conclusiones err6neas y que se pierda potencia estadistica si Ia prueba t se utiliza de manera incorrecta. Si el tamafio de Ia muestra n es
pequefio (es decir, menor que 30) y nose hace con facilidad Ia suposicion de que Ia poblacion subyacente tiene una distribucion por lo menos aproximadamente normal, son mas apropiados otros
procedimientos de prueba no parametricos (vea las referencias I y 2).
Aprendizaje biisico
9.48 Si en una muestra den= 16 seleccionada a
partir de una poblaci6n normal, X= 56 y S = 12,
l,Cual es el valor del estadistico de prueba t si usted
esta probando Ia hipotesis nula, H 0 : 1.1 = 50?
L----'
9.50 En los problemas 9.48 y 9.49, (,Cuales son los valores criticos de Ia tabla t si el nivel de significancia a.= 0.05 y Ia hipotesis altemativa H 1 es:
a. 1.1 :;C 50?
b. I!> 50?
Aplicaci6n de conceptos
Puede resolver los problemas 9.54 a 9.58 manualmente o con Excel, Minitab o SPSS. Le recomendaZ!?s. resolver los problemas 9.59 a 9.65 con Excel,
'Y11 nltab o SPSS.
{,AUTo 9.54 El director de admisi6n de una gran universidad advierte a los padres de los alumnos de primer
ingreso sobre el costo de los libros durante un se~~stre tipico. Seleccion6 una muestra de 100 alumnos y regis0 sus gastos en libros durante el semestre. Luego calcul6 un
~osto medio muestral de 315.40 d6lares y una desviaci6n estanar de 43 .2 rlAI:~rt>~
Examen
a. Utilizando un nivel de significancia de 0.1 0, (,existe evidencia de que Ia media poblacional este por arriba de 300 dolares?
b. l,Culil seria su respuesta al inciso a), si Ia desviacion estandar fuera de 75 dolares y el nivel de significancia de 0.05?
c. l,Culil seria su respuesta al inciso a), si Ia media muestral
fuera 305.11 d6lares y Ia desviacion estandar muestral de
43.20 d6lares?
296
19
48
16 64 28 28 31
17
17
17 91
90 60 56 31
92 63
50 51
69
2.031 2.029 2.025 2.029 2.023 2.020 2.015 2.014 2.013 2.014
2.012 2.012 2.012 2.010 2.005 2.003 1.999 1.996 1.997 1.992
b.
1.994 1.986 1.984 1.981 1.973 1.975 1.971 1.969 1.966 1.967
c.
1.963 1.957 1.951 1.951 1.947 1.941 1.941 1.938 1.908 1.894
342
a.
2.109 2.086 2.066 2.075 2.065 2.057 2.052 2.044 2.036 2.038
56 22
18
16 17
9.
pi
lo:
35
137
31
27
152
123
81
74 27
11
19
126
110
110
29
61
35
94
31
26
12
165
32
29
28
29
26
25
13
10
27
52
30
22
36
33
68
26
un
ter
cif
arc
aCl
exi
me
da
un1
cifi
a.
b.
C,
J
(
d. I
9.6
raci
de 1:
bois
TEA
mue
14 13
turn.
20 23
a.
i,
b.
c
c;
in
c.
9.65
fond,
9.64 En el problema 3.55 de Ia pagina 112, se explica la operaci6n de llenado de bolsas de te. Una importante caracteristica
de Ia calidad que resulta de interes en el proceso de llenado de
bolsitas de te es el peso que contienen. Los datos del archivo
TEABAGS son un arreglo ordenado del peso, en gramos, de una
muestra compuesta por 50 bolsas de te producidas durante un
tumo de ocho horas.
a. l,Existe evidencia de que Ia cantidad media de te por bolsa es
diferente de 5.5 gramos (utilice a= 0.01)?
b. Construya un intervalo de confianza estimado del 99% de Ia
cantidad media poblacional de te por bolsa. Interprete este
intervalo.
c. Compare las conclusiones obtenidas en los incisos a) y b).
9.65 La siguiente tabla contiene una muestra aleatoria de 30
fondos de inversion, tomada de los fondos de inversion men-
9.5
297
CHANGE2004
Fondos de inversi6n
ABN AMRO Growth I
Aim Funds HYld
Amer Advant Int Plan
Artisan Funds SmCap
Calif Trust S&P500
Cohen and Steers Inst Rei
Columbia Balance Z
Delaware Large Cap Value A
Dimension EmgMkt
Dodge&Cox Stock
Dreyfus It Inc
Dreyfus OHMA
Eaton Balanced
Emerald OrA
Evergreen GLLeadA
Federated Cap App
Federated Inti Eq
Fidelity Banking
FirstAmerican LgCapValue
Janus Balanced
Kinetics Internet
Merrill Lynch Equity Inc
Nicholas Group Nich
Northern Balanced A
One Group DivMidCap
Prudential Bear
Putnam Income
South Trust Value
Third Avenue Real Est
Van Kampen Entc
Cambio
-0.22
0.00
-0.42
-0.24
-0.23
-0.55
-0.15
-0.17
-0.38
-1.50
-0.09
-0.02
-0.06
-0.18
-0.26
-0.20
-0.43
-0.58
-0.17
-0.16
-0.21
-0.12
-0.46
-0.09
-0.24
0.03
-0.02
-0.14
-0.26
-0.10
298
z = .....,;p==-=1t=
(9.3)
~1t(l: 1t)
. donde
p = -;; =
X-mt
~mc=(l=-=1t=)
(9.4)
Utilicemos el siguiente estudio, publicado en The Wall Street Journal, para ilustrar la prueba Z
de una muestra para una proporci6n. En ese estudio se plante6la pregunta: "i,Existe igual nfunero de
negocios caseros propiedad de hombres y mujeres?" El estudio de 899 negocios caseros report6 que
369 eran propiedad de mujeres (Eleena De Lisser y Dan Morse, "More Men Work at Home than Women, Study Shows", The Wall Street Journal, 18 de mayo, 1999, B2).
Para este estudio, las hip6tesis nula y altemativa se enunciaron de Ia siguiente manera:
Fl
He
Ex'
sol
ne!
FIGURA 9.15
Prueba de hip6tesis
de dos colas para Ia
proporci6n, con un
nivel de significancia
de 0.05.
FIG
Resu
para
prop
Regi6n de
rechazo
Regi6n de
no rechazo
Regi6n de
rechazo
negc
299
= 369
= 0.41046
899
Z=
p-1t
~1t(1:1t)
= 0.41046- 0.50
0.50(1 - 0.50)
= -0.08954 = -5.37
0.0167
899
o, utilizando la ecuaci6n (9.4),
z=
Como -5.37 < -1.96, se rechaza H 0. Se puede conc1uir que 1a proporci6n de negocios caseros
propiedad de mujeres noes 0.50. La figura 9.16 muestra una hoja de trabajo de Excel para estos
datos.
FIGURA 9.16
Hoja de trabajo de
Excel para el estudio
sabre propietarios de
negocios caseros.
A
8
I
1 Ownership Proportion Hypothesis
2
Date
3
.4 Null Hypothesis
0.5
P'
8.!15
5 Level of Significance
6 Number of Successes
369
7 .sample Size
899
8
9
Intermediate Calculations
0..4105
10 Sample Proportion
11 Standard Error
0.0167
12 lZ Test Stetlstlc
.5.3697
.13
1.4
T--TaiiTest
15 Lower Critical Value
-1.9600
1.9600
16 Upper Critical value
17 p-Velue
0.0000
Reled the null hypothesis
18
88187
RAIZ (8.4 (1 84)187}
(810. 84)1811
:DISTR. NORM. ESTAND. INV. (85/2)
:DISTR. NORM. ESTAND. INV. (1-8512)
::2*(1-DISTR. NORM. ESTAND.(ABS(B12)))
FIGURA 9.17
Resultado de Minitab
Para el estudio sabre
Propietarios de
negocios caseros.
IT
Saap1e p
369 899
0.410456
95' CI
(0.3'18300, 0.442612)
Z-Value
P-Value
-5.3'1
0.000
300
EJEMPLO 9.6
SOLUCION
H 0 : 1t :S 0.88 (es decir, Ia proporci6n de pedidos entregados correctamente es menor o igual que 0.88)
H 1: 1t > 0.88 (es decir, Ia proporci6n de pedidos entregados correctamente es mayor que 0.88)
Se utiliza Ia ecuaci6n (9.3) de Ia pagina 298,
X
92
p=-=-=0.92
n
100
z_
-
p-
1t
~1t(ln- 1t) -
r=o=.9=2=-=o==88=
0.88(1- 0.88)
100
o.o4
0.0325
= 1.23
9
c:
si
Aprendizaje basico
9.66 Si en una muestra aleatoria de 400 articulos,
88 estan defectuosos, ~cual es Ia proporci6n roues'-------' tral de articulos defectuosos?
9.67 En el problema 9.66, si Ia hip6tesis nula establece que un 20% de los articulos estan defectuosos,
'--------' ~cual es el valor del estadistico de prueba Z?
9.68 Suponga que en los problemas 9.66 y 9.67 usted esta probando Ia hip6tesis H 0: 1t = 0.20 contra Ia
'--------'
hip6tesis altemativa de dos colas H 1: 1t =f:. 0.20 y selecciona un nivel de significancia a = 0.05. ~CuaJ es su decisi6n estadistica?
Aplicaci6n de conceptos
9.69 Un articulo pubJicado por The Wall
Street Journal dice que mas de Ia mitad
de todos los estadounidenses preferirian
recibir 100 d6lares que un dia libre en el trabajo. Esta afrrmaci6n se basa en una encuesta realizada por American Express
Incentive Services, en Ia que 593 de 1,040 participantes dijeron
ASISTENCIA
de PH Grade
/AUTO
v Examen
preferir los 100 d6lares (Carlos Tejada, "Work Week", The Wall
Street Journal, 25 de julio, 2000, AI).
a. Con un nivel de significancia de 0.05, ~existe evidencia basada en los datos de Ia encuesta de que mas de Ia mitad de
todos los estadounidenses preferirian recibir I 00 d6lares que
un dia libre?
b. Calcule el valor-p e interprete su significado.
--
9.6
301
Street Journal, 24 de septiembre, 2001, R6). Esto se mide mediante la tasa de conversi6n, el porcentaje de visitantes que
compran algo al visitar el sitio. Este articulo inform6 que Ia tasa
de conversi6n de llbean.com fue del 10.1% y lade victoriasecret.com fue del 8.2%. Suponga que ambos sitios se redisefiaron con la fmalidad de aumentar sus tasas de conversi6n. Se
seleccionaron muestras de 200 visitantes en cada uno de los sitios redisefiados. Suponga que 24 visitantes de llbean.com y 25
de victoriasecret.com hicieron una compra.
a. Con un nivel de significancia de 0.05, l,existe evidencia de
un aumento en la tasa de conversi6n de llbean.com?
b. Con un nivel de significancia de 0.05, l,existe evidencia de
un aumento en la tasa de conversi6n de victoriasecret.com?
9.74 Mas que nunca antes, las mujeres profesionistas estan renunciando a Ia matemidad, ante las lirnitantes de tiempo que
irnplica su desarrollo profesional. Aful asi, muchas mujeres todavia encuentran la manera de ascender en la escala corporativa
y dedicar tiempo para tener hijos. Una encuesta realizada a 187
asistentes a! encuentro Las mujeres mas poderosas en los negocios, organizado por la revista Fortune en marzo de 2002, revel6
que 133 tenian por lo menos un hijo (Carol Hymowitz, "Women Plotting Mix of Work and Family Won't Find Perfect
Plan", The Wall Street Journal, II de junio, 2002, Bl). Suponga
que el grupo de 187 mujeres es una muestra de una poblaci6n
compuesta por todas las mujeres ejecutivas exitosas.
a. l,Cual es Ia proporci6n muestral de mujeres ejecutivas exitosas que tienen hijos?
b. Con un nivel de significancia de 0.05, l,es posible afirmar
que mas de la mitad de todas las mujeres ejecutivas exitosas
tienen hijos?
c. Con un nivel de significancia de 0.05, l,eS posible afirmar
que mas de dos terceras partes de todas las mujeres ejecutivas exitosas tienen hijos?
d. l,Cree que la suposici6n de muestra aleatoria es valida? Explique su respuesta.
Mientras planea la realizaci6n de una prueba de hip6tesis con base en una encuesta, investigaci6n o experimento, debe plantear varias interrogantes que tienen por objeto garantizar el uso de la
metodologia apropiada. Durante la etapa de planeaci6n, es necesario plantear y responder preguntas
como las siguientes.
1. l,Cual es el objetivo de la encuesta, estudio o experimento? l,C6mo puede traducir ese objetivo
en una hip6tesis nula y una altemativa?
2. l,La prueba de hip6tesis es una prueba de dos colas o una prueba de una cola?
302
3. l,Puede seleccionar una muestra aleatoria a partir de toda Ia poblaci6n de interes subyacente?
4. j,Que clases de datos recopilara de Ia muestra? l,Las variables son numericas o categoricas?
5. l,Con que nivel de significancia, o riesgo de cometer un error tipo I o tipo II, debe realizar Ia
prueba de hip6tesis?
.
6. l,El tamaiio de Ia muestra pretendido es lo suficientemente grande para alcanzar Ia potencia de
Ia prueba correspondiente al nivel de significancia elegido?
7. l,Cual procedirniento de prueba estadistica debe utilizar y por que?
8. l,Que conclusiones e interpretaciones se obtendran a partir de los resultados de Ia prueba de hipotesis?
Por lo anterior, es conveniente consultar a una persona con entrenamiento estadistico sustancial
desde que inicia el proceso. Con mucha frecuencia, se consulta a esas personas de forma muy tardia
en el proceso, despues de recopilados los datos. Por lo general, todo lo que puede hacerse en una etapa tan avanzada es seleccionar el procedirniento de prueba estadistico que resulta mejor para los datos. El investigador se ve forzado a suponer que ciertos sesgos incorporados al estudio (causados por
Ia mala planeacion) son insignificantes. Pero esta es una suposici6n enorme. La buena investigaci6n
implica una buena planeacion. Para evitar los sesgos, desde el principio deben incluirse los controles adecuados.
Es necesario distinguir entre Ia metodologia de investigacion defectuosa y el comportamiento
.falto de etica. Las consideraciones eticas se presentan al manipular el proceso de prueba de hip6tesis. Algunos de los problemas eticos que podrian surgir se relacionan con el metodo de recopilaci6n
de datos, el consentirniento informado de los sujetos sometidos a estudio, el tipo de prueba (una cola o dos colas), Ia elecci6n del nivel de significancia a, hurgar en los datos, Ia limpieza y eliminaci6n
de datos, y el reporte de los hallazgos.
Consentimiento informado de los participantes humanos en ''tratamiento" Las consideraciones eticas exigen que todo individuo que en alg6n experimento va a ser sometido a algUn
''tratamiento" debe ser advertido del proyecto de investigacion y de todos los efectos conductuales o
fisicos colaterales. El sujeto tambien debe proporcionar su consentirniento informado con respecto a
su participacion.
Tipo de prueba: dos colas.o una cola Si se dispone de informacion previa que le conduzca
a probar Ia hip6tesis nula contra una altemativa especificamente dirigida, entonces una prueba de
una cola es mas potente que una de dos colas. Sin embargo, si solo esta interesado en las diferencias
con respecto a Ia hipotesis nula, y no en Ia direccion de Ia diferencia, el procedirniento apropiado es
Ia prueba de dos colas. Por ejemplo, si investigaciones y pruebas estadisticas realizadas previamen
te establecieron la diferencia en una direcci6n particular, o si una teoria cientifica establecida asien!B
que es posible que solo se presenteD resultados en una direccion, entonces es apropiada la prueba de
una cola. Nunca es adecuado modificar Ia direcci6n de una prueba despues de recopilados los datos.
Seleccion del nivel de signijicancia .a. En un estudio bien disetlado, el nivel de signific~ci.1~
a se selecciona antes de emprender Ia recopilaci6n de los datos. Nose debe alterar el nivel de 81gn
303
ficancia despues del hecho para obtener un resultado especifico. Tambien es una buena costumbre
reportar siempre el valor-p, y no s6lo las conclusiones de Ia prueba de hip6tesis.
Hurgar en los datos Nunca es permisible hurgar en los datos. Noes etico realizar una prueba
de hipotesis sobre un conjunto de datos, observar los resultados, y seleccionar despues el nivel de
significancia, o decidir entre una prueba de una o dos colas. Usted debe tomar esas decisiones antes
de recabar los datos, con la finalidad de que sus conclusiones tengan sentido. En situaciones donde
' se consulta a un experto en estadistica ya avanzado el proceso, con los datos ya en mano, resulta imperativo establecer las hip6tesis nula y alternativa y seleccionar el nivel de significancia antes de
efectuar la prueba de hipotesis. Ademas, no es valido modificar o eliminar de forma arbitraria los valores extremos o inusuales con el fin de alterar los resultados de las pruebas de hipotesis.
Repone de los hallazgos AI realizar investigaci6n, habra que documentar los resultados buenos y malos. Resulta inapropiado reportar los resultados de las pruebas de hipotesis que muestran
significancia estadistica, pero no los que no cuentan con evidencias suficientes dentro de los hallazgos. En caso de que no exista evidencia suficiente para rechazar H0, debe aclararse que esto no demuestra que Ia hipotesis nula sea cierta. Lo que sefi.ala el resultado es que, con el tamafi.o de Ia muestra empleado, no existe informacion suficiente para refutar Ia hip6tesis nula.
304
En resumen, al analizar los aspectos eticos relacionados con las pruebas de hip6tesis, Ia clave
radica en Ia intenci6n. Es indispensable distinguir entre un mal analisis de los datos y una practica
falta de etica. Esta ultima se presenta cuando, intencionalmente, los investigadores crean un sesgo
de selecci6n al recopilar los datos, manipulan el tratamiento de sujetos humanos sin su consentimiento informado, indagan en los datos para seleccionar el tipo de prueba (dos colas o una cola) y/o
el nivel de significancia, ocultan los hechos eliminando los valores que no respaldan una hip6tesis
establecida, o no reportan hallazgos pertinentes.
RESUMEN
FIGURA 9.18
Mapa para seleccionar
Ia prueba de una
muestra.
al(
CO<
en
en
est
est
Categ6ricos
hi~
hip
hw
No
Prueba Zpara
Ia proporci6n
Prueba Z
Prueba t
G:.. -cc.= ""-"--'-'~
AI decidir que tipo de prueba se va a utilizar, hay que plantearse las siguientes preguntas:
Re
9.7
hip(
9.71
9.7.
En la tabla 9.4 se encuentra una lista con los temas estudiados
en este capitulo.
9.71
Prue
9.7~
9.8(
dia 1
Tipo de datos
TABLA 9.4
Resumen de los temas
incluidos en el
capitulo 9.
L=--.:..c''-~-'-_J
Tipo de analisis
Numericos
Categ6ricos
---
P<ite:
9.81
Pruei
9.82
COnJ
-- - - -- - - -Problemas de repaso
305
FORMULAS IMPORTANTES
Prueba Z de hip6tesis para 1a media (a conocida)
X-J.L
z == cr
../n
z=
(9.1)
X-J.L
t == - -
(9.2)
../n
p -
1C
~1t(1~1C)
(9.3)
------l
CONCEPTOS
aleatorizacion 302
coeficiente de confianza (1 -a)
error tipo I 275
error tipo n 275
estadistico de prueba 274
estadistico de prueba Z 278
hip6tesis altemativa H 1 273
hipotesis nula (H0) 272
hurgar en los datos 303
275
276
290
PROBLEMAS DE REPASO
Revision de su aprendizaje
Aplicaci6n de conceptos
hip6tesis alternativa H 1?
~Como un intervalo de confianza perrnite estimar lamedi_a P?blacional, brindando conclusiones para la prueba de hiPotests correspondiente ala media poblacional?
980
9
81 ~Cual es el metodo del valor critico de seis pasos para la
Prueba de hipotesis?
98
2 (.Cuales son aigunos de los aspectos eticos relacionados
con Ia realizaci6n de una prueba de hipotesis?
306
d.
e.
f.
~Por que
9.84 La Quinta Motor Inns desarroll6 un modelo computarizado para auxiliar en el pron6stico de rentabilidad de los lugares que se estan considerando como ubicaci6n de hoteles
nuevos. Si el modelo computarizado pronostica grandes ganancias, La Quinta adquiere el predio y construye un nuevo hotel.
Si el modelo pronostica ganancias pequeiias o moderadas, La
Quinta prefiere no operar en ese Iugar (Sheryl E. Kimes y
James A. Fitzsimmons, "Selecting Profitable Hotel Sites at La
Quinta Motor Inns", Interfaces, vol. 20, marzo-abril de 1990,
12-20). Este procedimiento de toma de decisiones se puede exprdar en el marco de la prueba de hip6tesis. La hip6tesis nula
establece que el sitio no es una ubicaci6n rentable. La hip6tesis
altemativa establece que el sitio es una ubicaci6n rentable.
a. Explique los riesgos relacionados con cometer un error tipo I.
b. Explique los riesgos relacionados con cometer un error tipo II.
c. ~Que tipo de error cree que estan tratando de evitar a toda
costa los ejecutivos de La Quinta Motor Inns? Explique su
respuesta.
d. ~ C6mo influyen los cambios en el criterio de rechazo sobre
las probabilidades de cometer errores tipo I y II?
9.85 Un estudio realizado en 1999 por la General Accounting
Office (GAO) descubri6 que alrededor de la tercera parte de los
23;4 millones de jubilados estadounidenses con 65 aiios de
edad 0 mas complementaban sus servicios medicos proporcionados por la seguridad social con algful tipo de cobertura por
parte del patr6n (Carlos Tejada, "Work Week", The Wall Street
Journal, 26 de junio, 2002, B5). El articulo sugiere que esta
proporci6n va en aumento. Suponga que en un estudio actual,
una muestra compuesta por 500 jubilados de 65 aiios o mas seiiala que 185 de ellos complementan los servicios medicos de
seguridad social con alguna forma de cobertura por parte del
patr6n.
a. Con un nivel de significancia de 0.01, ~existen evidencias
de que la proporci6n de jubilados con 65 aiios 0 mas que
complementan los servicios de salud con alguna forma de
cobertura patronal sea ahora superior a Ia tercera parte?
b. Calcule el valor-p e interprete su significado.
9.86 El propietario de una gasolinera desea estudiar los habitos de consumo de gasolina de los conductores en su estaci6n.
Una semana cualquiera, se selecciona una muestra aleatoria de
60 conductores, con los siguientes resultados
a.
b.
c.
d.
e.
9.87 El auditor de una oficina gubemamental recibe Ia encomienda de evaluar los reembolsos por visitas de medicos a Ia
oficina pagadas por Ia seguridad social. La auditoria se realiza
sobre una muestra de 75 de los reembolsos, con los siguientes
resultados:
En 12 de las visitas a Ia oficina, se reembols6 una cantidad incorrecta.
El monto de los reembolsos fue : X= $93 .70, S= $34.55
a. Utilizando un nivel de significancia de 0.05, ~existe eviden~
cia de que el reembolso medio es menor que 100 d6lares?
b. Utilizando un nivel de significancia de 0.05, ~existe evidencia de que Ia proporci6n de reembolsos incorrectos en Ia
poblaci6n es mayor que 0.10?
c. Analice las suposiciones subyacentes de Ia prueba utilizada
en el inciso a).
d. ~Cual seria su respuesta al inciso a) si Ia media muestral
fuera de 90 d6lares?
e. ~Cual seria su respuesta al inciso b) si fueran ISlas visitas a
Ia oficina con reembolso incorrecto?
D1
pl
2
1;870 1,728 1,656 1,610 1,634 1,784 1,522 1,696 1,592 1,66
66
1,866 1,764 1,734 1,662 1,734 1,774 1,550 1,756 1,762 1,8
736
1,820 1,744 1,788 1,688 1,810 1,752 1,680 1,810 1,652 1.
e
ci
d
p
tc
c:
rc
Cl
di
de
ca
a.
b.
c.
d.
e.
r.
9.9
asfc
due
clie;
mas
&ad
ensc
Problemas de repaso
a. Utilizando un nivel de significancia de 0.05, l.,existen evidencias de que Ia fuerza media es mayor que 1,500 Iibras?
b. i.,Que suposici6n debe hacerse para realizar Ia prueba del inciso a)?
c. Evalue esta suposici6n por medio de un metodo gnifico.
Analicela.
d. Con base en su respuesta al inciso a), l.,que se concluye sobre Ia resistencia de los aislantes?
307
sobre p1ataformas de madera. Una vez que se llena Ia plataforma (para casi todas las tejas, una plataforma sostiene 16 cuadros de tejas), se pesa y se registra esta medicion. El archivo
PALLET contiene el peso (en Iibras) de una muestra compuesta
por 368 plataformas de tejas Boston y 330 plataformas de tejas
Vermont.
a. Para las tejas Boston, l.,existe evidencia de que el peso medio
es distinto a 3,150 Iibras?
b. lnterprete el significado del valor-pen el inciso a).
c. Para las tejas Vermont, l.,existe evidencia de que el peso medio es distinto a 3,700 Iibras?
d. Interprete el significado del valor-p en el inciso c).
e. l.,La suposici6n necesaria para los incisos a) y c) se infringe
seriamente?
9.92 .El fabricante de las tejas de asfalto "Boston" y "Vermont" ofrece a sus clientes una garantia de 20 afios en Ia mayoria de sus productos. Para determinar si una teja dura tanto
como el periodo de garantia, en Ia planta se rea1iza una prueba
de vida acelerada. En Ia prueba de vida acelerada, realizada en
un laboratorio, Ia teja se expone a las tensiones que recibiria
en toda su vida util de uso normal, mediante un experimento
que lleva tan s6lo unos minutos. En esta prueba se cepilla repetidamente una teja durante un breve lapso, y se pesa Ia cantidad
de gninulos (en gramos) desprendidos por el cepillado. Se espera que las tejas con menor desprendimiento duren mas en uso
normal que las que experimentan gran cantidad de desprendimiento. El archivo GRANULE contiene los datos de una muestra
compuesta por 170 medidas realizadas en las tejas Boston de Ia
empresa y 140 medidas realizadas en las tejas Vermont.
a. Para las tejas Boston, l.,existe evidencia de que Ia perdida
media de gcinulos es distinta de 0.05 gramos?
b. Interprete el significado del valor-pen el inciso a).
c. Para las tejas Vermont, l.,existen evidencias de que Ia perdida
media de gninulos es distinta de 0.05 gramos?
d. Interprete el significado del valor-pen el inciso c).
e. l.,Se infringe seriamente Ia suposici6n necesaria para responder los incisos a) y c)?
.J
308
,---------------------------------------------------------------------------------------------,
...
Continuando con la supervision de la tonalidad oscura en la impresi6n del peri6dico, ya descrita en el caso Administracion del
Springville Herald del capitulo 6, el departamento de producci6n quiere asegurarse de que la tonalidad oscura media de Ia
impresi6n de todos los ejemplares sea por lo menos de 0.97
sobre una escala estandar en la que el valor que se pretende es
igual a 1.0. Se seleccion6 una muestra aleatoria de 50 ejemplares y se midi6 la tonalidad oscura en cada uno de ellos. Calcule
los estadisticos muestrales y determine si existen evidencias de
que Ia tonalidad oscura media es menor que 0.97. Redacte un
memorando para la gerencia en el que sintetice sus conclusiones.
------------------ ---- --
1.091
1.012
1.223
1.052
SH9
_ _:...- _ _
--- -
mas
- - - -------- - - - - - - - - - -
1. Bradley, J. V., Distribution-Free Statistical Tests (Englewood Cliffs, NJ: Prentice Hall, 1968).
2. Daniel, W., Applied Nonparametric Statistics, 2a. ed. (Boston, MA: Houghton Mifflin, 1990).
3. Microsoft Excel 2003 (Redmond, WA: Microsoft Corporation, 2003).
s
A
Is
S(
ci
G
fit
ta
da
de
L\S~p@~~@[j~~O&~
.
.
_
[____
--------------- - - --------------- ------------------ - -- --------- ----
l .
0
sig
US!
Pa
Ab;
9,),
eje1
boj1
(pBJ
esta
labi
eJ t<l
brea
jiiii"'
309
Apendice
Apendice 9
A9.2
MINITAB
'=~.
z para Ia proporci6n
[372 . 5
Para Ia prueba
Summarized da..
Sample.size: r'!:[2.,..
L- _-....,
J
Neaa:
(li___~ -
---ij (requlredfllrteatl -
:r
'G;;;h'L:-
I!
OK
-I [
= ap..-;;~.:=
Cancel
FIGURA A9.1
Ventana de dialogo 1-Sample Z de Minitab.
.J
310
!-Sampl e 2 - Options
';;
;o.
:.'!'...,
Lg,L =-..1.
Help
'<'
jsgg
rr=-s;~=~]
r='Help= l
FIGURA A9.4 Ventana de dialogo 1 Proportion
de Minitab.
2. En Ia ventana de dialogo 1 Proportion-Options (vea la figura A9.5), introduzca 0.5 en el cuadro de edici6n Test
proportion. Seleccione la casilla Use test and interval ba
sed on normal distribution. En el menu desplegable Alternative, seleccione not equal para realizar una prueba d.e
dos colas. (Seleccione menor que o mayor que para reah
zar un anal isis de una cola.) De clic en OK para volver a Ia
ventana de dialogo 1 Proportion. De clic en el bot6n OK.
I.
Confidence level:
121.~ =~--~~~=~J
Test proportion:
jnot equal
E]i
--1
--
IL
_-~~-~-~--~-
OK
::::J
-~--1!.'--- )
-=--~-==;-=-:;_.
o'I'
I.
_ -
~-===,..;:
Alternative:
,/ Test mean:
II Number Df-trleiS:
I I
.j
!~ '>S~m1Rarlzed~818-
$ta_n4ar4 d~l!l)_on_:
c, Samples Ia tel-ns:
II_:
.._ ,+~.;;.
, ;:
Help
---,
IL
OK
10
10.
-- .
: J....
...........
.. : ~
(
, \'
'
.,;:, .
'''
'
' .
CAPITULO
10
OBJETIVOS DE APRENDIZAJE
En este capitulo, aprendeni los procedimientos para probar hip6tesis de:
Las medias de dos poblaciones independientes .
Las medias de dos poblaciones relacionad3:s
Dos proporciones
Las varianzas de dos poblaciones independientes
Las medias de mas de dos poblaciones
.._
312
uso
DE LA ESTADfSTICA
Comparaci6n de las ventas de los exhibidores
al final del pasillo y los exhib.idores normales
l,El tipo de exhibidores de un supermercado afecta las ventas de los productos? Como gerente de ventas regional de BLK Foods, a usted le interesa
comparar el volumen de ventas de la bebida refrescante a base de cola BLK
cuando se exhibe en un estante normal, en comparaci6n con la exhibici6n
promocional a1 fmal del pasillo. Para pro bar la eficacia de los exhibidores al
final del pasillo, selecciona 20 tiendas de la cadena de supermercados que_
tienen un volumen de ventas similar. De forma aleatoria asigna 10 de
las tiendas al grupo 1 y 10 al grupo 2. Los gerentes de las 10 tiendas en el
grupo 1 colocan Ia bebida refrescante BLK en un estante normal junto a los
demlis. productos de cola. Las 10 tiendas del grupo 2 USl!Jl la exhibici6n promocional al fmal del pasillo. AI termino de una semana, se registran las ventas
de BLK. l,C6mo se puede determinar silas ventas de BLK usando los exhibidores al final del pasillo son las mismas que cuando el producto se coloca en un estante normal?
l,C6mo se podria determinar si Ia variaci6n en las ventas de BLK de una tienda a otra es la misma
para los dos tipos de exhibidores? l,C6mo podrian utilizarse las respuestas a estas preguntas para
mejorar las ventas de BLK?
10.1
n2 de la segunda poblaci6n, y los datos recolectados en cada muestra provienen de una variable numerica. En la primera poblaci6n, Ia media se representa con el simbolo J..li y la desviaci6n estandar
con el simbolo cr 1. En la segunda poblaci6n, la media se representa con el simbolo ll2 y la desviaci6n
estandar con el simbolo cr2.
El estadistico de prueba usado para determinar la 4_ifere.!!cia entre las medias poblacionales se
basa en la diferencia entre las medias de las muestras (X1 - X 2 ). Si se supone que las muestras son
aleatorias y seleccionadas independientemente de las poblaciones que estan distribuidas de fonna
normal, este estadistico seguira Ia distribuci6n normal estandarizada. Si las poblaciones no estan
distribuidas de forma normal, Ia prueba Z sigue siendo la adecuada si las muestras son lo suficiente
mente grandes (generalmente n 1 y n2 2:: 30; vea el teorema de limite central en Ia secci6n 7.2). La'
ecuaci6n (10.1) defme la prueba Zpara Ia diferencia entre dos medias.
(X, -
0'2
_ I + __1.
n1
n2
(10.1)
si
' donde
313
or
or
Sr
Cuando e/ tamafio de
las dos muestras es igual
(esto es, n1 = n2), Ia formula
para Ia varianza conjunta se
. .I.
2
sf + si
1111ca a 5 P = - -stmp
2
H1: J..lt
donde
s2
P
= (n1 -
sj = varianza conjunta
X1 = media de Ia muestra tomada de la poblaci6n 1
Sj = varianza de la muestra tomada de Ia poblaci6n I
n 1 = tamafl.o de la muestra tomada de Ia poblaci6n l
x2 = media de la muestra tomada de la poblaci6n 2
s~
n2
314
FIGURA 10.1
Regiones de rechazo y
de no rechazo para Ia
prueba t de varianza
conjunta para Ia
diferencia entre las
medias (prueba de dos
colas).
F
p
e
Ul
e;
Para demostrar el uso de Ia prueba t de varianza conjunta, regrese al escenario "Uso de Ia estadistica" en la pagina 312. La pregunta que debe responder es si Ia media semanal de ventas de BLK
es la misma cuando se coloca en un estante normal que cuando se coloca en un exhibidor a! final del
pasillo. Hay dos poblaciones de interes. La primera poblacion es el conjunto de todas las ventas
semanales posibles de BLK si todos los supermercados que venden BLK utilizaran estantes normales.
La segunda poblacion es el conjunto de todas las ventas posibles semanales si todos los supermercados que venden BLK utilizaran exhibidores a! final del pasillo. La primera muestra contiene las
ventas semanales de BLK de las 10 tiendas seleccionadas para usar estantes normales, mientras que
Ia segunda muestra contiene las ventas semanales de BLK de las 10 tiendas seleccionadas para exhibir el producto al final del pasillo. La tabla 10.1 contiene las ventas de la bebida de cola (en n1imero
de casos) para las dos muestras COLA.
TABLA 10.1
Comparaci6n de las
ventas semanales de
BLK de dos diferentes
exhibidores (en numero
de casos).
ub
22
40
34
64
52
84
exl
Normal
62
56
30
59
52
83
71
76
54
66
90
77
67
84
Ho: ll1
H1: ll1
llz
=0
Suponiendo que las muestras provienen de poblaciones normales subyacentes que tienen. va
rianzas iguales, se puede utilizar Ia prueba t de varianza conjunta. El estadistico de prueba t slgue
una distribucion t con 10 + 10- 2 = 18 grados de libertad. Usando el nivel de significancia a.""
0.05, divida Ia region de rechazo entre las dos colas para esta prueba de dos colas (es decir, dos par
tes iguales de 0.025 cada una). La tabla E.3 muestra que los valores criticos para estas dos pruebas
de dos colas son +2.1009 y -2.1009. Como muestra Ia figura 10.2, la regia de decision es:
RechazoH0 sit> t 18 = +2.1009
o sit< -t 18
= -2.1009;
Fl
Pn
Mi
315
FIGURA 10.2
Prueba de hip6tesis
de dos colas para
Ia diferencia entre las
medias a un nivel de
significancia de 0.05
con 18 grados de
libertad.
Valor
crftico
critico
X, -x;
De las figuras 10.3 o 10.4, el estadistico t calculado para esta prueba es de -3.04 y el valor-pes
de 0.007.
FIGURA 10.3
Prueba t de salida
en Excel para las dos
ubicaciones de
exhibici6n.
FIGURA 10.4
Prueba t de salida en
Minitab para las dos
ubicaciones de Ia
exhibici6n.
= 0.007
DF
= 18
donde
8
+ (n2 - 1)S} .
(n1 - 1) + (n2 - 1)
2 _ (n1 - 1)S?
P -
.................. .~
316
-21.7 = -3.04
50 801
""
Se rechaza Ia hip6tesis nula porque t= -3.04 < t 18 = -2.1009. El valor-p (como se calcula con Excel
o Minitab) es de 0.00697. En otras palabras, Ia probabilidad de que t > 3.04 o t < -3.04 es igual a
0.00697. Puesto que este valor-pes menor que a= 0.05, hay suficiente evidencia para rechazar Ia hip6tesis nula. Se concluye que las medias de las ventas son diferentes para Ia colocaci6n en estantes
normales y Ia colocaci6n al fmal del pasillo. Con base en estos resultados, las ventas son menores
para Ia colocaci6n normal (es decir, mayor para Ia ubicaci6n al fmal del pasillo).
EJEMPLO 10.1
TABLA 10.2
Tiempos de entrega
para el restaurante local
de pizzas y para Ia
cadena nacional de
pizzas.
Local
16.8
11.7
15.6
16.7
17.5
Cadena
Local
Cadena
22.0
15.2
18.7
15.6
20.8
18.1
14.1
21.8
13.9
20.8
19.5
17.0
19.5
16.5
24.0
En un nivel de significancia de 0.05, l,existe evidencia de que la media del tiempo de entrega es roenor para el restaurante local de pizzas que para la cadena nacional de pizzas?
SOLUCI6N Como usted desea saber si la media es menor para el restaurante locai de pizzas que
para la cadena nacional de pizzas, tiene una prueba de una cola con las siguientes hip6tesis nula y altemativa:
H 0 : J.L 1 ;::: J.L2 (Ia media del tiempo para el restaurante local de pizzas es igual a o mayor que para la cadena nacional de pizzas).
H 1: Ill < J.L2 (Ia media de tiempo para el restaurante local de pizzas es menor que para Ia cadena nacional de pizzas).
Fie
Gr~
La figura 10.5 muestra la prueba t conjunta de salida de Excel para estos datos.
big
FIGURA 10.5
Prueba t conjunta de
salida de Excel para
los datos del tiempo
de entrega de las
pizzas.
A
t:J.!~l.:!:~~-~~~-.1~!.!-~!!~.ii_I!L~~~~!'LY.~l~.!.~~-~-s....- __{,
!
'
! Local ; Chain
par;
las,
del
317
s;C,
n~)
donde
2
s2 _ (n, - 1)S1 + (n 2
l)Si
(n1 - 1) + (n 2
1)
P -
-2.18 = -1.634
97
--/1.7?
Nose rechaza Ia hip6tesis nula porque t = -1.634 > t 18 = -1.734. El valor-p (calculado en Excel) es
de 0.0598. En otras palabras, Ia probabilidad de que t < -1 .634 es igual a 0.0598. Este valor-p indica que si las medias de Ia poblaci6n son iguales, Ia probabilidad de que el estadistico t sea menor que
-1.634 es de 0.0598. Puesto que el valor-p es mayor a a.= 0.05, no hay suficiente evidencia para rechazar Ia hip6tesis nula. Con base en estos resultados, no hay suficiente evidencia para que el restaurante de pizzas local anuncie que ellos tienen un tiempo de entrega menor.
AI probar Ia diferencia entre las medias, se supone que las pob1aciones se distribuyen normalmente con varianzas iguales. Para situaciones en las que las dos poblaciones tienen varianzas
iguales, Ia prueba t de varianza conjunta es robusta (es decir, noes sensitiva) para diferencias moderadas de Ia suposici6n de normalidad, con tal de que el tamafio de las muestras sea grande. En tales situaciones, es factible usar Ia prueba t de varianza conjunta sin que haya efectos serios en su
poder. Sin embargo, si no se puede suponer que los datos en cada gf4po provengan de poblaciones
distribuidas normalmente, se tienen dos opciones: usar un procedirniento no parametrico, tal como
Ia prueba de suma de rangos de Wilcoxon (vea Ia referencia 1), que no depende de Ia suposici6n de
normalidad para dos poblaciones, o utilizar una transformaci6n de normalizaci6n (vea Ia referencia
9) en cada uno de los resultados y posteriormente usar Ia prueba t de varianza conjunta.
Para revisar Ia suposici6n de normalidad en cada uno de los dos grupos, observe el diagrama de
caja para las ventas de las dos ubicaciones al fmal del pasillo en la figura 10.6. Parece que hay solo
una moderada diferencia de Ia normalidad, por lo que Ia suposici6n de normaiidad necesaria para Ia
prueba t no es seriamente infringida.
FIGURA 10.6
GrMica de caja y
bigote de Minitab
para las ventas en
las dos ubicaciones
del pasillo.
90
80
70
l!l
~
60
50
40
30
20
Sales_Normal
Sales_EndAisle
318
(10.3)
0
F
p
~
l donde
--- - _________
SE
dt
p;
Usando un 95% de confianza, el estadistico de muestra reportado en las figuras 10.3 o 10.4 en
la pagina 315, y la ecuaci6n (10.3),
-
X1
254.0056(~
+ ~)
10 10
-21.7 (2.1009)(7.1275)
- 21.7 14.97
- 36.67 s; llt -112 s; -6.73
Por lo tanto, tenemos un nivel de confianza del 95% en que la diferencia en Ia media de ventas entre
Ia ubicaci6n normal y Ia ubicaci6n al fmal del pasillo esta entre -36.67 y -6.73 empaques del producto. En otras palabras, Ia ubicaci6n al final del pasillo vende, en promedio, de 6. 73 a 36.67 empa
ques mas que Ia ubicaci6n normal del producto. A partir de Ia perspectiva de Ia prueba de hip6tesis,
puesto que el intervalo no incluye el cero, se rechaza la hip6tesis nula de la no diferencia entre las
medias de las dos poblaciones.
~
~
319
La figura 10.7 muestra Ia salida de Excel para Ia prueba t de varianza separada. La figura 10.8
ilustra Ia salida de Minitab.
FIGURA 10.7
Prueba t de salida de
Excel de Ia varianza
separada para los datos
de Ia ubicaci6n de
pasillo.
FIGURA 10.8
Prueba t de salida de
Minitab de Ia varianza
separada para los datos
de Ia ubicaci6n de
pasillo.
P-Value
= 0.008
DF
= 15
En las figuras 10.7 y 10.8 el estadistico de prueba es t = -3.04 y el valor-p 0.008 < 0.05. Por lo
tanto, los resultados para la prueba t de varianza separada son casi exactamente iguales a los de Ia
prueba t de varianza conjunta. La suposici6n de igualdad de las varianzas poblacionales notiene un
efecto real en los resultados. Sin embargo, en ocasiones los resultados de las pruebas t de varianza
conjunta y varianza separada entran en conflicto porque se infringe Ia suposici6n de varianzas iguales. Por eso es importante evaluar Ia suposicion y usar tales resultados como guia para seleccionar de
forma apropiada el procedimiento de prueba. En la seccion 10.4 se discute la prueba F para determinar si existe evidencia de Ia diferencia en las dos varianzas poblacionales. Los resultados de esa
prueba ayudaran a determinar cual de las pruebas t (de varianza conjunta ode varianza separada) es
mas apropiada.
Aprendizaje basico
10.1 Dada una muestra de n 1 = 40 de una poblacion con una desviacion estandar conocida cr 1 = 20,
b ..
Y una muestra independiente de n 2 = 50 de otra po;ac,on con una desviacion estandar conocida cr2 = 10, l,Cual es
valor del e~tadistico de prueba Z para probar H0: f.Lt = 112 si
1 ~ 72 y laX2 = 66?
ASISTENCIA
de PH Grade
ASISTENCIA
de PH Grade
a.
0.01?
s2 = s,
a. l,Cual es el valor del estadistico de prueba t de varianza conjunta para probar Ho: llt = ll2?
b. Al encontrar el valor critico del estadistico de prueba t,
l,Cuantos grados de libertad hay?
c. Usando un nivel de significancia a= 0.01, l,cual es el valor
critico para una prueba de una cola de la hipotesis H 0: flt ~
J.t2 en contra de la altemativa H 1: flt > flz?
d. l,Cual es su decision estadistica?
10.5 (,Que suposiciones acerca de las dos poblaciones son necesarias en el problema 10.4?
I.
I
320
10.6 En relaci6n con el problema 10.4, construya una estimaci6n del intervalo de confianza del 95% de Ia diferencia
poblacional entre J.L2 y 1!2
Aplicaci6n de conceptos
Puede resolver manualmente los problemas 10.7 a
10.17 o usando Excel, Minitab o SPSS. Le recomendamos usar Excel, Minitab o SPSS para resolver los problemas 10.18 a 10.21.
10.7 El gerente de operaciones de una fabrica de
focos desea determinar si existe alguna diferencia en
Ia media de esperanza de vida de los focos fabricados en dos diferentes tipos de maquinas. La desviaci6n estandar
poblacional de la maquina I es de I1 0 horas y la de Ia maquina
II es de I25 horas. Una muestra aleatoria de 25 focos de Ia rnaquina I indica una niedia muestral de 375 horas, y una muestra
similar de 25 focos de Ia maquina II indica una media muestral
de 362 horas.
a. Usando un nivel de significancia de 0.05, ;,existe alguna evidencia de Ia diferencia en Ia media de esperanza de vida de
los focos fabricados por los dos tipos de maquinas?
b. Calcule el valor-pen el inciso a) e interprete su significado.
10.10 ;,A que edad desarrollan los nifios una preferencia por
productos de marca en los Estados Unidos? En un estudio re- .
portado en el Journal of Consumer Psychology (G. W. Achenreiner and D. R. John, "The Meaning of Brand Names to Children: A Developmental Investigation", Journal of Consumer
Psychology, 2003, 13(3): 205-2I9), los mercad6logos mostraron a los nifios fotografias identicas de zapatos deportivos. Una
fotografia tenia la etiqueta Nike y otra tenia la etiqueta K-Mart.
Se pidi6 a los nifios que evaluaran los zapatos con base en su
apariencia, calidad, precio, prestigio, predilecci6n y preferencia
para poseerlos. La puntuaci6n iba de 2 (Ia mejor evaluaci6n
posible del producto) hasta -2 (la peor evaluaci6n posible del
. producto) y fue registrada para cada nifio. La siguiente tabla registra los resultados del estudio.
Tamaiiode
Edad por marca Ia muestra
Ft
le1
Sy
a.
Media de
Media de
lamuestra desviaci6n estlindar
b.
8 aiios
c.
Nike
K-Mart
27
22
0.89
0.86
0.98
1.07
10.
otrc
12 aiios
Nike
K-Mart
39
41
0.88
0.09
1.01
1.08
35
33
0.41
-0.29
0.81
0.92
una '
los
mas
se p
peso
dos1
16 aiios
Nike
K-Mart
-si
n
Supo1
niveJ
entre
Produ
10.1~
lllercj,
de! ser
diaaJc
COtno 1.
fila ha:
seregi:
Ira de 1
81tiente
4..
--- - -
- - - -
.. ............
- - -- - -- --
Hombres
Mujeres
40.26
13.35
100
36.85
9.42
72
s
n
Fuente: Travis Broome y Douglas Havelka, "Determinants of Computer Anxiety in Business students", The Review of Business Information
Systems,primavera de 2002, 6(2):9-16.
Linea A
Linea B
8.005
0.012
7.997
0.005
16
s
n
11
:e
~Uientes:
4.21
5.55
4.50
3.02
6.10
5.13
0.38
4.77 2.34
5.12
6.46
3.54
6.19
3.20
3.79
321
5.90
10.49
8.02
6.68
5.79
5.64
8.73
4.08
3.82
6.17
8.01
9.91
8.35
5.47
a. Suponiendo que las varianzas poblacionales de los dos bancos son iguales, (,existe evidencia de una diferencia en la
media del tiempo de espera entre las dos sucursales? (Use
a= 0.05.)
b. Determine el valor-p en el inciso a) e interprete su significado.
c. (.Que otra suposici6n es necesaria para el inciso a)?
d. Suponiendo que las varianzas poblacionales para ambas sucursales son iguales, construya e interprete una estimaci6n
del intervalo de confianza del 95% de la diferencia entre las
medias poblacionales de las dos sucursales.
10.15 Repita el problema 10.14a) suponiendo que las varianzas poblacionales en las dos sucursales no son iguales. Compare los resultados con los del problema 10.14a).
10.16 Un problema con una linea telef6nica que previene a
los clientes de recibir o realizar llamadas esta preocupando tanto al cliente como a Ia empresa telef6nica. Los datos PHONE representan muestras de 20 problemas reportados a dos diferentes
oficinas de la empresa telef6nica y el tiempo para resolver estos
problemas (en minutos) de las lineas de los clientes:
- - - - - - - - - - - - - - - - - -- -- - - -- - 322
------- -~-----
Sin tratar
164.368
159.018
153.871
165.096
157.184
154.496
160.920
164.917
169.091
175.276
177.135
163.903
167.802
160.818
167.433
163.538
164.525
171.230
174.964
166.311
Tratadas
158.239
138.216
168.006
149.654
145.456
168.178
154.321
162.763
161.020
167.706
150.226
155.620
151.233
158.653
151.204
150.869
161.657
157.016
156.670
147.920
a. Suponiendo que las varianzas poblacionales de ambas condiciones son iguales, (,existe evidencia de una diferencia en
la media de dureza de superficie entre las placas de acero
tratadas y las no tratadas? (Use a = 0.05.)
b. Encuentre el valor-p en el inciso a) e interprete su significado.
c. (,Que otra suposici6n es necesaria para el inciso a)?
d. Suponiendo que las varianzas poblacionales de las placas de
acero tratadas y no tratadas fueran iguales, construya e interprete una estimaci6n del intervalo de confianza del 95% de
Ia diferencia entre las medias poblacionales en las dos condiciones.
10.19 Repita el problema 10.18a) suponiendo que las varianzas poblacionales de las placas de acero tratadas y no tratadas
no sean iguales. Compare estos resultados con los del problema
10.18a).
10.20 El director de capacitaci6n de una fabrica productora
de equipo electr6nico esta interesado en deterrninar si los diferentes metodos de capacitaci6n tienen un efecto en la productividad de los empleados de la linea de ensamblaje. De forma
aleatoria asigna a 42 empleados recientemente contratados en
dos grupos de 21 . El primer grupo recibe un programa de capacitaci6n individual con ayuda de la computadora, y el otro grupo recibe un programa de capacitaci6n en equipo. AI terminar
la capacitaci6n, se evalua a los empleados de acuerdo con el
tiempo (en segundos) que les toma armar una parte. Los resultados se encuentran en el archivo TRAINING.
a. Suponiendo que las varianzas poblacionales de los metodos de
capacitaci6n sean iguales, (,existe evidencia de una diferencia
entre la media del tiempo de armado (en segundos) de los ernpleados capacitados con un programa individualizado y asistido por computadora y aquellos capacitados con un programa
en equipo? (Use un nivel de significancia de 0.05.)
b. (,Que otra suposici6n es necesaria en el inciso a)?
c. Repita el inciso a) suponiendo que las varianzas poblacionales no sean iguales.
d. Compare los resultados del inciso a) y del inciso c).
e. Suponiendo que las varianzas sean iguales, construya e interprete una estimaci6n del intervalo de confianza del 95%
de Ia diferencia entre las medias poblacionales de los dos
metodos de capacitaci6n.
10.21 La evaluaci6n no destructiva (END), es un metodo usado para describir las propiedades de componentes o materiales
sin causar ningll.n cambio fisico permanente a las unidades. Incluye Ia determinacion de las propiedades de los materiales y Ia
clasificaci6n de las grietas con base en tamafio, forma, tipo y
localizaci6n. Este metodo es sumamente efectivo para detectar
grietas superficiales y propiedades superficiales caracteristicas
de materiales que conducen electricidad. Recientemente se recolectaron datos que clasificaron cada grieta con base en la inspecci6n manual y juiciosa del operador, y tambien se report6 el
tamafio de Ia rajadura en el material. (,Los componentes clasificados como que no tienen una grieta tienen una media de tamaiio de rajadura menor que los componentes clasificados como
que tienen una grieta? Los resultados en terminos de tamaiio de
la rajadura (en pulgadas) se encuentran en el archivo: CRACK
(Fuente: B. D. Olin y W. Q. Meeker, "Applications of Statistical Methods to Nondestructive Evaluation", Technometrics, 38,
1996, 101.)
a. Suponiendo que las varianzas poblacionales son iguales,
(,existe evidencia de que Ia media del tamafio de Ia rajadura
es menor para los modelos sin grieta que para los modelos
con grieta? (Use a = 0.05.)
b. Repita el inciso a) suponiendo que las varianzas poblacionales no son iguales.
c. Compare los resultados de los incisos a) y b).
TA
De
de
ent
rei a
Si e/
esgra
limite
pag;n,
10.2
Ia dist1
sigue I
norma
323
= X 1n- X 2n
Grupo
Determinacion
de Ia diferencia
entre dos poblaciones
relacionadas.
Valor
Diferencia
D 1 =X11 -X21
D2 =X12 -X22
Si el tamafio de Ia muestra
es grande, el teorema de
limite central (vea Ia
pagina 213) nos asegura que
Ia distribuci6n muestral 0
sigue una distribuci6n
normal.
Para probar Ia diferencia media entre dos poblaciones relacionadas, trate las diferencias de las
puntuaciones, los Db como valores de una sola muestra. Si conoce Ia desviaci6n estandar poblacional de los resultados de Ia diferencia, utilice Ia prueba Z defmida en Ia ecuaci6n (I 0.4). 2 Esta prueba
Z para Ia diferencia media usando muestras de dos poblaciones relacionadas es equivalente a Ia
prueba Z de una sola muestra para Ia diferencia media de las puntuaciones [vea Ia ecuaci6n (9 .1) en
la pagina 278].
= jj- JlD
crn
(10.4)
.Jn
n
donde
f5
LDi
= i=l
llD
crD
n = tamafio de Ia muestra
El estadistico de prueba Z sigue una distribuci6n normal estandarizada.
324
Prueba t apareada
En la mayoria de los casas, la desviacion estandar de Ia poblacion es desconocida. La (mica infonnacion de la que por lo general se dispone son la media y la desviacion estandar de la muestra.
Si usted supone que los resultados de la diferencia han sido seleccionados de fonna aleatoria e
independiente de una poblacion que se distribuye nonnalmente, puede usar la prueba t apareada
para Ia diferencia media en poblaciones relacionadas para determinar si existe una diferencia
media de la poblacion significativa. De esta forma, como en la prueba t de una muestra desarrollada
en la seccion 9.4 [vea la ecuacion (9.2) en la pagina 290], el estadistico de prueba t desarrollado aqui
sigue la distribucion t con n - 1 grades de libertad. Aunque se debe suponer que la poblacion esta
distribuida normalmente, siempre y cuando el tamafio de la muestra no sea muy pequeiio y la poblacion no este demasiado sesgada, podra utilizarse la prueba t apareada.
Para probar la hipotesis nula de que no existen diferencias en las medias de dos poblaciones relacionadas (es decir, la diferencia media de la poblacion Jln es 0)
contra la altemativa de que las medias no son iguales ( es decir, la diferencia de la poblacion lln
noes 0)
TJ
M
de
se:
co
de
fin.
pa.
de
I,.ni
donde
l5 = .i=!_
n
"../Di-D)
-2
i=l
n -1
Para una prueba de dos colas con un nivel de significancia a dado, se rechaza la hipotesis nula si el
estadistico de prueba t calculado es mayor que el valor critico de la cola superior tn-! de la distribu
cion t o si el estadistico de prueba calculado es menor que el valor critico de !a cola inferior -tn-l de
la distribucion t. Es decir, la regia de decision es:
Rechace H 0 si t > tn-l
0
sit< -tn_ 1;
325
l,Cuai es Ia mejor forma de disefiar un experimento para comparar Ia velocidad de procesamiento del nuevo paquete de software con el tiempo de procesamiento del paquete actual? Un enfoque seria tomar dos muestras independientes y despues utilizar Ia prueba de hip6tesis discutida
en Ia secci6n 10.1. En este enfoque, se utilizaria un conjunto de proyectos de aplicaciones financieras para probar el nuevo paquete de software. Entonces se usaria un segundo conjunto de proyectos
de aplicaciones financieras para probar el paquete actual. Sin embargo, como el primer conjunto de
proyectos de aplicaciones fmancieras usado para probar el nuevo paquete podria ser mas veloz o
mas Iento para procesar que el segundo conjunto de proyectos de aplicaciones fmancieras, tal vez
esta no sea Ia mejor forma de acercarnos a! problema. Un mejor enfoque seria recurrir a un experimento de mediciones repetidas. En este experimento, se utiliza un conjunto de proyectos de aplicaciones financieras. Para cada uno de los proyectos, se prueba el nuevo paquete de software y se
prueba tambien el paquete actual. Medir los dos tiempos de procesamiento para cada proyecto de
aplicaciones fmancieras sirve para reducir Ia variabilidad en los tiempos de procesamiento comparado con lo que ocurriria si se utilizaran dos conjuntos independientes de proyectos de aplicaciones
fmancieras. Este enfoque tambien se centra en las diferencias entre los dos tiempos de procesamiento para cada uno de los proyectos de aplicaciones financieras, para asi medir la efectividad del
nuevo paquete de software.
Los resultados que presenta la tabla 10.4 son para una muestra de n = 10 proyectos de aplicaciones fmancieras usados en el experimento COMPTIME.
TABLA 10.4
Mediciones repetidas
del tiempo (en
segundos) para
completar los proyectos
de aplicaciones
financieras de dos
paquetes competidores
de software.
Aplicaciones
del proyecto
1
2
3
4
5
6
7
8
9
10
Dellider actual
en el mercado
Del nuevo
paquete de software
9.98
9.88
9.84
9.99
9.94
9.84
9.86
10.12
9.90
9.91
9.88
9.86
9.75
9.80
9.87
9.84
9.87
9.86
9.83
9.86
Diferencia (Di)
+0.10
+0.02
+0.09
+0.19
+0.07
0.00
-Q.01
+0.26
+0.07
+0.05
+0.84
La pregunta que usted debe responder es si el nuevo paquete de software es mas veloz. En otras palabras, l,existe evidencia de que la media del tiempo de procesamiento es significativamente mayor
cuando los proyectos de aplicaci6n fmanciera usan el paquete lider del mercado actual que cuando
usan el nuevo paquete de software? Entonces, las hip6tesis nula y altemativa son:
H0 : llD !5: 0 (la media del tiempo de procesamiento para el paquete actual es menor o igual que para
el nuevo paquete ).
H 1: llD > 0 (la media del tiempo de procesamiento para el paquete actual es mayor que la del paquete nuevo).
AI elegir un nivel de significancia de a = 0.05 y suponiendo que las diferencias se distribuyen
normalmente, se usa la prueba t apareada [ecuaci6n (10.5) en la pagina 324]. Para una muestra de
n = 10 proyectos, hay n- 1 = 9 grados de libertad. Usando la tabla E.3, la regia de decision es:
Rechace H 0 si t > t9
= 1.8331;
l5 =
Iv;
i=l
= 0.84 = 0.084
10
326
"
'
-2
..,.(Di-D)
-"i==1- - - -
= 0.0844
n-1
t =
l5 -!J.v = -2.18-0
Sv
2.2641
.,Jn
.flo
= -3.045
F
p
Como t = 3.15 es mayor que 1.8331, se rechaza la hip6tesis nulaH0 (vea la figura 10.9). Existe evidencia de que la media del tiempo de procesamiento es mayor para ellider actual en el mercado que
para el nuevo paquete.
c:
tv
d
FIGURA 10.9
Prueba t apareada de
una cola con un nivel
de significancia de
0.05 con 9 grades
de libertad.
critico
Puede calcular este estadistico de prueba junto con el valor-p usando Excel o Minitab (vea las
figuras 10.10 y 10.11). Puesto que el valor-p = 0.006 <<X= 0.05, se rechaza H 0 El valor-p indica
que si ambos paquetes tienen Ia misma media de tiempo de procesamiento, la probabilidad de que el
nuevo paquete mejore el desempefio del paquete actual por una media de 0.084 segundos o mas es
de solo 0.006. Como esta probabilidad es tan pequeiia, se tiene un minima grado de creencia en Ia
hip6tesis nula y se concluye que Ia hip6tesis altemativa (es decir, el paquete actual se toma mas
tiempo) es cierta.
FIGURA 10.10
Prueba t apareada de
Excel para los datos
del paquete financiero .
-t- ~.!~_!!_____
.
- -------=
i
~ \[~_ria~l!------------~
Cutrent
'
I
I-
New
9.9~~~--9.8~.1.~
~0074 L_11001.~
6 .Observations
10!
7tPear50n Correlation -----~::=:=-C.!fi798
10
-=---- .
_!.j!!YP~slzed_
f!l~'"l!!i"+
--t9 ,df
'
it Stat
10
-----r
~ _9.:_005~ ! : -~-
.
..1."LP..[<i!!l.!.:!!!.'_.__
-~
---~-~-----.
~~].~tl!i.Etl!ne-t!_
11 ______ ._~._1~11
--+
~i(f~-~~~~L---------~~ru-~-~r
14 1t Critical two-tail
226216!
EJ
FIGURA 10.11
Pai~ed
fo~ cu~~ent
PANEL A
Prueba t apareada en
Minitab para los datos
del paquete financiero.
Cu~tent
Hew
Diffetence
327
- New
N
Mean
Sti>ev SE Mean
0.08631 0.02729
10 9.92600
10 9.84200
0.03994 0.01263
10 0.084000 0.084354 0.026675
FIGURA 10.11
P-Va1ue 0.006
Boxplot of Differences
(with Ho Cl1d 95% t ca 1fidelce hterval for the rnecn)
PANEL B
Grafica de caja en
Minitab para los datos
del paquete financiero .
0.00
0.05
0.10
0.15
Differences
0.20
0.25
En Ia figura 10.11, panel B, observe que Ia grafica de caja muestra una simetria aproximada entre los cuartiles primero y tercero, pero tambien t\ene uno o mas valores altos. Asi que los datos no se
contradicen mucho con Ia suposici6n subyacente de normalidad. Si un analisis de datos exploratorio
revela que Ia suposici6n subyacente de normalidad en Ia poblaci6n se ha infringido severamente, entonces Ia prueba t no es apropiada. Si esto sucede, se puede usar un procedimiento no parametrico
que no haga Ia suposici6n estricta de normalidad subyacente (vea las referencias 1 y 2) o realizar una
transformaci6n de datos (vea Ia referenda 9) y despues revisar las suposiciones para determinar si se
utiliza o no Ia prueba t.
~~==----------------------------~------------------------------------------~---
EJEMPLO 10.2
SOLUCION Se usa Ia prueba t apareada en Iugar de Ia prueba t conjunta para analizar estos datos
PIZZATIME. La tabla 10.5 resume estos datos.
328
TABLA 10.5
Tiempos de entrega del
restaurante local de
pizzas y de Ia cadena
nacional de pizzas.
Tiempo
Local
Cadena
Diferencia
16.8
11.7
15.6
16.7
17.5
18.1
14.1
21.8
13.9
20.8
22.0
15.2
18.7
15.6
20.8
19.5
17.0
19.5
16.5
24.0
-5.2
-3.5
-3.1
1.1
-3.3
-1.4
-2.9
2.3
-2.6
-3.2
-21.8
2
3
4
5
6
7
8
9
10
FIGURA 10.12
Prueba t apareada de
Excel para los datos
de Ia entrega de pizzas.
I'
I
I
r
I
I
I
1-
-,-
.
A . --8 T c -,
~o S~.e!!l.!'r Mea!!!.....+---~--~
;3
I
Local
Chain
j
16.7
18.88
I
t 4 Mean
I 9.582222 8.215111
! 5 Variance
I . __ 10 f-----~
! EJ ObseMI!ions
i 0.714077
:7 Pearson Correlation
0
J
t B Hypothesized Mean Difference!
9 -~--I
91
rfo t Stat
.
I .3.04479=
111
ffi::~-~~-----j-9006~
---~
tCritlc~
~-~--0.01391 _
l 13 P(T<-t) two-tail
l 2.262159
i1-4' t Critical two-tail
I
J
j
:12
La figura 10.12 ilustra Ia salida de Ia prueba 1 apareada de Excel para los datos de entrega de pizzas.
Las hip6tesis altemativa y nula son:
H 0: llD ~ 0 (la media del tiempo de entrega para el restaurante local de pizzas es mayor que o igual
que el de la cadena nacional de pizzas).
H1: llD < 0 (la media de tiempo entrega para el restaurante local de pizzas es menor que el de la cadena nacional de pizzas).
Eligiendo un nivel de significancia de a = 0.05 y suponiendo que las diferencias se distribuyen normalmente, utilice una prueba 1 apareada [ecuaci6n (10.5) en la pagina 324]. Para una muestra den = 10 tiempos de entrega, existen n -1 grados de libertad. Usando la tabla E.3, la regia d~
decision es:
Rechace H 0 sit< 19 = -1.8331:
de otra forma, no rechace H 0
Para n = 10 diferencias (vea Ia tabla 10.5), la diferencia media de la muestra es
n
LDi
l5 =
i= l
= -:--21.8 = -2.18
10
Apr
"'
- 2
..}Di
-D)
..!.:i==...l_
n-1
__
= 2.2641
~
~
eltiste
329
iL-- --
2.2641
..rn
.flO
Como t = -3.045 es menor que -1.8331, se rechaza la hip6tesis nula H 0 (el valor-pes o.007 <
0.05). Existe evidencia de que la media del tiempo de entrega es menor para el restaurante local de
pizzas que para la cadena nacional de pizzas.
Esta conclusion es diferente de la que se obtuvo cuando se us6 la prueba t de varianza conjunta
para estos datos. AI aparear los tiempos de entrega, usted fue capaz de enfocarse en las diferencias
entre los dos servicios de entrega de pizzas y asi tuvo un procedimiento estadistico mas poderoso
que result6 mejor para detectar la diferencia entre los dos restaurantes.
Volviendo a1 ejemplo relacionado con lo~royectos de aplicaciones fmancieras en las paginas 324 y
325, usando Ia ecuaci6n (10.6) anterior, D = 0.084, Sn = 0.0844, n = 10 y t = 2.2622 (para un nivel de confianza del 95% y n - 1 = 9 grados de libertad),
0.084 (2.2622)
~44
'VlO
0.084 0.0604
0.0236 :5: !!n :5: 0.1444
Por lo tanto, con un nivel de confianza del 95%, Ia diferencia media entre los dos paquetes de software se encuentra entre 0.0236 y 0.1444 segundos. Puesto que la estimaci6n del intervalo solo contiene valores mayores a cero, se concluye que Ia media del tiempo de procesamiento para el paquete actual es mayor que Ia del nuevo paquete.
Aprendizaje basico
10.22 Un diseiio experimental para una prueba t
apareada tiene, como muestra emparejada, 20 pares
e.
de gemelos identicos. (,Cmintos grados de libertad
Xtsten en esta prueba t?
AStSTENCtA
de PH Grade
- - -- --
330
---
Aplicaci6n de conceptos
Puede resolver manualmente los problemas 10.24 a
10.29 o usando Excel, Minitab o SPSS. Le recomendamos usar Excel, Minitab o SPSS para resolver el problema 10.30.
10.24 Los gastos de viaje pagados por empresas se incrementan o disminuyen dnisticamente cuando hay cambios en las tarifas diarias de las habitaciones de hotel. <,Permanecieron fijas
estas tarifas de junio de 2002 a marzo de 2004? Los siguientes
datos HOTELPRICE2 indican Ia tarifa general de los hoteles en
18 ciudades durante marzo de 2004 y junio de 2002.
Ciudad
Atlanta
Boston
Chicago
Dallas
Denver
Detroit
Houston
. Los Angeles
Miami
Minneapolis
New Orleans
Nueva York
Orlando
Phoenix
San Francisco
Seattle
St. Louis
Washington
Hotel2004
78.91
112.92
96.90
77.43
74.22
77.71
76.26
95.78
140.61
78.64
121.59
167.43
98.57
123.19
123.51
95.09
74.68
123.27
Hotel2002 !
173
243
257
167
139
141
180
223
116
167
142
273
133
124
178
176
159
262
d. Construya e interprete una estimaci6n del intervalo de confianza del 95% de Ia diferencia en Ia media de las mediciones en linea y dellaboratorio analitico.
1 AUTO 1 0.26 <,Ahorran dinero los estudiantes al comprar
V Examen sus libros de texto enAmazon.com? A1 investigar esta posibilidad, se seleccion6 una muestra aleatoria
de 15 libros de texto usados durante un semestre reciente en Ia
Universidad de Miami. Se registraron los precios para estos libros de texto, tanto para los de la libreria local como para los de
Amazon.com. Los precios de estos libros de texto, incluyendo
todos los impuestos relevantes y los gastos de envio son los siguientes TEXTBOOK:
Libro de texto
' Access 2000 Guidebook
HTML 4.0 CD with Java Script
Designing the Physical Education
Curriculum
Service Management: Operations,
Strategy and IT
Fundamentals of Real Estate
Appraisal
, Investments
Ifitermediate Financial Management
Real Estate Principles
The Automobile Age
: Geographic Information Systems
in Ecology
Geosystems: An Introduction to
Physical Geography
Understanding Contemporary Africa
Early Childhood Education Today
System of Transcendental Idealism
(1800)
, Principles and Labs for Fitness
and Wellness
Libreria Amazon
52.22
52.74
57.34
44.47
39.04
41.48
1
Sf
101.28
73.72
37.45
113.41
109.72
101.28
29.49
42.04
95.38
119.80
62.48
32.43
70.07
74.43
83.87
23.21
72.80
83.81
26.48
73.48
17.41
20.98
37.72
40.43
nc
PI
us
dr
se
cic
ce
La
te,
q
331
--
Articulo
Medio gal6n de leche
Docena de huevos
Jugo de naranja Tropicana (64 oz.)
Coraz6n de Iechuga Boston
Came de res (1lb.)
AtUn Bumble Bee, lata de 6 oz.
Manzanas Granny Smith (1 lb.)
Caja de linguini DeCecco
Filete de salm6n, 1 lb.
Pollo entero por libra
Whole Foods
Fairway
2.19
2.39
2.00
1.98
4.99
1.79
1.69
1.99
7.99
2.19
1.35
1.69
2.49
1.29
3.69
1.33
1.49
1.59
5.99
1.49
Paciente
Antes
Despues
1
2
3
4
5
6
7
158
189
202
353
416
426
441
284
214
101
227
290
176
290
Fuente: W. Grimes, "A Pleasure Palace without the Guilt", The New
York Times, 18 defebrero 18, 2004, F1, F5 . .
c. Construya e interprete una estimaci6n del intervalo de confianza del95% de la diferencia media de la densidad de microvasos en la medula 6sea antes y despues del trasplante de
celulas madre.
A
Difference
1 0.29 Durante el ultimo afio el vicepresidente de recursos humanos de un gran centro medico ha realizado una serie de talleres con duraci6n de tres meses, con el objetivo de incrementar
la motivaci6n y desempefio de los trabajadores. Para revisar la
efectividad de los talleres, se seleccion6 una muestra aleatoria
de 35 empleados de los archivos del personal y registr6 sus calificaciones de desempefio del afio mas reciente junto con las
calificaciones obtenidas antes de asistir a los talleres PERFORM.
La salida de Excel en los paneles A y B proporciona informacion descriptiva e inferencial para que usted pueda analizar los
resultados y examinar las suposiciones de la prueba de hip6tesis usada.
8
1
332
Fuente: 0 . Carrillo-Gamboa yR. F. Gunst, "Measurement-Error-Mode/ Col/inearities ", Technometrics, 34, 1992, 454-464.
10.3
COMPARACI6N DE PROPORCIONES
DE DOS POBLACIONES
A menudo se requiere hacer comparaciones y analizar las diferencias entre las proporciones de dos
poblaciones. Es posible realizar una prueba para las diferencias entre dos proporciones seleccionadas de dos muestras independientes usando dos metodos diferentes. Esta secci6n presenta un procedimiento cuyo estadistico de prueba Z es aprox.imado por una distribuci6n normal estandarizada. En
la secci6n 11.1 se desarrollara un procedimiento cuyo estadistico de prueba x2 es aproximado por
una distribuci6n chi-cuadrada. Como vera, los resultados de ambas pruebas son equivalentes.
(10.7)
PI.!_ + _!_)
'\..nl
n2
, con
.i
I
donde
PI
n 1 = tamaiio de la muestra 1
n2
= tamaiio de la muestra 2
1t2_
333
Bajo la hip6tesis nula, se supone que las proporciones de dos poblaciones son iguales (1t 1 = 1t2) .
Puesto que el conjunto estimado para la proporci6n de la poblaci6n esta basado en la hip6tesis nilla,
se combinan o conjuntan las proporciones de las dos muestras para calcular una estimaci6n global
de la proporci6n de la poblaci6n comUn.. Este estimado es igual al ninnero de exitos en la combinaci6n de las dos muestras (X1 + X2 ) dividido por el total del tamafio muestral de los dos grupos de
muestras (n 1 + n2 ).
Como ilustra la siguiente tabla, es posible usar la prueba Z para la diferencia entre las proporciones de dos muestras para determinar si existe una diferencia en Ia proporci6n de exitos de los dos
grupos (prueba de dos colas) o si un grupo tiene una mayor proporci6n de exitos que el otro grupo
(prueba de una cola).
donde
Para probar la hip6tesis nula de que no hay diferencia entre las proporciones de dos poblaciones independientes:
contra la altemativa de que las proporciones de las dos poblaciones no son iguales:
se utiliza el estadistico de prueba Z de la ecuaci6n (10.7). Para un nivel de significancia a dado, rechace la hip6tesis nula si la prueba Z calculada es mayor que el valor critico de la cola superior de la
distribuci6n normal estandarizada, o si el estadistico de prueba calculado es menor que el valor critico de la cola inferior de la distribuci6n normal estandarizada.
Para ilustrar el uso de la prueba Z para la igualdad de dos proporciones, suponga que es el
gerente de T. C. Resort Properties, un conjunto de cinco hoteles gran turismo localizados en dos islas. En una de las islas, T. C. Resort Properties tiene dos hoteles, el Beachcomber y el Windsurfer. AI
tabular las respuestas para Ia unica pregunta "i,Elegiria venir a este hotel nuevamente?", 163 de 227
huespedes del hotel Beachcomber respondieron si, y 154 de 262 huespedes del hotel Windsurfer
respondieron si. Con un nivel de significancia de 0.05, (,existe evidencia de una diferencia significativa en la satisfacci6n de los huespedes (medida porIa posibilidad de regresar al hotel) entre los dos
hoteles?
Las hip6tesis nula y altemativa son
o si Z > +1.96;
de otra form!!.. no rechace Hn.
---
334
...._..-
----- -
~,
FIGURA 10.13
Regiones de rechazo y
no rechazo al probar
Ia hip6tesis para Ia
diferencia entre dos
proporciones en un
nivel de significancia
de 0.05.
F
,..
E
0
e
Si
h
lc
Region de
no rechazo
critico
critico
z=
p)(_!_ + _!_)
n1
n2
Fl
donde
- -163
- 0 718
P-tXt
--n1
227
Pz = Xz = 154 = 0.588
n2
262
Sa
Ia 1
dif
pre
pre
sat
p=
hUE
X 1 +X2 = 163+154 = 317 =0_ 648
n1 + n2
227 + 262
489
por lo que
los
EJ/
Z=-===(0=.7=18=-=0=.5=8=8)~-=(~0~)==
1
1
0.648(1 - 0.648)(-- + - -)
227 262
0.13
=-;=====
~(0.228)(0.0082)
0.13
- ..Jo.oo1s7
=~=+3.01
0.0432
Con un nivel de significancia de 0.05, se rechaza la hip6tesis nula puesto que Z = + 3.01 > + 1.96
0
El valor-pes 0.0026 (calculado de la tabla E.2 ode la hoja de trabajo de Excel de la figura 10.1 4,
la salida de la figura 10.15). Esto indica que si la hip6tesis nula fuera cierta, la probabilidad d_e _qu~
un estadistico de prueba Z sea menor que -3.01 es de 0.0013, y de forma similar, Ia probab1bd~
de que el estadistico de pruebaZ sea mayor que +3.01 es de 0.0013. Por Io tanto, para estaprueba e
1
dos colas, el valor-pes de 0.0013 + 0.0013 = 0.0026. Puesto que 0.0026 <a= 0.05, se rechaza :
hip6tesis nula. Existe evidencia para concluir que los dos hoteles son significativamente diferen~
con respecto a Ia satisfacci6n de los huespedes; una mayor pr6porci6n de huespedes desean regre
al Beachcomber que al Windsurfer.
FIGURA 10.14
Hoja de trabajo de
Excel para Ia prueba Z
de Ia diferencia entre
dos proporciones para
el problema de
satisfacci6n de los
huespedes de
los hoteles.
. .---------!.......-.-.. . __
335
A
<c
D
:
E ..,_-..J....,_,
i
F.
1..... G
8
___
.TTGu8SisatlstaCiiiili-AiliiiYS1s -T~----~---
,])
I
3 i
Data
__ 4.. -Hypothesized Difference J
0
~5- ;Level of Significance
0.05
I
6 1
Group 1
7 ;Number of Successes
163
I
227
--89 iSample Size Group 2 I
l'ifiNumber of Successes
154
---,-; !Sample Size
262
12 1
I
13 1
Intermediate Calculations
14 !Group 1 Proportion
0.7181 =BTIB8
0.5878 =8101811
--~ 5 IGroup 2 Proportion
0.1303 814 -815
.16 IDitrerence in Two Proportions
17 !Average Proportion
0.6483 (87 + 810)1(88 + 811)
18 iz Test Statistic
3.0088 =(816 84)1RAIZ(817 * (1 817) * (1188 + 11811))
-~------
~
- .~
....___~~
19 !
20 1
Two-Tall Test
21 !Lower Critical Value
-1.9600
-22 LI.JpJI.er Critical Value
1.9600
_23ip-Value
0.0026
Reiect the null hypothesis
24 I
FIGURA 10.15
Salida de Minitab para
Ia prueba Z de Ia
diferencia entre dos
proporciones del
problema de
satisfacci6n de los
huespedes en
los hoteles.
X
N Sample p
163 227 0.718062
154 262 0.587786
P-Value
= 0.003
--------------------
EJEMPLO 10.3
SOLUCION Como lo que se desea saber es si existe evidencia de que Ia proporci6n de niiios que
se preocupa acerca de tener suficiente dinero es mayor que Ia proporci6n de niiias, se tiene una prueba de una cola. Las hip6tesis nula y altemativa son
H 0 : 1t1 :s; 1t2 (Ia proporci6n de niiios que se preocupan acerca de tener suficiente dinero es menor que
o igual a Ia proporci6n de nifias).
H 1 > 1t1 > 1t2 (Ia proporci6n de niiios que se preocupa acerca de tener suficiente dinero es mayor que
Ia proporci6n de niiias).
Usando el nivel de significancia de 0.05, para una prueba de una cola en Ia cola superior, el valor critico es + 1.645. La regia de decision es
Rechace H 0 si Z>
+ 1.645;
--
- - - - - -- - - -- - - -- - - - -- --------
336
. ------
z=
p(l - pf_!_ +
J_)
'\..n n
1
donde
P1
201
= -x,
= -330
= 0.609
n
X
P2 = - 2
n2
= -178 = 0.539
330
p = X 1 +X2
n1 + n2
660
por lo que
z = r======(=0.=60=9=-=0=.5=39~)=-==(0==)="7
1
1
0.5742(1 - 0.5742)(-- + - -)
330 330
0.07
1
= ~(=0=
.244=5)=(0=.0=06=06=)
0.07
- .Jo.oo148
= 0.07 = +1.818
0.0385
Usando el nivel de significancia de 0.05, se rechaza la hip6tesis nula puesto que Z = + 1.818 > + 1.645.
El valor-p es de 0.0344 (calculado de la tabla E.2). Por lo tanto, si la hip6tesis nula es cierta, la probabilidad de que el estadistico de prueba Z sea mayor que + 1.818 es 0.0344 (lo que es menor que
a = 0.05). Se concluye que existe evidencia de que Ia proporci6n de niiios que se preocupan acerca de
tener suficiente dinero es mayor que la proporci6n de niiias.
a.
b. ;
a. E
u
PI
b.
9~
cj,
(10.8)
Apli
(p, _ p ) _
2
~ (Pt - P2) +
I
L. __ ---- ----~ ----------- - - - -
-1t
)
2
r--n~2_ _ _ _ __
de! co
~lDis1
roo sf.
l. lE~
bre:
Praz
-- -- - - - - - - - - -
337
Para construir una estimaci6n del intervalo del 95% de confianza de la diferencia de porcentajes de
la poblaci6n de huespedes que regresarian al Beachcomber y aquellos que regresarian al Windsurfer,
se emplean los resultados de la pagina 334 ode las figuras 10.14 o 10.15 en la pagina 335.
P!
= X! = 163 = 0.718
n1
227
P2
= X2 = 154 = 0.588
n2
262
(1tl- 1t2)
0.2135
Por lo tanto, usted tiene un 95% de confianza de que la diferencia entre la proporci6n dela poblaci6n
de huespedes que regresarian al Beachcomber y al Windsurfer esta entre 4.65% y 21.35%. La satisfacci6n de huespedes es mayor en el Beachcomber que en el Windsurfer.
Aprendizaje basico
ASISTENCIA 10.31 Supongaquen 1 = 100,%1 = 50,n2 = 100y
de PH Grade
X2
= 30.
Aplicaci6n de conceptos
ASJSTENCIA 10.33 Se seleccion6 una muestra de 500 compradares en una gran area metropolitana para determinar informacion diversa respecto al comportamiento
consumidor. Entre las preguntas que se plantearon estaba:
'i,Disfruta comprando ropa?" De 240 hombres, 136 respondieron si. De 260 mujeres, 224 respondieron si.
a. i,Existe evidencia de una diferencia significativa entre hombres y mujeres en la proporci6n de los que disfrutan comprando ropa con un nivel de significancia de 0.01?
de PH Grade
?el
c. Construya e interprete una estimaci6n del intervalo de confianza del 99% de las diferencias entre la proporci6n de
hombres y mujeres que disfrutan comprando ropa.
d. l,Cuales serian_sus respuestas para los incisos a) a c) si 206
hombres disfrutan comprando ropa?
338
iSi
IN
I
j Totales
I
Buena
Mala
14
36
50
320
80
334
116
------- - --- -- - - - - - - -
400
Totales
450
10.4
GENERO
i t,LA GASOUNA POR MILLA ES
Hombres
76%
24%
Mujeres
84%
16%
Bll).
a. l,Existe evidencia de una diferencia significativa entre la proporci6n de afroan:iericanos con ingresos mayores a $50,000
que invierten en acciones, y la proporci6n de blancos con ingresos por arriba de los $50,00 que invierten en acciones?
(Use a = 0.05.)
b. Determine el valor-pen el inciso a) e interprete su significado.
c. Construya e interprete una estimaci6n del intervalo de coofianza del 95% de Ia diferencia entre Ia proporci6n de la poblaci6n de afroamericanos con ingresos por arriba de los
$50,000 que invierten en acciones y Ia proporci6n de Ia poblaci6n de blancos con ingresos por arriba de los $50,00 que
invierten en acciones.
339
La prueba para la diferencia entre las varianzas de dos poblaciones independientes se basa en la
razon de dos varianzas de muestra. Si se supone que cada poblacion esta distribuida normalmente,
entonces la razon S2 1!S22 sigue una distribuci6n F (vea la tabla E.5). Los valores criticos de la distribucion F en la tabla E.5 dependen de dos conjuntos de grados de libertad. Los grados de libertad
en el numerador de la razon son para la primera muestra, y los grados de libertad en el denominador
son para la segunda muestra. La ecuacion (1 0.9) define el estadistico de prueba F para probar Ia
igualdad de dos varianzas.
F=
donde
sl
si
(10.9)
sr = varianza de la muestra 1
~
= varianza de la muestra 2
------ -- - ----------
contra la hipotesis altemativa de que las varianzas de las dos poblaciones no son iguales -
se rechaza la hipotesis nula si el estadistico de prueba F es mayor que el valor critico de la cola superior F u de una distribucion con n 1 - 1 grados de libertad en el numerador y n2 - 1 grados de libertad en el denominador, o si el estadistico de prueba F calculado cae por debajo del valor critico de la
cola inferior FL de la distribucion F con n1 - 1 grados de libertad en el numerador y n2 - 1 grados de
libertad en el denominador, respectivamente. Por lo tanto, la regia de decision es
Rechace H 0 si F > F u
o ~iF<FL;
de otra forma, no rechace H 0
La regia de decision y las regiones de rechazo se ilustran en la figura 10.16.
340
- - - - - -- .
FIGURA 10.16
Regiones de rechazo
y no rechazo para Ia
prueba F de dos colas.
0
Regi6n de
rechazo
Regi6n de
no rechazo
Regi6n de
rechazo
Para ilustrar como se usa la prueba F para determinar si las dos varianzas son iguales, regrese al
escenario "Uso de Ia estadistica" referente a las ventas de BLK en dos diferentes ubicaciones en el
pasillo (vea Ia pagina 312). Para determinar si se utiliza Ia prueba t de varianza conjunta o la prueba
t de varianza separada en Ia seccion 10.1 , habra que probar Ia igualdad de las varianzas de dos poblaciones. Las hipotesis nula y alternativa son:
H0:
cry= o~
H1 : O'f*O'~
Puesto que esta es una prueba de dos colas, Ia region de rechazo se divide en cola inferior y superior de Ia distribucion F . Usando un nivel de significancia de a = 0.05, cada region de rechazo
. contiene 0.025 de la distribucion.
En virtud de que hay muestras de 10 tiendas para cada una de las dos ubicaciones de exhibici6n,
existen 10- 1 = 9 grados de libertad para el grupo 1 y tambien para el grupo 2. El valor critico de la
cola superior, F U de Ia distribucion F , se encuentra directamente en la tabla E.5, una porci6n
de la cual se presenta en Ia tabla 10.6. Como existen 9 grados de libertad en el numerador y 9 grados de
libertad en el denominador, el valor critico de Ia cola superior F u se encuentra buscando en Ia columna rotulada "9" y la fila rotulada "9". Asi pues, el valor critico de la cola superior de esta distribucion F es 4.03.
TABLA 10.6
Determinacion de Fu,
el valor crftico de Ia
cola superior con 9 y
9 grados de libertad
para el area de Ia cola
superior de 0.025.
Numerador gl1
Denominador
glz
647.80
38.51
17.44
799.50
39.00
16.04
864.20
39.17
15.44
948.20
39.36
14.62
956.70
39.37
14.54
7
8
8.07
7.57
6.54
6.06
5.89
5.42
4.99
4.53
4.90
4.43
~~----~7~.24l----~5.47~1----~s~.6~s~--------~4~.2~6~--~44.l~6--~~
Fuente: Extraido de Ia tabla E.5.
--
--
- - - --
-- -- ~ - ---~
341
=- 1
(10.10)
Fu
donde F U* proviene de una distribuci6n F con n2 - 1 grados de libertad en el numerador y n 1 - 1
grados de libertad en e1 denominador.
En el ejemplo de ventas de la bebida de cola, los grados de libertad son 9 y 9 para la muestra del numerador y la muestra del denominador, respectivamente, por lo que no hay "cambios" en los grados
de libertad; solo se toma el reciproco. Por lo tanto, para calcular el valor critico 0.025 de la cola inferior, usted necesita encontrar el valor critico 0.025 de Ia cola superior de F con 9 grados de tibertad en el numerador y 9 grados de libertad en el denominador y tomar sus reciprocos. Como indica
la tabla 10.6 en la pagina 340, este valor de Ia cola superior.es 4.03. Usando la ecuaci6n (10.10),
1
1
Fr =-=-=0.248
Fu
4.03
= 4.03
o si F<Fr = 0.248;
de otro modo, no rechace H 0
FIGURA 10.17
Regiones de rechazo y
de no rechazo de las
pruebas F de dos colas
para Ia igualdad de dos
varianzas en un nivel de
significancia de 0.05
con 9 y 9 grados de
libertad.
rechazo
no rechazo
Usando Ia ecuaci6n (10.9) en Ia pagina 339 y los datos de las ventas de las bebidas refrescantes
(vea Ia tabla 10.1 en Ia pagina 314), el estadistico de prueba F es
F=
sl
sf
= 350.6778 = 2.23
157.3333
Puesto que Fr = 0.248 < F = 2.23 < F u = 4.03, np se rechazaH0. El valor-pes 0.248 para una prueba de dos colas (dos veces el valor-p para la prueba de una cola mostrada en Ia salida Excel en la figura 10.18). La figura 10.19 ilustra Ia salida Minitab. Como 0.248 > 0.05, se concluye que no hay
una diferencia significativa en Ia variablidad de ventas de Ia bebida refrescante para las ubicaciones
de la exhibici6n .
342
FIGURA 10.18
Salida de Excel de Ia
prueba F para los datos
de ventas de Ia bebida
refrescante.
FIGURA 10.19
95~ Bonfe~toni
Salida Minitab de Ia
prueba F para los datos
de ventas de Ia bebida
refrescante.
Display R
Lowet
StDev
Uppe~
EndAisle 10 8.2048 12.5433 25.2578
Roraal 10 12.2494 18.7264 37.7085
confidence intervals
fo~
standatd deviations
= 0.248
AI probar Ia diferencia en 'dos varianzas usando Ia prueba F descrita en esta secci6n, se supone
que cada una de las dos poblaciones se distribuye normalmente. La prueba F es muy sensible a Ia suposici6n de normalidad. Si una gratica de caja y bigote o una gratica de probabilidad normal sugieren
aunque sea una minima desviad6n de Ia normalidad para alguna de las dos poblaciones, entonces no
debeni usarse Ia prueba F. En este caso, es mas conveniente emplear un enfoque no parametrico (vea
Ia referenda 2).
AI probar Ia igualdad de las varianzas, como parte de Ia evaluaci6n de validez del procedimiento de Ia prueba t de varianza conjunta, Ia prueba F es una prueba de dos colas. Sin embargo, cuando
se esta interesado en Ia variabilidad en si misma, Ia prueba Fa menudo es una prueba de una cola. Asi
pues, al probar Ia igualdad para dos varianzas, se utiliza Ia prueba de dos colas o Ia de una cola, dependiendo de si se esta probando que las varianzas de las dos poblaciones son diferentes o si una
varianza es mayor que Ia otra. La figura 10.20 ilustra las tres opciones posibles.
II
I
I
I TJ
I
I
I nh
I a,
I
Panel A
Prueba de dos colas
PanelS
Prueba de una cola
PaneiC
Prueba de una cola
H0 : o~ =o~
H0 : o~;;::o~
H0 : o~:!>o~
H1 : o~ *- o~
H1 :o~<o~
H1 :o~>~
-~,
Regi6n de rechazo
Region de no rechazo
FIGURA 10.20 Determinacion de Ia region de rechazo para probar Ia igualdad de las varianzas de des
poblaciones.
Amenudo el tamaiio de Ia muestra en dos grupos difiere. El ejemplo 10.4 demuestra como en
contrar el valor critico de Ia cola inferior para Ia distribuci6n Fen esta situad6n.
EJEMPLO 10.4
Se
cc
lit
343
Hl:crr
'f:.
cr~
=sf
si
Se utiliza la tabla E.5 para encontrar los valores criticos inferior y superior de la distribuci6n F. Con
n 1 - 1 = 7 grados de libertad en el numerador y n2 - 1 = 9 grados de libertad en el denominador y
a. = 0.05 dividido equitativamente entre las regiones de rechazo de las colas inferior y superior de
0.025 cada una, el valor critico superior F u = 4.20 (vea la tabla 10. 7).
Para encontrar el valor critico inferior FL con siete grados de libertad en el numerador y nueve
grados de libertad en el denominador, se toma el reciproco de F u con grados de libertad cambiados
a 9 en el numerador y 7 en el denominador. Entop.ces, de la ecuaci6n (10.10) en la pagina 341 y la
tabla 10.7,
FL = -
Fu
TABLA 10.7
Se encuentra Fu* y FL,
con 7 y 9 grados de
! libertad usando un
nivel de significancia
1
= = 0.207
4.82
Numerador gl1
Denominador
glz
2
3
647.80
38.51
17.44
799.50
39.00
16.04
864.20
39.17
15.44
956.70
39.37
14.54
a= 0.05.
1 .47
7~-----4~--~~--~~------------~~--~&-~~
7.57
6.06
5.42
12]
7.21
5.71
5.68
4.36
4.03
La regia de decision es
Rechace H 0 si F > F u
= 4.20
o siF<FL = 0.207;
de otra forma, no rechace H 0 .
F =
J_
si
= 56.0 = 2.33
24.0
Puesto que FL = 0.207 < F = 2.33 < Fu = 4.20, no se rechaza H0 . Con un nivel de significancia de
0.05, se concluye que no existe evidencia de una diferencia significativa en las varianzas de estas
dos poblaciones independientes.
- - - - - - - - - - - - - - - - - -- - - - - 344
-- - - -- . -
--
. .:
Aprendizaje basico
10.40 Determine FuY Fr. los valores criticos de
las colas superior e inferior de F para cada una de las
siguientes pruebas de dos colas:
a. a= 0.10, n 1 = 16, n2 = 21
b. a = 0.05, n 1 = 16, n2 = 21
c. a= 0.02, n 1 = 16, n2 = 21
d. a= 0.01, n 1 = 16, n2 = 21
b. a= 0.025, n 1 = 16, n2 = 21
c. a = 0.01, n 1 = 16, n2 = 21
d. a = 0.005, n1 = 16, n2 = 21
10.43 La siguiente informacion esta disponible para dos muestras extraidas de poblaciones indepen'-------' dientes distribuidas normalmente:
Aplicaci6n de conceptos
= 25 sl2 = 133.7
v
n
n!
1
c
n2
= 25 s22 = 161.9
= 13
s? = 210.2
n2
= 10
0:Of
10.44 i,Cuantos grados de libertad hay en el numei'ador y en el denominador de la prueba F del pro.___ ___, blema 10.43?
b.
c.
d.
Prt
ix
in
a.
Ira
!s
i,Se deberia utilizar la prueba F fara probar Ia hip6tesis nula de
Ia igualdad de varianzas (H0: cr1 = cr~)? Discuta.
cl
si = 36.5
B,
Hombres
Mujeres
40.26
13.35
100
36.85
9.42
72
em
hie
7.55 3.75 0.10 1.10 0.60 0.52 3.30 2.10 0.58 4.02
b. Interprete el valor-p.
c. L,Que suposiciones necesita hacer sobre las dos poblaciones
para justificar el uso de la prueba F?
3.75 0.65 1.92 0.60 1.53 4.23 0.08 1.48 1.65 0.72
10.51 Un banco cuya sucursal se localiza en el distrito comercia! de Ia ciudad BANKt desarrollo un proceso mejorado de servicio a los clientes durante el periodo de almuerzo que va del
mediodia a Ia 1 PM. Se registra el tiempo de espera ( defmido
como el tiempo que transcurre desde que el cliente se forma en
Ia fila hasta que llega ala caja) de todos los clientes en ese horario durante una semana. Se selecciona una muestra aleatoria
de 15 clientes y los resultados (en minutos) son los siguientes:
4.21
5.55
4.50
3.02
6.10
5.13
0.38
4.77
5.12
2.34
6.46
3.54 3.20
6.19
3.79
BANK2
9.66
5.90
10.49
8.02
6.68
5.79 8.73
5.64
4.08
3.82
6.17
8.01
9.91
8.35
5.47
d. Con base en los resultados del inciso a), i,es apropiado utilizar Ia prueba t de varianza conjunta para comparar las medias de las dos sucursales?
10.53 La directora de capacitaci6n de una empresa que fabrica equipo electr6nico esta interesada en determinar si diferentes
metodos de capacitaci6n tienen algU.n efecto en Ia productividad de los empleados de Ia linea de ensamblaje. De forma aleatoria asigna a 42 empleados recientemente contratados a dos
grupos de 21. El primer grupo recibe un programa de capacitaci6n individual y computarizado y el segundo grupo recibe capacitaci6n de equipo. AI fmal de la capacitaci6n se evalua a los
empleados en cuanto al tiempo (en segundos) que les toma ensamblar una parte. Los resultados se muestran en el archivo de
datos: TRAINING
a. Usando un nivel de significancia de 0.05, L,existe evidencia
de una diferencia entre las varianzas de los tiempos de ensamblaje (en segundos) de los empleados que recibieron el
programa de capacitaci6n individual computarizado y aquellos que tuvieron el programa de capacitaci6n de equipo?
b. Con base en los resultados del inciso a), L,es apropiado utilizar Ia prueba t de varianza conjunta para comparar las medias de los dos grupos? Discuta.
10.54 Remesas de carne, productos carnicos y otros ingredientes se mezclan entre si en lineas de llenado en una fabrica de enlatado de alirnento para mascotas. Los gerentes de operaci6n suponen que, aunque Ia media de la cantidad de llenado de Ia lata
de alimento para mascotas es generalmente la misma, la variabilidad del llenado de Jatas en Ia linea A es mayor que el de Ia linea
de llenado B. Los siguientes resultados provienen de muestras de
latas de ocho onzas:
s
n
-
1.48 1.75 0.78 2.85 0.52 1.60 4.15 3.97 1.48 3.10
1.02 0.53 0.93 1.60 0.80 1.05 6.32 3.93 5.45 0.97
345
- ---
Linea A
LineaB
8.005
0.012
11
7.997
0.005
16
-.
-- . -
-.
346
uso
DE LA ESTADfSTICA
La empresa Perfect Parachute Company
Usted es el gerente de produccion de la empresa Perfect Parachute Company.
En su fabrica se tejen los paracaidas usando una fibra sintetica que se compra
a uno de cuatro diferentes proveedores. Por razones obvias, una de las caracteristicas de calidad mas importantes de un paracaidas es su resistencia. Usted necesita decidir si con las fibras sinteticas de sus proveedores se fabrican
paracaidas con igual resistencia. Para responder a esta pregunta, decide diseilar un experimento para probar la resistencia de los paracaidas tejidos con
las fibras sinteticas de cada uno de los cuatro proveedores. Necesita incorporar la informacion a partir del analisis de los datos experimentales para determinar a cual proveedor contratar para fabricar los paracaidas mas resistentes.
10.5
ANOVA
DE UNA VfA
En las secciones 10.1 a 10.4 se utilizola prueba de hipotesis para extraer conclusiones acerca de posibles diferencias entre dos poblaciones. Sin embargo, con frecuencia se requiere evaluar diferencias
entre varias poblaciones (en este apartado las denominarnos grupos). Esta seccion examina experimentos en los que se considera a mas de dos grupos que pertenecen a un factor de interes. Los grupos se
defmen asignando diferentes niveles del factor. Por ejemplo, un factor como temperatura de homeado tendria diferentes niveles numericos (es decir, 300, 350, 400, 450) o un factor tal como proveedor preferido para fabricar paracaidas tendria varios niveles categ6ricos ( es decir, proveedor 1,
proveedor 2, proveedor 3, proveedor 4).
347
FIGURA 10.21
Repartici6n de Ia
variaci6n total en un
diseno completamente
aleatoric.
Varia~i(,;;~t~~-;
1
grupos (SSA)
i. Variaci6n total
i
!SSn
--~~
d.f.=n-1
cl.f... c-1
v;~i~~i-6;:.- ~~t~~-1
grupos (SSW) 1
d.f. "' n- c
Suponiendo que los c grupos representan pobiaciones cuyos valores seleccionados de forma independiente y aleatoria siguen una distribuci6n normal y tienen varianzas iguales, la hip6tesis nula
de no diferencia en las medias de la poblaci6n
= 1, 2, .. . , c)
Para ejecutar una prueba ANOVA de igualdad para las medias de la poblaci6n, se subdivide la
variaci6n total de los valores en dos partes, la que se debe a la variaci6n entre los grupos y la que
se debe a la variaci6n dentro de los grupos. La variaci6n total se representa por la soma total de
cuadrados (SST, del ingles, sum ofsquares total). Puesto que las medias de la poblaci6n de los c
grupos se suponen iguales bajo la hip6tesis nula, se calcula la variaci6n total entre tod~ los valores sumando las diferencias al cuadrado entre cada valor individual y la gran media X . La gran
media es la media de todos los valores en todos los grupos combinados. La ecuaci6n (1 0.11) muestra el calculo de la variaci6n total.
nJ
ssr = II<xii-X) 2
i=l i=l
donde
x=
J=l i=l
n
X if
=gran media
= nllmero de grupos
(10.11)
348
SSA =
Lnj(Xj- X}2
(10.12)
j=l
c = n1llnero de grupos
donde
" " - - - - - -
----------- ----------~---
-- - "
--
''----
----'
-Mo"----
La variaci6n dentro del grupo, por lo generalllamada soma de cuadrados dentro de los grupos (SSW, del ingtes, sum ofsquares within groups), mide la diferencia entre cada valor y la media
de su propio grupo y suma los cuadrados de estas diferencias sobre todos los grupos. La ecuaci6n
(10.13) muestra el calculo de la variaci6n dentro de los grupos.
ANOVA
DE UNA V[A
nJ
(10.13)
J=l i=l
donde
xi
R,
Puesto que esta comparando c grupos, existen c - I grados de libertad asociados con la suma
de cuadrados entre grupos. A partir de que cada uno de los c grupos contribuye con n1 - I grados de
libertad, existen n - 1 grados de Iibertad asociados con la suma de cuadrados dentro de los grupos.
Ademas, existen n - 1 grados de libertad asociados con la suma total elevada al cuadrado porque
cada valor XiJ se compara con la gran media X basada en todos los valores n.
Si se divide cada una de estas sumas de cuadrados entre sus grados de libertad asociados, se obtienen tres varianzas o terminos coadraticos medios-MSA (siglas en ingles para media cuadratica
entre), MSW (siglas en ingles para media cuadratica dentro) y MST (siglas en ingles para media cuadratica total).
= SSA
c-1
MSW =SSW
n-c
MST =SST
n-1
(10.14a)
(10.14b)
(10.14c)
se
349
Aunque usted desea comparar la medias de los c grupos para determinar si existe una diferencia entre ellos, el procedimiento ANOVA deriva su_nombre del hecho de que esta comparando varianzas. Si la hipotesis nula es cierta y no existen diferencias reales en las medias de los c grupos, los tres
terminos cuadraticos -MSA, MSWy MST- que en si mismos son varianzas, aportan estimaciones
de la variacion global en los datos. Asi p~es, para probar la hipotesis nula
Ho: flJ
= fl2 = .. = flc
contra la altemativa
H 1: no todas las llj son iguales (dondej = 1, 2, . . . , c)
se calcula el estadistico de prueba F con ANOVA de una via que es la razon entre MSA y MSW como en la ecuacion (10.15).
ANOVA
DE UNA V[A
F= MSA
MSW
(10.15)
El estadistico de prueba F sigue una distribucion F con c - 1 grados de libertad que corresponden
al MSA en el numerador y n - c grados de libertad que corresponden a! MSW en el denominador. Para
un nivel de significancia dado a, la hipotesis nula se rechaza si el estadistico de prueba F calculado en la ecuacion (1 0.15) es mayor que el valor critico de la cola superior F u de la distribucion F
teniendo c- 1 grados de libertad en el numerador y n- c en el denominador (vea Ia tabla E.5). Esto
es, como ilustra la figura 10.22, la regia de decision es
Rechace H 0 si F > F u;
de otra forma, no rechace H 0
FIGURA 10.22
Regiones de rechazo
y no rechazo cuando
se utiliza ANOVA.
Regi6n de
no rechazo
F
Valor Region de
critico rechazo
Si la hipotesis nula fuera cierta, deberia esperarse que el estadistico F calculado fuera aproximadamente igual a 1, pues los terminos cuadniticos medios, tanto del numerador como del denominador, son estimaciones de la varianza global de los datos. Si H 0 fuera falsa (y si existen diferencias
reales en las medias), deberia esperarse que el estadistico F calculado fuera sustantivamente mayor
que 1 porque el numerador, MSA, estaria estimando el efecto del tratamiento o Ia diferencia entre
grupos, ademas de medir Un.icamente la variabilidad global. Asi pues, el procedimiento de ANOVA
ofrece una prueba F en la cualla hipotesis nula puede rechazarse en un nivel de significancia a seleccionado, solo si el estadistico F calculado es mayor que F U el valor critico de la cola superior de
la distribucion F teniendo c - 1 y n - c grados de libertad, como se observa en la figura 10.22.
Los resultados de un analisis de varianza por lo general se presentan en una tabla de resumen
ANOVA, como ilustra la tabla 10.8. Las entradas de esta tabla incluyen las fuentes de variacion (es
decir, entre grupos, dentro de grupos y total), los grados de libertad, las sumas de los cuadrados, las
350
TABLA 10. 8
Tabla de resumen del
analisis de varianza .
Grados de
libertad
Medias cuadraticas
Entre grupo s
c-1
SSA
MSA
Dentro de grupos
n-c
ssw
Total
-n-1
-SST
MSW =SSW
n-c
Fuente
Sumade
(varianza)
SSA
c-1
F= MSA
MSW
Para ilustrar la prueba F ANOVA de una via, regrese al escenario "Uso de la estadistica" relacionado con la empresa Perfect Parachute Company (vea la pagina 346). Se realizo un experimento
para determmar si existen diferencias significativas en la resistencia de los paracaidas fabricados
con fibras sinteticas provenientes de diferentes proveedores. Se tejieron cinco paracaidas por cada
grupo: proveedor 1, proveedor 2, proveedor 3 y proveedor 4. Se mide la resistencia de los paracaidas colocandolos en un dispositivo de prueba que jala ambos extremos del paracaidas hasta que se
desgarra. La cantidad de fuerza necesaria para desgarrar el paracaidas se mide en una escala de resistencia a la tension en la que cuanto mas grande es el valor, mas resistente sera el paracaidas. Los
resultados de este experimento (en terminos de resistencia a la tension) estan en el archivo PARACHUTE y se presentan en la figura 10.23, junto con la media muestral y la media de desviacion estandar para cada proveedor.
FIGURA 10.23
Hoja de trabajo de
Excel para Ia resistencia
a Ia tension de los
paracafdas fabricados
con fibras sinteticas
de cuatro diferentes
proveedores junto con
Ia media muestral
y Ia media de
desviaci6n estandar.
Media aritmetica
Desviaci6n estandar
18.5
24.0
17.2
19.9
18.0
19.52
2.69
26.3
25.3
24.0
21.2
24.5
24.26
1.92
20.6
25.2
20.8
24.7
22.9
22.84
2.13
25.4
19.9
22.6
17.5
20.4
21.16
2.98
Observe en la figura 10.23 que existen diferencias en las medias de la muestra para los cuatro
proveedores. Para el proveedor 1, la media de resistencia a la tension es de 19.52. Para el proveedor 2,
la media de resistencia a la tension es de 24.26. Para el proveedor 3, la media es de 22.84, y para el
proveedor 4, la media es de 21.16. Lo que se necesita es determinar si estos resultados de muestra
son lo suficientemente diferentes como para concluir que las medias de la poblaci6n no son iguales.
En el diagrama de dispersion que aparece en la figura 10.24, es posible inspeccionar visualroente los datos y ver como se distribuyen las medidas de resistencia a la tension. Tambien se observan
las diferencias entre los grupos asi como dentro de los grupos. Si el tamafio de las muestras fue~
mayor, se podrian construir graficas de tallo y hojas, graficas de caja y bigote, y graficas de probabllidad normal.
La hipotesis nula establece que no existe diferencia en la media de resistencia a la tension entre
los cuatro proveedores.
Ho: ll1
ll2
1l3
= !l4
La hipotesis alternativa establece que existe un efecto de tratamiento, esto es, por lo menos uno de
los proveedores difiere con respecto a la media de resistencia a Ia tension.
H 1: no todas las medias son iguales
f
[
F
F
-10.5: ANOVAdeunavia
FIGURA 10.24
351
Diagrama de dispersion
de Excel de Ia
resistencia a Ia tension
para cuatro diferentes
proveedores.
~---------------------------------------------------.
25
20
i,
!!
.;; 15
..!
10
3
Supplier
Para construir Ia tabla de resumen de ANOVA, primero calcule las medias de muestra en cada
grupo (vea Ia figura 10.23 en Ia pagina 350). Despues calcule Ia gran media sumando los 20 valores
y dividiendo por el nfunero total de valores.
c
x=
nj
LLXii = 438.9 =
j=l i=l
20
2 1.945
Entonces, con Ia ayuda de las ecuaciones (10.11) a (10.13) en las paginas 347-348, se calcula Ia suma de cuadrados:
c
SSA =
j= l
+ (5)(21.16- 21.945) 2
= 63.2855
j =l i=l
= (18.5- 19.52) 2 + ... + (18- 19.52) 2 + (26.3- 24.26/ + ... + (24.5- 24.26) 2
+ (20.6- 22.84 ) 2 + ... + (22.9- 22.84 ) 2 + (25.4- 21.16)2 + ... + (20.4- 21.16) 2
= 97.504
j= l i =l
= 160.7895
352
---
n- c
= 97.504 = 6.094
20-4
= 21.095 = 3.46
6.094
353
de 0.05, se rechaza la hip6tesis nula. El valor-p de 0.041 indica que existe un 4.1% de posibilidad de
observar diferencias tan o mas grandes si las medias de la poblaci6n para los cuatro proveedores son
iguales.
FIGURA 10.26
Analisis de varianza de
Excel para el ejemplo
de los paracafdas.
I C I
Group$
----i----1--- - -,;
I
I
~--+-~ ---t!-- --+--- --+-------t
I
! Sum 1
Count
Avemge
Varlence
t~~f=t~t-=1~~~~~~
---------1'
9
10
11 ANOVA
12
SouTCe of Variation
Il
I P-value I
~~iTI
97~
FIGURA 10.27
One-way ANOVA: 1, 2, 3, 4
Analisis de varianza de
Minitab para el ejemplo
de los paracafdas.
Source DF
ss
Facto:t:
3
63.29
E:t:J:OJ: 16
97.50
Totll.l 19 160.79
RSq
MS
21.10
6.09
3.46
0.041
39.36~
i
I
I
I MS
I
F
F Cl'lt
~H_1.D951~t 3.461~,1141~ 3.z;i8866?_gri
161
6.D94
I
dl
t60.7895l , :
*Total
S 2.469
SS
~ Blltw!n Grou~
14 Within Groups
R-Sq(adj)
Individual
95~
-+-
--t
27.99~
Pooled Stl>ev
Level If
5
5
5
5
4
1
2
3
l'lean
19.520
24.260
22.840
21.160
Stl>ev
2.690
1.919
2.134
2.984
-+---------+---------+---------+-------(--------*--------)
(--------*--------)
(--------*---------)
1---------*--------1
-+---------+---------+---------+-------17.5
20.0
22.5
25.0
Despues de realizar un ANOVA de una via y de encontrar una diferencia significativa entre los
proveedores, lo que no se sabe a(m es cuales son los proveedores que difieren. Todo lo que sabe es
que existe evidencia suficiente para establecer que las medias de Ia poblaci6n no son todas iguales.
En otras palabras, por lo menos una o mas de las medias de la poblaci6n son diferentes. Para determinar cuales proveedores difieren, se recurre a un procedimiento de comparaci6n multiple, como el
procedimiento de Tukey-Kramer.
"""'
354
Rango critico
=Qu
MSW(1 1)
- - - +2
nj nj'
(10.16)
donde Qu es el valor critico de Ia cola superior de una distribucion de rango studentizado teniendo c grados de libertad en el numerador y n- c grados de libertad en el denominador. Los valores para Ia distribuci6n de rango studentizado se encuentran en la tabla E.8.
Silos tamafios de muestra difieren, se calcula un rango critico para cada pareja comparada de
medias de muestra. Por ultimo, se compara cada una de las c (c- 1)/2 parejas de medias contra sus
correspondientes rangos criticos. Se declara a un par como significativamente diferente, si Ia diferen~ia absoluta en las medias de muestra
_X.,! es mayor que el rango critico.
1
En el ejemplo de los paracaidas existen cuatr6 proveedores. Por lo tanto, existen 4(4- 1)/2 = 6
parejas de comparaciones. Para aplicar el procedimiento Tukey-Kramer, primero se calculan las diferencias absolutas de la media para las seis parejas de comparaciones. Usando Ia figura I 0.23 de la
pagina 350,
jx.
11 - X2l = 119.52 2. 1x1 - x31 =119.52 3. j.X, - .X41 = 119.52 4. 1x2 - x31 = 124.26 s. 1x2 - x41 = 124.26 6. 13 - .X41 = 122.84 1.
24.261
= 4.74
22.841
= 3.32
= 3.1o
21.161
= 1.68
Usted necesita calcular solo un rango critico porque los tamafios de muestra en los cuatro grupos son iguales. De Ia tabla de resumen ANOVA (figura 10.26 o 10.27 en la pagina 353) MSW =
6.094 y nj = nj' = 5. De la tabla E.8, para a= 0.05, c = 4 y n- c = 20-4 = 16, Qu, el valor critico de Ia cola superior del estadistico de prueba es de 4.05 (vease la tabla 10.10). A partir de Ia ecuacion 10.16,
Rango critico
e
p
Fl
Sc
pr
Kr
de
= 1.64
22.841 = 1.42
21.161
21.161
5
p
T
= 4.05
6 94
~ )(~ + ~) = 4.471
Puesto que 4.74 > 4.471, se concluye que existe una diferencia significativa entre las medias de los
proveedores 1 y 2. Todas las demas diferencias de las parejas son lo suficientemente pequefias como
para deberse al azar. Se concluye que los paracaidas tejidos usando fibras del proveedor l, tienen
una menor media de resistencia a Ia tension que los del proveedor 2.
- -
-~
- --
.............
- . -----
355
Estos resultados se resumen en Ia salida de Excel que aparece en Ia figura 10.28 y en Ia salida
Minitab de Ia figura 10.29. Minitab proporciona intervalos de confianza para las diferencias entre
dos grupos en Iugar de presentar el rango critico. Por ejemplo, el intervalo de confianza para Ia media de la poblaci6n del proveedor 2 menos Ia media de Ia poblaci6n para el proveedor 1.
- X-
(X2
1)
MSW( 1
1)
Qu - - - + - = (0.269, 9.211)
2
nj
nj'
Como ambos puntos fmales de este intervalo son positivos, se concluye que Ia media de Ia poblaci6n del proveedor 2 es mayor que Ia media de Ia poblaci6n del proveedor 1.
FIGURA 10.28
So_.. I SomDio
Size
GIOUD
...~vo~o
Absolute
t:omDOI looa
;roUD' I tD' ;ro.. :
;,
Ito ;,o.. :
;roup I tD' ;roUD,
;,.
!tD' ;,oUD:
;roup !to iroup
;roup Ito ;,.up'
.....
..
Other Dot1
llt
llfl ftO
1.
1.
1.10399275
.ovol oloianificonco
lorena
lorena
1ore no
lore
orel1
Oru1
orem
ora11
lumerotord.f.
,_
5.1B
4.1
ISIIIIOIIC
FIGURA 10.29
All
Pai~wise Coapa~1sons
1 8Ubtl:acted
Lowe~
2 0.269
3 -1.151
4 -2.831
Cente~
Uppe~
4.740 9.211
3.320 7.791
1.640 6.111
-----+---------+---------+---------+---(-------*--------)
(--------*--------)
(--------*--------)
-----+---------+---------+---------+----5.0
0.0
5.0
10.0
8Ubt~acted f~o:
Lowe~
3 -5.891
4 -7.571
f~oa:
Cente~
Uppe~
-1.420 3.051
-3.100 1.371
-----+---------+---------+---------+---(--------*--------)
(--------*--------)
-----+---------+---------+---------+----5.0
o.o
5.0
10.0
8Ubt~acted f~o11.:
Lowe~
4 -6.151
Cente~
Uppe~
-1.680 2.791
-----+---------+---------+---------+---(----------------)
Suposiciones ANOVA
En el capitulo 9 y en las secciones 10.1 a 10.4, usted aprendi6 las suposiciones que se hacen a! aplicar cada uno de los procedimientos de prueba de hip6tesis y las consecuencias de desviarse de estas
suposiciones. Para usar Ia prueba F con ANOVA de una via, tambien debeni hacer ciertas suposiciones acerca de los datos.
Estas tres suposiciones son:
Aleatoriedad e independencia.
Normalidad.
Homogeneidad de varianza.
356
contra la altemativa
H 1: no todas las crJ son iguales U
= l, 2, . . . , c)
Para pro bar la hipotesis nula de las varianzas iguales, primero se calcula el valor absoluto de la diferencia entre cada valor y la mediana del grupo. Despues se efectUa el analisis de varianza de unavia
en estas diferencias absolutas. Para ilustrar la prueba de Levene modificada, regr~se al escenario de
"Uso de la estadistica" relacionado con la resistencia ala tension de los paracaidas, presentado en Ia
pagina 346. La tabla 10; 11 resume las diferencias absolutas de la mediana de cada proveedor.
TABLA 10.11
Diferencias absolutas
de Ia mediana de Ia
resistencia a Ia tension
para los cuatro
proveedores.
Proveedor 1
(mediana = 18.5)
Proveedor 2
(mediana = 24.5)
Proveedor 3
(mediana = 22.9)
Proveedor4
(mediana = 20.4)
118.5- 18.51=
124.0 -18.51=
117.2-18.51=
119.9 -18.51=
/18.0- 18.5/=
126.3- 24.51=
125.3- 24.51=
124.0- 24.51=
121.2- 24.51=
/24.5- 24.51;,
120.6- 22.91=
125.2- 22.91=
120.8 - 22.91 =
/24.7- 22.9/=
/22.9- 22.91=
0.0
5.5
1.3
1.4
0.5
1.8
0.8
0.5
3.3
0.0
2.3
2.3
2.1
1.8
0.0
10.5: ANOVAdeunavia
357
Usando las diferencias absolutas proporcionadas en la tabla 10.11, se realiza el aruilisis de varianza
de una via. La figura 10.30 presenta la salida de Excel y la figura 10.31 muestra la salida Minitab.
FIGURA 10.30
Salida Excel del analisis
de varianza de las
diferencias absolutas
para los datos
del paracafdas.
FIGURA 10.31
Salida Minitab de Ia
prueba de Levene
para los datos de
los paracafdas.
EJEMPLO 10.5
TABLA 10.12
Tabla de analisis de
varianza de Ia velocidad
de servicio en el
automovil de las
cadenas de comida
rapida.
Fuente
Entre cadenas
Dentro de
Grados
de Iibertad
Sumade
cuadrados
Medias
cuadraticas
Valor-p
6,536
1,634.0
12.51
0.0000
las cadenas 95
12,407
130.6
En un nivel de significancia de 0.05, l,existe evidencia de una diferencia en la media del tiempo de
servicio en el autom6vil de las cinco cadenas?
SOLUCION
Ho: ll1 = ll2 = ll3 = ll4 = lls
dondej = 1, 2, 3, 4, 5
Regia de decision: Si el valor-p < 0.05, se rechaza H 0 A partir de que el valor-pes 0, se rechaza H 0
Usted tiene evidencia suficiente para concluir que la media del tiempo de servicio en el autom6vil de
las cinco cadenas no es igual.
.,..
.i'
-'
358
= Qu(5,95) = 3.92
..---~---:-
Rango critico
= Qu(c,n-c)
MSW(1
1J = (3 .92)
+2
-- -
nj
nj'
= 10.017
Los tiempos de servicio en el automovil son diferentes entre Wendy's (media de 150 segundos) y cada una de las otras cuatro cadenas. Se concluye, con un nivel deconfianza del95%, que el tiempo de
servicio en el automovil de Wendy's es mas rapido que en McDonald 's, Burger King, Checkers y
Johm Long Silver's, pero los tiempos de servicio en el automovil para McDonald's, Burger King,
Checkers y John Long Silver's no son estadisticamente diferentes.
Aprendizaje basic:o
10.55 Usted trabaja en un experimento que tiene
un s-olo factor con cinco grupos y siete val ores en cada grupo.
a. l,Cuantos grados de libertad hay para determinar Ia variacion entre grupo?
b. l,Cuantos grados de libertad hay para determinar la variacion dentro del grupo?
c. l,Cuantos grados de libertad hay para determinar Ia variacion total?
'-------'
Ir
de cuatro grupos, con ocho valores en cada uno. Llene todos los resultados faltantes en Ia siguiente tabla
de resumen de ANOVA.
'--------'
:Fuente
Grados de
libertad
Entre
grupos
c-1 =?
!
Dentro
:
degrupos n-c=?
Total
a. Si SSA = 60 y SST= 210, l,Cuat es el valor de SSW!
b. l,Cual es el valor de MSA?
c. l, Cuat es el valor de MSW!
n-l=?
Sumade
cuadrados
SSA =?
Medias
cuadraticas
(varianza)
a.
b.
c.
MSA = 80 F=?
us:
se .
10.60 Usted trabaja en el mismo experimento del problema
10.59:
a. Con un nivel de significancia de 0.05, establezca Ia regia de
decision para probar Ia hipotesis nula de que los cuatro grupos tienen Ia misma media poblacional.
b. l,Cual es su decision estadistica?
c. En un nivel de significancia de 0.05, (,cuill es el valor critico
de Ia cola superior para 1a distribucion de rango studentizada?
d. Para realizar el procedimiento de Tukey-Kramer, l,cual es.el
rango critico?
Cu
e!e
cio
nac
se!c
list
das
por.
Not
nes
Aplicac:i6n de conc:eptos
Puede resolver los problemas 10.61 a 10.68 manualmente o usando Excel, Minitab o SPSS.
-:
Fue~
Pros
a.
~j
d,
b.
s
di
- - - - ---
359
Fuente
Entre especialidades
Dentro de las
especialidades
Total
Grados de
Iibertad
Sumade
cuadrados
3,172
166
171
21,246
24,418
Medias
cuadrados
Especialidad
Media
Marketing
Administraci6n
Otras
Finanzas
Contaduria
MIS
19
44.37
43.18
42.21
41.80
37.56
42.21
11
14
45
36
47
de PH Grade
Expertos
--=---
+39.5
-1.1
-4.5
-8.0
Lectores
Dardos
-31.0
-20.7
-45.0
-73.3
+39.0
+31.9
+14.1
+5.4
~uente:
10.63 Los siguientes datos representan el precio de la gasolina regular en estaciones de autoservicio de cuatro condados de
la ciudad de Nueva York y dos condados suburbanos durante la
semana del17 de mayo de 2004. GASPRICE
--- ----------- ---------- ----
---- -.- - - I
Condados
!
I
2.099
2.159
2.179
2.199
2.199
2.159
2.359
2.119
2.259
2.159
2.239
2.159
2.239
2.219 I
1.999
-- ----- --- --- - --- - ..
a. En un nivel de significancia de 0.05, l.existe evidencia de
una diferencia en Ia media del precio de gasolina en los seis
condados?
b. Si es apropiado, determine que condados difieren en las medias del precio de gasolina.
c. En un nivel de significancia de 0.05, l,existe evidencia de
una diferencia en la variaci6n del precio de gasolina entre
los seis condados?
2.199
2.139
2.239
2.159
2.179
2.239
2.239
2.179
2.299
2.279
Aleacion
1
999
1,010
995
998
_1,001
1,022
973
1,023
1,023
996
1,026
1,008
1,005
1,007
981
974
1,015
1,009
1,011
995
360
15
18
17
19
19
20
16
17
21
16
19
17
8
7
10
15
14
14
5
6
13
12
19
18
12
17
14
11
9
10
c.
Ubicaci6n en el pasillo
' AI frente
Ala mitad
Parte posterior
3.2
2.4
2.0
1.4
1.8
1.6
4.6
6.0
4.0
2.8
2.2
2.8
En
b.
:8.6
7.2
5.4
,6.2
15.0
,4.0
de
bla
de
me
seJ,
jun
las
tos
ceg;
sis
l.
1 0.68 Una empresa de productos deportivos deseaba comparar Ia distancia que recorren las pelotas de golf de cuatro diferentes diseiios. Se fabricaron 10 pelotas con cada disefio y se
llevaron al campo de golf local para que las probara un profe
sional del club. El orden en el que fueron golpeadas con un palo de golf desde el primer tee fue aleatoric. Las 40 pelotas foeron golpeadas en un periodo de tiempo corto y en condiciones
ambientales esencialmente iguales. Los resultados ( distancia
recorrida en yardas) para los cuatro diseiios fueron los siguien
tes: GOLFBALL
Disefi.os
1
' 206.32
226.77
207.94
224.79
206.19
229.75
204.45
228.51
209.65
221..44
203.81
223.85
206.75
223.97
205.68
234.30
204.49
219.50
210.86
233.00
217.08
230.55
221.43
227.95
218.04
231.84
224.13
224.87
211.82
229.49
213.90
231.10
221.28
221.53
229.43
235.45
213.54
228.35
214.51
225.09
FIG I
Resumen
b. Si los resultados en el inciso a) indican que es apropiado,
utilice el procedimiento Tukey-Kramer para determinar que
disefios difieren en Ia media de distancia.
c. (.Que suposici6n es necesaria en el inciso a)?
361
RESUMEN
En este capitulo puso en pnictica procedimientos estadisticos
de prueba para analizar posibles diferencias entre dos 0 mas poblaciones independientes. Ademas, aprendi6 un procedirniento
de prueba usado con frecuencia al analizar diferencias entre las
medias de dos poblaciones relacionadas. Recuerde que necesita
seleccionar Ia prueba mas apropiada para un determinado conjunto de condiciones e investigar de forma critica Ia validez de
las suposiciones que subyacen en cada uno de los procedirnientos de prueba de hip6tesis.
El mapa conceptual de Ia figura 10.32 ilustra los pasos necesarios para determinar que prueba de dos muestras de hip6tesis usar.
1. (,Que tipo_de datos tiene? Siesta trabajando con variables
categ6ricas de dos poblaciones independientes, utilice Ia
prueba Z para Ia diferencia de dos proporciones.
!
'i
Mas de
dos muestras
I!.~.~r~.~
~~
jj
~
ANOVAde
una vfa
Dos muestras
Prueba
tapareada
Prueba tde
, varianza separada
Prueba tde
varianza conjunta
362
TABLA 10~13
Resumen de temas
estudiados en el
capitulo 10.
Tipo de datos
Tipo de analisis
Numericos
Categ6ricos
Prueba para la
diferencia entre dos
proporciones
(secci6n 10.3)
FORMULAS IMPORTANTES
Prueba Z para la diferencia entre dos medias
(10.1)
Sv
D t,_ 1 ..Jn
cr2
-~+~
n1
n2
D - t,_l
~ ~D ~ D
Sv
+ t,_l ..Jn
(10.3)
(10.7)
Sv
..Jn
(10.2)
s;(_!_n + _!__)
n
1
(10.6)
n1
(10.8)
n2
(PI_ p ) _
2
~ (p _ p ) +
1
2
z = J5- ~D
(10.4)
crv
Prueba t apareada para Ia diferencia de Ia media
t =
J5~D
Sv
..Jn
(10.5)
~-n~
2 _ _ _ _ __
n2
..Jn
n1
=~
si
(10.9)
Fu
1
lc
1
ri
n
1
e;
ci
11.
di
363
SST=
MSW = SSW
nj
LL(Xij- X)
n-c
(10.11)
(10.14b)
}=! i=l
SSA
= L nj(XJ - X) 2
(10.12)
ssw=
.nj
LL(Xij -Xj)
(10.14c)
J=!
MST = SST
n -1
(10.13)
. F = MSA
MSW
(10.15)
J=! i=l
c-1
n__ MSW
[ 1 + -1 )
, . = laJ
Rango cntico
- 2
rt
1 n1,
(10.14a)
(10.16)
CONCEPTOS CLAVE
aleatoriedad e independencia 355
amilisis de varianza (ANOVA) 346
ANOVA de una via 346
aparean 322
comparaciones mUltiples 353
cuadniticos medios 348
distribuci6n de rango studentizado 354
distribuci6n F 339
efecto del tratamiento 346
emparejan 322
error aleatoric 346
estadistico de prueba F con ANOVA de una
via 349
estadistico de prueba F para probar Ia
igualdad de dos varianzas 339
factor 326
PROBLEMAS DE REPASO
Revision de su comprensi6n
~0.~9 (,CU!iles son algunos de los criterios utilizados para seecclOnar un procedimiento de prueba de hip6tesis particular?
1
.0.70 (.En que condiciones se debe utilizar la prueba t de vartan~a conjunta para examinar las posibles diferencias en las
~ed,as de dos poblaciones independientes?
0
71 (.En que condiciones se debe utilizar Ia prueba F para
e~aminar las posibles diferencias en las varianzas de dos pobla~lones independientes?
7
d~ 2 (,Cual es la diferencia entre dos poblaciones indepenlentes Y dos poblaciones relacionadas?
'
364
Aplicaci6n de concepto_s
Puede resolver manualmente los problemas 10.84 a
10.87 o usando Excel, Minitab o SPSS. Le recomendamos usar Excel, Minitab o SPSS para resolver los problemas 10.88 a 10.105.
10.80 Un estudio reportado en el Journal of Business Strategies comparo los precios de discos compactos de musica para.
minoristas en Internet y los tradicionales minoristas (Lee
Zoonky y Sanjay Gosain, "A Longitudinal Price Comparison
for Music CDs in Electronic and Brick-and-Mortar Markets:
Pricing Strategies in Emergent Electronic Commerce", primavera de 2002, 19(1 ):55-72). Antes de recolectar los datos, los
investigadores definieron cuidadosamente diferentes hipotesis
de investigacion incluyendo:
1. La dispersion del precio sera menor en Internet que la dispersion de precio en el mercado tradicionaL
2. Los precios en los mercados electronicos seran menores que
los precios en los mercados fisicos.
a. Considere la hipotesis de investigacion 1. Escriba la hipotesis nula y la alternativa en terminos de parametros poblacionales. Defma cuidadosamente los parametros poblacionales
usados.
b. Defma un error tipo I y un error tipo II para las hipotesis del
inciso a).
c. i., Que tipo de prueba estadistica debe usar?
d. l,Que suposiciones son necesarias para realizar la prueba seleccionada?
e. Repita los incisos a) a d) para la hipotesis de investigacion 2.
10.81 El mercado de medicamentos p~a mascotas esta creciendo rapidamente. Antes de lanzar al mercado nuevos medicamentos para mascotas, deben recibir la aprobacion de la U. S.
Food and Drug Administration (FDA). En 1999, la empresa
Norvatis intento que su medicamento Anafranil, para reducir la
ansiedad en perros, fuera aprobado. De acuerdo con un articulo
(Elyse Tanouye, "The Ow in Bowwow: With Growing Market
in Pet Drugs, Makers Revamp Clinical Trials", The Wall Street
Journal, 13 de abril, 1999), Norvatis tuvo que encontrar lamanera de traducir los sintomas de ansiedad de los perros en numeros que pudieran utilizarse para probar ala FDA que el medicamento tenia un ejecta estadisticamente significativo en la
condicion de ansiedad.
a. l,Que significa la frase efecto estadisticamente significativo?
b. Considere un experimento en el que perros que sufren de
ansiedad se dividen en dos grupos. A un grupo se le dara
Anafranil, y al otro grupo se le dara un placebo (un medi-
camento sin ingredientes activos). i_,Como podrian traducirse los sintomas de ansiedad de los perros en numeros?
En otras palabras, defina la variable continua X 1, la medicion de la efectividad del medicamento Anafranil, y X 2, la
medicion de la efectividad del placebo.
Ia
i~
Ia
2
3
4
Fu
"C
Be,
Qu
a.
b.
c.
d.
e.
10.
de'
una
cio:
par:
s
n
Use
a. ~
I
b. l
I;
c. l
n
d. (
fi
n
10.~
etnpJ
!ante
una ]
conu
Problemas de repaso
Para cada pregunta, los investigadores probaron Ia hip6tesis nula de que Ia media de las respuestas para hombres y mujeres es
igual. La hip6tesis altemativa es que Ia media de las respuestas
es diferente para hombres y mujeres. La siguiente tabla resume
los resultados.
Media de Ia muestra
Pregunta
2
3
4
Mujeres
(nt=l37)
Hombres
(n2 =305)
Valor-p
4.46
4.09
4.26
4.12
4.26
3.86
3.91
4.06
1.907
2.105
3.258
0.567
0.057
0.035
0.001
0.571
a.
b.
c.
d.
e.
x
s
n
Condado I
Condado II
$115
$30
25
$98
$18
21
365
en el departamento de investigaci6n que se realizaron Ia semana pasada, y se registra el tiempo de procesamiento (en segundos) para cada trabajo. ACCRES
Departamento
Contaduria
Investigaci6n
9
4
8
10
3
13
7
9
12
9
13
15
12
13
11
13
12
366
10.87 Durante los ultimos aiios se ha incrementado dnisticamente el uso de los telefonos celulares. Un articulo en el USA
Today (D. Sharp, "Cellphones Reveal Screaming Lack of Courtesy", USA Today, septiembre de 2001,4A) report6 que, de
acuerdo con una encuesta, la media de tiempo de conversaciones telef6nicas por mes para celulares fue de 372 minutos para
hombres y 275 minutos para mujeres, mientras que la media de
tiempo de conversaci6n por mes para telefonos tradicionales en
el hogar fue de 334 minutos para los hombres y 510 minutos
para las mujeres. Suponga que Ia encuesta se basara en una
muestra de 100 hombres y 100 mujeres, y que Ia desviaci6n estandar del tiempo de conversaci6n en telefonos celulares por
roes fue de 120 minutos para los hombres y 100 minutos para
las mujeres, mientras que Ia desviaci6n estandar para el tiempo
de conversaci6n por tel6fono tradicional por mes fue de 100
minutos para los hombres y 150 minutos para las mujeres.
Use un nivel de significancia de 0.05.
c. Construya e interprete una estimaci6n del intervalo de confianza del 95% de Ia diferencia en Ia media de tiempo mensual de conversaciones en celulares para hombres y mujeres.
d. Construya e interprete una estimaci6n del intervalo de confianza del 95% de Ia diferencia en Ia media de tiempo mensual de conversaciones en telefonos tradicionales para hombres y mujeres.
e. l,Existe evidencia de Ia diferencia en Ia varianza del tiempo
mensual de conversaciones telef6nicas en celulares para
hombres y mujeres?
f. l,Existe evidencia de Ia diferencia en la varianza del tiempo
mensual de conversaciones telef6nicas en tel6fonos tradicionales para hombres y mujeres?
g. Con base en los resultados de los incisos a) a./), l,que conclusiones se obtienen en relaci6n con el uso de telefono ceIular y tel6fono tradicional entre hombres y mujeres?
til
0.
vi
11
gc
yo
13!
10. 93 Zagat publica clasificaciones de restaurantes en diferentes lugares de Estados Unidos. El archivo de datos RESTRATE
contiene Ia clasificaci6n de Zagat para comida, decoraci6n, servicio y precio por persona para una muestra de 50 restaurantes localizados en la ciudad de Nueva York y 50 restaurantes localizados en Long Island. Realice un ana!isis completo de las
diferencias entre los restaurantes de Nueva York y Long Island
para las variables de clasificaci6n de comida, clasificaci6n .~e
decoraci6n, clasificaci6n de servicio y precio por persona, ut!Itce a= 0.05.
18 '
blf
de
dio
Kt
tht
ne
Problemas de repaso
10.95 En los procesos de manufactura ex.iste un termino llamado trabajo-en-proceso (WIP, por sus siglas en ingles). En una
planta dedicada a Ia edici6n de libros, el WIP representa el tiempo que toma doblar las hojas de la prensa, reunirlas, coserlas y
emparejarlas. Los siguientes datos representan muestras de 20
libros de cada una de dos plantas de producci6n y el tiempo de
procesamiento (defmido operacionalmente como el tiempo en
dias des de que los libros salieron de Ia prensa hasta que estuvieron empacados en cajas de carton). WIP
PlantaA
367
10.97 El fabricante de tablillas de asfalto "Boston" y "Vermont" sabe que el peso del producto es el principal factor en la
percepci6n de calidad que tiene el cliente. Mas aoo, el peso representa la cantidad de materia prima que se emplea y, por lo
tanto, es muy importante para Ia empresa desde un punto de
vista de costos. En Ia ultima etapa de Ia linea de ensamblaje, se
empacan las tablillas antes de colocarlas en paletas de madera.
Una vez que Ia paleta esta llena (una paleta sostiene 16 cuadros
de tablillas para casi todas las marcas), se procede a pesarla y Ia
. medida se registra. El archivo de datos PALLET contiene el peso
(en Iibras) de una muestra de 368 paletas de tablillas Boston y
330 paletas de tablillas Vermont. Haga un ana!isis completo de
las diferencias en el peso de las tablillas Boston y Vermont utilizando a = 0.05.
5.62 5.29 16.25 10.92 11.46 21.62 8.45 8.58 5.41 11.42
11.62 7.29 7.50 7.96 4.42 10.50 7.58 9.29 7.54 8.92
PlantaE
9.54 11.46 16.62 12.62 25.75 15.41 14.29 13.13 13.71 10.04
5.75 12.46 9.17 13 .21 6.00 2.33 14.25 5.37 6.25 9.71
10.98 El fabricante de tablillas de asfalto "Boston" y "Vermont" ofrece a sus clientes una garantia de 20 afios para casi todos sus productos. Para determinar si una tablilla durara lo que
el periodo de garantia, se realiza una prueba de aceleraci6n de
vida en Ia planta de producci6n. La prueba de aceleraci6n de vida somete a las tablillas a las condiciones que encontraria en
una vida normal de uso en un ambiente de laboratorio a traves
de un experimento que toma pocos minutos en llevarse a cabo.
En esta prueba, Ia tablilla es cepillada continuamente durante
un periodo breve y se pesa (en gramos) Ia cantidad de granulos
de tablilla que remueve el cepillo. Se espera que las tablillas
que experimentan bajas cantidades de perdida granular duren
mas en condiciones normales que las tablillas que experimentan gran perdida de cantidades de granulos. En esta situaci6n,
se espera que una tablilla experimente una perdida no mayor a
0.8 gramos si se espera que dure el periodo de garantia. El archivo de datos GRANULE contiene una muestra de 170 mediciones hechas en tablillas Boston y 140 mediciones hechas en las
tablillas Vermont. Realice un analisis completo de las diferencias en Ia perdida granular de las tab Iilias Boston y Vermont utilizando a= 0.05.
10.99 El director de control de calidad de una fabrica de ropa
desea estudiar el efecto de las maquinas en la fuerza de rompimiento (en Iibras) de Ia sarga de lana. Un lote de Ia tela se corta
en piezas d~ yarda cuadrada que se asignan aleatoriamente, 12
de cada una, a tres maquinas elegidas especificamente para el
experimento. Los resultados son los siguientes. BREAKSTW
368
Maquina
I
II
115
115
119
117
114
114
109
110
106
112
115
111
Ill
108
114
105
102
106
100
103
101
105
107
107
109
110
107
110
113
114
103
102
105
108
111
110
........... :
Caso actual
10.1 OS (, Cual fue el desempefio de los fondos de inversion durante 2003, en el periodo de 2001-2003 y durante el periodo de
cinco afios de 1999-2003, de acuerdo con el tipo de categoriza-
369
Fase 1
EJERCICIOS
SHlO.l Analice los datos de la tabla SHlO.l y escriba un reporte para el equipo del departamento de marketing
que indique sus resultados. Incluya un apendice adjunto en el que explique la razon por la que eligio una
prueba estadistica en particular para comparar los dos
grupos independientes de vendedores.
SH10.2 Suponga que en Iugar de investigar el disefio antes
descrito, hubiera habido solo 15 vendedores muestreados y cada vendedor fuera supervisado dos veces
en la tarde, una en el periodo temprano y una en el
periodo tarde. Suponga que en la tabla SHlO.l cada
pareja de valores representa dos mediciones de un
vendedor especifico. Analice otra vez estos datos y
escriba un reporte para dar una presentacion al equipo
en el que indique sus resultados.
SH10.3 (,Que otras variables deberan estudiarse a continuacion? (,Por que?
Fase2
AI estudiar el proceso de solicitud de entrega a domicilio, el
equipo del departamento de marketing determino que las denominadas llamadas "tarde", realizadas entre las 7:00 PM y 9:00
PM, fueron significativamente mas proclives a ser llamadas de
mayor duracion que las realizadas mas temprano (entre las 5:00
PM y las 7:00PM).
Sabiendo que el periodo de las 7:00PM a las 9:00PM es superior, el equipo se dedico a investigar el efecto del tipo de presentacion en la duracion de la Hamada. Un grupo de 24 vendedoras se asigno aleatoriamente, 8 a cada uno de tres planes de
presentacion -estructurado, semiestructurado y no estructurado- y se les capacito para hacer la presentacion telefonica. Todas las llamadas se hicieron entre las 7:00PM y las 9.00 PM, el
periodo tarde, y las vendedoras debfan expresar un saludo que
fuera personal pero informal ("Hola, soy Mary Jones del
Springville Herald, wodria hablar con Bill Richards?"). Las
vendedoras sabian que el equipo estaba observando sus esfuerzos esa tarde, pero no sabfan que llamadas en particular estaban
supervisando. Se tomaron mediciones de la duracion de la llamada (defmida como Ia diferencia, en segundos, entre elmomento en que la persona responde el telefono y el momento en
el que el o ella cuelga el auricular). La tabla SH10.2 presenta
los resultados. SHl0-2
370
TABLA SH10.2
EJERCICIO
; Estructurado
38.8
42.1
45.2
34~8
48.3
37.8
41.1
43.6
Semiestructurado
No estructurado
41.8
36.4
39.1
28.7
36.4
36.1
35.8
33.7
32.9
36.1
39.2
29.3
41.9
31.7
35.2
38.1
SH10.4 Analice estos datos y escriba un reporte para el equipo que indique sus resultados. Asegfuese de incluir
sus recomendaciones basadas en los resultados. Tambien incluya un apendice en el que explique Ia raz6n
por la que eligi6 una prueba estadistica en particular
para comparar los tres grupos independientes de
vendedoras.
-, ~
'.
.,
.,.
.. ,
A.1
Para
tos b1
Selec
Selec
deAn
proce
L
p
:-:
u
Ap/ique su conocimiento sobre !a prueba de hipotesis en este
Caso Web que continua !a disputa delllenado de los empaques
de cereal del Caso Web de los capitulos 7 y 9.
Despues de que Oxford Cereals realiz6 un experimento
publico acerca del peso de las cajas de cereales, la TriCities
Consumers Concerned About Cereal Companies That Cheat
(TCCACCTC) permanece esceptica de que Oxford Cereals no
haya engafiado al publico. El grupo ha creado y fijado su posicion en un documento en el que afmnan que las cajas de cereal
producidas en la planta nt1mero 2 en Springville siempre pesan
menos que los 368 gramos establecidos. Revise el documento
del grupo y la muestra de datos en el sitio Web de la rcCACCTC, www.prenhall.com/Springville/MoreOnCheaters.Htm y despues responda lo siguiente:
1. l,La TCCACCTC aporta resultados que prueben que existe
una diferencia estadistica en la media de pesos de las cajas
de cereales que producen las plantas nt1meros I y 2?
)~ .
I (?)
R Is R
fD)@ uu\SLLr"w2:J
fi:\)l (? n/~ (?
~\~l.su
L:::JLJ\Sy_
_:;a~~OJ'-
1. Berenson, M., D. Levine, T. Krehbiel, Basic Business Statistics: Concepts and Applications, lOa. ed. (Upper Saddle
51 5
11. Tukey, J. W., "Comparing Individual Means in the AnalY
ofVariance", Biometrics 5 (1949): 99-114.
.
12. Winer, B. J., Statistical Principles in Experimental Desigfl
2a. ed. (Nueva York: McGraw-Hill, 1971).
B
It
d
It
C(
In
m
St
c!1
D1
Los res
Apendice
371
Apendice .10
A.10 EXCEL
Prueba Z para Ia diferencia entre dos medias
Para datos brutos: Abra Ia hoja de trabajo que contiene los datos brutos para las dos muestras.
Seleccione Herramientas ~ Amilisis de datos.
Seleccione Prueba z para medias de dos muestras de Ia lista
de Amilisis de datos y de clic en OK En Ia ventana de dialogo de
procedimiento (vea la figuraAIO.l):
Ingrese el rango de celda para una muestra como el Rango
para Ia variable 1.
Ingrese el rango de celda para Ia otra muestra como el
Rango para Ia variable 2.
Ingrese el valor de la Diferencia hipotetica entre las medias.
Ingrese Ia varianza de la poblaci6n de Ia primera muestra
como Ia Varianza para Ia variable 1 (conocida).
Ingrese Ia varianza de la poblaci6n de Ia otra muestra como Ia Varianza para Ia variable 2 (conocida).
Seleccione Rotulos si los rangos de celda de la variable incluyen r6tulos en sus primeras filas.
De clic en Aceptar.
Los resultados aparecenin en una hoja de trabajo aparte.
0 Vea la secci6n G .19 (Prueba Z para diferencias en dos medias) si desea que PHStat2 genere una hoja de trabajo.
L:
372
Seleccione Prueba t para medias de dos muestras emparejadas de la lista de Analisis de datos y de clic en Aceptar.
En la ventana de dialogo de procedimiento .(vea la figura
Al0.4):
0 Vea la secci6n G.20 (Prueba t para diferencias en dos medias) si desea que PHStat2 genere la hoja de trabajo.
TINV
F
Los resultados aparecen en una hoja de trabajo aparte.
m1
cru
ta
ria
ust
AN
Ab:
do
arc]
Selt
Se)c
los
(ve;
Los
'I
- - -- -
- - - -
- --
---- -- -
Apendice
373
Procedimiento Tukey-Kramer
ANOVA
de una via
Abra una hoja de trabajo en la que los datos a analizar hayan sido ordenados en columnas, tal como en la lioja de trabajo del
archivo Parachute.xls.
Seieccione Herramientas -. Amilisis de Datos.
Seieccione ANOVA: Factor unico de la lista de Analisis de da;as Yde clic en OK. En la ventana de dicilogo de procedimiento
vea Ia figuraA10.6 ala derecha):
Ingrese el rango de celda de los datos como el Rango de
Input.
Se!eccione Columnas.
Se!eccione R6tulos en Ia primera fila si el rango de celda~ incluye r6tulos en las primeras filas.
_
De clic en Aceptar.
los resultados aparecen en una hoja de trabajo aparte.
Inicie siguiendo las instrucciones para "ANOVA de una via" para generar una hoja de trabajo que contenga resultados que se
usaran posteriormente. A continuaci6n, busque el rango estadistico Q studentizado en la tabla E.8 para un nivel de significancia de 0.05. Finalmente, ingrese los estadisticos de muestra y
otros datos a Ia hoja de trabajo del archivo Tukey-Kramer.xls
para el nUm.ero adecuado de grupos.
0 Vea la secci6n 0.23 (Procedimiento Tukey-Kramer) sidesea que PHStat2 corra el ANOVA y produzca una hoja de comparaciones multiples.
0 Vea la secci6n 0 .24 (Prueba de Levene) si desea que PHStat2 calcule las diferencias absolutas y corra el ANOVA.
A 10.2 MINITAB
374
1. Si los datos estan agrupados con los valores en una columna, y las categoiias en una segunda columna, como lo estan en esta hoja de trabajo, seleccione el bot6n Samples in
one column. (Si las muestras estan en diferentes columnas
seleccione Ia opci6n Samples in different columns e ingrese el nfunero de columna o nombre.)
2. En Ia lista que se despliega hacia abajo de Alternative, seleccione greater than para Ia prueba de una cola desarrollada
en la pagina 325. De clic en el bot6n OK para volver a la
ventana de dialogo t apareada. De clicen el bot6n Graphs
y seleccione el cuadro de exploraci6n Boxplot of differences. De clic en el bot6n OK para regresar a Ia ventana de
dialogo t apareada. De clic en el bot6n OK.
1MiijM@I!ffl1ttil.!iiffiM'f
r.:
Samples In columns
First sample:
r.::IS~~----en~-~~------
Second sample:
ll,l'e:! .--...
S~mpJ~:- ~>i?;e.~
Me.aJJ:
[=~-"---~~"-~ ;
!~='""- .,.,..
~tQ.!l.i!ar~; deviaticm:. J _
Samples:
Subscripts:
l~t~~=~--~~"""",j
IRi,!'J'!~v~~-~
L ...
Second;
----,-_--,--- - -.-ll~
: ..-- -~H--e.lp- . ~
L~~---.===~~
Fir$1:
Sei<QIId:
'- ~"-------J
J__________ ~!
Standard.
deviafio.n:
L ______j L__..;___J
(_,__,.___j
L=-~..J
.r G~pb~~- ----,
OK
~~o.,d;~;;:- -I
Cancel
3. En la lista que se despliega bacia debajo de Alternative, seleccione not equal para la prueba de dos colas ejecutada en
la pagina 315. (Si se ejecuta una prueba de una cola, seleccione menos que o mas grande que.) De clic en el bot6n OK.
i'
4. De clic en la opci6n Graphs y seleccione el cuadro de exploraci6n de datos Boxplots. De clic en OK para volver a
la ventana de dialogo de Ia muestra t 2. De clic en OK.
(Para obtener los resultados de Ia figura 10.4 en la pagina 315,
primero desagrupe los datos usando Data -+ Unstack Columns, despues ingrese Sales en el cuadro de edici6n Unstack
the data in y Display en el cuadro de edici6n de Using Subscripts in. Seleccione la opci6n After last column in use.)
- ~jU:~
E.
Sul!.,cripts:
L. -~ =---~~~-'
C Samples In different columns
Firs.t
--- - -
- ....
s.e cond:.
Summarized data
Trials:
First
Second:
126~
Events:
1_1 63
---- ~_!, 1~_5.4
.. -Optlons:.::J
Help
canC!!..J
Apendice
3.
375
leccione el bot6n con la opci6n Samples in different columns e ingrese los nombres de las dos columnas en los
cuadros de edici6n. Si tiene datos resumidos en Iugar de
datos reales, seleccione el bot6n con la opci6n Summarized data e ingrese los valores para el tamafio de la muestra
y varianza.)
2. De clic en el bot6n OK.
Confidence level:
LQ_.,:~O =-~--
Test difference:
Alternative:
lllot equ~l
. ~ , I~ ..... ~~-
__.!t_K;;;;;;;;;;;;;;;llll '.(-_ca_
n_ce_l___.
...,ll...
n Store fits
A continuaci6n se ilustra el uso de Minitab para la prueba F para la diferencia en dos varianzas. Abra la hoja de trabajo coLA.MTW. Seleccione Stat~ Basic Statistics ~ 2 Variances.
1. En la ventana de dialogo 2 Variances (vea la figura Al 0.11 ),
seleccione el bot6n con la opci6n Samples in one
column. En la ventana de edici6n Subscripts, ingrese Cl o
Sales. En la ventana de edici6n Subscripts, ingrese C2
o Display. (Si tiene muestras en diferentes columnas, se-
2 Yat1ances
Subscripts:
jD_iSJ:I!ay
_. _
Firs t:
Second:
Summarized data
Sample size:
Variance:
First:
Second:
Select
Options...
Storage...
Cancel
_j
~~~URA A 10.11
anances.
c)
Selec;t .
Si los datos estan guardados en un formato agrupado, seleccione Stat~ ANOVA ~One-Way. Ingrese Ia columna en Ia
que Ia variable respuesta es guardada en el cuadro de edicion
Response y Ia columna en la que el factor es guardado en el
cuadro de edici6n Factor."
.. :.
...,..
376
~~1:.
r:,~,...--...-.,--.~---c_-....,l
J5 .
.... .. ,__,_,;
Contri!lg.roup fev,e.l:
I
"5tad: ( olurnn'i
.[1-c
;, .
Slore oteclcell data In:
C Newworbbeet
.$;.]"~
ll
I
(0;.
......
L
...-...-..--.--<> - -.-. -...-... -.".-..~---""-,...-...,-....-..!' !9pUQt~u.
IC!, ,_=~-'--'""'' J
IL
OK
i'
1 r~~ H;;p -~
"1
OK
:-[-;
il
Confidence
~1:
[?,_~~,-- . ,--..:!
:'.
Ji ~.,' t~".
.-~------------------;. -,c. :.;:_- ~ ~ : ~,="-"'-":"'"""-~..:" .,"!;".' - . -.~ --,.-.,,-:, -. ~- ,,,~,... C
;;,:
i
.
.....
..... . ...
...
- --"~~~~=~"'>=="=_.,!!
--
CAPITULO
11
Pruebasdechicuadrada
USO DE LA ESTADfSTICA: Satisfacci6n de los huespedes en T.C. Resort Properties
OBJETIVOS DE APRENDIZAJE
En este capitulo, aprendeni:
C6mo y cwindo emplear la prueba de chi cuadrada para tablas de
contingencia
C6mo emplear el procedimiento de Marascuilo para deterrninar las
diferencias en pares al evaluar mas de dos proporciones
378
uso
DE LA ESTADISTICA
Satisfacci6n de los huespedes en T.C. Resort
Properties
t
n los dos capitulos anteriores usted utilizo procedimientos de prueba de hipotesis para analizar
datos numericos y categoricos. El capitulo 9 presento una variedad de pruebas con una muestra.
E
El capitulo 10 desarrollo varias pruebas condos muestras, al igual que analisis de varianza
{ANOVA)
de una via. Este capitulo extiende la prueba de hipotesis para analizar diferencias entre proporciones de
la poblacion basadas en dos o mas muestras, asi como la hipotesis de independencia en las respuestas conjuntas a dos variables categoricas.
TA
Tal
11.1
de
CUt
sat
hu1
11 .1: Prueba de chi cuadrada para 1a diferencia entre dos proporciones (muestras independientes)
379
La tabla de contingencia que muestra la tabla 11 .1 tiene dos filas y dos columnas y se llama tabla de 2 x 2. Las celdas de la tabla indican la frecuencia para cada combinaci6n de fila y columna.
TABLA 11.1
Disposici6n de una
tabla de contingencia
de 2 x 2.
VARIABLES EN FILA
Total
Exitos
Fracasos
XI
x2
n2-x2
ni-x!
Total
n!
n2
n-X
---
donde
TABLA 11.2
Tabla de contingencia
de 2 x 2 del
cuestionario de
satisfacci6n de los
huespedes.
HOTEL
1,ELEGIRiA EL HOTEL DE NUEVO?
Beachcomber
Windsurfer
Total
163
64
154
108
317
No
Total
227
262
489
Si
172
Para comprobar si la proporci6n de la poblaci6n de huespedes que desearian volver al Beachcomber, 1t 1, es igual ala proporci6n de poblaci6n de huespedes que querrian regresar al Windsurfer,
1t2 , se emplea la prueba de x2 para saber si hay igualdad en las proporciones. Para comprobar la hip6tesis nula de que no hay ninguna diferencia entre las dos proporciones de la poblaci6n:
contra Ia altemativa de que las dos proporciqnes de la poblaci6n no son las mismas:
380
(11.1)
donde
El estadistico de prueba x2 sigue aproximadamente una distribuci6n de chi cuadra.rul con 1 grado
de libertad.
Para calcular Ia frecuencia esperada,fe, en cualquier celda, debe quedar claro que si Ia hip6tesis
nula es verdadera, Ia proporci6n de exitos en las dos poblaciones sera igual. Entonces las proporciones de muestra que calcula de cada uno de los dos grupos diferirian s6lo por casualidad y cada uno
proporcionaria una estimaci6n del parametro comlln de Ia poblaci6n 1t. Un estadistico que combina
estas dos estimaciones separadas en una estimaci6n general del parametro de Ia poblaci6n 1t aporta
mas informaci6n que cualquiera de las dos estimaciones por si mismas. Este estadistico, dado por el
simbolo p, representa Ia proporci6n general estimada de exitos para los dos grupos combinadas (es
decir, el nfunero total de exitos divididos por el tamaiio total de las muestras). El complemento de p,
l - p, representa Ia proporci6n general de fracasos de los dos grupos. AI emplear Ia notaci6n presentada en Ia tabla 11.1 de Ia pagina 379, Ia ecuaci6n (11.2) define a p.
(11.2)
Para calcular Ia frecuencia esperada, fe, para cada celda correspondiente a los exitos ( es decir,
las celdas de Ia primera fila de Ia tabla de contingencia), multiplique el tamaiio de Ia muestra (o total de Ia columna) para un grupo por p. Para calcular Ia frecuencia esperadafe para cada celda correspondiente a fracaso (es decir, las celdas de Ia segunda fila de Ia tabla de contingencia), multiplique
el tamaiio de Ia muestra (o total de Ia columna) por (1- p).
El estadistico de prueba que muestra Ia ecuaci6n (11.1) sigue aproximadarnente una distribucion de chi cuadrada (vea Ia tabla E.4) con un grado de libertad. Utilizando un nivel de significancia a se rechaza Ia hip6tesis nula si el estadistico de prueba x2 es mayor que
el valor critico
superior de Ia distribuci6n teniendo un grado de libertad. Asi, Ia regia de decisi6n es
xb.
rechace H 0 si
x2 > xo;
T1
Tc
dE
Ia:
0~
FIGURA 11.1
fre
Regiones de rechazo
y de no rechazo al
emplear Ia prueba de
chi cuadrada para Ia
diferencia entre dos
proporciones con nivel
de significancia a.
(fe
X~
Regi6n de
no rechazo
Valor
Regi6n
critico de rechazo
380
PRUEBA DE
(11.1)
donde
El estadistico de prueba
de libertad.
Para calcular la frecuencia esperada,/., en cualquier celda, debe quedar claro que si la hip6tesis
nula es verdadera, la proporci6n de exitos en las dos poblaciones sera igual. Entonces las proporciones de muestra que calcula de cada uno de los dos grupos diferirian s6lo p01; casualidad y cada uno
proporcionaria una estimaci6n del parametro comful de Ia poblaci6n 1t. Un estadistico que combina
estas dos estimaciones separadas en una estimacion general del parametro de la poblacion 1t aporta
mas informacion que cualquiera de las dos estimaciones por si mismas. Este estadistico, dado por el
simbolo p, representa la proporcion general estimada de exitos para los dos grupos combinados (es
decir, el numero total de exitos divididos por el tamaiio total de las muestras). El complemento de p,
1 - p, representa la proporcion general de fracasos de los dos grupos. AI emplear la notacion presentada en la tabla 11.1 de la pagina 379, la ecuacion (11.2) define a p.
(11.2)
=n
Para calcular Ia frecuencia esperada,fe, para cada celda correspondiente a los exitos (es decir,
las celdas de Ia primera fila de Ia tabla de contingencia), multiplique el tamaiio de Ia muestra (o total de la columna) para un grupo por p. Para calcular la frecuencia esperadafe para cada celda correspondiente a fracaso (es decir, las celdas de Ia segunda fila de la tabla de contingencia), multiplique
el tamaiio de Ia muestra (o total de la columna) por (1 - p).
. El estadistico de prueba que muestra la ecuacion (ILl) sigue aproxim.adamente una distribucion de chi cuadrada (vea la tabla E.4) con un grado de libertad. Utilizando un nivel de significancia a se rechaza la hip6tesis nula si el estadistico de prueba 2 es mayor que
el valor critico
superior de la distribuci6n teniendo un grado de libertad. Asi, Ia regia de decision es
rechace H0 si X2 >
xb.
xb;
T1
Tc
dE
Ia:
FIGURA 11.1
0~
frE
(fe
Regiones de rechazo
y de no rechazo al
emplear Ia prueba de
chi cuadrada para Ia
diferencia entre dos
proporciones con nivel
de significancia a.
0
Regi6n de
no rechazo
X~
Valor
Regi6n
critico de rechazo
q
11.1: Prueba de chi cuadrada para Ia diferencia entre dos proporciones (muestras independientes)
381
Si Ia hip6tesis nula es verdadera, el estadistico x2 debeni ser cercano a cero porque Ia diferencia
entre lo que se observa en cada celda,.fo, y lo que se espera te6ricamente.feo elevada al cuadrado, debe ser muy pequeiia. Si H 0 es falsa, y hay diferencias reales en las proporciones de la poblaci6n, se
espera que el estadistico calculado sea grande. Sin embargo, que constituye una diferencia grande en
una celda es algo relativo. La misma diferencia absoluta entre.fo y fe de una celda con un numero pequeiio de frecuencias esperadas contribuye mas al estadistico de prileba x2 que una celda con gran
nlimero de frecuencias esperadas.
Para ilustrar el uso de la prueba chi cuadrada para la diferencia entre dos proporciones, regrese
al escenario de "Uso de la estadistica" relacionado con T.C. Resort Properties, y la tabla de contingencia mostrada en la tabla 11 .2 de la pagina 379. La hip6tesis nula (H0 : 1t1 = 1t:z} establece que no
hay ninguna diferencia entre la proporci6n de huespedes que probablemente elijan uno de estes dos
hoteles de nuevo. De Ia ecuaci6n (11.2), se utiliza p para estimar el parlimetro comlin 1t, la propercion de huespedes que probablemente elijan de nuevo el hotel Beachcomber y la proporci6n de
huespedes que tal vez elijan de nuevo el hotel Wmdsurfer. Para comenzar, se calcula p usando Ia
ecuaci6n (11.2):
P=
x, + x 2
n1 + n2
p es la estimaci6n del parametro comlin 1t, la proporci6n de la poblaci6n de huespedes que probablemente elijan alguno de estos hoteles otra vez si la hip6tesis nula es verdadera. La proporci6n
estimada de clientes que no es probable que vuelvan a elegir estos hoteles es el complemento de
p, 1 - 0.6483 = 0.3517. Multiplicar estas dos proporciones por el tamaiio de la muestra del hotel
Beachcomber da el nlimero de huespedes que se espera que elijan nuevamente el Beachcomber y
el nlimero que no se espera que elijan este hotel de nuevo. De forma similar, multiplicar las dos
proporciones respectivas por el tamaiio de muestra del hotel Windsurfer da las frecuencias esperadas correspondientes para ese grupo.
EJEMPLO 11.1
SOLUCI6N
Sf-Beachcomber: p = 0.6483 y n 1 = 227, entoncesfe = 147.16
Si-Windsurfer:p = 0.6483 y n2 = 262, entoncesfe = 169.84
No-Beachcomber: 1 - p = 0.3517 y n 1 = 227, entonces.fe = 79.84
No-Windsurfer: 1- p = 0.3517 y n2 = 262, entoncesfe= 92.16
La tabla 11.3 presenta estas frecuencias esperadas j~to con las frecuencias observadas correspondientes.
TABLA 11.3
Tabla de contingencia
de 2 x 2 para comparar
las frecuencias
observadas (fo) y las
frecuencias esperadas
(feJ.
HOTEL
BEACHCOMBER
163
64
227
WINDSURFER
Esperada
Observada
Esperada
Total
147.16
79.84
227.00
154
108
262
169.84
92.16
262.00
317
172
489
Para probar la hip6tesis nula de que las proporciones de la poblaci6n son iguales
Ho: 1t1 =~
contra Ia altemativa de que las proporciones de la poblaci6n no son iguales
H,: 1tl ;t ~
utilice las frecuencias observada y esperada de la tabla 11.3 para calcular el estadistico de prueba x2
dado poria ecuaci6n (11.1) de la pagina 380. La tabla 11.4 presenta los calculos.
382
TABLA 11.4
fo
fe
163
154
64
108
147.16
169.84
79.84
92.16
x!
lfo-h)
lfo-IJ2
15.84
-15.84
-15.84
15.84
250.9056
250.9056
250.9056
250.9056
1.705
1.477
3.143
2.723
9.048
La distribuci6n de chi cuadrada es una distribuci6n sesgada a Ia derecha cuya forma depende
solamente del nfunero de grados de libertad. AI aumentar el nfunero de grados de libertad, Ia distribuci6n de chi cuadrada se vuelve mas simetrica. El valor critico del estadistico de prueba x2 se encuentra a partir de Ia tabla E.4, una porci6n de Ia cual se muestra como tabla 11.5.
Los valores de Ia tabla 11.5 se refieren a areas seleccionadas de Ia cola superior de Ia distribuci6n x2. Una tabla de contingencia de 2 x 2 tiene (2 - 1)(2 - 1) = 1 grado de libertad. Utilizando a:::
0.05, con un grado de libertad, el valor critico de x2 de Ia tabla 11.5 es 3.841. Se rechaza H 0 si el
estadistico x2 calculado es mayor que 3.841 (vea Ia figura 11.2). Ya que 9.048 > 3.841, se rechaza
H 0 Se concluye que hay una diferencia en Ia proporci6n de huespedes que desearian regresar a!
Beachcomber y al Windsurfer.
TABLA 11.5
Encontrar el valor crftico
de x2 a partir de Ia
distribuci6n de chi
cuadrada con 1 grado
de libertad utilizando el
nivel de significancia
0.05.
.995
Grados de libertad
0.010
0.072
0.207
0.412
2
3
4
.99
.025
.01
.005
0.020
0.115
0.297
0.554
5.024
7.378
9.348
11.143
12.833
6.635
9.210
11.345
13.277
15.086
7.879
10.597
12.838
14.860
16.750
5.991
7.815
9.488
11.071
Fll
Sali
par
sati
hue
FIGURA 11.2
Regiones de rechazo
y de no rechazo al
encontrar el valor crftico
de x2 con 1 grado de
libertad al nivel de
significancia 0.05.
0
Regi6n de
no rechazo
3.r, r
x~
Valor Regi6n
crftico de rechazo
La figura 11.3 representa una hoja de trabajo de Excel para Ia tabla de contingencia de sa~isfa;
ci6n de los huespedes (tabla 11.2 de la pagina 379), mientras que la figura 11.4 ilustra Ia sahda /
1
Minitab. Estos resultados incluyen las frecuencias esperadas, estadistico de prueba 2, ~ados d~ ;
3
2
bertad, y valor-p. El estadistico de prueba x es 9.05, el cual es mayor que el valor crit1co de .
8
(o el valor-p = 0.0026 < 0.05), de manera que se rechaza Ia hip6tesis nula de que no hay ~~ere~~e
en Ia satisfacci6n de los huespedes entre los dos hoteles. El valor-p de 0.0026 es Ia probabihd; _
18
observar proporciones en las muestras tan diferentes o mas diferentes que Ia diferencia real (O. bo0.588 = 0.13 observado en los datos de las muestras), silas proporciones de Ia poblaci6~ para dOS
teles Beachcomber y Windsurfer son iguales. Asi, existe fuerte evidencia para conclurr que os edi
hoteles son significativamente diferentes 'en lo que respecta a Ia satisfacci6n de los huespedes,~e Ia
da en funci6n de Ia probabilidad de que el huesped regrese al hotel. Un analisis de Ia tabla 11 rnbeC
pagina 381 indica que es probable que una mayor proporci6n de huespedes regrese al Beacbco
que al Windsurfer.
;as
11 .1: Prueba de chi cuadrada para la diferencia entre dos proporciones (muestras independientes)
FIGURA 11.3
Hoja de trabajo de
Excel para los datos
de satisfacci6n de los
huespedes.
3 83
A
B
C
i 0
, EI
F
;
G
Guest-Satisfactlon-AnalySiS ---:--=_~-------+--------~-~----~----.l..
2 1
3 ~~----------~0~~~~--ed~Fr_e_qlu_e_n_cl~n--------~---,
4 ''-----:::-----.:-~=---+=---:--.......:H.:.:ot:,;r.l=-=--=--~+::-:-:-1 Calculations
5 ._--~Ch=oo:::se::::....::;A=a'e.:::ln:.:.?.....,..,,.....-~-.::::B=:a::.:ch=co:.:.m:.::b~e=r~WI=n::dsu=li;:.:e::,.rJ--=.T::;ot;:e:::-~1 .... fo-fe f-~----_ _ _ _ _ _ _Y=:;es~---~163::;r---:1;:54:r-~3~1;!7
15.84458 -15.8446
7
No
st
108
1n --;- -15.a446 - 15.84458
B-.
Total
2Z1
262
489 --,-- --------- -- -
..9 !
i
16 :.,. .-------------=e=-xp-le-c,-te...,.d-=F-re-qlu-e-nc...,.ie_s________:_____, j
13 -~
l --~~~~~~Ye-s~~~1~47~.~1$~4~~1;:~~.~~~~3~1~7~-+
1 ..,..1.-=70&Q~~4~~1.~4~78~1~2
'f4
.
No
79.8446
92.1554
172 I 3.144243
15 -: -------------:T:-o7-ta~l-----=-=-;.::::22:=7~---=:.:::..:.262=:~.......:489::=i ..., .. -- ..
2.72421
-- -- ....
16 j
1i 1,-------------:D:-a-ta-------------,
18 <Level of Slanlflcence
0.85
19 iNumber of Rows
20 :Number of Columns
2fiDe!lrees ofF reedom
2
1
22 !
23+-l ----------::R-esu----,.,lts------------,
-24 iCriticel Value
25 ,Chi-Sauere Test Statistic
3.8415
9.8526 - -
-.- L
1
.. l_- -
1.- ....
-T--=--=-~~
.. -,-- -
. 1 - ---- - - .... :
f- .--- --- ,.
r . ' . .,- ..
26 ip-Velue
0.6026 ~=--=---=--~~- r~-=-:--=-t~==---~--~~---~---=-~-=
?!.
,
Reject the null hypothnls
______ _. _ _ .....;. j_ __ _ -- ___ _,_
~ j_ -.. -
-. -
-- -- .... ...
_3.lJ_
FIGURA 11.4
Salida de Minitab
para los datos de
satisfacci6n de los
huespedes.
~"!.et
. - - ..:
Chi-Squ;~re
..
J..
j
j
Test: Ct. C2
To cal
cz Tocal
Cl
163
154
317
147. 16 169.84
1. 706
1. 478
64
79.84
3.144
92.16
2.724
ZZ7
262
108
17Z
489
Para que la prueba de x2 de-resultados exactos para una tabla de 2 x 2, usted debe suponer que
cada frecuencia esperada es al menos de 5. Sino se satisface esta suposici6n, se dispone de procedimientos altemativos como Ia prueba exacta de Fisher (vea las referencias 1, 2 y 4).
En la encuesta de satisfacci6n de huespedes de los hoteles, la prueba Z basada en Ia distribuci6n
normal estandarizada (vea la secci6n 10.3) y la prueba x2 basada en la distribuci6n de chi cuadrada
han conducido a la misma conclusion. Este resultado se explica por Ia interrelaci6n entre Ia distribuci6n normal estandarizada y una distribuci6n chi cuadrada con 1 grado de libertad. Para tales situaciones, el estadistico de prueba x2 es el cuadrado del estadistico de prueba Z. Por ejemplo, en el
estudio de satisfacci6n de huespedes, el estadistico de prueba Z es +3.01 [es decir, (+3.01? = 9.05].
Tambien, si usted compara los valores criticos de los estadisticos de prueba de las dos distribuciones, en el nivel de significancia 0.05, el valor de Xt de 3.841 es el cuadrado del valor de Z de 1.96
(es decir, Xt = Z2). Ademas, el valor-p para ambas pruebas es igual. Por lo tanto, a! comprobar la
hip6tesis nula de igualdad de proporciones:
384
a.
contra la alternativa de que las proporciones en la poblaci6n no son iguales:
b.
la prueba Z y la prueba de 2 son metodos equivalentes. Sin embargo, si usted se interesa en determinar si existen evidencias de que haya una diferencia direccional, como que 1t1 > ~. entonces debe emplear la prueba Z con toda la region de rechazo situada en una cola de la distribuci6n normal
estandarizada. En la secci6n 11.2, la prueba se extiende para hacer comparaciones y evaluar diferencias en las proporciones entre mas de dos grupos. Sin embargo, no podni emplear la prueba Z si hay
mas de dos grupos.
c.
11
du
fe<
tat
do,
du~
Aplicaci6n de conceptos
Aprendizaje basico
11.1 Determine el valor critico de
cunstancias siguientes:
a. n = 0.01, n = 16
b. n = 0.025, n = 11
c. n = 0.05, n = 8
contingencia:
Total
20
30
50
30
45
75
50
75
125
2
Total
___J
de contingencia:
A
Total
20
30
50
30
20
50
50
50
100
___J
PA
Si
Na
Tot
Fue
by (
ces,
GENERO
Total
en una gran area metropolitana para determinar diversos datos en relaci6n con el comportamiento de los
consumidores. Entre las preguntas estaba: "~Disfruta de comprar ropa?" Los resultados se resumen en Ia siguiente tabla de
contingencia:
L___
1
2
Puede resolver los problemas 11.5 a 11. 10 manualmente o con Excel o Minitab.
Sl
No
Total
a. I
I
b. ]
136
104
224
36
360
140
c. l
240
260
500
d. (
t
a. ~Existe evidencia de una diferencia significativa entre Ia
proporci6n de hombres y mujeres que disfrutan de comprar
por ropa en un nivel de significancia de 0.01?
b. Encuentre el valor-pen el inciso a) e interprete su significado.
c. ~ Cual es su respuesta para los incisos a) y b) si 206 hombres
disfrutan de comprar ropa?
d. Compare los resultados de los incisos a) a c) con los del problema 10.33, incisos a) a c) de la pagina 337.
Si
No
76%
24%
afro:
(Ch1
rink!
a. i..
cc
ac
5(
b. D
c. c
bi
GENERO
LEL RENDIMIENTO ES UNA PRIORIDAD? Hombres
50,0
de 5
Muj~
84o/o
16o/o
11.9
las et
John
Previ;
Viar t
(Paul
385
11.1: Prueba de chi cuadrada para la diferencia entre dos proporciones (muestras independientes)
in Industrial Surveys: Further evidence", Mid-American Journal of Business, Primavera de 2002, 17(1): 51-57.) Un total de
345 despaohadores de paquetes de carga intemacionales se dividieron en dos grupos. A un grupo se le notific6 por adelantado por media de una tarjeta postal que en una semana recibiria
por correo un cuestionario relacionado con los problemas que
enfrentan los despachadores de carga intemacionales. El segundo grupo no recibi6 ninguna notificaci6n de Ia encuesta por correo. Los resultados del estudio aparecen en la tabla siguiente.
a. Suponga que se incluy6 a 50 hombres y 50 mujeres en la encuesta. En un nivel de significancia de 0.05, (.existe diferencia entre hombres y mujeres en Ia proporci6n que toma como prioridad el rendimiento de gasolina?
GRUPO DE TRATAMIENTO
11.7 Los resultados de un estudio de mejorarniento de Ia producci6n en una fabrica de semiconductores aport6 datos de defectos para una muestra de 450 placas de silicio. La siguiente
tabla de contingencia presenta un resumen de las respuestas a
dos preguntas: (.Se encontr6 una particula en el troquel que produjo la placa de silicio?, y (.Laplaca result6 buena o mala?
Si
No
Total
Buena
Mala
Total
14
320
334
36
80
116
50
400
450
a
)f
:s
.0
~1.9
Prenotificado
Respondi6
No responcli6
Total
39
142
181
No prenotificado Total
41
123
164
80
265
345
RESULTADO
GtNERO
IMPORTANOA DEL NOM. DE LAMARCA Hombres Mujeres Total
Mcis
Menos o igual
450
Total
I
300
750
3,300
3,450 6,750
3,750
3,750 7,500
386
11.2
En esta seccion, la prueba de 2 se extiende para comparar mas de dos poblaciones independientes.
Se emplea la letra c para representar el nfunero de poblaciones independientes consideradas. Asi, Ia
tabla de contingencia ahora tiene dos filas y c columnas. Para comprobar la hipotesis nula de que no
hay diferencias entre las c proporciones:
don de
fe
= x, +X2 + .. +Xc
n1 + n2 + .. + nc
=X
n
. (11.3)
Para calcular la frecuencia esperadafe para cada celda de la primera fila de la tabla de contingencia, multiplique cada tamafio de muestra (o total de la columna) por p. Para calcular la frecuencia esperadafe para cada celda de la segunda fila de la tabla de contingencia, multiplique cada ~~
fio de muestra (o total de la columna) por (1- jj). El estadistico de prueba mostrado en la ecuacJO~
(11.1) de la pagina 380 sigue aproximadamente una distribucion de chi cuadrada con grados de hbertad iguales al nfunero de filas de la tabla de contingencia menos 1, por el nfunero de columnas de
la tabla menos 1. Para una tabla de contingencia de 2 X c, hay c - 1 grados de libertad:
Grados de libertad =(2 -1)(c- 1) = c -1
2
xo;
11.2: Prueba de chi cuadrada para las diferencias entre mas de dos proporciones
FIGURA 11.5
Regiones de rechazo y
no rechazo al realizar
pruebas en busca de
diferencias entre c
proporciones utilizando
Ia prueba de x2 .
387
(1-a)
Regi6n de
no rechazo
Valor
crltico
Regi6n
de rechazo
Para ilustrar la prueba de x2 para la igualdad de las proporciones cuando haya mas de dos grupos, regrese al escenario de "Uso de la estadistica" relacionado con T.C. Resort Properties. Recientemente se realiz6 una encuesta parecida en una isla diferente en la que T.C. Resort Properties tiene
tres hoteles diferentes. La tabla 11.6 presenta las respuestas a una pregunta relacionada con si es probable que los huespedes volvieran a elegir ese hotel de nuevo.
TABLA 11.6
Tabla de contingencia
2 x 3 para Ia encuesta
de satisfacci6n de
huespedes.
HOTEL
1,ELEGIRIA DE NUEVO EL HOTEL?
Golden Palm
Palm Royale
Palm Princess
Total
128
88
216
199
33
232
186
66
252
513
187
700
Si
No
Total
Ya que la hip6tesis nula establece que no hay diferencias entre los tres hoteles con respecto a la
proporci6n de huespedes que probablemente volveran, se utiliza la ecuaci6n (11.3) para calcular una
estimaci6n de 1t, Ia proporci6n de huespedes que es probable que vuelvan.
P = x1 + x 2 + ... + xc
. n 1 + n2
+ .. + nc
x
n
= 0.733
La proporci6n estimada general de huespedes que no es probable que vuelvan es el complemento
(1- jj), o 0.267. Multiplicar estas proporciones por el tamaiio de la muestra tomada en cada hotel da
como resultado el numero esperado de huespedes que probablemente desearian y los que no desearian volver.
EJEMPLO 11.2
SOLUCI6N
Si-Golden Palm: p = 0.733 y n 1 = 216, entonces fe = 158.30
Si-Palm Royale: p =0.733 y n2 =232, entoncesfe = 170.02
Si-Palm Princess: p = 0. 733 y n3 = 252, entonces fe = 184.68
No-Golden Palm: I -p= 0.267 y n 1 = 216, entoncesfe= 57.70
No-Palm Royale: I- p = 0.267 y n2 = 232, entoncesfe = 61.98
No-Palm Princess: I - p = 0.267 y n3 = 252, entoncesfe = 67.32
388
TABLA11.7
Clasificaci6n cruzada de
frecuencias esperadas
en Ia encuesta
satisfacci6n de
huespedes de tres
hoteles.
HOTEL
t.ELEGIRfA DE NUEVO EL HOTEL?
Si
No
Total
Golden Palm
Palm Royale
Palm Princess
Total
158.30
57.70
170.02
61.98
184.68
67.32
513
187
216.00
232.00
252.00
700
Ho:
1t1 =~ =1t3
TABLA 11.8 .
Calculo del estadfstico
de prueba x2 para
Ia encuesta de
satisfacci6n
de huespedes de
tres hoteles.
fo
fe
ifo- fe)
ifo- fe) 2
128
199
186
88
33
66
158.30
170.02
184.68
57.70
61.98
67.32
-30.30
28.98
1.32
30.30
-28.98
-1.32
918.0900
839.8404
1.7424
918.0900
839.8404
1.7424
El valor critico del estadistico de prueba 2 se encuentra a partir de Ia tabla E.4. En Ia encuesta
de satisfacci6n de huespedes, ya que se evalllil a tres hoteles, hay (2 - 1)(3- 1) = 2 grados de libertad. Utilizando a= 0.05, el valor critico de x2 con 2 grados de libertad es de 5.991. A causa de que
el estadistico de prueba calculado (X2 = 40.236) es mayor que este valor critico, se rechaza Ia hip6tesis nula (vea Ia figura 11.6). Excel (vea Ia figura 11.7) y Minitab (vea Ia figura 11.8) tambien reportan el valor-p. Ya que el valor-p es de aproximadamente 0.0000, que es menor que a= 0.05, se
rechaza Ia hip6tesis nula. Ademas, este valor-p indica que virtualmente no hay posibilidades de ver
diferencias tan grandes o mas grandes entre las tres proporciones de muestras, si las proporciones de
las poblaciones de los tres hoteles son iguales. Asi que hay evidencias suficientes para concluir que las
propiedades de los hoteles son diferentes en relaci6n con Ia proporci6n de huespedes que probablemente regresen.
FIGURA 11.6
Regiones de rechazo
y de no rechazo al
comprobar las
diferencias de tres
proporciones en un
nivel de significancia
0.05 con 2 grades de
libertad.
X~
Regi6n de
no rechazo
Regi6n
de rechazo
Valor
crftico
389
11 .2: Prueba de chi cuadrada para las diferencias entre mas de dos proporciones
FIGURA 11.7
Hoja de trabajo de
Excel para los datos
de satisfacci6n de los
huespedes de Ia tabla
12.6.
.....,.\
+I~ui!_St ~~ctl_o!l
j__________
1- __ _ __ ___
F,
~fe
I
cafcUTat!OiiS---=---l.
s '
Yes
:r,
r~-
(~
Expected
12
Choose Again?
-13
F~Quen~:~l
199
33
232
513 -- : -3Q,_~1.!;{_.~.9771!;_ _ _
1.32I
111 1 30.29714, -28.9771 :
-1 .321
7111 I
!
I
186
66
252
1
1-4
_1_5
i!
128
88
216
No
Total
;Level
ofSianlflca~:'
0.115
22 L
~I
Total ;---"'jfo:f8
~1
513 .LE~j -4.~~ .
187 ! 15.90765. 13.5-48141 0.025882
700 :
~
-i-----
2
i
3 - --------- _L _____
__
20 !Number of Columns
21 !Degrees of Freedom
I. .
'
_ ,___ I_T!-------t---------:---~
,
,
~~
iEt::~~u;estStat~c: ~: -:~~-:.~=~TtF=~=~~
--- -
FIGURA 11.8
Salida de Minitab
para los datos de
satisfacci6n de los
huespedes de Ia tabla
12.6.
-----t=. f-l___
--r---+
_______ -- -L _
j_ _
_ _[_ _____ _! --- - --~-------~-- -'- --- - ~-----.:...-----i
-~~ -- ---
- [- --~=~----~
---i==-;=~=1
To tel
Cl
128
158.30
5.799
C2
199
170.02
4.939
C3
186
184.68
0.009
88
57.70
15.908
33
61.98
13.548
66
67.32
0.026
216
232
252
Total
513
187 '
700
Para que la prueba de x2 de resultados exactos a! tratar con tablas de contingencia de 2 x c, todas
las frecuencias esperadas deben ser grandes. Hay un gran debate en tales situaciones entre los especialistas en estadistica acerca de Ia definicion de grande. Algunos de ellos (vea la referencia 5) han encontrado que Ia prueba da resultados exactos en tanto que todas las frecuencias esperadas sean iguales
o mayores que 0.5. Otros especialistas mas conservadores indican que no mas del20% de las celdas
deben contener frecuencias esperadas menores de 5 y que ninguna celda debe tener frecuencias esperadas menores de I (vea la referencia 3). Un compromiso razonable entre estos puntos de vista es asegurarse de que todas las frecuencias esperadas sean a! menos de 1. Para lograr esto, habra que condensar dos o mas categorias de baja frecuencia esperada en una sola categoria en Ia tabla de contingencia
antes de realizar la prueba. Tal fusion de categorias generalmente da como resultado frecuencias esperadas suficientemente grandes para realizar la prueba de 2 con exactitud. Si la combinacion de categorias es indeseable, hay procedimientos alternatives disponibles (vea las referencias 2 y 7).
Procedimiento de Marascuilo
Rechazar la hipotesis nula en una prueba de x2 de Ia igualdad de proporciones en una tabla de 2 x c
solo le perrnite llegar a la conclusion de que no todas las c proporciones de la poblacion son iguales.
l,Pero cuales de las proporciones difieren? Ya que el resultado de Ia prueba x2 de Ia igualdad de proporciones no responde especificamente a esta pregunta, se necesita un procedimiento post-hoc de
comparacion multiple. Uno de tales enfoques que sigue a! rechazo de Ia hipotesis nula de proporciones iguales es el procedimiento de Marascuilo.
390
El procedimiento de Marascuilo permite hacer comparaciones entre todos los pares de gru.
pos. Primero se necesita calcular las diferencias observadas Pi - Pj' ( donde j "# j ') entre todos los pares c(c - I )/2. Entonces se utiliza Ia ecuaci6n (Il.4) para calcular los rangos criticos correspondientes para el procedimiento de Marascuilo.
Es necesario calcular un rango critico diferente para cada comparaci6n por parejas de proporciones en las muestras. En el paso fmal se compara cada uno de los pares de proporciones de muestras c(c - I )/2 contra su rango critico correspondiente. Se considera que un par especifico es suficientemente di~e~ente si Ia diferencia absoluta en las proporciones de Ia muestra JPj - Pj' es mayor
que su rango cntlco.
Para aplicar el procedimiento de Marascuilo, regresemos a Ia encuesta de satisfacci6n de huespedes. Utilizando Ia prueba de x2 se concluy6 que habia evidencia de diferencias significativas entre las proporciones de Ia poblaci6n. Ya que hay tres hoteles, existen (3)(3- 1) /2 = 3 comparaciones
entre pares. De Ia tabla 11.6 de Ia pagina 387 las tres proporciones de muestras son:
J
PI
= X, = I28 = 0.593
n1
P2
= x2 = I99 = 0.858
n2
P3
2I6
232
= x3 = I86 = 0.738
n3
252
a.
b.
c.
Utilizando Ia tabla E.4 y un nivel de significancia general de 0.05, el valor critico de Ia cola superior del estadistico de prueba x2 con (c - I) = 2 grados de libertad es 5 .99I. Asi,
I
2
To
Rango critico
a. ,
b.
IPt - P31
IP2 - P31
IP! - P21
11.
gent
11 .2: Prueba de chi cuadrada para las diferencias entre mas de dos proporciones
391
FIGURA 11.9
i Guest Satisfaction 13-Hotels) Analysis
!Level of Significance
I
!Sauare Root of Critical Value I
..:1
~- --~
!Group 2
!Grouo 3
fi
~-; Proportions
II Group 1 -Group 21
II Grouo 1 Group 3 I
I
I
0.26521
0.14551
'
0.11971
----,
._
.. , ___
---
'1
i
!
i
~-~~:=-=f
MARASCUILO TABLE
---------T
!Absolute Differences ICritical Ranae .
l
-l
...., -"-
0.5926
0.8578
0.7381
oi
- - ----.---------- -j
'
Sample Pro~ ortions
- IiGrouo 1
----~--- ----
Hoja de trabajo
de Excel con el
procedimiento de
Marascuilo.
--------~-
0.0992 Te~@Ei~iJ
0.1063 Significant t
!
f
O.DIIBO! Sig~ifica~i:J
Se llega a Ia conclusion, con un nivel general de significancia de 0.05, que Ia satisfacci6n de los
huespedes es mayor en el Palm Royale (p2 = 0.858) que en el Golden Palm (p 1 = 0.593) o en el Palm
Princess (p3 = 0.738). La satisfacci6n de los huespedes es mas alta tambien en el Palm Princess que
en el Golden Palm. Estos resultados sugieren clararnente que Ia gerencia debe estudiar-las razones
de estas diferencias y en especial intentar determinar por que Ia satisfacci6n es significativamente
mas baja en el Golden Palm que en los otros dos hoteles.
---~------------------
Aprendizaje basico
ASISTENCIA
de PH Grade
Aplicacion de conceptos
Puede resolver los problemas 11.14 a 11.23 manualmente o con Excel o Minitab.
2
Total
10
40
50
Total
30
45
75
50
50
100
90
135
225
gencta.
---I
Total
20
30
30
20
25
25
75
75
C(l
50
-150
11.14 Se realiz6 una encuesta en cinco paises. Los porcentajes de encuestados que dijeron comer fuera de casa una vez al
mes o mas son como sigue:
Alemania
Francia
Reino Unido
Grecia
Estados Unidos
10%
12%
28%
39%
57%
392
11.15 i,El grado en el que los estudiantes abandonan los cursos introductorios de estadistica para negocios es el mismo para cursos on line que para los cursos presenciales tradicionales
en salon de clases? La profesora Constance McLaren de Ia Universidad Estatal de Indiana reunio datos durante cinco semestres para investigar este asunto. La siguiente tabla de referenda
cruzada clasifica a los alumnos de estadistica para negocios por
tipo de curso (en aula, on line) y por su persistencia (activos,
faltistas, desertores).
PERSISTENOA ESTUDIANTIL
. nPO DE CURSO
Activos
Faltistas
Desertores
127
81
8
51
20
En aula
On line
EDAD
PRINCIPAL DIA DE COMPRAS
Sabado
Dia alferente del sabado
Men ores
de35
35-54
Mayores
de 54
24%
76%
28%
72%
12%
88%
Fuente: "Major Shopping by Day", Progressive Grocer Annual Report, 30 de abril, 2002.
11.17 Repita los incisos a) a b) del problema 11.16 suponiendo que solo se encuesto a 50 compradores en cada categoria de
edad. Analice las implicaciones del tamaflo de muestra en Ia
prueba 2 para las diferencias entre mas de dos poblaciones.
-- -
ORGANIZACION
1.nENE OBJECIONES A
QUE SE COMUNIQUE?
Si
No
Compaftfas
decentros
Farmacias
Seguros
medicos
820
180
590
410
670
330
Fuente: Laura Landro, "Medical-Privacy Rules Leave Consumers' Data Vulnerable", The Wall Street Journal, 6 de junio, 2002, D3.
11.19 J. C. Schaefer viaja por el mundo para calificar los servicios de los hoteles de lujo. Algunos de sus resultados parecen
variar con Ia ciudad en que esta localizado cada hotel. Tres de
los conceptos por los que califica a los hoteles y los resultados
de sus investigaciones son como sigue. Los datos se calificaron
como porcentajes, y no se precisaron los tamaflos de muestra.
No
74%
61%
72%
~S~i-----------8~6-o/!-o~~--------7-6-Yo------~78%
No
14%
24%
zzo/o
FJ
Re.
yd
cor
ind
unc:
cor
Utili
de
Si
No
81%
76%
79%
19%
24%
21%
11.3
393
11.22 En relaci6n con los problemas 11.19 a 11 .21, si es apropiado, utilice el procedimiento de Marascuilo y a= 0.05 para
determinar cuales hoteles son diferentes en la proporci6n en
que usan el nombre del huesped, la proporci6n de hoteles que
detallan correctamente los cargos por el minibar, y la proporci6n de hoteles que tienen baiieras y regaderas inmaculadamente limpios.
11.23 En relaci6n con los problemas 11 .19 a 11.23, suponga
que el tamafio de muestra de cada ciudad fue de 200 en vez
de 100.
a. Repita los problemas 11.19 a 11.22 con este tamafio de
muestra.
b. Discuta el efecto que tiene el tamaiio de muestra en las pruebas para las diferencias entre las tres proporciones.
H0 : Las dos variables categ6ricas son independientes (es decir, no hay ninguna relaci6n entre elias).
H 1: Las dos variables categ6ricas son dependientes (es decir, hay una relaci6n entre ell as).
Una vez mas se utiliza Ia ecuaci6n (11.1) de Ia pagina 380 para calcular el estadistico de prueba:
1odas lu celdu
fe
FIGURA 11 1 0
Regiones de rechazo
Yde no rechazo al
~ornprobar Ia
lndependencia en
una tabla de
contingencia de r x c
Utilizando Ia prueba
de x2.
c1-al
Regi6n de .
no rechazo
Valor
crftico
--
394
- ---------
HOTEL
TABLA 11.9
Frecuencia observada
de respuestas en los
diferentes hoteles en
relaci6n con Ia raz6n
principal para no volver.
PRINCIPAL RAZON
PARA NO REGRESAR
Predo
Ubicadon
Alojamiento en el cuarto
Otras
Total
Golden Palm
Palm Royale
Palm Princess
Total
23
39
13
13
88
7
13
37
8
13
8
33
8
66
67
60
31
29
187
En la tabla 11.9 observe que de las razones principales para no planear regresar al hotel, 67 se
debieron al precio, 60 se debieron ala ubicacion, 31 al alojamiento en el cuarto, y 29 a otras razones.
Como en la tabla 11.6 de la pagina 387, bubo 88 huespedes en el Golden Palm, 33 huespedes en el
Palm Royale, y 66 en el Palm Princess que no planeaban regresar. Las frecuencias observadas de las
celdas de la tabla de contingencia de 4 x 3 representan los conteos conjuntos de los huespedes muestreados con respecto a la razon principal para no volver al hotel.
Las hipotesis nula y altemativa son:
H 0 : No hay ninguna relacion entre la razon principal para no regresar y el hotel.
H 1: Hay relacion entre la razon principal para no regresar y el hotel.
Para probar esta hipotesis nula de independencia contra la altemativa de que hay relacion entre las
dos variables categoricas, se utiliza la ecuacion (11.1) de la pagina 380 para calcular el estadistico de
prueba:
donde
395
Para calcular la frecuencia esperada.fe en cualquier celda, utilice Ia regia de multiplicaci6n para eventos independientes explicada en la pagina 136 [vea la ecuaci6n (4.7)]. Por ejemplo, bajo la
hip6tesis nula de independencia, Ia probabilidad de las respuestas esperadas en la celda de la esquina de arriba a la izquierda que representan como raz6n principal el precio del Golden Palm es el producto de las dos probabilidades separadas:
P(precio y Golden Palm)= P(precio) x P(Golden Palm)
Aqui, la proporci6n de razones que se deben al precio, P(precio), es de 67/187 = 0.3583, y la
proporci6n de todas las respuestas del Golden Palm, P(Golden Palm), es 881187 = 0.4706. Si la hip6tesis nula es cierta, entonces la raz6n principal para no regresar y el hotel son independientes, y la
probabilidad P(precio y Golden Palm) es el producto de las probabilidades separadas, 0.3583 x
0.4706 = 0.1686. La frecuencia esperada es el producto del tamaiio general de la muestra n y esta
probabilidad, 187 x 0.1686 = 31.53. Los valores de.fe de las celdas restantes se calculan de manera
parecida (vea la tabla 11.10).
La ecuaci6n (11.5) presenta tina manera mas sencilla de calcular las frecuencias esperadas.
f.
e
(11.5)
donde
Por ejemplo, utilizando Ia ecuaci6n (11.5) para Ia celda de Ia esquina de arriba ala izquierda (precio
en el Golden Palm),
,f.
e
.
31 53
y para la celda de la esquina de abajo ala derecha (otras razones para el Golden Princess),
f.
e
TABLA 11.10
Frecuencia esperada
de respuestas a Ia
encuesta clasificando
las razones principales
para no regresar junto
a los hoteles.
HOTEL
PRINCIPAL RAZON
PARA NO REGRESAR
Predo
Ubicadcin
Alojamiento en el cuarto
Otras
Total
Golden Palm
Palm Royale
Palm Princess
Total
31.53
28.24
14.59
13.65
88.00
11.82
10.59
5.47
-5.12
33.00
23.65
21.18
10.94
10.24
66.00
67
60
31
29
187
396
TABLA 11.11
Calculo del estadfstico
de prueba x2 para
Ia prueba de
independencia.
F
IE
c
x2
Celda
fo
ifo-fe>
ifo-fe) 2
ifo- /J 2/fe
Precio/Golden Palm
Precio/Palm Royale
Precio/Palm Princess
Ubicaci6n/Golden Palm
Ubicaci6n!Palm Royale
Ubicaci6n!Palm Princess
Habitaci6n/Golden Palm
Habitaci6n!Palm Royale
Habitaci6n!Palm Princess
Otras/Golden Palm
Otras/Palm Royale
Otras/Palm Princess
23
7
37
39
13
8
13
5
13
13
8
8
31.53
11.82
23.65
28.24
10.59
21.18
14.59
5.47
10.94
13.65
5.12
10.24
-8.53
-4.82
13.35
10.76
2.41
-13.18
-1.59
-Q.47
2.06
-Q.65
2.88
-2.24
72.7609
23.2324
178.2225
115.7776
5.8081
173.7124
2.5281
0.2209
4.2436
0.4225
8.2944
5.0176
2.308
1.966
7.536
4.100
0.548
8.202
0.173
0.040
0.388
0.031
1.620
0.490
27.402
Utilizando un nivel de significancia a= 0.05, el valor critico de Ia cola superior de la distribuci6n chi cuadrada con (4- 1)(3- I)= 6 grados de libertad es de 12.592 (vea Ia tabla E.4). Ya
que el estadistico de prueba x2 = 27.402 > 12.592, se rechaza Ia hip6tesis nula de independencia
(vea la figura 11.11 ). De manera similar, usted puede utilizar el calculo de Excel de la figura 11 .12
o el de Minitab de la figura 11.13 para utilizar el enfoque del valor-p. Puesto que el valor-p =
0.00012 < 0.05, se rechaza Ia hip6tesis nula de independencia. Este valor-p indica que virtualmente no hay posibilidad de que haya una relaci6n tan grande o mayor que esta entre los hoteles y las
razones principales para no regresar en una muestra, si las razones principales para no regresar son
independientes de los hoteles especificos en toda la poblaci6n. Asi, existe evidencia irnportante de
una relaci6n entre Ia raz6n principal para no volver y el hotel. Un examen de las frecuencias observadas y esperadas (vea Ia tabla 11.11) revela que el precio tiene una representaci6n baja como
raz6n para no volver al Golden Palm (es decir, fo = 23 y fe = 31.53) pero esta sobrerrepresentado
en el Palm Princess.
FIGURA 11.11
Regiones de rechazo
y no rechazo para Ia
independencia en
Ia muestra de Ia
encuesta de satisfacci6n
de huespedes de
hoteles en un nivel
de significancia de 0.05
con 6 grades de
libertad.
12.592
0
Regi6n de
no rechazo
Valor
crftico
Regi6n
de rechazo
Fl
Sal
Ia 1
de
pri1
yh
397
Los huespedes estin mas satisfechos con el precio en el Golden Palm en comparaci6n con el
Palm Princess. La ubicaci6n esta sobrerrepresentada como raz6n para no regresar al Golden Palm
pero tiene una representaci6n baja en el Palm Princess. Asi, los huespedes estin mas satisfechos con
la ubicaci6n del Palm Princess que con la del Golden Palm.
FIGURA 11.12
Hoja de trabajo de
Excel para Ia tabla de
contingencia de 4 x 3
de razones primarias
para no volver y
hoteles.
~r.A
:
B
:
c
I
D
E !Fl
G
I H t= l
:
*
qo...OH~!ific:!l_tl!ln i!!Jtel A!!.!~ ___1_____ _j_ _________, ___ _l_;___ _j_ ---
_____(
1
Observed
- ~-
Hotel
_ _LC~Icu_!!tions ___ _l __ . _ ..l
!;__i Re-n for Not Returning Golden Palm Palm Rovale Palm Princes Total
1
fo-fe
I
6 I
Price
23
7
37
fi7
1 -8.52941 1 -4.82353F 3.35294 1
Location
39
13
8
60 -H 7647l f' 2.411765 :1ij765l
1~1
f-7:
1~~~
Room
accommod~~~~
~H
~1
15
16
-~
F~eauendes
-t=--~-f-=--+==1
F~equencies
Expected
+------r-----f---~
~~:~le
t----=l~fe~;t---==t
accommod~~~r
~j:~
~:~~
~~:~
Total
B8
33
66
19
20
21 i
Data
~ ~::~-::::--
j .
I
~ - --
26
'"l -~~-:--< -
~ ~~=::~f~~~~~~
Sj~~~~~,
Total
67 __H~j 1.,96~LL~~
60 1 4 . 1~0.54~8. 198693 !
~ -+Oil~l~t~Jl_~~
187
I
I
'
-~-----,-
-----t
--+----+--r--t---=1
I
- - L - ---f
1
1 _
__1 _ __
=FI
~~~~~--[----- r-------+---Lr---l---===-:1
FIGURA 11.13
C2
7
11.82
1.968
C3
37
23.65
7.540
Total
67
13
39
28.24 10.59
4.104 0.549
8
21.18
8.199
60
13
14.59
0.173
13
10.94
0.387
31
5.47
0.040
13
13.65
0.031
8
8
5.12 10. 24
1.623 0.488
29
Total
88
66
187
Cl
23
31.53
2.307
33
Para asegurar resultados exactos, todas las frecuencias esperadas necesitan ser grandes a fm de
emplear la prueba de 2 al tratar con las tablas de contingencia de r x c. Como en el caso de las tablas de contingencia de 2 x c de la pagina 389, todas las frecuencias esperadas deben ser al menos
de 1. Para los casos en que una o mas de las frecuencias esperadas sean menores de 1, usted puede
utilizar la prueba despues de condensar dos o mas filas de baja frecuencia en una sola fila (o condensar dos o mas columnas de baja frecuencia en una sola columna). Fusionar filas o columnas por lo
general da como resultado frecuencias esperadas suficientemente grandes como para .realizar Ia
prueba de 2 con exactitud.
398
-------------1
I
Aprendizaje basico
11.24 Si una tabla de contingencia tiene tres filas y
'-----.J
.___ __.
prueba x2
siguientes:
2 en una tabla de contingencia con r filas y c columnas, determine el valor critico del estadistico de
de Ia cola superior en cada una de las circunstancias
GRUPO
DE EDAD
Gtneradon Y
GteeradOn X
Bady boomen
Advhos mayores
Total
180
21 o
205
200
795
260
190
195
195
840
50
65
65
50
230
500
500
500
55
500
135 2,000
10
35
35
Aplicaci6n de conceptos
1 AUTO
Puede resolver los problemas 11.26 a 11.31 manualmente o con Excel o Minitab.
CONJUNTO
DE NUMEROS ene.-mar. abr.-jun. jul-.sep. oct-die. Total
Bajos
21
34
36
91
Altos
Total
a.
28
22
41
91
35
29
28
92
38
37
17
92
122
122
122
366
~Existe evidencia de que los numeros seleccionados estuvieran significativamente relacionados con Ia epoca del afio?
(Utilice a.= 0.05.)
23
27
41
30
30
31
32
34
26
l'f
d:
ci
Meiaos
37
31
24
11.27 El USA Today report6 acerca de los tipos de comunicaci6n de oficina preferidos por los diferentes grupos de edad. Suponga que los resultados se basaron en una encuesta de 500 entrevistados de cada grupo de edad. Los resultados se presentan
en Ia siguiente tabla.
V Examen
ASISTENCIA
NIVEL DE ESTRES
. nEMPO DE TRASLADO
Menos de 15 min
de15 a 45 mla
, Mas de 45 min
Total
en
si
su
OJ
lA
Ju:
Alto
Moderado
Bajo
Total
9
17
18
44
5
8
6
19
18
28
32
53
31
116
53
En
En
Un
La
Sle
I
No
a. En un nivel de significancia de 0.01, ~existe evidencia de
una relaci6n significativa entre el tiempo de traslado y el nivel de estres?
Fue1
11.29 Con los negocios avanzando a Ia velocidad del relampago, los gerentes de marketing a menudo tienen que esforzarse para cumplir las exigencias de reducir el tiempo que torna
crear y Janzar una campafta de marketing (ciclo de tiernpo).
Una encuesta que se aplic6 a 175 gerentes de marketing esta
dounidenses e ingleses revelo que una campafia tiene un tiern~
promedio de ciclo de tiempo de 2.5 meses y ligeramente ~~
del16% tienen ciclos de tiempo menores de un mes. Los resu
tados del estudio sugieren que mas tiempo no necesariarne~:e
es mejor. Los gerentes indicaron que un tiempo de desarro
1
largo resulta inconveniente porque los datos se vuelven obso etos. Por otro lado, indicaron que un tiempo de desarrollo de:::
nos de un mes tambien perjudica Ia efectividad de Ia camP de
Suponga que una clasificaci6n de Ia campafia mas recien~e do
marketing por ciclo de tiempo y efectividad dio com? :esu : .
39
Ia tabla de clasificaci6n cruzada que aparece en Ia pag1na
F
La fi,
de es'
anali;
Pendi
se ext
hip6tl
"arial
las re;
-_:
Resumen
CICLO DE TIEMPO
<1
1-2
EFEaJVIDAD
mes
meses
2-4
meses
>4
meses
Total
Altamente efectiva
Efectiva
lnefectiva
Total
15
9
5
29
28
26
2
56
24
33
3
60
6
19
5
30
73
87
15
.175
399
En un nivel de significancia de 0.05, j,existe evidencia de relacion significativa entre el momento en que se toma 1a decision
de lo que se va a cenar y el tipo de familia?
TIPO DE FAMILIA
cuAtl>o SE TOMA
LADECJSION
Adulto/
sin niiios
Adulto/
con niiios
Dos o mas .
adultos/
sin niiios
162
73
59
21
15
54
38
58
64
50
154
69
53
45
45
2
7
16
6
2
7
de PH Grade
TECNOLOGiA
DESEADA
178
Escucha CDI cambia
Sistema estereofonlco
de cahdad
80
Telefono celular
100
Sistema de
posidonamiento global
70
Proyedor de videos/juegos 68
Acceso a Internet
24
Detector de radares
16
No saben
80
58
54
54
8
46
22
4
6
6
34
26
16
6
10
20
14
En un nivel de significancia de 0.05, j,existe evidencia de alguna relacion significativa entre el tipo de tecnologia deseada y el
tipo de automovil manejado?
RESUMEN
La figura 11 .14 de Ia pagina 400 presenta un mapa conceptual
de e~te capitulo. Primero se utilizo Ia prueba de hipotesis para
anah~ar los datos de respuesta categorica de dos muestras indePendientes y de mas de dos muestras independientes. Ademas,
~~ e:tendieron las reglas de probabilidad de la seccion 4.2 a Ia
??tesis de independencia de las respuestas conjuntas a dos
~anabies categoricas. Usted aplico estos metodos a las encues~ te;yiz"~~~ P'"
ort.Pronerties. Llego a Ia conclusion
400
l Procedimiento de
l_d~~~~ ~ate~6ric_os ,
d:
fr
fr
pl
Tablas de
contingencia
Pruebas de independencia x2
;"
Tip~s Je
-., pruebas .
' ~ ~:)>
"'-:/
RE
~
Tablas
2xc
' Tablas
l=- :x.~--'
Tablas
rxc
A~!!~
..1-----<:~~~~~~~~
1
11
det
bla
3om"
")t~;,~~$'
Prueba Zpara
.1 U08 proporci6n
U .v! a ~a s!_cci6!!_~L
.~
11.
den
Prueba X2 para
,.,,
'V
Procedimiento
de Marascuilo
b---.,.-rz-""~~
!Prueba x para
n, -~
(veala
secci6n 10.3)
n,=~
concep~ual
11. '
Oxf
gene
a!un
ingr.
pedi
nom
zaH
pizzc
enla
Prueba Zpara
Ap
del capitulo 11 .
GENI
Muje
Homl
Total
FORMULAS IMPORTANTES
Prueba de x,Z para Ia diferencia entre dos proporciones
..,2
"'
""
...J
todos las celdu
Uo- fe)
fe
(11.1)
n1
nj'
f. =
e
(ll.S)
(11.4)
La en
preci<
linger
--
PIZU
Pina
Otras
Total
a. Util
tos ,
Problemas de repaso
401
CONCEPTOS CLAVE
distribuci6n de chi cuadrada (X2) 380
frecuencia esperada (fe) 380
frecuencia observada (fo) 380
procedimiento de Marascuilo 390
386
378
PROBLEMAS DE REPASO
una relaci6n significativa entre el genero de un estudiante y
su selecci6n de pizzeria?
Revision de su comprensi6n
b. l,Cwil seria su respuesta al inciso a) si 9 de los alumnos varones hubieran seleccionado Pizza Hut y 9 hubieran seleccionado otras?
c. Empleando un nivel de significancia de 0.05 y los datos de
Ia segunda tabla de contingencia, l,existe evidencia de una
diferencia en la selecci6n de pizzeria con base en el precio?
Aplicaci6n de conceptos
PIZZERIA
GENERO
Pizza Hut
Otros
Total
Mujeres
Hombre
Total
13
12
25
17
18
35
10
Si
No
PRECIO
PIZZERIA
8.49
11.49
14.49
Total
Pizza Hut
Otras
Total
10
25
35
2
27
29
17
75
92
23
28
a. Utilizando un nivel de significancia de 0.05 y usando los datos de Ia primera tabla de contingencia, l,existe evidencia de
Manufactura
Servicio
Cuidado de la salud
108
72
88
132
49
50
Si
No
Manufactura
Servicio
Cuidado de Ia salud
132
48
129
91
46
54
Fuente: Addptado de Greg Weiler, "What Do CEOs Think about Quality?" Quality Progress, mayo de 2004, 37(5) : 52-56.
402
b. Con base en los resultados del inciso a), z,que tipo de cinta
cree usted que debe enviar un representante en el futuro?
Explique el razonamiento para su decision.
c. z,Hay algtina diferencia significativa entre las diferentes industrias con respecto a la proporcion de empresas que miden
el impacto de las iniciativas de mejoramiento de la calidad?
(Utilice una a= 0.05.)
d. Si es apropiado, aplique el procedimiento de Marascuilo utilizando una a= 0.05.
11.37 Una empresa que produce y vende programas de educacion continua videograbados para la industria financiera tradicionalmente ha enviado por correo cintas de muestra que
contienen avances de los programas a los clientes potenciales.
Los clientes entonces acceden a comprar las cintas de programa o las devuelven. Un grupo de representantes de ventas
estudiaron como aumentar las ventas y encontraron que
muchos prospectos creian que era dificil decidir con base solo
en la cinta si los programas educativos satisfacian sus necesidades. Los representantes de ventas efectuaron un experimento para probar si enviar las cintas con el programa completo
para que los clientes los revisaran aumentaria las ventas. Seleccionaron a 80 clientes de la lista y asignaron al azar a 40 que
recibirian las cintas de muestra y a 40 que recibirian las cintas
con el programa completo para su revision. Entonces determinaron el nfunero de cintas que fueron compradas y devueltas en
cada grupo. Los resultados del experimento se incluyen en la
tabla siguiente.
Comprada
Devuelta
Total
ACCION
Videocinta
Vis ita
personal
Llamada
telef6nica
Total
19
81
100
27
73
100
14
86
100
60
240
300
Compra
No compra
Total
Muestra
Completa
Total
6
34
40
14
20
26
60
40
80
c. En un nivel de significancia de 0.05, z,hay evidencia de diferencias en la proporcion de cintas compradas con base en la
estrategia de ventas utilizada?
1
e<
D
Jc
se
pr.
a.
TIPO DE USUARIO
Pubhco en general
Expertos en Internet
Total
Es serio
Noes serio
Total
67
46
113
28
54
82
95
100
195
a. En un nivel de significancia de 0.05, z,hay evidencia de diferencias en la proporcion de cintas compradas sobre la base
d~l tipo de cinta enviada al cliente?
lU
ESTRATEGIA DE VENTAS
b.
c. l
(
1
}
f
ti
n
d. E
e. L.
3~
Ia
4(
ce
ba
0.(
po
(S!
mj,
f. En,
11.40
cion?'
-----~-----------
Problemas de repaso
54
37
91
42
63
105
96
100
196
11.40 Una empresa esta considerando un cambio organizacional al adoptar el uso de equipos de trabajo autoadministra-
403
Supervisor
Adninistrador
I de nlvel meclio
Administrador
de nlvel superior
Total
108
18
46
12
71
30
225
60
35
14
26
75
24
185
7
79
9
136
40
400
A favor
135
39
23
7
67
14
225
60
47
22
75
26
247
6
42
ill
40
400
- ---- ..
--
- -----
META AMBIENTAL
, TIPO DE PROCESO DE MANUFACTURA
Job shoji o #Hitclr
Bllfclr repetitlvo
' Proceso discreto
Proceso continuo
Total
Sf
No
Total
2
4
15
17
38
42
57
147
65
311
44
61
162
82
349
404
Si
No
Total
77
52
129
91
168
ill
129
220
349
Incidente
Reclamaciones
ModeloATX
Reclamaciones
Modelo Wilderness
1,365
77
422
1,864
59
41
66
166
Fuente: Robert L. Simison, "Ford Steps Up Recall Without Firestone", The Wall Street Journal, 14 de agosto, 2000, A3.
Si
No
Total
70
98
168
68
113
181
211
En nivel de significancia de 0.05, l,hay evidencia de una relacion significativa entre el tipo de incidente y el tipo de modelo?
138
349
l~r~j
META DE RECORTE DE COSTOS
RESULTADOS
Si
No
Total
67
101
168
55
126
181
227
349
122
a. En un nivel de significancia de 0.05, determine si hay evidencia de una relacion significativa entre Ia presencia de
metas ambientales y el tipo de proceso de manufactura.
b. Calcule el valor-p en el inciso a) e interprete su significado.
c. En un nivel de significancia de 0.05, l,hay evidencia de diferencias en el desempefio ambiental mejorado para los equipos con una meta especificada de recortar costos?
d. Calcule el valor-pen el inciso c) e interprete su significado.
e. En un nivel de significancia de 0.05, l,hay evidencia de diferencias en Ia rentabilidad mejorada para los equipos con una
meta especificada de recortar costos?
f. Calcule el valor-pen el inciso e) e interprete su significado.
g. En un nivel de significancia de 0.05, l,hay evidencia de diferencias en el estado de animo mejorado para equipos con
una meta especificada de recortar costos?
h. Calcule el valor-p en el inciso g) e interprete su significado.
11.42 En el verano de 2000, un nfunero creciente de reclamaciones de garantia de llantas Firestone vendidas en vehiculos
deportivos utilitarios Ford forzaron a Ia Ford y a Firestone aretirar unidades del mercado. Las 2,030 reclamaciones de garantia para las Ilantas 23575Rl5 se clasificaron en modelos ATX y.
Wilderness. El tipo de incidente que condujo a una reclamacion
de Ia garantia, por tipo de modelo, se resume en Ia tabla siguiente.
PROYECTO EN EQUIPO
-
11.43 a. Construya una tabla de contingencia de 2 x 2 utilizando tarifas como Ia variable de las filas y el objetivo como
variable de las columnas.
b. En un nivel de significancia de 0.05, l,hay evidencia de una
relacion significativa entre el objetivo de un fondo de inversion y si hay o no tarifa?
11.44 a. Construya una tabla de contingencia de 2 x 3 utilizando tarifas como Ia variable de las filas y el objetivo como
variable de las columnas.
b. En un nivel de significancia de 0.05, l,hay evidencia de una
relacion significativa entre el riesgo percibido de un fondo
de inversion y si hay tarifa?
11.45 a. Construya una tabla de contingencia de 3 x 2 utilizand() el riesgo como Ia variable de las filas y el objetivo como
variable de las columnas.
b. En un nivel de significancia de 0.05, l,hay evidencia de una
relacion significativa entre el objetivo de un fondo de inversion y el riesgo percibido?
E
SJ
---
-- ---
----- - ------.,.
405
Caso vigente
Fase 1
Fase2
El departamento de marketing discuti6 los resultados de la encuesta presentada en el capitulo 8 en las paginas 265 a 266. El
equipo se dio cuenta de que la evaluacion de preguntas individuales aportaba solo informacion limitada. A fin de comprender
mejor el mercado de las suscripciones con entrega a domicilio,
los datos se organizaron en las siguientes tablas de clasificacion
cruzada.
TABLA SH11.1
Numero de suscriptores que mantienen sus suscripciones despues de los cuatro planes de prueba de
descuento.
Si
No
Total
34
66
37
63
100
100
38
62
100
Total
61
75
139
214
136
216
352
..I1
138
ENTREGA ADOMICILIO
Sf
No
Total
Si
No
Total
26
40
66
110
176
286
136
216
352
COMPORTAMIENTO DE COMPRA
DE LUNES ASABADO
La ayor
29
49
78
3
40
43
46
170
216
COMPORTAMIENTO DE COMPRA
EN DOMINGO
CONTJNUAN SUS
SUSCRIPCIONES
1RAS EL
Sin
Descuento Descuento Tarjeta de
PERIODO
descuento moderado sustancial restaurante Total
No
Total
No
PLANES DE DESCUENTO
Si
Si
61
39
100
170
230
INTERES EN LA
SUSCRJPCION
Todos los
domingos
2-3/
meses
35
103
138
44
Si
No
Total
400
10
54
No mas
de una vez/
al mes
Total
1
23
24
46
170
216
EJERCICIO
DONDE SE SUSCRIBIERON
Si
No
Total
nenda de convenienda
Puesto de period'KosI
dulceria ,
Mciquina expendedora
Supermercado
Otros sitios
Total
12
62
74
15
10
5
4
46
80
11
95
21
13
13
216
8
9
170
406
COMPORTAMIENTO DE COMPRA
DE LUNES ASABADO
COMPORTAMIENTO
DE COMPRA EN
DOMINGo
Todos
los
dias
La
mayor
parte de
los dias
55
19
4
78
65
23
7
95
EJERCICIO
Ocasionalmente
o nunca Total
18
12
13
43
138
54
24
216
e
0
e:
At
baj
su
de
hoj
de
cua
re4.
ope
de I
celd
obs,
CHI!
lJso
Para <
tos en
hies.
Apendice
407
Apendice 11
Uso de software
para pruebas de chi cuadrada
A11.1 EXCEL
r:.;~.
. C81egorlcalwrl8rble-_:_ _ _ _ _ _ _ _ ___,
. For..-:
! For eolumna:
For layers:
L-~-~~~~
--=--- -~-~~-
~ -~ _ -. - . -
(epll...q
Dlaphoy
0 Vea Ia seccion G.25 (prueba de chi cuadrada para las diferencias de dos proporciones) si desea que PHStat2 genere una
hoja de trabajo para usted.
PC..*
R Rawpe"'"nb
P Columa P"'"nta
10! Talalpen:enb
I : Other St81s I
. Chi-Sque,.,_
I Opll__ ')
A11.2 MINITAB
Uso de Minitab para pruebas de chi cuadrada
;ara construir una tabla de contingencia de dos variables de. dab~s en bruto, abra el archivo de interes. Seleccione Stat ~ Taes-+ Cross Tabulation y Chi-Square.
. OK
Help
,' .;;,~'.,
Display
P" Chi-Square analysis
p: Expected cell counts
Raw residuals
Standardized residuals
Adjusted residuals
Each cell's contribution to the Chi-Square statistic
r
r
r
r
Help
II
OK
Cancel
- -- -- -- - -- -- - - - - - - - 408
--
---
"5i'''6'''*11ii0M\fffltil
Calumns cant81nlng the table:
Seh;ct
OK
Cancel
CAPITULO
12
OBJETIVOS DE APRENDIZAJE
En este capitulo, aprendera:
Como usar el analisis de regresion para predecir el valor de una variable
dependiente con base en una variable independiente
El significado de los coeficientes de regresion b0 y b 1
Como evaluar las suposiciones del analisis de regresi6n y saber que hacer si
estas suposiciones son infringidas
410
uso
DE LA ESTADISTICA
Pron6stico de ventas para una tienda de ropa
Las ventas de Sunflowers, una cadena de tiendas de ropa para dama, se han
incrementado durante los ultimos 12 afi.os conforme Ia cadena ha expandido el
nt1mero de tiendas abiertas. Hasta ahora, los gerentes de Sunflowers seleccionaban las locaciones de las tiendas con base en factores subjetivos como una
renta accesible o la percepci6n de que la ubicaci6n parecia ideal para una
tienda de ropa. Como nuevo director de planeaci6n, usted necesita desarrollar
un enfoque sistematico para seleccionar nuevas locaciones que permitan que
Sunflowers tome decisiones mejor informadas para abrir otras tiendas. Este
_plan debera permitirle predecir las ventas anuales de todas las tiendas
potenciales que este considerando. Usted cree que el tamafi.o de la tienda
contribuye en forma significativa a su exito y desea considerar esta relaci6n en
el proceso de decision. l,C6mo le ayudara la estadistica para predecir las
ventas anuales de una tienda propuesta con base en el tamaiio de la misma?
12.1
FIGURA 12.1
Una relaci6n positiva
de lfnea recta .
..
:.---::::::.~ -~--
0 0~-------------------------x
411
Yi
~0
don de
= ~o + ~1X1 + e;
(12.1)
~1
FIGURA 12.2
Ejemplos de tipos
de relaciones que
se encuentran en
los diagramas de
dispersion .
"----------X
"-----------x
Panel A
Relaci6n lineal positiva
PaneiB
.Relaci6n lineal negativa
~---------------X
PaneiC
Relaci6n positiva curvilinea
PaneiE
Relaci6n negativa curvilfnea
"--~--------X
PaneiF
No existe relaci6n entre X y Y
412
12.2
TABLA 12.1
Extension (en miles
de pies cuadrados) y
ventas anuales (en
millones de d61ares)
para una muestra de 14
sucursales de Ia cadena
de tiendas de ropa
para dama Sunflowers.
(000)
Ventas anuales
(en millones de
d6lares)
Tienda
(000)
Ventas anuales
(en millones de
dolares)
1.7
1.6
2.8
5.6
1.3
2.2
1.3
3.7
3.9
6.7
9.5
3.4
5.6
3.7
8
9
10
11
12
13
14
1.1
3.2
1.5
5.2
4.6
5.8
3.0
2.7
5.5
2.9
10.7
7.6
11.8
4.1
Pies
cuadrados
Tienda
2
3
4
5
6
7
Pies
cuadrados
r:-
La figura 12.3 muestra el diagrama de dispersion para los datos en la tabla 12.1. Observe la
laci6n creciente entre los pies cuadrados' (X) y las ventas anuales (.Y). Conforme aumenta el tamano
de la tienda, las ventas se incrementan aproximadamente como una linea recta. Por lo tanto, es fa~
tible suponer que una linea recta provee un modelo matematico util de esta relaci6n. Ahora necesi
tamos determinar la linea recta especifica que me}or se ajusta a estos datos.
FIGURA 12.3
Diagrama de
dispersion de Excel
para los datos de Ia
selecci6n de local.
413
12
10
..
0+-------~--------~--------~-------r--------r-------~--~--~
3
4
5
6
0
2
7
La ecuacion (12.2) requiere la determinacion de dos coeficientes de regresion: b0 (la interseccion de la muestra en Y) y b 1 (la pendiente de la muestra). El enfoque mas comoo para encontrar b0
y b 1 es el metoda de los minimos cuadrados. Este metoda min~iza la suma del cuadrado de las
diferencias entre los valores reales (Y;) y los valores predichos (Y;) usando la ecuacion de regresion
lineal simple [es decir, la linea de prediccion; vea la ecuacion (12.2)]. Esta suma del cuadrado de la
diferencia es igual a:
"'
' 2
""'(Y;
- Y;)
i=l
414
ho + qXi
i=l
i=l
Ya que esta f6rmula tiene dos inc6gnitas, b0 y b1, Ia suma del cuadrado de Ia diferencia es una funci6n de Ia intersecci6n en Y, b0, y de Ia pendiente de la muestra, b1. El metodo de mfnimos cuadrados determina que valores de b0 y b1 son los que minimizan la suma del cuadrado de las diferencias.
Cualquier otro valor para b0 y b1 diferente a aquellos que se hayan determinado por el metodo de
mfnimos cuadrados da como resultado una mayor suma del cuadrado de las diferencias entre el valor
real de Y y el valor predicho de Y.
En este texto, se usa el software de la hoja de trabajo de Excel y el software estadistico de Minitab, para ejecutar los ca!culos implicados en el metodo de los mfnimos cuadrados. Para los datos
de la tabla 12.1, la figura 12.4 representa la salida de Excel y la figura 12.5 ilustra Ia salida de Minitab. Sin embargo, para comprender c6mo se calculan los resultados, muchos de los ca!culos necesarios se ilustran en los ejemplos 12.3 y 12.4 de las paginas 418-419 y 424-426.
FIGURA 12.4
Salida de Excel para
el problema de Ia
selecci6n de local.
/ ~SR
ss
df
Intercept
Square Feet
-J
..
p-value
I
F
1Sionltk8nce Fl
105.74761 ' 105.74761 113.23351 1.82269E-87
SSE- 1
12 -11.20668 0.93389
13
116.95429
SST
I
AN OVA
12 Rearellion
13 Residual
14 Total
15
16
17
18
!
"1
2
Rearesslon Statistics
3
4 Multiple R
0.95088
0.90418
5 RSquare
0.89619
6 Adjusted R Square !
0.96&38 -"vx
7 Standard Error
8 Observations
14 - n
9
10
11
FIGURA 12.5
Salida de Minitab para
el problema de
selecci6n de local.
The
-1-- 1.66986
MS
0.15693 10.64112
x:egJ:ession equation is
+ 1.67
-~~
S~e
0.00000
1.32795
-!
(Jppert5%
2.11095
2.01177
Feee
bo\
T
p
Coef SE Coef
Px:ediceox:
Constane
0.9645 0. 5262 1.83 0.092"'
Squax:e Feet 1.6699 0.1569 10. 64 0. 000 " '
p-value
b,
S 0.966380
""'
R-Sq
90.4~
E.
R-Sq(adj) 89.6' \
Analysis of Vax:iance
HS
F
P
DF
SS
Soux:ce
RegJ:ession
1 105.75 105.75 113.23 0.000
0.93
Residual Ex:x:ox: 12 11.21
13 116.95
Total
Px:edicted Values
f~x:
Mev Obsex:vat1ons
Rew
Obs
Fit
SE Fit
1 7.644
0.309
95~
CI
(6.971, 8.317)
95% PI
(5. 433, 9. 854)
I!
415
Observe en Ia figura 12.4 o 12.5 que b0 =0.964 y b 1 = 1.670. Por lo tanto, Ia linea de predicci6n [vea
Ia ecuaci6n (12.2) de Ia pagina 413] para estos datos es
f;
= 0.964 + 1.670X;
La pendiente b 1 es + 1.670. Esto significa que para cada incremento de 1 unidad en .X, se estima
que el valor promedio de Y se incrementara por 1.670 unidades. En otras palabras, para cada incremento de 1.0 mil pies cuadrados en el tarnaiio de Ia tienda, se estima que la media de ventas anuales
se incrementara por 1.670 millones de d6lares. Por lo tanto, Ia pendiente representa Ia porci6n de las
ventas anuales que se estima que variara de acuerdo con el tarnafio de la tienda.
La intersecci6n en Y, b0 , es +0.964. La intersecci6n en Y representa el valor promedio para Y
cuando Xes igual a 0. Puesto que la extensi6n de la tienda no puede ser 0, esta intersecci6n en Y no
tiene una interpretacion practica. Asimismo, la interseccion en Y para este ejemplo esta fuera del
rango de los valores observados de la variable X y, por lo tanto, las interpretaciones del valor de b0
deben hacerse con precaucion. La figura 12.6 muestra las observaciones reales y Ia linea de prediccion. Para ilustrar una situacion en la que no haya una interpretacion directa para b0 , Ia interseccion
en Y, vease el ejemplo 12.1.
FIGURA 12.6
Diagrama de dispersion
de Excel y linea de
predicci6n para los
datos de Ia selecci6n
de local.
12
..
iii
10
i
.!
.!
--------~--- -~------------------------------------------------------------------~---
EJEMPLO 12.1
~ = 35.0 + 3X;
(,Cual es Ia interpretacion de Ia intersecci6n en Y, b0, y de Ia pendiente b 1?
,'
416
Uti lice el procedimiento de exploraciones visuales de Ia regresion lineal simple para producir una lfnea de prediccion que se acerque lo mas posible a Ia linea de
prediccion definida porIa solucion de minimos cuadrados.
Abra Ia hoja de trabajo macro Visual Explorations.xla y:
~~
=~~
- ~-~
-- ~==~~~~~~
I Yrible Cel Rlfllle:
KYnble CeiRifllle:
;J
:::J
HelP
OK
-Cinall
417
Regrese al escenario "Uso de la estadistica" relacionado con las tiendas de ropa Sunflowers. El
ejemplo 12.2 ilustra como se utiliza la ecuacion para predecir la media de ventas anuales.
EJEMPLO 12.2
f; = 0.964 + l.670X;
f; = 0.964 + 1.670( 4) = 7.644 0
$7,644,000
Por lo tanto, la media de las ventas anuales predicha para una tienda de 4,000 pies cuadrados es de
$7,644,000.
fi)
""'
LJ(Yi- A2
i=l
""'
LJ[Yi-
Cho + qX;)] 2
i=l
q=
SSXY
(12.3)
ssx
donde
SSXY =
ssx = L (X; I
i=I
X)2 =
(ix;J
L xl - ~i=.:....I
i=I
__...
""'X.
""'y; J
LJzLJl
n
i=l
i=l
n
2
418
bo
=Y -~X
(12.4)
donde
n
y=
Lli
i=l
yx
Lxi
= .1:L_
Ir
I
EJEMPLO 12.3
I
I
I
SOLUCI6N AI examinar las ecuaciones (12.3) y (12.4), se observa que para determinar b0 y b 1 hay
'
que calcular cinco cantidades. Estas son n, el tamaiio de la muestra; I, Xi, la suma de los valores
n
i=l
'
I, X;Y;. la su
~
.
~
~
rna del producto de X y Y. Para los datos de la selecci6n de local, el nfunero de pies cuadrados se uti
liza para predecir las ventas anuales en la tienda. La tabla 12.2 presenta los calculos de las diferentes
I'
sumas necesarias (incluyendo I, Jj 2, la suma de los valores Yal cuadrado que se usara para calcular
SST en la secci6n 12.3).
i =l
TABLA 12.2
Calculo para el
problema de
selecci6n de local.
Tienda
1
2
3
4
5
6
7
8
9
10
11
12
13
14
Totales
3.2
1.5
5.2
4.6
5.8
3.0
40.9
Jtl
fZ
2.89
2.56
7.84
31.36
1.69
4.84
1.69
1.21
10.24
2.25
27.04
21.16
33.64
9.00
157.41
13.69
15.21
44.89
90.25
11.56
31.36
13.69
7.29
30.25
8.41
114.49
57.76
139.24
16.81
594.90
SSXY
= L (X; i=l
X)(Y; - Y)
= L XiY; i=l
I
A
~
b.
c.
= SSXY
ssx
a.
ht
XY
6.29
6.24
18.76
53.20
4.42
12.32
4.81
2.97
17.60
4.35
55.64
34.96
68.44
12.30
302.30
(ixJiY;)
z=l
z=l
a ..
b.
'+
1,
= 302.3 - 238.97285
= 63.32715
n
ssx =L (X; -
(ix;]
X)2
= L x? - _,_,_
='----''--
i=l
i=l
= 157.41- ( 40.9)2
14
= 157.41-119.48642
= 37.92358
para que
q=
63.32715
37.92358
= 1.66986
y
.L11
= i=l
= 81. 8 = 5.842857
14
_Lx;
40 9
x = l=L__
=
= 2.92143
n
14
I
I.
b0 = 5.842857- (1.66986)(2.92143)
= 0.964478
II
Aprendizaje basico
_ ___,
...__
12.3 AI ajustar una linea recta a un conjunto de datos se produce Ia siguiente linea de predicci6n
12.1 AI ajustar una linea recta a un conjunto de datos se produce Ia siguiente linea de predicci6n
f;
= 2 +5X;
de PH Grade
a. 3?
b.-3?
f;
= 16- O.SX;
Aplicaci6n de conceptos
Puede resolver los problemas 12.4 a 12. 10 manualmente -o en Excel, Minitab o SPSS.
'---'==:..1
420
Tienda
Espacio en el estante
(X) (en pies)
1
2
3
4
5
6
7
8
9
10
11
12
5
5
5
10
10
10
15
15
15
20
20
20
1.6
2.2
1.4
1.9
2.4
2.6
2.3
2.7
2.8
2.6
2.9
3.1
c. Prediga la media de ventas auditadas para Ia revista que reporta ventas en los puestos de periodicos de 400,000 ejemplares.
12.5 En el negocio de la publicidad, la circulacion es una parte vital. Cuantas mas ventas registre una revista, mas anunciantes podra tener. Recientemente, surgio una diferencia entre los
reportes de los editores sobre las ventas de revistas en puestos
de periodicos y las subsiguientes auditorias que realizo Ia Oficina de Auditorias de Circulacion. Los siguientes datos CIRCULATION representan las ventas reportadas y las ventas auditadas
(en miles) de los puestos de periodicos en 2001 para las siguientes 10 revistas.
Revista
YM
Cosmo Girl
Rosie
Playboy
Esquire
TeenPeople
More
Spin
Vogue
Elle
Reportadas (X)
Auditadas (l')
621.0
359.7
530.0
492.1
70.5
567.0
125.5
50.6
353.3
263.6
299.6
207.7
325.0
336.3
48.6
400.3
91.2
39.1
268.6
214.3
Fuente: M Rose, "In Fight for Ads. Publishers Often Overstate Their
Sales", The Wall Street Journal, 6 de agosto, 2003, AI, Al 0.
12.7 Una gran casa de envios por correo considera que existe una relacion lineal entre el peso del
correo que recibe y el nfunero de ordenes que debe
llenar. Desea investigar Ia relacion para predecir el numero
de ordenes con base en el peso del correo. Desde una perspectiva operacional, conocer el nfunero de ordenes ayudara en la
planeacion del proceso de llenar ordenes. Se selecciono una
muestra de 25 embarques de correo dentro de un rango de 200 a
700 Iibras. Los resultados son los siguientes. MAIL
ASJSTENCJA
de PH Grade
Peso del
correo
(en Iibras)
6rdenes
(en miles)
216
283
237
203
259
374
342
301
365
384
404
426
482
6.1
9.1
7.2
7.5
6.9
11.5
10.3
9.5
9.2
10.6
12.5
12.9
14.5
Peso del
correo
(en Iibras)
6rdenes
(en miles)
432
409
553
572
506
528
501
628
677
602
630
652
13.6
12.8
16.5
17.1
15.0
16.2
15.8
19.0
19.4
19.1
18.0
20.2
r
I
Renta Tamaiio
Renta Tamaiio
Depar- mensual (en pies Depar- mensual (en pies
tamento (en$) cuadrados) tamento (en $) cuadrados)
2
3
4
5
6
7
8
950
1,600
1,200
1,500
950
1,700
1,650
935
850
1,450
1,085
1,232
718
1,485
1,136
726
12.3
9
10
11
12
13
14
15
16
875
1,150
1,400
1,650
2,300
1,800
1,400
1,450
700
956
1,100
1,285
1,985
1,369
1,175
1,225
421
Renta Tamaiio
Renta Tamaiio
Depar- mensual (en pies
Depar- mensual (en pies
tamento (en$) cuadrados) tamento (enS) cnadrados)
17
18
19
20
21
1,100
1,700
1,200
1,150
1,600
1,245
1,259
1,150
896
1,361
22
23
24
25
1,650
1,200
800
1,750
1,040
755
1,000
1,200
MEDIDAS DE VARIACI6N
I
I
AI usar el metodo de minimos cuadrados para encontrar los coeficientes de regresi6n para un conjunto de datos, existen tres medidas de variacion que se necesita calcular. La primera medida, la suma total de cuadrados (SST, por sus siglas en ingles), es una medida de variacion de los valores Yi
alrededor de la media f. En un analisis de regresion, la variaci6n total o la suma total de cuadrados
se subdivide en variaci6n explicada o suma de cuadrados de Ia regresi6n (SSR, por sus siglas en
ingles), la cual se debe a la relacion entre X y Y, y la variaci6n no explicada o error de Ia suma de
cuadrados (SSE, por sus siglas en ingles), la cual se debe a factores diferentes ala relacion entre X
y Y. La figura 12.7 muestra estas diferentes medidas de variacion.
422
FIGURA 12.7
Error de Ia
suma de cuadrados
Medidas de variaci6n.
y
Y;
/~.
(Y;-
-: :-"_:~"'~
Y,) 2 =SSE
= b0 + b1X 1
Suma total de cuadrados . , /
IY;- Y)2= SST .~,7.:::-.:. ~
Suma de cuadrados
1-1
..~Ia regresi6n
,. ,,...-.~,.;:::-.?"'v
I (~- Yl 2 =ySSR
,_,
_,;.~"'"";.:.0::;:?-;.
__
~-
0~--------------------_.--------------x
X;
La suma de cuadrados de la regresi61!_ (SSR) es igual a la diferencia entre Y1 ( el valor de Y predicho a partir de la linea de predicci6n) y Y (el valor promedio de Y). El error de la suma de cuadrados (SSE) representa la parte de la variaci6n en Y que no se explica por la regresi6n. Esta basado en
la diferencia entre Y1 y Y1 Las ecuaciones (12.5), (12.6), (12.7) y (12.8) defmen las medidas de variaci6n.
(12.5)
-2
(12.6)
i=l
=.J (.Yj ~
i=l
-2
Y)
(12.7)
423
= """'(Y; - Y;)
(12.8)
i=l
La figura 12.8 representa Ia porci6n de suma de cuadrados de Ia salida de Excel para el problema de selecci6n de local, mientras que Ia figura 12.9 ilustra la salida de Minitab.
FIGURA 12.8
Suma de cuadrados de
Excel para el problema
de selecci6n de local.
FIGURA 12.9
Suma de cuadrados
de Minitab para el
problema de selecci6n
de local.
10 AN OVA
11
12 Regression
13 Residual
14 Total
ss
df
1
12
13
MS
Shlnlfksnce F
1.82269E.G7
Analysis of Vat:iance
ss
Source
Dr
MS
r
Regression
1 105.75 105.75 113.23
Residual Error 12 11.21
0.93
13 116.95
Total
0.000
424
El coeficiente de determinacion
Por si mismos, SSR, SSE y SST aportan muy poca informacion. Sin embargo, la razon de la suma de
cuadrados de la regresion (SSR) para la suma total de cuadrados (SST) mide la proporcion de la variacion en Y que se explica por la variable independiente X en el modelo de regresi6n. A esta raz6n
se le llama coeficiente de determinacion ,2 y se define en la ecuacion (12.9).
COEFICIENTE DE DETERMINAC16N
El coeficiente de determinacion es igual a la suma de cuadrados de la regresi6n (es decir, la variaci6n explicada) dividida por la suma total de cuadrados (es decir, la variaci6n total).
(ll.9)
El coeficiente de determinacion mide Ia proporcion de Ia variacion en Y que se explica por la variable independiente X en el modelo de regresion. Para el ejemplo de la selecci6n de local, con SSR =
105.7476; SSE= 11.2067; y SST= 116.9543,
r2 =
105.7476 = 0. 904
116.9543
Por lo tanto, el 90.4% de la variacion anual de ventas se explica por la variabilidad en el tamafio de
la tienda, medida en pies cuadrados. Esta ,2 mas grande indica una fuerte relaci6n lineal positiva entre dos variables porque el uso del modelo de regresion ha reducido la variabilidad al predecir las
ventas anuales en un 90.4%. Solo el9.6% de la variaci6n de Ia muestra de las ventas anuales se debe a factores diferentes a los que se contabilizaron con el modelo de regresi6n lineal que utiliza pies
cuadrados.
La figura 12.10 representa la porci6n del coeficiente de determinacion de la salida de Excel para el problema de selecci6n de local y la figura 12.11 ilustra la salida de Minitab.
FIGURA 12.10
Salida parcial de Ia
regresi6n de Excel
para el problema de
selecci6n de local.
3 I
Regression Statistics
I
r-4-- M~~~B.____j __~.950!J!l
r-~- -R Square ___
_j__
0.90418_t'
6 Adjusted R Sq~.!.l
0.89619
,L ~tan_~ard Error -Jsvx.---0.96638 f
8 Observations
;
14.00000 .
-FIGURA 12.11
Salida parcial de Ia
regresi6n de Minitab
para el problema de
selecci6n de local.
EJEMPLO 12.4
Predictor
Coef SE Coef
Constant
0.9645
0.5262
Square Feet 1.6699
0.1569
T
P
1.83 0.092
10.64 0.000
S 0.966380
R-Sq(adj) 89.6%
R-Sq 90.4%
- - -- -- -
--- -~
425
SST =
L(Y; - Y)
. (~ r.)2
~ i
I,Y/ -
1=1
(12.10)
l=l
1=1
SSR =
I<Yi- Y)
(12.11)
1=1
bo
1=1
~------
(~)'
. .
1=1
SSE=
I<Yi- Y)2
(12.12)
1=1
11
i=l
1=1
1=1
-----
--
- - - --- . ---
"
SST=
(Y;)2
i=l
= 594.9- (8 1. 8)
14
= 594.9-477.94571
= 116.95429
SSR
= l:<fi - Y) 2
1=1
(~)'
. .
i=1
8 82
= (0.964478)(81.8) + (1.66986)(302.3)- ( 1. )
14
= 105.74726
.. --
--- -- I
426
,
SSE=
LCfi- :f;) 2
i=l
Lli
i=l
boLli- q_LX;Y;
i =l
i=l
116.9543
0 _904
,
S Y.X--~SSE_
-
""'
2
~(Y;- lj)
i-1
n-2
donde
n-2
(12.13)
11.2067 = 0.9664
14-2
Esta estimaci6n del error estandar, igual a 0.9664 millones de d61ares (es decir, $966,400), se rotula como Error estandar en Ia salida de Excel en la figura 12.10 y como S en la salida de Minitab
de Ia figura 12.11 (en la pagina 424). La estimaci6n del error estandar representa una medida de Ia
l
c
e
~
-- ~- - -------------
427
variacion alrededor de Ia linea de prediccion. Se mide en las mismas unidades de la variable dependiente Y. La interpretacion de Ia estimacion del error estandar es semejante a Ia de Ia desviaci6n estandar. Asi como Ia desviacion estandar mide Ia variabilidad alrededor de Ia media, Ia estimacion
del error estandar mide Ia variabilidad alrededor de Ia linea de predicci6n. Como se vera en las secciones 12.7 y 12.8, la estimacion del error estandar sirve para determinar si existe una relacion estadisticamente significativa entre las dos variables y tambien para hacer inferencias acerca de los
futuros valores de Y.
----------]
Aprendizaje basico
'------'
'-------'
'-------'
12.12 Si SSR =36 y SSE= 4, encuentre SST, y despues calcule el coeficiente de determinacion -,2 e interprete su significado.
12.13 Si SSR = 66 y SST= 88, calcule el coeficiente de determinacion -,2 e interprete su significado.
12.14 Si SSE= 10 y SSR = 30, calcule el coeficiente de determinacion -,2 e interprete su significado.
12.15 Si SSR = 120, i_,por que es imposible que SST sea igual a
110?
Aplicaci6n de conceptos
Puede resolver los problemas 12. 16 a 12.22 manualmente o en Excel, Minitab o SPSS.
1 AUTO 12.16 En el problema 12.4 de Ia pagina
V Exam en 419, el gerente de marketing uso el espacio en el estante para Ia comida de mascotas para predecir las ventas semanales. PETFOOD Para esos datos, SSR = 2.0535 y SST= 3.0025.
a. Determine el coeficiente de determinacion -,2 e interprete su
significado.
b. Determine Ia estimacion del error estandar.
c. i.,Que tan u.til cree usted que es este modelo de regresion para predecir las ventas?
ASISTENCIA
de PH Grade
12.17 En el problema 12.5 de Ia pagina 420, usolas ventas reportadas de revistas en puestos de periodicos para predecir las
ventas auditadas. CIRCULATION Para esos datos, SSR =
130,301.41 y SST= 144,538.64.
a. Determine el coeficiente de determinacion -,2 e interprete su
significado.
b. Determine la estimacion del error estandar.
c. i.,Que tan util cree usted que es este modelo de regresi6n para predecir las ventas auditadas?
12.18 En el problema 12.6 de la pagina 420, el dueii.o de una
empresa queria predecir las horas de trabajo con base en los
pies cubicos de la mudanza. MOVING Usando los resultados de
ese problema,
c. i_,Que tan util cree usted que es este modelo de regresion para predecir las horas de trabajo?
ASISTENCIA
problema,
a. Determine el coeficiente de determinacion -,2 e interprete su
significado.
b. Encuentre la estimacion del error estandar.
c. i_,Que tan util cree usted que es este modelo de regresion para predecir el nllmero de 6rdenes?
12.20 En el problema 12.8 de Ia pagina 421, utilizolos ingresos anuales para predecir el valor de Ia franquicia de beisbol.
BBREVENUE Con los resultados de este problema,
a. Determine el coeficiente de determinacion -,2 e interprete su
significado.
b. Determine Ia estimacion del error estandar.
c. i_,Que tan util cree usted que es este modelo de regresion para predecir el valor de Ia franquicia de beisbol?
12.21 En el problema 12.9 de la pagina 421,.un agente de una
empresa de bienes raices queria predecir la renta mensual para
los departamentos con base en el tamaii.o del inmueble. RENT
Con los resultados de ese problema,
a. Determine el coeficiente de determinacion r2 e interprete su
significado.
b. Determine la estimaci6n del error estandar.
c. i., Que tan util cree usted que es este modelo de regresion para predecir Ia renta mensual?
12.22 En el problema 12.10 de la pagina 421, utilizola dureza para predecir la resistencia a la tension del aluminio fundido.
HARDNESS Con los resultados de ese problema,
a. Determine el coeficiente de determinacion r2 e interprete su
sigffificado.
b. Encuentre Ia estimacion del error estandar.
c. i_,Que tan util cree usted que es este modelo de regresi6n para predecir la resistencia a la tension del aluminio fundido?
428
12.4
SUPOSICIONES
La discusi6n sobre Ia prueba de hip6tesis y el amilisis de varianza enfatiz6 la importancia de las suposiciones acerca de la validez de cualquier conclusi6n alcanzada. Las suposiciones necesarias para
la regresi6n son semejantes a las del analisis de varianza puesto que ambos temas caen bajo el encabezado general de modelos lineales (vea Ia referencia 5).
Las cuatro suposiciones de regresi6n (conocidas por el acr6nimo LINE, en ingles) son las siguientes.
Linealidad.
Independencia de errores.
Normalidad.
lgual varianza (tambien Hamada homoscedasticidad).
La primera suposici6n, linealidad, establece que Ia relaci6n entre variables es lineal. Las relaciones entre variables que no son lineales se estudiaran en el capitulo 13.
La segunda suposici6n, iodepeodeocia de errores, requiere que los errores (e;'s) sean independientes unos de otros. Esta suposici6n es de particular importancia cuando se recolectan los datos a
lo largo de un periodo de tiempo. En tales situaciones, los errores para un periodo especifico a menudo se correlacionan con aquellos del periodo previo.
La tercera suposici6n, normalidad, requiere que los errores (e;'s) se distribuyan normalmente
en cada valor de X lgual que en la prueba t y en la prueba F con ANOVA, el analisis de regresi6n es
relativamente robusto a las desviaciones de la suposici6n de normalidad. Siempre y cuando la distribuci6n de errores en cada nivel de X no sea muy diferente a una distribuci6n normal, las suposiciones acerca de ~0 y ~ 1 nose ven afectadas de forma importante.
La cuarta suposici6n, igual varianza u homoscedasticidad, requiere que Ia varianza de los
errores (e;'s) sea constante para todos los val ores de X En otras palabras, Ia variabilidad de los valores de Y sera Ia misma cuando Xes un valor bajo que cuando Xes un valor alto. La suposici6n de
igual varianza es importante cuando se realizan inferencias acerca de ~ 0 y ~ 1 . Si existen serias desviaciones de esta suposici6n, se puede recurrir a la transformaci6n de datos o a los metodos de minimos cuadrados ponderados (vea la referenda 5) ..
12.5
ANALISIS RESIDUAL
En la secci6n 12.1 se present6 el analisis de regresi6n. En las secciones 12.2 y 12.3, se desarroll6 un
modelo y se estim6 el uso del enfoque de los minimos cuadrados para los datos de selecci6n de local. l,Es este el modelo correcto para estos datos? l,Son validas las suposiciones hechas en Ia secci6n
12.4? En esta secci6n usaremos un enfoque grafico denominado analisis residual para evaluar las
suposiciones y asi determinar si el modelo de regresi6n seleccionado es apropiado.
El residual o error del valor estimado e; es la diferencia entre los valores observados (Y;) y los
val ores predichos (f;) de la variable dependiente para un valor dado de X;. Graficamente, aparece un
residuo en el diagrama de dispersion como la distancia vertical entre un valor observado de Y y la linea de predicci6n. La ecuaci6n (12.14) defme el residuo.
EL RESIDUO
El residuo es igual a la diferencia entre el valor observado de Y y el valor predicho de Y.
(12.14)
429
Linealidad Para evaluar Ia linealidad, grafique los residuos en el eje vertical contra los valores
correspondientes de Xj de Ia variable independiente en el eje horizontal. Si el modelo lineal es apropiado para los datos, no habria un patr6n aparente en este grafico. Sin embargo, si el modelo lineal
no es apropiado, habra una relaci6n entre los valores Xj y los residuos e;. Ese patr6n se observa en Ia
figura 12.12. El panel A muestra una situaci6n en Ia que, aunque hay una tendencia creciente en Y
conforme X aumenta, la relaci6n parece ser curvilinea porque la tendencia hacia arriba decrece confon:ile los valores de X se incrementan. El efecto cuadratico se destaca en el panel B donde existe
una clara relaci6n entre Xj y e;. AI graficar los residuos, se remueve Ia tendencia lineal de X con Y,
exponiendo Ia falta de ajuste en el modelo lineal simple. Asi, el modelo cuadratico proporciona un
mejor ajuste y deberia emplearse en Iugar del modelo lineal simple (vea Ia secci6n 13.6 para mayor
explicaci6n acerca del ajuste de los modelos cuadraticos).
FIGURA 12.12
Estudio del cankter
apropiado de un
modelo de regresi6n
lineal simple.
~---------------------X
Panel A
~---------------------X
PanelS
FIGURA 12.13
Estadfsticos residuales
de Excel para el
problema de selecci6n
de local.
Para determinar si un modelo de regresi6n lineal simple es apropiado, regresemos a Ia evaluaci6n de los datos de selecci6n de local. La figura 12.13 proporciona los valores predichos y residuales de Ia variable respuesta (ventas anuales) calculados por Excel. 1
22 RESULTADOS RESIDUAlS
23
Obtlemlciiitl
241
25
1
26
2
-
1-~
28
29
30
31
32
~
~35
~
~
38
--
~--
Vtratllr - - ptedit:/111$
3.803239598 '
3.636253367
5.640088147
10.31570263
3.135294612
3
4
5
6 t-----~.638170757
1
3.135294672
8
2.801322208
9
6.308033074
iil
14
Rssiduos
.-,.103239598
0.263146633
1.D59911i~-t
..,,815702635
0.264705328
0.961829243
0.564705328
..,,101322208
..,,808033074
..,.5692671~
1.052242292
8.645840318 ! -1.045840318
. 10.6496751 ~324902
-- --~-5.974060611 1 -1.814060611
Para evaluar la linealidad, los residuos se grafican en contra de la variable independiente (tamaiio de la tienda en miles de pies cuadrados) en la figura 12.14. Aunque hay una dispersi6n extendida
en la gnifica residual, no existe un patr6n aparente o relaci6n entre los residuos y Xj. Los residuos
parecen extenderse de manera uniforme por arriba y por debajo para los valores de X que difieren.
Se concluye que el modelo lineal es apropiado para los datos de selecci6n de local.
430
FIGURA 12.14
Grafica de Excel para
residuos contra Ia
extension en pies
cuadrados de una
tienda para el
problema de selecci6n
de local.
Pies cuadrllclol
Normalidad Se puede evaluar la suposici6n de norrnalidad en los errores agrupando los residuos dentro de la distribuci6n de frecuencias y mostrando los resultados en un histograma (vea la
secci6n 2.3). Para los datos de selecci6n de local, los residuos se han agrupado dentro de una distribuci6n de frecuencias como se observa en la tabla 12.3. (No hay suficientes valores para construir
un histograma.) Tambien es factible evaluar la suposici6n de norrnalidad comparando los valores
reales contra los valores te6ricos de los residuos, o construyendo una grafica de probabilidad normal, un diagrama de tallo y hojas o una grafica de caja y bigote para los residuos. La figura 12.15 es
una grafica de probabilidad normal de los residuos para los datos de selecci6n de locaL
TABLA 12.3
Distribuci6n de
frecuencia de los 14
valores residuales
para los datos de
selecci6n de local.
i'
Residuos
-2.25 pero menor a - 1.75
-1.75 pero menor a -1.25
-1.25 pero menor a -0.75
-0.75 pero menor a -0.25
-0.25 pero me~or a +0.25
+0.25 pero menor a +0.75
+0.75 pero menor a+ 1.25
Total
Frecuencia
0
3
2
3
4
14
FIGURA 12.15
431
Grafica de probabilidad
normal de Minitab para
los residues de los
datos de selecci6n de
local.
ts ~----t-
---
------i-----
to
80
~
60
50
4)
-~-----~-------!. ----
e'
I
t
----t- --- - 1---- - -~-----t- - -- - ~- -----, ~----t ---- - ~- - ----~- ---
-----+ --1
I
:
-2
------t-----+------i------}---;--+------l------t----I
I
I
I
I
I
I
-1
0
Residual
Es dificil evaluar la suposici6n de normalidad para una muestra de solo 14 valores sin importar
si se usa un histograma, una gratica de tallo y hojas, una grafica de caja y bigote o una grafica de
probabilidad normal. En la figura 12.15 se observa que los datos no parecen desviarse en forma sustancial de una distribuci6n normal. La fortaleza del amilisis de regresi6n a las desviaciones modestas de normalidad le permite concluir que no debe preocuparse demasiado acerca de las desviaciones de Ia suposici6n de normalidad con respecto a los datos de selecci6n de local.
Igual varianza Usted podra evaluar la suposici6n de igual varianza a partir de una grafica de
los residuos con X;. AI parecer, para los datos de selecci6n de local de la figura 12.14, en la pagina
430, no hay grandes diferencias en la variabilidad de los residuos para los diferentes valores de X;.
Asi, se concluye que no existe una aparente violaci6n en la suposici6n de igual varianza en cada nivel de X.
Para examinar un caso en el que se infringe la suposici6n de igual varianza, observe la figura
12.16, que es una grafica de los residuos con .X; para un conjunto de datos hipoteticos. En esta grafica, la variabilidad de los residuos se incrementa drasticamente conforme X se incrementa, demostrandose asi la falta de homogeneidad en las varianzas de Yj para cada nivel de X. Para estos datos, la
suposici6n de igual varianza se considera invalida.
FIGURA 12.16
Violaci6n de igual
varianza.
Residuos
.. . . .....
: : ...-. . . ... . ...
. . ..... :
0 : :
- ~ .,~-
_: _,~. -
.. . ....
= ....
~-------------------------------X
432
rf~mlb@~tDl~~l) !?&~&
---------- -- - - - - - - - - - - - - - - ----- - - - - - - - - - - -w
-----
..I"'
II
I!!
I,,.
' ill
'
1:1
j:
\':
- .l
8
91
10
11.
12:
131
14
15
16
17
181
19i
1.65;
-1.19
0.84
0.29
-1.28
1.21 '
.8.31.1
1.D2
.8.16
1.42
.8.71
.8.63
1 AUTO 12.26 En el problema 12.4 de Ia pagina 419, el geV Examen rente de marketing utiliz6 el espacio en el estante para comida de mascotas para predecir las ventas semanales. Realice un analisis residual para esos datos. PETFOOD
Grlfica l'lllidual
2.5
,..,...,~,.,-r..,..,.,.::-:=
2.0
1.5
1.0
J 0.5
J 0.0
-0.5
1 .0
1 .5
+--=~....;;.;.___.F...::.;_:~.:::.:....:::;;
10
15
20
25
::1
''I
I'
1:'II
.
"1
Aprendizaje basico
X Residuos
1
0.70
2
.8.78 1
1.03
3
4
0.33
5
2.39
61
.8.67
7'
0.16 .
I;,.,j
--'----"_:_:.'_~--=
'!-..,' ""
Gr6fica residual
VING
2.0
1.5
1.0
RENT
0.5
0.0
-0.5
-1.0
-1.5
0
------,
10
15
20
Aplicaci6n de conceptos
Le recomendamos usar Excel, Minitab o SPSS para resolver los problemas 12.25 a 12.31.
12.25 En el problema 12.5 de Ia pagina 420, utilizolas ventas
reportadas de revistas en puestos de periodicos para predecir las
ventas auditadas. Realice un analisis residual para estos datos.
CIRCULATION
X I Residuos
0.70
1.58
1.D3
0.33
.8.39
.8.67
.8.56
.8.65
-1.19
.8.84
.8.29'
-1.28
.8.21
.8.37
0.22
.8.16
0.82
12.30 En el problema 12.8 de la pagina 421, utiliz6los ingresos anuales para predecir el valor de una franquicia de beisbol.
Realice un analisis residual para estos datos. Con base en estos
resultados, BBREVENUE
a. Determine si es adecuado el ajuste de este modelo.
b. Evalue si las suposiciones de regresi6n se han infringido seriamente.
12.31 En el problema 12.10 de Ia pagina 421, utilizola dureza para predecir Ia resistencia de tension del aluminio fundido.
Realice un analisis residual de estos datos. Con base en estos
resultados, HARDNESS
a. Determine si es adecuado el ajuste de este modelo.
b. Evalue si las suposiciones de regresi6n se han infringido seriamente.
12.6
433
MEDICI6N DE LA AUTOCORRELACI6N:
ESTADfSTICO DE DURBIN-WATSON
Una de las suposiciones basicas del modelo de regresion es la independencia de los errores. Esta suposici6n se infringe a veces cuando los datos se recolectan a lo largo de periodos secuenciales de
tiempo porque un residua en cualquier punta en el tiempo podria tender a ser semejante a los residuos en periodos adyacentes. A este patr6n en los residuos se le denomina autocorrelaci6n. Cuando un conjunto de datos tiene una autocorrelacion sustancial, la validez del modelo de regresioti podria ponerse en duda seriamente.
TABLA 12.4
FIGURA 12.17
Salida de Excel para los
datos de Ia tienda de
envfos de paqueterfa
de Ia tabla 12.4.
Semana
Clientes
Ventas
(en miles de d6lares)
Clientes
9
10
11
12
13
14
15
880
905
886
843
904
950
841
9.33
8.26
7.48
9.08
9.83
10.09
11.01
11.49
794
799
837
855
845
844
863
875
2
3
4
5
6
7
8
Semana
DjE
Ventas
(en miles de d6lares)
12.07
12.55
11.92
10.27
11.80
12.15
9.64
P_!~~_!)~.!.!l.~~~~-T-~---t---+----+---+----t
--+
ReQression Statistic.
4 Mui!!Pie R
-b.
:
Observations
W ANOVA
11
12 Regression
~ B-esldll.!!___
14 Total
15
16
17 Intercept
18 Customers
==r_--~-----l
0.81083
5 R Sguare
.
0.65745
6 AdJu~ed..R sq~ar!t-_ o.63109 r-
~~!l_!l_ard E"or .1~ 0.93604-l-
--t---+--~-----L----___J
~
___J~-:---T
-~
I ----r
151-------- -----------[-------+-----+-----J
r
I
~------~--~
I
I
df
I
SS
I MS I F I S!!l__niflcance F ! ------~
i
1!--_ 21.86043 121.860.(3,24.950141
0.00025 1
f
_T! .... _. ~--H.3~1IT!~76~~ -------!
l
14 i
33.25057333 1
I
l
I
i
I
i
I
l
I
i
I
--1----- ____
I Coeff"u:ienrs I Standard Error I t Srat I P.value l Lower 95% : Upper 95% '
1
-16.03219 !
5.3101~.01915 1 0.00987i
-27.50411 1 .4.56~
I
0.030761
- O.oo6i61 4:99501]o:iiiio2sl _____ o.o1746.i ---if.il4406<
434
FIGURA 12.18
Salida de Minitab para
los datos de Ia tabla
12.4 de Ia tienda de
envies de paqueteria.
= 0.936037
R-Sq
SE Coef
5.310
0.006158
= 65.7%
T
-3.02
5.00
p
0.010
0.000
R-Sq(adj)
63.1%
Analysis of Variance
DF
Source
Regression
Residual Error
Total
SS
1 21.860
13 11.390
14 33.251
HS
21.860
0.876
24.95
0.000
En las figuras 12.17 o 12.18, observe que el ,2 es 0.657, lo que indica que el65.7% de la variacion en las ventas se explica por la variaci6n en el nfunero de clientes. Ademas, la intersecci6n en Y,
b0 , es -16.032, y la pendiente b 1 es 0.03076. Sin embargo, antes de usar este modelo para predecir,
se debe realizar un analisis apropiado de los residuos. Como los datos se han recabado a lo largo de
un periodo de 15 semanas consecutivas, ademas de revisar las suposiciones de linealidad, normalidad e igual varianza, habra que investigar Ia suposicion de independencia de errores. La figura 12.19
grafica los residuos contra el tiempo para ver si existe un patron. En la figura 12.19, los residuos
tienden a fluctuar hacia arriba y hacia abajo en un patron ciclico. Este patron ciclico representa una
fuerte causa de preocupacion sobre la autocorrelacion de los residuos y, por tanto, sobre la violaci6n
de Ia suposicion de Ia independencia de errores.
FIGURA 12.19
Grafica residual de
Excel para los datos
de Ia tabla 12.4 de Ia
tienda de envies de
paqueteria.
0.5
] .0.5
.1
-1.5
,->
-2
:~
-2.5
0
Clientes
10
12
14
16
El estadistico de Durbin-Watson
Se usa el estadfstico de Durbin-Watson para detectar Ia autocorrelaci6n. Este estadistico mide Ia
correlaci6n entre cada residuo y el residuo para el periodo de tiempo inmediatamente anterior al periodo de interes. La ecuaci6n (12.5) define el estadistico de Durbin-Watson.
ESTAD[STICO DE DURBIN-WATSON
n
L (e; - e;-1)2
D = .:.;;i=::.o2.___ __
(12.15)
donde
i=2
ferenda entre dos residuos sucesivos, sumados del segundo valor al n-esimo valor. El denominador
i:, el representa la suma del cuadrado de los residuos. Cuando los residuos sucesivos estan autoco-
i=I
FIGURA 12.20
A
1 Durbin-Watson Calculations
2
Salida de Excel de Ia
distribuci6n DurbinWatson para los datos
de ventas.
+4
10.05f:~
11 .3901
5
6 Durbln-Wa1son Statistic
0.8830
TABLA 12.5
Encontrar los valores
crfticos para el
estadfstico de DurbinWatson .
a=.OS
k=3
k=2
16
17
18
1.10
1.13
1.16
1.37
1.38
1.39
k=S
k=4
dL
du
dL
du
dL
du
dL
du
.95
.98
1.02
1.05
1.54
1.54
1.54
1.53
.82
.86
.90
.93
1.75
1.73
1.71
1.69
.69
.74
.78
.82
1.97
1.93
1.90
1.87
.56
.62
.67
.71
2.21
2.15
2.10
2.06
436
a (nivel de significancia),
-------- ------
Aprendizaje basico
L . . __
___J
Residuos
2
3
4
5
-5
-4
-3
-2
-1
6
7
8
9
10
+1
+2
+3
+4
+5
Periodo
Residuos
Periodo
Residuos
I
2
3
4
5
6
7
8
+4
-6
-I
+6
-3
+I
+3
0
-4
-7
+2
+5
-2
+7
' .
'
Residuos
-5
---
Aplicacion de conceptos
Periodo
L __ __J
10
11
12
13
14
15
SPSS
para
419, el gerente de marketing utilizo el espacio en los estantes para la comida de mascotas para predecir las ventas semanales.
a. ,Sera necesario calcular el estadistico de Durbin-Watson?
Explique.
de PH Grade para mascotas) de la pagina
a. Suponiendo una relacion lineal, utilice el metodo de minimos cuadrados para encontrar los coeficientes de regresion
boYbt .
b. Prediga Ia media de consumo de kilowatts cuando el promedio de temperatura atmosferica es de 50 grados Fahrenheit.
c. Grafique los residuos contra el periodo de tiempo.
d. Calcule el estadistico de Durbin-Watson. En un nivel de significancia de 0.05, ,existe evidencia de una autocorrelacion
positiva entre los residuos?
e. Con base en los resultados de los incisos c) y d), l,existe alguna razon para cuestionar Ia validez del modelo?
/AUTO
V Examen nes por correo que vende refacciones para computadora, software y hardware, cuenta con un almacen
centralizado para la distribucion de los productos ordenados.
La gerencia esta revisando el proceso de distribucion del almacen y le interesa estudiar los factores que afectan los costos de
43t
Meses
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
Costos de distribucion
(en miles de dolares)
Numero
de ordenes
52.95
71.66
85.58
63.69
72.81
68.44
52.46
70.77
82.03
74.39
70.84
54.08
62.98
72.30
58.99
79.38
94.44
59.74
90.50
93.24
69.33
53.71
89.18
66.80
4,015
3,806
5,309
4,262
4,296
4,097
3,213
4,809
5,237
4,732
4,413
2,921
3,977
4,428
3,964
4,582
5,582
3,450
5,079
5,735
4,269
3,708
5,387
4,161
a. Suponiendo una relaci6n lineal, utilice el nietodo de minimos cuadrados para encontrar los coeficientes de regresi6n
b0 y b1
b. Prediga los costos de distribuci6n mensuales del almacen
cuando el nfunero de 6rdenes sea de 4,500.
c. Grafique los residuos contra el periodo de tiempo.
d. Calcule el estadistico de Durbin-Watson. En un nivel de significancia de 0.05, (,existe evidencia de una autocorrelaci6n
positiva entre los residuos?
e. Con base en los resultados de los incisos c) y d), (,existe alguna raz6n para cuestionar la validez del modelo?
12.37 Un shot de cafe expres recien preparado tiene tres componentes distintivos: el cafe mismo, el cuerpo y la crema. La
separaci6n de estos tres componentes dura generalmente de 10
a 20 segundos. AI aplicar el shot de expres para preparar un cafe con leche, un capuchino u otras bebidas, el shot debe introducirse durante la separaci6n de cafe, cuerpo y crema. Si el shot
se aplica despues de que ocurra la separaci6n, la bebida se torna excesivamente amarga y agria, arruinando el sabor de la bebida. Por lo tanto, un tiempo de separaci6n mas largo da a quien
prepara la bebida mas tiempo para aplicar el shot y asegurarse
de que la bebida cumpla con las expectativas. Un empleado de
Shot
2
3
4
5
6
7
8
9
10
11
12
Apisonar Tiempo
0.20
0.50
14
14
0.50
0.20
0.20
0.50
0.20
0.35
0.50
0.35
0.50
0.50
18
0.50
0.50
0.35
16
17
18
19
20
0.35
0.20
0.20
0.20
0.20
21
15
11
16
22
0.35
0.35
0.35
0.35
16
16
13
12
15
23
24
18
13
19
19
17
18
15
16
18
16
14
16
a. Determine la linea de predicci6n usando Tiempo como variable dependiente y Apisonar como variable independiente.
b. Prediga la media del tiempo de separaci6n para una distancia de apisonado de 0.50 pulgadas.
c. Grafique los residuos contra el orden de tiempo de experimentaci6n. (,Existe algilll patron visible?
d. Calcule el estadistico de Durbin-Watson. En un nivel de significancia de 0.05, (,existe evidencia de una autocorrelaci6n
positiva entre los residuos?
e. Con base en los resultados de los incisos c) y d), (,existe alguna raz6n para cuestionar la validez del modelo?
438
12.39 Los precios de Ia gasolina en Estados Unidos rompieron el record de alzas en mayo de 2004. Los expertos culparon
a Ia alta demanda de gasolina en todo el mundo, a Ia escasa capacidad de producci6n de las refinerias de los Estados Unidos,
a los disturbios geopoliticos y, lo t:ruis importante, al alto precio
del crudo en el mercado mundial. El archivo de datos OIL-GAS
contiene los precios al menudeo para Ia gasolina regular en EUA
(centavos/ga16n) de 100 semanas que terminan ell7 de mayo
de 2004 ((U.S. Department of Energy, Energy Information Administration, www.eia.doe.gov, 25 de mayo de 2004.)
a. Construya un diagrama de dispersi6n con el precio del crudo
en el eje X y el precio de la gasolina en el eje Y. Explique
cualquier patr6n presente en estos datos.
12.7
'::1-
Si se rechaza la hip6tesis nula, se concluye que existe evidencia de una relaci6n lineal. La ecuaci6n
(12.16) define el estadistico de prueba.
(12.16)
donde
s~
Srx
=--
..Jssx
n
-2
439
Vuelva al escenario "Uso de Ia estadistica" referente a los datos de selecci6n de local. Para probar si existe una relaci6n significativa entre el tarnafio de la tienda y las ventas anuales con un nivel
de significancia de 0.05, remitase ala salida de Excel para la prueba t presentada en Ia figura 12.21
o ala salida de Minitab que presenta la figura 12.22. A partir de la figura 12.21 o 12.22,
q = +1.670
n = 14
sq = 0.157
q- ~I
t=
Sq
= 1.670- 0 = 10.64
0.157
Excel identifica este estadistico t como Est t (vea la figura 12.21) y Minitab lo identifica como T .
(vea la figura 12.22). En un nivel de significancia de 0.05, el valor critico de t conn- 2 = 12 grados
de libertad es 2.1788. Como t = 10.64 > 2.1788, se rechaza H 0 (vea la figura 12.23). Usando el valor-p, se rechaza H0 puesto que el valor-p es aproximadarnente 0. Por tanto, se concluye que no existe una relaci6n lineal significativa entre la media de las ventas anuales y el tarnafio de la tienda.
FIGURA 12.21
Prueba t de Excel para
los datos de selecci6n
de local.
FIGURA 12.22
Prueba t de Minitab
para los datos de
selecci6n de local.
16
t Stat
P-value I Lowet 15% Upper IS%
0.52619 1.83293 O.D9173 1
.8.18200
2.11095
0.15693 10.64112 0.000001
2.01177
1.32795
~7
0.96U7
1.66986
Intercept
18 Square Feet
P~edicto~
Constant
Square Feet
Coef
0.9645
1.6699
SE Coef
0.5262
0.1569
T
1. 83
10.64
o. 092
0.000
~ t statistic for fl
FIGURA 12.23
Prueba de hip6tesis
acerca de Ia pendiente
de poblaci6n con un
nivel de significancia
de 0.05 y 12 grades de
libertad .
t -2.1788
Regi6n de
rechazo
Valor
crftico
'\
\,
0
//
Regi6n de
no rechazo
+2.1788
t,2
Regi6n de
rechazo
Valor
crltico
440
(12.17)
F= MSR
MSE
donde
MSR
= SSR
k
MSE =
SSE
n-k-1
k = nW:nero de variables independientes en el modelo de regresi6n
; El estadistico de prueba F sigue una distribuci6n F con k y n - k -1 grados de libertad.
TABLA 12.6
Tabla ANOVA para
probar Ia significancia
de un coeficiente de
regresi6n.
Fuente
gl
Soma de cuadrados
Regresi6n
SSR
Error
n-k-1
SSE
Total
n-1
SST
Media cuadrada
(varianza)
MSR = SSR
k
MSE=
F= MSR
MSE
SSE
n- k-1
La tabla ANOVA completa tambien forma parte de Ia salida de Excel (vea Ia figura 12.24) y de
Minitab (vea Ia figura 12.25). Las figuras 12.24 y 12.25 indican que el valor calculado del estadistico F es 113.23 y el valor-pes aproximadamente cero (Excel calcula el valor-p como 0.000000182).
FIGURA 12.24
Prueba F de Excel para
los datos de selecci6n
de local.
.
.. -
FIGURA 12.25
Prueba F de Minitab
para los datos de
selecci6n de local.
Analysis of Vadance
Source
441
MSR
DF
KS/ F
SS
Regz:ession
1 105.75 105.75 113.23 0.000
0.93
Residual Ez:z:oz: 12 11.21
13 116.95
Total
\MSE
Con un nivel de significancia de 0.05, de la tabla E.5, el valor critico para la distribuci6n F con 1
y 12 grados de 1ibertad es 4.75 (vea la figura 12.26). Ya que F = 113.23 > 4.75 o porque el valor p =
0.000000182 < 0.05, se rechaza H 0 y se concluye que el tamailo de la tienda se relaciona significativamente con las ventas anuales.
FIGURA 12.26
Regiones de rechazo y
de no rechazo cuando
se realiza Ia prueba
para Ia significancia de
Ia pendiente en un nivel
de significancia de 0.05
con 1 y 12 grades de
libertad.
Regi6n de
no rechazo
critico
Regi6n de
rechazo
De acuerdo con la salida de Excel en la figura 12.21 ode la salida de Minitab en la figura 12.22 en
la pagina 439,
i1 = +1.670
n = 14
sbl
= 0.157
Para construir una estimaci6n del intervalo de confianza del 95%, a/2
t12=2.1788.Asi,
q tn-2SIJ..
(2.1788)(0.157)
+ 1.670 0.342
= +1.670
=
--------
442
Por lo tanto, se estima con un nivel de confiilnza del 95% que la pendiente de poblaci6n se encuentra entre +1.328 y +2.012 (es decir, entre $1,328,000 y $2,012,000). Como estos valores estin por
encima de 0, se concluye que existe una relaci6n lineal significativa entre las ventas anuales y el tamaiio de la tienda. Si el intervalo hubiera incluido 0, usted hubiera concluido que no existe una relaci6n significativa entre las variables. El intervalo de confianza indica que por cada aumento de 1,000
pies cuadrados, se estima que la media de ventas anuales se incremente a por lo menos $1,328,000
pero a no mas de $2,012,000.
r-p
= ~J-r2
(12.19)
n-2
donde
= +..fr2 si q > 0
0
r=
-..fr2 si q < 0
En el problema de selecci6n de local, r 2 = 0.904 y b1 = + 1.670 (vea la figura 12.4o 12.5 en la pagina 414). Puesto que b 1 > 0, el coeficiente de correlaci6n para las ventas anuales y el tamafio de
la tienda es la raiz cuadrada positiva de r 2 = +.J0.904 = +0.951. AI probar la hip6tesis nula
de que no existe correlaci6n entre estas dos variables, da como resultado el siguiente estadistico t
observado:
t=g
r-0
0.951- 0
= --r====
= 10.64
2
1- (0.951)
14-2
Con un nivel de significancia de 0.05, ya que t = 10.64 > 2.1788, se rechaza la hip6tesis nula. Se
concluye que existe evidencia de una asociaci6n entre las ventas anuales y el tamaiio de la tienda.
Este estadistico t es equivalente al estadistico t encontrado cuando se prueba si la pendiente de la poblaci6n f3 1 es igual a cero (las figuras 12.21 y 12.22 en la pagina 439).
443
Aprendizaje biiisico
L...-...--.1
sbi = 1.5.
a. (.CUlil es el valor del estadistico de prueba f?
b. Con un nivel de significancia a= 0.05, (.Cuiles son los valores criticos?
c. Con base en sus respuestas a los incisos a) y b), (.que decision estadistica deberia tomar?
d. Construya una estimacion del intervalo de confianza del
95% para la pendiente de poblacion b 1.
ASISTENCIA
SSE=40.
a. (.Cui! es el valor del estadistico de prueba F?
b. En un nivel de significancia de a = 0.05, (.cual es el valor
critico?
c. Con base en sus respuestas a los incisos a) y b), (.que decision estadistica deberia tomar?
d. Calcule el coeficiente de correlacion calculando primero ,2
y suponiendo que b 1 es negativa.
e. En un nivel de significancia de 0.05, (.existe una correlacion
significativa entre X y Y?
Aplicaci6n de conceptos
Puede resolver los problemas 12.42 a 12.48 y 12.51
a 12.54 manualmente o con Excel, Minitab o SPSS.
/AUTO 12.42 En el problema 12.4 de Ia pagina 419, el geV Exam en rente de marketing utilizo el espacio en los estantes
de comida para mascotas para predecir las ventas semanales. PETFOOD Utilizando los resultados de ese problema,
b1 = o.074 y sb 1 = o.ol59.
a. En un nivel de significancia de 0.05, (.existe evidencia de
una relacion lineal entre el espacio en los estantes y las ventas?
b. Construya una estimacion del intervalo de confianza del
95% para Ia pendiente de poblaci6n Pt.
444
12.48 En el problema 12.10 en Ia pagina 421, se utilizola dureza para predecir Ia fuerza de resistencia del aluminio fundido.
HARDNESS Con los resultados de ese problema,
PI
Los fondos indice de influencia estan diseiiados para magnificar el movimiento de los indices mayores. Un articulo publicado en Mutual Funds (Lynn O'Shaughnessy, "Reach for Higher
Returns", Mutual Funds, julio 1999, 44-49) describio algunos
de los riesgos y recompensas asociados con estos fondos y dio
detalles acerca de algunos de los fondos influyentes mas populares, incluidos los que se presentan en Ia siguiente tabla.
Empresa
Beta
0.603
Disney Company
1.109
{ULPIX), cuya descripcion es 200% de la ejecucion del Indice s&P 500. l,Cual es su modelo de mercado aprox.imado?
1.340
ffiM
1.449
LSI Logic
2.421
12.50 Los fondos indice son fondos de inversion que intentan imitar el movimiento de los indices lideres tales como el
indice 500 de s&P, el indice NASDAQ o el indice Russe112000.
Los val ores beta para estos fondos (como se describieron en el
problema 12.49), tienen un valor aproximado de 1.0. Los modelos de estimacion de mercado para estos fondos son aproximadamente:
(%de cambio semanal en el fondo indice) = 0.0 + 1.0
(% de cambio semanal en el indice)
2.52 Los datos en el archivo SECURITY representan el volu1en de movimientos de los revisores de preabordaje en los ae>puertos entre 1998 y 1999 y de las violaciones de seguridad
etectadas por cada mill6n de pasajeros.
uente: Alan B. Krueger, "A Small Dose of Common Sense Would
'e/p Congress Break the Gridlock Over Airport Security", The New
ork Times, I 3 de noviembre, 2001. C2.
800
1,500
1,300
1,550
900
875
750
1,100
1.50
2.25
2.25
3.25
2.25
2.25
2.50
2.25
450
900
900
900
700
800
800
900
1.75
850
2.00
900
445
12.54 Los datos en el archivo BA'ITERIES2 representln el precio y los amperes de Ia corriente de inicio que las baterias de
autom6viles pueden proporcionar.
Fuente.~
12.8
446
~ t,_zSrx~
(12.20)
~ - t,_zSrx~ S
I
donde
llYjX=XI
~ + t,_zSrx~
1 '(X-Xl
h= -+~,!..-~1
SSX
Y cuando X= X;
,
SSX= L(Xt -X) 2
i=l
La amplitud del intervalo de confianza en 1a ecuaci6n (12.20) depende de varios factores. Para
un nivel dado de confianza, Ia variaci6n incrementada alrededor de Ia linea de predicci6n, medida
por Ia estimaci6n del error estindar, provoca un intervalo mas amplio. Ademlis, Ia amplitud del in~rvalo tambien varia en los diferentes valores de X Cuando predice Y para valores~e X cercanos a
X, el intervalo es mas angosto que para predicciones de valores X mas distantes de X
En el ejemplo de Ia selecci6n de local, suponga que desea una estimaci6n del intervalo de confianza del 95% para Ia media de las ventas anuales para Ia poblaci6n total de tiendas con 4,000 pies
cuadrados (X= 4). Usando Ia ecuaci6n de regresi6n lineal simple:
~ = 0.964
+ l.670X;
= 0.964 + 1.670(4) = 7.644 (millones de d6lares)
X=
SYX
2.9214
= 0.9664
II
ssx = L(X; -
X)
= 37.9236
i=l
donde
1
n
-z
(X -X)
SSX
~=-+~.._'.,...
. ~-
44 7
por lo que
1
(4-2.9214) 2
14 +
37.9236
= 7.644 (2.1788)(0.9664)
= 7.644
0.673
6.971
$;
llJ1X=4
$;
8.317
Por lo tanto, la estimaci6n del intervalo de confianza del 95% para la media de ventas anuales esta
entre 6.971 y 8.317 (millones de d6lares) para la poblaci6n de tiendas con 4,000 pies cuadrados.
El intervalo de prediccion
Ademas de la necesidad de una estimaci6n del intervalo de confianza para el valor de la media, usted a menudo deseara predecir la respuesta para un valor individual. Aunque la forma del intervalo
de predicci6n es semejante ala estimaci6n del intervalo de confianza de la ecuaci6n (12.20), el intervalo de predicci6n esta prediciendo un valor individual, no la estimaci6n de un parametro. La
ecuaci6n (12.21) defme al intervalo de prediccion para una respuesta individual Y, en un valor
especificoX;, denotado por Yx=Xi
f; tn-2Srx~I + h;
f; - tn-2Srx~1+ h;
(12.21)
s; Yx=x, s;
f; + tn-2Srx~1 + h;
donde h;. Y;, Srr. n y X; estan definidas como en la ecuaci6n (12.20) en Ia pagina 446 y Yx=Xi =a
valor futuro de Y cuando X= X;.
Para construir un intervalo de predicci6n del 95% de las ventas anuales para una tienda individual
que contenga 4,000 pies cuadrados (X= 4), primero se calcula f;. Usando la linea de predicci6n:
f;
= 0.964 + 1.670X;
= 0.964 + 1.670( 4)
= 7.644 (millones de d6lares)
X=
2.9214
Srx = 0.9664
X) 2
=37.9236
448
; FIGU
_! + _:...,(X__,_;_-_X--')'---
;
:
'
I,
f; tn-2Sy.x~1 + ~
donde
~ =
-2
Estima
de cor
intervc:
de Mir
proble
de loc;
"
'
-2
..J(X;X)
i=!
por lo que
f; tn-2SYX
1 (X.- X) 2
1 +- + -'--!.-'- - - ' - -
SSX
= 7.644 (2.1788)(0.9664)
= 7.644
+ 14 +
(4-2.9214)
37.9236
2.210
as! que
FIGURA 12.27
Estimaci6n del intervale
de confianza y del
intervale de predicci6n
de Excel para el
problema de selecci6n
de local.
A
1
2
3
4
5
6
7
B
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
a. Com
95%
b. Cons
pues1
Data
X Value
Confidence Level
Intermediate Calculations
Sample Size
Degrees of Freedom
!Value
Sample Mean
Sum of Squared Difference
Standard Error of the Estimate
h Statistic
Predicted Y (YHat)
For Average Y
Interval HalfWidth
Confidence lnteNal Lower Limit
Confidence lnteNal Upper Limit
a. Cons
"
95%
14
12
2.1788
2.9214
37.9236
0.9664
0.1021
7.6439
l b.
= CONTAR (DATACOPYI8:8)
=88-2
=DISTR. T. INV.
=PROMEDIO (DATACOPY!8:8)
=SUMA (DATACOPYID:D)
= SLR!87
= TENDENCIA(DATACOPY!C2:
$C$15, DATACOPY!82:$8$15,
84)
c.
'
I
1
para]
Cons
divid
Com]
blem:
(,POr
IAplica
I
: Puede
1 mente
: 12.57 I
reportad
0.6728
6.9711
8.3167
: CIRCULi
I h; = o.to
; a. Const
para I
venta:
!b. Cons1
tas au
puestc
1
I c. Explic
,
FIGURA 12.28
449
New
Obs
Fit
SE Fit
95% CI
95% PI
7.644
0.309
(6.971, 8.317)
(5.433, 9.854)
Squate
Feet
4.00
_ji
~----------------------------------------------------~--
Aprendizaje basico
ASISTENCIA
de PH Grade
- 2 = 20
Srx = 1.0, X- = 2 y ""'
k)Xi -X)
i=1
Aplicacion de conceptos
Puede resolver los problemas 12.57 a 12.63 manualmente o con Excel, Minitab o SPSS.
12.57 En el problema 12.5 de la pagina 420, utiliz6 las ventas
: reportadas para predecir las ventas auditadas de las revistas.
CIRCULATION Para estos datos Srx = 42.186 y para Xi = 400,
I hi:: 0.108.
a. Construya una estimaci6n del intervalo de confianza del 95%
para Ia media de ventas auditadas para revistas que reportan
ventas en puestos de peri6dicos de 400,000 ejemplares.
b. Construya un intei-valo de predicci6n del 95% para las ventas auditadas para una sola revista que reporte ventas en los
puestos de peri6dicos por 400,000 ejemplares.
c. Explique Ia diferencia en los resultados de los incisos a) y b).
450
12.9
12.63 En el problema 12.10 de Ia pagina 421 , utilizola dureza para medir Ia resistencia a Ia tension del aluminio fundido.
HARDNESS
DIFICULTADES EN LA REGRESI6N
Y CONSIDERACIONES ETICAS
Algunas dificultades implicadas en el uso del analisis de regresion son las siguientes:
La amplia disposicion de hojas de trabajo y software estadistico ha eliminado los obstaculos computacionales que prevenian a muchos usuarios de aplicar el analisis de regresion. Sin embargo, para muchos usuarios, esta creciente habilidad del software no ha venido acompafiada por una comprension de
como utilizar el analisis de regresion de forma apropiada. Un usuario que no esta familiarizado con las
suposiciones de regresion ni con Ia forma de evaluar estas suposiciones, no sabra que alternativas de Ia
regresion de minimos cuadrados existen cuando se ha infringido una suposicion especifica.
Los datos de Ia tabla 12.7 ilustran Ia necesidad de usar graficas de dispersion y anilisis residual
para ir mas alia del transcendental de los nfuneros basicos para calcular Ia interseccion en Y, Ia pendiente y Ia ,2.
TABLA 12.7
Conjuntos de datos A
Conjuntos de datos B
Conjuntos de datos C
Conjuntos de datos D
Cuatro conjuntos de
datos artificiales
xi
yi
Xt
Y;
xi
Y,
x,
Y;
ANSCOM BE.
10
14
5
8
9
12
4
7
11
13
6
8.04
9.96
5.68
6.95
8.81
10.84
4.26
4.82
8.33
7.58
7.24
10
14
5
8
9
12
4
7
9.14
8.10
4.74
8.14
8.77
9.13
3.10
7.26
9.26
8.74
6.13
10
14
5
8
9
12
4
7
7.46
8.84
5.73
6.77
7.11
8.15
5.39
6.42
7.81
12:74
6.08
8
8
8
8
8
8
8
19
8
8
8
6.58
5.76
7.71
8.84
8.47
7.04
5.25
12.50
5.56
7.91
6.89
11
13
6
11
13
6
Fuente: F.J. Anscombe, "Graphs in Statistical Analysis ", American Statistician, vol. 27 (1973), 17-21.
Anscombe (referenda 1) mostro que los cuatro conjuntos de datos dados en Ia tabla 12.7 tienen
los siguientes resultados identicos:
f; = 3.0 + 0.5X;
SYX = 1.237
sh-t = o.1i8
r 2 =0.667
451
L" (Yj - f; )
= 13.76
i=l
"
""
-2 = 41.27
SST= variacion total = '"""'(Y;Y)
i=l
Asi, en relacion con esos estadisticos asociados con una regresion lineal simple, los cuatro conjuntos de datos son identicos. Si se detuviera el analisis en este punto, se perderia informacion valiosa
de los datos. AI examinar Ia figura 12.9, que representa graficas de dispersion para los cuatro conjuntos de datos, y Ia figura 12.30, que representa gnificas residuales para los cuatro conjuntos de datos, se vera claramente que Ia relacion entre X y Yen cada uno de estos cuatro conjuntos de datos es
diferente.
En las graficas de dispersion en la figura 12.29 yen las graficas residuales de Ia figura 12.30, se
observa que tan diferentes son los conjuntos. El Unico conjunto de datos que parece seguir una linea
recta aproximada es el conjunto de datos A. La grafica residual para los datos A no muestra ningful
patron obvio o residuos aislados. Esto de seguro noes cierto en el caso de los conjuntos de datos B,
C yD. La grafica de dispersion para el conjunto de datos B indica que seria mas apropiado realizar
un modelo de regresion cuadratica (vea Ia seccion 13.6). Esta conclusion seve reforzada por la clara forma parabolica de Ia grafica residual para B. El diagrama de dispersion y Ia grafica residual para el
conjunto de datos C muestran claramente una observacion aislada. En este caso, tal vez quiera remover el dato aislado y reestimar el modelo de regresion. AI reestimar el modelo descubrira una relacion muy diferente. De forma similar, el diagrama de dispersi6n para el conjunto de datos D tambien
representa Ia situaci6n en Ia que el modelo es fuertemente dependiente del resultado de una respuesta individual (X8 = 19 y Y8 = 12.50). Debe evaluar cautelosamente cualquier modelo de regresion ya
que sus coeficientes de relacion dependen fuertemente de una sola observacion.
FIGURA 12.29
Graficas de dispersion
para cuatro conjuntos
de datos.
10
10
10
15
20
10
Panel A
15
10
20
Panel B
10
10
PaneiC
I
I
15
20
10
PaneiD
15
20
452
FIGURA 12.30
Graficas residuales para
los cuatro conjuntos de
datos.
Residuo
Residuo
+2
+1
-1
-2
+2
-1
10
15
20x
-2
Panel A
10
20)(
15
Residuo
+4
+3
+3
+2
+2
+1
+1
-1
-2
PanelS
Residuo
+4
+1
0-
10
PaneiC
-1
15
'X
20
-2
10
15
2ox
PaneiD
En resumen, las gnificas de dispersion y las gnificas residuales son de vital importancia para realizar un amilisis de regresion completo. La informacion que aportan es basica para un amilisis creible, por
lo que siempre se deberian incluir estos metodos gnificos como parte de un amilisis de regresi6n. Asi
que una estrategia que le resultani util para evitar las dificultades de la regresi6n es la siguiente.
Inicie con una gnifica de dispersion para observar la relacion posible entre X y Y.
Revise las suposiciones de regresion antes de utilizar los resultados del modelo.
Grafique los residuos contra Ia variable independiente para determinar si el modelo lineal es el
apropiado y revise Ia suposicion de igual varianza.
Utilice un histograma, una grafica de tallo y hojas, una grafica de caja y bigote o una grafica de
probabilidad normal de los residuos para revisar la suposici6n de normalidad.
Si recolecta datos a lo largo del tiempo, grafique los residuos contra el tiempo y utilice la prueba Durbin-Watson para revisar la suposicion de independencia.
Si no se han infringido las suposiciones, entonces lleve a cabo pruebas para la significancia de
los coeficientes de regresion y desarrolle intervalos de confianza y de prediccion.
Evite realizar predicciones y pron6sticos fuera del rango relevante de Ia variable independiente.
Siempre recuerde que las relaciones identificadas en los estudios observacionales pueden o no
deberse a relaciones causa-efecto. Recuerde que mientras que la causalidad implica correlaci6n, Ia correlaci6n no implica causalidad.
Resumen
RESUMEN
relaci6n entre el tamafio de la tienda y sus ventas anuales. Usted
ha usado este anilisis para tomar mejores decisiones a1 elegir nuevos locales para tiendas, asi como para pronosticar ventas para las
tiendas existentes. En el capitulo 13 se extiende el anilisis de regresi6n a situaciones en las que se utiliza mas de una variable independiente para predecir el valor de Ia variable dependiente.
Regresi6n lineal .
simple y correlaCi6ri . . i
r
Regresi6n
Foco
Correlaci6n
~, primario / /
r -
,.
;~~ciente dE!
Anatisis de regr'esi6n
' :correlaci6n r .
'
- ~ _ __
, de mlnlmos cuadradoli
L_ --...
de i-to:
. Prile~
p=O
:.~:-~--.
(~a _
suposiciones)
__ C ...--
'
..
'.
lDatos
recolectados
. . residuos a 'lo ~...!-....-;.. en orden seliu'go del tiempo
'- , cuencial7 ,
ar6ficai'de' - -~ ]
sr
',
....
lEsta
presente
lNo ___
.r'"
"""'-.
.Calcule el
astildlstico'de
; ?urbin-Watson . '
No
.__
Anlllisis residual
, .... ;
SC
lModelo
No
' .,
Ho:
Prueba de
p,.o .
1
No
LModelo
significativo 7
sr
.I
L--- ..
Est! me
p,
453
-- I.
. Estime
1111XXi
Pronostique
Yx.xl
454
FORMULAS IMPORTANTES
Formula para calcular SSE
r;
= ~o + ~~xi + ei
(12.1)
SSE=
L(Yi- Y) 2
(12.12)
i=!
i=!
i=!
~(Y;-
""'
=~SSE
Y - b1X
i=!
Srx
b0 =
(12.3)
ssx
Y;) 2
A
(12.13)
..!.:i-:.!..1_ __
n-2
n-2
(12.4)
El residuo
ei = Y; - Y;
(12.5)
Estadistico de Durbin-Watson
n
L (Y; - f)
L(ei- ei-1)2
(12.6)
D = i=2
:Lef
i=!
""'A
(12.15)
n
i=!
-z
= ~(Y;-Y)
(12.14)
(12.7)
= ~ -~!
i=!
(12.16)
sb1
= ~(Y;- Y;) 2
""'
(12.8)
i=!
Coeficiente de determinacion
,:Z = suma de cuadrados de la regresi6n _ SSR
uma total de cuadrados
(12 .9)
tn_ 2Sbt
SST
I-
(12.18)
SST =
i=!
(fr;]
L (Y; - fi = L
y;2 -
~;_'=1::.........:::_.
i=!
(12.10)
(12.19)
tn_ 2Srx.Jh:
:f; - tn_zSrx.Jh:
""'A
p2
Y;
-z
SSR = ~(Yj- Y)
(12.20)
s;
llYIX=Xi
s;
f; + tn_zSrx.Jh:
(12;11)
(12.21)
s;
Yx=Xi
s;
:f; + tn_zSrx~l + h;
r
I
!
Problemas de repaso
455
CONCEPTOS CLAVE
amilisis de regresion 41 0
amilisis residual 428
autocorrelaci6n 433
coeficiente de correlacion 442
coeficiente de determinacion 424
coeficientes de regresion 413
diagrama de dispersion 41 0
ecuacion de la regresion lineal simple 413
error de la suma de cuadrados (SSE) 421
estimacion del error estandar 426
estadistico de Durbin~Watson 435
estimacion del intervalo de confianza para
la pendiente 441
estimacion del intervalo de confianza para
Ia media de la respuesta 445
homoscedasticidad 428
igual varianza 428
independencia de errores 428
interseccion en Y 411
intervalo de prediccion para una respuesta
individual Y 447
linea de predicci6n 413
linealidad 428
metodo de minimos cuadrados 414
normalidad 428
pendiente 411
prueba F para la pendiente 440
prueba t para el coeficiente de correlacion
442
prueba t para la pendiente 438
PROBLEMAS DE REPASO
Revision de su comprension
12.64 i.,Cual es Ia interpretacion de Ia interseccion en Y y de Ia
pendiente en Ia ecuacion de la regresion lineal simple?
12.65 i.,Cuat es la interpretacion del coeficiente de determinacion?
prediccion de Yx=xi?
Aplicacion de conceptos
Puede resolver los problemas 12.74 a 12.92 manualmente o con Excel, Minitab o SPSS.
12.73 Investigadores de Ia Lubin School of Business en la
Dniversidad Pace de la ciudad de Nueva York, realizaron un estudio acerca de los cursos por Internet. En una parte del estudio,
se recolectaron cuatro variables numericas de 108 estudiantes
en un curso de introducci6n gerencial que se reunia una vez por
Variables
Promedio del curso, GPA acumulativo
Promedio del curso, total de visitas
Promedio del curso, consistencia de visitas
GPA acumulado, total de visitas
GPA acumulado, consistencia de visitas
Total de visitas, consistencia de visitas
Correiacion
0.72*
0.08
0.37*
0.12
0.32*
0.64*
Fuente: Adaptado de Baugher, D., Varanelli, A. y E. Weisbord, "Student Hits in an Internet-Supported Course: How Can Instructors Use
Them and What Do They Mean? " Decision Sciences Journal of Innovative Education, otono de 2003, 1(2): 159-1 79.
456
Cliente
1
2
3
4
5
6
7
8
9
10
Numero Tiempo
de entrega
de
cajas
(minu~os)
52
64
73
85
95
103
116
121
143
157
32.1
34.8
36.2
37.8
37.8
39.7
38.5
41.9
44.2
47.1
Numero Tiempo
de entrega
de
Cliente cajas (minutos)
11
12
13
14
15
16
17
18
19
20
161
184
202
218
243
254
267
275
287
298
43.0
49.4
57.2
56.8
60.6
61.2
58.2
63.1
65.6
67.3
12.75 Una casa de correduria desea predecir el nfunero de negocios realizados por dia utilizando el nlimero de llamadas telefonicas entrantes como una variable predictiva. Los datos fueron recolectados a lo largo de un periodo de 35 dias. TRADES
a. Utilice el metodo de minimos cuadrados para calcular los
coeficientes de regresi6n b0 y b 1
b. Interprete el significado de b0 y b 1 para este problema.
c. Prediga el nlimero de negocios realizados para un dia en el
que el numero de llamadas telefonicas entrantes fue de
2,000.
un
Problemas de repaso
i. Construya una estimaci6n de un intervalo del 95% de confianza para la pendiente de la poblaci6n.
12.77 Usted desea desarrollar un modelo de predicci6n del
valor de avaluo de las casas con base en un area de calefacci6n.
Se selecciona una muestra de 15 casas unifamiliares en una ciudad. El valor de avaluo (en miles de d6lares) y el area de calefaccion de las casas (en miles de pies cuadrados) se registran
con los siguientes resultados: HOUSE2
Casa
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
Valor de
avaluo ($000)
84.4
77.4
75.7
85.9
79.1
70.4
75.8
85.9
78.5
79.2
86.7
79.3
74.5
83.8
76.8
Puntuacion
Observaci6n GMAT GPI
1
2
3
4
5
6
7
8
9
10
688
647
652
608
680
617
557
599
616
594
3.72
3.44
3.21
3.29
3.91
3.28
3.02
3.13
3.45
3.33
457
Puntuaci6n
Observaci6n GMAT GPI
11
12
13
14
15
16
17
18
19
20
567
542
551
573
536
639
619
694
718
759
3.07
2 .86
2.91
2.79
3.00
3.55
3.47
3.60
3.88
3.76
458
h. Con base en los resultados de los incisos e) a g), i_,a que conclusiones se llega respecto a Ia validez de este modelo?
i. Para un nivel de significancia de 0.05, i_,existe evidencia de
una relaci6n lineal entre Ia cantidad de tiempo y el nfunero
de facturas procesadas?
j. Construya una estimaci6n del intervalo de confianza del
95% para Ia media de Ia cantidad de tiempo que tomaria procesar 150 facturas.
k. Construya un intervalo de predicci6n del 95% de Ia cantidad
de tiempo que tomaria procesar 150 facturas en un dia determinado.
12.80 El28 de enero dt:: 1986, el transbordador espacial Challenger estallo y siete astronautas murieron. Antes del lanzamiento, Ia temperatura atrnosferica pronosticada fue de congelamiento para el sitio del lanzamiento. Los ingenieros de
Morton Thiokol (fabricantes del motor del cohete) prepararon
graficas para demostrar que ellanzamiento no deberia llevarse
a cabo a causa del clima frio. Estos argumentos se rechazaron y
el tragico lanzamiento se llev6 a cabo. Con base en Ia investigacion posterior a Ia tragedia, los expertos determinaron que el
desastre ocurrio a causa de que los anillos 0 de goma tenian filtraciones de agua que no sellaron adecuadamente por Ia fria
temperatura. Los datos que indican Ia temperatura atrnosferica
en el momento de los 23 lanzamientos previos y el indice de dafio de los anillos 0 son los siguientes: 0-RING
Numero
de vuelo
Temperatura(F)
indice de daiio
de los anillos 0
I
2
3
5
6
7
8
9
41-B
41-C
41-D
41-G
51-A
51-B
51-C
51-D
51-F
51-G
51-1
51-J
61-A
61-B
66
70
69
68
67
72
73
70
57
63
70
78
67
75
53
67
81
70
67
79
75
76
0
4
0
0
0
0
0
0
4
2
4
0
0
0
11
0
0
0
0
0
4
0
61-C
58
12.81 El conocido analista de beisbol, Crazy Dave, desea estudiar las estadisticas de diferentes equipos de ese deporte de Ia
temporada 2003 para determinar que variables podrian ser utiles a! predecir el nfunero de juegos ganados por los equipos durante Ia temporada. Ha decidido iniciar utilizando el promedio
de carreras ganadas (ERA, por sus siglas en ingles), una rriedicion de Ia ejecucion de lanzamientos, para predecir el nfunero
de juegos ganados. En el archivo BB2003 se encuentran los datos para los 30 mejores equipos de Ia liga.
(Sugerencia: Primero determine Ia variable dependiente y Ia independiente.)
a. Suponiendo una relaci6n lineal, utilice el metodo de minimos
cuadrados para calcular los coeficientes de regresion b0 y b1
b. Interprete el significado de Ia intersecci6n en Y, b0 , y de Ia
pendiente b 1 para este problema.
c. Utilice Ia linea de predicci6n desarrollada en el inciso a) para predecir el numero de juegos ganados por un equipo con
un ERA de 4.50.
d. Calcule el coeficiente de determinacion -,2 e interprete su
significado.
e. Realice un analisis residual de sus resultados y determine si
es adecuado el ajuste de este modelo.
f. Para un nivel de significancia de 0.05, i_,existe evidencia de una
relacion lineal entre el nfunero de juegos ganados y el ERA?
g. Construya una estimacion del intervalo de confianza del
95% para Ia media de nfunero de juegos ganados esperados
para equipos con un ERA de 4.50.
h. Construya un intervalo de prediccion del 95% para el numero de juegos ganados para un equipo individual que tiene un
ERA de 4.50.
i. Construya una estimacion del intervalo de confianza del
95% para Ia pendiente.
j. Los 30 eqJ.ljpos constituyen una poblacion. Para utilizar Ia
estadistica inferencial [como en los incisosf) a i)], se debe
suponer que los datos representan una muestra aleatoria.
i.,De que "poblacion" obtendra conclusiones esta muestra?
k
1
(
t<
z.
fl
e
D
u
tl
---Problemas de repaso
Peso
(gramos)
50
55
54
52
37
52
53
47
51
63
33
43
1,200
2,000
1,500
1,700
500
1,000
1,500
1,400
1,500
2,500
500
1,000
Peso
Circunferencia
(gramos)
(em)
57
66
82
83
70
34
51
50
49
60
59
2,000
2,500
4,600
4,600
3,100
600
1,500
1,500
1,600
2,300
2,100
b.
c.
d.
e.
a. Suponiendo una relacion lineal, utilice el metodo de minimos
cuadrados para calcular los coeficientes de regresion b0 y b 1
f.
e.
f.
g.
h.
i.
j.
rencia de 60 centirnetros.
i.,Cree que es una b~ena idea que el granjero venda sus calabazas con base en su circunferencia y no con base en su peso? Explique por que.
Determine el coeficiente de determinacion ?- e interprete su
significado.
Realice un analisis residual para estos datos y determine si
es adecuado el ajuste del modelo.
Para un nivel de significancia de 0.05, l,existe evidencia de
una relacion lineal entre Ia circunferencia y el peso de la calabaza?
Construya una estimacion del intervalo de confianza del
95% para la pendiente de poblacion ~ 1
Construya una estimacion del intervalo de confianza del
95% para Ia media del peso de Ia poblacion para calabazas
que tengan una circunferencia de 60 centirnetros.
Construya una estimacion del intervalo de confianza del
95% para el peso de una calabaza sola que tenga una circunferencia de 60 centimetros.
459
g.
12.84 Para los datos del problema 12.83, repita los incisos a)
a g) utilizando Ia edad como Ia variable independiente.
12.85 Para los datos del problema 12.83, repita los incisos a)
a g) utilizando la tasa de graduacion de bachillerato como Ia va-
riable independiente.
12.86 Para los datos del problema 12.83, repita los incisos a)
basta g) utilizando Ia tasa de graduacion de universidad como Ia
variable independiente.
12.87 Para los datos del problema 12.83, repita los incisos a)
basta g) utilizando el crecirniento como variable independiente.
12.88 La revista Zagat publica Ia calificacion de restaurantes
para diferentes lugares en Estados Unidos. Los datos en el arcbivo RESTRATE contienen Ia calificacion de Zagat para comida, decoracion, servicio y precio por persona para una muestra
de 50 restaurantes localizados en Ia ciudad de Nueva York y 50
restaurantes localizados en Long Island. Desarrolle un modelo
de regresion para predecir el precio por persona con base en Ia
variable que representa Ia suma de las calificaciones para comida, decoracion y servicio.
Fuente: Zagat Survey 2002 New York City Restaurants y Zagat Survey
2001-2001, Long Island Restaurants.
-+oU
a. Suponiendo una relacion lineal, utilice el metoda de minimas cuadrados para calcular los coeficientes de regresion b0
ybl.
j/
;II
l
12.89 Remitase a Ia discusi6n de los valores beta y los modelos de mercado en el problema 12.49 de Ia pagina 444. Los datos semanales de 2003 para s&p 500 y para tres acciones individuales se encuentran en el archivo de datos SPSOO. Note que el
porcentaje semanal de cambia tanto para s&P 500 como para
las acciones individuales se mide como el porcentaje de cambio
para el valor de cierre de Ia semana anterior a! valor de cierre de
Ia semana actual. Las variables incluidas son:
Semana: semana actual.
SP500: porcentaje semanal de cambio en el lndice s&P 500.
S~ARS: porcentaje de cambia semanal en el precio de las accwnes de Sears, Roebuck y Compaiiia.
TA~GET: porcentaje de cambio semanal en el precio de las
accwnes de Target Corporation.
SA~LEE: porcentaje de cambia semanal en el precio de las
accwnes de Sara Lee Corporation.
Fuente: finance.yahoo.com, 20 de enero, 2004.
a. Estime el modelo de mercado para Sears, Roebuck y Comp~a (Sugerencia: Utilice el porcentaje de cambio en el indice S&P 500 como Ia variable independiente y el porcentaje de cambio en el precio de las acciones de Sears como Ia
variable dependiente.)
. ......
-..
I
'-
!, , '
~-
' .- . f-
. , (
.
'
-,
_...,. ' , __- t_, \,~: .
!ljj..,i_.,,
~--:
\ :. __i
. .-!_~
-,
l=:
Para asegurarse de que el mayor n1lmero posible de suscripciones de prueba se conviertan en suscripciones regulares, el departamento de marketing del Springville Herald trabaja de forma cercana con el departamento de distribuci6n para lograr un
Referencias
Se convoco a un equipo consistente en los gerentes de los
departamentos de marketing y distribucion para desarrollar un
mejor metodo para pronosticar nuevas suscripciones. Despues
de examinar los datos de las nuevas suscripciones de los ultimos tres meses, un grupo de tres gerentes desarrollo un pronostico subjetivo del numero de las nuevas suscripciones. Lauren
Hall, quien recientemente fue contratada por la empresa para
contribuir con sus habilidades especiales en metodos de pronostico, sugirio que el departamento buscara factores que pudieran ayudar a predecir nuevas suscripciones.
Los miembros del equipo encontraron que el pronostico en
el ultimo aiio habia sido especialmente irnpreciso porque en algunos meses se paso mas tiempo en el telemercadeo que en
otros. En especial, en el ultimo mes solo se completaron 1,055
horas ya que quienes hacian llamadas estuvieron ocupados la
primera semana del mes asistiendo a las sesiones de entrenamiento sobre el estilo personal pero formal de saludo y Ia guia
de presentacion estandar (vea "Administracion del Springville
Herald", del capitulo 10). Lauren recolecto datos para el numero de nuevas suscripciones y las horas invertidas en telemercadeo para cada mes en los ultirnos dos aiios. SH12
-----:- ----:--~----~--------.--- -- ---------~\ \,r;~
\_; \_.
461
EJERCICIOS
SH12.1 z.Que crit!ca podria hacer sobre el metodo de pronostico que toma como base para las predicciones a las
suscripciones nuevas de los ultirnos tres meses?
SH12.2 z.Que otros factores, ademas del nllmero de horas invertidas en telemercadeo, podrian ser utiles a! predecir el numero de nuevas suscnpciones? Explique su
respuesta.
SH12.3 a. Analice los datos y desarrolle un modelo estadistico para predecir la media del numero de nuevos
suscriptores en un mes con base en el nllmero de
horas invertidas en telemercadeo para nuevas suscripciones.
b. Si espera invertir 1,200 horas en telemercadeo por
mes, estime la media del nllmero de nuevas suscripciones para el mes. Indique las suposiciones sobre
las que basa esta predicci6n. z.Cree usted que estas
suposiciones sean validas? Explique por que.
c. z.Cual seria el peligro de predecir el numero de
nuevas suscripciones para un mes en el que se invirtieron 2,000 horas en telemercadeo?
.::.-!
'-"2.-
i'
462
Apendice 12
Uso de software
Abra una hoja de trabajo que contenga los datos para el analisis
de regresi6n (como la hoja de datos del archivo SITE.xls).
Seleccione Herramientas _. Analisis de datos.
Seleccione Regresion de la lista de Analisis de Datos y de clic
en OK. En la ventana de dialogo de Regresi6n (vea la figura
Al2.1):
Paso 2:
Paso 3:
i~~
Paso 4:
Entrada
Rango X. de entrada:
P: B.citulos
P: ~ de confianza
~de~da.~
- ~~~~~~~~==~~====~
r Rangode~:
ojJ
r En un Pbro l'lJe\IO
r ~~ ~tandares rc 2f'afico
I. 1~~
deregreskln
residualesa)Jslllda
CUrya de
- ~-. ~ -
-___ . .
j ~i'robabilidadnonnal------ - - - - -- - ---..,..,..
Paso 1:
l_c_Grafico de llfobabidad.~ _
----
Apendice
0
..:J
~ lntlnl!al6n
---
----
463
jo
r . - ta..a5n onolvlib
r_
.. volar B.cuodradoonolvaficD
Edite residuos de rango de ce/da (en la formula de la celda B4) para que sean las celdas de Ia columna C las que
E
Sample Size
Sample Mean
Sum of Squared Difference
Predicted Y (YHal)
F
14
2.92143
37.92357
7.64392
=CONTAR(DATACopy!B:B)
=PROMEDIO(DATACopyiB:B)
=SUMA(DATACopy!D:D)
=TENDENCIA(DATACopy!C2:$C
$15,DATACOPY!B2:$B$15,B4)
-----
- - - - -- ~
464
A12.2 MINITAB
Puede utilizar Minitab para Ia regresi6n lineal simple seleccionando Stat -+ Regression -+ Regression. Para ilustrar el uso
de Minitab en Ia regresi6n lineal simple con el ejemplo de selecci6n de local de este capitulo, abra la hoja de trabajo SITE.MTW y seleccione Stat -+ Regression -+ Regression.
1. En Ia ventana de dialogo de Regression (vea Ia figura
A12.4), ingrese 'Annual Sales' o C3 en el cuadro de edici6n Response y 'Square Feet' o C2 en el cuadro de edici6n
Predictors. De clic en el bot6n Graphs.
Regresson - Re sults
I Ann~a1 ~les'
) f~ ~
-.
r
Response:
'
:.:1
Predictors:
OK
Help
Cancel
Graphs...
f"o;ti;;~:.- 1
Results... - ~
i.- -sior~g~
--- -
S.eiect
IL
Help
.;:._
xJ
OK
..: 1
: "~c;~~~ ~ ~~I
4. De clic en Options. En Ia ventana de dialogo RegressionOptions (vea Ia figura Al2.7), en el cuadro .de edici6n de.
Prediction intervals for new observations, ingrese 4. En el
cuadro de edici6n de Confidence level, ingrese 95. (Si los
datos fueron recolectados a lo largo del tiempo, debera seleccionar el cuadro de exploraci6n del estadistico de Durbin-Watson bajo Display.) De clic en OK para regresar ala
ventana de dialogo de Regression. De clic en OK.
~
.;,~.
Weights:
Display
Variance lnftlllion factors
Durllin-Watson statistic
PRESS and predicted R-tlquare
r
r
r
r
r
-~ ~~
Fit intercept
egr'ess1on- Graphs
::-t :._....~; -
Confidence level:
~ !!!':~
Storage
Standardized
t"Fits
Deleted
Select
Residual Plots
~ Individual plots
P' Histogram of residuals
R'. Normal plot of residuals
rv' Residuals versus fits
P' Residuals versus order
r Four In one
Help
Select
OK
SEa of fits
Prediction limits
OK
Cancel
I'
Help
Cancel
--
I CAPITULO 13
I
Regresi6n mUltiple
USO DE LA ESTADfSTICA: Pron6stico de ventas de OmniPower .
OBJETIVOS DE APRENDIZAJE
En este capitulo, aprendera:
C6mo desarrollar un modelo de regresi6n multiple
Como interpretar los coeficientes de regresi6n
C6mo definir que varia~les independientes se incluyen en el modelo
de regresi6n
C6mo utilizar las variables independientes categ6ricas en un modelo de
regresi6n
C6mo utilizar terminos cuadniticos en un modelo de regresi6n
466
uso
DE LA ESTADfSTICA
Pron6stico de ventas de OmniPower
Usted es el gerente de marketing de Omni Foods, una gran empresa de productos alimenticios. Omni Foods prepara la introducci6n en todo el pais de
un nuevo producto, una barra energetica llamada OmniPower. Aunque originalmente comercializadas entre corredores, alpinistas y otros atletas, ahora
las barras energeticas son de gran aceptaci6n entre estudiantes universitarios,
j6venes profesionistas y otras personas que nunca tienen tiempo suficiente
para un desayuno o un almuerzo tradicionales.
Las ventas de barras energeticas de los competidores se han disparado.
Antes de poner a la venta la barra en todo el pais, usted debe deterrninar el
efecto que tendnm el precio y las promociones sobre las ventas de OmniPower. Para ello, planea utilizar una muestra constituida por 34 tiendas de una
cadena de supermercados, con la fmalidad de realizar un estudio de las ven'-----' tas de OmniPower en una prueba de mercado. t.C6mo puede ampliar los metodos de regresi6n lineal analizados en el capitulo 12 para incorporar los
efectos del precio y la5 promociones dentro del mismo modelo? t.C6mo utilizaria este modelo para
'
mejorar el impacto de la introducci6n de OmniPower en todo el pais?
l capitulo 12 se concentra en modelos de regresi6n lineal simple que utilizan solo una variable
numerica independiente X para pronosticar el valor de una variable numerica dependiente Y.
Con frecuencia es posible hacer mejores pron6sticos mediante el uso de mas de una variable
independiente. En este capitulo presentamos los modelos de regresi6n mUltiple, que utilizan dos o
mas variables independientes para pronosticar el valor de una variable dependiente.
13.1
TABLA 13.1
Ventas, precios y
gastos promocionales
mensuales de
OmniPower.
Tienda
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
Ventas
Precio
Promoci6n
Tienda
Ventas
Precio
Promoci6n
4,141
3,842
3,056
3,519
4,226
4,630
3,507
3,754
5,000
5,120
4,011
5,015
1,916
675
3,636
3,224
2,295
59
59
59
59
59
59
59
59
59
59
59
59
79
79
79
79
79
200
200
200
200
400
400
400
400
600
600
600
600
200
200
200
200
400
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
2,730
2,618
4,421
4,113
3,746
3,532
3,825
1,096
761
2,088
820
2,114
1,882
2,159
1,602
3,354
2,927
79
79
79
79
79
79
79
99
99
99
99
99
99
99
99
99
99
400
400
400
600
600
600
600
200
200
200
200
400
400
400
400
600
600
467
Con dos variables independientes y una dependiente, los datos se encuentran en tres dimensiones. En Ia figura 13.1 se ilustra una grafica tridimensional construida por Minitab.
FIGURA 13.1
Grafica tridimensional de dispersion de ventas versus
Grafica tridimensional
de Minitab para ventas,
precios y gastos
promocionales
mensuales de
Omnipower.
5500
4000
Ventas
2500
i
105
1000
90
75
200
400
Promoci6n
Precio
.00
~0 =
~1
intersecci6n en Y
~k =
x2,x3, ...,xk-1
E;
468
I
I
donde
~1
= intersecci6n en Y
= pendiente de Y con la variable X 1 manteniendo constante la variable X2
~ 2 = pendiente de
E;
Compare el modelo de regresi6n multiple con el de regresi6n lineal simple [ecuaci6n (12.1) de la
pagina 411],
Y; =
!3o + !31Xf + E;
FIGURA 13.2
Resultado parcial de
Excel para los datos
de ventas de
OmniPower.
"-;-'
b2 = 3.6131
bl =-53 .2173
~-~~.!!.~~-1.!!~1!._--+------~ -------1-------i----
15-
-+--- --f
j
JfS- ~iue
~~usted
~qll_l!!:.l!.
7 Standard Error
8 Observations
~-
_,_ 6,38.065291
I
34 :
---+--- '
1
_______
_ _
_
1
_ _L ___ -
I== __ J__________ .i
I \ SS
1
MS
F
~ignificance F........
'
~- '!!.9!!~!~--L2~ 39472730.7Jj .J!!.3!~l).3B7_;_ 48.47713433~.B6258E-10 L--- _. __ ,
)]_ .~!!i,dual_____
14 Total
15
----4-!
df
31 L 12620946.671 .. _4~I!27~12~-----t------1-------- f
331 52093677.44-i..
I
I
I
i
i ' SST
I
! ......... - I
I Coefficients \Standard Error /
t Stat
P.value i Lower 95".4. jUpper 95"/o .
g~ lnt~cel!!_ ____bo t:=283l~20~L -" ..m_.15.1!..~-- _ 9~!31~ ,_...P9101E-!!1i,..~~!:J9~2JJ 71~.64~~ ~
16
~ ~r~~---j:l~~~.217~l-----c 6.85222 1
19 Promotion
b, L - 3.61306 ,
0.68522i
-7.76644 9.2001~E.09 !
.S7.19254 i .39.2421~
5.27283 9.82196E-:o6f" 2.215541 5.01058 1
FIGURA 13.3
Resultado parcial de
Minitab para los datos
de ventas de
OmniPower.
469
9.29
-7.77
5.27
S 638.065
R-Sq(adj) 74.2%
R-Sq 75.8%
p
0.000
0.000
0.000
Analysis or Vatiance
SSR
Soutce
DF
\
SS
MS
Regtession
2 39472731 19736365
Residual EtJ:Ot 31 12620947\ 407127
Total
33~52093677 SSE
48.48
0.000
SST
New Y;
Obs \Fit SE Fit
l
3079
110
95% CI
(2854, 3303)
95% PI
(1758, 4399)
f;
don de
= 5,837.52 -53.2173Xu
+ 3.6131X2;
470
= 79 y X2; = 400
f;
Asi, su pron6stico de ventas para tiendas que cobran 79 centavos y que gastan $400 en promoci6n es
de 3,078.57 barras de OmniPower al mes.
Despues de pronosticar Y y de hacer un analisis residual (vea la secci6n 13.3), el siguiente paso
suele incluir una estimaci6n del intervalo de confianza de respuesta media y un intervalo de
pron6stico para una respuesta individual. El calculo manual de estos intervalos es muy complejo,
por lo que habra que utilizar Minitab o Excel para realizar los calculos. La figura 13.3 de Ia pagina
469 muestra los intervalos de confianza y de pron6stico calculados utilizando Minitab para
pronosticar las ventas de barras de OmniPower. La figura 13 .4 presenta el resultado de Excel.
FIGURA 13.4
Estimaci6n del intervale
de cenfianza y del
intervale de pren6stice
para el ejemple
OmniPewer, utilizande
Excel.
A
B
1 Confidence Interval Es11mete and Prediction
2
3
Data
95%
4 Confidence level
1
5
I
79
6 Price given velue
400
7 Promotion given velue
B
34
9 X'X
10
2646
13200
11
12
0.969163
13 Inverse ofX'X
.0.009408
14
.Q.!Dl535
15
16
0.012054
17 X'G times Inverse of X'X
18
0.029762
19 IX'G times ln1111rse of X'Xl times XG
2.0395
20 t Statistic
301851
21 Predided Y ('I'Hal)
22
For Averaae Predided Y N atl
23
224.50
24 Interval Half Width
2854.117
25 Confidence Interval lower limit
3303Jill
26 Confidence lntarval Upper limit
27
For Individual RBSDonse Y
2B
29 Interval HalfWidth
1 132051
3l Prediction lntarvallower limit I 1758.01
4399.14
31 Prediction Interval Upper limit
Interval
2646
13200
2U674 101BBOO
101BBOO 60000XJ
.0.00941 .0.00053
O.!Dl115 1.12E.Q6
1.12E.Q6 1.15E.Q6
O.!Dll-49 1.49E.Q5
--
La estimaci6n del intervalo de confianza del 95% para Ia media de las ventas de OmniPower en
todas las tiendas que cobran 79 centavos y gastan $400 en promociones es de 2,854.07 a 3,303.08
barras. El intervalo de pron6stico para una sola tienda es de 1,758.01 a 4,399.14 barras.
Aprendizaje basico
13.1 Para este problema, utilice Ia siguiente ecuaci6n de regresi6n multiple:
f;
= 10
+ 5Xli + 3X 2i
f;
= 50 + 2Xli + 7 X 2;
Aplicaci6n de conceptos
Puede resolver los problemas 13.4 a 13.8 con Excel,
Minitab o SPSS.
13.3 Un amilisis de mercado para fabricantes de zaesta considerando el desarrollo de una nueva
patos
'--------'
marca de zapatos deportivos. El analisis pretende
determinar que variables usara para pronosticar la duraci6n (es
decir, el efecto del impacto a largo plazo). Las dos variables independientes que se consideran son X 1 (FOREIMP), que es la
medici6n de la capacidad de amortiguamiento, y X2 (MIDSOLE),
Ia medici6n de cambio en las propiedades frente al impacto con
el tiempo. La variable dependiente Yes LTIMP, que es Ia medici6n
de la duraci6n del calzado despues de una prueba de impacto
repetido. Para la prueba se seleccion6 una muestra aleatoria de
15 tipos de zapatos deportivos de los que actualmente fabrica la
empresa, con los siguientes resultados.
-------;
-- - - - - - - - - - - - - ANOVA
F Significancia F
gl
sc
MC
Regresi6n
2
Error
12
Total
14
---
12.61020
0.77453
13.38473
6.30510
0.06454
97.69
Variable
Coeflcientes
Intercept
Foreimp
Midsole
-0.02686
0.79116
0.60484
- - -- - -
0.0001
~-
0.06905
-0.39
12.57
0.06295
0.07174
8.43
------ -
0.7034
0.0000
0.0000
4 71
compra. Los datos recopilados durante los Ultimos 24 meses indican los costas de distribuci6n del almacen (en miles de d6lares), las ventas (en miles de d6lares), y el nllmero de pedidos
recibidos. WARECOST
a. Establezca la ecuaci6n de regresi6n multiple.
b. Interprete el significado de las pendientes b 1 y b2 en este
problema.
c. Explique por que el coeficiente de regresi6n b0 no tiene
significado pnictico en el contexto de este problema.
d. Elabore el pron6stico del costo medio mensual de distribuci6n del almacen, cuando las ventas suman $400,000 y los
pedidos son 4,500.
e. Elabore una estimaci6n del intervalo de confianza del 95%
para el costo medio mensual de distribuci6n del almacen
cuando las ventas suman $400,000 y los pedidos son 4,500.
f. Elabore una estimaci6n del intervalo de confianza del 95%
para el costo de distribuci6n mensual del almacen para un
mes en particular en el que las ventas suman $400,000 y los
pedidos son 4,500.
ASISTENCIA
472
Ciudad
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
Ventas
($000)
Anuncios
en radio
($000)
Anuncios
en periodicos
($000)
973
1,119
875
625
910
971
931
1,177
882
982
1,628
1,577
1,044
914
1,329
1,330
1,405
1,436
1,521
1,741
1,866
1,717
0
0
25
25
30
30
35
35
40
40
45
45
50
50
55
55
60
60
65
65
70
70
40
40
25
25
30
30
35
35
25
25
45
45
0
0
25
25
30
30
35
35
40
40
13.2
473
coeficiente de determinaci6n multiple para un modelo de regresi6n con dos o mas variables independientes.
donde
(13.4)
Respecto al ejemplo de OmniPower, a partir de las figuras 13.2 o 13.3 de las paginas 468 y 469,
SSR = 39,472,730.77, y SST= 52,093,677.44. Asi,
r2
El coeficiente de determinaci6n mUltiple (r2 = 0.7577) indica que el 75.77% de Ia variaci6n en las
ventas se explica por Ia variaci6n del precio y de los gastos de promoci6n.
Sin embargo, algunos especialistas proponen que al tratar con modelos de regresi6n multiple,
se debe utiliZar la r'l ajustada, para reflejar el numero de variables independientes en el modelo y el
tamail.o de la muestra. Es muy importante reportar la r 2 ajustada al comparar dos o mas modelos de
regresi6n que pronostican Ia rnisma variable dependiente pero cuentan con distinto nUmero de variables independientes. La ecuaci6n (13.5) defme la r2 ajustada.
r2 AJUSTADA
(13.5)
donde k es el nUmero de variables independientes en la ecuaci6n de regresi6n.
r2
aJ
r2
= 0.7577, n = 34 y k = 2,
= 1-
[o-
r2)
= 1-
[(1-
0.7577)
(34 -1) ]
(34- 2 -1)
~n
= 1-0.2579
= 0.7421
De ahi que el 74.21% de la variaci6n de las ventas se explica mediante el modelo de regresi6n,
ajustado para el nUmero de variables independientes y el tamail.o de la muestra.
I
I
I
I
La prueba F global se utiliza para probar Ia significancia del modelo de regresi6n multiple global.
Esta prueba determina si existe una relaci6n significativa entre Ia variable dependiente y todo el
conjunto de variables independientes. Como existe mas de una variable independiente, se usan las
siguientes hip6tesis nula y altemativa:
474
H 0 : ~ 1 = 0o0 = ~k = 0 (No existe relaci6n lineal entre Ia variable dependiente y las variables
independienteso)
H 1: Por lo menos una ~J "# 0 (Relaci6n lineal entre la variable dependiente y al menos una de
las variables independienteso)
La ecuaci6n (1306) defme el estadistico para Ia prueba F global. La tabla 1302 presenta Ia tabla
resumida del analisis de varianza (ANOVA) correspondienteo
F= MSR
MSE
donde
TABLA 13.2
Tabla resum ida del
analisis de varianza
(ANOVA) para Ia prueba
F global.
(13.6)
k - 1 grados de
libertad
k = nUm.ero de variables independientes en el modelo de regresi6n
Fuente
Grados de
libertad
Soma de
cuadrados
Media cuadratica
(varianza)
Regresi6n
SSR
MSR
Error
n - k-1
SSE
MSE
Total
n-1
SST
= SSR
k
F= MSR
MSE
SSE
= n -k-1
Utilizando un nivel de significancia de 0005, a partir de Ia tabla Eo5 el valor critico de la distribuci6n F con 2 y 31 grados de libertad es aproximadamente 3.32 (vea la figura 13o5)0De las figuras 1302
o 13o3 de las paginas 468-469, el estadistico F dado en Ia tabla resumida del analisis de varianza es
48.480Puesto que 48.48 > 3032, o porque el valor p = 00000 < Oo05, se rechaza H 0 y se concluye que
al menos una de las variables independientes (precio y/o gastos promocionales) se relaciona con las
ventaso
FIGURA 13.5
Prueba de Ia
s ign ificancia de un
conjunto de coeficientes
de regresi6n en un
n ivel de significancia
de 0 005 con 2 y 31
grades de libertad o
3o32
Region de
no rechazo
Fu(2,31l
tRegion de
Irechazo
Valor
critico
Aprendizaje basico
13.9 La siguiente tabla resume el analisis de varianza (ANOVA) de un modelo de regresion mUltiple
..___~ con dos variables independientes.
Fuente
.G rados de
libertad
Suma de
cuadrados
2
18
20
60
120
180
Medias
cuadraticas
F'
I
I
Regresion
Error
Total
4, 5I-79). Estos investigadores estudiaron 34 variables independientes, tales como habilidades de equipo, diversidad, frecuencia de las reuniones y claridad de las expectativas. En cada
uno de los equipos estudiados se dio a cada variable un valor de
1 a I 00, de acuerdo con, los resultados de las entrevistas y con
los datos de las encuestas, donde 100 representaba la mayor calificacion. La variable dependiente desempefio del equipo tambien recibio un valor del 1 al I 00, siendo esta la calificacion
mas alta. Se exploraron muchos modelos de regresion distintos,
incluyendo los siguientes:
Modelo 1
b. Calcule el estadistico F .
c. Determine si existe una relacion significativa entre Y y las
dos variables independientes, en un nivel de significancia de
0.05.
+ e,
Fuente
Regresion
Error
Total
Sumade
cuadrados
2
10
12
30
120
150
Medias
cuadraticas
= 0.78
= ~0 +
Modelo 3
~1
~j
~ 1 (habilidades de equipo) +
(claridad de las expectativas)+ E,
= 0.97
b. Calcule el estadistico F.
c. Determine si existe una relacion significativa entre Y y las
dos variables independientes, en un nivel de significancia de
0.05.
~j
= 0.68
Modelo 2
475
r2 e
Aplicaci6n de conceptos
ANOVA
Regresion
Error
Total
Grados de
libertad
sc
MC
Significancia
2
12
14
I2.61020
0.77453
13.38473
6.30510
0.06454
97.69
0.0001
a. Determine si existe una relacion significativa entre la duracion y las dos variables independientes, en un nivel de significancia de 0.05.
b. Interprete el significado del valor-p.
c. Calcule el coeficiente de determinacion mUltiple r2 e interprete su significado.
d. Cal_cule la ,.2 ajustada.
ASISTENCIA
----------476
---~ -----------~~-~----~-
a. Determine si existe una relacion significativa entre rendimiento de gasolina y las dos variables independientes (potencia y peso), en un nivel de significancia de 0.05.
b. Interprete el significado del valor-p.
c. Calcule el coeficiente de determinacion multiple ,.2 e interprete su significado.
d. Calcule Ia ,.2 ajustada.
de PH Grade
13.3
477
Para graficar los residuos, se emplea software estadistico y hojas de trabajo. En la figura 13.6 se
ilustran gnificas residuales de Excel para el ejemplo de ventas de OmniPower. En esa figura hay un
patron muy escaso o nulo para la relaci6n que existe entre los residuos del valor previsto de Y, el
valor de Xj (precio), o el valor de X2 (gastos promocionales). Asi, se concluye que el modelo de
regresi6n multiple es apropiado para pronosticar las ventas.
FIGURA 13.6
Graficas residuales de
Excel para el ejemplo
de OmniPower: panel
A, residues contra
pron6stico de Y; panel
B, residues contra
precio; panel C,
residues contra gastos
de promoci6n .
Residuos contra
1500
P<tm6stlco de Y
1000
500
g
l!
.500
-1000
-1500
-2000
D
1000
2tDD
3000
y pronostlcada
5000
6000
100
120
1000
500
l!
.500
.1000
.1500
40
20
80
60
PrecJo
1000
500
IS
"
l!
.500
-1000
..
-1500
.2000
0
100
200
300
400
Promoci6n
&l)O
700
478
---------------------
Aplicaci6n de conceptos
Puede resolver los problemas 13. 18 a 13.22 con
Excel, Minitab o SPSS.
/AUTO 13.18 En el problema 13.4 de Ia pagina
V Examen 471, usted utiliz6 las ventas y el nfunero
de pedidos para pronosticar los costos de
distribuci6n de un negocio de ventas por catalogo. WARECOST
a. EfectUe un analisis residual de sus resultados y determine Ia
idoneidad del modelo.
b. Grafique los residuos contra los meses. i,Existen evidencias
de algtin patron de los residuos? Explique su respuesta.
c. Determine el estadistico de Durbin-Watson.
d. Con un nivel de significancia de 0.05, i,existe evidencia de
una autocorrelaci6n positiva en los residuos?
ASJSTENCJA
de PH Grade
ASJSTENCJA
13.4
Pruebas de hip6tesis
En un modelo de regresi6n lineal simple, para probar una hip6tesis referente a la pendiente poblacional ~ 1 , se utiliz6la ecuaci6n (12.16) de Ia pagina 438:
t =
q- ~I
sb!
(13.7)
donde
bj
= pendiente de Ia variable j
Sbj
k - 1 grados de libertad
--
r::>-
La salida de Excel y Minitab proporcionan los resultados de Ia prueba t para cada una de las variables independientes incluidas en el modelo de regresi6n (vea las figuras 13.2 o 13.3 de las paginas
468 y 469).
Para determinar si Ia variable X 2 (cantidad de los gastos de promoci6n) tiene un efecto
significative en las ventas, tomando en cuenta el precio de las barras de OmniPower, las hip6tesis
nula y altemativa son:
Ho : ~z = 0
H1 :~ 2
'* 0
Si selecciona un nivel de significancia de 0.05, los valores criticos de t para 31 grados de libertad en
Ia tabla E.3 son -2.0395 y +2.0395 (vea Ia figura 13.7).
FIGURA 13.7
Prueba de Ia
significancia de un
coeficiente de regresi6n
en un nivel de
significancia de 0.05
con 31 grades de
libertad.
Regi6n de
no rechazo
crftico
crftico
De las figuras 13.2 o 13.3, el valor-pes 0.00000982 (o 9.82E-06 en notaci6n cientifica). Como
t = 5.27 > 2.0395 o el valor-p de 0.00000982 < 0.05, se rechaza H 0 y se concluye que existe una
relaci6n significativa entre Ia variable X 2 (gastos de promoci6n) y las ventas, tomando en cuenta el
precio X 1 Este valor-p tan pequefio permite rechazar cabalmente Ia hip6tesis nula de que no existe
reiaci6n lineal entre las ventas y los gastos de promoci6n.
El ejemplo 13.1 presenta Ia prueba de Ia significancia de ~ 1 , Ia pendiente de ventas con precio.
EJEMPLO 13.1
~existe
SOLUCION A partir de las figuras 13.2 o 13.3 de las paginas 468 y 469, t = -7.766 < -2.0395 (el
valor critico para a = 0.05) o el valor-p = 0.0000000092 < 0.05 . Asi, existe una relaci6n
significativa entre el precio X 1 y las ventas, tomando en cuenta los gastos de promoci6n X2
Como se observa en cada una de estas dos variables X, Ia prueba de significancia para un
coeficiente de regresi6n en particular es en realidad una prueba de Ia significancia de afiadir una
variable especifica a un modelo de regresi6n dado en el que ya se encuentra incluida Ia otra variable.
Por lo tanto, Ia prueba t del coeficientes de regresi6n equivale a probar Ia aportaci6n de cada variable
independiente.
480
Por ejemplo, si usted quie;e elaborar una estirnaci6n del intervalo de confianza del 95% para
una pendiente poblacional ~ 1 ( el efecto del precio X 1 sobre las ventas Y, rnanteniendo constante el
efecto de los gastos promocionalesX2), a partir oe la ecuaci6n (13.8) y de Ia figura 13.2 o 13.3 de las
paginas 468 y 469:
Como el valor critico de ten un intervalo de confianza del 95% con 31 grados de libertad es 2.0395
(vea Ia tabla E.3),
-53.2173 (2.0395)(6.8522)
-53.2173 13.9752
-67.1925:::;; 13!:::;; -39.2421
Tornando en cuenta el efecto de los gastos prornocionales, el efecto estimado de un aumento de
I centavo en el precio reduce la media de las ventas de 39.2 a 67.2 barras, aproximadamente. Usted
tiene un 95% de confianza de que este intervalo estima de manera correcta Ia relaci6n entre estas
variables. Desde el punto de vista de Ia prueba de hip6tesis, como este intervalo de confianza no
incluye al 0, se concluye que el coeficiente de regresi6n ~ 1 tiene un efecto significativo.
En el ejemplo 13.2 se construye e interpreta una estimaci6n del intervalo de confianza para la
pendiente de las ventas con gastos prornocionales.
EJEMPLO 13.2
SOLUCI6N El valor critico de t en un intervale de confianza del 95% con 31 grados de libertad es
2.0395 (vea Ia tabla E.3). Utilizando la ecuaci6n (13.8):
3.6131 (2.0395)(0.6852)
3.613 1 1.3975
I
II
.,
13.4: Inferencias respecto a los coeficientes de regresi6n poblacionales
Aprendizaje basico
n = 25,
br
= 5, bz
= 10,
sb, =
2,
sb, =
n = 20,
br = 4,
bz = 3, sbl = 1.2,
sb2 =
0.8
Aplicaci6n de conceptos
Puede resolver los problemas 13.26 a 13.30 con
Excel, Minitab o SPSS.
13.25 En el problema 13.3 de la pagina 471 , usted
pronostic6
Ia duraci6n de un zapato deportivo con
'-------'
base en la capacidad de amortiguamiento (Foreimp)
y los cambios de sus propiedades frente al impacto con el tiempo (Midsole) para una muestra compuesta por 15 pares de zapatos. Utilice los siguientes resultados:
Variable
Coeficientes
Intersecci6n -0.02686
Foreimp
0.79116
Midsole
0.60484
Error
estadistico Estandart Valor-p
0.06905
0.06295
0.07174
-0.39
12.57
8.43
0.7034
0.0000
0.0000
1..-.C'-"-~
i
I
481
482
13.5
xd =
0 si la observacion es de la categoria 1
Xd = 1 si la observacion es de la categoria 2
Para ilustrar la aplicacion de las variables indicadoras en la regresion, considere un modelo para
pronosticar el valor estimado de una muestra compuesta por 15 casas, con base en su tamafio (en
miles de pies cuadrados) y si cuentan con chimenea o no. Para incluir la variable categ6rica relativa
a la presencia de una chimenea, la variable indicadora X2 se define como:
X2 = 0 si la casa no tiene chimenea
X2 = 1 si la casa tiene chimenea
En la ultima columna de la tabla 13.3, se observa como los datos categoricos se convierten en
valores numericos. HOUSE3
Y=
Casa
Valor
estimado
($000)
X1 =Tamaiio
de Ia residencia
(en miles de
pies cuadrados)
Chimenea
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
84.4
77.4
75.7
85.9
79.1
70.4
75.8
85.9
78.5
79.2
86.7
79.3
74.5
83.8
76.8
2.00
1.71
1.45
1.76
1.93
1.20
1.55
1.93
1.59
1.50
1.90
1.39
1.54
1.89
1.59
Si
No
No
Si
No
Si
Si
Si
Si
Si
Si
Si
No
Si
No
TABLA 13.3
Pron6stico del valor
estimado con base en
el tamaiio de una casa
y Ia presencia de
chimenea .
X2 = Chimenea
1
0
0
1
0
1
1
1
1
1
1
1
0
1
0
Suponiendo que la pendiente del valor estimado de acuerdo con el tamafio de la casa es igual
para las casas que tienen chimenea que para las que no la tienen, el mode1o de regresion multiple es:
483
donde
~ 0 = intersecci6n en Y
Xj; = tamaiio de Ia casa en miles de pies cuadrados para Ia casa i
~ 1 = pendiente del valor estimado con respecto al tamaiio de Ia casa, manteniendo
FIGURA 13.8
Velue Anelwll
Slllflstks
MultiDie R
0.901159
! R Squa111
0.811116
6
I R Squa111
0.179Sl
7
Enor
2.26260
15
B
9
10 IANOVA
11
12
13 IRellduel
14 T01111
ss
df
2
12
14
325.136
50JI!I049
16.18583
3.85298
Sndllrd Enot
4.351658
2.574442
1.241223
liAS
131.85196
IF
2;5.7~
I.
5.11934
15
16
17
18 Size
19
FIGURA 13.9
Salida de Minitab para
el modelo de regresi6n
que incluye el
tamafio de Ia casa y Ia
presencia de chimenea.
6.287124
3.104183
:no;
O.G0912
10.57661
1.14859
21.79506
6~
T
p
Coef SE Coef
Predictor
Constant 50.090
4.352 11.51 0.000
Size
16.186
2.5'14 6.29 0.000
Fireplace
3.853
1.241 3.10 0.009
S 2.26260
R-Sq 81.1'
R-Sq(adj) '18.0'
.Analysis of Variance
Source
DF
ss
liS
Reqtession
2 263.?0 131.85
Residual Error 12 61.43
5.12
Total
14 325.14
p
F
25.'16 0.000
f;
f;
= 50.09 + 16.186XIi
+ .3.853X2;
= 50.09 + 16.186XIi + 3.853(0)
= 50.09 + 16.186XIi
"tO"+
L.Al:'U ULV
u KegresiOn mump1e
Para las casas que cuentan con chimenea, se sustituye X 2
= 1 en Ia ecuaci6n de regresi6n:
+ 16.186Xli + 3.853(1)
= 53.943 + 16.186Xli
En este modelo, los coeficientes de regresi6n se interpretan de la siguiente manera:
1. Manteniendo constante el que la casa tenga o no chimenea, para cada incremento de 1.0 miles
de pies cuadrados en el tamaiio de la casa, se estima que el valor media estimado aumenta
16.186 miles de d6lares (o $16,186).
2. Manteniendo constante el tarnaiio de Ia casa, se estima que Ia presencia de chimenea aumenta el
valor media de la casa en 3.853 miles de d6lares (o $3,853).
En las figuras 13.8 o 13.9, el estadistico t para Ia pendiente del tamaiio de la casa cuyo valor se
estim6 es de 6.29 y el valor-p es 0.000, aproximadamente. El estadistico t para la presencia de
chimenea es 3.10 y el valor-pes 0.009. Asi, cada una de las dos variables hace una contribuci6n
significativa al modelo con un nivel de significancia de 0.01. Ademas, el coeficiente de
determinacion multiple seiiala que el 81 .1% de variaci6n en el valor estimado se explica por Ia
variaci6n en el tamaiio de la casa y por el hecho de que tiene chimenea o no.
lnteracciones
En todos los modelos de regresi6n analizados hasta ahara, se supuso que el efecto de una variable independiente sabre Ia variable dependiente es estadisticamente independiente de las demas variables
independientes incluidas en el modelo. Una interacci6n se presenta si el efecto de una variable in.dependiente sabre la variable de respuesta depende del valor de una segunda variable independiente. Por ejemplo, es posible que Ia publicidad tenga un gran efecto sabre las ventas de un producto
cuando el precio es bajo. Sin embargo, si el precio del producto es muy elevado, aumentar la publicidad no cambiara drasticamente las ventas. En este caso, se dice que interactUan precio y publicidad. En otras palabras, no es posible hacer aseveraciones generales sobre el efecto de la publicidad
en las ventas. El efecto de la publicidad sobre las ventas es dependiente del precio. Se utiliza un ter
mino de interacci6n (a veces llamado termino de producto cruzado) para modelar un efecto de
interacci6n en el modelo de regresi6n.
Para ilustrar el concepto de interacci6n y el uso de un termino de interacci6n, regrese al ejem
plo referente a los valores estimados de las casas analizado en las paginas 482 y 483. En el modelo
de regresi6n, usted supuso que el efecto que tiene el tarnaiio de Ia casa en el valor asignado es inde
pendiente de que esta tenga o no chimenea. En otras palabras, supuso que Ia pendiente del valor
estimado de acuerdo con el tarnaiio es igual para las casas que tienen chimenea y para las que no Ia
tienen. Si estas dos pendientes son distintas, entonces existe una interacci6n entre el tarnaiio de Ia ca
sa y Ia existencia de chimenea.
Para evaluar una hip6tesis de pendientes iguales de una variable Y con respecto a X, primero de
fma un termino de interacci6n que consista en el producto de la variable independiente X 1 y Ia varia
ble indicadoraX2. Luego pruebe siesta variable de interacci6n hace una contribuci6n significativa a!
modelo de regresi6n que contiene las demas variables X Si la interacci6n es significativa, no se po
dra utilizar el modelo original para hacer el pron6stico. Para los datos de la tabla 13.3 de la pagina
482, sea
La figura 13.10 ilustra la salida de Excel para este modelo de regresi6n, que incluye el tarnaiio
de una casaX1, Ia presencia de una chimeneaX2, y Ia interacci6n deX1 y X 2 (que se define comoX3).
La figura 13.11 muestra Ia salida de Minitab.
Para probar Ia existencia de una interacci6n, utilice la hip6tesis nula H 0 : ~ 3 = 0 contra la
hip6tesis altemativa H 1: ~ 3 ::1: 0. En Ia figura 13.10 o 13.11, el estadistico t para interacci6n de
tarnaiio y chimenea es 1.48. Como el valor-p = 0.166 > 0.05, nose rechaza Ia hip6tesis nula. Por lo
tanto, Ia interacci6n no hace una contribuci6n significativa al modelo, puesto que ya se encuentran
incluidos tamaiio y presencia de chimenea.
c
c
c
c
485
FIGURA 13.10
Salida de Excel para el
modelo de regresi6n
que incluye tamaf\o
de Ia casa, presencia de
chimenea e interacci6n
de tamaf\o y chimenea .
c
A
8
D I
I
I
1 AMIIsls del valor estlmado
2
i
- - - - --I
Estadfstk:os de regresi6n
~
~
i
3
.
4 R multiple
1 0.91791 _
I
5 R aJadrada
0.84255 1,
I
6 R aJadtada ai~;~!ta=r. 0.79?f
- ---=-;.__:-_ _,
r---=J--+-----c~-
+-
...f_ . ~r e~~E!!:_
B 'Observadones
9
10 AN OVA
i
I
I
__ _____!
~!.?7
15:
'
I
___ L
..
'
'
. I
I
1
I
I
=1
I
--'
I
I
g/
F
Signlflcanc:la F
sc
I MC !
I
~1470
1
_
19.62150
--~~ !- -- -~~~----_j___!L_
.
.?ll.94410
~
~ldug_ ____
11 '
_51.19190 4.65381
~ Total
i .
I
14
325.136
14
i
15
I
I
I
Coefldentes Error estandar I Est. t I
Vator-o
16
9596 Inferior !9SCJ6 su~
9.61218 6.54921 4.13993E-85 .
62.95218
41.79591
114.10845
17 Intersecd6n
8.36242
5.81730 1.43751
0.171141
-4.44137, 21.16621 1
18 lamafto
-11.84036
10.64550 -1.11224
0.28975
35.270971 1159024
19 Chlmenea
.4.60456[ 23.64056
9518001
6.41647 1.483371
0.16605
20 lamafto Ollmenea
11
i--
FIGURA 13.11
Salida de Minitab para
el modelo de regresi6n
que incluye tamaf\o
de Ia casa, presencia de
chimenea e interacci6n
ae tamaf\o y chimenea.
Coef SE Coef
62.952
9.612
5.817
8.362
-11.84
10.65
9.518
6.416
R-Sq 84.3%
6.55 0.000
1.44 0.178
-1.11 0.290
1.48 0.166
R-Sq(adj) 80.0%
.Analysis of Vaz:iance
DF
ss
Souz:ce
3 273.944
Regz:ession
51.192
Residual !z:z:ot 11
14 325. 136
Total
Aprendizaje basico
.___
__, X2 es una variable indicadora, y que la siguiente ecuaci6n de regresi6n para una muestra de n = 20 es:
f; = 6 + 4XIi + 2X2i
a. Interprete el significado de la pendiente para la variable X 1
b. Interprete el significado de la pendiente para la variable x2.
c. Suponga que el estadistico t para probar la contribuci6n de
la variable X 2 es 3.27. Con un nivel de significancia de 0.05 ,
~existen evidencias de que la variable X2 hace una contribuci6n significativa al modelo?
liS
91.315
4.654
19.62
0.000
Aplicaci6n de conceptos
Puede resolver los problemas 13.32 a 13.40 con
Excel, Minitab o SPSS
13.32 La asociaci6n inmobiliaria de una comunidad suburbana quisiera estudiar la relaci6n que existe entre el tamafio de
una casa familiar (medido por el nfunero de habitaciones) y el
precio de venta de la misma (en miles de d6lares). El estudio incluye dos vecindarios, uno dellado este (=0) y otro dellado
oeste (=I). Se seleccion6 una muestra aleatoria de 20 casas,
que arroj6 los resultados incluidos en el archivo. NEIGHBOR
---~ -~~------
486
i. Calcule Ia r 2 ajustada.
13.33 El gerente de marketing de una cadena de supermercados quiere determinar el efecto que tienen sobre Ia venta de comida para mascotas el espacio y el hecho de que el producto se
ubique al frente o al fmal del pasillo. Se selecciona una muestra
compuesta por 12 tiendas del mismo tamafio, que arroj6 los siguientes resultados: PETFOOD
Tienda
2
3
4
5
6
7
8
9
10
11
12
Espacio
en anaquel
(en pies)
5
5
5
10
10
10
15
15
15
20
20
20
Ubicaci6n
Ventas
porsemana
(miles de
d6lares)
Alfmal
AI frente
AI fmal
AI final
AI final
AI frente
AI final
Alfmal
AI frente
AI final
Alfmal
AI frente
1.6
2.2
1.4
1.9
2.4
2.6
2.3
2.7
2.8
2.6
2.9
3.1
13.34 En Ia ingenieria de minas, con frecuencia se hacen perforaciones en Ia roca utilizando brocas. Conforme el orificio es
mas profundo, se afiaden vastagos a Ia broca, con Ia fmalidad
de continuar Ia perforaci on. Se espera que el tiempo de perforaci6n aurnente con la profundidad. Es posible que este aurnento
del tiempo obedezca a varios factores, entre los que se encuentra Ia masa de los vastagos de perforaci6n que se van afiadiendo. Una importante duda plantea si Ia perforaci6n es mas rapida
cuando se utilizan orificios de perforaci6n en seco o con agua.
La perforaci6n en seco implica impulsar aire comprimido por
las brocas para hacer salir los recortes e impulsar la perforadora de percusi6n. La perforaci on con agua implica impulsar agua
en Iugar de aire hacia el orificio. El archivo DRILL contiene las
mediciones del tiempo necesario para perforar otros cinco pies
(en minutos ), Ia profundidad (en pies), e indica si la perforacion
se hizo en seco o con agua, correspondientes a una muestra de
50 orificios. Desarrolle un modelo para pronosticar el tiempo
adicional de perforaci6n con base en Ia profundidad y el tipo de
perforaci6n (en seco o con agua).
Fuente: R. Penner y D. G. Watts, "Mining Information ", The American Statistician, 45, 199 I, 4-9.
j. ,Que suposicion debe hacer acerca de la pendiente del tiempo de perforacion adicional con respecto a la profundidad?
k. Agregue un termino de interaccion al modelo, y determine si
hace una contribucion significativa, con un nivel de significancia de 0.05.
13.35 El archivo COLLEGES2002 contiene datos sobre 80 instituciones de educacion superior. Entre las variables incluidas estan el costo total anual (en miles de dolares), Ia calificacion del
primer cuartil en el examen de actitud escolar (SAT, por sus siglas en ingles), y si Ia escuela es publica o privada (0 = publica; I = privada). Desarrolle un modelo para pronosticar el costo total anual tomando en cuenta Ia calificacion SAT en el primer
cuartil y si Ia escuela es publica o privada.
a. Determine Ia ecuaci6n de regresion multiple.
487
g. Elabore estimaciones del intervalo de confianza del 95% para Ia pendiente poblacional para la relacion que existe entre
el costo total anual y Ia calificacion SAT en el primer cuartil,
y entre el costo total anual y el hecho de que la escuela sea
publica o privada.
h. Interprete el significado del coeficiente de determinacion
multiple.
i. Calcule la ? ajustada.
j . ,Que suposicion debe hacer acerca de la pendiente del costo
total anual con respecto a la calificacion SAT en el primer
cuartil?
k. Agregue un termino de interaccion al modelo, y determine si
hace una contribucion significativa, con un nivel de significancia de 0.05.
I. Con base en los resultados de los incisosf) y k), (.cual es el
modelo mas apropiado? Explique por que.
j AUTO 13.36 En el problema 13.4 de la pagina
V Exam en 4 71, us ted utilizo las ventas y los pedidos
para pronosticar el costo de distnbucion.
Desarrolle un modelo de regresion para pronosticar el costo de
distribucion que tome en cuenta ventas, pedidos y la interaccion entre ambos. WARECOST
a. Con un nivel de significancia de 0.05, ,existe evidencia de
que el termino de interaccion haga una contribucion significativa al modelo?
b. (.Cual modelo de regresion es mas apropiado, el utilizado en
este problema o el utilizado en el problema 13.4? Explique
su respuesta.
ASISTENCIA
de PH Grade
13.37 Zagat publica las calificaciones de restaurantes en varios lugares de Estados Unidos. En el archivo RESTRATE se
encuentra la calificacion dada por Zagat a alimentos, decoracion,
servicio y precio por persona correspondiente a una muestra de
50 restaurantes localizados en la ciudad Nueva York (Xd = 0)
y 50 restaurantes ubicados en Long Island (Xd = I). Desarrolle
un modelo de regresion para practicar el precio por persona,
con base en una variable que represente la suma de las calificaciones otorgadas a alimentos, decoracion y servicio, y una
variable indicadora referente a la ubicacion (Nueva York o
Long Island).
Fuente: Tornado de Zagat Survey 2002 New York City
Restaurants y Zagat Survey 2001-2002 Long Island Restaurants.
488
g. Elabore estimaciones del intervalo de confianza del 95% para la pendiente poblacional para la relaci6n que existe entre
el precio y Ia suma de calificaciones, y entre el precio y Ia
ubicaci6n.
h. Compare Ia pendiente del inciso b) con Ia pendiente del modelo de regresi6n lineal simple del problema 12.88 que se
encuentra en la pagina 459. Explique Ia diferencia en los resultados.
i. Interprete el significado del coeficiente de determinacion
mUltiple.
j. Calcule Ia r 2 ajustada.
k. Compare r 2 con el valor de r 2 calculado en el inciso d) del
problema 12.88d) de la pagina 460.
I. (.Que suposici6n acerca de Ia pendiente del precio debe hacer en este problema con respecto a Ia suma de las calificaciones?
m. Agregue un termino de interacci6n a! modelo, y determine si
hace una contribuci6n significativa, con un nivel de significancia de 0.05.
n. Con base en los resultados de los incisosf) y m), (.CUa! es el
modelo mas apropiado? Explique por que.
1
F
y
n
c
a
13.6
donde
130 = intersecci6n en Y
13 1 = coeficiente del efecto lineal sobre Y
132 = coeficiente del efecto cuadratico sobre Y
E;
489
El modelo de regresion cuadnitica es parecido a! modelo de regresi6n multiple con dos variables
independientes [vea la ecuaci6n (13.2) de Ia pagina 468], varia en que la segunda variable independiente es el cuadrado de la primera variable independiente. Una vez mas, se utilizan los coeficientes
de regresi6n muestrales (b 0 , bi y b2) como estimaciones de los parametros poblacionales (~0 , ~I y
~ 2 ). En laecuaci6n (13.10) se define la ecuaci6n de regresi6n para un modelo cuadratico con una variable independiente (XI) y una variable dependiente (Y).
En la ecuaci6n (13.1 0), el primer coeficiente de regresi6n, b0 , representa la intersecci6n en Y; el segundo coeficiente de regresi6n, bi, representa el efecto lineal, y el tercer coeficiente de regresi6n, b2,
representa el efecto cuadratico.
TABLA 13.4
Porcentaje de ceniza
y resistencia de 18
muestras de concreto
con 28 dfas de
antiguedad.
Porcentaje
de ceniza
0
0
0
20
20
20
30
30
30
40
40
40
50
50
50
60
60
60
Resistencia (psi)
4,779
4,706
4,350
5,189
5,140
4,976
5,110
5,685
5,618
5,995
5,628
5,897
5,746
5,719
5,782
4,895
5,030
4,648
AI seleccionar el modelo apropiado para expresar la relaci6n que existe entre el porcentaje de
ceniza y Ia resistencia, le ayudara trazar un diagrama de dispersion como el de Ia figura 13.12. Aqui
se observa un aumento inicial en Ia resistencia del concreto conforme se eleva el porcentaje de ceniza. La resistencia parece nivelarse y, luego de alcanzar su maximo en alrededor del 40% de ceniza,
desciende. La resistencia para un 50% de ceniza es ligeramente inferior a Ia lograda con un 40%, pero Ia resistencia con un 60% es bastante mas baja que -Ia correspondiente al 50%. Por lo tanto, para
estimar la resistencia con base en el contenido de ceniza, el modelo cuadratico es una opci6n mas
apropiada que el modelo lineal.
490
--
--~----....
FIGURA 13.12
Diagrama de dispersion
para porcentaje de
ceniza (X) y resistencia
()').
5000
1000
10
28
30
50
40
60
70
Ceniza ('Ill)
Puede usar una hoja extendida del programa para efectuar el metodo de minimos cuadrados y
calcular los tres coeficientes de regresi6n muestrales (b 0 , b 1 y b2) en este ejemplo. La figura 13.13
muestra una hoja de trabajo de Excel yen la figura 13.14 aparece el resultado en Minitab. A partir de
la figura 13.13 o 13.14,
b0 = 4,486.361
FIGURA 13.13
Salida de Excel para los
datos de resistencia del
concreto.
ss
MS
b2 = -0.876
E
I
I S/gnffle~~nce F
0.00039
---r
Regression Statist/"
3
0.80527
4 Multiple R
0.&4847
-s . R Square
0.60160
6 Ad usted R Square
312.11291
7 Standard Error
18
8 Observations
9
10 ANOVA
df
11
I
12 Regression
21
15
13 Residual
14 Total
17
15
I
I
2695473.49 1347736.7451
1461217.01 97,1U6ffi1
.(156690.5
I
I
16
17 Intercept
.(486.36111
63.00524
.G.87647
18 FlvAsh%
19 Flv Ash% 2
..
FIGURA 13.14
Salida de Minitab para
los datos de resistencia
del concreto.
b1 = 63.005
174.75315
12.3n55
0.19661
tSillt
I P-value
tent
%flyash
Con~
Fly~~quaz:ed
s 312.113
Analysis ot
R-Sq 64. 8%
4113.883371 4858.838861
36.633771 8937671 1
-1.29554
.G.45740
Flya~~qua~ed
25.67 0.000
5.09 o.ooo
-4.46 0.000
R-Sq(adj) 60.2%
Va~iance
Sou~ce
Req~es~ion
Re~idual Erto~
Total
Coef SE Coef
174.8
4486.4
12.37
63.01
-0.8765
0.1966
SS
2 2695473
15 1461217
17 4156690
DF
I Lowvll5" IUoNrliS% I
25.672561 8.2(736E-141
0.000131
5.092341
.4,4578(1
0.000461
13.83508
MS
F
P
1347737 13.84 0.000
97414
491
}j
Y; =
donde
Xj;
La figura 13.15 presenta la gnifica de esta ecuaci6n de regresi6n cuadratica sabre el diagram a
de dispersi6n, para revelar el ajuste del modelo de regresi6n cuadratica con los datos originates.
FIGURA 13. 15
Diagrama de dispersion
de Excel que expresa
Ia relaci6n cuadratica
que existe entre el
porcentaje de ceniza y
Ia resistencia, para los
datos del concreto.
10
20
30
40
50
60
70
Cenlza (%)
= 20,
Y;
lf~.L.
F= MSR
MSE
A partir de las salidas de Excel o Minitab que aparecen en las figuras 13.13 y 13 .14, respectivamente, de la pagina 490:
F
F
F
c
c
n
e
97,414.47
Si se elige un nivel de significancia de 0.05, de acuerdo con la tabla E.5, el valor critico de la distribuci6n F con 2 y 15 grados de libertad es 3.68 (vea Ia figura 13.16). Como F = 13.84 > 3.68, o como el valor-p = 0.00039 < 0.0~, se rechaza la hip6tesis nula (H0) y se concluye que existe una relaci6n cuadratica significativa entre la resistencia y el porcentaje de ceniza.
si
C
Iii
FIGURA 13.16
Prueba de Ia existencia
de Ia relaci6n global en
un nivel de significancia
de 0.05 con 2 y 15
grades de libertad.
t'
E.
Region de
no rechazo
crftico
Region de
rechazo
Fl
Sa
el
de
ca
y el modelo lineal
yi = 13o + 131Xli + ei
En la secci6n 13.4 se utiliz6 la prueba t para determinar si cada variable, de forma individual,
hace una contribuci6n significativa al modelo de regresi6n. Para probar la significancia de la contribuci6n del efecto cuadratico, se utilizaran las siguientes hip6tesis nula y altemativa:
H 0 : Incluir el efecto cuadratico no mejora de manera significativa el modelo (P2
= 0).
H 1: Incluir el efecto cuadratico mejora de manera significativa el modelo (P2 ;;t; 0).
493
t = b2- ~2
s~
= -0.8765 -
= -4.46
0.1966
Si se elige un nivel de significancia de 0.05, de la tabla E.3 , los valores criticos de la distribuci6n t
con 15 grados de libertad son -2.13 15 y +2.1315 (vea la figura 13.17).
FIGURA 13.17
Prueba de Ia
contribuci6n del efecte
cuadn3tico para un
modele de regresi6n
en un nivel de
significancia de 0.05
con 15 grados de
libertad.
Regi6n de
rechazo
crftico
\\, 0 /,-
+2.1315
Regi6n de
no rechazo
Valor
crftico
~5
Regi6n de
rechazo
Puesto que t = -4.46 < -2.1315, o como el valor-p = 0.00046 < 0.05, se rechaza H 0 y se concluye que el mode1o cuadnitico es significativamente mejor que el modelo lineal para representar Ia
relaci6n que existe entre resistencia y porcentaje de ceniza.
El ejemplo 13.3 provee una explicaci6n adicional de un posible efecto cuadnitico.
EJEMPLO 13.3
FIGURA 13.18
Salida de Excel para
el consume mensual
de combustible para
calefacci6n .
------r-
'--------+---:
-~- ~~h!:~~.R
~::~:~ - l - -- {- - -'r -- -~- . -
- ----1---.
----~- ~~~~~ ~~:~~ 2~:~~~;~b-. -- - :---- --t- --- -! ------ ---~------ - ~
1
-=-~---~ .
8 10bseiVlllions
151
. .. -~ _
j.
~-
__ .
--+ ----
I
df
I
SS
I
MS
F
1Sig_nificanceFI - - -2 228014.62632 : 114007.313_~ 168.47120! 1.65411E~9 1
I
c..;::;-~sidual ____ .)..
8120.60302 1 676.71692_
121
T
-~
141 236135.229331
14 1Total
I
I
J!'--.,._.
I
I
ls i
I
I
'
16 .
Coefficients I Standard Error I
Lowerg5% I Uppergs%
t Stat
' Pvafue
JI-+Jl!!ercep_t ----=t~62.15 !01 /
21.09310 ~
26.65094 . 4.778~8E-12 1
516.19308 i 608.10893
~ JTemp_!~ature__ -~~~~____Q_.~36_2~ J- -16.~6~Q ; ~~I~~~~[ ____~!m!I_.Y0403
19 ,Insulation
-20.01232
.
2.34251 l
-3.54313 1.90731E~6
-25.116201 -14.90844
~--
~igresslon
--
494
-~
FIGURA 13.19
P~edicto~
Coef
562.15
Constant
Temp(F)
-5.4366
Insulation -20.012
S 26.0138
Analysis of
Coef
21.09
0.3362
2.343
T
P
26.65 0.000
-16.17 0.000
-8.54 0.000
SE
R-Sq 96.6%
R-Sq(adj) 96 . 0%
Va~iance
ss
DF
2
12
14
Sou~ce
Regression
Residual Error
Total
228015
8121
236135
MS
114007
677
p
F
168.47 0.000
La gratica residual del aislamiento del desvan (que no se muestra) contiene algunas evidencias del
efecto cuadratico. Asi, el proyectista analiz6 de nuevo los datos, aiiadiendo al modelo de regresi6n
multiple un termino cuadratico para el aislarniento del desvan. Con un nivel de significancia de 0.05,
l,existen evidencias de un efecto cuadnitico significativo para el aislamiento del desvan?
SOLUCION Las figuras 13 .20 y 13.21 utilizan Excel y Minitab para ilustrar los resultados.
FIGURA 13.20
Salida de Excel para el
modelo de regresi6n
multiple con un termino
cuadratico para el
aislamiento del desvan .
1
2
3
A
c
1
E!
Effed fo Insulation Varlable?
MS
0.98616
0.97251
0.96501
2429378
15
ss
df
229643.2 76547.72149
6492.1 590.1877159
236135.2
I
3
11
14
115
Slandard Error
16
I:?A <;AI:A?
17 Intercept
18
.5.36260
.44.58679
1.86670
19
20
'at/sties
4ultlple R
Squan
~iusted R Square
tandard Error
9
10 IAN OVA
11
12
13 'Residual
114 rotal
FIGURA 13.21
t Slat
P.IIBiue
A? A"f<;1<;CI'i?
14.71860664 1.39E.oll
0.31713
-16.90988 3.21E.o!l
-2.98146 0.01249
14.95469
1.66113 0.12_48!1
1.12376
'F
Lowwr95% 1Upper95%
531.18722 717.98562
~.06060
.-4.66461
.77.50185 -11.67172
~.60667
4.34007
S 24.2938
Coef
624.59
-5.3626
-44.59
1.867
R-Sq 97.3%
Coef
42 . 44
0.3171
14.95
1.124
SE
p
T
14.72 0.000
-16.91 0.000
-2.98 0.012
1.66 0.125
R-Sq(adj) 96.5%
Analysis of Variance
Source
Regression
Residual Ex:ror
Total
DF
SS
3 229643
11
6492
14 236135
MS
76548
590
F
P
129.70 0.000
- o- - ~ - --
--- -- - --- -
(~ 3
= 0).
De Ia figura 13.20 o 13 .21 , t = 1.661 < 2.201 y el valor-p = 0.1249 > 0.05. Por lo tanto, nose rechaza Ia hipotesis nula. Se concluye que no hay evidencia suficiente de que el efecto cuadratico del aislamiento del desvan sea diferente de cero. En el interes de mantener el modelo tan simple como sea
posible, se deberia utilizar la ecuacion de regresi6n multiple calculada en las figuras 13.18 y 13.19
de las paginas 493 y 494,
Aprendizaje basico
13.41 La siguiente ecuacion de regresion cuadratica es para
una muestra de.n = 25:
A
Y;
= 5 + 3Xu + 1.5Xu
f. Con un nivel de significancia de 0.05, determine si el modeto cuadratico es mas adecuado que el modelo de regresion
lineal.
g. Interprete el significado del coeficiente de determinacion
multiple.
h. Calcule Ia r 2 ajustada.
Ventas
- - - -Precio
(centavos)
115
126
77
86
95
100
106
99
99
119
119
119
119
119
--
Aplicaci6n de conceptos
Puede resolver los problemas 13.42 a 13.45 con Excel, Minitab o SPSS.
1 AUTO 13.42 Un analista de investigacion que trabaja para
V Exam en una compaii.ia petrolera quiere desarrollar un modelo
para pronosticar el rendimiento de Ia gasolina en los
vehiculos (medido en millas por galon) con base en Ia velocidad
en autopista. Se disefio un experimento en el que se conduce un
automovil de prueba a velocidades que van desde I 0 hasta 75 milhis por hora. Los resultados se encuentran en el archivo SPEED.
Suponga que existe una relacion cuadratica entre velocidad y
millaje.
a. Elabore un diagrama de dispersion para velocidad y millas
por galon.
b. Establezca la ecuacion de regresion cuadratica.
c. Elabore un pronostico de rendimiento (millas por galon)
cuando el automovil se conduce a 55 millas por hora.
d. Efecrue un analisis residual de los resultados y determine Ia
idoneidad del modelo.
e. Con un nivel de significancia de 0.05, l,existe una relacion
cuadratica significativa entre millas por galon y Ia velocidad?
Ventas
142
151
163
168
176
91
100
107
Precio
(centavos)
79
79
79
79
79
99
99
99
496
lndice de
lndice de
aplicaci6n
aplicaci6n
de
de
fertili- RendifertiliRendizante
Parcela
miento Parcela
zante
miento
1
2
3
4
5
6
0
0
20
20
40
40
6
9
19
24
32
38
7
8
9
10
11
12
60
60
80
80
100
100
46
50
48
54
52
58
13.45 La auditora de un gobiemo municipal pretende desarrollar un modelo para pronosticar los impuestos municipales con
base en !a antigiiedad de las casas unifamiliares y selecciona
una muestra aleatoria de 19 casas unifarniliares, cuyos resultados estan en el archivo TAXES.
Suponga que existe una relacion cuadratica. entre Ia antigiiedad
de las casas y los impuestos municipales.
a. Elabore un diagrama de dispersion para Ia antigiiedad y los
impuestos municipales.
b. Determine Ia ecuacion de regresion cuadratica.
c. Elabore un pronostico de los impuestos municipales para
una casa con 20 afios de antigiiedad.
d. EfectUe un ana!isis residual de los resultados y determine Ia
idoneidad del modelo.
e. Con un nivel de significancia de 0.05, {,existe una relacion global significativa entre antigiiedad e impuestos municipales?
f. t,Cual es el valor-pen el inciso e)? Interprete su significado.
g. Con un nivel de significancia de 0.05, determine si el modeto cuadratico es superior al modelo lineal.
h. t,Cual es el valor-pen el inciso g)? Interprete su significado.
i. Interprete el significado del coeficiente de determinacion
mUltiple.
j. Calcule Ia r 2 ajustada.
RESUMEN
En este capitulo usted aprendio como utilizar el analisis de regresion multiple para comprender los efectos del precio y de los
gastos de promocion sobre las ventas de un producto nuevo.
Tambien aprendio a incluir variables categoricas independien-
tes, terminos de interaccion y terminos cuadraticos en los modelos de regresion. En Ia figura 13.22 se presenta un mapa conceptual de este capitulo.
FORMULAS IMPORTANTES
Modelo de regresi6n multiple con k variables independientes
Y; = 13o + 13JX!i + 13:z%2i + !3~3; + + l3~ki + ; (13.1)
Modelo de regresi6n multiple con dos variables
independientes
Y; = 13o + 13JX!i + 13:z%2i + t ; (13.2)
Ecuaci6n de regresi6n multiple con dos variables
independientes
Y; = bo + i1Xu + b2X2; (13.3)
Coeficiente de determinacion multiple
r1 = SSR
(13 .4)
SST
?- ajustada
r~i
1- [c1- r
1J
n-
n-k-1
(13.5)
(13.6)
MSE
Prueba para Ia pendiente en Ia regresion multiple
t =
bj-
~j
(13.7)
sbJ
Estimaci6n del intervalo de confianza para Ia pendiente
bi Jn-k-1Sb
<13 8>
1
Yi
A
Formulas importantes
497
FIGURA 13.22
Mapa conceptual del
camino a seguir en Ia
regresi6n multiple.
Regresi6n
multiple
~---r-- --
Regresi6n
logfstica
(ve_a Ia referencia 2)
No
Ajuste el
odelo seleccionado
-~'- --1-~
Sf
Determine si el
o los terminos de
. interacci6n son
l ---_ signi~cativos
-
-~-_:.;_..;.,
Ana !isis
residual
=-'=--c.=;,- - - - --
No
li Pruebe Ia significancia
11
Ho:
/ . lES
/ significative
No _ _ _ _ _ _~
-el modelo , .,-----....;:.;.;;.
global? ,
,:
Pruebe partes
del modelo
____cr--
use el modelo
para pron6sticos
y estimaciones
Estime
~j
Estime
11
Pronostique
498
CONCEPTOs CLAVE
coeficiente de determinacion
multiple 4 72
coeficiente de regresion neto 468
interaccion 484
484
PROBLEMAS DE REPASO
Revision de su comprensi6n
13.46 (,En que discrepa la interpretacion de los coeficientes
de regresi6n en la regresion multiple y en la simple?
13.47 (,En que discrepa la significancia de todo el modelo de
regresion de la prueba de la contribucion de cada variable independiente en el modelo de regresion mUltiple?
13.48 (,Como se puede evaluar si la pendiente de la variable
dependiente con una variable independiente es igual para cada
nivel de la variable indicadora?
13.49 i,En que circunstancias se incluye una interaccion en el
modelo de regresion?
13.50 Cuando se incluye una variable indicadora en el modelo de regresion, (,que suposicion se debe hacer con respecto a Ia
pendiente entre Ia variable dependiente Y y la variable independiente numerica X?
Aplicaci6n de conceptos
Puede resolver los problemas 13.51 a 13.59 con Excel, Minitab o SPSS.
13.51 El basquetbol profesional se ha convertido en un deporte que realmente genera interes por parte de los aficionados de
todo el mundo. Cada vez mas jugadores de fuera de Estados
Unidos llegan para participar en la National Basketball Association (NBA) . En 2004, nueve de los 29 jugadores seleccionados en la primera ronda de reclutamiento de la NBA procedian
de otros paises. Usted quiere desarrollar un modelo de -regresion para pronosticar el ntimero de victorias logradas por cada
equipo de la NBA, con base en el porcentaje de tiros efectuados
por un equipo y su rival. NBA2004
a. Establezca Ia ecuacion de regresion multiple.
b. lnterprete el significado de las pendientes en esta ecuacion.
c. Elabore un pronostico del ntimero de victorias para un equipo que tiene un porcentaje de tiros realizados del 45% y un
porcentaje de tiros del oponente del44%.
d. Efecrue un analisis residual de sus resultados y determine la
idoneidad del ajuste del modelo.
e. (,Existe una relacion significativa entre el ntimero de victorias y las dos variables independientes (porcentaje de tiros
del equipo y del oponente ), con un nivel de significancia
de 0.05?
f. Determine el valor-pen el inciso e) e interprete su significado.
13.54 Desarrolle un modelo para pronosticar el valor asignado (en miles de dolares) utilizando el tamaiio de las casas (en
miles de pies cuadrados) y su antigiiedad (en aiios), a partir de
Ia siguiente tabla: HOUSE2
Casa
Valor
asignado
($000)
Tamaiio de
Ia residencia
(miles de pies
cuadrados)
Antigiiedad
(en aiios)
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
84.4
77.4
75.7
85.9
79.1
70.4
75.8
85.9
78.5
79.2
86.7
79.3
74.5
83.8
76.8
2.00
1.71
1.45
1.76
1.93
1.20
1:55
1.93
1.59
1.50
1.90
1.39
1.54
1.89
1.59
3.42
11.50
8.33
0.00
7.42
32.00
16.00
2.00
1.75
2.75
0.00
0.00
12.58
2.75
7.17
13.55 El archivo COLLEGES2002 contiene datos de 80 instituciones de educacion superior. Entre las variables incluidas estan el costo iota! anual (en miles de dolares), Ia calificacion del
primer cuartil (Q 1) y del tercer cuartil (Q 3) en el examen de aptitud escolar (SAT, por sus siglas en ingles), y los gastos de alojamiento y alimentacion (en miles de dolares). Desarrolle un
modelo para pronosticar el costo total anual con base en Ia calificacion del primer cuartil en el SAT y los gastos de alojamiento
y alimentacion.
a. Establezca Ia ecuacion de regresion mUltiple.
b. lnterprete el significado de las pendientes en esta ecuacion.
c. Elabore un pronostico del costo total anual para una escuela
que tiene una calificacion SAT de 1, 100 para d primer cuartil
y un gasto de 5,000 dolares en alojarniento y alimentacion.
d. Efecrue un analisis residual de los resultados y determine Ia
idoneidad del modelo.
e. z,Existe una relacion significativa entre e1 costo total anual y
las dos variables independientes (calificacion SAT del primer
cuartil y gastos de alojamiento y alimentacion), con un nivel
de significancia de 0.05?
f. Determine el valor-pen el inciso e) e interprete su significado.
g. lnterprete el significado del coeficiente de determinacion
mUltiple de este problema.
h. Defina Ia ,.2 ajustada.
i. Con un nivel de significancia de 0.05, determine si cada una
de las variables independientes hace una contribucion significativa al modelo de regresion. lndique emil es el modelo de
regresion mas apropiado para este conjunto de datos.
j . Determine el valor-p en el inciso i) e interprete su significado.
.:500
k. Elabore estimaciones del intervalo de confianza del 95% para la pendiente poblacional entre el costo total anual y la calificaci6n SAT del primer cuartil.
l. l,Que otros factores no incluidos en el modelo podrian explicar la fuerte relaci6n positiva entre el costo total y la calificaci6n SAT para el primer cuartil?
13.57 Crazy Dave, reconocido analista de beisbol, quiere determinar cua.les variables son importantes al pronosticar las
victorias de un equipo durante una temporada determinada. Recopilo datos referentes a las victorias, promedio de carreras
recibidas (ERA, por sus siglas en ingles), y carreras anotadas durante la temporada 2003 (guardados en el archivo BB2003). Desarrolle un modelo para pronosticar el n1lmero de victorias con
base en el ERA y las carreras anotadas.
a. Determine la ecuacion de regresion multiple.
b. Interprete el significado de las pendientes en esta ecuacion.
c. Elabore un pron6stico del n1lmero de victorias para un equipo con un ERA de 4.50 y con 750 carreras anotadas.
d. Efecrue un analisis residual de los resultados y determine la
idoneidad del modelo.
e. l,Existe una relacion significativa entre el n1lmero de victorias y las dos variables independientes (ERA y carreras anotadas), en un nivel de significancia de 0.05?
f. Determine el valor-pen el inciso e) e interprete su significado.
g. Interprete el significado del coeficiente de determinacion
multiple de este problema.
h. Defma la r 2 ajustada.
i. Con un nivel de significanchrde 0.05, determine si cada una
de las variables independientes hace una contribucion significativa al modelo de regresion. Indique cual es el modelo de
regresion mas apropiado para este conjunto de datos.
13.59 Usted es un corredor de bienes raices que quiere comparar los valores de las propiedades ubicadas en Glen Cove Y
en Roslyn (que se localizan aproximadamente a 8 mill as de distancia). Para realizar lo anterior, analizara un conjunto de datos
que incluye muestras de Glen Cove y Roslyn. GCROSLYN Cerciorandose de incluir en el modelo una variable indicadora para
Ia ubicacion (Glen Cove o Roslyn), desarrolle un modelo de regresion para pronosticar el valor fijado con base en la superficie
de Ia propiedad, la antigtiedad de Ia construccion y su ubicacion. Asegfuese de determinar si es necesario incluir algunos
terminos de interaccion en el modelo.
Referencias
501
archivo EffectsData.htm que se incluye en Ia carpeta HeraldCase del disco compacto que acompafia a este libro.
Analice estos datos y desarrolle un modelo estadistico para pronosticar el nllmero de nuevas suscripciones en una semana, con
base en el nllmero de horas dedicadas a telemarketing yel tipo
de presentaci6n de ventas. Elabore un reporte que incluya los
descubrimientos detallados referentes al modelo de regresi6n
utilizado.
.-.1
I
I
Aplique sus conocimientos sobre modelos de regresion multiple a este caso Web que amplia el escenario "Uso de Ia estadistica" acerca de OmniPower de este capitulo.
Para garantizar una prueba de mercado exitosa de su barra energetica OmniPower, el departamento de marketing de
OmniFoods decidi6 que In-Store Placements Group (ISPG),
empresa dedicada a Ia consultoria en comercializaci6n, trabaje
junto con la cadena de tiendas en la realizaci6n del estudio de
prueba de mercado. Utilizando la misma muestra compuesta
por 34 tiendas ocupada para el estudio de prueba de mercado,
ISPG asegura que los dos factores, Ia ubicaci6n del anaquel y
Ia presencia de despachadores de cup6n de descuento en la
tienda, aumentan la venta de barras energeticas.
Revise las afirmaciones de ISPG y los datos que las respaldan en el sitio Web internode OmniFoods www.prenhalL
1. Hocking, R. R., "Developments in Linear Regression Methodology: 1959-1982", Technometrics 25 (1983): 219-250.
2. Hosmer, D. W. y S. Lemeshow, Applied Logistic Regression, 2a. ed. (Nueva York: Wiley, 2001).
3. Kutner, M., C. Nachtsheim, J. Neter y W. Li, Applied Linear Statistical Models, 5a. ed. (Nueva York: McGraw-Hill/Irwin, 2005).
502
Apendice 13
Uso de software
y el intervalo de pron6stico
. . . ae~-j*:~~-~:~--~~~~,-~7-7~1 .
; .p.Rangocte~: ....
[_:'_'_~ ::::s:till-'. < ' .
<_
." @.
~~~~meva;
~
~~
.
j 0 fn WI Ibn) .r uevo
... .
~-~
'I
__
L~
~~
f:
' "
O!ifi<o.,-...; .
ro=:de~~ ---
-. --. :-
. - --------------------------- - -- ---
reemplazar de Excel.
_ .. _------ ------=
11 1
__ ____, _____ _ !
rrar.
0 Vea Ia secci6n G.28 (Regresi6n multiple) si desea que PHStat2 genere una hoja de trabajo para usted.
Apendice
Despues de inspeccionar su trabajo, elimine la columna original de la variable categorica. Utilice la nueva columna como
parte del Rango X de entrada (par~ el procedimiento de regresion de amilisis de datos) o del Rango de celda variable X
(para el comando de regresion multiple de PHStat2).
.:
..
1
2
3
.:~
Valor
Tamafio
Chimenea
84.4
2.00
77.4
:
15
16
. : c- .-
1.7I
83 .8
76.8
1.89
1.59
'
Tamafio * Chimenea
=B2 * C2
=B3 * C3
0
:
-''JJZ\ ~"'
. . ;'~ ~~ :f D
.-
I
0
=BI5 *CIS
=BI6 * CI6
503
Por ejemplo, si su primera variable explicativa estaba en la columna C, ingrese la formula =C2A2 en la celda D2 y copiela en
toda la columna, hasta llegar a Ia fila que contiene la ultima observaci6n.
A13.2 MINITAB
Generaci6n de una ecuaci6n de regresi6n
multiple
En el apendice Al2.2 se encuentran las instrucciones para utilizar Mini tab en la regresion lineal simple. El mismo conjunto de
instrucciones es valido al utilizar Minitab para la regresi6n
multiple. Para efectuar un analisis de regresi6n a los datos sobre
2. 'En la ventana de dicilogo 3D Scatterplot-Simple (vea la figuraA13.4), escriba Cl o Sales en el cuadro de edicion Z
variable, C2 o Price en el cuadro de edicion Y variable, C3
o Promotion en el cuadro de edicion X variable. De clic
en el boton OK.
504
Cl
' C2
i C3
price
promolion
i
I
iI!
Zvlrilbll:
~~~~"~_j
Yvftble:
il ~~~-~~~
~ X........
--
'
Jll'~ ~; ~o,,,;:'
1-~==~
; ., : .. .. , . . ~.
,'
.~1.f'
.. 11
;. ..\
. ()j(
''
.., .
Para crear una nueva variable X que sea el cuadrado de otra variable X, seleccione Calc~ Calculator. En el cuadro de edici6n
Store result in variable, introduzca el nu.mero o nombre de Ia
columna de Ia nueva variable. En el cuadro de edici6n Expression, introduzca {nombre o nu.mero de Ia columna que desea
elevar al cuadrado} ** 2. De clic en OK. En Ia columna especificada se encuentra una nueva variable X que es el cuadrado de
Ia variable X original. Continue con el analisis de regresi6n como ya se explico.
- -- -
- -
CAPITULO 14
Aplicaciones estadisticas en
administraci6n de Ia calidad
y productividad
USO DE LA ESTADfSTICA: Servicio de calidad en el hotel Beachcomber
14.1 ADMINISTRACI6N DE CALIDAD TOTAL
14.2 ADMINISTRACI6N SEIS SIGMA
14.3 LA TEORfA DE GRAFICAS DE CONTROL
14.4 GRAFICA DE CONTROL PARA LA
PROPORCI6N DE ARTfCULOS
DISCONFORMES: LA GRAFICA P
14.5 EL EXPERIMENTO DE LA CUENTA ROJA:
COMPRENDIENDO EL PROCESO DE
VARIABLIDAD
OBJETIVOS DE APRENDIZAJE
En este capitulo, aprenden't:
Los temas basicos de Ia administraci6n de calidad y los 14 puntos
de Derriing
Los aspectos basicos de Ia adnlinistraci6n Seis Sigma
C6mo construir diferentes graticas de control
Que gni.fica de control utilizar para un tipo especifico de datos
-----
506
uso
DE LA ESTADISTICA
Servido de calidad en el hotel Beachcomber
En el escenario de ''Uso de Ia estadistica" del capitulo 11, usted fue el gerente
de T.C. Resort Properties. Para este escenario, considere que solo administra
el hotel Beachcomber. Como administrador del hotel, usted desea mejorar
continuamep.te Ia calidad del servicio que ofrece para que as{ se incremente Ia
satisfacci6n global de sus huespedes. Para ayudarle a lograr esto, T.C. Resort
Properties le ha asignado gerentes que han recibido capacitaci6n en administraci6n de Seis Sigma. Para alcanzar el objetivo comercial de incrementar Ia
tasa de retorno de los huespedes a su hotel, usted ha decidido enfocarse en las
primeras impresiones del servicio que su hotel proporciona y que considera
que son de suma importancia. l,Esta lista Ia habitaci6n asignada cuando el
huesped se registra? l,Esta trabajando correctamente el centro de entretenimiento de video, as{ como el acceso de alta velocidad a Internet? Y j,reciben
los huespedes su equipaje en un tiempo razonable?
Para estudiar estos temas de satisfacci6n de los huespedes, usted ha emprendido un proyecto de mejoramiento que considera dos medidas criticas para Ia calidad (CTQ, por sus
siglas en ingles), Ia disponibilidad de Ia habitaci6n y eltiempo que toma entregar el equipaje. Para
ello, usted desea saber lo siguiente:
j,Son aceptables Ia proporci6n de habitaciones listas y disponibles, asf como el tiempo de
entrega del equipaje en Ia habitaci6n?
j,Son consistentes dia a dia Ia proporci6n de habitaciones listas y disponibles y el tiempo de
entrega del equipaje en Ia habitaci6n, o aumentan o disminuyen?
En los dias en que Ia proporci6n de habitaciones que no estan listas o disponibles, o que el
tiempo de entrega del equipaje es mayor que el normal, j,Se debe esto a una probabilidad de
ocurrencia o existe un fallo fundamental en el proceso utilizado para tener listas las
habitaciones y Ia entrega del equipaje?
14.1
.......
14.1: Administraci6n de calidad total
507
distica, los procesos de mejoramiento y Ia optitDizaci6n total del sistema. Este modelo es mundialmente conocido como administracion de calidad total (ACT), y presenta las siguientes caracteris~
ticas:
En la decada de los ochenta, el gobiemo federal de Estados Unidos incremento sus esfuerzos para
mejorar la calidad en los negocios del pais. El Congreso aprob6la ley Malcolm Baldrige National
Improvement de 1987, y empez6 a otorgar el premio Malcolm Baldrige Award a las empresas que
hicieran los mayores progresos en el mejoramiento de calidad y la satisfaccion de los clientes. W.
Edwards Deming se convirti6 en un prominente asesor para muchas de las empresas Fortune 500,
incluyendo Ford, General Motors y Procter and Gamble. En sus seminarios de cuatro dias, Deming
promovio sus "14 puntos para Ia administracion" que listamos a continuacion, y muchas empresas adoptaron algunos o todos estos puntos.
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
El punto 1, hacer una constante del proposito de mejoramiento, se refiere a como una organizacion maneja los problemas que surgen tanto en el presente como en el futuro. El foco de atencion esta en el constante mejoramiento de un producto o servicio. Este proceso de mejoramiento se ilustra
por el ciclo Shewhart-Deming que muestra la figura 14.1. El ciclo Shewhart-Deming representa un
ciclo continuo de "planear, hacer, estudiar y actuar". El primer paso, planear, representa Ia fase de
disefio inicial de planear un cambio en un proceso de servicio o manufactura. Este paso implica trabajo en equipo entre individuos de diferentes areas dentro de una organizacion. El segundo paso, hacer, significa realizar el cambio, de preferencia a pequefia escala. El tercer paso, estudiar, implica el
ana.Iisis de los resultados utilizando herramientas estadisticas para determinar que se aprendio. El
cuarto paso, actuar, es la aceptaci6n del cambio, el abandono o el estudio posterior del cambio en diferentes condiciones.
FIGURA 14.1
Cicio ShewhartDeming.
508
FIGURA 14.2
Un ejemplo del proceso
de correcci6n de prueba.
Fuente: W W Scherkenbach,
The Deming Route to
Quality and Productivity:
Road Maps and Roadblocks
Por lo general, Ia gente ve tres o seis efes. El nfunero correcto es seis efes. El nfunero que usted
encuentre depende del metodo que utilice para examinar la oraci6n. Es mas probable que encuentre
tres efes si lee la oraci6n foneticamente y seis efes si cuenta cuidadosamente el nfunero de efes. El
objetivo del ejercicio es mostrar que si un proceso tan sencillo como contar efes lleva a Ia inconsistencia de los inspectores, ,que sucedera cuando un proceso mucho mas complicado falla al contener
una defmici6n operacional clara de disconformidad? Ciertamente en tales situaciones habria una
gran variabilidad de un inspector a otro.
El punto 4, terminar con la practica de adjudicar negocios con base s6lo en el precio de la etiqueta, representa la antitesis del premio al menor postor. No hay un significado real del precio a largo plazo, sin el conocimiento de Ia calidad del producto.
El punto 5 -mejorar de forma constante y para siempre cada proceso de planeaci6n, producci6n y servicio- refuerza Ia importancia del enfoque continuo del ciclo Shewhart-Deming y
Ia creencia de que la calidad necesita construirse en Ia etapa de diseiio. Alcanzar Ia calidad es un
proceso sin fin en el que la reducci6n en la variaci6n se traduce en la reducci6n de las perdidas financieras como resultado de productos y ser\ricios que experimentan grandes fluctuaciones en calidad.
El punto 6, institucionalizar la capacitaci6n para el trabajo, refleja las necesidades de todos los
empleados, incluyendo los trabajadores de producci6n, ingenieros y administradores. Es de vital importancia para la administraci6n, comprender las diferencias entre las causas especiales y las causas
comunes de Ia variaci6n (vea Ia secci6n 14.3) para tomar las acciones adecuadas en cada circunstancia.
El punto 7, adoptar e instituir elliderazgo, se relaciona con la distinci6n entre liderazgo y supervision. El objetivo del liderazgo debe ser mejorar el sistema y lograr mayor consistencia en el desempeiio.
Los puntos 8 a 12 -erradicar el miedo, romper las barreras entre las areas de personal, eliminar los lemas y las cuotas numericas para la fuerza de trabajo (incluida la clasificaci6n anual y el sistema de merito )- se relacionan con Ia evaluaci6n del desempeiio de los empleados. Hacer enfasis
en los objetivos y exhortaciones podria volverse una carga inadecuada para los empleados. Los trabajadores no produciran mas alia de lo que el sistema permite (esto se ilustra claramente en la sec-
509
cion 14.5). La administraci6n tienen Ia labor de mejorar el sistema sin hacer surgir expectativas en
los trabajadores mas alia de Ia capacidad de este.
El punto 13 favorece Ia educaci6n y el automejoramiento para todos; refleja Ia noci6n de que el
recurso mas importante para cualquier organizaci6n es su gente. Los esfuerzos para mejorar el conocimiento de Ia gente en Ia organizaci6n tambien sirven para incrementar las ventajas de Ia organizaci6n. La educaci6n y el automejorarniento conducen a una reducci6n de Ia rotaci6n de personal dentro de Ia organizaci6n.
El punto 14, actuar para lograr Ia transformaci6n, refleja nuevamente el enfoque de administraci6n como un proceso en el que uno continuamente se esfuerza hacia el mejoramiento en un ciclo sin fm.
Aunque los puntos de Deming nos llevan a pensar y reflexionar, algunos han criticado su modelo porque no cuenta con una explicaci6n objetiva y formal. Muchos gerentes de grandes organizaciones, acostumbrados a utilizar anatisis financieros para realizar cambios de politicas, requieren de
un modelo mas prescriptible.
14.2
Dejinir El problema se define junto con los costos, beneficios y el impacto en el consumidor.
Medir Se desarrollan definiciones operacionales para cada caracteristica crftica para Ia calldad (CPC). Ademas se verifica el procedimiento de medici6n para que sea consistente a traves
de mediciones repetidas.
Analizar Se determinan las raices de por que ocurren defectos, y se identifican las variables en
el proceso que causan los defectos. Se recolectan datos para determinar los valores de referencia para cada variable del proceso. Este analisis a menudo utiliza graficas (o diagramas) de control (que se explicaran en las secciones 14.3 a 14.6).
Mejorar Se estudia Ia importancia de cada variable del proceso en Ia caracteristica CPC, utilizando experimentos diseilados. El objetivo es determinar el mejor nivel para cada variable.
Controlar El objetivo es mantener los beneficios a largo plazo evitando los problemas potenciales que pudieran ocurrir al modificar un proceso.
Poner en practica Ia administraci6n Seis Sigma requiere de un enfoque orientado hacia los datos, basada fuertemente en el uso de herramientas estadisticas como las graficas de control y los experimentos diseilados. Tambien implica capacitar a todos en Ia organizaci6n en el modelo DMAIC.
14.3
510
Las graficas de control permiten monitorear Ia variaci6n en una caracteristica del producto 0
servicio a lo largo del tiempo. Las graticas de control se utilizan para estudiar el desempefio pasado
para evaluar las condiciones presentes, o para predecir los resultados futuros (vea la referenda 7). ~
informaci6n obtenida al analizar una gratica de control constituye la base para el proceso de mejoramiento. Los diferentes tipos de gnificas de control nos permiten analizar diferentes tipos de variables criticas para la calidad (CPC): variables categ6ricas como Ia proporci6n de habitaciones de hotel
no aceptables en terminos de disponibilidad de comodidades y el correcto funcionamiento de todos
los electrodomesticos en Ia habitaci6n; variables discretas como el nfunero de huespedes que registraron alguna queja durante la semana; y variables continuas como el tiempo requerido para entregar
el equipaje en la habitaci6n. Ademas de proporcionar una exhibici6n visual de los datos que representan un proceso, Ia gra:fica de control hace enfasis principalmente en separar las causas especiales
de las causas comunes de Ia variaci6n.
Las causas especiales de variaci6n representan grandes fluctuaciones o patrones en los datos
que no son inherentes al proceso. Estas fluctuaciones a menudo son causadas por cambios en el
proceso que representan problemas para corregir u oportunidades para aprovechar. Algunas organizaciones se refieren a las causas especiales. de variaci6n como cansas asignables de variaci6n.
: Las causas comunes de variacion representan la variabilidad inherente que existe en un proceso.
! EstaS fluctuaciones consisten en numerosas pequeiias causas de variabilidad que operan aleatoriamente o por casualidad. Algunas organizaciones se re:fieren a las causas comunes de variabilidad
como causas aleatorias de variaci6n.
2 Recuerde
que en Ia secci6n
6.2 se explic6 que Ia
distribuci6n normal p. :t 3a
incluye casi todas las
observaciones (99. 73%) en
Ia poblaci6n.
La distinci6n entre las dos causas de variaci6n es crucial porque las causas especiales de variaci6n no forman parte de un proceso y son corregibles o explotables sin cambiar el sistema. Sin embargo, las causas comunes de variaci6n se reducen tan s6lo cambiando el sistema. Estos cambios sistemicos son responsabilidad de Ia administraci6n.
Las gnificas de control nos permiten monitorear un proceso e identificar Ia presencia o ausencia de causas especiales. AI hacerlo asf, las graficas de control nos ayudan a prevenir dos tipos de
errores. El primer tipo de error implica la creencia de que un valor observado representa una causa
especial de variaci6n cuando en realidad se debe a una causa com1ln de variaci6n del sistema. Tratar
una causa com1ln de variaci6n como si fuera una causa especial de variaci6n a menudo tiene como
consecuencia el sobreajuste de un proceso. Este sobreajuste, conocido como manipulaci6n, incrementa Ia variaci6n del proceso. El segundo tipo de error implica tratar una causa especial de variaci6n como si fuera una causa com1ln de variaci6n. Este error es el resultado de no tomar una acci6n
correctiva inmediata cuando es necesario. Aunque ambos tipos de errores pueden ocurrir aun cuando usemos una grafica de control, es menos probable que suceda.
Para construir una grafica de control, se recolectan muestras de las salidas de un proceso a lo
largo del tiempo. Las muestras utilizadas para construir gnificas de control se conocen como subgrupos. Para cada subgrupo (es decir, muestra), se calcula el valor de un estadistico asociado con
una variable CPC. Los estadisticos utilizados comUnmente incluyen Ia fracci6n disconforme (vea Ia
secci6n 14.4) y la media y el rango de una variable numerica (vea la secci6n 14.6). Entonces se gra:fican los valores contra el tiempo y se agregan los lfmites de control a la grafica. La forma mas com1ln de grafica de control establece lfmites de control que estan dentro de 3 desviaciones estandar
de la medida estadistica de interes. La ecuaci6n (14.1) defme, en general, los limites de control superior e inferior para las gnificas de control.
CONSTRUCCION DE LfMITES DE CONTROL
Media del proceso 3 desviaciones estandar
(14.1)
porlo que
Limite de control superior (UCL, por sus siglas en ingles) =media del proceso +3 desviaciones estandar
Limite de control inferior (LCL, por sus siglas en ingles) =media del proceso -3 desviaciones
'
estandar
Cuando se establecen estos lfmites de control, se evalua la grafica de control tratando de encontrar
un patr6n que pudiera existir en los valores a lo largo del tiempo y determinando si algunos puntos
caen fuera de los limites de control. La figura 14.3 ilustra tres diferentes situaciones.
FIGURA 14.3
Tres patrones de
graficas de control.
511
lfnea
central
LCL
/
3Minitab
usa reg/as
diferentes (vea Ia
referenda 13).
Tiempo
Tiempo
Tiempo
Panel A
Panel B
PaneiC
En el panel Adela figura 14.3, no existe un patron aparente de los valores a lo largo del tiempo
y no hay puntos que caigan fuera del limite de control de 3 desviaciones estandar. El proceso parece
estable y contiene solo causas comunes de variacion. El panel B, por el contrario, contiene dos puntos que caen fuera de los limites de control de las 3 desviaciones estandar. Se deben investigar estos
puntos para tratar de determinar las causas especiales que llevan a su ocurrencia. Aunque el panel C
no tiene ningilll punto fuera de los limites de control, tiene una serie de puntos consecutivos por arriba del valor promedio (la linea central), asi como una serie de puntos consecutivos por debajo del
valor promedio. Ademas, se observa claramente una tendencia global descendente. Se debe investigar esta situacion para tratar de determinar que podria haber causado ese patron.
Detectar una tendencia noes siempre tan obvio. Hay otras dos reglas3 simples (vea las referencias 7 y 8) que nos permiten detectar un cambio en el nivel medio de un proceso:
Ocho o mas puntos consecutivos que caen por arriba de la linea central u ocho o mas puntos
consecutivos que caen por debajo de la linea central.
Ocho o mas puntos consecutivos se mueven hacia arriba en valor u ocho o mas puntos consecutivos se mueven hacia abajo en valor.
Se dice que un proceso cuya grafica de control indica una condicion fuera de control (un punto fuera de los limites de control o la exhibicion de una tendencia) esta fuera de control. Un proceso fuera
de control contiene tanto causas comunes de variacion como causas especiales de variacion. Puesto
que las causas especiales de variacion no forman parte del diseiio del proceso, un proceso fuera de
control es impredecible. Una vez que se determina que un proceso esta fuera de control, se deben
identificar las causas especiales de variacion que estan provocando las condiciones fuera de control. Si
las causas especiales actUan en detrimento de la calidad del producto o servicio, se requiere elaborar
planes para eliminar esta fuente de variacion. Cuando una causa especial incrementa la calidad, se
deberia cambiar el proceso para que la causa especial se incorpore dentro del disefio del proceso. Por
lo tanto, esta causa especial benefica se vuelve una causa comtl.n fuente de variaci6n y el proceso se
mejora.
Se dice que un proceso cuya grafica de control no indica condiciones fuera de control esta bajo
control. Un proceso bajo control contiene 1lnicamente causas comunes de variaci6n. Puesto que estas fuentes de variacion son inherentes al proceso en si mismo, un proceso bajo control es predecible. En ocasiones se dice que los procesos bajo control estan en un estado de control estadistico.
Cuando un proceso se encuentra bajo control, usted debe determinar si la cantidad de causa comtl.n
de variaci6n en el proceso es lo suficientemente pequeiia como para satisfacer a los usuarios de los
productos o servicios. Si la causa comtl.n de variaci6n es lo suficientemente pequefia como para satisfacer al cliente, entonces se utiliza la grafica de control para monitorear el proceso sobre una base
continua para asegurarse de que el proceso permanece bajo control. Si la causa comtl.n de variaci6n
es demasiado grande, se requiere alterar el proceso en si mismo.
512
14.4
4 En
~1t(1- 1t)
n
A partir de Ia ecuaci6n (14.1) de Ia pagina 510, los limites de control para la proporci6n de elementos disconformes4 provenientes de los datos de muestra se establecen en Ia ecuacion (14.2).
3~jj(lp)
-
(14.2)
UCL = p +
3~ jj(1;
LCL = p -
3~ jj(l; p)
p)
Para igual n;
k
LP;
n = n;Y jj = i=~
o en general,
donde
P; = X;ln;
p=
513
Cualquier valor negativo para ellimite de control inferior significa que ellimite de control inferior
no existe. Para demostrar Ia aplicacion de Ia gnifica p , regrese al escenario "Uso de Ia estadistica"
relacionado con el hotel Beachcomber.
Durnnte la fase de medidon del modelo Seis Sigma DMAIC, se defmi6 la disconformidad como
Ia ausencia de comodidad en la habitacion o el mal funcionarniento de un electrodomestico en Ia habitaci6n al registrarse en el hotel. Durnnte la fase de amilisis del modelo Seis Sigma DMAIC, se recolectaron los datos de las disconformidades diariamente de una muestra de 200 habitaciones. La tabla
14.11ista el nfunero y proporcion de habitaciones disconformes para cada dia durante el periodo de
4 semanas HOTELl.
;e
i:a
IS
11-
)-
tO
1-
TABLA 14.1
Habitaciones
disconformes al
registrarse a lo largo
de un periodo de
28 dfas.
Dfa
Habitaciones Habitaciones
Habitaciones Habitaciones
estudiadas no preparadas Proporci6n Dfa estudiadas no preparadas Proporci6n
200
200
200
200
200
200
200
200
200
200
200
200
200
200
1
2
3
4
5
6
7
8
9
10
11
12
13
14
0.080
0.035
0.105
0.085
0.125
0.095
0.080
0,075
0.055
0.060
0.110
0.100
0.085
0.130
16
7
21
17
25
19
16
15
11
12
22
20
17
26
15
16
17
18
19
20
21
22
23
24
25
26
27
28
200
200
200
200
200
200
200
200
200
200
200
200
200
200
18
13
15
10
14
25
19
12
6
12
18
15
20
22
0.090
0.065
0.075
0.050
0.070
0.125
0.095
0.060
0.030
0.060
0.090
0.075
0.100
0.110
n;
son iguales,
n;
= n = 200. Asi,
i= l
k
p=
LPi
i=l
= 2.315
= 0.0827
28
y
LCL = 0.0827 - 0.0584
= 0.0243
La figura 14.4 presenta la gnifica de control de Excel para los datos de Ia tabla 14.1. La figura
14.5 proporciona Ia salida de Minitab. Las figuras 14.4 y 14.5 muestran un proceso en estado de
--- - -
514
FIGURA 14.4
Grafica p de Excel para
los datos disconformes
de las habitaciones de
hotel.
FIGURA 14.5
Grafica p de Minitab
para los datos
disconformes de las
habitaciones de hotel.
P 011111: of Not1reedy
El primer ejemplo ilustra una situaci6n en la que el tamaii.o del subgrupo no varia. Como regia
general, mi(mtras ningtin tamaii.o de los subgrupos n i difiera del tamaii.o pr.omedio del subgrupo
por mas de 25% den (vea Ia referenda 7), se podra utilizar la ecuaci6n (14.2) en la pagina 512 para calcular los limites de control para la grafica p . Si el tamaii.o de cualquier subgrupo difiere por
mas de 25% den, utilice la formula altemativa para calcular los lirnites de control (vea Ia referencia 7). El ejemplo 14.1 estudia la producci6n de esponjas de gasa para ilustrar e1 uso de Ia graficap
cuando el tamaii.o de los subgrupos es desigual.
-------------------------------------EJEMPLO 14.1
-..
......
--:-- -
- ------
-- - -
515
I'
i
TABLA 14.2
Dfa
Esponjas disconformes
durante un periodo de
32 dfas.
Esponjas
Esponjas
Esponjas
Esponjas
producidas disconformes Proporci6n Dfa producidas disconformes Proporci6n
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
690
580
685
595
665
596
600
620
610
595
645
675
670
590
585
560
0.030
0.038
0.029
0.035
0.035
0.032
0.030
0.039
0.033
0.037
0.029
0.034
0.033
0.044
0.029
0.029
21
22
20
21
23
19
18
24
20
22
19
23
22
26
17
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
575
610
596
630
625
615
575
572
645
651
660
685
671
660
595
600
20
16
15
24
25
21
23
20
24
39
21
19
17
22
24
16
0.035
0.026
0.025
0.038
0.040
0.034
0.040
0.035
0.037
0.060
0.032
0.028
0.025
0.033
0.040
0.027
IC
i=!
19 926
32
= 622.69 y p- = _EJ_
= o.034
19,926
Entonces
0.034 3 (0.034)(1- 0.034)
622.69
= 0.034 0.022
Asi,
UCL
LCL = 0.034-0.022
= 0.012
La figura 14.6 muestra la gratica de control de Excel para los datos de esponjas. La figura 14.7
muestra la grafica de control de Minitab. Examinando cualquiera de estos dos diagramas se observa
que el dia 26, en el que se produjeron 39 esponjas disconformes de 651 esponjas muestreadas, seencuentra por arriba del limite de control. La administraci6n necesita determinar la raz6n ( es decir, la
causa de fondo) para esta causa especial de variac!6n y tomar medidas correctivas. Una vez que se
tomen medidas, habra que remover los datos del dia 26 y despues construir y analizar una nueva grafica de control.
---- -- -
516
FIGURA 14.6
0.87
0.115
0.115
~OJM
lam
O.D2
8.111
FIGURA 14.7
Grafica p de Minitab
para Ia proporci6n de
esponjas disconformes.
0.05
0.05
i
l
0.04
0.03
0.02
!iaqlle
Tas1& perfbrmed With ~.r~~~q.~al SBI!llls stzes
Aprendizaje basico
L _ __
___J
Dfa
Tamaflo de Ia muestra
Disconformidades
I
2
3
4
5
6
7
8
9
10
100
100
IOO
100
100
100
100
100
100
100
12
14
10
18
22
14
15
13
14
16
Tamaflo de Ia muestra
1
2
3
4
5
6
7
8
9
10
111
93
105
92
117
88
117
87
119
I07
Disconformidades
12
14
10
18
22
14
15
13
14
16
II
Aplicaci6n de conceptos
Puede resolver los problemas 14.3 a 14.8 manualmente o con Excel, Minitab o SPSS.
Numero Proporcion
Dfa de errores de errores
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
6
3
4
4
9
0
0
8
4
3
4
1
10
9
3
1
0.048
0.024
0.032
0.032
0.072
0.000
0.000
0.064
0.032
0.024
0.032
0.008
0.080
0.072
0.024
0.008
Numero Proporcion
Dfa de errores de errores
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
4
6
3
5
1
3
14
6
7
3
10
7
5
0
3
0.032
0.048
0.024
0.040
0.008
0.024
0.112
0.048
0.056
0.024
0.080
0.056
0.040
0.000
0.024
Dfa
Numerode
disconformidades
1
2
3
4
5
26
25
23
24
26
Dia
6
7
8
9
10
Numero de
disconformidades
20
21
27
23
25
Dfa
517
Numerode
disconformidades
Dfa
Numerode
disconformidades
22
26
25
29
20
19
23
19
18
27
28
22
23
24
25
26
27
28
29
30
31
32
24
26
23
27
28
24
22
20
25
27
19
11
12
13
14
15
16
17
18
19
20
21
Dia
1
2
3
, 4
5
6
78
9
' 10
11
Latas
llenas
Latas
inaceptables
5,043
4,852
4,908
4,756
4,901
4,892
5,354
5,321
5,045
5,113
5,247
------ - -
47
51
43
37
78
66
51
66
61
72
63
--- -----
Dia
12
13
14
15
16
17
18
19
20
21
22
--
Latas
Latas
llenas inaceptables
5,314
5,097
4,932
5,023
5,117
5,099
5,345
5,456
5,554
5,421
5,555
70
64
59
75
71
68
78
88
83
82 .
87
518
a. Construya una gnifica p para la proporci6n de latas inaceptables para el mes. l,Este proceso da un aviso de fuera de
control?
b. Si deseara desarrollar un proceso para reducir la proporci6n
de latas inaceptables, l,c6mo procederia?
14.7 El gerente de una oticina de contabilidad de un gran hospital esta estudiando el problema del ingreso de numeros de
contabilidad incorrectos en el sistema de c6mputo. Se selecciona un subgrupo de 200 nilmeros de contabilidad de cada dia y
cada nilmero se inspecciona para determinar si es un elemento
disconforme. Los resultados para un periodo de 39 dias seencuentran en el archivo ERRORSPC.
a. Construya una grafica p para la proporci6n de elementos
disconformes. l,Este proceso da un aviso de fuera de control?
14.5
b. Con base en su respuesta para el inciso a), si fuera el gerente de la oficina de contabilidad, l,que haria para mejorar el
proceso de ingreso de nilmeros de contabilidad?
14.8 Un gerente regional de una empresa telef6nica es responsable de procesar las peticiones concernientes a adiciones, cambios o supresi6n de servicios telef6nicos. El gerente forma un
grupo de mejorarniento de servicio para que se fije en las correcciones en terminos de equipo para la oficina central y recursos
que se requieren para procesar las 6rdenes que se envian para
dar servicio a las peticiones. En el archivo TELESPC se encuentran los datos recolectados durante un periodo de 30 dias.
a. Construya una grafica p para la proporci6n de correcciones.
l,Envia este proceso una seiial de fuera de control?
b. l,Que deberia hacer el gerente regional para mejorar el procesamiento de las peticiones de cambia en el servicio telef6nico?
TABLA 14.3
Resultados del
experimento de Ia
cuenta raja para cuatro
empleados durante
3 dfas.
519
i>fa
Ana
David
Pedro
Susana
9 (18%)
12 (24%)
13 (26%)
7 (14%)
11 (22%)
12 (24%)
6 (12%)
9 (18%)
Los 4 empleados
Media
Porcentaje
41
10.25
20.5%
38
9.5
19%
6 (12%)
8 (16%)
12 (24%)
8 (16%)
34
8.5
17%
Nombre
En la tabla 14.3 se puede observar que, cada dia, algunos de los empleados estuvieron por arriba de
Ia media y algunos por debajo de Ia ella. En el dia 1, Susana hizo el mejor trabajo, pero en el dia 2
Pedro (quien tuvo el peor registro del dia 1) fue el mejor, y en el dia 3 fue Ana quien realiz6 el mejor trabajo.,C6mo se explica esta variaci6n? Utilizando Ia ecuaci6n (14.2) en Ia pagina 512 para desarrollar la gratica p para estos datos,
LX;= 113
i=l
Portanto,
113
- =
= 0.1883
p
(50)(12)
por lo que
Portanto,
UCL = 0.1883 + 0.1659 = 0.3542
y
LCL = 0.1883 - 0.1659 = 0.0224
La figura 14.8 muestra la grafica p para los datos de la tabla 14.3 yen ella se observa que todos los
puntos estan dentro de los limites de control y que no existen patrones en los resultados. Las diferencias entre los empleados representan meramente una causa comful de variaci6n inherente a un sistema estable.
520
Siempre habra algunos empleados que trabajen por arriba de la media y algunos empleados que
trabajen por debajo de la media.
FIGURA 14.8
Grafica p para el
experimento de Ia
cuenta roja.
--------------------------------------~g
---------------------------------------
LCL
o~~~~~~--~~~--+-~~--~~---+~~--~
Ana
David
Pedro I Ana
I Pedro I Ana I Pedro 1
Susana
David
Susana
David
Susana
--------------
--~-------
Aplicaci6n de conceptos
14.9 l, Como cree usted que la mayoria de los administradores
hubieran reaccionado despues del dia 1 en el experimento de la
cuenta roja? i,Despues del dia 2? l,Despues del dia 3?
14.10 (Proyecto de grupo) Obtenga una version del experimento de la cuenta roja para su clase.
14.6
521
La grafica R
Se pueden utilizar diferentes tipos de gnificas de control para monitorear Ia dispersion (es decir, Ia variabilidad) de una caracteristica de interes medida numericamente. La mas simple y comful es Ia gnifica de control para el rango, Ia grafica R. Se utiliza Ia gnifica del rango Unicamente cuando el tamafio
de Ia muestra sea de 10 o menos. Si el tamafio de Ia muestra es mayor a 10, es preferible utilizar una
gnifica de desviaci6n estandar. Como se utilizan tamafios de muestra de 5 o menos en mucbas aplicaciones, no ilustramos Ia gnifica de desviaci6n estandar en este texto. (Revise las referencias 7, 8 u 11
para estudiar las gnificas de desviaci6n estandar.) La gnifica R nos permite determinar si Ia variabilidad
en un proceso esta bajo control, o si los cambios en la cantidad de variabilidad se estan dando a lo largo del tiempo. Si el rango del proceso esta bajo control, entonces la cantidad de variaci6n en el proceso es consistente a lo largo del tiempo, y los resultados de la gnifica R seran utiles para desarrollar
los limites de control del promedio.
Para desarrollar los limites de control para el rango, se requiere una estimaci6n del rango promedio y de Ia desviaci6n estandar del rango. Como muestra la ecuaci6n 14.3, estos limites de control
dependen de dos constantes, el factor d2, que representa la relaci6n entre la desviaci6n estandar y
el rango para tamafios de muestra que varian, y el factor d3 , que representa la relaci6n entre la
desviaci6n estandar y el error estandar del rango para tamafios de muestra que varian. La tabla
E.10 contiene los valores para estos factores. La ecuaci6n (14.3) d_efme los limites de control para la gratica R.
R. 3R d3
(14.3)
dz
UCL =R +3R d3
d2
,I
LCL =
R -3R d3
d2
donde
Usted puede simplificar los calculos de la ecuaci6n (14.3) utilizando el factor D 3, igual a 1 - 3
(d3!d2 ), y el factor D 4, igual a 1 + 3(d31d2) para expresar los limites de control como muestran las
ecuaciones (14.4a) y (14.4b).
= D4R
(14.4a)
(14.4b)
Para ilustrar la grafica R, regrese al escenario "Uso de la estadistica" relacionado con la calidad del
servicio del hotel. Durante la fase de medic!6n del modelo Seis Sigma DMAIC, se defmi6 operacionalmente Ia cantidad de tiempo para entregar el equipaje como el tiempo a partir de que el huesped
completa los procedirnientos de registro hasta el tiempo en el que el equipaje llega a la habitaci6n
del huesped. Durante la fase de analisis del modelo Seis Sigma DMAIC, se registraron datos durante
un periodo de 4 semanas. Se seleccionaron subgrupos de cinco entregas del turno de Ia tarde de cada dia. La tabla 14.1 resume los resultados para los 28 dias. HOTEL2
---------
522
--
TABLA 14.4
Tiempos de entrega de
equipaje y media de los
subgrupos y range para
28 dfas.
Dia
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
11.7
11.4
8.9
13.2
9.7
9.0
9.9
6.9
11.3
9.7
8.2
10.5
9.0
8.7
9.1
10.6
7.0
8.1
12.2
6.7
7.6
9.5
9.8
11.0
8.3
9.4
11.2
10.0
8.6
10.7
10.8
9.5
12.9
7.8
8.4
9.3
9.8
10.7
5.8
8.6
8.3
10.5
8.9
9.0
11.1
9.9
8.8
9.2
9.0
9.7
8.1
10.1
9.8
10.0
9.8
10.5
11.1
12.3
10.2
8.9
10.2
9.6
9.4
9.5
9.5
11.4
8.4
10.8
12.0
9.9
10.7
9.0
10.7
10.2
10.0
9.6
8.2
7.1
11.1
9.9
8.8
7.9
11.1
6.6
7.5
8.4
8.7
9.3
11.6
9.8
7.1
9.0
8.2
9.5
10.9
10.3
8.6
9.0
9.1
5.5
8.1
9.7
9.6
8.0
10.6
7.0
12.2
7.8
9.2
10.7
9.4
8.5
7.1
6.1
9.7
11.0
11.4
8.6
10.0
10.1
7.6
11.7
9.5
8.5
8.4
7.1
10.2
9.0
8.9
9.1
8.8
9.9
9.3
9.2
10.2
9.7
Sumas:
12.2
9.5
11.0
11.5
Media
Rango
8.68
9.12
9.54
5.0
3.8
2.0
6.3
3.1
2.7
3.3
9.72
10.46
8.66
8.02
10.04
9.78
8.80
9.58
10.00
9.14
9.30
9.96
8.96
9.56
9.08
9.12
9.78
9.64
9.16
10.30
9.86
10.26
8.64
10.04
10.18
265.38
2.2
2.8
5.6
2.3
2.5
3.5
5.3
4.4
5.6
4.2
2.1
3.0
2.7
1.6
3.7
3.1
2.3
3.4
1.6
4.0
5.4
97.5
Ic
""R~
I
1=.L.__
i=l
97.5
= - = 3.482
28
= 5, d2 = 2.326 Y
0 864
3.482 3(3.482l
)
\2.326
= 3.482 3.880
Portanto,
UCL = 3.482
+ 3.880 =
7.362
523
La figura 14.9 muestra Ia gratica R de Excel para los tiempos de entrega de equipaje. La figura
14.9 no muestra rangos individuales fuera de los limites de control ni tarnpoco una tendencia.
FIGURA 14.9
Grafica R de Excel para
los tiempos de entrega
del equipaje.
Dia
La grafica X
6Se
Ahora que ha determinado que la gratica de control muestra que el rango esta bajo control; podemos
continuar examinando el diagraml!2e control para el proceso de la media, Ia grafica X.
La gratica de control para la X utiliza subgrupos cada uno de tarnaiio n para kperiodos consecutivos de tiempo. Para calcular los limites de conttol para el promedio, se necesita calcular Ia media
de los promedios de los subgrupos (denominada X), y Ia desviaci6n estandar de Ia media (que llamamos error estandar de Ia media u en el capitulo 7). El estimado de Ia desviaci6n estandar de Ia
media es una funci6n del factor d2 , que representa Ia relaci6n entre Ia desviaci6n estandar y el rango
para tarnaiios~e muestra variables.6 Las ecuaciones (14.5) y (14.6) defmen los limites de control para Ia gnifica X.
x3
ii
(14.5)
d2~
ii
1
d2 -vn
=
ii
LCL=X-3-=
UCL =X+3
.6y
d2~
donde
R;
iva,
-==--
--- - ---=
- - ~
- -=--=-- -
524
---- - -
c:
lc
d
(14.6b)
i=l
i=l
x=
L,x;
..EL_
L,R;
28
= 97.5 = 3.482
28
Utilizando la ecuaci6n (14.5) en la pagina 523 y a partir de la tabla E.10 para n = 5, d2 = 2.326.
x3 R.
d2..Jn
= 9.478 3
3 82
.4
(2.326)..[5
= 9.478 2.008
Portanto,
UCL =9.478 =2.008 = 11.486
LCL =9.478-2.008 = 7.470
De forma altemativa, utilizando las ecuaciones (14.6a) y (14.6b), y A2 = 0.577 de la tabla E.lO,
UCL =9.478 + (0.577)(3.482) =9.478
+ 2.009 =11.487
525
FIGURA 14.10
Grafica Xde Excel para
los tiempos de entrega
de equipaje.
lE
&
~~~~~~~~~~~~~
15
10
Zll
25
3D
Dia
FIGURA 14.11
Graficas X y R de
Minitab para los
tiempos de entrega
de equipaje.
II
r============================================-1 UCI.II-
L;==~~==~==~====~===;====~==~==~====;JL~~
IJ
......
16
It
Z2
________ _]
Aprendizaje basico
14.11 El siguiente resumen de datos es para los
subgrupos con n = 4 para un periodo de 10 dias.
Aplicaci6n de conceptos
Dia
Media
Rango
Dfa
Media
Rango
1
2
3
4
5
13.6
14.3
15.3
12.6
11.8
3.5
4.1
5.0
2.8
3.7
6
7
8
9
10
12.9
17.3
13.9
12.6
15.2
4.8
4.5
2.9
3.8
4.6
526
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
Bora
Tiempo en minutos
Dia
7.2
5.6
5.5
4.4
9.7
8.3
4.7
8.8
5.7
1.7
2.6
4.6
4.9
7.1
7.1
6.7
5.5
4.9
7.2
6.1
8.4
8.7
7.3
8.0
4.6
8.9
6.6
5.5
4.7
4.0
3.9
2.7
6.2
6.3
5.8
6.9
6.3
5.1
8.0
3.4
7.9
3.3
3.2
5.4
4.8
9.1
5.3
8.4
4.1
3.0
5.2
6.3
7.8
8.2
6.9
7.0
3.2
3.2
4.1
7.2
4.9
4.2
6.0
7.4
5.8
6.2
5.8
6.9
4.6
5.2
4.8
3.4
8.7
5.5
7.0
9.4
4.9
7.6
5.9
5.9
Bora
1
2
3
4
5
6
7
8
19.91
20.46
20.25
20.39
20.02
19.89
19.89
20.08
19.62
20.44
19.73
19.43
20.02
19.77
20.45
20.13
19.15
20.34
19.98
20.36
20.13
20.92
19.44
20.11
19.85
19.61
20.32
19.85
20.34
20.09
19.95
19.32
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
20.30
20.19
19.66
20.30
19.83
20.27
19.98
20.46
19.74
19.85
20.77
20.21
20.30
20.48
20.60
20.20
19.66
20.72
19.77
19.99
19.44
20.03
20.42
20.00
21.24
20.11
19.75
20.88
19.02
19.97
21.02
19.26
20.58
20.82
20.09
21.06
19.74
20.08
19.67
20.58
19.40
19.65
20.15
19.96
20.68
20.23
20.35
19.64
20.62
20.62
20.34
20.32
19.62
19.88
19.73
20.01
20.03
20.13
20.52
20.32
20.26
20.71
20.49
19.41
20.14
19.86
4
19.60
20.59
20.34
20.29
20.60
20.40
20.34
20.83
19.90
20.20
19.48
19.93
20.13
20.42
19.42
19.51
20.41
19.99
19.83
19.58
20.76
19.91
Fuente: Susan K. Humphrey y Timothy C. Krehbiel, "Managing Process Capability", The Mid-American Journal of Business, 14, otono de
1999, 7-12.
15.06
17.58
13.83
17.19
14.56
14.82
17.92
16.53
13.83
16.45
15.20
14.49
15.89
14.62
15.75
14.83
15.75
15.37
17.25
14.76
14.52
14.53
13.85
14.61
16.15
15.04
15.10
16.72
15.61
15.42
15.67
15.73
14.40
17.31
15.32
16.32
18.45
17.80
16.67
Bora
14 16.29
15 15.84
16 15.12
17 18.48
18 17.55
19 13.57
20 16.23
21 . 14.60
22 16.73
23 18.03
24 16.61
25 15.86
14.61
12.16
15.60
16.07
14.73
17.55
16.92
16.8,3
18.60
14.55
16.45
17.00
15.67
15.40
13.83
16.31
16.95
15.81
16.45
15.34
16.76
13.87
16.95
18.28
F6rmulas importantes
5.32
5.63
5.56
5.32
5.45
5.29
5.57
5.44
5.77
5.44
5.40
5.45
5.53
5.42
5.40
5.61
5.50
5.54
5.67
5.50
5.46
5.50
5.52
5.49
5.61
5.40
5.57
5.42
5.47
5.44
5.54
5.58
Muestra
527
9
;10
5.53
5.41
5.25
11
5.55
12
' 13
14
I 15
16
l 17
18
' 19
20
21
22
23
24
25
5.58
5.63
5.48
5.49
5.54
5.46
5.72
5.58
5.43
5.59
5.42
5.64
5.62
5.51
5.58
5.36
5.75
5.44
5.57
5.62
5.46
5.36
5.50
5.51
5.58
5.41
5.59
5.38
5.54
5.55
5.67
5.51
5.58
5.45
5.46
5.45
5.43
5.66
5.38
5.59
5.36
5.37
5.60
5.40
5.42
5.75
5.73
5.53
5.53
5.56
5.53
5.54
5.60
5.36
5.59
5.49
5.25
5.40
5.32
5.46
5.69
5.56
5.47
5.77
14.18 Una empresa manufacturera produce soportes para estantes de libros. Los soportes proporcionan apoyo estructural
importante y deben tener un angulo de 90 grados 1. Se tomaron mediciones del angulo de los soportes en 18 diferentes ocasiones. Se muestrearon cinco soportes en cada caso. Los datos
se encuentran en el archivo ANGLE.
a. Construya graficas de control para el rango y Ia media.
b. i,Esta este proceso bajo control?
RESUMEN
Este capitulo nos present6 los conceptos de calidad y productividad incluyendo Ia administraci6n de calidad total, los 14 puntos de Deming y la administraci6n de Seis Sigma. Usted ha
aprendido c6mo utilizar diferentes tipos de graticas de control y
FORMULAS IMPORTANTES
Limites de control para Ia grafica p
(14.1)
- 3~ p(l - p)
n-
LCL = j5-
3~ p(l; p)
(14.2)
----.......
528
R. 3R. d
x3_!_
d2
UCL =
(14.3)
R +3R d3
= 3---r
R.
UCL' =X+
d2 -vn
d2
LCL =
R -3R d3
R.
LCL=X-3-d2..{n
d2
LCL = ~R
(14.5)
d2..{n
X+ A 2R
(14.6a)
=X- A2R
(14.6b)
UCL =
(14.4b)
LCL
CONCEPTOS CLAVE
administraci6n de calidad total (ACT) 507
administraci6n Seis Sigma 509
causas aleatorias de variacion 51 0
causas asignables de variaci6n 510
causas comunes de variaci6n 510
causas especiales de variacion 510
ciclo de Shewhart-Deming 507
critico para la calidad (CPC) 509
Deming, 14 puntos para la administraci6n
507
graficaX 523
graficas de atributos 512
graficas de control de variables 520
limite de control inferior (LCL) 510
limite de control superior (UCL) 51 0
manipulaci6n 510
modelo DMAIC 509
proceso bajo control 511
proceso fuera de control 511
subgrupos 510
PROBLEMAS DE REPASO
Revision de su comprensi6n
14.19 i Cual es la diferencia entre las causas comunes de variaci6n y las causas especiales de variaci6n?
14.20 l Que deberia hacer para mejorar un proceso cuando se
encuentran presentes causas especiales de variaci6n?
14.21 iQue deberia hacer para mejorar un proceso cuando solo estan presentes causas comunes de variaci6n?
14.22 iCual es la diferencia entre las graficas de control de
atributos y las graficas de control de variables?
14.23 i Por que se utilizan juntas las graficas Xy R?
14.24 i Que principios aprendi6 del experimento de la cuenta
roja?
Aplicaci6n de conceptos
SPSS
para resolver
--
~-
~---
--
2
3
4
5
6
7
8
9
10
11
12
13
14
15
529
Problemas de repaso
Total
Rudybird
Dfa
Total
Rudybird
154
153
200
197
194
172
190
209
173
171
173
168
184
211
179
35
43
44
56
54
38
43
62
53
39
44
37
45
58
35
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
177
143
200
134
192
155
135
189
184
170
178
167
204
183
169
56
43
69
38
47
45
36
55
44
47
48
42
71
64
43
to, se define un subgrupo como un dia de producci6n, y el tamafio de la muestra para cada subgrupo es de 3.) Se cortan piezas separadas de las porciones superior e inferior de las tablillas, y despues se vuelven a ensamblar para simular las tablillas
en un techo. Se utiliza un proceso de tiempo de calentamiento
para simular el proceso de sellado. Las piezas de la tablilla sellada se apartan y la cantidad de fuerza (en Iibras) requerida para romper el sello se mide y se registra. A esta variable se le llama.foerza de sel/ado. Los datos del archivo SEALANT contienen
las mediciones de la fuerza de sellado para 25 dias de producci6n de tablillas "Boston" y 19 dias de tablillas "Vermont".
Para las tablillas "Boston":
a. Construya una gratica de control para el rango.
b. Construya una grafica de control para la media.
c. i,Esta este proceso bajo control?
d. Repita los incisos a) a c) utilizando los 19 dias de producci6n de las tablillas "Vermont".
Total
Rudybird
31
32
33
34
35
36
37
201
177
205
199
187
168
198
92
76
85
90
77
79
97
14.27 El fabricante de tablillas de asfalto "Boston" y "Vermont" construy6 graticas de control y analiz6 diferentes caracteristicas de calidad. Una de las caracteristicas de interes es la
fuerza en el sellado de la tablilla. Durante cada dia de producci6n se prueba la fuerza de sellado de tres tablillas. (Por lo tan-
Dia
Tiros
de
castigo
73
15
73
29
76
75
16
76
30
80
69
17
69
31
78
72
18
68
32
83
77
19
72
33
84
71
20
70
34
81
68
21
64
35
86
70
22
67
36
85
67
23
72
37
86
10
74
24
70
38
87
11
75
25
74
39
85
12
72
26
76
40
85
Dia
Tiros
de
castigo
Dia
13
70
27
75
14
74
28
78
Tiros
de
castigo
a. Construya una grafica p para Ia proporci6n de tiros de castigo exitosos. l,Cree usted que el proceso de lanzar tiros de
castigo esta bajo control? Si no, wor que?
b. i,QUe pasaria si le dijeran que el jugador utiliz6 un metodo
diferente para lanzar los tiros de castigo los ultimos 20 dias?
i,C6mo podria esta informacion cambiar sus conclusiones
del inciso a)?
530
Dia
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
Negocios no Total de
deseados negocios
2
12
Negocios no Total de
Dia deseados negocios
10
74
85
114
136
97
115
108
76
16
17
18
19
20
21
22
23
10
19
8
18
3
12
15
6
21
69
98
104
98
105
98
204
24
25
26
27
1
11
12
4
28
29
30
11
13
33
5
20
17
3
12
11
11
14
4
13
15
54
74
103
100
88
58
69
135
67
77
88
66
72
118
138
_,
-- -
c. Con .base en los resultados de los incisos a) y b), L,que deberia hacer a continuaci6n el gerente para mejorar el proceso?
14.33 (Proyecto de grupo) Utilice Ia tabla de n(imeros aleatorios (tabla E.1) para simular Ia selecci6n de diferentes pelotas
de colores de una urna como sigue:
F
[
VI
ir
d
ru
y
n.
d
si
co
d:
ti
eJ
it
Cl
si
te
m
S(
N
iii
p:
yc
h:
e!
H
pc
e!
H
m
0(
N
m
ql
re
ac
Ia
rr
ra
Cl
fu
-..Estudio de caso
Fase 1
Durante casi 50 aiios, la empresa de maquinas de coser Hamswell Sewing Machine Company ha fabricado maquinas de coser
industriales. La empresa se especializa en maquinas automatizadas, llamadas remachadoras, que cosen patrones repetitivos en
articulos de produccion masiva como zapatos, prendas de vestir
y cinturones de seguridad. Ademas de las ventas de las maquinas, la empresa vende partes de maquinas. Como los productos
de la empresa tienen una reputacion de excelencia, Harnswell ha
sido capaz de decidir el precio para su linea de produccion.
Recientemente, la gerente de producci6n, Natalie York,
compro en una libreria local varios libros referentes a la calidad. Despues de leerlos, considero la viabilidad de iniciar alglln
tipo de programa de calidad en la empresa. En ese momento la
empresa no tenia un programa formal de calidad. Las partes se
inspeccionan allOO% en el momento de enviarlas al cliente o
cuando se van a instalar en una maquina; sin embargo Natalie
siempre se ha preguntado por que el inventario de ciertas partes (en especial el rodillo de leva de media pulgada) invariablemente es insuficiente antes de que el aiio termine, aun cuando
se producen 7,000 piezas para una demanda de 5,000 piezas
por aiio.
Despues de muchas reflexiones y con algo de aprehension,
Natalie decidi6 acercarse a John Harnswell, duefio de la compafiia, para hablarle sobre la posibilidad de elaborar un programa
para mejorar la calidad en la empresa, comenzando con un proyecto de ensayo en el area de partes para maquinas. AI caminar
bacia la oficina de Harnswell para su reunion, ella duda sobre si
esta es una buena idea. Despues de todo, apenas el mes anterior
Harnswellle habia dicho: "l,Por que necesita ira la escuela de
postgrado para obtener su titulo de maestria en negocios? Eso
es una perdida de tiempo y no servira de nada a la empresa
Hamswell. Todos esos profesores s6lo estan en sus torres de
marfil y no saben absolutamente nada acerca de como llevar un
negocio como yo se hacerlo".
AI entrar a su oficina, siempre cortes, Hamswell invita a
Natalie a tomar asiento frente a el. "Bueno, (,que tiene en su
mente esta manana?", pregunta Harnswell usando un tono inquisitivo. Ella comienza a hablar acerca de los libros que leyo
recientemente y menciona que tiene algunas ideas interesantes
acerca de como mejorar a(m mas la produccion e incrementar
las ganancias. Pero antes de que termine, Hamswellla interrumpe: "Mire, mi querida jovencita", le dice, "todo ha ido
muy bien desde que inicie esta empresa en 1970. Construi esta
fabrica de la nada y ahora empleo a mas de 100 personas. Recuerde, sino esta roto, nolo arregle". Y sin mas, la acompaiia
fuera de su oficina con la siguiente reprimenda: "(,Que voy a
.J .J :.. ~
EJERCICIOS
HS.l Con base en lo que ha leido, (,Culiles de los 14 puntos de
administracion de Deming son los que mas fallan en Ia
empresa de maquinas de Coser Harnswell? Explique su
respuesta.
HS.2 (,Que cambios, si acaso alguno, cree usted que Natalie
York sera capaz de instituir en la empresa? Explique su
respuesta.
NO CONTINUE SINO HASTA QUE HAYA TERMINADO
LOS EJERCICIOS DE LA FASE 1.
Fase2
Natalie camina lentamente por el pasillo despues de dejar Ia
oficina de Harnswell sintiendose relativamente abatida. No escucha a nadie, s6lo piensa. Mientras camina, Jim Murante, responsable del taller, se le acerca. "l,Asi que realmente creia que
la iba a escuchar?", le pregunta. "Llevo aqui mas de 25 aiios. La
(mica forma de hacerlo escuchar es enseiiarle que algo funciona
despues de haberlo puesto en practica. Veamos que podemos
planear juntos."
Natalie y Jim deciden empezar investigando la produccion
de los rodillos de leva, los cuales son partes de precision fundamentales. La ultima parte del proceso de producci6n implica el
afilado del diametro extemo. Despues del afilado, las partes se
acoplan con las ranuras de Ia leva de un patr6n especifico de
costura. Los rodillos de media pulgada tecnicamente tienen una
especificacion de ingenieria para el diametro extemo del rodillo
de 0.5075 pulgada (las especificaciones en realidad son metricas, pero en la jerga del piso de la fabrica se consideran como
de media pulgada), mas un error tolerable de 0.0003 pulgada en
ellado menor. Asi, se permite que el diametro extemo mida entre 0.5072 y 0.5075 pulgadas. Cualquier elemento mayor es reclasificado a una categoria diferente y menos costosa, y cualquier elemento menor no es utilizable.
El afilado de un rodillo de leva se realiza en una sola rnaquina con una sola disposici6n de herramientas y no se hace
ning(m cambio en Ia rueda de afilado despues de la disposicion
inicial. La operacion Ia efecrua Dave Martin, el maquinista en
jefe, quien tiene 30 aiios de experiencia en el negocio y, especificamente, en la produccion de los rodillos de leva. Como la
produccion se realiza por lotes, Natalie y Jim muestrean cinco
partes producidas en cada lote. La tabla HS.l muestra los datos
recolectados a partir de 30 lotes. HARNSWELL
-...,------
532
TABLA HS.1
mucho tiempo, porque quiero que nos deje instalar un termostato automatico en la tienda para que ellugar no se sienta tan frio
cuando llegamos por Ia manana. Todo lo que me dice es que la
gente noes tan fuerte como lade antes".
Natalie se sorprendi6 mucho. Se dio cuenta de que en Iugar
de esperar a que el ambiente y el equipo alcanzaran una temperatura adecuada, el maquinista opt6 por fabricar partes que
tendrian que desecharse. De hecho, Natalie record6 que un problema aUn. mayor habia ocurrido ese mismo dia, cuando varias
partes muy caras tuvieron que ser desechadas. Natalie le dijo a
Jim: "Tenemos que hacer algo. No podemos permitir que esto
siga sucediendo ahora que sabemos los problemas que esta causando potencialmente". Natalie y Jim decidieron tomar del fondo
para gastos menores suficiente dinero para comprar el termostato sin necesidad de llenar una requisici6n con Ia firma de Hamswell. Instalaron el termostato y fijaron el control de calefacci6n
para que el calentador se encendiera media hora antes de que el
taller se abriera.
Rodillos de leva
Lote
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
.5076
.5075
.5075
.5075
.5075
.5076
.5076
.5075
.5074
.5076
.5075
.5075
.5076
.5075
.5075
.5075
.5075
.5075
.5076
.5075
.5075
.5076
.5076
.5075
.5075
.5077
.5075
.5077
.5075
.5076
.5076
.5077
.5075
.5076
.5074
.5075
.5076
.5076
.5076
.5077
.5075
.5076
.5076
.5076
.5075
.5074
.5074
.5075
.5076
.5074
.5074
.5076
.5076
.5076
.5075
.5076
.5075
.5076
.5075
.5075
.5075
.5076
.5075
.5074
.5076
.5076
.5076
.5076
.5075
.5075
.5075
.5075
.5073
.5074
.5076
.5076
.5075
.5076
.5075
.5077
.5075
.5075
.5075
.5075
.5075
.5076
.5074
.5075
.5074
.5075
.5077
.5076
.5075
.5076
.5073
.5075
.5075
.5075
.5075
.5075
.5076
.5077
.5076
.5076
.5074
.5075
.5074
.5075
.5075
.5076
.5075
.5076
.5075
.5076
.5075
.5074
.5076
.5075
.5075
.5076
.5075
.5075
.5076
.5073
.5076
.5075
.5075
.5074
.5076
.5075
.5075
.5075
.5074
.5075
.5073
.5075
.5072
.5076
.5076
.5074
.5075
.5074
.5076
.5075
.5074
.5075
.5075
.5076
.5075
.5075
EJERCICIO
este un proceso bajo control? ~Por que?
recomendaciones haria para mejorar el proceso?
NO CONTINUE SINO HASTA QUE HAYA TERMINADO
EL EJERCICIO DE LA FASE 2
HS.3 a.
b.
~Es
~Que
EJERCICIOS
~Que deberia hacer Natalie en relaci6n con los datos de
los rodillos de leva? Explique su respuesta.
HS.5 Explique c6mo las acciones de Natalie y Jim para evitar
este problema especifico dieron como resultado un mejoramiento de Ia calidad.
NO CONTINUE SINO HASTA QUE HAYA TERMINADO
LOS EJERCICIOS DE LA FASE 3
HS.4
Fase 4
Puesto que se tom6 una acci6n correctiva para eliminar Ia causa especial de variaci6n, se eliminaron del analisis los resultados dellote 17. Las graticas de control para los dias restantes
indican un sistema estable s6lo con causas comunes de variacion operando en el sistema. Asi, Natalie y Jim se sentaron a
platicar con Dave Martiny varios maquinistas para tratar de determinar todas las causas posibles de la existencia de rodillos de
mayor tamafio y que ternan que desecharse. Natalie aUn. estaba
preocupada por los datos. Despues de todo, queria saber si el
proceso estaba dando rodillos-demasiado grandes (que tendrian
que devaluarse) y de menor tamafio (que tendrian que desecharse). Se preguntaba que tablas y graficas ayudarian mas.
Fase3
EJERCICIO
HS.6 a. Construya una distribuci6n de frecuencias y una grafica de tallo y hoja de tos diametros de los rodillos de
leva. ~Cual de los dos prefiere?
b. Con base en sus resultados para el inciso a), construya todas las graficas apropiadas de los diametros de
los rodillos de leva.
c. Escriba un reporte en el que exprese sus conclusiones
acerca de los diametros de los rodillos de leva. Asegllrese de analizar los diametros tal como se re!acionan con las especificaciones.
NO CONTINUE SINO HASTA QUE HAYA TERMINADO
EL EJERCICIO DE LA FASE 4
_,_,_
Caso actual
Fase 5
De inmediato Natalie se dio cuenta de que Ia media global del
diametro con ellote 17 eliminado era de 0.507527, una cifra
mayor que el valor permitido de 0.5075. Asi, Ia media del diametro de los rodillos producidos era tan alta que estos tendrian
que reducir su valor. De hecho, 55 de los 150 rodillos muestreados (36.67%) estaban por encima del valor especificado. Si se
extrapola este porcentaje a Ia producci6n anual, resulta que el
36.67% de las 7,000 partes producidas, o 2,567, no podrian ser
vendidas como rodillos de media pulgada, dejando s6lo 4,433
partes disponibles para vender. ''No me sorprende que a menudo tengamos escasez de productos y que requiramos de corridas
de emergencia", pens6. Tambien se dio cuenta de que ni un solo diametro estaba por debajo del valor permitido de 0.5072,
por lo que no se tuvo que desechar ning(m rodillo.
Natalie retlexion6 que debia haber una raz6n para todo esto. Junto con Jim Murante, decidi6 mostrar los resultados aDave Martin, el maquinista enjefe. Dave opin6 que los resultados
EJERCICIOS
HS.7
HS.8
l,Que enfoque debeni tomar el maquinista en terminos del diametro a! que debe apuntar? Explique su
respuesta.
j.Que cree usted que Natalie deberia hacer a continuaci6n? Explique su respuesta.
Fase 1
EJERCICIOS
TABLA SH14.1
Fase2
Numerode
Numerode
anuncios
con
Numero
de
anuncios
con
Numero
de
Dia
errores
anuncios
Dia
errores
anuncios
I
2
3
4
5
6
7
8
9
10
4
6
5
3
6
7
8
14
9
5
6
4
3
228
273
239
197
259
203
289
241
263
199
275
212
207
14
15
16
17
18
19
20
21
22
23
24
25
5
7
2
4
5
4
3
8
10
4
9
7
245
266
197
228
236
208
214
258
267
217
277
258
11
12
13
533
El equipo de producci6n publicitaria examin6 Ia grafica p desarrollada a partir de los datos de la tabla SH14.1. Utilizando las
reglas para deterrninar los puntos fuera de control, observaron
que el dia 8 se encuentra por arriba del limite de control superior. A partir de Ia investigaci6n, deterrninaron que en ese dia un
empleado de otra area de trabajo fue designado para trabajar en
el procesamiento de los anuncios porque otros empleados se reportaron enfermos. El grupo utiliz6 una lluvia de idas para encontrar formas de evitar el problema en el futuro y recomend6
que un equipo de trabajo de otras areas recibieran capacitaci6n
en el trabajo realizado en esta area. Los miembros de este equipo podrian cubrir el procesamiento de anuncios rotando en turnos de una o dos horas.
EJERCICIOS
SH14.3 j.Que deberia hacer ahora el equipo de producci6n publicitaria en relaci6n con los datos de Ia tabla SH14.1?
Explique su respuesta.
__,.
534
--
-----~------------
SH14.4 Explique como las acciones del equipo para evitar este problema en particular en e1 futuro dio como resu1tado un mejorarniento de Ia calidad.
SH14.5 Ademas del numero de anuncios con errores, ,que
otra informacion referente a errores en una base diaria
debe~ia recolectar el equipo?
NO CONTINUE SINO HASTA QUE HAYA TERMINADO
LOS EJERCICIOS DE LAFASE 2
Mancha
Dfa
6
7
8
9
10
0.88
1.05
0.95
0.99
0.89
0.97
1.00
0.96
1.03
0.96
1.01
0.98
1.03
1.02
0.90
0.96
0.89
0.96
1.01
1.01
0.92
1.13
0.86
0.89
1.18
1.13
0.87
0.79
0.89
1.12
0.87
0.85
0.82
0.84
1.02
1.05
1.04
1.00
0.98
1.00
1.03
1.01
1.14
1.00
1.03
0.95
1.02
1.17
1.03
0.95
0.99
0.99
1.21
1.15
1.10
1.01
0.97
0.97
1.04
0.92
1.16
0.93
0.90
1.15
0.96
0.86
0.98
0.97
1.12
0.88
1.04
1.04
0.98
0.94
1.04
0.93
0.99
1.04
1.01
0.90
0.91
1.03
0.95
0.92
1.04
1.06
1.13
0.95
1.03
0.99
1.16
1.16
1.08
1.08
1.08
1.01
0.95
0.95
0.92
1.11
11
Fase3
AI equipo de produccion de impresion se le encargo mejorar Ia
calidad del Herald. El equipo eligio como su primer proyecto
Ia tonalidad oscura de Ia impresi6n en e1 peri6dico. Cada dia el
equipo de producci6n de impresi6n determina que tan "oscura"
es Ia impresi6n del peri6dico. La tonalidad oscura se mide en un
densit6metro que registra los resultados en una escala estandar.
Se seleccionan aleatoriamente cinco manchas en e1 primer impreso cada dia, y se mide Ia tonalidad oscura de cada mancha. La
tabla SH14.2 muestra los resultados para 25 dias. SH14-2
TABLA SH14.2
Tonalidad oscura de Ia impresi6n del peri6dico para
25 dfas consecutivos.
12
13
14
15
' 16
17
18
19
20
21
22
23
24
25
Mancha
Dia
1
2
3
4
5
0.96
1.06
1.00
0.92
1.02
1.01
1.00
0.90
0.89
1.16
1.12
1.02
0.98
1.01
1.03
1.07
1.16
1.18
1.16
0.89
0.97
0.96
0.96
0.90
1.00
- - -- -.. ---- -
EJERCICIO
SH14.6 a. Construya las graficas de control apropiadas para
estos datos.
b. l,Esta este proceso en un estado de control estadistico? Explique por que.
c. ,Que deberia recomendar el equipo como siguiente paso para mejorar el proceso?
~;-~ .-
Para Ia grafica p
Vease la seccion G.29 (Gnifica p) si desea que PHStat2 genere
una gnifica p como un diagrama Excel. (No existen comandos
en Excel para generar directamente esta grafica.)
~~~;';1!U:~ll~1~J ~~-
R]; 1 pain(> 3 standard deviations fr~ center ine
Para Ia grafica R y X
Vease la seccion G.30 (Gnifica R & XBarra) si desea que
PHStat2 genere una grafica R o X como un diagrama Excel.
(No existen comandos en Excel para generar directamente estas
graticas.)
~---
.,
... -
A14.2 MINITAB
P Chart
t.j_..)t-
. Cl
Day
, C2
C3
Rooms
Not read)
8 .!1
ot ready'
'
~~"
--.,_,..,..,.-""'"".o:'"
t;J;
..,___
s~aze.:[~,=-~-~
:: - "$;.;;::: ~- 1 :~-n~.;.;~ -. I
,;-M~ Gr;h.... I
Select
I
I
Data Optiono... . ,
.. I
! PCh..t 0~
.,
IC
FIGURA A14.2 Ventana de dialogo para
P Chart- Options, de Excel.
536
C1
C2
C3
C4
C5
C5
Day
Time1
Time 2
Time3
Time 4
Time 5
I "~.~=~~=-~=,:, J: ~.;1
"
~~1
~
~
~~
]
. .
Select
1::"=~-H-;~~,
01: - , .
opci6n Rbar. Si hay puntos que desea omitir cuando estime la linea central y los limites, ingrese los puntos a omitir
en el cuadro de edici6n mostrado. De clic en OK para regresar ala ventana de dialogo Xbar-R Chart. (Nota: Cuando cree mas de un conjunto de graficas R y X en la misma
sesi6n, vuelva a disponer los puntos a omitir antes de crear
nuevas graficas. Esta disposici6n permaneceni intacta hasta que reinicie Minitab.)
4. En la ventana de dialogo Xbar~ Chart, de clic en el bot6n
OK para generar graficas R y X.
r:~ ~-~~=-,
,, .
_;.
.-
...,n...
OK
J .r"~
1-
ir
!-
1-
la
APENDICES
ar
s-
in
A.2
A.3
B. NOTACI6N DE SUMATORIA
C. SfMBOLOS ESTADfSTICOS Y ALFABETO GRIEGO
C.1
C.2
Simbolos estadisticos
Alfabeto griego
E. TABLAS
E.1
E.2
E.3
E.4
E.S
E.6
E.7
E.S
E.9
Valores criticos dL y du del estadistico D de Durbin Watson
E.10 Factores de griifica de control
E.11 La distribuci6n normal estandarizada
Configuraci6n de Excel
Uso de las herramientas para aniilisis de datos
F.3
F.4
538
APENDICES
A.1
REGLA
EJEMPLO
l.a+b=cyb+a=c
2. a+ (b +c)= (a+ b)+ c
3. a - b = c
pero
b- a# c
4.axb =b xa
5. ax (b +c)= (ax b)+ (ax c)
6. a+b:t:b+a
2+1=3y1+2=3
5 + (7 +4) = (5 +7) +4 = 16
9-7=2
pero
7-9=-2
7 x6=6x7 =42
2 X (3 + 5) = (2 X 3) + (2 X 5) = 16
12 +3 # 3 + 12
a+b
a b
1.--=-+c
c c
7 +3 T 3
-=-+-=5
2
2 2
a
a a
8 -:1:-+' b+c
b c
-:F:-+-
3
4+5
3
4
3
5
8
1 1 5+3
-+-=--=3 5 (3)(5) 15
10 !!_X .:._ = a X C
'b d
bxd
ll.
A.2
!!. +
.:._ =
aXd
bX c
2 6
2X6
12
-x-=-=3 7
3X 7
21
5
8
3
7
5X 7
8x3
35
24
-+-=-=-
REGLA
1. )(!1 _xb = _xu+b
2. ()(!l)b = J(!lb
0
3. ()(!1/_xb) = )(!1-b
42 43 =45
0
(22)3 = 26
~=32
33
34
-=3 = 1
34
5.
rxY = .[X.JY
6.~ = ~
~(25)(4)
= 5.../4 = 10
A.3
REGLA
EJEMPLO
1. LOG(loA) =A
2. Si LOG(A) = B , entonces A = I oB
3. LOG(A x B) = LOG(A) + LOG(B)
LOG(100) = LOG(lo2) = 2
Si LOG(A) = 2, entonces A = 102 = 100
LOG(100) = LOG(10 x 10)
= LOG(10) + LOG(10) = 1 + 1 = 2
LOG(lOOO) = LOG(103) = 3 x LOG(10)
=3x1=3
LOG(lOO) = LOG(l000/10)
= LOG(1000)- LOG(10) = 3-1 = 2
4. LOG(AD) = B x LOG(A)
5. LOG(A/B) = LOG(A)- LOG(B)
EJEMPLO
Tome ellogaritmo base 10 para cada lado de Ia siguiente ecuaci6n:
Y = ~o~fe
s owci6N
LOG(Y) = LOG(~o~fe)
= LOG(~ 0 ) + LOG(~f) +LOG( e)
= LOG(~ 0 ) +X x LOG(~ 1 ) +LOG( e)
Basee
LN es el simbolo utilizado para los logaritmos base e, comunmente llamados logaritmos naturales. e
es el ntimero de Euler y e 2.718282:
EJEMPLO
REG LA
LN(7.389056) = LN(e2) = 2
Si LN(A) = 2, entonces A= e2 = 7.389056
LN(lOO) = LN(10 x 10)
= LN(10) + LN(lO)
= 2.302585 + 2.302585 = 4.605170
LN(lOOO) = LN(10 3) = 3 x LN(10)
= 3 X 2.302585 = 6.907755
LN(100) = LN(1000/10)
= LN(lOOO)- LN(10)
= 6.907755 - 2.302585 = 4.605170
1. LN(e-4-)=A
2. Si LN(A) = B , entonces A = eB
3. LN(A x B)= LN(A) + LN(B)
4. LN(AB) = B x LN(A)
5. LN(AIB) = LN(A)- LN(B)
EJEMPLO
Tome ellogaritmo base e para cada lado de la siguiente ecuaci6n:
Y = ~o~fe
SOLUCI6N
LN(Y)::: LN(~o~fe)
= LN(~ 0 ) + LN(~f) + LN(e)
= LN(~ 0 ) +X x LN(~ 1 ) + LN(e)
540
APENDICES
B.
NOTACI6N DE SUMATORIA
El simbolo :E, Ia letra griega mayliscula sigma, se utiliza para denotar "tomando Ia suma de".
n
:2, X;
i=l
2,X;
i=l
El siguiente problema ilustra el uso de Ia notaci6n de sumatoria. Considere cinco valores de una variableX: X1 =2,X2 =O,X3 = -1,X4 = 5, yX5 = 7. Por lotanto:
5
I,x; = X 1 + X 2 + x 3 + X 4 + x 5 = 2 + o + (-1) + s + 7 = 13
i=l
En estadistica, los valores cuadrados de una variable a menudo se suman. De esta forma:
n
""x2
.J
i=l
y, en el ejemplo de arriba:
5
= 22
+ o2 + (-1)2 + s2 + 72
= 4 + 0 + I + 25 + 49
= 79
~ x,' .
~ x,
r.
ol cuodrndo de Ia
En el ejemplo anterior, Ia sumatoria de los cuadrados es igual a 79. Esto noes igual al cuadrado de
Ia suma, que es 13 2 = 169.
Otra operaci6n que se usa con frecuencia implica Ia sumatoria del producto. Considere dos variables, X y Y, cada una con n valores. Entonces:
n
Siguiendo con el ejemplo anterior, suponga que hay una segunda variable, Y, cuyos cinco valores
son Y1 = 1, Y2 = 3, Y3 = -2, Y4 = 4 y Y5 = 3. Entonces,
5
LX;Y;
i=l
= 2 + 0 + 2 + 20 + 21
= 45
B. Notaci6n de sumatoria
541
AI calcular
L X;Y; tome en cuenta que el primer valor para Xes niultiplicado por el primer valor de
i=l
Y, el segundo valor de Xes multiplicado por el segundo valor de Y, y asi sucesivamente. Estos productos se suman entonces para calcular el resultado deseado. Sin embargo, la sumatoria de los
productos no es igual al producto de las sumas individuales.
En"'' ejomplo,
tx, yt.'i
l3
(t.xJt.'i)
x,
r,
x,r,
2
0
-1
5
7
1
3
-2
4
3
2
0
2
20
21
L,x; = 13
L,r; = 9
I,x;Y; = 45
i=l
i=l
i=l
VALOR
1
2
3
4
5
5
La sumatoria de los valores de dos variables es igual a la suma de los valores de cada variable sumada.
REGLA 1
i=l
i=l
i=l
=3+3+(-3)+9+10
= 22
5
i=l
i=l
LX; + L Yi = 13 + 9 = 22
2 La sumatoria de una diferencia entre los val ores de dos variables es igual a la diferencia
entre los valores sumados de las variables.
REGLA
i=l
i=l
i=l
542
APENDICES
Por lo tanto,
5
= 1+(-3)+1+1+4
=4
5
REGLA 3
i=l
La sumatoria de una constante por una variable es igual a esa constante por la sumatoria
LeX; = cLX;
i=l
i=l
donde c es una constante.
Entonces, si c = 2,
5
=26
5
i=l
REGLA 4
Lc=nc
i=l
Lc=2+2+2+2+2=10
i=l
nc = (5)(2)
= 10
Problema
Suponga que hay seis valores para las variables X y Y tales como X1 = 2, X2 = 1, X3 5, X4 = -3,
X = 1, X = -2 y Y = 4, Y2 = 0, Y3 = -1, Y4 = 2, Y5 = 7 y Y6 = -3. Realice los siguientes calculos:
5
a)Lxi
i=l
6
b) Lli
i=l
6
c)Lx?
i=l
d)
Lli
i=l
6
e) LX;Y;
i=l
6
f) L(X; + Y;)
i=l
543
z) ~(eX";), donde c- -1
g) L(X;- Yj)
i -1
i=l
6
j)
i=l
RESPUESTAS
a) 4
b) 9
c) 44 d) 79 e) 10 f) 13 g) -5
h) 65
i) -4 j) -5
Referencias
1.
2.
3.
C.
4.
5.
+sumar
+ dividir
- restar
* no es igual a
= igual a
== aproximadamente igual a
>mayor que
<menorque
r
E
~
11
9
I
K
A
M
f3
a
H
I
I
lC
/..
f.1
NOMBREDE
LA LETRA
EQUIVALENn
EN ESPAHOL
Alfa
Beta
Gamma
Delta
Epsilon
Dseta
Eta
Theta
Iota
Kappa
Lambda
My
a
b
g
d
I:
T
e
th
LETRA
GRIEGA
N
.::.
0
~
0
7t
't
'\)
G>
'P
m
"'
(J)
NOMBRE DE
LA LETRA
Ny
Xi
6micron
Pi
Rho
Sigma
Tau
Ypsilon
Fi
Ji
Psi
Omega
EQUIVALENTE
EN ESPANOL
n
X
0
p
r
s
t
u
ph
ch
ps
544 .
APENDICES
PHStat2
Contiene el programa y los archivos para Ia version 2.5 de
PHStat2. Debe instalar correctamente el programa antes de poder usar el PHStat2 dentro de Excel. (Asegfuese de leer las instrucciones del apendice F y los contenidos del archivo de lectura de PHStat2 en el CD-ROM, antes de instalar el programa.)
Archivos de datos Excel
Contiene los archivos de hojas de trabajo de Excel (con Ia extension .xis) que se emplean en este libro. AI fmal de esta pagina se inicia una lista detallada de los archivos que se encuentran
en esta carpeta.
Plantilla de ejemplos de hojas de trabajo
Contiene los archivos de hojas de trabajo de Excel utilizados en
los apendices de Excel. Copias de esos archivos tambien aparecen en Ia carpeta de archivos de datos de Excel.
Minitab
Contiene los archivos de hojas de trabajo de Minitab (con Ia extension .mtw) que se utilizan en este libro de texto. AI final de
esta pagina se inicia una lista detallada de los archivos que se
encuentrari en esta carpeta.
SPSS
Contiene los archivos de datos de SPSS (con Ia extension .sav)
utilizados en este libro de texto. AI final de esta pagina se inicia
una lista detallada de los archivos que se encuentran en esta
carpeta.
Exploraciones visuales en estadistica
Contiene los archivos necesarios para utilizar el macro libro de
trabajo Visual Explorations in Statistics. Si usted utiliza Excel
2000 SR-1 o cualquier version posterior de Excel, debe asegurarse primero de que Ia instalacion de seguridad de Microsoft
Office no se encueritra en High. (Para verificar Ia seguridad de
Ia instalacion, seleccione Tools -+ Macro -+ Security y, de ser
necesario, seleccione Ia opcion Medium en Ia pestaiia Security
Label y de clic en .O K. Cuando termine de utilizar las Visual
Explorations, puede regresar y restablecer el nivel de seguridad
a High, si asi lo desea.)
Para utilizar este libro de trabajo, abra el archivo Visual
Explorations.xla directamente del CD-ROM en Excel. Si prefiere
usar Visual Explorations sin tener que insertar siempre el CDROM, copie el archivo Visual Explorations.xla asi como el
archivo Veshelp.hlp, el cual contiene archivos de ayuda y
orientacion, en Ia carpeta del disco duro de su eleccion.
,.I
..J
545
COLA Ventas para ubicaciones al final del pasillo y normales. (Capitulo 10.)
COLASPC Dia, nfunero total de latas llenadas y nfunero
de latas no aceptadas (a lo largo de un periodo de 22 dias).
(Capitulo 14.)
COLLEGECOST Cambio en los costos de preparatorias y
universidades de 2001 a 2002 y de 2002 a 2003. (Capitulo 3.)
COLLEGES2002 Tipo de escuela (0 = publica, 1 = privada), puntuaciones del SAT para el primer cuartil, puntuaciones del SAT para el tercer cuartil, hospedaje y alimentaci6n, costo total (costo para universidades publicas fuera
del estado), y promedio de no endeudamiento al momento de
la graduaci6n. (Capitulos 10 y 13.)
COMPTIME Tiempo de terminaci6n con el actuallider en
el mercado y tiempo de terminaci6n con el nuevo paquete
de software. (Capitulo 10.)
CONCRETE! Fuerza de compresion despues de dos dias
y despues de siete dias. (Capitulo 10.)
CONTEST2001 Rendimientos para expertos, lectores y
lanzadores de dardos. (Capitulo 10.)
CRACK Tipo de grieta y tamafio de grieta. (Capitulo 10.)
CREDITSCORE Ciudad y puntuaci6n de credito. (Capitulo 6.)
CUSTSALE Nfunero de semana, numero de clientes y
ventas (en miles de dolares) a lo largo de un periodo de 15
semanas consecutivas. (Capitulo 12.)
DELIVERY Nfunero de cliente, nfunero de cajas y tiempo
de entrega. (Capitulo 12.)
DISPRAZ Precio, precio al cuadrado y ventas de maquinas
de afeitar desechables en 15 tiendas. (Capitulo 13.)
DOWRETURN Empresa, simbolo, rendimiento en 10
afios. (Capitulo 3.)
DRILL Tiempo para barrenar cinco pies adicionales, profundidad y tipo de hoyo. (Capitulo 13.)
DRINK Cantidad de bebida refrescante contenida en un
subgrupo de 50 botellas consecutivas de dos litros. (Capitulos 2 y 9.)
ELECUSE Consumo de electricidad (en kilowatts) y temperatura promedio (en grados Fahrenheit) a lo largo de un
periodo consecutivo de 24 meses. (Capitulo 12.)
ENERGY Uso de kilowatts por hora para el estado y per
capita. (Capitulo 3.)
ERRORSPC Numero de eventos disconformes y numero
de cuentas procesadas durante 39 dias. (Capitulo 14.)
ESPRESSO Apisonado (Ia distancia en pulgadas entre los
granos de cafe y el borde superior del portafiltros) y tiempo
(nfunero de segundos que tardan en separarse el cafe, cuerpo y crema). (Capitulo 12.)
EXPIMP Pais, exportaciones, importaciones. (Capitulo 3.)
FASTFOOD Producto, tipo (hamburguesa frente a polio),
precio, tamafio, total de grasa, grasa saturada, calorias y sodio. (Capitulos 2 y 3.)
FLYASH Porcentaje de ceniza, porcentaje al cuadrado de
ceniza y resistencia. (Capitulo 13.)
546
APENDICES
- - - -- --
- - --
547
SALARIES Puestos de trabajo, salario para hombres y salario para mujeres. (Capitulo 10.)
SEALANT N"Umero de muestra, fuerza de sellado para las
tablillas Boston y fuerza de sellado para las tablillas Vermont. (Capitulo 14.)
SECURITY Ciudad, indice de movirnientos y violaciones
por rnillon de pasajeros. (Capitulos 2, 3 y 12.)
SH2 Dia y n"Umero de llamadas recibidas en el escritorio de
ayuda. (Capitulos 2 y 3.)
SH9 Tonalidad oscura de Ia impresion del periodico. (Capitulo 9.)
SHI0-1 Duraci6n de las primeras llamadas (en segundos),
duracion de las llamadas tardias (en segundos) y diferencia
(en segundos). (Capitulo 10.)
SHI0-2 Llamada, plan de presentacion (estructurado = 1,
serniestructurado = 2, no estructurado = 3) y duracion de Ia
Hamada (en segundos). (Capitulo 10.)
SH12 Horas por mes invertidas en telemarketing y nUmero
de nuevas suscripciones por mes a lo largo de un periodo de
24 meses. (Capitulo 12.)
SH13 Horas por semana invertidas en felemarketing, numero de nuevas suscripciones y tipo de presentaci6n. (Capitulo 13.)
SH14-1 Dia, n"Umero de anuncios con errores, n"Umero de
anuncios y numero de errores durante un periodo de 25
dias. (Capitulo 14.)
SH14-2 Dia y medidas de Ia tonalidad oscura de Ia impresi6n en el peri6dico para cada uno de los cinco anuncios a
lo largo de 25 dias consecutivos. (Capitulo 14.)
SITE N"Umero de tienda, extension en miles de pies cuadrados y ventas (en millones de d61ares) en 14 tiendas. (Capitulo 12.)
SPSOO Semana, cambio semanal en el s&P 500, cambio semanal en el precio de Sears, cambio semanal en el precio de
Target y cambio semanal en el precio de Sara Lee. (Capitulo 12.)
SPONGE Dia, n"Umero de esponjas producidas, n"Umero de
esponjas disconformes en un periodo de 32 dias y proporci6n de esponjas disconformes. (Capitulo 14.)
SPORTING Ventas, edad, crecirniento demogratico anual,
ingreso, porcentaje con diploma de bachillerato y porcentaje con diploma universitario. (Capitulo 12.)
SPORTSTV Ail.o, n"Umero promedio de televidentes en rnillones para Ia National Football League (NFL), National
Basketball Association (NBA), Major League Baseball
{MLB) y National Hockey League (NHL). (Capitulo 2.)
SPWATER Numero de muestra y cantidad de magnesio.
(Capitulo 14.)
STANDBY Horas de pausa, personal, horas remotas, horas
Dubner y horas de trabajo para 26 semanas. (Capitulo 13 .)
STATES Estado, tiempo de traslado, porcentaje de hogares
con mas de 8 habitaciones, ingreso promedio, porcentaje de
vivienda que cuesta mas del 30% del ingreso familiar. (Capitulos 2 y 3.)
STEEL Error en Ia longitud real y en Ia longitud especificada. (Capitulos 2, 6, 8 y 9.)
STOCKRETURN Ail.o, tasa de rendimiento de DnA, s&P
500, Russell2000 y Wilshire 5000. (Capitulo 3.)
548
APENDICES
TRANSPORT Dias y tiempos de transportaci6n de pacientes (en minutos) para muestras de cuatro pacientes por
dia durante un periodo de 30 dias. (Capitulo 14.)
TRASHBAGS Peso requerido para romper cuatro marcas
de balsas para basura. (Capitulo 10.)
TROUGH Ancho del canal6n. (Capitulos 2, 3 y 8.)
TUITION Escuela, colegiatura en el estado en el periodo
2002-2003, colegiatura en el estado en el periodo 20032004, diferencia en Ia colegiatura en el estado en los periodos 2003-2004 y 2002-2003, colegiatura fuera del estado en el periodo 2002-2003; colegiatura fuera del estado
en el periodo 2003-2004, diferencia en Ia colegiatura fuera del estado en los periodos 2003-2004 y 2002-2003.
(Capitulo 3.)
574
APENDICES
CONFIGURACI6N DE EXCEL
F.2
Las Herramientas para analisis de datos son un conjunto de procedimientos incluidos en Excel. Para utilizar las Herramientas
para an_alisis de datos, primero verifique que esten instaladas
adecuadamente (vease la seccion anterior). Despues seleccione
Herramientas -+ Analisis de datos para ver la ventana de dil1logo de Analisis de datos (mostrada abajo). En la lista de Funciones para analisis elija un procedimiento y de clic en el boton Aceptar. Para la mayoria de los procedimientos aparecen1
una segunda ventana de dialogo en la que podra realizar entradas y selecciones.
Wllsis de varianza de dos factores con 1.11!1 sola muestri!l por grupo
correiod6n
~~=~de
Estadisticll descriptivo
Suavizad6n exponendel
0 0
Complementos
fmncieros y denlificus.
EJ
Aniilisis de datos
:
1
li
G!i!i]
IIr~=l
r [1;~- - ~
''"
ii:t!
rJ~1
,
~~.,~~.........,"==--==--=-~...,... . ~.~=.
.:.,-_. ,_ _,. ~.~-~~-=...-.....-==~.r:l
F.3
Utilice el Asistente para tablas y graficos dinamicos para generar Tablas Dinamicas, tablas de resumen que se actualizan automaticamente conforme cambian los datos en los que se basan.
Alleer este libro, puede utilizar el asistente para generar tab las
de distribucion de frecuencias de una y de dos vias para datos
categoricos (vease el capitulo 2).
Para utilizar el Asistente para tablas y graficos dinamicos,
primero seleccione Datos -+ Asistente para Tab las y Graficos
dinamicos (si utiliza Excel97 es Datos-+ Asistente de tablas dinamicas). Despues ingrese la informacion acerca del diseiio de
,
F. Uso de Excel con este libro
la tabla conforme aparece una serie de ventanas de dialogo dando clic en el bot6n Next. De clic en el bot6n Finalizar en la UJ.tima ventana de dialogo para crear la tabla. Puede cancelar la
operaci6n del asistente, en cualquier momento, dando clic en
Cancelar o moviendose a la ventana de dialogo previa dando
clic en Atras. En la ventana de dialogo del Paso 3, debe dar clic
en los botones de Disefto y Opciones para completar el proceso de crear una Tabla dinamica.
Los Asistentes de tabla dinamica de las diferentes versiones
de Excel difieren ligeramente. Para Excel2003, el asistente (vease la figura F.l) de tres pasos requiere que haga lo siguiente:
0 El
..
'
)(
11JI 1 ~r;,:;;..~::-1
t ~, L --.-.- - - -
.J.:I
n El
c:-- .'
('" ).nfunne do grOflcD (
c:
lllc!ndedeooo-lli'lfunnedo--1
ljoJo de alloJo.......
('" Hojo do -
Haga
dicl!l1-"""
'
{ldstonte
501
aM' ollnforme d o - -
pi''l@i58NNi!.f'.,;;;;4.a;.
. . '
575
576
APENDICES
F.4
MEJORANDO LA APARIENCIA
DE LAS HOJAS DE TRABAJO
..Nr:lta _
.1o
J r
Aumentar o d~ulr _
II i ~~' IllEfiiiO
" ~i!':i!': l ~
pot'6MWII
BOra
Combiner ycentnr
G.
TABLAS Y GRAFICAS
DE UNAVfA
El comando de Tablas y graficas de una via simplifica Ia preparacion de graficas resumen, graficas de barras, de pastel y
diagramas de Pareto. Este comando acepta datos no resumidos
....,
G. Guia del usuario de PHStat2
[J_
Chdrls
~~
Odl
Type rJ Data:
Raw cat:egcrbl Data
__:J
r Oltptt Optbls
Tile:
p
p
P
577
Oltptt Optlcns
lMutuall'ulds Risk
Tile:
BarChart
- p s..m.y statistics
Pie Chart
Pareto~am
HekJ
js-vear Retl.ms
I II
OK
Creel
FIGURAG.2
FIGURAG.1
-+
One-
G.2
-+ Descriptive Statistics -+
Stem-
G.3
HISTOGRAMA Y POLfGONOS
El comando de Histograma y Poligonos emplea el procedimiento de Analisis de datos del .histograma y el Asistente grafico para generar distribuciones de frecuencias, histogramas y
poligonos de frecuencia, porcentaje y porcentaje acumulado.
Este comando acepta datos de grupos individuales y de grupos multiples, asi como datos desapilados (los datos de cada
grupo en su propia columna) o datos apilados (datos para todos
los grupos en una sola columna). Si utiliza Ia opci6n Multiple
Groups - Stacked, requerira ingresar tambien el Grouping
Variable Cell Range. Usted controla las graficas que creara este comando seleccionando las ventanas de dialogo en Output
Options.
El comando corrige los errores de formateo que cometa el
procedimiento de Analisis de datos cuando realice los histogramas y las distribuciones de frecuencia. Entre otras cosas, el comando elimina las filas "More" extra en Ia tabla de frecuencia y
ajusta Ia amplitud de Ia brecha entre las barras del histograma.
Puesto que el comando utiliza el procedimiento de Analisis
de datos del histograma de forma invisible, el comando usa
"bins" y no agrupamientos de clase para crear Ia tabla de frecuencias. Un bin es un nlimero que especifica el valor maximo
para una clase. Los bins se ingresan como una lista ordenada
ascendente de valores en un rango de celda contiguo (los Bins
Cell Range de este comando o el Bin Range del procedimiento de Analisis de datos). Un rango bin que contiene los valores
9.99, 19.99, 29.99 hara una aproximaci6n de estas tres clases:
todos los valores menores a 10, valores mayores que o iguales a
10 pero menores a 20, y valores mayores que o iguales a 20 pero menores a 30.
, Como Ia primera clase siempre se abrira al fmal bacia el
infmito negativo, esta clase nunca tendra un verdadero punto
medio. Por lo tanto, el comando espera que su Midpoints Cell
Range tenga una celda menor que el Bins Cell Range y asignara el primer punto medio de Ia segunda clase.
578
APENDICES
Hl!ttoyr dm &
Polygons
(; s.9e ~Variable
~ Gl'ot4ls- Llnstadred
~ Gl'ot4ls. stacked
l;ro~~Pjng V~iiillfe <;enRi!J'llle:
- ~Options
- - . .
-- - -
G.S
Lk
c-111U()ptlons - - - - - - - - - ,
r
r
Ejemplo: La figura G.4 contiene las entradas para construir una tabla de clasificaci6n cruzada y una grafica de barra de !ado a !ado para LAS VARIABLES RISK Y 0BJECI'IVE
de Ia hoja Data del archivo MUTUALFliNDS.2004.xls.
- . ,
~ ;;-~~~-~-~-~~!_!t!~~~-=J,.
EJ
r~PcWon
Data
Pertertage PclWon
_____""". .()l(""""""~',"-"'c..a~,,-_-"<"'
jAI:AII
~Options---------~
(; Silgie ~ Variable
-. u,
FIGURA G.3
..utiple ~. Ll'lstacbd
JoUt~p~e ~.stacked
::::::::;]
jJ1 :J122
OJ I
OJ I
'- ----
FIGURAG.4
FIGURAG.S
G.6
PROBABILIDADES BINOMIALES
lxl
579
r l
Tlle:
r OmAtiYe Probebiltles
r Hsto;ram
Help
I II
OK
cancel
FIGURAG.7
,.---
.-Dati
~Size:
Probabay d SUccess:
Oltcomes From:
IQ.1
ro- ro:r
G.S
r- outplt Options
Tlle:
I
r
r
!ragged Orders
amJatWe Prabablties
Hstogram
~
I II
OK
cancel
FIGURAG.6
G.7
PROBABILIDADES DE POISSON
NORMAL
580
APENDICES
t~olmrll
[X
,..,,
- Data
r
r
Stlnclerd DIMIItlan:
- ~Options
13.5
r
r
<~ X <~
j;; X for CIJ!Uatiye Percenteoe: jiO<J~.
Probdty for rlr!OI:
CUput Options
_ Tile:
Prdlablties
INcnnal
Hetl
II
01(
II
Clral
Oat.
G.9
NLIIIber ol ~
GRAFICA DE PROBABILIDAD
NORMAL
SII!1Jie Size:
':...c.~._,
I"''"'
P"
First eel corteins label
output Opt~lons~======l
1
1 Ttle:
jNormal Probablity Plot
h_ 9.f.._J
Cancel
FIGURAG.9
G.10
SIMULACI6N DE
DISTRIBUCIONES MUESTRALES
rwo
l:llstl'h.tion Options
~~
Help
~'
FIGURAG.S
(" Dlsaeta
X and P(X) Velues CeQ Range:
..d
8--Tile:
Help
FIGURA G.10
G.11
Hstoo71111
OK
"
II
Cancel
,
I
lxi
-Data
fD.ii2
~ Sbrdard DeYietion:
l'r.-t Options
--
MINil:
La hoja de trabajo generada utiliza la funci6n TINV para determinar el valor critico de la distribuci6n t. La plantilla para esta
funci6n es TINV (1- conjidence /eve~ degrees offreedom).
Seleccione: PHStat -+ Confidence Intervals -+ Estimate
for the Mean, sigma unknown.
Ejemplo: La figura 0.12 contiene las entradas para Ia estimaci6n de la cantidad promedio de facturas de ventas
(vease la pagina 246).
j95%
Corildence Level:
581
roo-
110.998
::::1
"
Tile:
G.13
I
!He~ Correctlan
Population Size:
Hekl
I II
OK
Cancel
FIGURAG.11
G.12
~I
rData
Sample Size;
[iOO
M..mber d Successes:
~
~
Confidence Level:
,... ~Options - .
[RJ
Ttle:
-Data
j95...
Confidence Level:
r
roo-
Sample Size:
MINil:
luo.27
128.95
Sample
G.14
::::1
IMINil
A1l:e ~ Correctlan
Population Size:
Hekl
I II
FIGURAG.12
~
OK
I II
rOK
Cancel
FIGURA G.13
!He~ Correcticn
Hekl
...
Population Size:
l'r.-t Options
- --
...
Cancel
DETERMINACION DEL
TAMANO DE MUESTRA
PARA LA MEDIA
582
APENDICES
- Ol.tptt Options
Ttie:
Frb ~Correction
Population Sire:
II
lr----
OK
c.xa
FIGURA G.14
G.15
DETERMINACION DEL
TAMANO DE LA MUESTRA
PARA LA PROPORCI6N
G.16
Nul Hypothesis:
Level d Sigrlicance:
PopUatlon Standard DeYiation:
r Sample statistics Options
~ Sample statistics Known
125
l372.5
~Two-Tal Test
UpperTal Test
FIGURAG.15
::J
['&~
r
Hebl
Sample Size:
Sample Mean:
r-DIIta - - - - - - - - - - - - - ,
Saqlling Error:
1368
ro:os
r;s-
l=~~Hypothe~Test
I
Heb I I!OK fl cancel I
FIGURAG.16
......,
G. Guia del usuario de PHStat2
583
La hoja de trabajo generada utiliza las funciones NORMSINV y NORMSDIST para determinar los valores criticos y .
valores-p, respectivamente. Las plantillas para estas funcioiles
son:
NORMSINV(P<Z) donde P<Z es el area bajo la curva
menoraZ.
NORMSDIST(Z value).
Seleccione: PHStat -+ One-Sample Tests -+ Z Test for
the Proportion.
Ejemplo: La figura G.18 contiene las entradas para el
ejemplo de propiedad de negocios de Ia seccion 9.5.
--
'Data
.u Hypothesis:
lEI
IUnber d SU!xases:
jo.s
jo.os
1369
Slqlle Slz8:
1899
Level d
59iflcance:
- Test Options
lxl
-Data
Jiil
.U~:
112
-r=~-~~~
- - .I
..., I
I
Slqlle Mean:
juz.es
120.80
FIGURAG.18
Leveld~:
~Sizll:
rL_OK - m
Options
~ Two-TaUest
- llle:
...,
G.18
I II
OK
cancel
cancel
OJ
~Two-Tallest
I
I
FIGURA G.17
PRUEBA Z PARA
LA PROPORCI6N
NORMSDIST(Z value).
584
APENDICES
Date
r-
PopUation 1 Saqlle
in lwo
~Difference:
r-
,..o
~Size:
In
~Mean:
120
ro-
PopUation 1 ~
~Size:
!xi
Mf'dtl~
jo.os
LeYel rJ SIP'Icanal:
Seniple Mean:
PopUation 2~
PS
Date
ro:os
ro-
~Difference:
lAMII rJ Signlfica-oc:e:
r-
~I
- PopUation 2Sln'4lle
Ito
~Size:
!so
~Size:
San1lie Mean:
166
Ito
San1lie Mean:
Sln'4lle Standard O!Metlon:
--
Ito
jso.3
lts.726
In
lt2.543
--
~Two-Tal Test
--
c=~faDff~~hTwo~ I
tieD I
II
I Cancel I
c=~=~~
Hekl
OK
FIGURAG.19
G.20
I II
OK
-----
carla!~
I
I
FIGURAG.20
G.21
L8::J
,~----------------------,
Te st
fOI DlffPIP.III P S
in Two
V<tlltlll. ..
585
LRl
rO.a------------------,
Hypothesized Difl'--.ce:
Levelcl~:
Levelcl~:
PQPIAtion 1 Ssl.,le
tunber d SUccesses:
- 5ample Size:
,163
,___,227
.
r-
r Test Options-------------,
Test
Options----- ------.
~Two-Tallest
~ Two-Tal Test
(' I.P'-TaiTest
(' I.P'-TaiTest
r ~-Tal Test
[=
r ~-Tal Test
~~i-Gue-:t-Satisf-~ac-~-Analysis~----~
Hebl
ILcCI
li
cancer!
FIGURA G.22
FIGURA G.21
G.23
G.22
El comando Prueba F para las diferencias en dos varianzas genera una hoja de trabajo de prueba de hip6tesis basada en los
valores del nivel de significancia y estadisticos de muestra, asi
como Ia opci6n de prueba que usted especifique.
La hoja de trabajo generada utiliza las funciones FINV y
FDIST para determinar los valores criticos y valores-p, respectivamente. Las plantillas para estas funciones son:
I cancer I
OK
PROCEDIMIENTO
TUKEY-KRAMER
------
r-011:1
GroupOitaCeDRange: jA1:06
Ttla:
Heb
I I'
FIGURAG.23
OJ
Q!<
Jl
Cancel
I
I
5~o
G.24
APENDICES
PRUEBA DE LEVENE
El comando de Prueba de Levene corre el procedimiento de Aruilisis de datos Anova: Unico factor, usando una hoja de trabajo de
diferencias absolutas a partir de la mediana que el comando genera a partir del rango de celdas que usted especifique.
Seleccione: PHStat -+ Multiple-Sample Tests -+ Levene's Test.
Ejemplo: La figura G.23 contiene las entradas para el
ejemplo del paracaidas de la secci6n 10.5.
I evene's
lx l
Te ~ t
.-Data
Level rl SiQnlficanca:
~Data
jo.OS
Cel Rarvt:
jA1:06
IHelp
jLevene's Test
I II
::J
0\tp!t Options
_ Ttle:
OK
Cenc:el
FIGURAG.24
G.25
La Prueba Chi-cuadrada para las diferencias en dos proporciones genera una hoja de trabajo de prueba de hip6tesis en la que
usted ingresa los datos de la tabla de frecuencia observada.
Esta hoja de trabajo generada emplea las funciones
CHIINV y CHIDIST para determinar los valores criticos y valores-p, respectivamente. Las plantillas para estas funciones
son:
r- Data
..
jo.OS
' Levelrl~:
rz-
Nllnber rl Rows: .
Nllnber rl Ccbnns:
I
0\tp!t Options
Till:
p Marasailo Procecbe
~I
Help
ILOK
Cancel
FIGURA G.26A
IXl
r oata
L
r-
1\Unber rl Rows:
1\Unber rl Ccbnns:
---------=~
Level rl5q'licance:
0\tp!t Options
1 Ttle:
Satisfaction Analysis
jGuest
jo.cs ~
r-
OlqJut Options
Ttle:
t4arascuflo Procedure
Help
FIGURA G.25
jo.OS
,..p
Levelrl~:
I II
FIGURA G.26B
OK
cancill
I
I
r-Dita
y \larleble Col Ringo:
)(Variable Col Ringo:
Ejemplo: La figura G.28 contiene las entradas para el ejemplo de ventas OmniPower de Ia seccion 13.1 y supone que el
archivo Omni.xls esta abierto en la hoja de trabajo Data.
Mult1p h-
lct:cts
lat:Bts
IAI:A35
..d
,.
:=J
195'1!.
......., -~
~ ~ Stltlstlcs Table
r
r
Resldulls Table
,,
ReSidual Plots
-- -
..
- - --
..
__
--
,,
-- -
~Options
'lila:
r
r
r
brbh-watson StatisticI
Coeflldents Part~~~~ OeterniNtiGn
var~ne Irt~a~~onwv Fector (YJF)
:J
Heb
195'1!.
:J
.d
:--x-
rDita
y \llfllble Col Range:
illlP.iH RPCrf!SSIIlll
587
()I(
195'1!.
Cn:el
FIGURAG.28
r .......,.. _ _
~ ~ 5tatlstlcs Table
r
r
Residuals Table
Residual Plot
.- ~Options
Tile:
lste~-~ ---
--- --
~ Scai:W 01191111
r
r
Du'bh-watson Statistic
Conlldenca and Precldlan
w.v
for x-
Hekl
I -
II
()I(
,I . ,.
Cn:el
---
FIGURAG.27
G.29 GRAFICA P
El comando Gnifica p genera una grafica p como una grafica
de Excel. (El comando tambien genera dos hojas de trabajo de
apoyo que contienen los datos para la grafica.) Seleccione Ia
opcion Size varies si el tamafio de Ia muestra (subgrupo) varia
e ingrese el rango de celda de la variable tamafio de muestra
(subgrupo).
Seleccione: PHStat -+ Control Charts -+ p Chart.
Ejemplo: La figura G.29 contiene las entradas para el ejemplo de habitaciones de hotel de la seccion 14.4 y supone queel archivo Hotell.xls esta abierto en la hoja de trabajo Data.
)(,
p Chdrl
G.28
REGRESI6N MULTIPLE
Data
~Col Range:
-+ Multiple Regres-
:J
~
r. SIZie does net .,..,
~-
~Size:
Size vertes
Somp!e/Subgroup SiZe CBH Range:
:J
, ~Options
-
Tlla:
HelD
lct:C29
FIGURAG.29
II
()I(
Cancel
'
588
APENDICES
G.30 GRAFICA RY X
El comando Gnifica R y XBar genera graticas R y X como graficas de Exc~l. Seleccione la opci6n R Chart Only si no desea
una grafica X (El comando tambien genera dos hojas de trabajo de apoyo que contienen los datos para las graficas.)
r~ lllld
Xfl.u
~I
Ch.ut ~
r- Data
~/Saqlle Size:
~Ranges eel~:
rjHI:H29
:OJ
jGI:G29
OIJpo.t Options
_ Ttle:
Hob
OK
:OJ
- c:.a~ - 1
FiGURAG.30