Estadistica Descriptiva e Inferencial - Vargas Sabadias PDF

Antonio Vargas Sabadlas
E STADISTICA DESCRlPTIVA
E lNFERENCIAL
COLECCIÓN CIENCIAYTECNICA.
estadística descriptiva e inferencial
Thi s One
BJ5Y-2AY-0R82
Antonio Vargas Sabadlas
Catedrático de Matemáticas de I.B.

Profesor Asociado de la Universidad de Castilla-La Mancha
ESTADÍSTICA descriptiva
E INFERENCIAL
Universidad de Castilla-La Mancha

1995
VARGAS SABADÍAS. Antonio
Estadística descriptiva e inferencial / Antonio Vargas Sabadlas. — [Cuen-
ca] : Servicio de Publicaciones de la Universidad de Castilla-La Mancha.
1995.
576 p. ; 22 cm. — (Ciencia y técnica ; 8)
I.S.B.N.: 84-88255-87-X
1. Estadística matemática. I. Universidad de Castilla-La Mancha ed. II.
Título.
519.2
Edita: Servicio de Publicaciones de la

Universidad de Castilla-La Mancha
Diseño colección: García Jiménez

Diseño portada: C.I.D.I. (Universidad de Castilla-La Mancha)
© Antonio Vargas Sabadías

I.S.B.N.: 84-88255-87-X
Depósito Legal: MU- 105- 1996
Edición de: COMPOBELL. S.L. Murcia
A María Antigua, Antonio, Alberto y Aurelio.
por el regalo de un tiempo que les pertenecía
y la ilusión y el aliento que siempre encontré.
PROLOGO
La investigación, como proceso de resolución de problemas científicos, debe

aspirar en todo momento a la objetividad y a la universalidad. El investigador se
encuentra en numerosas ocasiones ante situaciones de incertidumbre, dependiendo
del azar los resultados de sus experimentos, lo que supone la necesidad de recurrir a
los métodos estadísticos.
Ante un experimento aleatorio, siempre hay una primera fase de observación y
recopilación de datos, cuya finalidad es la de darles una interpretación adecuada. En
este primer proceso, interviene la Estadística Descriptiva, cuyo objetivo es el de
resumir o describir numéricamente un conjunto de datos con el fin de facilitar esa
interpretación.
Sin embargo, no es suficiente la obtención de unas características que permitan
sintetizar los resultados de la experimentación y el buen uso de la práctica operacional.
La imposibilidad, por distintas razones, de hacer un estudio de todos los indivi
duos de la población, obliga a seleccionar de modo conveniente un número relativa
mente pequeño de datos, desde cuyo conocimiento se pretende extraer conclusiones
acerca de la población completa.
Interviene entonces la Estadística Inferencial, que permite realizar inferencias
acerca de las características de los individuos de la población a partir de las caracte
rísticas de una muestra de la misma.
Los métodos propios de la Estadística Inferencial. haciendo la selección de las
muestras, creando estrategias y controles para hacer mínimo el error, son las técnicas
que usa una buena parte de la investigación de las Ciencias de la Naturaleza, de la
Sociología, Psicología, Medicina, Ciencias de la Educación,...
El contraste de hipótesis es una herramienta poderosa para realizar inferencias a
partir de la información proporcionada por una muestra, supuesta una hipótesis de
nulidad inicial, que es rechazada únicamente cuando su veracidad implica unos
resultados «suficientemente improbables».
El concepto de probabilidad proporciona una medida de lo que se entiende por un
suceso «suficientemente improbable», aportando la razón para utilizar la Estadística
Descriptiva como soporte en el que se apoya la Estadística Inferencial.
10
Las consideraciones que acabo de hacer, mi propia experiencia docente con

estudiantes y la colaboración en trabajos con algunos compañeros que se sirven de
estas técnicas en sus tareas investigadoras, han orientado el diseño de este libro, que
no pretende ser un tratado teórico-matemático ni tampoco un simple formulario. La
intención de conseguir el punto medio, de equilibrio entre ambos extremos, pero
capaz de trasmitir un conocimiento profundo del proceso estadístico, es, tal vez, la
razón última de este texto.
Se distinguen, en él, tres partes fundamentales: la primera, sobre «Estadística
Descriptiva», comprende los seis primeros capítulos y estudia las características
fundamentales de localización, dispersión y forma de una distribución estadística de
uno y de dos caracteres, abordando también los problemas de regresión y correlación.
Los diversos tipos de gráficos estadísticos son descritos, situándolos en función
de los tipos de caracteres y de sus modalidades, como un complemento que facilita el
análisis exploratorio de los datos.
La segunda parte, «Nociones sobre Cálculo de Probabilidades», es abordada en
los capítulos séptimo y octavo, y contiene aquellos conceptos básicos de probabilidad
y variable aleatoria, y el estudio de las distribuciones discretas y continuas necesarias
para enlazar de un modo coherente, sin grandes brusquedades, con la «Estadística
Inferencial», que constituye la parte tercera y fundamental del libro, a la que se
dedican otros seis capítulos.
En todo momento, he procurado dar un enfoque didáctico a los temas tratados,
introduciendo la mayor parte de los conceptos a través de ejemplos sencillos de la
vida diaria.
Para evitar que el discurso del razonamiento se aparte de la idea central, en ocasio
nes he pasado algún proceso de demostración al final del capítulo en forma de apéndice.
La estrategia del contraste de hipótesis es analizada en sus diversas acepciones:
ésta es la herramienta fundamental de que dispone el investigador para inferir los
resultados de sus experiencias a la población, confiriéndoles un carácter de universa
lidad y generalidad.
El análisis de la varianza, los contrastes de bondad de ajuste, independencia y
homogeneidad de la varianza. así como algunos de los contrastes no paramétricos, de
uso cada día más frecuente, son también tratados y valorados con detalle.
El problema de regresión y correlación ha requerido dos capítulos. En el capítulo
decimocuarto, se complementa el contenido del sexto desde el punto de vista
inferencial. Son muchos los trabajos de investigación que descuidan este aspecto, lo
que les resta generalidad.
La potencia del contraste, que da solidez y rigor a las conclusiones, se aborda
desde su acepción conceptual y se resuelve de modo sencillo mediante la tabla
estadística de Welkowitz. aportando la relación entre ambos métodos.
Toledo, febrero de 1995. El Autor

índice de materias
INTRODUCCIÓN 23
1.1. Sumas indicadas 23
1.2. Sumas dobles 27
PRIMERA PARTE: ESTADÍSTICA DESCRIPTIVA
1. DISTRIBUCIONES Y GRÁFICAS 33
1.1. Concepto y términos 33
1.2. Población, muestra e individuo 33
1.3. Caracteres y modalidades 34
1 .4. Variable estadística 35
1.5. Distribución de frecuencias 35
1.5.1. Frecuencia absoluta y relativa 36
1.5.2. Propiedades de las frecuencias 36
1.5.3. Frecuencias acumuladas 36
1.6. Parámetros y estadísticos 37
1.7. Tablas estadísticas 37
1.7.1. Tabla de una variable estadística discreta 38
1.7.2. Agrupación en clases 39
1.7.3. Tabla de una variable estadística continua 43
1.8. Representaciones gráficas 44
1.8.1. Representaciones de caracteres cualitativos 44
1.8.2. Representaciones de caracteres cuantitativos 49
1.8.2.1. Diagramas diferenciales 49
1.8.2.2. Diagramas integrales para variable discreta 53
1.8.2.3. Diagramas integrales para variable continua 54
1.9. Simetría y sesgo 56
1.10. Modalidad 56
1.11. Apuntamiento 57
12
1.12. Ejercicios propuestos 57
2. CARACTERÍSTICAS DE POSICIÓN 63
2.1. Características de una distribución de frecuencias 63
2.2. Características de tendencia central 64
2.3. Media aritmética 65
2.3.1. Definición en el caso discreto 65
2.3.2. Propiedades de la media aritmética 66
2.3.3. Definición en el caso continuo 68
2.3.4. Ventajas e inconvenientes de la media aritmética 70
2.4. Otros valores medios 70
2.4.1. Media geométrica 70
2.4.2. Media cuadrática 72
2.4.3. Media armónica 73
2.4.4. Relación entre las distintas medias 74
2.5. Percentiles. Mediana 75
2.5.1. Definiciones 75
2.5.2. Cálculo de la mediana 76
2.5.2.1. Comportamiento de la mediana 79
2.5.3. Problema inverso 80
2.6. Cuartiles, quintiles y deciles 81
2.7. Moda 81
2.7.1. Definición 81
2.7.2. Cálculo de la moda 82
3. CARACTERÍSTICAS DE DISPERSIÓN Y FORMA 89

3.1. Dispersión o variabilidad 89
3.2. Medidas de dispersión absolutas 90
3.2.1. Recorrido 90
3.2.2. Desviaciones cuartílicas 90
3.2.2.1. Recorrido intercuartflico 91
3.2.2.2. Recorrido semiintercuartílico 91
3.2.3. Diferencias y desviaciones 92
3.2.4. Varianza y desviación típica 93
3.2.4.1. Definiciones 94
3.2.4.2. Propiedades de la varianza 94
3.2.4.3. Propiedades de la desviación típica 96
3.3. Medidas de dispersión relativas 97
3.3.1. Coeficiente de apertura 98
3.3.2. Recorrido relativo 98
13
3.3.3. Coeficiente de variación de Pearson 98

3.3.4. Coeficiente de variación media 99
3.4. Momentos 100
3.4.1. Momentos centrales 101
3.4.2. Momentos respecto al origen 101
3.4.3. Cálculo de momentos 102
3.5. Análisis de la forma 103
3.5.1. Coeficiente de asimetría de Fisher 104
3.5.2. Coeficiente de asimetría de Pearson 105
3.5.3. Coeficiente de asimetría de Bowley 105
3.5.4. Coeficiente absoluto de asimetría 105
3.5.5. Medidas de apuntamiento o curtosis 105
3.6. Medidas de concentración 107
3.7. Variable tipificada 109
3.8. Puntuaciones derivadas 1 10
3.8.1. Puntuaciones T 111
3.8.2. Puntuaciones SAT 111
3.9. Correcciones de agrupamiento de Sheppard 112
3.10. Ejercicios propuestos 1 13
Apéndice al capítulo 3: Demostración de las propiedades 117
4. ANÁLISIS EXPLORATORIO DE DATOS 119

4.1. Estadística exploratoria 1 19
4.2. Principios fundamentales 1 20
4.3. índices de localización resistentes 121
4.3.1. Promedios de cuartiles 121
4.3.2. Trimedia 121
4.3.3. Medias recortadas 121
4.4. índices de dispersión 123
4.4.1. Rango intercuartílico pseudo-tipificado 123
4.4.2. Indice de variación cuartílica 124
4.5. índices de forma 124
4.5.1. índice de simetría de Yule 124
4.5.2. Indice de simetría de Kelly 125
4.5.3. índice de curtosis 125
4.6. Diagrama de tronco y hojas 126
4.7. Cuartos y octavos 130
4.8. Datos anómalos 132
4.9. Gráfico en caja y extensión 133
4.10. Promedios de simetría 135
4. 1 1 . Transformaciones de datos 136
14
4.11.1. Transformaciones de potencias 137

4.11.2. Método de la pendiente para determinar la potencia 138
4.11.3. Transformaciones de raíz cuadrada 140
5. DISTRIBUCIONES BIVARIANTES 145

5.1. Análisis de dos caracteres 145
5.2. Distribución conjunta 145
5.2.1. Propiedades de las frecuencias 146
5.3. Tablas estadísticas 146
5.4. Distribuciones marginales 147
5.4.1. Distribución marginal según el carácter X 147
5.4.1.1. Propiedades 147
5.4.2. Distribución marginal según el carácter Y 148
5.4.2.1. Propiedades 148
5.5 Distribuciones condicionadas 149
5.5.1. Propiedades 150
5.6. Medidas de posición y de dispersión 150
5.7. Dependencia e independencia funcional 154
5.7.1. Independencia 154
5.7.2. Dependencia 155
5.8. Momentos 157
5.8.1. Momentos centrales o respecto de las medias 157
5.8.3. Primeros momentos 158
5.8.4. Propiedades 158
5.8.5. Covarianza 160
5.8.5.1. Propiedades de la covarianza 161
5.9. Poblaciones pequeñas 161
5.10. Representaciones gráficas 163
5.11. Los dos caracteres son cualitativos 163
5.11.1. Los dos caracteres presentan más de dos modalidades 164
5.11.2. Uno de los caracteres es dicotómico 166
5.12. Un carácter es cualitativo y el otro cuantitativo 167
5.13. Los dos caracteres son cuantitativos 170
5.13.1. Las dos variables son discretas 170
5.13.2. X es una variable continua e Y discreta 171
5.13.3. Las dos variables son continuas 172
5. 13. 3.1. Representación mediante puntos 172
5.1 3.3.2. Estereograma 173
5.14. Diagrama de dispersión 174
1?

Apéndice al capítulo 4: Demostración de las propiedades de las frecuen
cias condicionadas y de los momentos 180
6. REGRESIÓN Y CORRELACIÓN 183

6.1. Dependencia aleatoria y funcional 183
6.2. Regresión y correlación 184
6.3. Métodos de ajuste 185
6.3.1. Ajuste por el método de mínimos cuadrados 185
6.4. Regresión lineal 186
6.4.1. Recta de regresión de Y sobre X 187
6.4.2. Recta de regresión de X sobre Y 189
6.4.3. Coeficientes de regresión y covarianza 190
6.4.4. Predicciones 190
6.5. Correlación 192
6.5.1. Coeficiente de correlación general de Pearson 193
6.5.1.1. Propiedades del coeficiente de correlación gene
ral de Pearson 193
6.5.2. Coeficiente de correlación lineal de Pearson 194
6.5.2.1. Interpretación del coeficiente de correlación linea1. 195
6.5.2.2. Cálculo del coeficiente de correlación lineal 196
6.5.3. Variables incorreladas 198
6.5.4. Correlación y causalidad 199
6.6. Otros coeficientes de correlación 200
6.6.1. Coeficiente de correlación de Spearman 200
6.6.2. Coeficiente de correlación biserial puntual 201
6.6.3. Coeficiente O 202
6.6.4. Correlación tetracórica o de atributos 204
6.7. Regresión y series de tiempo 205
6.8. Regresión parabólica 206
6.9. Regresión exponencial y geométrica 208
6.10. Ejercicios propuestos 21 1
Apéndice al capítulo 6: Demostración de las propiedades del coeficien
te de correlación lineal de Pearson 215
SEGUNDA PARTE: CÁLCULO DE PROBABILIDADES
7. PROBABILIDAD Y VARIABLE ALEATORIA 219

7.1. Experimentos aleatorios 219
7.2. Operaciones con sucesos 220
7.2.1. Propiedades de la unión e intersección de sucesos 221
16
7.2.2. Otras operaciones y relaciones entre sucesos 223

7.2.3. a-álgebra de sucesos 224
7.3. Frecuencia de un suceso 226
7.4. Definición de Probabilidad 227
7.4.1. Propiedades de la probabilidad 227
7.4.2. Asignación de probabilidades 229
7.5. Ejercicios resueltos 230
7.6. Probabilidad condicionada 232
7.6.1. Sucesos dependientes e independientes 234
7.7. Teoremas de la probabilidad total y de Bayes 236
7.8. Variable estadística y variable aleatoria 238
7.9. Concepto de variable aleatoria 238
7.9.1. Variable aleatoria discreta y continua 239
7.10. Distribuciones discretas 240
7.11. Distribuciones continuas 242
7.12. Esperanza matemática 244
7.12.1. Esperanza de una función de una variable aleatoria 246
7.12.2. Propiedades de la esperanza matemática 246
7.13. Varianza y desviación típica 247
7.13.1. Propiedades de la varianza 248
7.14. Teorema de Tchebycheff 249
7.15. Cambio de variable 252
7.15.1. Cambio de variables aleatorias discretas 252
7.15.2. Cambio de variables aleatorias continuas 253
7.16. Momentos 254
7.16.2. Momentos centrales 254
7.17. Función generadora de momentos 255
8. MODELOS DE DISTRIBUCIONES 263

8.1. Distribuciones probabilísticas 263
8.2. Distribuciones discretas 264
8.2.1. Distribución uniforme 264
8.2.2. Distribución binomial 265
8.2.2.1. Ajuste de una distribución de frecuencias por una
binomial 269
8.2.3. Distribución de Poisson 270
8.3. Distribución normal general 273
8.3.1 Propiedades 275
8.3.2. Representación gráfica de la normal general 275
17
8.4. Distribución normal tipificada 277

8.4.1. Propiedades de la normal tipificada 277
8.4.2. Representación gráfica de la normal tipificada 277
8.4.3. Función de distribución 278
8.4.4. Áreas bajo la curva normal 279
8.5. Aproximación de la binomial 284
8.6. Ejercicios Propuestos 287
Apéndice al capítulo 8: Demostración de las propiedades de la distri
bución normal 290
TERCERA PARTE: ESTADÍSTICA INFERENCIAL
INFERENCIA ESTADÍSTICA 295

9.1. Fundamento teórico 295
9.2. Objetivos 295
9.3. Población y muestra 297
9.4. Muestreo aleatorio 297
9.5. Muestreo aleatorio simple 298
9.6. Estadístico 299
9.7. Distribución de los estimadores 301
9.8. Error típico 302
9.9. Propiedades de los estimadores 302
9.10. Distribución de la media muestral 303
9.11. Grados de libertad de un estadístico 305
9.12. Estimación puntual 305
9.12.1. Estimadores para una distribución normal 306
9.12.2. Estimadores para una población binomial 307
9.12.3. Estimadores para una distribución de Poisson 308
9.12.4. Estimadores de la diferencia de medias 309
9.12.5. Estimaciones del cociente de varianzas 311
9.12.6. Estimadores de la diferencia de datos apareados 312
9.12.7. Estimación de la diferencia de proporciones 313
9.13. Estimación por intervalos 314
9.14. Planteamiento general de un intervalo de confianza 315
9.14.1. Intervalo de confianza para la media de una distribución
normal de varianza conocida 316
9.14.2. Intervalo de confianza para la media de una distribución
normal de varianza desconocida 319
9.15. Relación entre la estimación puntual y por intervalo 321
9.16. Selección del tamaño de la muestra 322
9.17. Intervalo de confianza para la varianza 323
-18
9.18. Intervalo para la razón de varianzas 324

10. CONTRASTES DE HIPÓTESIS 331

10.1. Consideraciones previas 331
10.2. Contraste de hipótesis sobre la media de una distribución 331
10.2.1. La desviación típica es conocida 332
10.2.2. La desviación típica no es conocida 336
10.3. Contraste de hipótesis unilateral 337
10.4. Relación entre contrastes e intervalos de confianza 339
10.5. Potencia de un contraste de hipótesis 342
10.5.1. Idea de potencia 342
10.5.2. Variables que intervienen para fijar la potencia 343
10.5.3. Cálculo de la potencia 344
10.5.4. Factor de equilibrio 346
10.5.5. Cálculo práctico de la potencia 346
10.5.6. Curva de potencia 348
10.5.7. Selección del tamaño de la muestra 349
11. DIFERENCIAS DE MEDIAS Y PORCENTAJES 355

11.1. Método de trabajo 355
11.2. Inferencias sobre diferencias de medias 356
1 1 .3. Muestras independientes 358
11.3.1. Contraste de diferencias con muestras grandes 358
11.3.1.1. Análisis de los resultados 360
11.3.1.2. Intervalo de confianza 361
11.3.1.3. Potencia del contraste 362
11.3.1.4. Gráfico de caja y extensión múltiple 366
11.3.2. Contraste de diferencia de medias con pequeñas muestras 367
1 1 .3.2. 1 . Contraste de diferencia de medias cuando las va
rianzas poblacionales son conocidas 367
11.3.2.2. Potencia del contraste 368
11. 3. 2. 3. Contraste de homogeneidad de varianzas para
muestras independientes 371
11. 3. 2.4. Contraste de diferencia de medias procedentes de
poblaciones homogéneas 373
1 1.3.3. Contraste de diferencia de medias procedentes de poblacio
nes no homogéneas 374
11.4. Diferencia de medias para muestras dependientes 377
11.4.1. Contraste de hipótesis 378
19
11.4.2. Intervalo de confianza 379

11.5. Inferencias sobre proporciones y porcentajes 379
11.5.1. Intervalo de confianza 381
11.5.2. Potencia del contraste 381
11.5.3. Determinación del tamaño de la muestra 382
11.6. Contraste de la diferencia de proporciones 383
12. AJUSTE, INDEPENDENCIA Y HOMOGENEIDAD 389

12.1. Contrastes con frecuencias 389
12.2. Test de bondad de ajuste 390
12.2.1. Restricciones en el uso de la x2 393
12.2.2. Pruebas de normalidad 394
12.2.2.1. Prueba de normalidad basada en la x2 394
12.2.2.2. Prueba de normalidad basada en los residuales ... 395
12.3. Pruebas de independencia 398
12.3.1. Corrección de Yates 402
12.4. Pruebas de homogeneidad 402
12.5. Prueba de igualdad de proporciones 404
12.6. Coeficientes de contingencia 406
12.6.1. Coeficiente <D 406
12.6.2. Coeficiente C 407
12.6.3. Coeficiente 4> de Cramer 407
1 2.7. Ejercicios propuestos 408
13. ANÁLISIS DE LA VARIANZA 411

13.1. Técnica del análisis de la varianza 411
13.2. Tipos de diseño 411
13.3. Análisis de varianza unidireccional 412
13.3.1. Modelo matemático 415
13.3.2. Variaciones intragrupo e intergrupos 416
13.3.3. Contraste de la F de Fisher-Snedecor 419
13.3.4. Cálculos y tabla resumen 420
13.3.5. Comparaciones múltiples 423
13.3.5.1. Prueba LSD ó t protegida 423
13.3.5.2. Prueba de Scheffe 424
13.3.5.3. Prueba de Duncan 426
13.3.5.4. Prueba de Tukey 427
13.3.6. Intensidad de la relación 428
13.4. Diseño factorial 428
13.4.1. Modelo matemático 429
20
13.4.2. Establecimiento de las hipótesis 431

13.4.3. Descomposición de las variaciones 432
13.4.4. Medias cuadráticas y contrastes 433
13.4.5. Cálculos y tabla resumen 434
13.4.6. Pruebas de comparaciones múltiples 439
13.4.7. Prueba de los efectos principales simples 439
13.4.8. Interpretación de los resultados 442
14. INFERENCIAS SOBRE REGRESIÓN LINEAL Y CORRELACIÓN 451

14.1. Fases en la construcción del modelo de regresión 451
14.2. El modelo de regresión lineal 452
14.3. Elección del modelo de regresión lineal 452
14.4. Estimadores de los parámetros de regresión 454
14.4.1. Comprobación de hipótesis 456
14.4.2. Contraste sobre el coeficiente de regresión mediante análi
sis de la varianza 456
14.4.3. Inferencias mediante la t de Student 460
14.4.4. Inferencias acerca de a 461
14.5. Intervalos para la respuesta media y para una sola respuesta 462
14.5.1. Intervalo para la respuesta media 462
14.5.2. Intervalo de predicción para una respuesta 464
14.6. Contraste sobre la linealidad del modelo de regresión 465
14.7. Estimación del coeficiente de correlación de Pearson 470
14.7.1. Contraste basado en la t de Student 471
14. 7. 1.1. Potencia del contraste 473
14.7. 1.2. Determinación del tamaño de la muestra 474
14.7.2. Coeficientes de determinación y de no alineación 474
14.7.3. Contraste del coeficiente de correlación basado en el análi
sis de la varianza 475
14.8. Contraste de la diferencia de coeficientes de correlación 476
15. CONTRASTES NO PARAMÉTRICOS Y DE DISTRIBUCIÓN

LIBRE 483
15.1. Consideraciones previas 483
15.2. Ventajas e inconvenientes de las pruebas no paramétricas 483
15.3. Pruebas basadas en rangos 485
15.3.1. Prueba de la suma de rangos 485
15.3.2. Prueba de Kruskal-Wallis 490
15.3.3. Prueba de Wilcoxon para dos muestras dependientes 494
21
15.4. Otras pruebas 497

15.4.1. Prueba de la mediana 498
15.4.2. Prueba de rachas de Wald-Wolfowit 501
15.4.3. Prueba de los signos 503
APÉNDICE A: Tablas estadísticas 509

Tablas estadísticas 509
APÉNDICE B: Teoría combinatoria 529

Combinatoria 531
B.1. Variaciones ordinarias 531
B. 1.1. Formación de las variaciones ordinarias 531
B.1.2. Número de variaciones ordinarias 532
B.2. Variaciones con repetición 533
B.3. Permutaciones 534
B.4. Permutaciones con repetición 534
B.5. Combinaciones 535
B.6. Combinaciones con repetición 536
APÉNDICE C: Otros modelos de distribución 537

Otros modelos de distribución 537
C.1. Función (gamma) 539
C.1.1. Distribución (gamma) 539
C.1.2. Distribución exponencial 540
C. 1 .3. Distribución X2 540
C.2. Distribución t de Student 542
C.3. Distribución F de Fisher-Snedecor 543
RESPUESTA A LOS EJERCICIOS 545
BIBLIOGRAFÍA 561
ÍNDICE ALFABÉTICO 567

INTRODUCCION
1.1. Sumas indicadas
La Matemática, en su afán por definir los conceptos con precisión y expresar los
razonamientos con claridad, emplea un lenguaje simbólico, que resulta difícil de enten
der si no se conoce bien el significado de los símbolos y signos de que se sirve.
Uno de los símbolos, que aparecerá profusamente a lo largo de las páginas de este
libro, es el símbolo de la suma indicada o «sumatorio», que representamos con la letra
griega Z (sigma mayúscula), y que emplearemos para expresar la suma de diversos
conjuntos de números.
Ejemplo 1. 1
Supongamos que un dependiente de unos grandes almacenes ha ido registrando

los ingresos por las ventas realizadas a lo largo del día, y que tiene almacenados los
datos en una variable con índice:
A =22600, A =15500, A =8250, A4=25200, A5=32400,
Ai representa el valor 22600 de los ingresos por la primera venta,
A, representa el valor 13500 de los ingresos por la segunda venta,
La variable con índice A define así el conjunto de los ingresos por ventas que ha
realizado el dependiente.
Para expresar la suma de todos los ingresos, se procede de acuerdo con el criterio
que establece la siguiente definición:
24
Definición 1.1: Dado el conjunto de números reales {A ,A„. ..,An} representa-

do por la variable con índice A , la expresión
(1)
¿x
indica la suma de todos sus elementos: A1+A,+...+An
y se debe leer como «la suma de» todos los valores que toma la variable A . empezan
do por el primero, A, (A, cuando i=l ) y terminando por el último, An (A, cuando i=n):
El índice inferior (i=l ) especifica que la suma empieza en A , y el índice superior
(i=n), colocado sobre la Z. señala el último de los sumandos.
La letra i, que hemos empleado para designar un índice genérico, es una variable
«muda», que puede reemplazarse por otra letra que no haya sido utilizada. Así:
n n n
lA, = lA,= lAk

i=l i=l k=1
La suma de todos los ingresos por ventas del dependiente de los grandes almace
nes se expresa como:
ÍA
que, una vez desarrollado, resulta:
5
Xa = A, + A, + A, + A, + A, = 22600+ 15500 + 8250 + 25200 + 32400= 103950
M
Una generalización de la definición 1.1 es la siguiente:
Definición 1.2: Consideremos el conjunto de los números reales { ArA„. ...A }.

y sean p y q dos números naturales, siendo p<q<n. La expresión
(2)
p,
indica la suma A +A ,+...+A
Esta nueva fórmula permite especificar sumas parciales de cualquier subconjunto

de un conjunto dado, sin más que señalar cuáles son el primero y el último de los
sumandos.
Volviendo al ejemplo 1. 1 , la expresión
Xa
25
representa la suma de los ingresos por los artículos vendidos en segundo, tercero y
cuarto lugar:
4
X A. = 1 5500 + 8250 + 25200 = 48950
La especificación del primero y del último de los índices es importante. Sin embar
go, en muchas ocasiones no se especifican. Cuando suceda esto, debe entenderse
que la suma se extiende a todos los elementos del conjunto que define la variable A.
Propiedades
1. 'Z(X + Y)=^X + ^Y [3]
Esta propiedad nos dice que, si cada sumando de una suma indicada se descom
pone en dos, el valor de ésta es el mismo que se obtiene de sumar los resultados de
las dos sumas parciales.
Ejemplo 1.2
Supongamos que el dependiente de los grandes almacenes del ejemplo I.1 cobra
por separado el importe neto del producto y el impuesto (IVA) que lo grava. Los
ingresos anteriores vendrían ahora desglosados en la forma:
Valor del artículo (X) 0179 13839 7366 22500 28929

IVA(Y) 2421 1661 884 2700 3471
Precio de venta (A) 2600 15500 8250 25200 32400
siendo A=X+Y
i i i
La suma de los valores de los artículos libres de impuesto es:

tx=20179+13839+7366+22500+28929=92813
y la suma de los impuestos (IVA) de los artículos:
X^ = 2421 + 1661 + 884 + 2700 + 3471 = 1 1 137

Comprobamos que efectivamente es
5 5 .5
X*,+X^ =92813+ 11 137= 103950 = XA

26
II. X(x-y) = lx-ly (4)
Esta propiedad nos indica que, para hallar el precio neto, es igual sumar los pre
cios de venta de los artículos por un lado y los impuestos por otro y restar, que sumar
las diferencias entre el precio de venta y el IVA de cada uno de los artículos:
5 5
Xa, -X*;. =103950-11137=92813
X (A, -Y,)= 20179 + 13839 + 7366 + 22500+ 28929 = 92813
III. Si k es una constante
lkA, = klA, (5)
Así, por ejemplo, si todos los precios se multiplican por 2, el precio total será
también el doble. Esta propiedad se conoce como «distributiva», y es la que permite
sacar factor común:
J 5
¿2Aí=2A1+2A2+2A3 + 2A4+2A5 = 2(a,+A2+A3+A4+A5) = 2Xa¡
IV. Si k es una constante
%k = M (6)
Lo comprobamos para k=7:

5
^7 = 7 + 7 + 7 + 7 + 7 = 5x7 = 35
Como caso particular, tenemos

N
(7)
V. Si k es una constante
N N
X(Ai-k) = X,Ai-Nk (8)

27
La expresión (8) surge de aplicar (4) y luego (6):

N N N n
Nos interesa ahora resaltar dos reglas que no cumple la suma indicada:
1) YXY*(YX)(1Y)
es decir, no se obtiene el mismo resultado si se multiplica primero cada valor de X por
cada valor de Y, sumando a continuación los productos, que si se suman, por un lado
las X, y, por otro las Y, multiplicando a continuación las dos sumas.
Tampoco es igual la suma de los cuadrados de los valores de X y el cuadrado de
su suma.
2) 1X2*(1X)2
Ejemplo I.3
Si tenemos los valores X =2, X,=6, X =7 e Y=3, Y,=5, Y,=4, será:

£aT = 2x3 + 6x5 + 7x4 = 6 + 30 + 28 = 64
(X*)(5^) = (2 + 6 + 7)x(3 + 5 + 4)=15xl2=180
lo que demuestra la desigualdad 1 ).
Asimismo ^X2 =22 +62 +72 =4 + 36 + 49= 89
mientras que (X*)2 =(2 + 6 + 7). = 152 =225

lo que prueba la desigualdad 2).
1.2. Sumas dobles
Son también numerosas las ocasiones en que nos encontramos con variables con
dos índices. Vamos a servirnos de un ejemplo sencillo para que el lector no habituado
a tratar con matrices descubra la necesidad y el modo de trabajar.
Ejemplo I.4
Supongamos que un almacenista tiene cuatro tipos de artículos clasificados por el

año de antigüedad (según los tres últimos años). Una tabla de doble entrada (4 filas
por 3 columnas) le permite representar fácilmente sus datos, que serán guardados en
una variable con dos índices:
28
Años de antigüedad
1 2 3
Artículos 1 >
2
3
4 >>>
A representa el precio del artículo 1 con 1 año de antigüedad, Ai2 representa el

precio del artículo 1 con 2 años de antigüedad,...
Si sustituimos los símbolos de las variables (las A ) por los valores que represen
tan, quedará la matriz numérica:
1 2 3
1 50 60 35
2 25 30 10
3 16 10 14
4 12 8 24
que, realmente, es un cuadro de números ordenados por filas y por columnas. Los
elementos de la primera fila son los precios del artículo 1 según el año de antigüedad:
50, 60, 35; los elementos de la primera columna son los precios de cada artículo con un
año de antigüedad,...
Cuando el número de filas(m) y de columnas(n) es grande, una manera de repre
sentar la suma de todos los elementos de la matriz es mediante la expresión:
(9)
que, en el ejemplo I.4, es
M ¡=1
Por tratarse de sumas de números que cumplen las propiedades asociativa y

conmutativa, el resultado es el mismo cualquiera que sea el orden que sigamos para
sumar.
Se puede proceder comenzando por sumar, en primer lugar, los elementos de cada
columna, y después hallar la suma de sus resultados, o bien comenzar por la suma de
las filas, para después sumar sus totales.
Si sumamos primero las columnas, resulta:

29
4 3 4 í 3 "\ 4 4 4 4
XXa„=X Xa„ =X(a, + An + A.,)=Xa.i + Xa,2 + Xa.3 =

i=l i=i ,.1 l i.1 J i-l i=l i=l i=l
= (An + A2i + A.m + Aii) + (A12 + A22 + A35 + A42) + (A13 + A23 + A33 + A43) =
= (50 + 25 + l6 + 12) + (60 + 30 + 10 + 8) + (35 + 10 + 14+24) = 103 + 108 + 33 = 294
Empezando por la suma de las filas:

4 J 3 ( 4 \ 3 3 3 .í J
XX A/ = X X^, = XU, + A2; + A3J + A„) = Ia,j + XA2, + 2,A,, + XaJ,

./ /./ V./.1 / ;.'
= (A/, + A« + A,.i) + fA2i + A22 + AuJ + M.i/ + A» + A.it) + (A4/ + A42 + A4.l) =
= (50 + 60 + 35) + (25 + 30 + 10) + ( 16 + 10 + 14) + (12 + 8 + 24) = 145 + 65 + 40 + 44 = 294
Hemos comprobado, por tanto, que el resultado es el mismo cualquiera que sea el
orden que sigamos para sumar, lo que podemos expresar mediante la fórmula:
rn n m f n \ ( m \
XX\o
,.i ¡.i
=X
,.i
Xa, -i ,»1Xa„ ) (10)
Propiedades de la suma doble
I. Si k es constante, II* A« = * IS Ao (11)
Esta propiedad resulta evidente, ya que la constante se puede sacar factor común
en las sumas simples, según hemos visto en (5). También resultan fáciles de compro
bar las siguientes:
II. IE(a,±B,)-IXA|±XXBi (12)

rn n
III. XXk - nink = Nk. si mn= N. (13)
nr n
IV X X I = mn = N, si mn = N. (14)
,.1 i.i
V. Cuando cada uno de los términos a es un producto de dos factores de la forma

b.c, donde cada factor depende de uno de los índices, la suma doble se puede
expresar como producto de sumas simples:
( m \f a
XXbiC¡= Xb, Le, (15)
1.1 i.' \\-\ )\r-\ )
M)
Ejemplo 1.5
r 4 >
J 3
í' ^
15>4i = 1 3, 14. = (3+32+33 + 3^X4 + 42+4')= 120-84 = 10080
,=l j=1 .-, > \» )
En ocasiones, interesa obtener sumas parciales de una suma doble, como puede
ser, en el ejemplo 1.4, la suma de los precios de todos los artículos con un año de
antigüedad (que se corresponde con la suma de los elementos de la primera columna
de la tabla):
4
5X¡ = An +A^1 +AH +A4l = 103

1=1
o la suma de los precios de los artículos 1 y 2 (suma de las dos primeras columnas):
4
PRIMERA PARTE
ESTADÍSTICA DESCRIPTIVA
CAPITULO 1
DISTRIBUCIONES Y GRÁFICAS
1.1. Concepto y términos
Podemos definir la Estadística Descriptiva como un método para describir numéri

camente conjuntos numerosos.
Por tratarse de un método de descripción numérica, la Estadística Descriptiva
utiliza el número como medio para describir un conjunto, que debe ser numeroso, ya
que las permanencias estadísticas no se dan en los casos raros. No es posible, por
tanto, sacar conclusiones concretas y precisas de los datos estadísticos.
La Estadística Descriptiva se inicia con los trabajos que realiza John Graunt sobre
la natalidad y mortalidad en Londres en el período que va de 1604 a 1661 . Debido a su
origen, los términos que se utilizan son propios del ámbito de la Demografía.
Conviene hacer una distinción entre lo que llamamos Estadística Descriptiva Di
recta, que pretende describir las características relevantes de un conjunto de datos, y
la Estadística Inferencial, que utiliza técnicas especiales para conocer los elementos
de un conjunto a partir de los datos de un subconjunto del mismo.
Francis Galton y Karl Pearson, en los últimos años del siglo XIX y en los primeros
del siglo XX. sientan las bases de la Estadística Inferencial, cuyas técnicas se aplican
hoy a casi todos los dominios de la investigación científica, como son la Medicina,
Biología, Economía, Ciencias de la Educación, Psicología, Química,...
La inferencia estadística intenta tomar decisiones basadas en la aceptación o el
rechazo de ciertas relaciones que se toman como hipótesis. Esta toma de decisiones
va acompañada de un margen de error, cuya probabilidad está determinada.
1 .2. Población, muestra e individuo
Llamamos población o universo al conjunto de los elementos que van a ser obser
34
vados en la realización de un experimento. Cada uno de los elementos que componen

la población es llamado individuo o unidad estadística.
Los individuos no tienen por qué ser personas, sino que pueden ser objetos
cualesquiera. Estos objetos pueden ser simples, como lámparas, automóviles, niños,...
o colectivos, como familias de personas, equipos de fútbol....
Atendiendo al número de elementos que la componen, una población puede ser
finita o infinita. Aún en el caso de una población finita, el número de individuos que
la forman puede ser suficientemente grande como para que no puedan ser observados
todos ellos.
En otras ocasiones, no es posible la observación de todos los individuos de la
población debido al coste que ello supone. En estas situaciones, se trabaja con un
subconjunto de elementos de la población al que denominamos muestra. El número
de elementos de la muestra es su tamaño.
1.3. Caracteres y modalidades
Se llama carácter de un individuo a cada una de las facetas bajo las cuales éste
puede ser analizado. El carácter es, por tanto, una propiedad que permite clasificar a
los individuos de la población.
Así, por ejemplo, los estudiantes de una universidad pueden ser analizados, entre
otros, según los siguientes caracteres: sexo, edad, cociente intelectual, calificaciones
en una determinada asignatura, estatura, peso,...
Un mismo carácter puede presentar distintas situaciones, a las que llamaremos
modalidades de dicho carácter. Así, el carácter sexo presenta dos modalidades: sexo
masculino y sexo femenino.
Aquellos caracteres que sólo admiten dos modalidades, como el sexo, se llaman
dicotómicos.
A) Propiedad fundamental:
Las diversas modalidades de un mismo carácter deben ser incompatibles y

exhaustivas
es decir, cada uno de los individuos de la población debe tener una y sólo una de las
modalidades del carácter.
Para un mismo carácter, el número de modalidades que pueden ser analizadas es
variable. Así, el estado matrimonial de una persona puede considerarse bajo dos
modalidades: casado o soltero; tres modalidades: casado, soltero, viudo; cuatro mo
dalidades: casado, soltero, viudo, divorciado; cinco modalidades: casado, soltero,
viudo, divorciado, separado;...
35
B) Tipos de caracteres:
Es conveniente distinguir entre dos tipos de caracteres: cualitativos y cuanti

tativos.
Un carácter se dice cuantitativo cuando sus diversas modalidades pueden ser

medidas o numeradas. La talla, el peso, la edad, el diámetro de una pieza circular,... son
caracteres cuantitativos.
Un carácter se dice cualitativo cuando sus distintas modalidades no son medibles
ni contables, sino que su variación se pone de manifiesto mediante cualidades que
presentan formas alternativas, como puede ser el estado matrimonial, el sexo,...
1 .4. Variable estadística
En el caso de un carácter cuantitativo, a cada modalidad del mismo se le asocia un

número. Esta correspondencia define lo que llamamos variable estadística, de modo
que los diferentes valores de las distintas modalidades son los posibles valores de
dicha variable estadística.
Cuando los valores posibles de la variable estadística son aislados, se dice que la
variable estadística es discreta. Constituyen una variable estadística discreta el núme
ro de miembros que pueden convivir en una misma familia, el número de goles que
consiguen los equipos de fútbol de la primera división en una jornada....
Si los valores posibles de la variable estadística son infinitos o es posible encon
trar individuos que los posean con una diferencia tan pequeña como se desee, se dice
que la variable estadística es continua.
El diámetro de una pieza circular, la capacidad de una bombona de gas butano, la
talla de los quintos de un reemplazo,... son ejemplos de variable estadística continua.
La distinción entre variable estadística discreta y continua es arbitraria. Suele
considerarse como continua una variable capaz de tomar gran número de valores,
aunque sean valores aislados, como pueden ser los salarios mensuales de los obreros
de una gran empresa.
1 .5. Distribución de frecuencias
La Estadística Exploratoria recomienda comenzar por el análisis de la estructura de

los datos. Se clasifican éstos de acuerdo con la modalidad del carácter a que pertene
ce cada uno de los individuos y se ordenan, anotando sus resultados en una tabla.
La ordenación de los datos en la tabla, acompañados de las frecuencias corres
pondientes, es lo que se llama distribución de frecuencias.
36
A continuación definimos el concepto de frecuencia y sus clases, y exponemos el

diseño general de una tabla estadística.
1.5.1. Frecuencia absoluta v relativa
Se llama frecuencia absoluta, n , de la modalidad C al número de individuos que

presentan dicha modalidad.
Se \lamafrecuencia relativa, f , de la modalidad Cal cociente de dividir su frecuen
cia absoluta, n¡, por el número total de individuos de la población, N:
n (1)
A veces, la frecuencia relativa se da como porcentaje (frecuencia relativa referida

a 100 individuos), que se obtiene de multiplicar por 100 la frecuencia relativa:
P, = 100/ (2)
1.5.2. Propiedades de las frecuencias
Como las modalidades Cr C, Ck del carácter C son incompatibles y exhausti

vas, se verifica:
1. La suma de las frecuencias absolutas es igual al número de individuos de la
población:
X«, = N (3)
2. La suma de las frecuencias relativas es igual a 1:

,4,
I/-1
i k . k i
En efecto:
,-i N N ,=l N
1.5.3. Frecuencias acumuladas
Consideremos una población de N individuos, cuyo carácter C es cuantitativo.

Llamamos frecuencia absoluta acumulada en el valor x¡ a la suma de las frecuencias
absolutas de los valores menores o iguales a x^ y la representaremos por N :
37
(5)
Para obtener las frecuencias absolutas acumuladas, es conveniente ordenar los

valores de la variable x .
i
Llamamos frecuencia relativa acumulada en x. al cociente de dividir la frecuencia

absoluta acumulada por el número de observaciones; la representamos por F :
h,- N N tí '
1 .6. Parámetros y estadísticos
A partir de los datos estadísticos contenidos en la distribución de frecuencias se

obtienen unos valores numéricos, que se utilizan como resúmenes cuantitativos de la
misma, y que se denominan estadísticos o estadígrafos de la distribución. La media
aritmética, que después definiremos, es un estadístico.
Hay dos tipos de estadísticos: descriptivos e inferenciales.
Los estadísticos descriptivos son valores numéricos obtenidos a partir de los
datos de una distribución de frecuencias y que señalan una característica de la misma.
Los estadísticos inferenciales son también valores numéricos obtenidos a partir
de los datos de una distribución estadística, pero que se utilizan para proporcionar
información acerca de la población a que pertenece la muestra cuyos datos forman la
distribución.
Muchos de los estadísticos descriptivos son también utilizados como estadísticos
inferenciales. Por ahora sólo trataremos estadísticos descriptivos. El valor correspon
diente a un estadístico inferencial en la población se llama parámetro. La media arit
mética poblacional es un parámetro.
Los valores de los parámetros son. de ordinario, desconocidos, ya que las pobla
ciones suelen ser demasiado amplias para poder tener un conocimiento directo de
todos sus elementos. Por ello, los parámetros se estiman a partir de los datos de las
muestras, usando técnicas propias de la Estadística Inferencial.
1.7. Tablas estadísticas
Hecho el recuento de los individuos que pertenecen a cada modalidad del carácter
analizado, se recogen los datos ordenados en una tabla.
38
Los paquetes informáticos disponen de módulos orientados al diseño de tablas de

frecuencias, con opciones para dirigir la salida de resultados a la pantalla del ordena
dor, a la impresora o a un «plotter».
Supongamos una distribución de N individuos descrita según un carácter C que
presenta k modalidades CrC, C. La forma general de la tabla es:
Modalidades F. Absolutas F. Relativas Porcentajes
c, n, f, lOOxf,
c. n, f. lOOxf,
c1
n f i
lOOxf
q \ t; lOOxf^
Total N i 100%
Ejemplo 1.1
La tabla siguiente corresponde a la distribución de 50 personas atendiendo al

color de los ojos:
Modalidades F. Absolutas F. Relativas Porcentajes
Azules 16 032 32%

Verdes 12 0'24 24%
Castaños 14 0'28 28%
Negros 8 0'16 16%
Total 50 roo 100%
1.7.1. Tabla de una variable estadística discreta
Cuando el carácter estudiado es cuantitativo, si la variable estadística es discreta,

las modalidades del carácter son los posibles valores x, de éstas.
39
La tabla estadística correspondiente a una variable discreta se construye ordenan

do de menor a mayor los distintos valores de la variable y anotando en columnas
sucesivas las frecuencias absolutas, las frecuencias relativas y los porcentajes:
Valor de la variable F. Absoluta F. Relativa Porcentajes
"\ f lOOxf
lOOxf,
lOOxf
\ 100xfk
Total N 1 100%
La tabla estadística se completa añadiendo los valores de las frecuencias acumu

ladas, que se suelen situar sobre las líneas con el fin de facilitar su comprensión y los
cálculos posteriores.
Ejemplo 1.2
Elegida al azar una muestra de 50 familias de una ciudad española, se contabiliza

ron 7 familias sin hijos, 13 familias con un solo hijo, 15 con 2 hijos, 8 con 3 hijos y 7
familias con 4 ó más hijos.
La tabla, completada con las frecuencias acumuladas, es:
1 P%
0,14 14
7 0,14
13 0,26 26
20 0.40
15 0,30 30
35 0,70
0,16 16
43 0,86
4 ó más 0.14 14
50 1,00
Total 50 1,00 100%
40
1.7.2. Agrupación en clases
Para facilitar el estudio de los posibles valores de una variable estadística conti
nua, éstos se agrupan en clases o intervalos de clase, que constituyen las modalida
des del carácter.
Generalmente se toman los intervalos solapados de forma que cubran todos los
posibles valores de la variable; son intervalos semiabiertos (cerrados por la izquierda
y abiertos por la derecha).
Representaremos la i-ésima clase por
te,,,e,) (7)
donde e,, es el extremo inferior del intervalo y e es el extremo superior, que no forma
parte del mismo.
La amplitud de clase es la distancia entre sus extremos. La amplitud de la clase i-ésima
es, por tanto:
a.=e-e ,
t i i-i (8)
v f
Las clases pueden tener una amplitud constante o variable, aunque es aconsejable
elegir los intervalos con amplitud constante.
Así, las estaturas de una muestra de estudiantes pueden agruparse en clases de la
siguiente forma:
de 1,55 m. a menos de 1,65 m.
más de 1,85 m.
La amplitud de las tres primeras clases es de 10 cm., mientras que la amplitud de la
última clase es indeterminada. Se dice que esta clase es abierta. Los extremos de clase
son 1,55; 1,65; 1,75;... Los intervalos de clase son [l'55,r65), [l'65,r75),... La última
clase no tiene extremo superior.
La elección del número de clases depende del recorrido y de la amplitud de cada uno
de los intervalos. Se define el recorrido o rango de una variable estadística como la
diferencia entre los valores mayor y menor de la variable. Si lo representamos por R. es:
R = máx(x^ - mui(x) (9)
Se puede fijar el número de intervalos y deducir la amplitud de éstos o bien fijar la
amplitud y calcular el número de intervalos.
Si son todos los intervalos de amplitud constante a=a, el número n de intervalos
de clase, la amplitud y el recorrido verifican la relación:
n = R/a (10)
Se suele actuar de acuerdo con los siguientes criterios:
1) El número total de intervalos de clase debe estar comprendido entre 5 y 15. Si se
elige un número menor, pueden darse inexactitudes, y un número mayor de 15 compli
41
ca excesivamente el proceso. Si se tienen N observaciones, Sturges propone tomar

como número k de intervalos el valor
k=l+[3'3-logN] (11)
2) Siempre que sea posible, se debe procurar que todos los intervalos tengan la
misma amplitud. Cuando se elige previamente la amplitud de clase, se toma, como
valor de la misma, la raíz cuadrada del número de observaciones N:
N (12)
Se llama centro o marca de clase al punto medio de cada intervalo de clase. La
marca de la i-ésima clase es:
C'~ *'.., 2+ ''. (13)
Es conveniente disponer, al hacer los cálculos, de la distancia entre dos marcas de

clase consecutivas. La distancia entre las marcas de la clase i y de la clase i+1 viene
dada por:
¿-r e¡ + el'¡ e"+e' e±LJ» (14)
a,-cM ci- 2 ' 2 ~ 2
Cuando los datos están agrupados en clases, se considera que todos los indivi
duos pertenecientes a una clase tienen el valor que señala la marca de clase. Por este
motivo, la utilización de intervalos de clase, si bien supone una mayor comodidad en
los cálculos, también conlleva una pérdida de información, sobre todo si la distribu
ción de los datos en el intervalo no es homogénea.
Ejemplo 1.3
Se ha realizado un test para evaluar la capacidad de abstracción de un grupo de

treinta alumnos de primer curso de Bachillerato, obteniéndose los resultados que
figuran en el siguiente recuadro:
22 40 45 36 38 24 32 41 50 41 29 44 33 38 28
29 45 34 26 28 28 32 47 5041 36 31 24 30 36
Para construir la tabla de frecuencias, como el recorrido es 50-22=28, se pueden
elegir seis o siete clases. Si se opta por seis clases, los datos estarán agrupados de la
siguiente forma:
Intervalos Frecuencias
[22,27) 4
[2732) 6
[3237) 7
[37,42) 6
[42,47) 3
[47,52) 4
42
Es frecuente también el uso de intervalos que no están solapados, como pueden

ser las puntuaciones facilitadas por el siguiente ejemplo:
Ejemplo 1.4
Las calificaciones obtenidas por los alumnos de un colegio han sido reflejadas en
la siguiente tabla:
1-10 30
11-20 15
21-30 63
3140 84
41-50 50
51-60 46
61-70 32
71-80 14
Total 364
Es evidente que no están recogidas calificaciones no enteras, como puede ser una
puntuación de 50' 5 puntos, y, sin embargo, en alguna situación podría ser interesante
disponer de datos como éste.
Por ello, es conveniente elegir nuevos intervalos que contengan estos posibles
valores, manteniendo las frecuencias.
En este ejemplo, basta con tomar como extremos a los puntos medios entre los
extremos superior e inferior de cada dos intervalos contiguos, modificando también
los intervalos de modo que todos ellos tengan la misma amplitud.
La tabla de frecuencias para el ejemplo 1 .4. quedaría así:
0'5-10'5 30
10'5-20'5 15
20'5-30'5 63
30'540'5 84
40'5-50'5 50
W5-fti'5 46
60'5-70'5 32
70'5-80,5 14
Total 364
43
1.7.3. Tabla de una variable estadística continua
Si la variable estadística es continua, bien por su propia naturaleza, bien porque

así sea considerada, las modalidades del carácter son las diferentes clases elegidas,
que vienen determinadas por sus extremos.
Para facilitar la lectura y comprensión de los datos, las frecuencias acumuladas se
suelen situar sobre las líneas.
Las modalidades extremas a veces son imprecisas, lo cual no es problemático, ya
que las frecuencias correspondientes representan generalmente una fracción muy
pequeña de individuos.
Ejemplo 1.5
Una oficina de reclutamiento del ejército ha medido la estatura de 100 jóvenes de

reemplazo, obteniendo los siguientes resultados (en centímetros):
183 182 165 179 174 171 179 182 193 188 164 186 170 173 175 177 168
169 191 176 172 181 168 175 160 171 166 164 171 176 181 188 183 188
163 181 187 191 172 176 181 174 176 184 171 169 169 179 178 162 178
177 158 161 179 162 174 167 180 172 185 188 174 177 171 182 163 172
187 168 156 161 168 183 172 186 179 192 157 168 178 173 183 157 166
195 173 178 188 164 163 170 164 168 159 169 187 184 166 169
El recorrido es 195-156=39 cm. que. dividido entre 6. da un resultado próximo a 7.

Tomamos, por tanto, un número de 7 intervalos, cada uno con una amplitud de 6
centímetros.
Si completamos la tabla con las marcas de clase, frecuencias absolutas, frecuen
cias relativas, frecuencias acumuladas y porcentajes, queda:
KriroiiK Maros Frcab. Fre. ab. ac Fre.reL FrereLac Rirartajes
154-160 157 5 5 005 0'05 5%

160-166 163 13 18 0'13 018 18%
166-172 169 22 40 0'22 0'40 40%
172-178 175 21 61 0'21 0'61 61%
178-184 181 21 82 0'21 0'82 82%
184-190 187 13 95 0'13 0'95 95%
190-1% 193 5 100 0'05 roo 100%
Total 100 roo 100%
44
1 .8. Representaciones gráficas
La forma tabular de presentar la distribución de un carácter suele ir acompañada

de una gráfica. Un despliegue gráfico proporciona una impresión que ayuda a clarifi
car la variabilidad y simetría de la distribución que figura en la tabla de frecuencias.
Los programas informáticos permiten el uso de una amplia gama de gráficos esta
dísticos, cada uno de ellos con múltiples opciones especiales, que ayudan a determi
nar la estructura de los datos, a encontrar relaciones entre ellos e incluso a comprobar
ciertas hipótesis, de forma que hoy se están utilizando para hacer inferencias.
Los gráficos estadísticos, que constituyen una de las herramientas fundamentales
de que se sirve la Estadística Exploratoria, están siendo utilizados también en la Esta
dística Inferencial o Confirmatoria.
Hay diferentes tipos de gráficos que dependen, en general, de la naturaleza del
carácter estudiado:
/. Carácter cualitativo: En este caso, se suelen utilizar figuras geométricas, como
rectángulos o círculos: a esta categoría pertenecen los diagramas de rectángulos o
barras y de sectores. También se usan figuras no geométricas, como los pictogramas.
En las Ciencias de la Educación, es muy frecuente el uso de los perfiles ortogonal
v radial.
II. Carácter cuantitativo: Cuando el carácter es cuantitativo, hay diversos tipos
de representaciones, dependiendo además del hecho de que se estudie una o más de
una variable. Los tipos fundamentalmente son dos:
1) Diagrama diferencial: A esta categoría pertenecen el diagrama de barras o
rectángulos, en el caso discreto, y el histograma. en el caso continuo. A estos gráfi
cos se les asocia el polígono de frecuencias simples, que es usado en ambas situacio
nes, y la cuna de frecuencias en el caso continuo.
2) Diagrama integral: Dentro de esta categoría se encuentra el diagrama de
frecuencias acumuladas y el polígono de frecuencias acumuladas en el caso discre
to, y la cuna acumulativa de frecuencias u ojiva, en el caso continuo.
El análisis exploratorio de datos ha incorporado nuevos tipos de gráficos orienta
dos, unos a la detección de asimetrías, lagunas y anomalías, y otros con carácter
confirmatorio, que serán analizados en el capítulo que dedicamos al estudio de los
métodos exploratorios.
1.8.1. Representaciones de caracteres cualitativos
I. Diagrama de rectángulos
El diagrama de rectángulos se construye sobre un sistema de ejes cartesianos,

situando en uno de los ejes las distintas modalidades del carácter y en el otro los
valores de las frecuencias.
45
Para elegir la unidad de medida, se considera la frecuencia mayor y se toma como

máximo un valor próximo superior a ella. Así, si el mayor valor de la frecuencia fuese
9, se tomaría 1 0 como valor máximo sobre el eje correspondiente.
Sobre cada modalidad se levantan barras o rectángulos de la misma base, que, por
tratarse de datos discontinuos, no suelen estar solapados, y de altura proporcional a
la frecuencia de la modalidad (se toma habitualmente la altura igual a la frecuencia).
Según se sitúen las modalidades del carácter sobre el eje de abscisas o de ordena
das, se tendrán diagramas de rectángulos verticales u horizontales.
Ejemplo 1.6
La tabla siguiente contiene los datos de la distribución de 150 personas de 25 a 45

años de edad, según su estado civil.
Estado Soltero Casado Viudo Divorciado Religioso No declarado

Fr. absoluta 20 78 15 26 7 4
Se consideran las modalidades de soltero, casado, viudo, divorciado o separado,

religioso y no declarado. Las figuras 1.1 y 1.2 contienen los diagramas de rectángulos
vertical y horizontal correspondientes.
Figura 1.1. Diagrama vertical. Figura 1 .2. Diagrama horizontal.
II. Diagrama de sectores
El diagrama de sectores de una distribución se construye trazando una circunfe

rencia de radio arbitrario y dividiendo su círculo en sectores.
Cada sector circular se asocia con cada una de las modalidades del carácter, de
modo que el ángulo central de cada sector sea proporcional a la frecuencia de la
correspondiente modalidad.
46
Figura 1.3. Diagrama de .sectores.
A veces, al diagrama de sectores se le da una profundidad, lo que le confiere un

aspecto de «pastel circular», «gráfico en ruedas» o «queso en porciones», apelativos
con los que también se le denomina. Los diagramas de sectores se utilizan principal
mente en Demografía y en Geografía Económica.
III. Pictograma
En este tipo de gráfico, cada modalidad del carácter se representa por una figura
no geométrica, como puede ser un automóvil, un edificio, una herramienta de traba
jo,... de tamaño proporcional a su frecuencia.
Para evitar confusiones, según se tomen las frecuencias proporcionales a la longi
tud, a la superficie o al volumen de la figura, debe tenerse en cuenta que. si la razón
de las longitudes es de 1/r. la razón de las superficies es de 1/r y la de los volúmenes
de 1/r". Un procedimiento alternativo consiste en tomar un dibujo como modelo y
repetirlo un número de veces proporcional a la frecuencia de la modalidad correspon
diente.
Ejemplo 1.7
Consideremos la producción de determinado modelo de automóvil de una empresa

en sus diversas factorías en cuatro ciudades A. B. C y D:
Ciudad A B t D
N° de automóviles 500 KXX) 2000 3500
47
Representación alternativa:
A:
B:
C
l>.
IV. Perfiles
Los perfiles pueden adoptar forma radial, cuando las modalidades del carácter se
representan sobre radios que parten de un mismo punto, u ortogonal, cuando se
representan sobre unos ejes cartesianos.
La utilidad del perfil en el campo educativo se justifica por el hecho de captar, de
una vez. diversos rasgos o características del alumno.
Según los rasgos que se pretenden ilustrar, hay una gran variedad; hay perfiles
sobre intereses, aptitudes, rendimiento,... Los perfiles sobre rendimiento académico
reciben el nombre de nosogramas.
Los perfiles, realmente no son gráficos que correspondan a distribuciones de un
carácter. Sin embargo, los hemos incluido aquí, porque cabe la interpretación de las
calificaciones como valor de la frecuencia de cada asignatura.
A) Perfil ortogonal
Dado un sistema de ejes cartesianos, sobre el eje de abscisas se sitúan las diver
sas modalidades del carácter, como pueden ser las diversas asignaturas que cursa un
alumno: Matemáticas. Física, Química. Dibujo y Biología.
Sobre cada asignatura se marcan con un punto los valores correspondientes a
cada calificación. Uniendo los distintos puntos, se obtiene una línea quebrada, que
constituye el perfil ortogonal. Se suele completar la representación trazando alguna
paralela al eje de abscisas para resaltar un determinado aspecto.
Ejemplo 1.8
La siguiente tabla contiene las calificaciones de un alumno, cuyo perfil ortogonal

se muestra en la figura 1 .4.
4S
Asignaturas Calificaciones
Matemáticas 6 /
Física 5
Química 8
Dibujo 7
Biología 9
Figura 1 .4. Perfil ortogonal.
B) Perfil radial
Para construir el perfil radial, se fija un punto del plano como origen.
A partir de dicho punto se trazan tantos radios como
asignaturas, formando ángulos de la misma amplitud.
Sobre cada radio se toman segmentos proporciona
les a las calificaciones respectivas. La unión de los pun
tos extremos de los segmentos determina un polígono,
que constituye el perfil radial.
La figura 1 .5 muestra el perfil radial correspondiente
al ejemplo 1 .8.
Figura 1.5. Perfil radial.
VI. Cartograma
Se llama cartograma a la representación so

bre un mapa de las diversas modalidades del
carácter, que se corresponden con determina
das zonas geográficas.
Se trata de un método de representación por
superficies, que asigna a cada zona un área pro
porcional a la superficie representada.
Cada zona geográfica se diferencia de otra
por la intensidad luminosa, que viene marcada
por el efecto del color o del tipo de sombreado,
que le confiere una tonalidad específica.
Para que dos zonas geográficas se conside
Figura 1 .6. Cartograma. ren equivalentes deben tener la misma dimen
sión y la misma tonalidad.
No es conveniente utilizar más de 10 tonalidades diferentes en un cartograma; de
lo contrario se pierde claridad y no resulta fácilmente legible.
49
1.8.2. Representaciones de caracteres cuantitativos
1 .8.2. 1 . Diagramas diferenciales
I. Diagrama de barras o rectángulos
Cuando la variable estadística es discreta y toma pocos valores, el gráfico adecua

do es el diagrama de barras o rectángulos, que ya se trató en el caso de variables
cualitativas, con la diferencia de que ahora sobre el eje de abscisas se sitúan los
valores de la variable.
..',
Figura 1.7. Diagrama de barras para el ejemplo 1.2.
Si se utilizan barras, una vez colocados los valores de la variable en el eje de

abscisas, se levantan sobre ellos unos segmentos (barras) de altura igual a la frecuen
cia correspondiente.
Según se tome la frecuencia absoluta o relativa, la suma de las longitudes de
todos los segmentos será N ó 1.
II. Histograma
Cuando la variable estadística es continua, el diagrama diferencial que se utiliza es

el histograma, cuya representación está fundamentada en la proporcionalidad de las
áreas de rectángulos a las frecuencias de cada modalidad.
Para construir el histograma, se levanta sobre cada intervalo de clase un rectángu
lo de área proporcional a la frecuencia correspondiente a dicho intervalo.
Si se trata de intervalos de la misma amplitud, las alturas de cada uno de ellos se
toman iguales a las frecuencias correspondientes.
Cuando las amplitudes son diferentes, las alturas de cada rectángulo deben de ser
iguales a las frecuencias absolutas divididas por la amplitud correspondiente:
50
n¡
/> (15)
Se conoce este valor como densidad de frecuencia del intervalo [e¡ rei). El área del
rectángulo correspondiente a la clase i-ésima es, por lo tanto:
(16)
5, = — a,- = «,
a,
y la suma de las áreas de todos los rectángulos es:
(17)
S = ¿i,= /V
Si se toman frecuencias relativas, la suma de las áreas es igual a 1.
Ejemplo 1.9
Un grupo de 200 alumnos han sido calificados de 0 a 100 por un profesor, que
facilita los resultados agrupados en intervalos de diferente amplitud, según muestra la
siguiente tabla:
Calificac. Núm. alumnos

0-20 22
20-30 26
30-40 31
40-50 38
50-60 30
60-70 15
20 10 40 50 60 70 80 100
70-80 12
80-100 16 Figura 1.8. Histograma correspondiente al ejemplo 1.9.
Las amplitudes de los intervalos de clase son diferentes: la primera y la última

miden 20 unidades y el resto 10.
Tomamos la altura de cada rectángulo igual a la densidad de frecuencia:
Rectángulo Io: base =20, altura =11
T: " =10, " = 2'6
3o: " =10. " =3'1
8* = 20, = 0'8
El área total es:

S = 20x1' 1+10x2,6+...+20x0'8 = 200
51
III. Polígono de frecuencias simples
El polígono de frecuencias simples (o polígono de frecuencias) es el método grá

fico más utilizado para la representación de la distribución de un carácter, lo que se
debe a su fácil interpretación y a la sencillez de su realización.
Vamos a distinguir dos situaciones, según se trate de una variable discreta o
continua.
A) Variable discreta
En este caso, se trazan unos ejes cartesianos; sobre el eje de abscisas se sitúan
los valores de la variable estadística X, y sobre el eje de ordenadas se llevan los
valores de las frecuencias tal como se hizo para construir el diagrama de barras.
En lugar de trazar la barras
completas, ahora se señalan los
puntos superiores de las mis
mas; uniéndolos mediante seg
mentos rectilíneos, se consigue
el polígono de frecuencias.
Para que la gráfica no quede
colgada, se supone que hay dos
valores más de la variable con fre
cuencia cero, uno anterior al pri
mero de sus extremos y otro pos
terior al último. De esta forma, se
prolonga el polígono en dos seg Figura 1.9. Calificaciones en Física y Matemáticas.
mentos hasta que sus extremos
toquen el eje de abscisas.
Para hacer comparaciones, a veces sobre un mismo gráfico se representan los
polígonos de frecuencias correspondientes a dos o más distribuciones.
Ejemplo 1.10
La siguiente tabla contiene las frecuencias de las calificaciones, en Matemáticas y

Física, de un grupo de 40 alumnos de COU:
Calificaciones 2 3 4 5 6 7 8 9
Matemáticas 3 4 6 9 10 4 3 1
Física 4 5 9 6 6 6 2 2
La gráfica 1 .9. muestra los polígonos de frecuencias de ambas distribuciones.

52
B) Variable continua
Si la variable es continua, para construir el polígono de frecuencias, se admite que

la media de los valores correspondientes a cada intervalo se sitúa en el punto medio
del mismo, es decir, se hace coincidir la media de las puntuaciones de cada clase con
la marca de clase.
Los valores de las frecuencias se sitúan en los puntos medios de las bases supe
riores de cada uno de los rectángulos del histograma.
El polígono de frecuencias es
la poligonal que se obtiene de la
unión de estos puntos mediante
segmentos rectilíneos.
Como en el caso discreto, se
supone que existen dos interva
los de clase de frecuencia cero,
uno delante del primer intervalo
y el otro detrás del último, lo que
hace posible prolongar el polígo
no hasta tocar al eje de abscisas.
20 30 40 50 60 70 80 100 La figura 1.10. muestra el polí
gono de frecuencias correspon
Figura 1.10. Polígono de frecuencias para el ejemplo 1.9. diente a la distribución del ejem
plo 1 .9 superpuesto al histograma.
IV. Curva de frecuencias
El histograma de una distribución, cuando se toman frecuencias relativas, es tal

que la suma de las áreas de todos los rectángulos es igual a uno. Por ello, todos los
valores de la distribución están bajo la gráfica del polígono de frecuencias simples.
Se puede expresar, por tanto,
la población como el área bajo
esta gráfica, que está formada por
segmentos rectilíneos.
Los datos de una distribu
ción habitualmente forman parte
de una muestra extraída de una
población grande, cuyo conoci
miento es el objetivo final.
El polígono de frecuencias
simples, cuando aumenta el tama
ño de la muestra y se hacen más
Figura 1.11. Curva de frecuencias para el ejemplo 1.9.
53
pequeñas las amplitudes de los intervalos de clase, se aproxima a una curva de una
distribución teórica, llamada «curva de frecuencias».
La curva de frecuencias es una especie de polígono de frecuencias simples suavi
zado, que proporciona una representación aproximada de la distribución de la pobla
ción correspondiente.
1.8.2.2. Diagramas integrales para variable discreta
I. Diagrama de frecuencias acumuladas
Cuando la variable estadística es discreta, para construir el diagrama de frecuen

cias acumuladas, se dibujan unos ejes cartesianos. En el eje de abscisas se sitúan los
valores de la variable, y sobre ellos se toman segmentos perpendiculares de longitud
igual a la frecuencia acumulada.
El diagrama de frecuencias
acumuladas se consigue trazan
do segmentos de paralelas al eje
de abscisas a partir del extremo
superior de cada segmento per
pendicular hasta tocar al siguien ,
te situado a su derecha.
Esta gráfica se completa con
dos semirrectas horizontales,
una con origen en la base de la
primera barra dirigida hacia la iz
quierda, y la otra con origen en
la parte superior de la última ba Figura 1.12. Diagrama de frecuencias acumuladas.
rra y dirigida hacia la derecha.
También se pueden tomar porcentajes acumulados, en cuyo caso los valores so
bre el eje de ordenadas estarán comprendidos entre 0 y 100, siendo 100 la longitud de
la última barra. La línea quebrada (en escalera) así obtenida es la gráfica de una
función del conjunto de los números reales, R, en el intervalo cerrado [0,1], que a
cada número real x le hace corresponder la proporción de individuos cuya modalidad
del carácter es menor o igual a x:
F:9í-»[0,l]
Esta curva es conocida también como curva de distribución, y la función F como

función de distribución. La figura 1.12 recoge el diagrama de frecuencias acumuladas
del ejemplo 1.2.
54
II. Polígono de frecuencias acumuladas
Para trazar el polígono de frecuencias acumuladas, se procede como en el caso del

diagrama de frecuencias acumuladas, dibujando, en primer lugar, el diagrama de barras
crecientes (la altura de la última barra es 1 ó 100, según se tomen frecuencias relativas
acumuladas o porcentajes acumulados).
Uniendo los extremos supe
riores del diagrama de barras cre
cientes mediante segmentos
rectilíneos, se obtiene una línea
quebrada creciente, que corres
ponde al polígono de frecuencias
acumuladas.
La figura 1.13. muestra el po
lígono de frecuencias acumula
das para la distribución de las
calificaciones en Matemáticas del
ejemplo 1.10.
Figura 1.13. Polígono de firecuencias acumuladas.
1.8.2.3. Diagramas integrales para variable continua
I. Curva acumulativa de frecuencias u ojiva
Cuando la variable estadística es continua, una vez fijados los intervalos de clase
sobre el eje de abscisas, se llevan sobre el eje de ordenadas las frecuencias relativas
acumuladas o los porcentajes acumulados.
Al trazar el polígono de frecuencias para variable continua, se tomaban los valores
de las frecuencias sobre el punto medio de la base superior de los rectángulos del
histograma.
En cambio, para trazar la curva acumulativa de frecuencias relativas, se toman
sobre la ordenada correspondiente al límite superior de cada intervalo de clase, pues
to que a cada extremo superior de los intervalos de clase se le asocia el tanto por
ciento de individuos de la población que quedan por debajo de dicho límite.
Trazando segmentos de paralelas al eje de abscisas a partir de cada punto hasta
llegar a la ordenada correspondiente al siguiente extremo de clase, y completando la
gráfica con dos semirrectas horizontales de modo análogo a como se procedió con
variables discretas, se obtendría el polígono de frecuencias acumuladas.
Sin embargo, en el caso continuo, no se suele utilizar el polígono de frecuencias
acumuladas, sino que se aproxima éste por una curva que se adapta a los puntos
obtenidos, sin que necesariamente tenga que tocar a todos.
55
Esta curva tiene forma de arco apuntado, por lo que también recibe el nombre de
ojiva.
Fijado un valor xo de la variable, es decir sobre el eje de abscisas, la ordenada
correspondiente en la ojiva señala el porcentaje de individuos de la población cuyo
carácter es menor o igual a x0. Por ello, la ojiva puede ser utilizada para el cálculo
gráfico de los centiles, según veremos.
Ejemplo 1.11
Veamos cómo se procede para trazar la curva acumulativa de frecuencias para la

distribución de los pesos (en kgs.) de 100 jóvenes dada por la siguiente tabla:
Clase Frec. F.r. F.na. Porc. Porc. ac.

21-30 2 0-02 0-02 2% 2'.í
3140 8 0"08 010 8% 10%
41-50 14 0'14 0'24 14% 24%
51-60 35 0'35 0'59 34% 59%
61-70 17 0'17 0'76 17% 76%
71-80 15 0'15 0'91 15% 91%
81-90 7 0-07 0'98 7% 98%
91-100 2 0'02 roo 2% 100%
Vamos a utilizar la columna de porcentajes acumulados. Como los intervalos de

clase no están solapados, hay que tomar nuevos extremos de clase, que se sitúan
sobre el eje de abscisas: 20'5, 35'5, 40'5,...
El extremo superior del primer intervalo es 30'5. A partir de dicho punto se toman
verticalmente 2 unidades (valor que corresponde al porcentaje del 2% de alumnos que
pesan menos de 30'5 kgs.), dibujando el primer punto.
Sobre el extremo superior del
segundo intervalo, 40'5, se toman
verticalmente 10 unidades (valor
que corresponde al 1 0% de alum
nos con peso menor de 40'5), y
se dibuja el segundo punto.
Procediendo de este modo, se
trazan los 8 puntos correspon
dientes a los 8 intervalos de cla
se. Una vez dibujados, se adap
ta a ellos una línea curva, que
no tiene por qué tocar a todos
Figura 1.14. Ojiva correspondiente al ejemplo 1.11. IOS puntos.
56
La línea que resulta es la curva acumulativa de frecuencias que buscábamos.
1 .9. Simetría y sesgo
En múltiples ocasiones, interesa conocer el aspecto general de una distribución de

frecuencias, como puede ser la presencia de simetría o sesgo hacia alguno de los
extremos de su curva de frecuencias.
Una distribución es simétrica cuando su curva de frecuencias puede ser dividida
en dos mitades por una recta perpendicular al eje de abscisas, siendo cada una de
ellas la imagen de la otra en un espejo.
Figura 1.15. Cuna simétrica. Figura 1.16. Curva sesgada liacia la derecha.
Las distribuciones simétricas gozan de la propiedad de que las observaciones que

equidistan del valor central tienen la misma frecuencia. Así ocurre con la distribución
de la gráfica de la figura 1.15.
Cuando los datos de una distribución tienden a agruparse en una parte de la
gráfica, con una rama extendiéndose hacia la otra parte (cola), se dice que es asimétrica
y que está sesgada en la dirección de dicha «cola».
Así ocurre con la distribución correspondiente a la gráfica de la figura 1.16, que
tiene un sesgo hacia la derecha.
1.10. Modalidad
La modalidad de una distribución esta

dística hace referencia al número de «pi
cos» que se distinguen en ella.
Las distribuciones de las figuras 1.15 y
1.16 son unimodales, ya que presentan un
solo pico. En cambio, la gráfica de la figura
Figura 1.17. Curva con dos modas. 1.17 corresponde a una distribución bimodal.
57
Las distribuciones que poseen más de dos modas reciben el nombre de

multimodales.
1.11. Apuntamiento
Tiene también interés conocer el grado de apuntamiento o curtosis de la curva de

frecuencias de una distribución.
Las gráficas de la figura 1.18 corresponden a dos distribuciones simétricas y
unimodales, pero la segunda presenta un mayor apuntamiento, lo que significa que
las diferencias entre las frecuencias de los valores centrales y extremos son mayores
en ésta:
Figura 1.18. Curvas con distinto apuntamiento.
Las medidas del grado de apuntamiento de una curva así como de su asimetría
serán objeto de estudio en el capítulo 3.
1.12. Ejercicios propuestos
1.1. Las edades de los visitantes de un museo un día determinado de la semana

han sido:
27 23 37 31 38 23 36 25 22 34 27 28 35 26 34 33 23 32 29 31
30 3 1 33 24 32 27 34 39 30 29 32 28 29 25 24 37 23 35 24 33
31 30 31 22 35 37 24 24 23 36 22 29 37 33 3421 22 28 36 29
1 ) Construir la tabla de frecuencias absolutas, completándola con las frecuencias
acumuladas y porcentajes.
2) Representar la distribución mediante el diagrama integral adecuado.
1.2. Los pesos (en Kgs.) de los niños recién nacidos en una clínica maternal
durante el último año han sido:
2'5-2'75 2'75-3 3- 3'25 3-25-3'5 3'5-3'75 3'75-4 4-4'25 4'25-4'S
27 36 85 144 98 56 32 32
58
1 ) Construir la tabla de frecuencias. 2) Hacer la representación gráfica más adecua

da.
1 .3. Durante el mes de junio se han registrado las siguientes temperaturas máximas
cada día:
26 30 3028 28 27 2627 28 27 2628 28 3024 25 2833313127 303130 29 343130 3029
1) Construir la tabla de frecuencias. 2) Hacer una representación gráfica de la

distribución.
1 .4. Las calificaciones de un alumno de primero de B.U.P. han sido: 7; 6; 8'5; 9; 6;

6; 5,5; 4'5; 8 y 7'5 en las asignaturas de Matemáticas, Lengua. Ciencias de la Natura
leza, Inglés, Francés, Historia. Formación Religiosa, Educación Física, Dibujo y Músi
ca, respectivamente. Dibujar sus perfiles ortogonal y radial.
1.5. Los obreros de una gran industria han sido clasificados por categorías labora
les, dándose los siguientes resultados:
Especialistas 1250
Oficiales de 2a 975
Oficiales de Ia 510
Técnicos de grado medio 35
Técnicos superiores 12
Altos cargos 8
1 ) Representar los datos mediante un diagrama de barras y otro de sectores. 2)
Construir el polígono de frecuencias simples y el polígono de frecuencias acumuladas.
1.6. El número de viajeros (en miles de personas) durante los 6 primeros meses del
año por carretera y ferrocarril ha sido el siguiente:
Mes Enero Febrero Marzo Abril Mayo Junio

Carretera 210 195 320 180 310 390
Tren 170 180 230 260 280 410
1 ) Dibujar los polígonos de frecuencias de las dos distribuciones.
1.7. Los resultados de un test de visión espacial realizado a un grupo de alumnos

fueron:
59 72 7 1 68 67 78 57 57 75 61 69 39 80 46 57 94 59 76 54 64 62
61 61 48 48 86 65 65 63 60 64 41 66 68 67 68 27 68 64 76 72 67
59
1) Construir la tabla de frecuencias y dibujar el polígono de frecuencias acumula

das.
1.8. La producción de trigo y cebada en una cooperativa agrícola durante los 10

últimos años ha sido:
Trigo (fanegas) 487 546 434 465 503 3X8 405 298 600 446
Cebada (fanegas) 458 730 895 978 802 630 754 790 878 910
Construir la tabla de frecuencias y los polígonos de frecuencias de las dos distri

buciones.
1.9. Un saltador de pértiga ha realizado, durante los 10 últimos días, las siguientes
marcas:
4'86 501 5'42 5'82 5' 12 5'01 6'00 5-92 5'90 5'95
1) Construir la tabla de frecuencias. 2) Dibujar el diagrama de barras y el de fre

cuencias acumuladas.
1.10. La distribución del empleo de los españoles por sectores económicos el

primer trimestre de 1991 era:
Agricultura 14'6%
Construcción 8'5%
Industria 23'7%
Servicios 43'3%
Otros 9'9%
Representar la distribución mediante un diagrama de sectores.
1.11. Suponiendo que la siguiente tabla muestra la producción de trigo, cebada,

maíz, girasol, uva y aceituna en las cinco provincias de Castilla-La Mancha:
Trigo Cebada Maíz Girasol uva Aceituna

Albacete 2500 3260 3245 4135 3280 1275
Ciudad Real 3480 2560 2360 3270 5680 1360
Cuenca 1250 2450 3200 5270 2450 980
Guadalajara 2460 1470 4200 5270 1480 1380
Toledo 4250 3270 1580 1890 4250 4270
Construir un cartograma que refleje los datos de la tabla.
60
1.12. Las puntuaciones obtenidas por un grupo de universitarios en unas pruebas

de aptitud para aprender inglés han sido las siguientes:
35 48 63 24 46 58 46 32 26 83 84 96 32 94 28 46 53 62 75 76 44 3 1 59 83 45 22 29
91 60 61 5442 56 31 64 5648 59 91 87 78 7644 58 26 28 40 81 70 70 63 64 37 45
1 ) Construir la tabla de frecuencias y hacer una representación gráfica adecuada

de los datos.
1.13. La siguiente tabla contiene los resultados de las calificaciones de un test de

aptitudes realizado entre los obreros de una fábrica:
Puntuación (X) [38,44) [44,50)[50,56) [56,62) [62,68) [68,74) [74,80)
N° Trabajadores 7 8 15 25 18 9 6
1) Construir la tabla de frecuencias, completándola con las marcas de clase, las

distancias entre marcas de clase, las amplitudes de clase, las frecuencias absolutas y
relativas acumuladas y los porcentajes. 2) Dibujar el gráfico más adecuado a esta
distribución.
1.14. Dada la distribución definida por la siguiente tabla:
X1 3 4 9 15 20
a 3 3 8 6 2
Dibujar: 1) el diagrama de barras vertical; 2) el diagrama de frecuencias acumula

das.
1.15. Las puntuaciones obtenidas en una oposición al cuerpo de auxiliares de la

administración civil del Estado figuran en la siguiente tabla agrupadas en intervalos:
Puntuaciones Hasta 50 50-70 70-100 100-150 150-200 200-300 300400 másde400
n 15 30 56 85 46 30 22 12
Dibujar el histograma, el polígono de frecuencias, la curva de frecuencias y la

curva acumulativa de frecuencias.
1.16. Representar, mediante un pictograma, la evolución del paro por sectores en el

primero y segundo trimestres de un año, si los datos (en miles de personas) fueron:
61
Sector Primer trimestre Segundo trimestre

Agricultura 438 241
Industria 457 350
Construcción 406 683
Servicios 589 170
1.17. Las temperaturas máximas y mínimas durante los 15 primeros días de julio, en
una ciudad, han sido:
Máximas 37 30 33 28 35 36 36 32 34 30 28 30 36 34 32
Mínimas 16 14 18 15 20 21 19 17 18 16 16 20 20 21 19
1 ) Dibujar los polígonos de frecuencias de las dos distribuciones. 2) ¿Qué conclu

siones se pueden sacar de comparar los dos gráficos?
1.18. La siguiente tabla recoge la vida media (en horas) de 500 lámparas:
Vida media [200,299) [300,399) [400,499) [500,599) [600,699) [700,799)

V lámparas 54 % 130 88 85 47
1) Construir el histograma correspondiente. 2) Dibujar la curva acumulativa de

frecuencias.
1.19. Dibujar la curva de frecuencias y la curva acumulativa de frecuencias para el

ejercicio 1.17.
CAPITULO 2
CARACTERÍSTICAS DE POSICIÓN
2.1. Características de una distribución de frecuencias
Después de agrupar los datos en distribuciones de frecuencias, éstas se describen

por medio de un conjunto de valores, mediante los cuales se pretende sintetizar toda
la información. Entre estos valores, están:
1 ) las medidas de tendencia central, también llamadas promedios o medidas de
posición, ya que señalan la localización o posición de los valores alrededor de los
cuales fluctúan los demás.
2) las medidas de dispersión, que expresan el grado de desviación de los datos
respecto de las medidas de tendencia central.
3) las medidas de simetría (o asimetría) de la distribución de los datos respecto
del punto de máxima concentración.
4) las medidas de apuntamiento, que señalan el grado de concentración respecto
de la tendencia central.
En este segundo capítulo se estudian las medidas de tendencia central, las restan
tes medidas serán analizadas en el siguiente.
La media aritmética y la mediana, como medidas más usuales, son tratadas con
detalle. También se aborda el cálculo de percentiles y el problema inverso: dado un
valor de la variable, averiguar el rango del percentil correspondiente. Las medias
geométrica, armónica y cuadrática, y la moda son tratadas evaluando su operatividad
y sus deficiencias.
Las medidas de centralización resistentes, que juegan un papel importante en los
métodos exploratorios, son tratadas en el capítulo 4.
64
2.2. Características de tendencia central
Las tablas de frecuencias y los gráficos que acompañan a los datos de una distri
bución estadística no cabe la menor duda de que son métodos interesantes para
presentar un resumen de la misma, que puede resultar incluso vistoso y elegante. Sin
embargo, hemos definido, al principio, la Estadística Descriptiva como un método de
«descripción numérica». Nuestro interés se centra ahora en encontrar esos valores
numéricos o medidas que, por sí solos, describan la localización de datos de una
distribución.
Nos serviremos de un ejemplo1 sencillo que pone de manifiesto cómo estas medi
das nacen espontáneamente. En una clase de Matemáticas, surge la necesidad de
medir la longitud del encerado, y, al no disponer de una unidad de medida, el profesor
propone que cada alumno anote en un papel la medida que estime a simple vista. Se
recogen las anotaciones y se disponen en una tabla:
Longitud estimada N° de alumnos

2'00 5
rio 6
2'20 7
2'30 12
2'40 11
2'50 6
2'60 4
270 5
2'80 1
2'90 3
Se trata ahora de decidir, ante estos datos, qué valor se debe tomar como medida
de la longitud de la pizarra. Un alumno sugiere como medida 2'30 m., argumentando
que éste es el valor que más se da (la moda). Al profesor no le parece mal la elección,
pero la encuentra poco democrática, ya que sólo se tiene en cuenta la opinión de una
quinta parte de la clase.
Otro alumno insinúa que se tome 2'35 m.; lo argumenta diciendo que la mitad de la
clase ha dado una medida menor o igual que 2'30, y la otra mitad, una medida mayor
o igual que 2'40 (la mediana).
Tampoco el profesor queda satisfecho del todo porque no se valora en su justa
medida la opinión de cada uno de los alumnos. Así surge la idea de sopesar cada
1 El ejemplo está tomado de un trabajo del Profesor Pascual Ibarra, publicado en 1968 con
el título de «Democracia y Estadística».
65
medida de acuerdo con el número de alumnos que la ha anotado en su papel (media

aritmética).
Continuando el razonamiento, se pueden ir descubriendo otras medidas de locali-
zación. Iremos definiéndolas, a lo largo del capítulo, valorando sus ventajas y sus
inconvenientes.
Como resumen, podemos decir que las medidas de tendencia central son valores
numéricos que describen la localización de una distribución de datos, o bien, los
valores alrededor de los cuales se sitúan los demás.
Estas medidas, para proporcionar un valor más preciso de la distribución, deben ir
acompañadas de otras características de dispersión, que serán objeto de estudio en el
capítulo 3.
2.3. Media aritmética
El valor de tendencia central de mayor interés es la media aritmética (o simple

mente media), que representaremos por j.
Aunque se trata de un mismo concepto, debido a las peculiaridades de su cálculo,
vamos a tratar por separado el caso discreto del caso continuo, distinguiendo también
según estén dados los datos: agrupados (frecuencias absolutas distintas de la uni
dad) o sin agrupar (frecuencias absolutas iguales al).
2.3.1. Definición en el caso discreto
1) Media aritmética para datos agrupados: Sea X una variable estadística discre
ta que toma los valores x ,x ,...,x con frecuencias absolutas a.ja.,...jL, respectivamen
te. Se define la media aritmética como el valor:
A, x,'h
(1)
N tV
A n.
También es: x = ¿¿xJ, ~ xif, + x2Í2+---+xJk , va que -77 ~ f,-
Ejemplo 2.1
Supongamos que un grupo de 20 alumnos obtiene las siguientes calificaciones en

la asignatura de Matemáticas:
Calificaciones 2 4 5 6 8 10
Número de alumnos 3 6 5 3 12
66
La calificación media de los 20 alumnos en esta asignatura es:
2x3+4x6+5x5+6x3+8x1+10x2 101
x =. = 5,05
20 20
2) Media aritmética para datos no agrupados: En el caso particular de que cada
uno de los k valores de la variable estadística aparezca una sola vez (n =n2=...=nk=1),
como caso particular del anterior, la expresión de la media aritmética adopta la forma:
(2)
Las edades de tres niños son de 5, 7 y 9 años. La edad media de los tres es
7 + 8+9
x = -¿- = 8
2.3.2. Propiedades de la media aritmética
1. La suma de las desviaciones de todos los valores a la media es cero.

k
(3)
En efecto: 2j(x¡-x)n¡ = 2-,x, n, - ¿,xn¡ = Nx - Nx = 0

La media, por tanto, compensa la suma de las desviaciones positivas y negativas.
Por ello, afirmamos que la media proporciona la localización de la distribución.
2. Si a todos los valores x de una distribución se les suma (resta) un mismo

número c, la media de la nueva distribución, y.=x±c, es igual a la media de las
x más (menos) c.
En efecto, sea y=x± c. Entonces la media de la nueva variable será:

A. A.
Xy,"l Y,(x¡±c)n, jrk k ~

= x+c
67
3. Si todos los valores x de una distribución se multiplican (dividen) por un

mismo número d, distinto de cero, la media queda multiplicada (dividida) por d.
En efecto, sea y¡ = dx,; la media de y será:

k
Consecuencia inmediata de las propiedades 2 y 3 es la siguiente:
4. Si definimos una variable Z a partir de la variable X mediante un cambio de

origen c y un cambio de escala d, siendo d distinto de cero, la media de la
nueva variable
x-c
se obtiene a partir de la variable X por medio del mismc cambio de origen y

escala:
x-c
Despejando x, se obtiene:
.- (4)
x = c + dz
Esta última fórmula permite hallar la media de X a partir de la media de Z, cuyos
cálculos resultan más sencillos si se eligen adecuadamente el nuevo origen y la escala.
Ejemplo 2.2
Se trata de calcular el diámetro medio de 1 00 émbolos obtenidos en una cadena de

producción en serie, cuyas medidas (en milímetros) están recogidas en la siguiente
tabla:
Diámetro 153,7 153,8 153,9 154,0 154,1 1542 154,3
N° de émbolos 10 15 19 21 14 13 8
Tomando como origen el valor c=154 y como escala d=0,l vamos a construir la
tabla con los nuevos datos:
68
x. - c
x¡ n, x,-c l n
d
153,7 10 -03 -3 -30
153.8 15 -02 -2 -30
153,9 19 -0.1 -1 -19
154.0 21 0 0 0
154.1 14 0.1 1 14
154JZ 13 02 2 26
154.3 8 03 3 24
Total 100 -15
La media de la variable Z es
1 ^ -15
luego la media de X será:
x = 154 + 0,1 (-0,1 5) =154 -0,0 15 = 153.985
2.3.3. Definición en el caso continuo
Si la variable estadística es continua, se conviene en tomar como media aritmética

la de una variable discreta cuyos valores son las marcas de clase c de cada uno de los
intervalos y cuyas frecuencias absolutas n son las de cada clase.
Según advertimos en el capítulo anterior, cuando se agrupan los valores en clases,
se pierde precisión. En efecto, al calcular la media, sólo se va a tener en cuenta el
número de valores que caen dentro de un intervalo de clase y no la forma en que
están repartidos en su interior.
Ejemplo 2.3
Se ha medido la estatura de 80 jóvenes de 1 6 años seleccionados al azar de entre

los colegios de una ciudad de 100000 habitantes, dando los siguientes resultados (en
centímetros):
174 190 183 180 168 163 194 182 168 171 171 188 191 167 167 185
185 189 169 172 175 161 173 170 184 190 166 162 191 174 179 189
189 168 161 165 174 166 167 186 178 178 173 173 181 176 172 180
173 177 182 178 170 175 174 182 181 162 177 180 185 160 161 195
186 160 187 164 171 188 158 186 169 165 159 187 156 159 176 191
69
Vamos a calcular la media, en primer lugar, agrupando todos los valores en clases.
El recorrido es R= 195- 156=39, que, aumentándolo en 1, resulta 40. Se pueden elegir 7
clases de amplitud 6.
Aunque hoy es menos importante simplificar los cálculos, ya que disponemos de
excelentes calculadoras y paquetes informáticos que los evalúan directamente, vamos
a efectuar un cambio de origen y de escala, reflejando los datos en la tabla para
observar los distintos pasos.
Tomaremos como origen el valor de una de las marcas situadas hacia el centro, por
ejemplo, c=175, y, como unidad de escala, la distancia entre dos marcas de clase
consecutivas, d=6.
Calcularemos también la media para valores sin agrupar con el fin de corroborar
cómo efectivamente hay un pequeño sesgo con respecto al valor real de la media,
debido a la suposición tácita de que los datos se distribuyen de una manera homogé
nea en sus correspondientes intervalos de clase.
c¡ - c
Extremos c.
1
a i
C.-C zi~ el z¡n¡
154-160 157 4 -18 -3 -12

160-166 163 11 -12 -2 -22
166-172 169 15 -6 -1 -15
172-178 175 16 0 0 0
178-184 181 13 6 1 13
184-190 187 14 12 2 28
190-1% 193 7 18 3 21
Total 80 13
La media de la variable auxiliar Z es
- / i 13
.volr. .yo.0'1625
Haciendo uso de (4), la media de la variable X es:
x = c + d~z = 175 + 6x0'1625 = 175 + 0'975 = 175' 975

Si efectuamos la media de todos los valores sin agruparlos en clases, obtenemos
la media real:
_ 14032
X,= =175'4
' 80
La media obtenida agrupando los datos difiere en 0'575 de la media real.

70
2.3.4. Ventajas e inconvenientes de la media aritmética
Las ventajas fundamentales que proporciona el uso de la media aritmética como

medida de localización son:
A) La media aritmética contiene toda la información de los datos de la distribución,
lo que le confiere, como promedio, un carácter muy representativo.
B ) La media aritmética siempre puede ser determinada, es fácil de calcular y admite
todas las operaciones aritméticas.
C) La media aritmética es el estadístico más útil para análisis posteriores.
El inconveniente que presenta es su gran sensibilidad al cambio de valores extre
mos por un lado, que no se compensen por valores extremos en el lado contrario.
Tratemos de aclararlo con un ejemplo sencillo:
Ejemplo 2.4
En la siguiente tabla, se han modificado los datos del ejemplo 2. 1 , de modo que los
dos alumnos que tenían una calificación de 10 en Matemáticas, tienen ahora un 1.
V de alumnos 3 6 5 3 1 2
La media aritmética de la nueva distribución es

- 2x3 + 4x6 + 5x5 + 6x3 + 8x1 + 1x2 83
= 4,15
20 20
Su valor disminuye en 0'90, lo que supone más del 17% del valor anterior. Por ello,
se cuestiona el uso de la media aritmética como valor descriptivo de la localización de
un conjunto de datos, si éste se encuentra muy influido por un valor extremo.
2.4. Otros valores medios
Valores medios de uso menos frecuente que la media aritmética son la media
geométrica, la media cuadrática y la media armónica.
2.4.1. Media geométrica
A) Definición
Dada la variable estadística X, que toma los k valores xrx2„.„xk con frecuencias
absolutas nrn, nk, siendo n,+n,+...+nk=N1 se define la media geométrica como:
71
(5)
xc = *IxVxV...xV
En el caso particular de que las frecuencias absolutas de los k valores de la

variable estadística sean todas iguales a 1 (n,=n,=...=n1 = l), queda la expresión:
xc yjxix2... «»
B) Cálculo
Para efectuar el cálculo de la media geométrica, se toman logaritmos en los dos

miembros:
iogío = log Vx7'...*í* = iogU;'...*í")'/,v = -logU'. ..*!')=
l i ] <
= — [logf x, /"+...+ logfxi r] = —[nilogx, +... + «JogxÁ/= — L».logx,
/V Aí « ¡=/
Esta última relación nos dice que «el logaritmo de la media geométrica es igual a la
media aritmética de los logaritmos2».
Para calcular la media geométrica, basta con tomar antilogaritmos en la igualdad
anterior: t
X'iJogx,
xG = antilog —
N
Por tratarse de un caso particular, se procede de igual modo para calcular la media
geométrica cuando los datos no se dan agrupados:
log*,,; =l0g \¡x ,x2...xí =\Og(x ,x2... xk) =
= -\og(x,x2...xk) = -(\ogx, + \ogx:+... + \ogxí) = -YJ\°%x,
XlogJr,
Tomando antilogaritmos, queda: xc = antilog J
Para el ejemplo 2. 1 , la media geométrica de las calificaciones será:
3x0,301 + 6x0,602 + 5x0,6989 + 3x0,7781 + 1x0,903 + 2x1

xc = antilog -
20
: antilogO.6623921 = 4,596
2 Por cumplir esta propiedad, la media geométrica es llamada por algunos autores «media
logarítmica»,
72
Ejemplo 2.5
La siguiente tabla contiene las calificaciones de un alumno de COU en sus diver

sas asignaturas:
Asignaturas L M Q B F D
La media geométrica de sus calificaciones es:

0'84 + 0'90 + 0'84 + 0'77 + 0'69 + 0'95
xa = antilog =
o
5'02
= antilog —— = antilogO'83 = 6 76
6
B) Ventajas e inconvenientes
La media geométrica es muy útil en el caso de algunas magnitudes, ya que:

a) es menos sensible que la media aritmética al cambio de valores extremos.
b) está determinada siempre que los valores de la variable sean positivos, y se
comporta bien ante las operaciones algebraicas.
c) es representativa, ya que en su cálculo intervienen todos los datos de la distri
bución.
Sin embargo, si un valor de la variable es cero, la media geométrica vale cero, lo
cual cuestiona su representatividad.
La media geométrica se utiliza siempre que la variable presenta variaciones que se
van acumulando, como sucede en las relaciones de cambio, tasas y porcentajes.
2.4.2. Media cuadrática
A) Definición
Dada la variable estadística X, que toma los k valores x^x,,...^ con frecuencias
absolutas n.fL,...JL, siendo n,+n,+...+nk=N, se define la media cuadrática como:
]x]n, + x\ri2+. . + xink

Xq = (7)
\ N
605
Su valor para el ejemplo 2.1 es: Xa = J = J30,25 = 5,5
73

variable estadística sean todas iguales a 1 (n,=n,=...=nk=l), resulta la expresión:
\x2, + xi+. . + xí (81

XQ =
\ k
a) la media cuadrática es representativa de todos los datos de la distribución.

b) soporta bien las operaciones aritméticas.
Tiene el inconveniente de las unidades en que se expresa: no son unidades sim
ples.
La media cuadrática se usa en aplicaciones físicas y en la determinación de las
características de dispersión.
2.4.3. Media armónica
A) Definición
Dada la variable estadística X, que toma los k valores x,,x2,...,xk con frecuencias
absolutas n^n,,...,nk, siendo n,+n2+...+nk=N, se define la media armónica como:
N N
Xa
ni
— + — +. n2 (9)
Xl
.+—
x2 Xk
1~
i.l x,
20
Su valor para el ejemplo 2.1 es: x ., = = 4.145
4,825
variable estadística sean todas iguales a 1 (n,=n2=...=n|=l), se obtiene la expresión:
k k
x.
' —
1 — 1 1 - * 1 (10)
+ +.
Xl x2 Xk ¡.1 x¡
74
a) es representativa de todos los datos de la distribución.

b) admite bien las operaciones algebraicas.
Presenta un inconveniente cuando la variable toma algún valor igual a cero, en
cuyo caso, la media armónica carece de sentido. También es poco precisa cuando los
valores son pequeños.
Es la más adecuada para hallar promedios de las variaciones con respecto al tiem
po, como la velocidad de un móvil o el rendimiento de un capital.
2.4.4. Relación entre las distintas medias
Las cuatro medias, que acabamos de definir, están relacionadas entre sí por la
cadena de desigualdades:
r A < xc, <x< xL, (11)
Ejemplo 2.6
Las estaturas de 10 jugadores de un equipo de baloncesto son: 1,90; 1,93; 1,96;

1 ,98: 1 ,98; 1 ,99; 2,01 ; 2,03; 2.04 y 2,08. Vamos a calcular las diferentes medias:
1 ) Media armónica:
10 10
-=X r-jMTs-1.9887
1,90+'"+2.08
2) Media geométrica:
/ /
\ogxc, = —(\ogl.90+... + ]og2,08)=— (0.2787+.. .+0.3180) = 0.2987
Luego xc, = antilogO.2987 = 1.9892
3) Media aritmética:
/ '" 1
~x-iblr-T¡9-9-h"
75
4) Media cuadrática:
3,61 + 3,7249+. ..+4,3264 39,6264

w .i^r.'.9906
Comprobamos que se cumple la relación (11):
1 '9887 < 1 '9892 < 1'99 < 1 '9906
2.5. Percentiles. Mediana
Supongamos que el profesor de Matemáticas comunica a uno de sus alumnos que

ha obtenido una calificación de 6 en el examen de nuestro ejemplo 2.1. El alumno
puede estar interesado en obtener una información adicional que le permita comparar
su calificación con las restantes calificaciones de la clase.
Si el examen ha sido muy fácil para la mayoría de los alumnos, su calificación de 6
puede representar un rendimiento bajo. En cambio, si el examen resultó difícil para la
mayoría de sus compañeros, su calificación de 6 puede ser de las mejores.
Se trata, por tanto, de transformar la puntuación original (llamada directa) en una
nueva puntuación (transformada), que muestre de modo inmediato la situación de un
estudiante en comparación con los restantes compañeros de clase.
Entre los diferentes valores transformados, están los percentiles (también llama
dos centiles), los cuartiles, los quintiles y los deciles. Se utiliza la expresión «cuantil»
para designar al colectivo formado por los percentiles, deciles, cuartiles y quintiles.
2.5. 1 . Definiciones
A) Percentil
Sea a un número entero, siendo l<a<100. Se llama percentil de rango a al valor de

la variable estadística que deja por debajo de él a a% de los valores y al resto por
encima, una vez ordenados éstos por valor creciente del carácter.
B) Mediana
Tiene especial interés el percentil de rango 50, al que denominamos mediana, que
es, por tanto, «el valor de la variable estadística que divide a la población en dos
partes iguales, una vez ordenados los individuos por valor creciente del carácter».
En el estudio de los percentiles se nos plantean dos cuestiones de interés:
I. Dado un percentil, calcular el valor correspondiente de la variable.
76
II. Dado un valor de la variable, averiguar el rango del percentil correspondiente.

Vamos a tratar de responder con cierto detalle a estos dos interrogantes, que se
utilizan con frecuencia en algunas ramas de la investigación.
2.5.2. Cálculo de la mediana
Como respuesta a la primera cuestión, calcularemos el rango del percentil 50, o, lo

que es igual, la mediana, a la que vamos a denotar por M .
Para efectuar su cálculo, distinguiremos tres posibles situaciones, que van a de
pender de la forma en que se den los datos:
1) La variable es discreta y la frecuencia de cada observación es la unidad.
En esta situación pueden tener lugar dos alternativas:
i) La variable toma un número impar de valores:
X= {1,2,3,4,5,6,7,8,9}
La mediana es el valor que ocupa la posición central: 5.
ii) La variable toma un número par de valores:
X= {2, 3, 5, 7, 8, 9}
Se toma como valor mediano la media aritmética de los dos valores centrales:
5+7
Mi =6
2) La variable es discreta, pero los datos están agrupados.

Vamos a exponer el proceso de cálculo que se sigue sobre un ejemplo:
Ejemplo 2. 7
Las calificaciones en Matemáticas de 20 alumnos están recogidas en la siguiente

tabla de frecuencias:
Calificaciones Frec. Absolutas (n.) Frec. Acumuladas (N,)
10 2 20
8 1 18
6 3 17
5 5 14
4 6 9
2 3 3
77
Las frecuencias están agrupadas. Para efectuar su cálculo, suponemos, en primer

lugar que todos los datos están distribuidos uniformemente en el intervalo mediano.
Entonces podemos seguir el siguiente proceso de cálculo:
A) Dividimos el número de observaciones, N=20, entre 2, con lo que tenemos que
la mediana es el valor de la variable que deja 20/2=10 puntuaciones por debajo y 10
por encima.
B) Comprobamos si este número obtenido. N/2, se encuentra en la columna de
frecuencias acumuladas N . i
Pueden darse dos alternativas:

i) N/2 no figura en la columna de las frecuencias acumuladas, como es el caso de
nuestro ejemplo:
X n
20 --
10 2
18 -
8 1
17
6 3
14 -
5 5 N/2
9 —-
4 6 3
2 3
0123456789 10
Figura 2.1. Tabla y curva de frecuencias acumuladas para el ejercicio 2.7.
Se toma como valor mediano el primer valor de la variable que. en la curva de

frecuencias relativas acumuladas, sobrepasa a 1/2, y que es:
M,i = 5
ii) El valor N/2 obtenido figura en la columna de las N.
N/2 coincide con la frecuencia absoluta de algún valor x , y, por tanto, la ordenada
de la curva acumulativa de frecuencias corresponde a los infinitos puntos del interva
lo [x, x ,).
Tal es el caso anterior si lo modificamos de la siguiente forma:
X n 1 i
-20 1-
10 2
-18
8 1
- 17 -
6 7
10 ' N/2 r1'5-
5 1
9
4 6 3
2 1
0 -
0123456789 10
Figura 2.2. Tabla y curva de frecuencias acumuladas para el ejercicio 2.7. modificado.
7S
Tenemos así el intervalo mediano [5,6). Como valor de la mediana se suele tomar el
punto medio de dicho intervalo:
5+6
M„ = —— -5,5
3) La variable es continua
El proceso que se sigue en este caso, para encontrar el valor particular, cuya
frecuencia acumulada sea igual a N/2, es el siguiente:
A) Se divide el número de observaciones N entre 2.
B) Se lleva el valor N/2 a la columna de frecuencias absolutas acumuladas (N).
Ahora puede suceder:
i) Que el valor N/2 se encuentre en la tabla, con lo que N/2 será la frecuencia
absoluta acumulada de un cierto intervalo de clase [e ê), y la mediana será el extre
mo superior del mismo.
ii) Que N/2 no se encuentre en la columna de las N . Entonces, este valor estará
comprendido entre los valores N y N, que corresponden a las frecuencias absolutas
acumuladas de los intervalos [e¡ ,,e t) y [e ..e), respectivamente.
Como N/2>N , la mediana se encontrará en el intervalo [c ,,e), al que llamamos
«intervalo mediano». Por interpolación, se halla el incremento de intervalo que co
rresponde al incremento de la frecuencia hasta llegar a N/2.
La mediana se obtiene de sumar este valor al extremo inferior, e ,, del intervalo
mediano [ei ,,e).
El siguiente ejemplo clarifica el proceso:
Ejemplo 2.8
Supongamos que nos interesa averiguar el salario mediano de los 50 empleados de

una empresa, cuya tabla de frecuencias es:
• eipleados
,l
Salario lensual N,
100 110 2
50 -
t í
15
18 12
90
B0
100
90
4
6
44 1 1
< x >
70 80 10
28
60 70 ;'. 13
50 60 13 >
0
Figura 2.3. Interpolación para calcular la mediana.

74
En la columna de las frecuencias acumuladas, N., no aparece N/2=25, valor que

divide a la población en dos partes iguales.
La frecuencia 1 3 corresponde al 26% de los empleados, y la frecuencia 28 corres
ponde al 56%, lo que indica que la mediana está por encima del límite inferior del
intervalo correspondiente 60, pero sin llegar al límite superior 70, es decir, se encuen
tra en el intervalo [60.70).
Por lo tanto, a 60 habrá que sumarle, interpolando, el incremento de intervalo que
corresponda al incremento de la frecuencia:
si la frecuencia aumenta en 28-13=15, el intervalo aumenta 10,
si la frecuencia aumenta en 25-13=12, el intervalo aumenta: 12x10/15=8
(25-13)x(70-60) 12x10
28-13 - 15 ~8
La mediana es Md=60+8=68, luego el salario mediano es de 68.000 ptas.

Podemos resumir el razonamiento anterior en la siguiente expresión:
N/2- N,
Mi — Si i + 'Ü¡ (12)
II,
donde: e¡ es el extremo inferior del intervalo mediano,

N i-i, es la suma de frecuencias absolutas anteriores al intervalo mediano,
n. es la frecuencia absoluta correspondiente al intervalo mediano,
a es la amplitud del intervalo mediano.
2.5.2. 1 . Comportamiento de la mediana
a) Si la distribución está sesgada en sentido negativo, la media se desvía hacia el

lado de los valores más pequeños, es decir, disminuye, resultando menor que la me
diana.
Del mismo modo, en una distribución positivamente sesgada, la media será
mayor que la mediana. Así. en el ejemplo 2.1. la media es 5.05. en tanto que la
mediana es M d = 5.
En el ejemplo 2.4, que supone una modificación del ejemplo 2. 1 . en que se altera un
valor extremo (los dos alumnos que tenían 10 pasan a tener un 1), la media (4,15)
queda notablemente alterada, en tanto que la mediana no varía.
B) Si las observaciones están distribuidas simétricamente, la media y la mediana
coinciden.
Estos razonamientos nos llevan a la conclusión de que la mediana debe usarse en
aquellas distribuciones que presentan un sesgo acusado en los extremos.
Cuando los datos vienen dados en escala ordinal, la mediana es la medida de
tendencia central más representativa de la distribución.
80
2.5.3. Problema inverso
La segunda cuestión que teníamos planteada era: «dado un valor de la variable,

averiguar el rango del percentil correspondiente».
Para ilustrar su cálculo, tratemos de hallar el rango del percentil correspondiente a
un salario de 83.000 ptas. en el ejemplo 2.8. Se trata de:
a) Localizar el intervalo al que pertenece dicho salario; le vamos a llamar «intervalo
crítico»; en el ejemplo, es el intervalo [80,90).
b) Localizado el intervalo crítico, se clasifican las frecuencias (n ) en tres catego
rías:
i) las que corresponden a todos los salarios superiores al intervalo crítico;
ii) las que corresponden a los salarios del intervalo crítico;
iii) las correspondientes a los salarios que están por debajo del intervalo
crítico.
Como podemos observar, hay 38 personas que perciben menos dinero que las 6
personas del intervalo crítico, y otras 6 personas que tienen un salario superior, lo que
supone unos porcentajes de:
76% con salarios inferiores a los del intervalo crítico
1 2% están dentro del intervalo crítico
1 2% con salarios superiores a los del intervalo critico
Debemos considerar el salario de
5a lar io mensoal N" eupleados Ni
83.000 ptas. en relación con el tama
ño del intervalo crítico.
100 - 110 21 '- 48 Para determinar la situación del
90 - 100 4J salario en cuestión en el intervalo
80 - 90 6 crítico, tomamos el límite inferior real
38 J
70 - 80 10-
del mismo, que es 80. Luego el sala
28 rio de 83.000 ptas. está 3 puntos por
60 - 70 15 38
13 encima del límite inferior real del in
50 - 60 13 -
0 tervalo.
Como el tamaño del intervalo es
10, la amplitud 3 corresponde al 30%
del intervalo. Por tanto, al 76% de los salarios inferiores a los salarios del intervalo
crítico hay que sumarle el 0,3 del 12% de personas del intervalo crítico:
76% + 0,3 x ( 1 2%) = 76% + 3,6% = 79,6%
El rango del percentil es igual al 79,6%, lo que nos indica que aproximadamente un
80% de los salarios son menores o iguales a 83.000 ptas. y sólo alrededor del 20% de
los salarios están por encima de las 83.000 ptas.
SI
2.6. Cuartiles, quintiles y deciles
Además de la mediana, que ya hemos estudiado, algunos otros percentiles reciben

nombres específicos.
Tenemos así los cuartiles, que son tres valores de la variable que corresponden a
los percentiles 25%, 50% y 75%, que se conocen como primero, segundo y tercer
cuartil, y se representan por:
Q„Q2.Q,
El segundo cuartil coincide con la mediana. El primer cuartil es el valor de la
variable que deja la cuarta parte de las observaciones por debajo de él y las tres
cuartas partes restantes por encima. El tercer cuartil. por tanto, es el valor de la
variable que deja las tres cuartas partes de las observaciones por debajo de él y la
cuarta parte de las mismas por encima.
Los «quintiles» son los valores de la variable que dividen a la población en 5
partes iguales. Son cuatro y se representan por Kr K„ K , K4.
Los «deciles» son los valores que corresponden a los percentiles múltiplos de 10.
Así, «el decil de orden h» es el valor de la variable que deja h/10 partes de las
observaciones por debajo de él y el resto por encima; se representa por Dh.
Para el cálculo de cualquiera de los cuantiles, se siguen los mismos criterios que
hemos expuesto para la determinación de la mediana.
2.7. Moda
Otra característica de tendencia central es la moda que, como la mediana, sólo

necesita, para su cálculo, que las observaciones estén ordenadas.
2.7. 1 . Definición
Se define la moda (Mj como «el valor de la variable estadística que corresponde
al máximo del diagrama diferencial». Si la variable estadística es discreta, es el valor de
la variable estadística que tiene mayor frecuencia. De la propia definición se despren
de que la moda no tiene por qué ser única, ya que pudiera haber dos o más valores de
la variable con la misma frecuencia máxima.
Una distribución con dos modas recibe el nombre de bimodal, con tres modas,
trimodal,...
La moda no tiene en cuenta una parte importante de los datos, por lo que se utiliza
como medida descriptiva de localización, y no suele usarse en la investigación.
Un ejemplo en que tiene interés el uso de la moda es el caso de apostar al número
que aparece en la cara superior de un dado si éste tiene la cara opuesta cargada. Es
82
evidente que al número de dicha cara corresponde la mayor frecuencia, por lo que
este número es al que tenemos que apostar si deseamos ganar.
2.7.2. Cálculo de la moda
1 ) Si la variable es discreta, la moda queda perfectamente definida: es el valor o

los valores de la variable de mayor frecuencia. En el ejemplo 2.1, la moda es 4.
2) Si la variable es continua, se habla de intervalo (o clase) modal, que es el
intervalo que tiene mayor frecuencia por unidad de amplitud.
A veces es necesario conocer cuál es la situación puntual del valor de la moda en
el intervalo modal. Para hallar este valor, se pueden seguir distintos criterios, como
puede ser tomar, como valor de la moda, la marca de la clase modal, el extremo inferior
de la misma o el extremo superior.
Si suponemos que todos los valores de la distribución que caen en el intervalo
modal, se distribuyen uniformemente en el mismo, el siguiente razonamiento nos lleva
a un valor más apropiado. Parece razonable que el valor de la moda corresponda a un
punto del intervalo modal más cercano al intervalo contiguo que tenga mayor frecuen
cia por unidad de amplitud.
En la práctica, vamos a distinguir dos situaciones posibles, según sean los inter
valos de clase de la misma o de distinta amplitud.
A) Los intervalos tienen la misma amplitud
En este caso, el valor de la moda debe estar más cerca del intervalo contiguo al
intervalo modal de mayor frecuencia. La figura 2.5 permite encontrar el valor del incre
mento que hay que añadir al valor del extremo de la izquierda, e , del intervalo modal,
para obtener un valor puntual de la
moda.
En efecto, los triángulos APC y
BPD son semejantes por tener los
ángulos iguales: los ángulos P por
ser opuestos por el vértice, y los
otros dos por ser alternos internos
entre paralelas.
Sus lados homólogos son, por
tanto, proporcionales, y también son
proporcionales sus bases y alturas.
Utilizando las propiedades de la
Figura 2.4. Cálculo de la moda. proporcionalidad, se deduce
83
PN BD PN+MP BD+AC MP AC
MP~ AC MP AC PN+MP BD+AC
AC n, - n, ,
de donde MP = (PN + MP) = a
BD + AC («, - «w ) + (", - ",-, )
puesto que AC=n -n r BD=n -n y PN+MP=MN=ai.

Si llamamos h ,=n -n , y h ,=n -n ,, se obtiene como valor de la moda:
h
M .e,.,+ (13)
/l,/ + /l,w
donde:
e i- 1, es el extremo inferior de la clase modal,
h . la diferencia de las frecuencias de la clase modal y de la clase inferior contigua,
h.+1 la diferencia de las frecuencias de la clase modal y de la clase superior contigua,
& la amplitud del intervalo modal.
B) Los intervalos no tienen la misma amplitud
En este caso, el intervalo modal es el de mayor frecuencia por unidad de amplitud

(n/a ), luego el valor de la moda debe ser un punto del intervalo modal que estará más
cerca del intervalo contiguo al que corresponda una mayor frecuencia media por
unidad de amplitud.
Un razonamiento similar al que hemos hecho para intervalos de igual amplitud, nos
lleva a la expresión de la moda:
k
M„ = e,.i + ¡/ (14)
*(./+*,.
donde ahora:
e 1-i, es el extremo inferior de la clase modal,
k , la diferencia de las frecuencias medias por unidad de amplitud de la clase modal
y de la clase inferior.
k+¡ la diferencia de las frecuencias medias por unidad de amplitud de la clase
modal y de la clase superior,
ai la amplitud del intervalo modal.
Ejemplo 2.9
Se trata de calcular la moda de la distribución descrita en el ejemplo 2.3. Todos los

intervalos tienen la misma amplitud, por lo que se toma la expresión (13).
El intervalo modal es el intervalo [172,178) y su frecuencia: n = 16.
84
La frecuencia del intervalo contiguo inferior es n. =15, y la frecuencia del intervalo

contiguo superior es nl, =13, luego h. =16-15=1 y h¡, =16-13=3. Como la amplitud de
cada intervalo es a=6, la moda es:
Aí„ = 172 + 6 = 172 + 1'5 = 173'5

1+3
2.1. Los resultados de un test de razonamiento realizado a un grupo de alumnos

fueron los siguientes:
59 72 71 68 67 78 57 57 75 61 69 39 80 46 57 94 59 76 54 64 62
616148 48 86 65 65 63 60 644166 68 67 68 27 68 64 76 72 67
1 ) Construir la distribución de frecuencias. 2) Hallar la media, la mediana y la moda.

3) Hallar los centiles 10 y 20.
2.2. Un saltador de longitud ha conseguido hacer, durante los 10 últimos días, unas
marcas de:
7'68; 8'04; 7'86; 8'01 ; 7'82; 8' 1 2; 801; 7'92; 8'00; 7'95.
1) Hallar la media de las marcas en esos 10 días. 2) Determinar la mediana y la

moda.
2.3. En un examen, se han planteado cuatro cuestiones, a las que el profesor ha

asignado distinto peso: 2 puntos para la primera, 3'5 para la segunda, 3 para la tercera
y 1'5 para la cuarta. Si cada cuestión ha sido calificada de 0 a 10, ¿qué nota le
corresponde a un alumno que ha obtenido 9, 6, 4 y 8?
2.4. Se lanza un dado 30 veces, obteniéndose los siguientes resultados:
2345261436 155233324665 1233 161 2
Calcular la media, la mediana y la moda.
2.5. La producción de trigo en una cooperativa agrícola durante los 7 últimos años
viene recogida en la siguiente tabla:
85
Año 1986 1987 1988 1989 1990 1991 1992
N" de fanegas 450 680 525 802 630 754 720
1 ) Hallar las medias aritmética, geométrica, armónica y cuadrática. 2) Calcular los

deciles de orden 4 y 6. 3) Determinar la moda.
2.6. Las calificaciones de 15 alumnos en la asignatura de Ciencias de la Naturaleza

son:
7; 6; 2; 8'5; 9; 6; 6; 5; 5,5; 4'5; 3; 1; 8; 7'5; 6'5
1) Calcular la mediana y la moda. 2) Hallar los percentiles de orden 20 y 70. 3)

Determinar el rango del percentil correspondiente a una calificación de 5.
2.7. Las temperaturas máximas y mínimas durante los 15 primeros días de julio, en una
ciudad, aparecen en la siguiente tabla:
Máximas 37 30 33 28 35 36 36 32 34 30 28 30 36 34 32
Mínimas 16 14 18 15 20 21 19 17 18 16 16 20 20 21 19
1 ) Calcular las medias de las temperaturas máximas y mínimas. 2) Hallar las tempe
raturas medianas máximas y mínimas. 3) Encontrar las modas.
2.8. Dada la distribución expresada por la siguiente tabla:
Clases 36-42 42-48 48-54 54-60 6CV66 66-72 72-78

ni 5 9 17 26 19 8 4
1) Hallar los cuartiles Io y 3°. 2) Calcular los percentiles de orden 30 y 90. 3)

Determinar el rango del percentil que corresponde al valor 56.
2.9. Las puntuaciones obtenidas por un grupo de universitarios en unas pruebas para
acceder a un puesto de trabajo en una industria fueron:
Puntuaciones 0-10 10-20 20-30 3040 40-50 5060 60-70 70-80 80-90 90-100 100-110
ni 10 34 48 72 164 142 118 78 40 34 12
1 ) Calcular la media, la mediana y la moda. 2) Si la empresa piensa rechazar al 40

por ciento de los que han sacado peor puntuación, ¿cuál es la puntuación mínima
requerida para ser admitido?
86
2.10. Según los indicadores económicos facilitados por la CEE, el PIB por habitante de
los diversos países de Europa en el año 1986 era:
Alemania 780.300 Holanda 158.300

Bélgica 99.500 Italia 443.600
Dinamarca 70.100 Irlanda 23.400
España 205.300 Luxemburgo 4.300
Francia 622.400 Portugal 26.400
Grecia 42.100 Reino Unido 533.800
1 ) Hallar la media, la mediana y la moda. 2) ¿Qué países están por encima de la

media? 3) ¿Qué países están por debajo de la mediana?
2.1 1. Un profesor facilita las notas de sus alumnos por medio de la siguiente tabla:
Notas 10-20 20-30 30-50 50-60

N° alumnos 9 13 21 11
1) Determinar el intervalo modal. 2) Suponiendo que los datos se distribuyen de

modo homogéneo en el intervalo modal, hallar el valor más apropiado para la moda.
2. 12. Calcular las medias aritmética, geométrica, armónica y cuadrática para la distribu
ción definida por la siguiente tabla, y comprobar la relación que existe entre ellas:
X. 3 4 9 15 20
"' 3 3 8 6 2
2.13. Se ha aplicado un test de aptitudes a los empleados de una factoría. La s puntua

ciones C<), agrupadas en clases, están recogidas en la siguiente tabla:
Puntuación (X) [38,44) [44.50) [50,56) [56,62) [62,68) [68,74) [74,80)

N° TVabajadores 7 8 15 25 18 9 6
1) Calcular la mediana y la moda. 2) Hallar la puntuación, por encima de la cual

quedan el 30%.
2.14. La oficina central de un banco ha contado la cantidad de dinero que retiraron los
clientes en un determinado día, agrupando las cantidades en clases de 20000 ptas.:
87
Miles de ptas. [0,20) [20,40) [40.60) [60,80) [80.100)

N° de clientes 33 17 19 14 7
1 ) Hallar la cantidad media de dinero retirada por los clientes. 2) Calcular la media
na, interpretando su resultado. 3) Hallar el rango del percentil correspondiente a 70000
ptas.
2.15. Las calificaciones obtenidas por 1300 alumnos en las pruebas de acceso a la
universidad, que se evaluaron de 0 a 100, han sido:
Puntuaciones (X) (17,25] (25,33] (33,41] (41.49] (49,57] (57,65] (65,73] (73,81] (81,89]
N" Alumnos 18 66 132 216 425 212 117 90 18
1 ) Hallar la calificación, por debajo de la cual están el 10% de los alumnos. 2) Si la

universidad sólo admite a mil alumnos, ¿cuál es la nota mínima para que un alumno
sea admitido?
2. 16. Hallar los cuartiles para los datos del ejercicio 2.9 e interpretar los resultados que
se obtengan.
2.17. Hallar la media, la mediana y la moda del ejercicio 1 . 1 7 del primer capítulo.
2. 1 8. En una prueba de velocidad lectora realizada a 30 estudiantes, se obtuvieron los

siguientes resultados (en palabras por minuto):
58 76 45 88 93 45 63 56 101 97 52 78 110 89 64 95 49 102 96 58 65 77 95 62 71 83 86 91 58 105
Hallar: 1) la mediana y los cuartiles primero y tercero; 2) el rango del percentil

correspondiente a una velocidad lectora de 75 palabras por minuto.
CAPITULO 3
CARACTERÍSTICAS DE DISPERSIÓN Y FORMA
3.1. Dispersión o variabilidad
Se llama variabilidad o dispersión de una distribución a la mayor o menor separa

ción de sus datos con respecto a una de sus características de posición o promedio.
La mínima dispersión posible es cero, dándose tal situación cuando todos los
valores de la variable son iguales. Este sería el caso en que todos los alumnos de una
clase obtuvieran la misma nota en una determinada asignatura.
La variabilidad de una distribución pretende medir la representatividad de una
característica de centralización, evaluando la separación de los datos de la distribu
ción con respecto a dicha característica.
Fijémonos en la figura 3.1, que contiene una representación de las distribuciones
de las calificaciones obtenidas por 28 alumnos en Física y Biología: en Física, hay 14
alumnos calificados con 3 y otros catorce con 9, mientras que, en Biología, hay 8
alumnos calificados con 5, 12 alumnos con 6 y 8 alumnos con 7.
La calificación media es de 6 puntos en ambas asignaturas, pero el 6 es más
representativo de la distribución de las calificaciones de Biología que de las califica
ciones de Física, donde ninguna de las notas se aproxima a 6.
Figura 3.1. Diagramas para las calificaciones en Física y Biología.

40
Son diversos los coeficientes que se definen para medir la dispersión, dependien
do, en cada caso, de la característica a la que se hace referencia y de si se pretende o
no relacionar una distribución con otra. Atendiendo a este último criterio, se pueden
clasificar en medidas de dispersión absolutas y relativas.
3.2. Medidas de dispersión absolutas
Entre las medidas de dispersión absolutas están el recorrido y las desviaciones

cuartílicas, que proporcionan una primera evaluación de la dispersión, pero sin ofre
cer una medida del grado de representatividad, ya que no hacen referencia a ningún
promedio.
Las diferencias y desviaciones son otros índices de la dispersión que, haciendo
referencia a alguna característica de tendencia central, presentan algunos inconve
nientes. La varianza y la desviación típica son las medidas de dispersión más intere
santes, proporcionando una buena medida del grado de representatividad de la media.
3.2. 1 . Recorrido
Se llama «recorrido o rango» de una distribución a la diferencia entre el valor más

alto y el más bajo de la variable estadística.
R = máx (x ) - mín (x ) (1)
El recorrido proporciona una primera información interesante de la variabilidad de

una distribución, pero es insuficiente, ya que, si un solo valor de la variable es muy
bajo o muy alto en relación con el resto, la información puede inducir a engaño.
Algunos autores definen el recorrido como la diferencia entre los valores más alto
y más bajo de la variable aumentada en una unidad:
R=R+1
3.2.2. Desviaciones cuartílicas
Cuando la distribución de una variable estadística no es simétrica, juegan un papel

importante la mediana, como característica para localizar la tendencia central y la dife
rencia entre los cuartiles primero y tercero, como medida de la dispersión.
91
3.2.2.1. Recorrido intercuartílico
Se define el «recorrido o rango intercuartílico» como la diferencia entre el terce

ro y el primer cuartil:
R,=Q,-Q, (2)
El recorrido intercuartílico nos indica que. en un intervalo de amplitud Rr se en

cuentran el 50% de los valores de la distribución.
3.2.2.2. Recorrido semiintercuartílico
A veces se toma como medida de la variabilidad la mitad del recorrido intercuartílico,

que recibe el nombre de recorrido semiintercuartílico:
ft-Q. R,
R« = (3)
Ejemplo 3. 1
En la siguiente tabla figuran las calificaciones de un test de conducta realizado por

un grupo de 80 alumnos. Vamos a calcular las desviaciones cuartílicas:
Clases Frecuencias Frec. acumuladas

10-20 3 3
20-30 6 9
3040 15 24
40-50 20 44
50-60 21 65
60-70 9 74
70-80 6 80
El primer cuartil. Q . deja por debajo el 25% de las puntuaciones, que son 20: por
tanto Q, cae dentro del intervalo 30-40.
Hasta el límite inferior del intervalo, 30, hay 9 puntuaciones; faltan 1 1 para llegar a
20. Entonces, interpolando, resulta que
si 15 valores corresponden a una amplitud 10 del intervalo,
1 1 valores corresponden a 1 lxlO/15=7'33. luego
Q=30+7'33=37'33
El tercer cuartil, Q , deja por debajo el 75% de las puntuaciones, que son 60; este
valor es mayor de 44. por lo que Q, cae dentro del intervalo 50-60.
92
Hay 44 puntuaciones hasta el límite inferior del intervalo, 50, y faltan 16 para llegar
a 60. Interpolando como antes, resulta
si 21 valores corresponden a una amplitud 10 del intervalo,
16 valores corresponden a 16x10/21=7'62, luego
Q=50+7'62=57'62
El recorrido intercuartílico es: R=57'62-37'33=20'09
y el recorrido semiintercuartílico: RS =20' 09/2= 10' 045
3.2.3. Diferencias y desviaciones
Dada una característica de tendencia central C y un valor x de la variable, se

tienen las cantidades:
l) x-C, que es la diferencia a la característica de tendencia central C,
2) Ix-CI, que es la desviación a la característica de tendencia central C.
Las cantidades x^C, cuando varía x, definen una variable estadística, cuyo prome
dio puede ser utilizado como medida de la dispersión.
Sin embargo, este promedio tiene un grave inconveniente, puesto que podría dar
se el caso de una distribución con valores muy dispersos a ambos lados, siendo la
media ponderada de las diferencias x-C pequeña, al contrarrestarse las diferencias
negativas con las positivas. (En el caso de tomar la media como característica de
tendencia central C, la media de las diferencias es cero).
En cambio, las cantidades Ix-CI, cuando varía x , definen una variable estadística
1 l
positiva, cuyo promedio se puede utilizar como medida de la dispersión.

Según sea la característica de tendencia central C, se obtienen distintos índices de
dispersión. Así, tenemos:
A) Desviación mediana (o probable): Es la mediana de las desviaciones a la
mediana.
B) Desviación media respecto de la mediana: Es la media de las desviaciones a la
mediana.
/ * (4)
Cuando D es grande, la mediana no es representativa, mientras que si DMe es

pequeña, la mediana es representativa de la distribución.
C) Desviación media respecto de la media: Es la media de las desviaciones a la
media:
Di-—px,-Jdn, (51
93
Ejemplo 3.2
Las puntuaciones de un grupo de 1 1 alumnos en un test de conducta son:

40 14 20 16 34 12 29 21 25 23 18
Vamos a calcular los recorridos, las diferencias y las desviaciones:
1) Recorrido
R=40- 1 2=28 ; R ' =40- 1 2+ 1 =29 es el recorrido aumentado en 1 .
2) Recorridos cuartílicos
Primer cuartil: Q,=16; segundo cuartil: Q,=29
Recorrido intercuartílico: R =29- 16= 13
Recorrido semiintercuartílico: Rs¡= 13/2=6' 5
3) Desviaciones
Para determinar la desviación mediana, ordenamos los datos de menor a mayor,
determinamos la mediana, y, una vez halladas las desviaciones a la mediana,
reordenamos los datos para evaluar la nueva mediana:
Datos ordenados 12 14 16 18 20 21 23 25 29 34 40
X -X -10'9 -8'9 -6'9 -4'9 -2'9 -1'9 O'l 2'1 6'1 111 IV 1
\x, -x\ 10'9 8'9 6'9 4'9 2'9 1'9 O'l 2'1 6'1 111 17'1 72'9
-9 -7 -5 -3 -1 0 2 4 8 13 19
A-*a 9 7 5 3 1 0 2 4 8 13 19 71
%-Mg\
Datos reordenados 0 12 3 4 5 7 8 9 13 19
Media=252/ll=22'9
Mediana= 21
Desviación media respecto de la mediana=71/l 1=6'45
Desviación media respecto de la media=72'9/l 1=6'62
Desviación mediana=5
3.2.4. Varianza y desviación típica
Las desviaciones medias proporcionan medidas interesantes de la dispersión, ya

que se basan en el promedio de las desviaciones a la mediana o a la media. Es
frecuente su uso en algunos campos de la investigación, como la Pedagogía.
Sin embargo, los valores absolutos no son muy adecuados para realizar posterio
res estudios y cálculos, por lo que se han buscado otras medidas que, siendo fáciles
de interpretar, admitan mejor las operaciones algebraicas.
Cuando los datos se ajustan a la distribución normal, las medidas de dispersión
más representativas son la varianza y la desviación típica.
94
3.2.4.1. Definiciones
La varianza de una distribución se define como el promedio de los cuadrados de

las desviaciones a la media, y se denota por s2:
(6)
Si la varianza es cero, todos los valores de la variable coinciden con la media, lo

que significa que la dispersión es nula. Cuanto más alejadas estén las observaciones
de la media, mayor será la varianza.
La varianza presenta todavía una dificultad: al estar elevadas al cuadrado todas las
desviaciones, la unidad de medida de la varianza viene dada en cuadrados de las
unidades de los datos originales.
Con el fin de disponer de una medida de la dispersión que venga en unidades de
medida de los datos originales, se utiliza la raíz cuadrada positiva de la varianza, que
se llama desviación típica y se denota por s:
(7)
3.2.4.2. Propiedades de la varianza
La varianza cumple una serie de propiedades interesantes; basándose en ellas, se

puede simplificar su propio cálculo y hacer comparaciones de datos expresados en
diferentes escalas de medida.
Las enunciamos a continuación sin demostrar. En el apéndice de fin de capítulo
pueden verse las demostraciones.
I. Si todos los valores de una distribución se multiplican (o dividen) por una
constante d (distinta de cero), la varianza de la nueva variable queda multiplicada (o
dividida) por el cuadrado de la constante. Así:
Siy = - (8)
II. Si a todos los valores de una distribución se les suma (o resta) una constante
k, la varianza de la nueva distribución no varía.
Si y = x ± k => si = si
95
III. La media de los cuadrados de las desviaciones con respecto a la media es
min
±4Xf x, - c )' n, = —I Xf
'
x, - x Y n (10)
N
Esta última propiedad nos dice que, si efectuamos la media de los cuadrados de
las desviaciones de los valores de la variable con respecto a un valor C, el valor
mínimo se obtiene cuando C es igual a la media, lo que hace que la varianza sea la
medida cuadrática de dispersión óptima.
IV. Teorema de Konig: Dado un número real c, la media de los cuadrados de las
desviaciones respecto de c es igual a la varianza más el cuadrado de la distancia entre
la media y c:
k
-xff, + (x-cf (11)
i-l ¡=i
En el caso particular en que c=0, resulta:
¿.(xi-xff = Y.x1 f ,- x2 (12)
que nos indica que «la varianza es la diferencia entre la media de los cuadrados y
el cuadrado de la media».
Esta última fórmula (o su expresión con frecuencias absolutas), que exponemos a
continuación, simplifica notablemente los cálculos:
(k y
¿J x,- x )' n, ¿éx:n, k X*'«_
N N N N (13)
-
Caso de frecuencias unitarias: Si la frecuencia de cada uno de los valores de la
variable es igual a 1 , resulta:
( k '
Yé(x,-x)' ¿xi
-x =
k
Z.xi -
P
)
(14)
i.i k
-
96
3.2.4.3. Propiedades de la desviación típica
De las propiedades de la varianza se deducen fácilmente, para la desviación típica,

las siguientes:
I. Si todos los valores de una distribución se multiplican (o dividen) por una
constante d (distinta de cero), la desviación típica de la nueva variable queda multipli
cada (o dividida) por la constante. Así:
x 1 (15)
a a
II. Si a todos los valores de una distribución se les suma (o resta) una constante
k, la desviación típica de la nueva distribución no varía.
Si y = x ± k . Sr = sx (16)
III. La desviación típica es la raíz cuadrada positiva de la diferencia entre la media

de los cuadrados y el cuadrado de la media.
(17)
Ejemplo 3.3
Vamos a calcular la varianza y la desviación típica de la distribución correspon

diente al ejemplo 2.1., donde se conocen las calificaciones de 20 alumnos en Matemá
ticas:
N° de alumnos 3 6 5 3 12
La forma más sencilla de evaluar estas características es mediante una calculadora

o alguno de los paquetes informáticos preparados para ordenador. Sin embargo, sobre
todo en los comienzos, es conveniente hacer uso de la definición y de alguna de las
propiedades que ayudan a simplificar los cálculos.
A) Utilizando la definición, el proceso de cálculo se puede seguir en el siguiente
cuadro, donde hemos situado los valores de la variable, las frecuencias, los productos
de los valores de la variable por las frecuencias, las diferencias con respecto a la
media, sus cuadrados y el producto de éstos por las frecuencias. El total de la última
columna dividido por el total de las observaciones es el valor de la varianza:
97
x¡ n, x, n, Xt-X (xi-xf ( x, - x f m
2 3 6 -3,05 9,3025 27,9075
4 6 24 -1,05 1,1025 6,6150
5 5 25 -0,05 0,0025 0,0125
6 3 IS 0,95 0,9025 2,7075
8 1 8 2,95 8,7025 8,7025
10 2 20 4,95 24,5025 49,0050
Total 20 101 94,9500
- 101 94,95 = 4,7475' s= 2,1788

20 20
B) Haciendo uso de las propiedades y utilizando la fórmula (13), el proceso segui
do también está recogido en el siguiente cuadro:
Xt n¡ x,n, x¡ XiTk
2 3 6 4 12
4 6 24 16 %
5 5 25 25 115
6 3 18 36 108
8 1 8 64 64
10 2 20 100 200
Total 20 101 245 605
(ioir
\605- . 4,7475: s = 2,1788
20 20
3.3. Medidas de dispersión relativas
Con frecuencia surge la necesidad de hacer comparaciones entre las dispersiones

de dos distribuciones expresadas en distintas unidades.
Así, puede ser que tengamos necesidad de averiguar cuál de las características de
centralización, Ci y C2, de dos distribuciones es más representativa. En principio, no
es posible dar una respuesta, ya que las distribuciones, probablemente, no estarán
dadas en las mismas unidades, y, en el caso de que lo estén, los promedios pueden
ser diferentes.
Esto obliga a encontrar una medida relativa de la variabilidad de una distribución
mediante un número abstracto, independiente de las unidades de medida de las variables.
98
Se definen varias medidas de dispersión relativas, como el coeficiente de apertu

ra, el recorrido relativo, el coeficiente de variación de Pearson y los coeficientes de
variación media.
3.3.1. Coeficiente de apertura
Se define el coeficiente de apertura(A) como el cociente de dividir el mayor valor

de la distribución entre el menor:
(18)
El coeficiente de apertura es adimensional, y tiene dos graves inconvenientes: en

primer lugar, no hace referencia a ningún promedio, por lo que no sirve para comparar
la representatividad, y, por otra parte, al tener en cuenta sólo los valores extremos,
puede tomar un valor grande, si éstos están muy separados, estando los restantes
valores agrupados entre sí.
3.3.2. Recorrido relativo
Si % -¿ q, se define el recorrido relativo como el cociente entre el recorrido y la

media aritmética, y se representa por Rr:
R (19)
Rr = —
x
El recorrido relativo indica el número de veces que el recorrido contiene a la media

aritmética.
3.3.3. Coeficiente de variación de Pearson
Si X ^0, se define el coeficiente de variación de Pearson(CV) como:
CV-- (20)
Se trata de una cantidad sin dimensión, puesto que, al efectuar el cociente, se

eliminan las unidades, y nos indica el número de veces que la desviación típica con
tiene a la media.
99
El coeficiente de variación se suele utilizar con variables positivas y multiplicado

por 100, lo que permite emplear un lenguaje de porcentajes:
V = 1O0xCV (21)
Cuanto mayor sea el coeficiente de variación, menor será la representatividad de la

media.
El coeficiente de variación de Pearson utiliza toda la información de la distribución,
y su valor mínimo es V=0, que se obtiene para s=0, en cuyo caso, no hay dispersión
y la media es totalmente representativa de la distribución.
Cuando la media es cero, el coeficiente de variación de Pearson no es válido.
3.3.4. Coeficientes de variación media
También se utilizan los coeficientes de variación media respecto a la media y a la

mediana, tomando valores absolutos en el denominador, ya que se trata de coeficien
tes de variación positivos:
/. Coeficiente de variación media respecto a la media
SiX*0 (22)
11. Coeficiente de variación media respecto a la mediana
SiMe*0 (23)
Ejemplo 3.4
Los alumnos de un grupo de primer curso han sido calificados en Matemáticas de

0 a 50 y en Física de 0 a 10 por sus respectivos profesores. ¿Cuál de las dos distribu
ciones es más homogénea con respecto a la nota media?
Para dar una respuesta, vamos a calcular el coeficiente de variación de Pearson:
La media de las calificaciones en Matemáticas es 39' 1 1 y la desviación típica 8'65,
luego el coeficiente de variación de Pearson es:
CV=8'65/39'11=0'221
y expresado en porcentajes:
V=0'221xl00=22'l%
100
Matemáticas Física
Calificaciones N° de alumnos Calificaciones N° de alumnos
15 3 2 12
25 5 3 9
35 8 5 12
40 14 6 5
45 16 7 4
47 5 9 4
49 3 10 8
Total 54 54
La calificación media de Física es 5 '27 y la desviación típica 2 '80, luego el coefi

ciente de variación de Pearson es:
CV=2'80/5'27=0'531
y expresado en porcentajes:
V=0'531xl00=53'l
Comparando ambos coeficientes, se llega a la conclusión de que hay una mayor
homogeneidad en las calificaciones de Matemáticas.
3.4. Momentos
Tanto la media como la varianza son casos particulares de un concepto más gene
ral, el de momento. Los momentos de una distribución son unos valores específicos
que se deducen a partir de todos sus datos y que son característicos de cada distri
bución, de modo que dos distribuciones son iguales si tienen iguales todos sus
momentos.
Se utilizan, en Estadística, dos tipos de momentos (potenciales y factoriales).
Definimos los momentos potenciales, que son los que vamos a necesitar:
Sea r un número entero positivo y c un número real cualquiera. Se llama momento
de orden r respecto de c al valor dado por la expresión:
% (c) = ¿¡(xi - c )' /, = — 2/X.. - c í n, (24)

i- 1 «V /. i
Según los diferentes valores de c, vamos a considerar dos clases de momentos

potenciales: los momentos centrales o momentos respecto de la media y los momen
tos respecto al origen.
101
3.4.1. Momentos centrales
Cuando c = x se tienen los momentos centrales o momentos respecto de la media:

I *
«r = — EU--*/n¡ (25)
Los primeros momentos centrales son:
i,Í
m„ = — £(*,-* /n, = 77 X», = ^
/ 4
N i.i
1 !
La varianza es. por tanto, el momento central de segundo orden.
3.4.2. Momentos respecto al origen
Cuando c=0 se tienen los momentos respecto al origen. Así, el momento de orden
r respecto al origen, que representaremos por ar, es:
ar = -l(xr0fn¡=-Z¿n (26)
Los primeros momentos respecto al origen son:

1 k i k
a„= —ZéX°ni = —'£n¡ = 1
N „, Ni.¡
1 ,
a, = —Z^xin, = x
1 ■
Con la terminología de momentos, la fórmula (13) puede escribirse en la forma:
m2 = ü2 - a. (27)
102
Esta fórmula relaciona el momento central de orden 2 con los momentos respecto
al origen. Es otra manera de expresar el teorema de Kónig para C=0.
3.4.3. Cálculo de momentos
Los momentos centrales y momentos respecto al origen están relacionados entre

sí. El cálculo práctico de los momentos centrales de una variable se realiza a partir de
los momentos respecto al origen.
Las relaciones entre unos y otros momentos se obtienen desarrollando las expre
siones de su definición por la fórmula del binomio de Newton.
/. Desarrollo de los momentos centrales
mr = 2Jx,-aiífi
i-i
Desarrollando esta expresión, resulta:
* - § [( „>r-( íKlM íHv- . . + i-'1 rhti -
-gx/f.-(-)¿xr«lfl+(-)gxr^f.-... + (-l)^«^.-
'«r-(J)«A-l+(J)«l««---- + (-l¡r*i"
Para valores particulares de r, se tienen las siguientes fórmulas que dan los prime
ros momentos centrales en función de los momentos respecto al origen:
m2 = a2 - a) (teorema de Kónig) C28)
m3 = a3-3a2ai+2ai ' '

m4 =a4-4a3ai + 6ala2-3ai (30)
II. Desarrollo de los momentos respecto del origen

k k i
ar = X*f/, = Z,(x,-ai+a,)rf, = ¿\(x,-ai) + aj[ í.
¿=/ ,.i i. i
Desarrollando esta expresión, resulta:

103
Para valores particulares de r, se tienen las siguientes relaciones, que permiten

obtener los momentos respecto del origen en función de los momentos centrales y de
la media:
a2 = m:+a'i > a¡ = m} + 3m2ai + a:¡ . a4 = m4 + 4m.lai + 6m2a'i+ai (31)
Ejemplo 3.5
Un test de aptitudes aplicado a un grupo de 30 alumnos ha dado las siguientes

puntuaciones:
12 13 50 70 35 12 65 74 15 76 40 38 45 20 35
30 25 45 44 76 82 53 60 25 23 57 90 40 35 80
Tratemos de hallar los 4 primeros momentos respecto del origen y respecto de la

media.
1 ) Momentos respecto del origen:
— 1365 77601
x=a/ = __ = 45.5 «, = — = 25*67
5034610 353818317
a3 = = 167820 '33 a* = = 11 793943' 9
30 30
2) Momentos centrales:
,„/ = 0 m2= 2586'7-45'52 = 51645

m} = 167820'33 - 3x2586'7x45'5 + 2x45'5' = 3128'7
m. = 11793943'9-4xl67820'33x44'5+6.x45'5:x2586,7-3x45'5J=523501'76
3.5. Análisis de la forma
Cuando los datos estadísticos se adaptan a la distribución normal o, cuando me

nos, la distribución es simétrica, la media coincide con la mediana, siendo, en tales
situaciones, la media y la desviación típica las características idóneas para resumir la
localización y variabilidad de la distribución.
104
Sin embargo, no siempre sucede esto. A veces, la distribución de frecuencias se

aparta de la normal, contiene datos anómalos o carece de simetría, en cuyas situacio
nes, la media y la desviación típica no reflejan fielmente la distribución.
Conviene, por lo tanto, conocer la forma de la distribución. Los métodos clásicos
ofrecen unas características, conocidas como «medidas de asimetría», que detectan
la no presencia de simetría con respecto a un valor de tendencia central y miden el
grado de su intensidad.
Una distribución es simétrica cuando posee el mismo número de valores a la
izquierda y a la derecha de la media de modo que cumplen:
1) dos a dos son equidistantes de la media.
2) cada uno de los pares de valores que equidistan de la media tienen la misma
frecuencia.
Otras características, conocidas como «medidas de curtosis» señalan el grado de
concentración respecto de la tendencia central, que se traduce en un mayor o menor
apuntamiento de su gráfica.
Los nuevos métodos exploratorios han dado una especial importancia al estudio
de la forma, aportando nuevos estadísticos y soluciones al problema de la
representatividad, según veremos en el próximo capítulo.
3.5.1. Coeficiente de asimetría de Fisher
Si una distribución es simétrica, el tercer momento central

/ *
m.t = tt 2/ *¡ - * / ".
será nulo, ya que se anularán entre sí los cubos de las diferencias positivas con los de
las negativas.
En cambio, si la distribución es asimétrica, el tercer momento central es tanto
mayor en valor absoluto cuanto más acentuada sea la asimetría de la curva. En efecto,
al elevar al cubo las diferencias, los valores extremos influyen más que los valores
próximos a la media en el cálculo de m,.
Además, el signo de m coincidirá con el sentido de la asimetría.
Por lo tanto, el momento central de orden 3 es un valor adecuado para obtener una
medida de la asimetría de una distribución. Con el fin de utilizar una magnitud sin
dimensión, se usa el coeficiente de asimetría de Fisher (AK):
Ah= — (32)
s
Si AF>0, la distribución presenta asimetría positiva (hacia la derecha).
Si AF=0, la distribución es simétrica.
Si AF<0, la distribución presenta asimetría negativa (hacia la izquierda).
105
3.5.2. Coeficiente de asimetría de Pearson
Otra peculiaridad de la distribución asimétrica es que, cuanto mayor es la asime

tría, mayor es la distancia entre la media y la moda, de forma que, en una distribución
asimétrica positiva, la media se desplaza a la derecha de la moda, y, en una distribu
ción asimétrica negativa, la media se desplaza a la izquierda de la moda. En esta
propiedad se basa el uso del coeficiente de Pearson, A , que se define como:
x-Mo (33)
A
Este coeficiente se utiliza si la distribución es unimodal. El signo del coeficiente

señala el sentido de la asimetría:
si A >0, la asimetría es positiva,
si A p=0, la distribución es simétrica,
si A p <0, la asimetría es negativa.
c
3.5.3. Coeficiente de asimetría de Bowley
El coeficiente de asimetría de Bowley tiene su fundamento en la posición de los

cuartiles primero, segundo y tercero. Si se tiene en cuenta que el segundo cuartil es la
mediana, se define el coeficiente de Bowley como:
Q,+ Qr2Mi1
A„ = (34)
La distribución será simétrica si AR=0, tendrá asimetría positiva si AB>0 y negativa

si AB<0.
3.5.4. Coeficiente absoluto de asimetría
Con el mismo fundamento que el coeficiente de Bowley se define el coeficiente

absoluto de asimetría como:
Q.i + Q,-2Md (35)
3.5.5. Medidas de apuntamiento o curtosis
Si dos distribuciones tienen la misma varianza, aquella que tenga mayores frecuen
106
cias en los valores próximos a la media, tendrá también mayores frecuencias en los
valores extremos y, en cambio, tendrá menores frecuencias en los valores intermedios.
El momento central de orden 4 será, por tanto, mayor en la distribución que tenga
un mayor apuntamiento. Esta es la razón por la que se usa, como medida del apunta
miento de una distribución, el coeficiente del momento de aplastamiento:
nu (36)
A.
s4
En el caso de distribuciones unimodales,

leptocúrtica
con una cierta simetría, la mayor o menor
concentración en tomo a la media origina
un mayor o menor apuntamiento en la grá
fica. El grado de apuntamiento se determi
mesocúrtica
na comparándolo con una distribución que
se toma como modelo, la distribución nor
mal, que tiene una gráfica en forma de cam
platicúrtica pana, cuyo estudio se hace en el capítulo 8.
Figura 3.2. Apuntamiento o curtosis. Para esta curva, el coeficiente del mo
mento de apuntamiento vale A4=3, por lo
que se utiliza, como medida del apuntamiento, el coeficiente de aplastamiento
g4 = A4-3 (37)
Si g4>0. la curva es más apuntada que la normal de misma media y misma desvia
ción típica (se dice leptocúrtica),
si g4=0, la curva es igual de apuntada que la normal (mesocúrtica),
si g4<0, la curva es menos apuntada que la normal (platicúrtica).
En la figura 3.2 tenemos una imagen de tres curvas con distinto apuntamiento.
Ejemplo 3.6
Veamos cuáles son las medidas de asimetría y aplastamiento para la distribución

del ejemplo 3.5:
1 ) Coeficiente de asimetría de Pearson:
La distribución es unimodal, siendo la moda M =42, luego
X-M„ 45'5-42 r>

A.= 0'I5
75/675 22725
El coeficiente de asimetría de Pearson es A =0' 1 5>0. que indica un sesgo hacia la
derecha.
107
2) Coeficiente de asimetría de Fisher:
m, 31287 31287
S3 22725" 11736'6
Por ser AF=0'266>0, el coeficiente de Fisher confirma el sesgo hacia la derecha.
3) Coeficiente del momento de aplastamiento:
m 5235327 5235327
A4 = V= 22725' = 266695'42 = ''96S
Luego el coeficiente de apuntamiento de Fisher es:
gJ = AJ-3 = 1'963-3 = -1'037

Al ser g4=-1'037<0, la curva es platicúrtica, es decir, está más aplastada que la
distribución normal de la misma media y desviación típica.
3.6. Medidas de concentración
Se entiende por concentración el mayor o menor grado de igualdad en el reparto

del total de los valores de la variable.
Se utiliza este concepto fundamentalmente con variables económicas, como son la
producción, los salarios, las rentas,... El interés en la distribución de la renta, más que
en la dispersión, está en el reparto equitativo de la misma. Por ello, Corrado Gini
introduce el concepto de concentración con el fin de medir el grado de equidistribución
de la variable. Se puede estudiar la concentración por métodos gráficos o mediante
algún estadístico.
Sea la distribución dada por los valores de la variable x y los valores de la frecuen
cia n,. Para estudiar la concentración, necesitamos añadir a la tabla de frecuencias:
1 ) los totales acumulados para cada valor de la variable: u, = ¿jXirii
2) las frecuencias relativas acumuladas en forma de porcentajes: p = 100f
3) los totales acumulados expresados en porcentajes: q - /00—
u„
Ejemplo 3.7
Se trata de estudiar la concentración de los salarios de los empleados de una

empresa, cuya distribución viene dada por:
Salarios 70-90 90-110 110-130 130-150 150-170 170-190 190-210

N° obreros 60 180 300 200 150 80 30
108
El estudio gráfico se realiza por medio de la curva de concentración o curva de

Lorenz. La curva de Lorenz es la representación de los totales acumulados (q.) en
función de las frecuencias acumuladas (p.), cuyos valores tenemos calculados en la
tabla de distribución:
Salarios n i
c N1 en. u1 P.1 %
70-90 60 80 60 4800 4800 6 3'65
90-110 180 100 240 18000 22800 24 1737
110-130 300 120 540 36000 58800 54 44'81
130-150 200 140 740 28000 86800 74 66' 15
150-170 150 160 890 24000 110800 89 84'45
170-190 80 180 970 14400 125200 97 95'42
190-210 30 200 1000 6000 131200 100 100
Para dibujar la curva de Lorenz, se construye un cuadrado de lado 100, y, tomando

como origen el vértice inferior izquierdo, se sitúan sobre el eje de abscisas las p , y sobre
el eje de ordenadas los qr La poligonal que une los puntos (p¡,q¡) es la curva de Lorenz.
La curva pasa por los puntos O(0,0) y P( 100, 100), y está situada siempre por
debajo de la diagonal que une O y P, siendo cóncava.
La concentración mínima se daría cuando
todos los empleados percibieran el mismo sala
100
rio, en cuyo caso p -q para todo i, y la curva
80 •- de Lorenz coincidiría con la diagonal del cua
drado. En cambio, la máxima concentración se
60
daría cuando uno de los empleados se llevara
todo el dinero de los salarios, no percibiendo
nada el resto de los empleados.
20 .. En tal caso, la curva de Lorenz estaría for
mada por los lados inferior y lateral derecho
del cuadrado.
20 40 60 80 100 Por tanto, cuanto más se aproxime la curva
a la diagonal del cuadrado, menor será la con
Figura 3.3. Cuna de Lorenz centración y más equitativa será la distribución
de los salarios.
Para medir la concentración, se utiliza el índice de concentración de Gini, que se
define como:
(42)
109
Si la concentración es mínima, es p¡=q¡, y, por tanto, IG=0; mientras que, si la

concentración es máxima, q =q,=...=qn^=0, e I0=1. Por tanto, IG vana de 0 a 1. Se
comprueba además que el índice de Gini es aproximadamente «igual al área encerrada
entre la diagonal y la curva dividida por la mitad del área del cuadrado».
El índice de Gini correspondiente al ejemplo 3.7 es Ia=0'06.
Otro índice de concentración interesante es la mediala, que se define como el
valor de la variable x tal que
q(x)=0'5xl00%
q(x) es la proporción (en tanto por ciento) de la cantidad total de salarios ganada por
los empleados cuyo salario es menor que x.
La mediala es, por tanto, el salario tal que los empleados que ganan individualmen
te menos que la mediala ganan globalmente tanto como los empleados cuyo salario
sobrepasa el salario medial.
La mediala cuando los datos están agrupados, se calcula, como la mediana, por
interpolación a partir de los extremos de la clase medial:
50 -qn (43)
Mi = e¡¡+ a¡
donde:
e es el límite inferior de la clase medial,
qM es la cantidad acumulada (en porcentaje) inferior a la clase medial,
q. es la cantidad acumulada (en porcentaje) de la clase medial,
a. es la amplitud de la clase medial.
En el ejemplo 3.7, la mediala es M=l 30+4' 86= 134' 86.
3.7. Variable tipificada
En numerosas ocasiones, interesa deducir el valor relativo de un dato con respecto al

grupo al que pertenece, utilizando para ello la media y la desviación típica del grupo.
Supongamos que tenemos que asignar un puesto de trabajo a uno de entre dos
candidatos y que, para seguir un criterio ecuánime, hemos decidido asignar la plaza a
aquel que haya obtenido mejor calificación en una prueba que ambos candidatos
realizaron en sus ciudades de residencia.
Uno de los candidatos obtuvo 55 puntos sobre un total de 80, mientras que el otro
candidato fue calificado con un 7 sobre un total de 10 puntos.
Conocemos además la media y la desviación típica de las distribuciones de ambas
pruebas:
X, = 45y s, = 12
X2 = 6 y si = 2
no
Al no ser iguales las unidades de medida utilizadas, las calificaciones de los can
didatos no son comparables.
Debemos, por lo tanto, transformar las calificaciones, pasándolas a una escala
común de modo que las transformadas tengan la misma media y la misma desviación
típica.
Si a las calificaciones originales les restamos su media y dividimos por su desvia
ción típica, se transforman ambas en otras de media cero y desviación típica 1 .
Las calificaciones de nuestros dos candidatos son ahora:
X,-X, 55-45 10
ft 2 2
Como estas nuevas calificaciones tienen una distribución de media cero, observa
mos que las dos están por encima de la media y asimismo, al ser la desviación típi
ca 1 . comprobamos que la primera calificación está 0,83 desviaciones típicas por en
cima de la media, en tanto que la segunda está solamente 0,5 desviaciones típicas por
encima de la media.
El proceso que acabamos de seguir, por el cual transformamos los valores x de
una variable en otros z, que se obtienen de restar a cada valor x de la variable su
media y dividir el valor así obtenido por la desviación típica s:
X,-X (44)
Z, =
se conoce con el nombre de tipificación de la variable, y la nueva variable Z, así

obtenida, se llama variable tipificada.
Proposición: La variable tipificada tiene media cero y desviación típica 1.
En efecto: j. = 0. Por las propiedades 2) y 3) de la media, y, en virtud de la propie

dad I de la desviación típica, será:
s- — —s = I.
3.8. Puntuaciones derivadas
Las puntuaciones tipificadas son cantidades referidas a una misma unidad de

medida, lo que facilita la comparación entre los distintos datos, ya que su valor es
independiente de la distribución de origen.
La tipificación de una variable permite conocer a simple vista si una puntuación
111
queda por encima o por debajo de la media de su distribución, puesto que se sabe que
ésta es igual a cero.
Además, al ser la desviación típica igual a 1, nos indica cuántas desviaciones
típicas está por encima o por debajo de la media.
Las puntuaciones tipificadas poseen la gran ventaja de que la distribución normal
N(0,1 ) está tabulada y es sencilla de manejar e interpretar.
Sin embargo, el investigador debe comunicar los resultados por él obtenidos y
hacerlos inteligibles a personas no versadas, como puede ser el caso del profesor que
quiere facilitar las calificaciones de sus alumnos a los padres de éstos. Seguramente
algún padre no entenderá que una calificación de cero indica que su hijo está en la
media del curso, ni sabrá interpretar una calificación negativa.
Por este motivo, se han diseñado otras calificaciones de interpretación más fácil.
3.8.1. Puntuaciones T
Las puntuaciones T se obtienen a partir de las puntuaciones tipificadas Z median

te un cambio de origen y un cambio de escala que viene dado por la transformación
T = 10Z + 50 (45)
De esta forma, una calificación Z=- 1 se transforma en

T=10x(-1H50=-I0+50=40
La nueva variable T tiene media 50 y desviación típica 10. La puntuación T=40
significa que está por debajo de la puntuación media (50) y a una distancia de una
desviación típica de la misma.
Las puntuaciones T son positivas y se pueden redondear a números de dos cifras,
lo que facilita su comprensión, ya que no hay números negativos ni decimales.
Este tipo de puntuación tuvo gran difusión al ser habitualmente utilizado por las
fuerzas armadas de los Estados Unidos de América.
3.8.2. Puntuaciones SAT
Otro tipo de puntuaciones derivadas muy utilizado en las Ciencias de la Educación

y en Psicología son las puntuaciones SAT (Scholastic Aptitude Test o test de aptitud
escolar).
Las puntuaciones SAT se obtienen de las puntuaciones tipificadas también por
medio de un cambio de origen y de escala mediante la transformación
112
SAT = 1002 + 500 (46)
Las puntuaciones SAT siguen, por lo tanto, una distribución de media 500 y
desviación típica 100. Así, una puntuación Z=l se transforma en una puntuación
SAT= 1 OOx 1 +500=600, lo que significa que está por encima de la media (500) y a una
distancia de la misma de una desviación típica.
3.9. Correcciones de agrupamiento de Sheppard
En alguna ocasión, hemos advertido cómo la agrupación en intervalos de una

distribución de frecuencias produce una cierta pérdida de información, que será tanto
mayor cuanto menor sea la uniformidad de la distribución de los datos dentro de cada
intervalo, dependiendo también de la amplitud de los intervalos.
Esta pérdida de información hace que los resultados que se obtienen cuando
calculamos un momento sean diferentes según se evalúen para la totalidad de los
datos o para la distribución agrupada en intervalos.
W.F. Sheppard estudió estas diferencias y llegó a la conclusión de que entre los
momentos para distribuciones agrupadas (que representamos por mr, ar) y los momen
tos de las distribuciones originales (m'r, a'r), cuando la distribución es de tipo campa
niforme, no muy asimétrica, y todos los intervalos tienen la misma amplitud c, se dan
las siguientes relaciones:
III
-'iVfjá?'"
donde r'=0, cuando 2i>r.

Si damos valores particulares a r, para los cuatro primeros momentos respecto al
origen, resulta:
~ c c c c
ao = a'o = 1, ai = a', = x, a2 = a'2 + —, a.l = a'l + —a',, a4 = a'4 + ~ZU2 + TT
12 4 2 80
y, para los momentos centrales:
c2 c2 c4
mo = m',i = 1, mi = m'i = 0, m2 = m'2 + —, m3 = rrí'l , m4 = rrí4 + —ní2 + -
12 2 oí/
A partir de estas relaciones, los momentos corregidos de segundo y cuarto orden
respecto de la media quedan:
1) Momento central de orden 2 corregido:
113
c~ (49)
m"2 = mi
' 12
2) Momento central de orden 4 corregido:

7
«4-»-J«'-Jo"«-2 ,
luego el momento central de orden cuatro corregido es
(50)
2 240
Para los momentos impares m, y m, no es necesario hacer ninguna corrección.

La corrección de Sheppard debe utilizarse con cuidado, únicamente en las condi
ciones antes reseñadas y después de analizar cada situación, para evitar una correc
ción excesiva, que incrementaría un error con otro.
Ejemplo 3.8
Los pesos de 50 estudiantes de primer curso de Ciencias Químicas vienen dados

por la siguiente tabla:
Altura 50-56 56-62 62-68 68-74 74-80

N° estudiantes 3 10 14 13 10
Veamos cuáles son la varianza y el momento de cuarto orden respecto de la media

sin la corrección de Sheppard y corregidos.
A) Sin corrección:
m2=49'8584 y m=5204' 1006.
B) Corregidos:
m\=49'8584-3=46'8384;
m' =5204' 1006-397'0912+37'8=4344'8094.
3.1. En el ejercicio 2.6, teníamos las calificaciones obtenidas por 1300 alumnos en las
pruebas de acceso a la universidad, que se evaluaron de 0 a 100 puntos:
114
Puntuaciones 17-24 25-32 33-40 41-48 49-56 57-64 65-72 73-80 81-88 89-96
V alumnos 18 66 132 216 425 212 117 90 I8 6
1) Hallar las desviaciones medias respecto de la media y respecto de la mediana. 2)

Hallar la varianza y la desviación típica. 3) Estudiar la simetría y el apuntamiento.
3.2. Dada la distribución definida por la siguiente tabla:
X1 1 2 3 4 5 6 7 8 9
"l
4 8 5 6 4 9 3 2 2
Hallar: 1 ) los 4 primeros momentos respecto al origen; 2) los 4 primeros momentos

centrales.
3.3. Los beneficios repartidos por una empresa aparecen reflejados en la siguiente
tabla:
Cantidad (millares) 3540 4045 45-50 50-55 55-60 6065 65-70 7075
N° de empleados 8 9 18 25 28 12 14 6
1) Estudiar la concentración de los beneficios, trazando la curva de Lorenz y

calculando el índice de Gini y la medíala.
3.4. Las calificaciones en Matemáticas de 313 alumnos de primer curso de un centro

escolar, distribuidas en intervalos de clase, han sido las siguientes:
Calificaciones 3.54 44'5 4'5-5 5.5'5 5.5.6 6#5 6'5-7 7-75 T5-8 8-8'5 8'5-9 9-9'5
V alumnos 6 10 31 38 63 70 41 20 15 8 6 5
Hallar: 1 ) la desviación mediana y las desviaciones medias; 2) el recorrido y los

recorridos cuartílicos; 3) la varianza y la desviación típica.
3.5. Hallar el coeficiente de asimetría de Fisher, el coeficiente del momento de aplasta

miento y el coeficiente de aplastamiento de la siguiente distribución:
X. 3 4 5 6 7 8 9
"i
3 5 9 8 6 6 4
115
3.6. Hallar los cuatro primeros momentos respecto al origen de la distribución del
ejercicio 2. 1 1 del capítulo 2.
3.7. La talla (en metros) de 200 reclutas está recogida en la siguiente tabla
x, r60-r64 1'64-l'68 r68-r72 r72-r76 r76-r80 1'80-l'84

n. 8 20 60 52 30 20
Calcular: 1) la varianza y la desviación típica; 2) el coeficiente de variación de

Pearson; 3) los coeficientes de variación media.
3.8. Las gratificaciones que han percibido los empleados de una compañía están refle
jadas en la siguiente tabla, expresadas en miles de pesetas:
t
3540 4045 45-50 50-55 55-60 60-65 65-70 70-75
a i
80 111 130 166 100 78 40 19
Hallar; 1) la varianza y la desviación típica; 2) los coeficientes de asimetría; 3) el

coeficiente de aplastamiento, clasificando la distribución según su apuntamiento.
3.9. Hallar la varianza. la desviación típica y el coeficiente de variación de Pearson del

ejercicio 2.6.
3.10. Calcular los cuatro primeros momentos centrales de la distribución del ejercicio
2.2 del capítulo 2.
3.1 1. Las puntuaciones obtenidas en un test de visión espacial realizado a dos grupos
de alumnos de tercero de Bachillerato en dos institutos de Toledo han sido:
Puntuaciones <20 21-15 26-30 31-35 36-40 41-45 46-50 51-55 >56
Instituto A 1 8 4 6 13 3 1 0
Instituto B 0 3 4 12 4 7 4 2 i
1 ) Hallar los coeficientes de variación de Pearson correspondientes a cada uno de

los centros. 2) ¿Cuál de ellos tiene una distribución más homogénea?
3.12. La siguiente tabla contiene los cocientes de inteligencia de 100 alumnos de

primero de BUP:
116
Cocientes <70 70-79 80-89 90-99 100-109 110-119 120-129 >129

N° de alumnos 3 8 18 22 20 17 8 4
Hallar la media, la varianza, la desviación típica y los coeficientes de asimetría.
3.13. Las calificaciones en Matemáticas de primer curso de las facultades de Químicas

de dos ciudades A y B han sido:
Ciudad A Ciudad B
Calificación N° de alumnos Calificación N° de alumnos
4 16 7
5 8 4 20
6 22 5 8
7 6 6 10
8 12 7 10
9 7 8 8
Total 71 63
¿Cuál de las dos distribuciones es más homogénea?
3.14. Se ha medido la cantidad de litros de leche que da diariamente una vaca de una
determinada raza durante un período de 15 días, obteniéndose los siguientes resulta
dos:
20'5 12*6 23'8 19'2 16'4 15 21 18'3 22 17'4 18 18'6 9 172 19'4
1) Calcular la media, la varianza y la desviación típica. 2) Hallar el recorrido
intercuartílico y el recorrido semiintercuartílico.
3.15. Las puntuaciones obtenidas por 30 alumnos sometidos a un test de personalidad

de Eysenck han sido las siguientes:
20 17 10 6 15 9 13 10 8 21 18 27 12 31 6
17 5 24 29 11 7 8 20 16 31 15 12 21 24 16
1 ) Tipificar la variable y convertirlas en puntuaciones T y SAT.
3.16. Se han realizado diez mediciones del diámetro de un émbolo, obteniéndose las
siguientes medidas:
3'97 3'87 3'99 4'05 4'06 4'01 4'01 3'89 3'97 3'99
117
Hallar los cuatro primeros momentos respecto al origen y los coeficientes de asi
metría de Fisher y de Pearson.
3.17. Las calificaciones obtenidas por veinte alumnos en un ejercicio de Matemáticas

han sido
845678293654887551 1 12144661 127
1 ) Analizar la simetría y el apuntamiento
Apéndice al capítulo 3: Demostración de las propiedades
Propiedad I La varianza de y = x¡ / d es
k ( ,. -v
[xx l "
X(-v,-y//í, X7--7 n, -fZix,-xfm ,
/=/ , = i\<> ") - d~ ¡,¡ '- 2
si N N N ~ d2 Sx
N N
Propiedad II: La varianza de y =x+k es
j k j k j k
si = — Xí y¡ - y fn¡= 77XU, - k -x+k)2n¡= — Xí x, - x fn¡= si
Propiedad III: Llamemos P(c) = Y,(x,-cff = — Y,(x,-cfn¡

ti N%
Desarrollando el cuadrado del último miembro, resulta:
k í 1 ? *
/ .xiri: -2c¿..x-n + c2 ¿-n =c~ —2cx +— y^x'n
¿jx*n¡ ¿¿x2n¡
c~ - 2cx+ x~ . = (c -x )' + .
N N
Como (c -x )' > 0, el valor mínimo de la expresión se obtiene para c - J
Propiedad IV: Vamos a expresar P(c) en función de su mínimo:
P(c)= S(xí-c;2/,. = ~Z(xi-x+x-c)2f,=

Desarrollando el cuadrado y teniendo en cuenta las propiedades de las sumas, queda
i
P(c)= 'L[(xi-xf + 2(x,-x)(x-c)+(x-cf]fi =
118
= X( x, - x ff, + 2(x- c) X(X, -x)f, + (x - cfZf,
k k k
Como J,(x¡-x)f, = 0 y X/, = /, P(c)=t,(xi-x)2f, + (x-cf

¡=/
lo que demuestra el teorema de Kónig.

CAPITULO 4
ANÁLISIS EXPLORATORIO DE DATOS
4.1. Estadística exploratoria y medios informáticos
La Estadística Exploratoria tiene como objetivo describir los datos, organizan-

dolos y presentándolos de forma que pueda entenderse fácilmente su estructura.
Desde que, en 1977. J.W. Tukey publicó su obra «Exploratory Data Analysis», la
Estadística Descriptiva ha ido evolucionando, adquiriendo en ella el aspecto
exploratorio una especial relevancia.
Se han elaborado nuevos métodos de organización y presentación de los datos,
que se han llevado a cabo con una variada gama de detalles gracias a las posibilida
des ofrecidas por los paquetes informáticos.
Los tres primeros paquetes orientados específicamente hacia la Estadística son:
SPSS (Statistical Package for the Socials Sciences), SAS (Statistical Analysis System)
y BMD (Biomedical Statistical Software). El primero de ellos es propio del mundo
de la empresa y de la investigación científica, y los dos últimos, con un carácter más
específico, se dirigen hacia el campo de las Ciencias Sociales y Médico-Sanitarias,
respectivamente.
Con el desarrollo de los ordenadores personales, surgen nuevos paquetes como
STATGRAPHICS, SYSTAT. MINITAB o CSS. Son programas de fácil adquisición,
con una gran potencia y sencillos de manejar.
Estos paquetes, además de facilitar la organización de los datos, permiten su
interpretación y proporcionan los resultados.
Con la ayuda del ordenador, la Estadística Exploratoria ha conseguido aportar
nuevos métodos de representación gráfica, que pueden ser utilizados incluso con
carácter confirmatorio, y una gama de nuevos estadísticos, más resistentes a varia
ciones extremas que los clásicos.
120
4.2. Principios fundamentales
Los principios fundamentales en que se basan las nuevas técnicas estadísticas

fueron expuestos por Tukey. Mientras que los métodos clásicos tratan de ajustar los
datos a un modelo previamente fijado, en los nuevos métodos de análisis de datos, se
diseña el modelo adecuado a cada serie estadística a partir de la estructura que
presentan los propios datos.
Esta nueva forma de trabajar se caracteriza por:
1) El papel relevante que adquieren los «métodos gráficos». Se han aportado
nuevos procedimientos de visualización: diagrama de tronco y hojas, gráfico en
caja y extensión, gráfico de centiles,... capaces de detectar anomalías que, de otro
modo, pasarían desapercibidas.
2) El uso de modelos de «línea resistente» para tratar el ajuste de distribuciones,
de forma que se elimine la influencia que pudieran ejercer los casos raros, como
pueden ser los datos muy alejados de los valores centrales.
3) la utilización de «transformaciones», potenciales y logarítmicas, que clarifi
can la estructura de los datos.
4) La información adicional que aportan los «residuales», es decir, las diferen
cias entre los datos reales y los valores ajustados.
Los métodos exploratorios son considerados por algunos autores como una
nueva rama de la Estadística. Otros, entre los que podemos citar a Good, les restan
importancia. La realidad es que las técnicas que proporcionan, con la ayuda del
ordenador, están adquiriendo cada día mayor relevancia.
Los tres capítulos anteriores se han dedicado fundamentalmente al estudio de
las características de tendencia central y de dispersión clásicas, dando escasa impor
tancia al análisis de la forma. Dicho tratamiento es correcto cuando la distribución
de los datos es simétrica o se aproxima a la normal.
Las nuevas técnicas ponen el acento en el análisis de la forma, jugando un papel
importante las representaciones gráficas.
La principal dificultad que ofrecía la media aritmética era su sensibilidad a
cambios de valores extremos. Por ello, se buscan nuevos índices de localización
«resistentes» (poco afectados por el influjo de valores extremos), y «robustos» (poco
influenciables por las desviaciones de los postulados iniciales como la exigencia de
la normalidad del modelo). La media aritmética carece de estas dos cualidades. La
mediana, sin embargo, aunque no es un índice robusto, sí es resistente, y juega un
papel importante en el «Análisis Exploratorio de Datos».
Junto a la mediana, se utilizan como índices de localización: el «promedio de
cuartiles», la «centrimedia» y las «medias recortadas», entre las que vamos a
considerar la «trimedia» y la «mediana extendida».
121
4.3. índices de loralización resistentes
Hemos señalado que la media es una medida muy sensible a cambios en los
extremos. En general, siempre que un conjunto de datos estadísticos presente alguna
anomalía o haya motivos para creer que su distribución se aparta de la normal, se
deben utilizar características que ofrezcan una mayor resistencia.
Se dice que una característica es «resistente» cuando es afectada mínimamente
por la presencia de datos anómalos (alejados de los valores centrales).
La mediana, M , es el índice de localización principal en las nuevas técnicas.
El valor d(M,) señala la distancia de la mediana a los valores extremos, que. en
principio y según la definición establecida en el capítulo 2, viene determinada por:
/
d(M,¡)=-(N + l) (1)
siendo N el número de datos.

A partir de la mediana y de los dos cuartiles se definen el promedio de cuartiles
y la trimedia.
4.3.1. Promedio de cuartiles
Se define el «promedio de cuartiles» como la media aritmética de los dos

cuartiles:
Q,*Q.l (2)
Q=
Este índice recoge el 50# de los valores centrales de la distribución de los datos,
eliminando así la influencia de valores extremos.
4.3.2. Trimedia
Se define la «trimedia», que vamos a representar por TRI, como la media

aritmética de la mediana y el promedio de cuartiles. o, lo que es equivalente, como
la media ponderada de los tres cuartiles (el primero y tercer cuartil y la mediana):
(3)
2 4
4.3.3. Medias recortadas
Las «medias recortadas» constituyen una familia de características de loca

lización resistentes. Se obtienen las medias recortadas eliminando un determi
122
nado porcentaje de datos extremos y calculando la media aritmética del resto de

los datos.
Es frecuente el uso de tales medidas en las puntuaciones o mediciones de
algunas competiciones deportivas, donde, para evitar posibles tendencias de los
jueces, se eliminan los valores extremos en el cálculo de los promedios.
La «media recortada al 20%» es la media aritmética del 60% de los datos que
quedan después de eliminar el 20% de las observaciones inferiores y el 20% de las
superiores. La media aritmética se puede considerar como la media recortada al 0%,
mientras que la mediana es una aproximación de la media recortada al 50%. Las
medias recortadas de mayor uso son la «centrimedia» y la «mediana extendida».
I. Centrimedia o media intercuartílica
La media recortada al 25% se conoce como «centrimedia o media intercuartílica»

y la vamos a representar por MID:
MID = — -h. . (41
En el numerador aparece la suma de todos los datos comprendidos entre los dos
cuartiles, y en el denominador el número C de tales datos.
Al evaluar la centrimedia, no se deben de tener en cuenta los datos repetidos,
procurando, en todo caso, que el número de valores repetidos que se suprimen sea el
mismo a ambos lados.
Estudiando la posición relativa de la media aritmética y de la centrimedia, se
puede detectar la presencia o no de simetría. Se sabe que un valor de la centrimedia
superior a la media aritmética denota un sesgo hacia la izquierda.
II. Mediana extendida
Para paliar la sensibilidad de la mediana a los errores de redondeo o truncamien

to, se define la «mediana extendida»(MEj).
Su definición depende de la paridad y del número de datos:
Si n es impar y 4<n<13, se toma la media de los tres valores centrales;
si n es impar y n>12, se toma la media de los cinco valores centrales;
si n es par y 4<n<13, se toma la media de los cuatro valores centrales;
si n es par y n>12, se toma la media de los seis valores centrales.
Ejemplo 4.1
Se trata de evaluar los índices que acabamos de introducir para la serie de datos
que constituyen los pesos de 20 jóvenes:
123
39 42 36 34 43 42 45 52 54 37 44 72 33 49 56 62 63 44 44 47
Ordenamos los datos:
33 34 36 37 39 42 42 43 44 44 44 45 47 49 52 54 56 62 63 72
La mediana es: M=44.

d
Los cuartiles son: Qt - 40'5 y Q =53

- 40'5 + 53
luego el promedio de cuartiles es: Q = 4675
„ Q + M, 4675 + 44
El valor de la tnmedia es: TRI = - = = 45'37
2 2
La media es 46'9, superior a la centrimedia, MID=45'2, lo que es señal de un
cierto sesgo hacia la derecha.
Mediana extendida: el número de datos es par y mayor que 12, por lo que se
toma la media de los seis valores centrales, obteniéndose ME,=44'5.
4.4. índices de dispersión
Los métodos exploratorios utilizan «el rango intercuartílico»^) y la «mediana

de las desviaciones absolutas»(MAD), como medidas de dispersión absolutas. Se
toma, como medida de dispersión relativa, el «coeficiente de variación
cuartílica»(C\ ).
El rango intercuartílico y la mediana de las desviaciones absolutas (denominada
desviación mediana o probable), se estudiaron en el capítulo 3.
4.4.1. Rango intercuartílico pseudo-tipificado
El «rango o amplitud intercuartílico» (R,), también llamado «dispersión me

dia», es la distancia entre los dos cuartiles:
ií# = G,-0, (5)
Encierra el 50% de los datos. Si se le compara con la distribución normal

tipificada, el intervalo que contiene la mitad de los valores centrales en ésta es
(-0'6745 y 0'6745), cuya amplitud es de 2x0'6745=1 '369.
Entonces, dividiendo la amplitud intercuartílica por 1'349, se obtiene un nuevo
124
índice comparable con los índices tradicionales, S K , denominado «rango

intercuartílico pseudo-tipificado» :
R,
(6)
1'349
Para los datos del ejemplo 4.1, se obtienen los valores:
12'5
R, = 53-40'5= 12'5 y s„, 9'26
1'349
4.4.2. Indice de variación cuartílica
En lugar del coeficiente de variación de Pearson, la unidad de dispersión relativa

más usada por los métodos exploratorios es el «coeficiente de variación
cuartílica»(CV ). que se define como el cociente de dividir la mitad del rango
intercuartílico por el promedio de cuartiles:
R./2 Q,-Q,
CVe = .7.
Q "Q., + Q,
Con los datos del ejemplo 4.1, resulta: CVt=12'5/93'5=0'133.
4.5. índices de forma
Ya hemos advertido la importancia que, en los métodos exploratorios adquiere el

estudio de la forma. Se definen nuevos índices de simetría y de curtosis.
Para la simetría, se utilizan el «índice de Yule» y el «índice de Kelly».
4.5.1. Indice de simetría de Yule
El índice de simetría de Yule(H,) se basa en la posición relativa entre la mediana

y los cuartiles, por lo que tiene en cuenta solamente el 50% de los datos:
Q,+ Qr2Md (8)
H,:
2 M,,
Su interpretación es la siguiente:
Si HÔ, la distribución es simétrica.
Si HÔ, hay asimetría positiva.
Si H <0, hay asimetría negativa.
125
4.5.2. Indice de simetría de Kelly
El índice de Kelly hace uso del 80% de los datos. Se define como:
Cío + CiR,
H2 = M,¡ (9)
Este índice ha dado lugar a un nuevo índice adimensional, H , de mayor interés:
Cw+Cw-2Mi
H,= (10)
2 M¿
Se interpreta del mismo modo que el índice de Yule.
4.5.3 índice de curtosis
Entre los diversos índices para el estudio del apuntamiento, el más interesante es
el índice K. que se define a partir de los centiles de orden 10 y 90 y de los cuartiles:
K= (11)
¡'9(Q,-Q,)
Se interpreta en el siguiente sentido:

Si K=1. la distribución es mesocúrtica.
Si K>1, la distribución es leptocúrtica.
Si K<1. la distribución es platicúrtica.
Ejemplo 4.2
Veamos cuáles son los valores de los índices de forma correspondientes a los
datos del ejemplo 4. 1 :
1) Indice de simetría de Yule:
Q,+ Qi-2MJ 40^+53-2x44
2 Md 2\44
lo que indica un insignificante sesgo hacia la derecha.
2) Indice de simetría de Kelly:
Cw+C^^Mj 34 + 63-2x44
Hi = ~ ~ ~~ = O'IO
2M,, 2x44
que confirma el resultado anterior.
3) Indice de curtosis:
C yfí - C /o 63-34
K= 1'22
1'9(QrQ,) 1'9(53-40'5)
luego la curva es leptocúrtica.
126
4.6. Diagrama de tronco y hojas
Uno de los métodos más ingeniosos que surge del análisis exploratorio de Tukey
es el «diagrama de tronco y hojas». Se trata de una mezcla entre histograma y tabla
de frecuencias, que permite hacer un análisis transversal detallado de los datos. Se
complementa con el gráfico en caja y extensión, cuyo diseño es de menor precisión.
El enfoque transversal permite , una vez ordenados los datos, seleccionar mejor
la representatividad de los intervalos de clase.
Para describirlo, nos vamos a servir del siguiente ejemplo:
Ejemplo 4.3
Queremos analizar las puntuaciones obtenidas por 45 empleados de una empresa

en un test de aptitud:
545 580 526 503 573 501 606 641 623 705 391 422 365 343 437
428 453 452 526 112 445 726 338 497 563 625 639 451 446 873
536 652 561 734 542 586 573 492 740 920 647 433 565 329 525
Para ello, diseñemos el correspondiente diagrama de tronco y hojas. Atendiendo a

los objetivos que pretendemos conseguir, comprenderemos mejor su estructura:
I. Localizar las características de posición central.

II. Conocer la dispersión con respecto a los valores centrales.
III. Obtener una visión panorámica que muestre la simetría.
IV. Descubrir alguna zona (laguna) en que no haya datos.
V. Detectar posibles anomalías.
VI. Encontrar valores de uso poco frecuente.
El diagrama de tronco y hojas resalta la parte fundamental de los datos (el

tronco), mostrando también las ramas, parte secundaria, pero importante para des
cubrir la forma de la distribución.
En el ejemplo que nos ocupa, el tronco va a estar formado por las centenas. A
cada tronco le sigue una rama, cuyas hojas van a ser los dígitos de las decenas,
(prescindiremos de las unidades simples, ya que la información que aportan es de
menor importancia).
También pueden ponerse todos los dígitos en las ramas; lo que no conviene es
redondear los últimos dígitos, ya que sería complicado recuperar después el dato
completo.
Los troncos son los que marcan los intervalos de clase, y se sitúan en una
127
columna central ordenada desde el tronco más bajo al más alto, incluyendo todos los
valores intermedios, aunque no formen parte de ningún dato.
La rama que contiene a la mediana (índice fundamental en los métodos
exploratorios), se resalta en uno de los márgenes de la tabla (la primera columna,
habitualmente). Esta columna se denomina «columna de frecuencias», y, en ella se
sitúan las frecuencias acumuladas, pero sumándolas en un doble sentido, comenzan
do por ambos extremos hasta llegar a la fila en que se encuentra la mediana, en cuyo
lugar se pone el valor de la frecuencia absoluta correspondiente a su rama entre
paréntesis.
De este modo, se consigue destacar la rama que divide a la población en dos
partes iguales.
La suma de la frecuencia de la rama que contiene a la mediana y de los dos
valores contiguos en la columna de frecuencias es igual al número N de datos, lo que
puede ser útil como elemento comprobatorio de que no se ha olvidado ningún valor.
La columna de frecuencias facilita el cálculo de la «profundidad» de cada dato.
La «profundidad» de un dato es su distancia al extremo más próximo.
El diagrama de tronco y hojas correspondiente a los datos del ejemplo 4.3 podría
ser entonces:
Frecuencias Troncos Ramas y Hojas
1 1 1
1 2
6 3 2 3469
17 4 22 3 3445 5 99
(15) 5 00222 3 446667788
13 6 0222444 5 6
4 7 02
2 8 7
Tenemos 9 troncos, y detectamos ya una «laguna» en la rama 2 además de la

presencia de algunos datos alejados. Duplicando el número de troncos, se pueden
observar mejor las lagunas y anomalías, puesto que, cuanto menor es la amplitud del
intervalo, mayor es la contribución de cada dato individual.
Tendremos entonces los troncos 3* y 3o; al primero le asociaremos las hojas 0,
1, 2, 3 y 4, y al segundo las restantes: 5, 6, 7, 8 y 9.
El diagrama de tronco y hojas debe ir acompañado del número de datos, de la
unidad, y de un ejemplo aclaratorio. Se consigue así la siguiente disposición:
128
Frecuencias Troncos Ramas y Hojas
1 1* 1
1 lo
1 2*
1 2o
4 3* 43 2
6 3o 96
12 4* 2 3 2443
17 4o 55959
(8) 5* 42002342
20 5o 8766876
13 6* 042 234
7 6o 5
6 7* 02 34
2 7o
2 8*
2 8o 7
1 9* 2
N=45 UNIDAD=10 3ol6=360-369
Este último gráfico nos muestra mejor las lagunas que hay entre los troncos 1 y
3 y del 7* al 8o. También se aprecia que el 6 es un valor poco frecuente y la
presencia de datos alejados en ambos extremos.
El número de ramas que se elige está en función de la forma de los propios datos,
por lo que no se siguen las normas de la elección del número de clases que vimos en
el capitulo 1. Dentro de la flexibilidad que hay, uno de los criterios más extendido
consiste en seleccionar un máximo de L ramas, que en función del número N de
datos, es:
(12)
L = 2-JÑ, si /V < 100
L= 10\ogmN, úN > 100 (13)
El número máximo de ramas para el ejemplo, según este criterio, es 12.

Si los datos son muy numerosos (pasan de 300), para evitar un gráfico que
podría resultar confuso, se procede a un «remuestreo», y se trabaja con una
«submuestra» de los datos.
En función del número de datos se selecciona la amplitud del intervalo, que es el
cociente de dividir el rango de la distribución entre el número de ramas, pero
redondeado a una potencia de 10.
129
Cuando se detecta, en los extremos, la presencia de datos bastante alejados de los

valores centrales, dichos datos se suelen poner separados, en la parte superior o
inferior, utilizando como tronco la palabra ALTOS o BAJOS según sean sus valores,
y situando el dato completo en la rama.
Si elegimos 12 ramas y separamos los datos alejados, la forma en que quedaría
nuestro diagrama en un paquete informático como STATGRAPHICS es:
BAJOS 1 112
4 3* 2 34
6 3o 69
12 4* 223344
17 4o 5 5 599
(8) 5* 00222344
20 5o 6667 7 8 8
13 6* 0 2 2 3 44
7 6o 5
6 1* 0234
2 7o
2 8*
2 8o 7
ALTOS 1 920
N=45 JNIDAD== 100 3ol6=360-369
Aún se puede aumentar el número de troncos, por ejemplo, subdividiendo cada

uno en 5 partes. En tal caso, se utilizan, para designar a los nuevos troncos, las
iniciales inglesas de los dígitos: T(two y three), F(four y five), S(six y seven); para
cero y uno se utiliza el «*», y para ocho y nueve el símbolo «o».
En otras ocasiones, cuando el número de datos es pequeño, se pueden agrupar
los troncos, utilizando dos dígitos para designarlos, separados por una coma, mien
tras que las ramas correspondientes a distintos troncos se separan con dos puntos.
Así, por ejemplo:
2,3 I 14:6
indica que las hojas 1 y 4 pertenecen al tronco 2, y la hoja 6 al tronco 3.

También se diseñan diagramas nominales, en los que las frecuencias se sitúan
como troncos y las diversas categorías como hojas, representándolas con un símbo
lo, como puede ser la letra inicial de cada categoría.
130
4.7. Cuartos y octavos
Hasta ahora hemos venido trabajando con la mediana y los cuartiles. Sin embar
go, los métodos exploratorios suelen utilizar otros índices, los «cuartos» y los
«octavos»; incluso la mediana se determina siguiendo otro criterio cuando el número
de datos es par.
El criterio que se sigue para determinar la mediana es:
A) Si el número N de datos es par, se toma como valor de la mediana, M ,, el valor
de la variable que ocupa, en la serie de datos ordenada, el lugar 1/2 (N+l) - 1/2, que
representamos por d(M )':
/ /
(1(M.l)=-(N + 1)-- (14)
B) Si el número N de datos es impar, se toma, como valor de la mediana, el valor

habitual, es decir el que ocupa la posición:
d(M,)=-(N + l) (15)
Determinada la mediana, se definen los «cuartos» como aquellos valores de la

variable que dividen en dos partes iguales a cada una de las dos mitades en que la
mediana divide a los datos (mediana de cada mitad).
El «primer cuarto» o «cuarto inferior», al que vamos a designar por H , se
define como el valor de la variable, que, situado por debajo de la mediana, tiene una
profundidad igual a la parte entera de 1/2 (d (Md) +1), mientras que el «tercer
cuarto» o «cuarto superior», al que vamos a designar por H,, es el valor de la
variable, que situado por encima de la mediana, tiene una profundidad igual a la
parte entera de 1/2 (d (Md) +1). Luego:
d(H)=-{d(Mj)+l) (16)
nos indica la posición de cada cuarto con respecto al extremo más cercano.
Aunque no siempre coinciden, se pueden utilizar, en su lugar, los cuartiles, ya
que, en la práctica, la diferencia no es substancial.
También se suele dividir cada cuarto en dos partes iguales, obteniéndose dos
nuevos índices: «octavo inferior(E) y superior(EJ».
El «octavo inferior» es, por tanto, el valor de la variable que, situado por debajo
del primer cuarto, tiene una profundidad igual a la parte entera de 1/2 (d (H ) +1),
1 De esta forma, la mediana siempre coincide con uno de los datos, lo que resulta razonable cuando se
trabaja con variables discretas.
131
mientras que el «octavo superior» es el valor de la variable que. situado por encima
del cuarto superior, tiene una profundidad igual a la parte entera de 1/2 (d (H ) +1). La
distancia. d(E). de los octavos al extremo más próximo es
d(E)=-{d(H)+l) (17)
Estos conceptos dan lugar a nuevos índices: sus promedios y rangos.

El «rango intercuartos» (IQR) es la distancia entre ambos cuartos:
IQR= H,-H, (18)
El promedio de cuartos es la media aritmética de los dos cuartos:

//, + //, (19)
H=
El «promedio de octavos» es la media de los dos octavos:

- £,' + £,
£= (20)
Ejemplo 4.4
Se trata de determinar la mediana, los cuartos y los octavos correspondientes a

los datos del ejemplo 4.1. Para ello:
1 ) Se ordenan los datos de menor a mayor, anotando su profundidad (distancia al
extremo más próximo).
2) Se determina la mediana según el nuevo criterio.
3) Se evalúan los cuartos y octavos en función de la profundidad (distancia al
extremo más cercano).
La figura 4. 1 . presenta, de modo esquemático, el proceso seguido:
d(E)=3 d(Md)=10 d(E)=3

d(H)=S d(H)=5
1 2 Q] 4 [g] 6 7 B 9 pLO] 10 9 6 7 6 fj] 4 [I] 2
33 11 (36) 37(:)9) 42 42 43 44(44)45 45 47 49 5 2 (Ti) 5 6 (p.í) 6 3 72
H1 = 39 Hs = 54
y. " ttri=44 E =62
1 S
Figura 4.1.: Determinación de índices.

132
4.8. Datos anómalos
Son «datos anómalos» aquellos valores de la variable que se apartan en gran

medida de los valores centrales. Cuando hablamos de datos anómalos, estamos
refiriéndonos al comportamiento de los datos con respecto a un patrón referencial: la
distribución normal.
Para precisar ideas, vamos a definir el concepto de «paso»:
El «paso» es una medida de dispersión que equivale a 1'5 veces el rango
intercuartos:
P„ = 1'SxIQR (21)
Sucede que, si comparamos la serie de datos con que trabajamos con la distribu
ción normal, la amplitud del rango intercuartos debe ser igual a 1'5 veces la
desviación típica.
Entonces, si consideramos un intervalo formado añadiendo a cada uno de los
extremos del intervalo intercuartos la extensión 1'5 . IQR, el nuevo intervalo cubrirá
todos los valores de la población salvo el 7% de los mismos, dejando un 3'5% en
cada uno de los extremos.
A los valores que quedan fuera de dicho intervalo se les denomina «exteriores».
Los valores más alejados del centro, pero todavía interiores, son denominados
«adyacentes».
Se distinguen dos tipos de valores exteriores: «alejados» y «remotos». Para
definirlos con precisión, se introducen dos pares de límites llamados «limites inter
nos», que distan un «paso» de los cuartos, y «límites externos», que distan 2
«pasos» de los cuartos.
Entonces los límites internos inferioriL) y superior(LJ se obtienen de restar y
sumar un paso a cada uno de los cuartos inferior y superior, respectivamente:
H,-P„, L, = H.*P, (22)
Los límites externos inferior(T) y superior(T ) se obtienen de restar y sumar 2

pasos a cada uno de los cuartos inferior y superior, respectivamente:
T, = Hi-2P„ T,= H. + 2P¡, (23)
Los valores de la variable que caen en el espacio comprendido entre los límites
internos y los externos, se consideran datos «alejados», y aquellos que sobrepasan
los límites extemos se consideran datos «remotos».
Las fronteras para determinar los datos anómalos se han establecido comparando
estos intervalos con los correspondientes a la normal, de modo que la probabilidad
de que aparezca un dato remoto es inferior a CT00698.
133
Estos índices se resumen en una tabla en forma de U invertida, que recibe el

nombre de «tabla de letras-índices» («tabla de 5 letras» si recoge la mediana, los
cuartos y los límites internos, y «tabla de 7 letras» si contiene además los octavos).
La tabla de letras-índice incluye el número de datos, las profundidades y los promedios.
La figura 4.2 contiene la tabla de 7 letras para el ejemplo 4. 1 .
4.9. Gráfico en caja y ex

tensión
n=20
(1,3 = 44
El gráfico en caja y exten p(nd)=ic H^39 Hs = 52
B=46'5
sión tiene también su origen P(H)=5 El=36 El=62
en los métodos exploratorios P(E)=3 L =33 L =72
E=49
i 5
introducidos por Tukey y se
basa en los estadísticos des
criptivos que proporciona la
tabla de letras-índices. Por tan Figura 4.2.: Tabla de 7 letras.
to, debe permitir apreciar fá
cilmente la situación de la mediana, los cuartos y los límites internos.
El gráfico en caja analiza la parte central de la distribución y las colas, zonas
éstas en las que se suelen dar anomalías. No recoge los datos con la precisión del
diagrama de tronco y hojas, ya que tiene una finalidad distinta: proporcionar una
visión espacial de conjunto. Es recomendable que vaya siempre acompañado del
diagrama de tronco y hojas.
* remotos
O alejados
..... adyacentes. 2 P
1' 5 P
11.
"d Paso
H ,
1' 5 P
adyacentes
2 P
O alejados
* remotos
Figura 4.3.: Diseño del gráfico en caja y extensión.

134
Una caja rectangular forma el núcleo del gráfico. Para construirla, se toman
sobre una recta vertical u horizontal, según la posición que se quiera dar al gráfico,
divisiones que abarquen el rango de la distribución.
Se marcan los cuartos y la mediana mediante tres segmentos paralelos con las
medidas que proporciona la tabla de letras-índices. Uniendo sus extremos por dos
segmentos paralelos, queda determinada la caja, que abarca el 50% de los datos. Del
punto medio de ambos costados de la caja salen dos segmentos rectilíneos («exten
siones» o «patillas»), cuya longitud máxima es 1'5 pasos.
Los extremos de las patillas coinciden con los datos «adyacentes». La longitud
máxima será nula cuando el dato «adyacente» coincida con el cuarto correspondien
te. Más allá de las extensiones se encuentran los datos «alejados» en una zona que
va desde los límites internos hasta los límites externos; se representan por el
símbolo «o».
Los datos remotos son los que caen fuera de los límites externos, y se representan
por un «*».
El gráfico en caja y extensión proporciona:
1) La «mediana» (segmento interior a la caja), que nos da una idea de la
localización de los valores centrales.
2) La «dispersión» (facilitada por la posición de los cuartos).
3) La «simetría central» (detectada por la posición de la mediana respecto de los
cuartos).
4) La «simetría de los extremos» (puesta de manifiesto por la longitud de las
extensiones).
5) El «apuntamiento» (relación entre la longitud de la caja y las extensiones).
6) Los «datos anómalos», (situados fuera de los límites internos).
Ejemplo 4.5
Las siguientes calificaciones en la asignatura de Física y Química corresponden

a una muestra seleccionada al azar de 3 1 alumnos de segundo curso de Bachillerato:
N" de alumnos 112 7 7 8 5
La tabla de 7 letras puede apreciarse en la figura 4.4, y, a su derecha, el diagrama

de tronco y hojas nominal correspondiente.
135
BAJOS 1 10
N-31 2 2 0
P(«d) = 16
tld = 6 2 3
H1=S Hs^7 H= 6 4 4 00
p(H)=8 E =4 E =B ~
i 1 E= 6 11 5 0000000
P(E)=3 L ^2 L =8
i s (7) 6 0000000
13 7 00000000
5 8 00000
Figura 4.4.: Tabla de 7 letras para el ejemplo 4.5. UNIDAD=0'1 1 12=1'2
La mediana es el valor de la variable estadística que ocupa la decimosexta

posición: Md=6.
Los cuartos están situados en la posición dada por 1/2(15+1), (lo que supone 8
posiciones a partir de cada uno de los extremos): R=5 y H =7.
Los octavos ocupan la posición que señala la parte entera de 1/2(8+1) (4 posicio
nes a partir de cada uno de los extremos): E=4 y E =8.
El paso es P =l'5x(7-5)=3. Como 5-3=2, el límite interno inferior es L=2, y 2 es
el valor del «dato adyacente donde se sitúa el extremo de la patilla inferior.
Al ser 8+3= 1 1 mayor que todos
los datos, y no haber otro dato que
supere al 8, es 8 el límite interno
superior, donde se sitúa el fin de la
patilla correspondiente: L =8.
Los límites externos son: T =7-6= 1
y T =8.
El gráfico en caja para el ejemplo
4.5 está recogido en la figura 4.5. l
Se detecta un dato anómalo (la
calificación 1 ). Figura 4.5.: Gráfico en caja v extensión.
4.10. Promedios de simetría
Además de los métodos gráficos, un buen procedimiento para detectar la presen

cia de asimetría consiste en observar la posición relativa de los promedios (mediana,
promedio de cuartos y promedio de octavos), que, analizados conjuntamente, se
comportan del siguiente modo:
A) Si la distribución es simétrica, los promedios toman los mismos valores o
valores muy próximos.
136
B) Si la distribución presenta un sesgo hacia la derecha, los promedios cumplen

la relación:
Md < H < E
C) Si la distribución presenta un sesgo hacia la izquierda, la relación entre los

promedios es:
Md > H > E
Los paquetes informáticos disponen de órdenes que proporcionan la tabla de

promedios.
4. 1 1 . Transformaciones de datos
Las técnicas exploratorias tienen por objeto detectar la presencia de saltos,

anomalías, asimetrías o algún tipo de relación no lineal cuando se comparan dos o
más series de datos.
La finalidad que, con ello, se persigue es la de corregir dichos inconvenientes.
Cuando, en una serie de datos falla la simetría, los estadísticos clásicos (media y
desviación típica) no son una síntesis adecuada de los mismos.
Si, por medio de las representaciones gráficas o a través de la tabla de prome
dios, se detecta un cierto sesgo en la serie de datos original x,,x,,...,xn, interesa
buscar una transformación T de los datos originales, de modo que la serie de datos
transformados T(x,),T(x,),...,T(xn) no posea tal inconveniente y pueda ser tratada
por los métodos clásicos en orden a conseguir inferencias para la población.
En el capítulo 3 hemos estudiado una transformación (tipificación de la varia
ble), que consiste en un cambio de origen y un cambio de escala. La tipificación
facilita los cálculos y la interpretación de los datos, pero no realiza ninguna altera
ción en la forma de la distribución, como puede ser la simetría de los datos.
Nos interesa encontrar transformaciones que realicen alteración en el crecimien
to de la variable. De esta forma, se puede conseguir la aproximación de los datos
alejados y hacer más simétrica la distribución.
No toda transformación de este tipo va a ser válida. Los requisitos exigidos son:
1) Que conserve el orden de los datos, alterando únicamente la distancia entre
los mismos.
2) Que mantenga los índices, es decir, el transformado del primer cuarto sea el
primer cuarto de los transformados,...
3) Que sea continua, de modo que datos cercanos entre sí se transformen en
datos también próximos entre sí.
Las transformaciones que mejor desempeñan estas funciones son las transforma
ciones de potencias, con las que pretendemos conseguir la «simetrización» de los
datos.
137
La razón fundamental por la que tratamos de «simetrizar» los datos reside en el

hecho de que los estadísticos que se utilizan habitualmente son representativos
cuando su distribución se ajusta a la normal. Pero, incluso cuando se dan desviacio
nes de la normal, estos estadísticos clásicos son válidos para realizar inferencias de
los parámetros de la población siempre que exista una relación de simetría entre los
datos.
4. 1 1 . 1 . Transformaciones de potencias
Para conseguir la «simetrización» de una serie de datos, las transformaciones de

potencias que se utilizan son funciones reales de una variable real de la forma:
-Xp,sip<0
T: <K -» 9í I X -» T(X) : logX sip = 0 (24)
. X,,sip>0
Cuando la potencia p es negativa, se cambia de signo la variable para mantener
el orden de los datos. El problema está en elegir, para cada caso, el valor más
adecuado de la potencia: p. Tukey propone la siguiente «escala de potencias»,
según el tipo de asimetría:
1) Si la asimetría es positiva, se toman valores de p menores que 1:
p: -2, -1, -1/2, 0, 1/2

2) Si la asimetría es negativa, se toman valores de p mayores que 1:
p: 2, 3
Cuando p=0, la transformación es T(x)=log(x).
Estas transformaciones se deben de realizar sobre los datos originales, no sobre
los datos tipificados. En otro caso, la transformación afectaría a los índices de
tendencia central y a la propia forma, y nos encontraríamos con valores negativos
que podrían no tener imagen.
Sin embargo, a veces se dan este tipo de valores en los datos originales, en cuyo
caso será conveniente realizar un cambio de origen antes de aplicar la transforma
ción de potencia.
Para saber cuál es el valor de la potencia más adecuado, una manera de proceder
consiste en ensayar varias transformaciones y calcular los nuevos promedios de cada
serie de datos transformados, eligiendo aquella que dé unos promedios más precisos
entre sí. Existen otros métodos menos laboriosos, como puede ser el de la pendiente,
que exponemos seguidamente.
138
4. 1 1 .2. Método de la pendiente para determinar la potencia
Una vez se ha observado el sesgo de la serie de datos, de acuerdo con la relación

de los promedios, se construye un gráfico, que consiste en representar, en unos ejes
cartesianos, los pares de valores dados por los puntos cuya primera componente es
(X^-MA + (M,i-X.r (25)
4Mi
y cuya segunda componente es

X,+ X.
.-M.¡ (26)
donde X representa el extremo inferior de los cuartos u octavos (H.,E), y Xs el

extremo superior de dichos índices (H ,E ).
Así, (E+E )/2-Md es la diferencia entre el promedio de cuartos y la mediana.
Cuando la distribución es simétrica, estas diferencias serán nulas, mientras que
si la serie de datos presenta un sesgo hacia la derecha o la izquierda, tendrán signos
positivos o negativos, respectivamente.
Si se detecta algún tipo de sesgo, se estima la pendiente, m , de la recta que pasa
por los puntos de coordenadas (u.,v.) y el origen:
(27)
Como valor m de la pendiente de la recta que aproxima los puntos, se toma la

mediana de dichas pendientes.
El valor de p que da la mejor transformación de potencia para conseguir la
«simetrización» de los datos es
1-m (28)
Ejemplo 4.6
Las puntuaciones obtenidas por 15 alumnos en una prueba han sido:
12 16 20 25 30 35 38 40 45 50 57 65 74 76 90
Se trata de encontrar la transformación de potencia más adecuada para hacer

simétrica la distribución de estos datos.
Efectuados los cálculos, la tabla de promedios nos proporciona los valores:
139
Mj = 40.Ü = 45, E = 46
que cumplen la relación:
Mj < H < E
lo que indica un sesgo hacia la derecha, luego debe de ser p<1. Apliquemos ahora el
método de las pendientes para determinar el mejor valor de p. La siguiente tabla
recoge un resumen de los resultados:
X, x5 UJ vi m.i
H 25 65 5,3 5 0.94
1 16 76 11.7 6 0.51
La mediana de las pendientes es m=0'51, que proporciona el valor de

p=l-0'51=0'49
que se puede aproximar a 0'5. Luego la transformación más adecuada es:
T(X)= X":
La serie de nuevos datos que se obtiene aplicando la transformación es:
3'46 4 4'47 5 5"47 5'91 6" 16 6'32 6'7 7'07 7'54 8'06 8'6 8'71 9'48
Los datos transformados proporcionan unos promedios más próximos entre sí:
M.i = 6'32/H = 6'53,~E = 635
lo cual es señal de que la nueva serie de datos tiene menos sesgo. Podemos compro
bar este resultado trazando los diagramas de tronco y hojas correspondientes a las
dos series de datos (los situamos «espalda contra espalda» para compararlos mejor):
F Datos originales T D. transformados F

2 2 1 1
4 5 0 2
7 8 5 0 3 4 1
(2) 5 0 4 0 4 3
6 7 0 5 0 4 9 6
4 5 6 1 3 7 (3)
3 6 4 7 0 5 6
1 S 0 67 4
1 0 9 4 1
N=15 Unidad=l 1/2=12 N=15 Unidad=0,l 3/4=34
140
4. 1 1 .3. Transformaciones de raíz cuadrada
El diagrama diferencial clásico para representar una variable estadística conti

nua es el histograma, cuyo diseño estudiamos en el capítulo 1. No siempre el
histograma es una buena representación de los datos. Sabemos que no refleja bien la
distribución empírica cuando los datos no están repartidos uniformemente a lo largo
de cada uno de los intervalos de clase o cuando el número de intervalos de clase no
es el adecuado.
Para corregir estos inconvenientes, los métodos exploratorios sugieren la cons
trucción de un histograma suavizado, que consiste en sustituir la «densidad de
frecuencia» por su raíz cuadrada.
Se consigue, de este modo, el «diagrama de raíz cuadrada», formado por
rectángulos, cuyas bases son las amplitudes a.=e-e de los intervalos de clase y
altura la raíz cuadrada de la densidad de frecuencia del intervalo:
(28)
Como resultado se obtiene una figura «más suave». La transformación de raíz

cuadrada es un elemento importante para la comprobación de la linealidad del
modelo de regresión y para averiguar si una distribución empírica se ajusta a la
distribución normal.
Ejemplo 4.7
Las puntuaciones de una prueba realizada a 400 estudiantes han sido:
Puntuaciones [150,200) [200,250) [250,300) [300,350) [350,400) [400,450) [450,500) [500,550)
N" de alumnos 16 70 120 115 30 24
Los histogramas para los datos del enunciado y para sus imágenes por una
transformación de raíz cuadrada pueden apreciarse en las figuras 4.6 y 4.7.
11U
90 2
1'5 H
50
30
250 350 450 550

dd
150 250 350 450 550
Figura 4.6.: Histograma. Figura 4.7.: Diagrama de raíz cuadrada.

141
4.1 Determinar la mediana, los cuartos, los octavos y los límites externos para la
serie de datos:
55 45 29 45 16 28 71 36 92 63 10 11 26 18 32 91 26 18 32 91 26 27 73 31 26
4.2. Construir el diagrama de tronco y hojas para los datos del ejercicio 4.1.
4.3. Los resultados de un test de inteligencia realizado a un grupo de 19 estudiantes

han sido:
98 120 130 95 100 110 97 125 128 97 94 105 101 99 90 100 102 93 102
Estudiar la forma de la distribución a partir de los índices de asimetría y

curtosis.
4.4. El volumen de ventas de un determinado artículo en un hipermercado durante

las 16 últimas semanas ha sido:
70 220 205 360 410 800 920 980 770 420 196 190 145 95 350 400
Hallar la tabla de 7 letras y construir el gráfico en caja y extensión.
4.5. Se ha realizado una encuesta para averiguar el número de personas que convi
ven en una misma vivienda de un barrio de determinada ciudad, obteniéndose los
resultados:
N° de personas 1 2 3 4 5 6 7 8
Frecuencias 10 25 56 15 10 8 3 1
1 ) Hallar los índices de localización resistentes (promedio de cuartiles, trimedia,

centrimedia y mediana extendida). 2) Determinar los índices de dispersión (rango
intercuartílico, rango intercuartílico pseudo-tipificado e índice de variación cuartílica.
4.6. Construir el diagrama de tronco y hojas para la siguiente serie de datos:
18 13 18 19 16 17 14 17 16 15 16 17 14 14 16 13 15 16 13 16 18 18 12 19 12 16 18 16 16
4.7. Se ha contabilizado la duración (en segundos) de 60 conversaciones telefónicas,

obteniéndose los siguientes resultados:
142
404 326 125 65 89 326 145 190 63 109 320 208 190 216 314 60 92 185 280 143
200 66 189 218 63 313 216 180 204 324 109 63 140 105 107 79 88 69 208 400
270 109 66 403 66 360 305 275 180 402 120 208 122 200 55 78 55 202 160 102
1) Agrupar los datos en intervalos de clase. 2) Construir el histograma y el

diagrama de raíz cuadrada, y analizar las diferencias.
4.8. Preguntados por los gastos que realizan a la semana 850 adolescentes de 12 a
14 años, se han obtenido las siguientes respuestas:
Gasto (0,100] (100.200] (200.300] (300,400] (400,500] (500.600] (600,700] (700.800]
Frecuencias 40 80 100 130 220 160 82 38
1) Dibujar el histograma correspondiente. 2) Realizar una transformación de

raíz cuadrada y construir el histograma correspondiente a los datos transformados.
4.9. Las puntuaciones obtenidas por dos grupos de alumnos en dos pruebas, una de
conocimientos (X ) y otra de capacidad de abstracción (Y) han sido:
x, 15 15 16 17 17 18 18 18 18 18 19 20 20 21 21 21 22 22 23 23 23 26 29
Y. 17 16 17 18 16 17 18 19 19 20 18 20 19 20 18 19 22 21 18 13 16 22 21
1 ) Construir el diagrama de tronco y hojas, la tabla de 7 letras y el gráfico en

caja y extensión para las dos series de datos. 2) Hacer un análisis de la simetría,
lagunas, puntos que se repiten y anomalías de las mismas.
4.10. Una empresa ha decidido hacer un reajuste laboral entre sus empleados, con el
acuerdo de asignar las distintas categorías laborales en función de unos baremos
acordados con los trabajadores, de forma que:
1) Se ordena la población según la puntuación obtenida, y se divide en cuatro
partes iguales.
2) Se asignan las categorías A, B, C y D, por este orden, a los empleados que se
encuentren en cada una de las partes.
Baremo [200.260) [260,320) [320,380) [380,440) [440,500) [500.560) [560,620) [620,680)
N" empleados 12 102 200 260 140 90 70 50
Hallar las puntuaciones que separan a cada categoría.

143
4.11. El volumen de ventas (en millones de pesetas) realizado por las veinte sucur
sales de unos grandes almacenes ha sido:
63 60 32 85 44 83 120 150 240 90 38 46 52 24 10 62 74 83 86 90
1) Hacer un análisis gráfico de la forma. 2) Determinar si existen datos anóma

los. 3) Hallar la media recortada al 40%, la trimedia y la mediana extendida.
4.12. La producción de trigo y maíz obtenida en los diez últimos años por una
cooperativa agrícola (expresada en fanegas) ha sido la siguiente:
Trigo 180 195 214 217 220 253 260 300 298 306 302 298
Maíz 95 87 101 103 105 96 107 98 80 76 86 79
Hallar los índices de variación cuartílica de las dos series de datos. ¿Cuál de ellas
es la más homogénea?
4.13. En una prueba de velocidad lectora realizada a 500 estudiantes, se obtuvieron

las siguientes puntuaciones:
Puntuación [40,50) [50,60) [60,70) [70,80) [80.90) [90,100) [100,110)

N" de estudiantes 82 108 123 115 46 16 10
1) Construir la tabla de 5 letras y el gráfico en caja y extensión. 2) Analizar la

forma de la serie de datos gráficamente y mediante los coeficientes de asimetría y
curtosis de los métodos exploratorios.
4.14. Las puntuaciones obtenidas por un grupo de alumnos en una prueba objetiva
han sido:
21 23 25 33 35 37 38 38 39 39 42 42 43 43 44 46 48 48 51 51 52 54 54 55
55 56 58 61 61 61 62 64 65 66 68 68 70 70 70 70 70 70 70 70 71 72 72 73
74 74 75 76 76 76 77 80 81 86 91 92 93 94 94 95 95 98 98 99
Construir el gráfico en caja y extensión correspondiente a las calificaciones.
4.15. Se han tomado dos muestras de 180 familias para hacer un estudio de las
declaraciones sobre la renta en dos provincias (A y B) de una comunidad autónoma,
144
Renta sobre limo ptas. (0,10) [10.20)[20,30) [30.40) [40.50) [50.60) [60,70) [70,80) (80.90)
N° familias de A 18 35 43 29 18 10 12 6 9
N" familias de B 12 30 53 39 15 14 9 6 2
1 ) Hallar la mediana y la mediana extendida de las rentas de las familias de cada

provincia.
2) Determinar los cuartos y sus rangos en cada una de las muestras.
3) ¿Cuál es la provincia con una renta más homogénea?
CAPITULO 5
DISTRIBUCIONES BIVARIANTES
5. 1 . Análisis de dos caracteres
Los individuos de una población pueden ser clasificados atendiendo a dos carac
teres simultáneamente. Así, puede hacerse un estudio de la población adulta de un
país atendiendo a dos caracteres de sus individuos, como pueden ser la talla y el
peso.
De este modo se obtiene una distribución bivariante de frecuencias, cuyos datos
pretendemos:
a) presentar mediante una tabla estadística de doble entrada;
b) definir sus distribuciones marginales;
c) definir sus distribuciones condicionadas;
d) estudiar las distintas representaciones gráficas;
e) analizar los problemas de regresión y correlación.
Los dos caracteres observados, X e Y, no tienen por qué ser del mismo tipo.
Pueden ser los dos cuantitativos, como es el caso de la talla y el peso, los dos
cualitativos, o uno cualitativo y otro cuantitativo.
La representación gráfica de una variable estadística bidimensional depende de la
naturaleza de los caracteres. Según sean los caracteres cualitativos o cuantitativos, y
éstos discretos o continuos, pueden presentarse seis alternativas.
5.2. Distribución conjunta
Consideremos una población de N individuos, a los que vamos a clasificar aten

diendo a dos caracteres simultáneamente, X e Y.
Vamos a suponer que el carácter X presenta p modalidades XrX, X , en tanto
que el carácter Y presenta q modalidades Y^Y? Y .
146
Sea n. el número de individuos de la población que presentan a la vez la modali

dad X del carácter X y la modalidad Y del carácter Y. Este valor es la frecuencia
absoluta del par (X,Y).
La frecuencia relativa del par (X,Y ) será, por tanto:
f = ^-
Ja N (1)
5.2.1. Propiedades de las frecuencias
I. La suma de las frecuencias absolutas extendida a todos los pares de modalida

des es igual al número de individuos de la población:
£í>«=.V
=i J.\
(2)
ya que se supone que tanto las modalidades X como las modalidades Y deben ser
incompatibles y exhaustivas.
II. La suma de las frecuencias relativas extendida a todos los pares de modalidades
es igual a la unidad:
££/„=
¡-i
(3)
En efecto:
P i Pin 1 P i /
5.3. Tablas estadísticas
La tabla estadística que describe los N individuos de la población, atendiendo a

dos de sus caracteres, es una tabla de doble entrada. En las filas, figuran las p moda
lidades X del carácter X, y, en las columnas, las q modalidades Y del carácter Y.
En general, p y q serán distintos, ya que el número de modalidades que presenta
el carácter X no tiene por qué coincidir con el número de modalidades que ofrece el
carácter Y.
En la intersección de la fila correspondiente a la modalidad X con la columna
correspondiente a la modalidad Y , situaremos el valor n. de la frecuencia absoluta del
par(X,Y).
147
X\Y Y, Y2 \ Yq
n„ n 12 n.ii n ,iq
n 22 n 2i 2q
X,l
n„ n.,i2 n n iq
Xp n p2, n pi n pq
5.4. Distribuciones marginales
5.4.1. Distribución marginal según el carácter X
Si nos fijamos en el número de veces que aparece la modalidad X del carácter X,

con independencia de las modalidades que presenta el carácter Y, tenemos la frecuen
cia marginal de X, cuyo valor puede calcularse sumando las frecuencias que aparecen
en la i-ésima fila de la tabla.
Vamos a representar la frecuencia absoluta marginal de X por n , y será:
n¡.= ¿n,y = n// + na+...+n,y+...+ni» (4)
Para cada i, los valores n se obtienen de sumar las frecuencias absolutas de cada
l.
fila de la tabla. Los n. se sitúan en la columna marginal de la derecha, y definen la

distribución marginal del carácter X.
La frecuencia relativa marginal de la modalidad X es:
n
/,= N (5)
5.4.1.1. Propiedades
I. La suma de las frecuencias marginales según el carácter X es igual al número

total de individuos de la población.
En efecto:
¡=i ¡=li,l
II. La suma de las frecuencias relativas marginales según el carácter X es igual a la

unidad.
p E ii 7 E /
En efecto:
,.i ,=¡N N ,,, N
148
5.4.2. Distribución marginal según el carácter Y
Análogamente, se define la distribución marginal del carácter Y. La frecuencia

absoluta de la modalidad Y del carácter Y, con independencia de las modalidades que
presente el carácter X, viene dada por la suma de las frecuencias que aparecen en la
columna j de la tabla.
La representaremos por n , y será:
", = XB« ni, + ri2i +. . . + no +. . . + nPi (6)
Para cada Ji, los valores n i se obtienen de sumar las frecuencias absolutas de cada
una de las columnas de la tabla, se sitúan en una fila marginal en la parte inferior de la
tabla, y definen la distribución marginal del carácter Y.
La frecuencia relativa marginal de la modalidad Y será:
/..- N (7)
5.4.2.1. Propiedades
Las frecuencias absolutas y relativas marginales del carácter Y cumplen propieda

des análogas a las del carácter X.
I. La suma de las frecuencias marginales según el carácter Y es igual al número
total de individuos de la población.
En efecto: N
II. La suma de las frecuencias relativas marginales según el carácter Y es igual a la

unidad.
En efecto: ¿,fi= Xt^ = ttS" / N .N = 1
La tabla estadística de doble entrada se completa añadiendo dos columnas y dos
filas con las frecuencias absolutas y relativas marginales:
X\Y \ Y2 .... Yj .... Yq Eam. l.r.m.
n 12 n ii n lq
x2 n n ?i n.2q n2 L
X. n i2 n 'i n ,q n i.
fi.
Xp n p- n pi n pq np fr
F.U.111. B.1 n n .i
ni N 1
Fxm. f, f fJ fq 1
149
5.5. Distribuciones condicionadas
Fijémonos ahora en los n individuos de la población que presentan la modalidad

Y del carácter Y, y observemos la columna j-ésima de la tabla; figuran en ella:
los n, individuos que. teniendo la modalidad Y . poseen la Xr
los n, individuos que, teniendo la modalidad Y , poseen la X„
los n pi individuos que,

n teniendo la modalidad Y , , poseen
r la X p ,
Estos n individuos forman una población, que es un subconjunto de la población
total. Sobre este subconjunto se define la distribución de X condicionada por Y, a
cuyas frecuencias vamos a denotar por f1, para i=l,2,...,p, siendo:
(X,
n.,
Se trata de una distribución, ya que el cociente n/n representa la proporción de

individuos de la población que presentan la modalidad X, del carácter X, de entre los
individuos que ya tienen la modalidad Y .
Habrá q distribuciones de X condicionadas por cada una de las Y.
La tabla correspondiente que proporciona la distribución del carácter X condicio
nado por Y tiene la forma:
X «;J
"«
X, n.¡
(¡
x, 11 ,
-,
fV
X n 'i f¡
X n f¡
p pi p
Total n 1
De modo análogo, se definen las distribuciones de Y condicionadas por cada una

de las X- Así tendremos la frecuencia relativa de Y condicionada por X:
' n, (?)
Habrá p distribuciones de Y condicionadas por cada una de las X .

La tabla correspondiente a la distribución Y condicionada por X será de la forma:
150
Y \ Y2 Yi Yq Total
nu n„ n, n 'i n iq n
f¡ f; f¡ f i
fi 1
5.5. 1 . Propiedades
I. (10)
II. /v =/,/;.=//; (11)
Las demostraciones de estas propiedades están en el apéndice del capítulo.
5.6. Medidas de posición y de dispersión
De acuerdo con las definiciones establecidas en el capítulo 3, las medias y varianzas

marginales son:
^x¡n¡ 1 p - I 1 .
si = '77 X( x¡ - x fn¡., sx = y\~Zj(x¡ - x fn¡ (12)
N N~i N~i
ty¡n., j , ryi, ~
En la columna j-ésima de la tabla de doble entrada, tenemos las frecuencias abso

lutas de los n individuos de la población que presentan el valor y del carácter Y
según los valores de la variable X. Esta columna define, la distribución de la variable
X condicionada por Y=y .
Por tanto, la media y la varianza de X condicionada por Y=y son:
Media de X/Y=y :
(13)
151
Varianza de X/Y=y :
Vi(X) = —%(x, - x, fn„ = l( jc, - Xy /// (14)
Análogamente, la fila i-ésima de la tabla describe la distribución de la variable Y

condicionada por X . Por tanto:
Media de Y/X=x':
- ] i i
(15)
Varianza de Y/X=x :
v,(Y) = - í( y, - y, fnii = Í( y, - y, ff, (16)

n¡,,i ¡,i
Ejemplo 5. 1
Tratemos de clarificar estos conceptos a través de un ejemplo sencillo, como es el

que representa la siguiente tabla, que se ha obtenido de medir la estatura y de pesar
a 100 jóvenes de una determinada comarca:
X\Y 1'5-1'6 1'6-1'7 1*7-11 11-11

4045 3 2 0 0
45-50 1 2 1 1
50-55 2 4 4 5
55-60 1 7 3 1
60-65 4 6 6 4
65-70 2 3 4 6
70-75 0 2 3 3
75-80 1 2 4 3
80-85 1 2 5 2
Las distribuciones marginales de X e Y vendrán dadas por las columnas y filas

adicionales, que se obtendrán de sumar las frecuencias por filas y por columnas:
152
X\Y 1'5-1'6 i'6-r7 1'7-1'8 1*84*9 n, f

4045 3 2 0 0 5 0.05
45-50 1 2 1 1 5 0'05
50-55 2 4 4 5 15 0'15
55-60 1 7 3 1 12 0'12
60-65 4 6 6 4 20 0'20
65-70 2 3 4 6 15 O. 15
70-75 0 2 3 3 8 0'08
75-80 1 2 4 3 10 0'10
80-85 1 2 5 2 10 OMO
n 15 30 30 25 100 1
f 0'15 0'30 0'30 0'25 1
Podemos observar cómo hay 1 5 jóvenes que miden entre 1 .50 y 1 ,60; 30 jóvenes
que miden de 1 .60 a 1 ,70; 30 jóvenes que miden de 1 ,70 a 1 ,80, y 25 jóvenes que miden
de 1.80 a 1,90.
Asimismo, hay 5 jóvenes que dan un peso comprendido entre 40 y 45 kilogramos;
5 jóvenes con peso entre 45 y 50. etc.
La media de los pesos es:
- 42,5x5 + 47,5x5 + 52.5x15+... +82,5x10 6370

x= - —' = —zr = 63,7
100 100
y la media de las estaturas:
- 1,55x15 + 1,65x30 + 1,75x30 + 1,85x25 171.5

v= 1,715
100 100
Varianzas y desviaciones típicas:
1 4, , 12206 i
« = -7^Jx,-63,7 y>t, = -77—- = 122,06; s, = -J122,06 = 11,04
100 ~; 100
1.027
t*lñti(yr1'715fn> 100
0.0102; ív = y/0,0102 =0.10
Veamos ahora cuál es la distribución de los pesos (variable X). pero únicamente de los
jóvenes que miden de 1,60 a 1,70. Se trata de la distribución de la variable X condicio
nada por Y=1.65, que vendrá dada por la siguiente tabla:
153
f Y=I,65
"i V.i* i
40-45 2 0,066
45 - 50 2 0.066
50-55 4 0,133
55-60 7 0,233
60-65 6 0.200
65-70 3 0.100
70 - 75 2 0,066
75-80 2 0.066
80-85 2 0,066
30 1
La media, varianza y desviación típica de esta distribución son
42,5x2 + 47,5x2 + 52,5x4+. ..+82,5x2 6116

Xy=l.6S '. 61,16
30 100
3296.4
Vr.l.6s(X) =—Í,(xr61,16fnB 109,88
30
Dr.i.6s(X) = y¡ 109,88 = 10,48
La distribución de las estaturas (variable Y), pero sólo de los jóvenes que pesan
de 70 a 75 Kilogramos, es decir, la distribución de Y condicionada por X=72,5 vendrá
dada por la tabla:
1,5-1,6 1,6-1,7 1,7-1.8 1,8-1,9

nx=72î 0 2 3 3 8
f X=72,5 0.2
j
0 03 05 1
La media, varianza y desviación típica de esta distribución son:
1,55x0 + 1,65x2 + 1, 75x3 + 1,85x3 14, 1

= 1,76
8 8
1¿ , 0,0488
Vx.72,s(Y) = - ld(yrl,76)-n7l = —— = 0,0061
o i. o
Dx.n.s(Y) = yl0,0061 = 0,078

154
5.7. Dependencia e independencia funcional
5.7.1. Independencia
Se dice que el carácter X es independiente del carácter Y si son idénticas las

distribuciones condicionadas de X/Y, para j=l,2,...,q. Por lo tanto, las frecuencias
relativas f' no dependen de j.
Proposición 5.1: Si X es independiente de Y, las distribuciones condicionadas

de X/Y son idénticas a la distribución marginal de X.
En efecto, por ser X independiente de Y, serán:

n¡¡ n¡2 n¡¡ n*,
n.¡ n2 n, nq
Cada una de estas fracciones es igual a la fracción que se obtiene de sumar

numeradores y denominadores:
n¡¡ n¡¡ + n¡2 +. . . + n¡¡ +. . . + n^ n,
n,¡ n,+ n,2 +... + /i ,+... + n., N
luego f. = /. , c.q.d.
Por lo tanto, si el carácter X es independiente de Y, las distribuciones condiciona

das X/Y. son todas ellas idénticas a la distribución marginal de X, es decir, las colum
nas de la tabla de frecuencias son proporcionales entre sí y proporcionales a la colum
na marginal.
Proposición 5.2: Si X es independiente de Y, Y es independiente de X.
En efecto, por la propiedad II de 5.5.1, se tiene:
Al ser X independiente de Y., en virtud de la proposición anterior, será:
i i i i.
Luego
lo que significa que Y/X tiene la misma distribución que Y, para todo i. Luego Y es
independiente de X, c.q.d.
La proposición 5.2 nos dice que «siempre que un carácter X sea independiente de
155
otro carácter Y, lo será Y de X». Por ello, se dice que los dos caracteres son indepen
dientes.
Proposición 5.3: Si X e Y son independientes, se verifica que
En efecto, al ser/', =/., será:/„ = /, //, y, por tanto:

n„ n, n.,
.«« = «,« 1
N N N
Ejemplo 5.2
La siguiente distribución corresponde a dos caracteres independientes:
\' y, y2 y, ?4 y, n,
A
«i
2 í 5 4 i 15
x, 6 9 15 12 3 45
X, 4 6 10 8 2 30
X4 8 12 20 16 4 60
n.o 20 30 50 40 10 150
Basta con observar cómo las frecuencias absolutas de cada modalidad son pro
porcionales entre sí y a las frecuencias absolutas marginales; en otras palabras, las
filas son proporcionales entre sí, y también lo son las columnas.
5.7.2. Dependencia
El carácter X depende funcionalmente del carácter y si a cada modalidad Y de Y

corresponde una única modalidad posible de X. Por lo tanto, cualquiera que sea j, la
frecuencia absoluta n vale cero salvo para un valor i correspondiente a una columna
j tal que n =n .
Cada columna tendrá, pues, un único tétmino distinto de cero.
Si a cada modalidad X, de X corresponde una única modalidad posible de Y, será
Y funcionalmente dependiente de X.
La dependencia funcional de X respecto de Y no implica que Y dependa
funcionalmente de X.
Para que la dependencia funcional sea recíproca, los caracteres X e Y deben pre
sentar el mismo número de modalidades (p=q), y en cada fila así como en cada colum
na de la tabla debe haber uno y sólo un término distinto de cero.
156
Ejemplo 5.3
Supongamos el hipotético caso de la distribución de los 1700 matrimonios de una

ciudad, en que las edades de esposo y esposa vienen dadas por la siguiente tabla:
Edad Esposo 25 26 27 28 29
Edad Mujer
19 150 0 0 0 0
20 0 280 0 0 0
21 0 0 320 0 0
22 0 0 0 440 0
23 0 0 0 0 410
Es evidente que hay una relación funcional entre las edades de marido y mujer:
cada hombre está casado con una mujer 6 años más joven.
Ejemplo 5.4
En una ciudad próxima a la del ejemplo anterior, al analizar las edades de marido y
mujer entre sus 1500 matrimonios, se obtuvieron los siguientes resultados:
Edad Esposo 25 26 27 28 29 30 31 Total

Edad Mujer
19 220 0 0 0 170 0 0 390
20 0 210 0 130 0 0 0 340
21 0 0 230 0 0 0 0 230
22 0 0 0 0 0 0 260 260
23 0 0 0 0 0 280 0 280
Total 220 250 230 130 170 280 260 1540
En esta ciudad, la edad de la mujer depende funcionalmente de la edad del marido.

Así, todo varón casado de 28 años de edad tiene una mujer de 20.
En cambio, si nos dicen que una mujer casada tiene 20 años, no sabemos cuál es
la edad del marido, ya que éste puede tener 26 ó 28 años. Se trata de un claro ejemplo
en que un carácter depende funcionalmente del otro, no siendo recíproca la depen
dencia.
Ejemplo 5.5
En una tercera ciudad, menos hipotética que las anteriores, al comparar las edades
157
entre marido y mujer de 7500 matrimonios jóvenes, se obtuvieron los siguientes resul
tados:
Edad Esposo 25 26 27 28 29 30 31 Total

Edad Mujer
19 220 150 285 190 125 140 130 1240

20 310 220 225 310 220 230 240 1755
21 150 220 180 260 180 290 195 1475
22 120 300 210 180 230 250 240 1530
23 220 260 185 230 200 190 215 1500
Total 1020 1 150 1085 1170 955 1100 1021 75(X)
En esta última ciudad no hay dependencia funcional entre las edades de esposo y
esposa. No obstante, puede existir una cierta relación de dependencia entre ambas
edades, relación que será estudiada en el capítulo 6.
5.8. Momentos
Supongamos una distribución bivariante determinada por el par (X,Y ). Entonces,

dados dos números naturales r y s, y dado el par de números reales (c,d), se llama
momento respecto al par (c,d) de órdenes r y s, y lo representamos por Mr (c,d) a la
expresión:
p i/
-c/(y. -dfn,i
Mr (c,d) ■- (17)
N
Tienen interés los momentos que se obtienen cuando el par (c,d) es el par formado
por las medias marginales o el par formado por las coordenadas (0,0) del origen.
5.8.1. Momentos centrales o respecto de las medias

p i
2,'L(x,-x)r(y1-y),n,i
N
(19)
158
5.8.3. Primeros momentos
El momento central m,, es la covarianza, que será analizada en el apartado 5.8.5.

Las varianzas marginales son:
p i p i
ZMx,-xf(y¡-yfnv ¿,¿t(xi-x?nv
¡.i ¡.i MJ.l
mx-
N N
p i
Y.yL(x,-xf(yryfn¡¡ p t
z,L(y¡-yfn,
1=1 ¡=1 2
m¡2 -
N N
5.8.4. Proiriedades
1 p - l V
I. x = —£*,«, (20)
11. 1 Y 2 1 * (21)
111. mvi =a^n-a'm (22)
Las demostraciones de estas propiedades pueden verse en el apéndice al capítulo.

159
La propiedad III nos permite obtener las varianzas marginales de modo más senci
llo a partir de los momentos respecto al origen.
Ejemplo 5.6
Un grupo de 25 estudiantes obtuvo las siguientes calificaciones en Matemáticas y

Física:
M 3344445555566667777888899
F 4644564566756776889789 10 9 10
Se trata de: 1) construir la tabla de frecuencias, 2) hallar las medias y varianzas

marginales.
Solución:
1 ) La variable M toma 7 valores (del 3 al 9) y la variable F toma otros 7 (del 4 al 10).

La tabla de doble entrada es:
M\F 4 5 6 7 8 9 10 Total
3 1 0 1 0 0 0 0 2
4 2 1 1 0 0 0 0 4
5 1 1 2 1 0 0 0 5
6 0 1 1 2 0 0 0 4
7 0 0 0 0 2 1 0 4
8 0 0 0 1 1 2 1 4
9 0 0 0 0 1 1 0 2
Total 4 3 5 4 4 3 1 25
2) Para hallar la media, varianza y desviación típica marginal de las calificaciones en

Matemáticas, completamos su tabla marginal y utilizamos las fórmulas (20), (2 1 ) y (22):
Ml "i
Mui i.
M2 M.2n.
3 2 6 9 18
4 4 16 16 64
5 5 25 2=¡ 125
6 4 24 36 144
7 4 28 49 196
8 4 32 64 256
9 2 18 81 162
25 149 965
160
— 149
M = a,„ = — = 5,96
965
a2o = ^r = 38,6
Sm = m2o = dio- a]o = 38,6 - 35.5216 =3,0784
s„ = J3,0784 =1,7545
Completamos ahora la tabla marginal de las calificaciones en Física para calcular

su media, varianza y desviación típica (la dispondremos en columnas para mayor
comodidad):
Fi n.i Fa F2i ■fr

4 4 16 16 64
5 3 15 25 75
6 5 30 36 180
7 3 21 4l) 147
8 4 32 64 256
9 3 27 81 243
10 3 30 100 300
25 171 1265
171
F= a„, = — = 6,84
1265
Om = -zj- = 50,6
s'F = nio2 = a02 - ah¡ = 50,6 - 46, 78 = 3,82
si.. = ^82 = 1,954
5.8.5. Covarianza
El momento central de orden ( 1 , 1 ) de la variable estadística bidimensional (X,Y)

recibe el nombre de covarianza de las variables X e Y.
La covarianza es, por tanto, la media ponderada del producto de X-a|o por Y-a0|.
Este producto es positivo cuando, a valores grandes de X, les corresponden valores
161
grandes de Y, o, a valores pequeños de X, les corresponden valores pequeños de Y.

En cambio, el producto (X-a10)(Y-am) resulta negativo cuando, a valores grandes de X,
correspondan valores pequeños de Y, o, a valores pequeños de Y, corresponden
valores grandes de X.
El signo de la covarianza indica, por tanto, si la relación entre las variables es
positiva o negativa.
La covarianza proporciona una medida del grado de dependencia entre las varia
bles X e Y. Sin embargo, la covarianza tiene el inconveniente de depender de la
dimensión de las variables.
Como medida adimensional del grado de dependencia entre dos variables, se uti
liza el coeficiente de correlación de Pearson, que se estudia en el capítulo sexto, y que
se define a partir de la covarianza, por lo que sus propiedades se van a basar en las
propiedades de ésta.
5.8.5. 1 . Propiedades de la covarianza
1. inn =aii-aioaoi (23)
Esta propiedad nos indica que la covarianza es la media del producto de las varia
bles menos el producto de las medias.
2. Si X e Y son dos variables estadísticas independientes, su covarianza es cero.
La recíproca de esta propiedad no es cierta. Puede suceder que la covarianza de

dos variables estadísticas sea nula, y éstas no sean independientes.
Las demostraciones de estas propiedades pueden verse en el apéndice del capítulo.
Ejemplo 5.7
Vamos a calcular la covarianza de las variables del ejemplo 5.6.

Para ello, utilizamos la fórmula (23), realizando el cálculo de an a partir de la tabla
de doble entrada:
v, v,
an =¿^¿_M /
F,n„ = —(4x3x1 7026 = 41,04
+ 6x3xl+. .. + 10x10x1) = ——
25 25
luego m„ = «„ - a,nam = 41,04 - 5,96x6.84 = 41.04 - 40,76 = 0,28
5.9. Poblaciones pequeñas
Si la población estudiada según dos caracteres continuos X e Y es pequeña, al

162
hacer una agrupación en clases, éstas serían muy poco numerosas y de gran ampli
tud, por lo que los cálculos resultarían poco precisos.
En estas situaciones, se estudian los pares de valores (xi,y,). donde i recorre los N
individuos de la población, considerando la frecuencia absoluta de cada par igual a la
unidad. De esta forma, las medias y varianzas marginales vienen dadas por:
~x=iÍx-~y=ity, (24)
V(X)=j¿t(x,-x? V(Y)-—tAyryf (25)
y la covarianza por:
1 N
mu = —?,(x,-x)(y,-y) (26)
« * i= 1
Ejemplo 5.8
La tabla adjunta representa los pesos y las alturas de los 12 estudiantes de una
clase:
p 71 72 72 73 73 75 75 75 76 76 76 77
F 166 1"68 1'68 T69 T68 T68 170 170 173 173 175 177
Vamos a calcular: 1 ) El peso medio: 2) la altura media; 3) la altura mediana; 4) las

varianzas y desviaciones típicas marginales; 5) la covarianza.
Solución:
- 1 % 891
1 ) Peso medio: P = — X P, = ~TT = 74,25
12 i=¡ 12
- 1 & 20.45
2) Altura media: A = — Â, = —— = 1.7041
12,-¡ 12
3) Para calcular la altura mediana, ordenamos las alturas en orden creciente:
1 ,66; 1 ,68; 1 ,68: 1 ,68; 1 ,68; 1 .69; 1 ,70; 1 ,70; 1 ,73; 1 ,73; 1 ,75; 1 ,77
Como el número de valores es par, la altura mediana será la media aritmética de los
dos valores centrales:
1.69 + 1.70
M,, = ~ = 7.695
163
4) Las varianzas y desviaciones típicas son:
s* = m20 = a20 - alo = 5516,58 - 5513,06 = 3,52 => sP = 4^52 = 1,876
Sa = mn = a02 - al, = 2,9052 - 2,9039 = 0,013 => sA = ^0,013 = 0,036

5) Para hallar la covarianza, calculamos primero an
1 £ / 1520,46
a,, =J¡Lp~A. = —(71x1,66+. .. + 77x1,77) = n = 126,705
entonces
ni „ = a„ - amaoi = 126, 705 - 74,25x1, 7041 = 126, 705 - 126,529 = 0,176
5.10. Representaciones gráficas
Las alternativas que pueden presentarse según sea la naturaleza de los caracteres
son:
a) los dos caracteres son cualitativos;
b) X es cualitativo e Y cuantitativo discreto;
c) X es cualitativo e Y cuantitativo continuo;
d) X e Y son cuantitativos discretos;
e) X e Y son cuantitativos continuos;
f) X es cuantitativo discreto e Y cuantitativo continuo.
Por otra parte, al hacer la representación gráfica de una variable bidimensional,
podemos pretender:
i) mostrar la distribución conjunta;
ii) mostrar cada una de las distribuciones condicionadas según un carácter en
función de las modalidades del otro.
Esto da lugar a una gran variedad de representaciones gráficas, dependiendo
también su uso del campo de investigación.
5.11. Los dos caracteres son cualitativos
En este caso, se representan, en un mismo gráfico, la distribución conjunta y una

de las dos familias de distribuciones condicionadas (bien la de X condicionada por las
Y . bien la de Y condicionada por las X).
Distinguiremos dos situaciones, según el número de modalidades de cada carácter:
i) ambos caracteres presentan más de dos modalidades;
ii) uno de los caracteres es dicotómico.
164
5.11.1. Los dos caracteres presentan más de dos modalidades
El método de representación se basa en el uso de rectángulos con una superficie

proporcional a la frecuencia absoluta n...
La base de cada rectángulo es proporcional a la frecuencia marginal absoluta n y
la altura proporcional a la frecuencia condicionada f.i. Por tanto, el área del rectángulo
es proporcional a
f, «¡
n,
Para cada modalidad del carácter X, se construyen los rectángulos correspondien
tes a las modalidades de Y, superponiéndolos. Al final, se añade un rectángulo que
corresponde a todas las variedades.
Este tipo de gráfico pone de manifiesto:
- las frecuencias marginales (bases de los rectángulos);
- las frecuencias de la distribución conjunta (áreas de los rectángulos);
- las frecuencias condicionales (alturas de los rectángulos).
Ejemplo 5.9
Queremos representar la distribución bidimensional (X,Y), correspondiente a la

producción anual (X) de carbón, petróleo, hierro y acero (en millones de toneladas) de
cuatro de los principales países productores (Y), China, EE.UU., Canadá y la URSS,
según datos del año 1990, que reproduce la siguiente tabla:
X\Y China EEUU. Canadá URSS Total

Carbón 860 765 80 605 2310
Petróleo 130 460 72 625 1287
Hierro 107 59 20 252 448
Acero 59 90 25 162 336
Total 1156 1374 207 1644 4381
Para representar la producción de los productos según el país, son necesarias las
distribuciones condicionadas acumuladas para cada uno de los productos, que vie
nen dadas por:
X\Y China EEUU. Canadá URSS
Carbón 37'2 70'3 73'7 100
Petróleo 10' 1 45'8 51'4 100
Hierro 23'9 371 43'8 100
Acero 175 44'3 51'7 100
Total 26'4 577 62'4 100
165
100
50 -
China
Carbón Petróleo Hierro Acero Todos
Figura 5.1: Producción según el país.
En la figura 5.1 se aprecia la producción de los distintos productos según el país

donde se obtienen y el volumen de producción.
Se pueden permutar los caracteres, considerando la distribución según los pro
ductos de cada país. Para ello, se necesitan las distribuciones condicionadas acumu
ladas para cada país, que vienen dadas por:
X\Y China EEUU. Canadá URSS Total
Carbón 74'4 55'6 38'6 36'8 39'7

Petróleo 85'6 89' 1 73'4 74'8 52'5
Hierro 94'8 93'4 879 90' 1 73'8
Acero 100'0 100'0 100'0 l00'0 100'0
La figura 5.2 muestra la distribución de los distintos productos según el volumen

de producción y el país de origen.
EE.UU. Canadá
Figura 5.2: Producción según el volumen.

166
5.1 1.2. Uno de los caracteres es dicotómico
Cuando uno de los dos caracteres, por ejemplo X, presenta únicamente dos moda
lidades, se puede utilizar un diagrama de sectores constituido por dos semicírculos de
diferente radio (uno por cada modalidad del carácter), que se elabora de acuerdo con
los siguientes criterios:
i) los radios se toman proporcionales a la raíz cuadrada de las frecuencias absolu
tas marginales del carácter dicotómico, n ;
ii) los ángulos centrales son proporcionales a las frecuencias relativas condiciona
das V.i
De este modo, se consiguen dos semicírculos de diferente radio, cada uno de los
cuales corresponde a una de las dos modalidades del carácter dicotómico.
Las áreas de los sectores serán, por tanto, proporcionales a las frecuencias abso
lutas de la distribución conjunta, n , ya que el área del sector es proporcional a la
amplitud del ángulo por el cuadrado del radio:
/' (yin,) = /' /', =—/',.= n

n,
Ejemplo 5.10
Consideremos la distribución, por razón del sexo y estado civil, de las personas de
40 a 50 años residentes en el año 1990 en una pequeña ciudad, según describe la
siguiente tabla:
S\E Solteros Casados Viudos Divorciados Otros Total

Mujeres 303 6453 728 205 276 7%5
Hombres 623 5210 956 126 350 7265
Total 926 11663 1684 331 626 15130
Los radios de los semicírculos deben ser proporcionales a las frecuencias absolu
tas: 7965 y 7265.
Necesitamos, para determinar los ángulos centrales, las distribuciones condiciona
das acumuladas según el estado civil para las dos modalidades (mujeres y hombres)
del carácter dicotómico:
S\E Solteros Casados Viudos Divorciados Otros

Mujeres 3'8 84'8 940 %'6 100
Hombres 8'6 80'3 93.5 95'3 100
167
Varones(7265) Soiteros
Divorciados
1tujere5(7965)
Figura 5.3: Diagrama de sectores con uno de los caracteres dicotómico.
En la figura 5.3 puede apreciarse el diagrama de sectores de la distribución de

mujeres y hombres atendiendo al estado civil.
5. 1 2. Un carácter es cualitativo y el otro cuantitativo
El tipo de representación es similar al expuesto en los apartados anteriores: mues

tra la distribución global y una de las distribuciones condicionadas mediante diagramas
diferenciales.
Vamos a suponer que el carácter cualitativo es X y el cuantitativo Y. Cuando se
representan las distribuciones del carácter cuantitativo Y condicionado por las moda
lidades Xi del carácter cualitativo X, se suelen añadir los diagramas diferenciales
correspondientes a cada una de las modalidades del carácter cualitativo.
Estos últimos gráficos serán diagramas de barras o histogramas, según sea discre
to o continuo el carácter cuantitativo.
Ejemplo 5.11
La siguiente tabla contiene la distribución del número de hijos por familia según la
clase social a que pertenecen:
C1\N°H 1 2 3 4 5 Total
Baja 45826 61200 31324 7150 803 146403
Media 35456 32124 28425 5322 1165 102492
Me-Alta 34625 38246 25430 5224 976 104492
Alta 15260 14916 8241 1280 324 40021
Total 131167 146486 93430 19076 3259 15230
168
Construimos la tabla de frecuencias condicionadas acumuladas según el número

de hijos, que nos va a permitir hacer la representación.
CI\N" H 1 2 3 4 5
Baja 313 73' 1 94'5 99"5 100
Media 34'6 66'0 937 98'9 100
Mi- Mía 33'2 69"8 94'2 99'2 100
Uta 38' 1 75'4 %'8 98"0 100
Total 33'4 70'6 94.4 99'2 100
Las cuatro primeras filas nos proporcionan las alturas acumuladas de los rectán
gulos que corresponden a las distribuciones condicionadas según el número de hijos,
en tanto que una quinta fila contiene los datos globales.
En la figura 5.4 puede apreciarse su representación. La quinta pila de rectángulos
corresponde a la distribución conjunta.
ido -i
zz
,¡),
en
4 hijos
50 -
3 hijos
h1 jos
1 hi jo
C baja C. media C.m-a1ta Ca1ta Conjunta
Figura 5.4: Representación de las clases sociales según el n° de hijos
Para tener la representación gráfica de las distribuciones condicionadas en fun

ción de la clase social, necesitamos las tablas de frecuencias condicionadas acumula
das según la clase a que pertenecen:
169
C1WH 1 2 3 4 5 Total
Baja 34'9 41'8 33'6 38'0 24'6 379
Media 62'0 637 64' 1 65'9 60'6 63' 1
Me-Alta 88'4 89'8 91 '3 96'3 90' 1 89'9
Alta 100 100 100 100 100 100
Tomando las alturas de los rectángulos proporcionales a los valores de cada co

lumna de la tabla, se obtiene la representación de la distribución global y de las
distribuciones condicionadas según la clase social, tal como recoge la figura 5.5.
1 hijo 2 hijos 3 hijos 4 5 Todos
Figura 5.5: Representación según la clase social.
El carácter cuantitativo Y (número de hijos) es discreto, por lo que utilizamos

diagramas de barras para representar las distribuciones condicionadas según el núme
ro de hijos.
Se añaden al final, por consiguiente, tantos diagramas de barras como modalida
des (las cuatro clases sociales consideradas).
2 3 4 5"
Clase baja Clase ned1a Clase nedia-alta Clase alta

170
5.13. Los dos caracteres son cuantitativos
Cuando los dos caracteres son cuantitativos, la representación de las distribucio

nes condicionadas es análoga a la utilizada en el caso de un carácter cualitativo,
utilizándose diagrama de barras o histograma según sea la variable discreta o conti
nua.
En cambio, para representar la distribución global, se utilizan distintos métodos,
según la naturaleza de los caracteres, algunos de los cuales exponemos en los si
guientes apartados.
5.13.1. Las dos variables son discretas
Si las dos variables, X e Y, son discretas, las frecuencias absolutas correspondien

tes a cada par (x,y ) se representan por círculos con centro en dicho punto y radio
proporcional a la raíz cuadrada de n .
Se consigue, de esta forma, que la superficie de cada círculo sea proporcional a la
frecuencia absoluta n de cada par (x,y ).
Ejemplo 5. 12
La siguiente tabla recoge las calificaciones de 100 alumnos de primer curso de

bachillerato en Matemáticas y Ciencias de la Naturaleza:
MVCN 4 5 6 7 8 9 10 Total
2 2 3 1 0 0 0 0 6
3 3 5 4 2 2 1 0 7
4 3 5 4 2 2 1 0 17
5 4 4 4 4 2 2 0 20
6 5 4 4 5 3 2 1 24
7 2 2 3 2 4 2 0 15
8 1 1 0 2 2 1 1 8
9 0 0 1 1 0 0 1 3
Total 19 22 18 17 13 8 3 100
Se trata de dos variables discretas, cuya distribución global representamos en la

figura 5.6.
171
5.13.2. X es una variable con 1U O—

—° 1
tinua e Y discreta
9 •' IF
Cuando una de las varia

4k á
bles es continua y la otra dis 8 \r irk
creta, la distribución global se éí M

7
representa por medio de
histogramas.
6
1) Habrá tantos histogra
mas como valores toma la va 5
riable discreta.
2) Cada histograma tendrá 4
las bases iguales a las ampli
tudes de los intervalos de cla
se de la variable continua X.
3) Las alturas serán propor
cionales a las frecuencias me Figura 5.6: Representación global de variables discretas.
dias por unidad de amplitud.
De este modo, las áreas de los histogramas serán proporcionales a las frecuencias
absolutas marginales de la variable discreta Y.
No todas las bases de los distintos rectángulos se sitúan sobre una misma hori
zontal, sino que se sitúa en una posición más baja la base del rectángulo al que
corresponde una mayor altura; de este modo se consigue una figura simétrica con
respecto a la línea recta horizontal que divide a cada rectángulo en dos partes iguales.
La figura que se consigue presenta una simetría axial respecto de la horizontal que
parte del valor correspondiente a la variable discreta.
Ejemplo 5.13
Las alturas de 90 niños de edades comprendidas entre 11 y 14 años vienen refle

jadas en la siguiente tabla:
M\CN 11 12 13 14 Total
130-140 0 1 0 0 1
140-150 3 1 0 1 9
150-160 7 10 12 6 35
160-170 3 12 15 5 35
170-180 0 2 5 3 10
Total 13 27 35 15 100
172
130 140 150 160 170 180
Figura 5.7: Gráfica para una variable discreta y otra continua.
Los histogramas de la figura 5.7 muestran la representación de su distribución

global.
5.13.3. Las dos variables son continuas
Cuando las dos variables son continuas, se puede representar la distribución

global, bien por medio de puntos en el plano cartesiano, o bien se intenta dar una
visión espacial a la representación de la distribución global por medio del estereograma.
5.13.3.1. Representación mediante puntos
Si las variables son continuas, se representan, en un plano cartesiano, los rectán

gulos correspondientes a los distintos pares de intervalos de clase.
Sobre cada rectángulo, se sitúa un número de puntos proporcional a su frecuencia
absoluta. Así, si se trata de los intervalos [x ,x], [y ,y.], el número de puntos que se
situarán será proporcional a la frecuencia n...
Una pequeña variante consiste en poner el valor de la frecuencia absoluta en cada
rectángulo.
Ejemplo 5.14
La siguiente tabla recoge las alturas y los pesos de 470 jóvenes de una de las
provincias de Castilla-La Mancha:
173
A\P 45-50 50-55 55-60 60-65 65-70

150-155 9
155-160 10 10 9 20
160-165 11 29 31 9 21
165-170 10 29 60 29 10
170-175 20 20 31 11
175-180 10 20 21 10
180-185 9 11 10
Por ser las frecuencias múltiplos de 10 o valores muy próximos a un múltiplo de 10,
vamos a tomar este valor como razón de la proporcionalidad. Así, para representar
una frecuencia absoluta de 60. dibujaremos 6 puntos.
150 )55 t6) 165 170 175 180 185
Figura 5.8: Representación mediante puntas.
5.13.3.2. Estereograma
El estereograma es la generalización del histograma para el caso de una variable

bidimensional. Consiste en la representación de la distribución global por medio de
paralelepípedos rectangulares de volumen proporcional a las frecuencias absolutas
correspondientes.
Se construye, para cada par de clases (una correspondiente a la variable X y otra
a la variable Y), un paralelepípedo, cuya base es el rectángulo de dimensiones iguales
a los intervalos de clase, y, cuya altura es proporcional a sus frecuencias absolutas.
Si se trata de los intervalos de clase [xi.rxj, [y -ry ], cuyas amplitudes son, respec
tivamente, a=x-x y b=y -y , la altura del paralelepípedo será:
174
f'' y el volumen a b ——
f = /-.
ab ' ' «A "
La suma de los volúmenes de todos los paralelepípedos será igual a la unidad, ya
que
/.=,
La representación por medio de estereogramas presenta la dificultad práctica de

que, con frecuencia, algunos paralelepípedos quedan tapados por encontrarse situa
dos en un plano más lejano, y no se percibe una visión completa de la distribución.
La figura 5.9 contiene el estereograma para los datos del ejemplo 5.14.
126
íee
uo
f,0
40
¿O
170 175 100

ALTURA
Figura 5.9: Estereograma.
5.14. Diagrama de dispersión
Cuando se conoce, para cada individuo de la población, el par de valores que le

corresponden, en el caso de que los dos caracteres sean cuantitativos, la representa
ción más adecuada consiste en trazar los puntos cuyas coordenadas corresponden a
cada par de valores de las variables sobre un gráfico cartesiano.
Se obtiene, de este modo, el diagrama de dispersión o nube de puntos para la
distribución global.
175
Ejemplo 5.15
La siguiente tabla recoge los pesos y las alturas de 12 jóvenes de 16 años, cuyo
diagrama de dispersión puede apreciarse en la figura 5.10.
(X) 45 53 57 61 67 63 49 54 61 53 49 60
(Y) 165 172 166 174 159 180 169 177 183 180 169 175
195
+ +
175
155
-i i i i i i i i—r~
40 50 60 70 80
Figura 5.10: Diagrama de dispersión.
5.1. La siguiente tabla contiene las frecuencias absolutas de la distribución conjunta

de dos variables estadísticas X e Y.
X\Y 100 50 25
14 1 1
18 2 3 —
22 — 1 2
Determinar: 1) las distribuciones marginales de X e Y; 2) la distribución de X

condicionada por Y=100; 3) la distribución de Y condicionada por X=22.
5.2. Obtenidas las distribuciones marginales y condicionadas que se piden en el ejer

cicio 4. 1 , hallar:
1) las medias, varianzas y desviaciones típicas marginales; 2) la media, varianza y
desviación típica de la distribución de Y condicionada por X=22.
176
5.3. Poner un ejemplo de variable estadística bidimensional (X,Y), en que las variables
X e Y sean independientes, y otro en que sean dependientes.
5.4. Las variables X e Y se distribuyen según muestra la siguiente tabla:
X\Y 11 12 13 14 17 18
8 8
9 32 8
10 2
11 10
15 40
¿Qué tipo de relación se da entre ellas?
5.5. La siguiente tabla de doble entrada contiene las frecuencias absolutas de la distri
bución conjunta de las variables estadísticas X e Y. ¿Son independientes X e Y?
¿Cómo debería ser la tabla para que fueran independientes?
X\Y Y1 Y2 Ym i
2 3 4
x2 5 15 10
5.6. Determinar, para la distribución del ejercicio 4.1, los siguientes momentos respecto
al origen:
5.7. La siguiente tabla contiene los pesos y las alturas de 20 jugadores de un equipo
de fútbol:
Peso (X) 73 76 80 73 78 82
Altura (Y) 1'65 1'68 1'76 170 172 176
N° de jugadores 4 3 4 2 5 2
Hallar: 1 ) la altura mediana; 2) el peso mediano; 3) la altura media y el peso medio;

3) la varianza de las alturas; 4) la covarianza.
5.8. Los ingresos totales (I) de 10 familias y los gastos en transporte (T) durante el
último mes han sido:
177
I 95 115 125 160 178 208 237 128 210 99
T 3 5 10 9 11 11 12 8 7 7
Hallar: 1) las medias y las varianzas marginales; 2) la covarianza.
5.9. Las calificaciones de 15 alumnos en el primero (X) y segundo (Y) examen parcial
de Estadística son:
X 647845678566537
Y 567 10 64975867837
Hallar: 1) la media y la varianza de las dos pruebas; 2) la covarianza; 3) ¿hay una

relación de dependencia entre X e Y?
5.10. Se ha impartido un curso de recuperación a 145 alumnos de un colegio de niños

especiales, evaluando el avance de la capacidad psicomotora, cuyos resultados, por
edades, nos muestra la siguiente tabla:
AvanceVEdad 7 8 9 10 11 12 13 14
10- 16 3 2 1
17-23 6 5 2
24-30 1 10 2 1 3 1 2
31-37 ! 2 2 9 4 3 2 1
38-44 1 3 5 4 9 4 2
45-51 2 2 6 9 7 5 1
52-58 2 3 10 6 1
Hallar las distribuciones marginales y la distribución del avance de la capacidad

psicomotora condicionada por una edad de 10 años.
5.1 1. Para los datos del ejercicio 5.10, hallar las varianzas marginales y la covarianza.
5.12. La siguiente tabla recoge el espacio (en metros) recorrido por un coche desde que
el conductor pisa el freno hasta que se detiene, para distintas velocidades (en km./h.):
Velocidad 20 30 40 50 60 70
Distancia 18 29 46 67 98 132
Hallar la covarianza y estudiar si hay relación de dependencia.

178
5.13. Se sabe que los caracteres X e Y de los 50 individuos de una población son
independientes. Si X presenta 4 modalidades e Y seis, construir una tabla en la que
aparezca claramente la independencia de ambos caracteres.
5.14. Los pesos y las alturas de 290 hombres están recogidos en la siguiente tabla:
Y i'st-rss 1'55-1'60 1'60-P65 1'65 170 1'70-1'75

X
50-55 .> 1
55-60 7 8 4 2
60-65 5 15 22 7 1
65-70 2 12 63 1l) 5
70-75 7 28 12 12
75-80 2 10 2() 7
80-85 ll 4 2
Hallar: 1 ) las distribuciones marginales; 2) la distribución de X condicionada por

Y=1'625: 3) la distribución de Y condicionada por X=62'5: 4) ¿Hay relación de depen
dencia entre los pesos y las alturas?
5.15. La producción de automóviles de una nación con un buen nivel de desarrollo

industrial, en el período que va de 1980 a 1989 está reflejada en la siguiente tabla. La
variable X representa el año (0 corresponde a 1980. 1 a 1981....) y la variable Y al
número de unidades (en centenas de millar)
X 0 1 2 3 4 5 6 7 8 9
Y 62 43 6.4 8.4 8.6 12.1 11,3 12.9 13.7 14.1
1 ) Hacer la representación gráfica de la distribución conjunta.

2) Representar la distribución del número de automóviles por año de producción.
5.16. La siguiente tabla recoge las edades en que se han casado 20 parejas:
Edad Mujer 25 18 21 29 24 19 23 27 25 23 24 30 19 17 26 20 25 28 27 21
Edad Esposo 28 13 22302722222625 24 25292225262427262725
Hacer una representación de la distribución conjunta.
5.17. Hacer una representación gráfica de la distribución conjunta del ejercicio 5.10, y
representar también el avance de la capacidad psicomotora en función de las edades.
179
5.18. La siguiente tabla contiene los pesos y las alturas de los alumnos de una clase:
Pesos (X) 73 76 78 82 80 73
Alturas (Y) 170 1'68 172 176 176 1'65

N° de alumnos 2 3 5 2 4 4
Representar la distribución conjunta utilizando la forma más adecuada.
5.19. La siguiente tabla contiene la distribución de 270 familias de una ciudad según
los gastos (X) mensuales totales (en miles de ptas.) y los gastos (Y) que habitualmen-
te dedican a cosas superfluas (en miles de ptas.):
X\Y 0-2 2-4 4-6 6-8 8-10 10-12 12-14 14-16

0-50 2 4 6 0 0 0 0 0
50-60 3 6 7 9 0 0 0 0
60-70 1 3 5 7 9 11 6 0
70-80 0 3 5 8 8 12 14 7
80-90 0 2 4 7 6 9 11 8
90-100 0 0 2 5 4 9 13 10
100-110 1 1 0 3 3 9 17 10
1 ) Trazar la gráfica más adecuada para representar la distribución conjunta.
5.20. La producción (X) de trigo, maíz, arroz y mijo en los países de Francia, Australia,
EE.UU. y China (en miles de toneladas) en 1990 viene recogida en la siguiente tabla:
X\Y Francia Australia EEUU Canadá

Trigo 30000 13803 49315 15502
Maíz 13030 3478 1 15643 2750
Algodón 230 276 3202 120
Tabaco 67 560 45
Hacer una representación de la distribución conjunta y de la producción según el

país.
180
Apéndice al capítulo 5:
Demostración de las propiedades de las frecuencias condicionadas y de los momentos
I. Demostración de (10):
p . p n J p 1
Lfí = L— = — Z"« = —ni = 1
i.i i.i nl ni i.i n,
i i n; 1 1 l
y ¿,fi = X— = ~ S"« = ~~ «i. = i
i.i i.i n, n, i.i n,
II. Demostración de (1 1):
" N JV«, '

jr n'i ni n'i f ri
y ,~ N~ N n~ ' '
III. Demostración de (20):
1 p i l p l/ l p i 1 p
x = — xx^yj"./ = ttXX*»* = T7X*Zn« = ttS^«/
'» i.1 J.l « , = ;/=/ A, ,./ i-i A" 1 = /
I P i l P i J i P J i
y = -TfLLrfyinv = ttXIv,«v = -¡¿LyiLnv = — 5>/«.;
IV. Demostración de (21):
l p ¡ 1 p i i p i ¡ p
Af„,,=, ' /v/.//.i A",=, ,-, N ,.l

l p i l p i l i p l i
ao2 « — ZéLx°,y2inu = — Z^y)^ = —¿,y)¿,nv = — ¿,y)ni
'» l.l J-i N i=l i=l 'V l.l ¡=l '" '-'
V. Demostración de (22):
y p i ~ 1 p i
«20 = TtXXf*. - * )V y/ - y )"n„ = — YSL(x, - x fn„ =
« i.l i.i N ,=/ i.2
1 ,' •- 1 p i i » j 1 p i
= ..IX(r --ri +x )», =-:IXx»,r ;,-,'XI,l;"» + TT> SX»« =
<»,=//=/ N i., l-i A. /=//=/ A1 ,./>/
= a 20 - 2 x2 + x2 = a20 - x2 = a» - a/o
181
] p i i r i
mo2 = —'Z^(x,-x f(y¡-y fn„ = — XXí .v, - y fn¡¡ .
N ,.i¡.i N ¡.i
l r i 1 .,,
= T:ÍX(yr2yy,+
/> ,./ /./
y"M, = — £5».,-—
¡y i.i i,i n
2y££y,«,+—
¡.i i.i ¡y
v",II«.-
,.i ¡.i
=
= «o: - 2 y" + y" = a„: - y = a02 - ai¡
VI. Demostración de (23):

I p i l p ¡,
m,, = —Y^(x,-x)(yry)n„ = —Y^(x¡yl-xyr^x, + xy)n, =
ÍVH*
*>>.
Aí ¡./ A' i.i N ¡. A* ,./
= a/,-x;y-yx + xy = a„ -*>' = an-aioaoi, c.q.d.
VII. Demostración de la propiedad 2 de la covarianza:
Según (23), la covarianza de X e Y es:
(*) mu = ai r aioOoi
Ahora bien:
YHéxiy¡n«
m ,-i
a,, .
N
y, al ser independientes X e Y, en virtud de la proposición 5.2, es
n, n,
Sustituyendo este resultado en (**), se tiene:
l p i i p \( 1 4 K
= ~¿Hx,y' n,n,
N ainam
Llevando este resultado al segundo miembro de (*), resulta:
mu =an-aioam=amaoraioam = 0, c.q.d.
CAPITULO 6
REGRESIÓN Y CORRELACIÓN
6. 1 . Dependencia aleatoria y funcional
Estudiamos, en el capítulo quinto, la dependencia e independencia funcional entre

dos caracteres, analizando las condiciones que debían cumplir sus distribuciones
condicionales y marginales. Son éstas dos situaciones extremas de relación entre
variables estadísticas.
Hay, sin embargo, caracteres entre los que sabemos que, a pesar de no ser inde
pendientes ni tener una relación funcional, existe una cierta dependencia entre ambos.
Se dice entonces que hay una dependencia aleatoria.
Este es el caso de la estatura y el peso de personas adultas, que no están relacio
nados mediante una ecuación matemática, pero que, si nos dan la estatura de una
persona, algo podemos predecir acerca de su peso.
Aunque son numerosos los problemas científicos que requieren más de una varia
ble independiente, nos vamos a limitar al estudio de modelos de regresión en que sólo
interviene una variable independiente.
Supondremos también que tanto la variable independiente como la variable depen
diente actúan en el modelo de forma lineal. A veces, el planteamiento del problema
sugiere una transformación de los datos, en cuyo caso el modelo se sigue consideran
do lineal con tal de que sea lineal en los parámetros de la transformación. En este
sentido, se incluyen dentro de la regresión lineal algunos modelos en que intervienen
exponenciales y potencias. Trataremos, no obstante, la regresión parabólica como
ejemplo de ajuste no lineal.
En este capítulo, analizamos la relación de dependencia entre dos variables para
un conjunto de observaciones. Más adelante, en el capítulo 14, se estudiarán las
inferencias sobre la intensidad de la relación entre dos variables poblacionales a partir
de los datos de una muestra.
184
6.2. Regresión y correlación

y-f (x)
Sea (X,Y) una variable esta
dística bidimensional, cuya nube
de puntos (x .y ) tenemos repre
sentada en el plano.
La representación de dichos
puntos pone de relieve la presen
cia o ausencia de regresión.
En la gráfica de la figura 6. 1 ,
el conjunto de puntos muestra
Figura 6. i : Ajuste de una cuna. cómo es posible ajustar una cier
ta curva.
El problema de ajustar una curva de regresión1 consiste en encontrar una función
y=f(x), cuya gráfica se adapte lo más posible a esa nube de puntos, de forma que nos
proporcione una cierta relación entre las variables X e Y, con el fin de que, conocido
el valor de una de dichas variables, obtengamos un valor aproximado de la otra.
Si la ecuación es una parábola, hablaremos de regresión parabólica; si se trata de
una función exponencial, hablaremos de regresión exponencial; si la ecuación es una
recta, hablaremos de regresión lineal....
La relación aleatoria entre dos variables puede que sea debida a alguna causa,
pero también es posible que se deba únicamente al azar. Por ello, cuando, en un
problema de regresión se habla de variable dependiente e independiente, no se está
afirmando que exista una dependencia causal de una sobre la otra, sino simplemente
que se está haciendo uso del convencionalismo propio del lenguaje matemático en el
ámbito de la teoría de funciones.
Se llama correlación al estudio del grado de dependencia que existe entre dos
variables. Para cuantificar este grado de dependencia, se definen los coeficientes de
correlación.
En el caso particular en que todo par de valores de la nube de puntos pertenezca
a la curva de regresión, se dice que hay correlación perfecta.
La correlación no será perfecta si cada par de valores de la variable estadística
bidimensional sólo satisface le ecuación de la curva de regresión de modo aproximado.
Se habla de correlación positiva o directa cuando la curva de regresión es cre
ciente, y de correlación negativa o inversa cuando es decreciente.
1 El término regresión, que hoy usamos con un sentido de «relación» entre variables estadís
ticas, tiene su origen en un estudio que publicó Francis Galton en 1886. en el que. analizando la
estatura media de los esposos y la estatura media de los hijos, llegó a la conclusión de que hay una
tendencia a aproximarse (regresar) a la estatura media de la población.
185
6.3. Métodos de ajuste
Elegida la variable que se va a considerar independiente (X, por ejemplo), y dada

la nube de puntos (x,y.), i=1,2,..., p, j=1,2,...,q, se selecciona la función que mejor se
puede adaptar. Supongamos que ésta viene dada en la forma
y=f(x,a,,a2,...,an)
donde a,,a2,...,an son n parámetros, que dependen del tipo de función y que han de ser
determinados.
A cada valor x de la variable independiente X le corresponden entonces dos
valores de la variable Y: uno es el valor y que le corresponde en la nube de puntos,
al que llamaremos observado o real, y otro y .', al que llamaremos teórico, que se
obtiene de sustituir x en la función elegida:
y.'=f(x,a,,a, a)
Se tienen así dos distribuciones, una real u observada y otra teórica, dependiendo
esta última de los valores que se puedan asignar a los parámetros a.,a,,...,a .
El problema que se plantea es el de determinar estos parámetros de forma que
ambas distribuciones se aproximen lo más posible. Las distintas formas de conseguir
lo dan lugar a los diversos procedimientos de ajuste.
Una manera de resolver este problema es tratando de igualar los momentos de
ambas distribuciones, lo que constituye el método de los momentos.
Nos vamos a limitar al procedimiento de ajuste más usual, que se conoce como
método de mínimos cuadrados, y cuyo proceso exponemos a continuación.
6.3.1. Ajuste por el método de mínimos cuadrados
Tratamos de ajustar una función de la forma y=f(x,a,,a,,...,an) a la nube de puntos

(x,y.),i=1,2,...,p,j=1,2 q.
Para cada valor x de la variable independiente X, tenemos dos valores de Y: el
valor observado y y el valor teórico y ', entre los cuales hay una diferencia, que
vamos a llamar residuo y que representaremos por c :
c-y-y '
La idea, en principio, es la de determinar los parámetros a,.a,,...,an de forma que la
suma ponderada de los residuos sea mínima:
l p q'I
186
En esta expresión, habrá

sumandos positivos y negativos,
que pueden compensarse unos
con otros, dando una suma pe
queña aún cuando el ajuste no
sea bueno. Por ello, el método
de mínimos cuadrados consiste
en «determinar los parámetros
a,,a„...,a
12 n
, tratando de hacer mí-
nima la media ponderada de los
cuadrados de los residuos», es
Figura 6.2: Residuo. decir, se trata de hacer mínima la
expresión
ai, a?, . ..aj\ a,.

;y M /=/ /v M i-i
La condición necesaria para que esta expresión sea mínima es que las derivadas
parciales de primer orden respecto de cada uno de los parámetros se anulen. De esta
manera se obtiene el siguiente sistema de ecuaciones lineales, llamadas normales,
cuya resolución nos permite obtener los valores de los parámetros y, por tanto, la
expresión de la función ajustada:
ac rvl 1 « \
y =-2¿J2J[y,-f(x,.a,M: aj\n„f Ui =0
o ai
da2 ~~l J
p 1
dC
-2^^,-^x¡.01.02 on)\n,J\ = 0
da„
6.4. Regresión lineal
Elegida una de las variables como independiente y representados los valores de la

variable bidimensional, si observamos que la función que mejor se adapta a la forma
de la nube de puntos es una recta, tendremos un problema de regresión lineal.
Si hemos elegido el carácter X como variable independiente, tendremos la recta de
regresión de Y sobre X. Si elegimos Y como variable independiente, se obtendrá la
recta de regresión de X sobre Y.
187
6.4.1. Recta de regresión de Y

sobre X
De entre todas las rectas del

plano, tenemos que determinar la
que mejor se adapta a la nube de
puntos P de la distribución.
Sea y=a+bx la ecuación de la
recta. Nuestro problema consiste
en determinar los coeficientes a
y b, utilizando los datos (x,y ) que
nos proporciona la distribución
Figuia 6.3: Recta de regresión de Y sobre X. y sirviéndonos del método de
mínimos cuadrados.
Para simplificar, vamos a suponer que la variable estadística (X,Y) toma los valores
(XrY,),(X„Y,) (XN,YN) con frecuencia 1.
A cada valor \¡ de la variable que hemos considerado independiente le correspon
den:
i) una ordenada y dada por la distribución,
ii) un valor teórico y', que sería la ordenada correspondiente a xi en la recta de
regresión, es decir, y '=a+bx .
Sea c^y-y. la diferencia entre ambos valores (desviación vertical o residuo).
El método de mínimos cuadrados consiste en determinar los coeficientes a y b de
la recta, «haciendo mínima la suma ponderada de los cuadrados de los residuos c ».
Se trata, por tanto, de hacer mínima la expresión
d)
Al ser y, = bx,+ü, será c, =.v,-.v, = y,- bx,- a, y, por tanto
í V 2
C=—¿t(y,-bx,-ar (2)
Hemos de hacer mínima una función que depende de dos variables, a y b, lo cual
se consigue igualando a cero las derivadas parciales. No obstante, vamos a tratar de
determinar los parámetros a y b en el supuesto de que sólo se tengan conocimientos
sobre funciones reales de una única variable real.
Tratamos de buscar, para un valor b dado, el valor de a que hace mínimo a C.
Después determinaremos b haciendo mínimo el mínimo parcial que hayamos obtenido
previamente.
Por tanto, supuesto b fijo, la expresión C depende de a, y, si posee algún mínimo,
éste debe ser una raíz de
188
da
Ahora bien
dC 2 v 2 1 N b f
¡te* -*§*-■
= -2[y-¿x-a]
Entonces, haciendo -2[y-¿x-a] = 0, resulta \-bx-a = 0, de donde
v = bx + a (3)
Esta expresión nos dice que el punto w^ v) pertenece a la recta, es decir, la recta
de regresión de Y sobre X pasa por el centro de gravedad G de la nube de puntos P .
La expresión (3) nos dice también que el mínimo de C se obtiene para el valor
a = v - bx . El mínimo parcial obtenido será
I v - - i
m = min C = — ¿J v,-bx,- v + bx ) =
« N ¡.i
= Î[y,-v-^x,-x)]-'
Debemos encontrar ahora el valor de b que hace mínimo a m. Para ello, debe ser b
tal que
dm
Tb-°
dm 2 .¡L, -,r - - ,
1E--^lU-4y,-y-Mx,-x})
Igualando a cero, se tiene

2 £.
N i.i l '
y desarrollando el primer miembro, resulta
$Ax,-x»yry)-bYAx,-xf = 0
La expresión entre corchetes debe, por tanto, anularse. Despejando b, en dicha

expresión, resulta
189
, N 1, i mu
,¡i/*-'*
Para este valor de b, se obtiene como valor de a:
- - mu-
a = y-bx= y-—Tx
s\
Como la recta es y=bx+a, sustituyendo los valores hallados para a y b, se tiene
- mu - mu mn - -
y = y-—rx+—rx = —T(x-x)+y
r, s; rt
de donde resulta
- mn — (4)
y-y = —T(x-x)
si
que es la ecuación de la recta de regresión de Y sobre X en la forma punto-pendien

te, y observamos que:
1) pasa por el baricentro G(x,y)
2) su pendiente es b = —7-
La pendiente de esta recta recibe el nombre de coeficiente de regresión de Y sobre

X, y es, según acabamos de ver
(5)
si
6.4.2. Recta de regresión de X sobre Y
Permutando X e Y, y razonando de modo análogo, se obtiene la recta de regresión

de X sobre Y, que es la recta de mínimos cuadrados de las desviaciones d=x '-x
tomadas paralelamente al eje de abscisas.
Se trata de hacer mínima la expresión:
y n l p 1
D=—!</?-—¿So -*;/%=
N¡.) Ni.i¡.i
Procediendo de modo análogo, se obtiene la ecuación de la recta de regresión de

X sobre Y, que es:
190
(6)
I',x,y, ^^
^^ '& X ' - X
De la expresión de la recta de
regresión de X sobre Y se sigue que:
1 ) pasa por el baricentro G(x,y)

2
* 2) tiene como pendiente b' = —- ,
mu
Figura 6.4: Recta de regresión de X sobre Y. Llamamos coeficiente de regre
sión de X sobre Y, y lo representa
mos por B a la inversa de la pendiente de la recta de regresión de X sobre Y:
b.. =. (7)
6.4.3. Coeficientes de regresión v covarianza
El coeficiente de regresión de Y sobre X es el valor de la pendiente de la recta de

regresión de Y sobre X. Su valor absoluto indica la cuantía de la variación del carácter
dependiente (Y) por cada unidad de variación del carácter independiente (X).
De igual modo, el coeficiente de regresión de X sobre Y señala la cuantía de la
variación de X por cada unidad de variación de Y.
Ahora bien, los coeficientes de regresión tienen el mismo signo, que coincide con
el signo de la covarianza, m . puesto que:
m.
Llegamos, por tanto, a las siguientes conclusiones:

1. Si la covarianza es positiva, los coeficientes de regresión son positivos y las
rectas de regresión son crecientes.
2. Si la covarianza es negativa, los coeficientes de regresión son negativos y las
rectas de regresión son decrecientes.
3. Si la covarianza es nula, los coeficientes de regresión son nulos y las rectas de
regresión son cada una paralela a uno de los ejes de coordenadas, y, por consi
guiente, perpendiculares entre sí.
6.4.4. Predicciones
La finalidad que persigue la regresión es la de predecir el comportamiento de una

191
variable para un determinado valor de la otra, de modo que, si la recta de regresión de

Y sobre X tiene por ecuación
y=a+bx
la predicción del valor que tomará Y cuando X=xi vendrá dada por
y,=a+bx.
Ejemplo 6. 1
Se han seleccionado al azar 15 alumnos de primer curso de Ciencias Químicas,

cuyas calificaciones en Matemáticas (X) y Física (Y) son:
Matemáticas (X) 8 86678567787868

Física (Y) 4 63546446457656
Determinar: 1) la recta de regresión de Y sobre X; 2) la recta de regresión de X

sobre Y; 3) dibujarlas; 4) estudiarlas a partir de los coeficientes de regresión; 5) hacer
una predicción sobre la nota que tendría en Física un alumno que tuviera un 8 en
Matemáticas.
Aunque hay pares de valores que se repiten, al ser pocos, trataremos todos los
pares de datos con frecuencia 1.
a„=7; a„i=5; a„=35'53
sx2 = a2i¡-a¡o2 = 49'93-49 = 0'93
s 2 = a - a- = 26'2-25 = 1'2
y 02 01
s=0'96; sy=1'09; mn=0'5333
b\x =0'5714; bxy=fr4444
1 ) Recta de regr. de Y sobre X:

y-5=0'57(x-7)
2) Recta de regr. de X sobre Y:
y-5=2'25(x-7)
3) La figura 6.5 contiene las gráficas de las rectas de regresión.
192
X Y XY X2 Y
8 4 32 64 16
8 6 48 64 36
6 3 18 36 9
6 5 30 36 25
7 4 28 49 16
8 6 48 64 36
5 4 2(1 25 16
6 4 24 36 16
7 6 42 3) 36
7 4 28 49 16
Figura 6.5: Rectas de regresión del ejemplo 6.1.
8 5 40 64 25
7 7 44 49 49 4) La covarianza es positiva, luego son positivos
8 6 48 64 36 los coeficientes de regresión, y, por tanto, las dos
6 5 30 36 25 rectas son crecientes.
8 6 48 64 36 En efecto, al ser b >0, a mayor nota en Física
IOS 75 533 749 393 corresponde mayor nota en Matemáticas.
5) Se puede predecir que un alumno con un 8 en
Matemáticas tendrá una nota de 5,57 en Física, pues:
y=5-fO'57(8-7)=5-fO'57=5'57
6.5. Correlación
La correlación hace referencia al grado de relación entre dos variables. El problema

que se nos plantea es el de encontrar una medida que nos indique el grado de inten
sidad de la relación entre variables.
En otras palabras, pretendemos hallar un valor que nos dé una medida del grado
de ajuste de la curva a la nube de puntos.
Una manera de obtener esa medida es calculando la varianza de los residuos o
varianza residual:
(8)
En efecto, cuanto mayores sean las diferencias entre los valores observados y los
valores teóricos de la variable dependiente, menor será la intensidad de la relación
entre las variables.
Se dará una dependencia funcional cuando todos los puntos de la nube caigan
sobre la gráfica de la función ajustada, en cuyo caso la varianza residual será nula.
193
6.5.1. Coeficiente de correlación general de Pearson
La varianza residual, como medida del grado de dependencia entre dos variables,
presenta dos inconvenientes:
1 ) La unidad de medida no permite hacer comparaciones de la dependencia entre
grupos de variables.
2) Proporciona una medida inversa del grado de intensidad entre las variables: si la
varianza residual es grande, los puntos de la nube están alejados de la curva ajustada
y, en consecuencia, la dependencia entre las variables será pequeña.
Estas dos dificultades se resuelven dividiendo la varianza residual por la varianza
marginal de la variable dependiente (Y), y restando este cociente de la unidad:
con lo cual el valor de la medida que se obtiene armoniza con el sentido de la correla
ción. A este índice de la correlación se le llama coeficiente de determinación y se le
representa por R2:
S'n
R- = 1- .').
si
Extrayendo la raíz cuadrada del coeficiente de determinación, se obtiene una medi
da adimensional, que es el coeficiente de correlación general de Pearson, al que
representamos por R:
(10)
R- iA
6.5.1.1. Propiedades del coeficiente de correlación general de Pearson
De la expresión del coeficiente de determinación se deduce, para la varianza resi

dual, la expresión:
sÍ, = s;(l-R') (11)
Si tenemos en cuenta que tanto la varianza residual como la varianza marginal son
no negativas, debe ser también \- R2 >0 y, por tanto R2 < / de donde se deduce que
-1<R<1 (12)
Analizando los posibles valores del coeficiente de correlación general de Pearson,

resulta:
1. Si 0<R<1, la correlación es positiva, siendo mayor su intensidad cuanto más se
aproxima Ra1.
194
2. Si -1<R<0. la correlación es negativa, siendo mayor la intensidad cuanto más

se aproxima R a - 1 .
3. Si R=l ó R=-1, será s^=0 y habrá una relación de dependencia funcional. En
ambos casos se dice que ía correlación es perfecta.
i) Si R=1. las dos variables vanan en el mismo sentido y la correlación es positiva
perfecta.
ii) Si R=-1. las variables varían en sentidos opuestos y la correlación es negativa
perfecta.
4. Si R=0, es s: =sj, luego no hay ningún tipo de dependencia, ya que la relación
de Y con X no aporta ninguna explicación sobre Y. Se dice entonces que no hay
correlación o que las variables son incorreladas.
6.5.2. Coeficiente de correlación lineal de Pearson
Cuando la regresión es lineal, el coeficiente de Pearson se conoce como coeficien

te de correlación lineal de Pearson. y lo representamos por r.
El coeficiente de correlación lineal de Pearson proporciona, por tanto, una medida
del grado de aproximación de la recta de regresión a la nube de puntos.
Para obtener una expresión de r, tenemos que evaluar la varianza residual, sustitu
yendo los valores teóricos de la variable dependiente y ' por la expresión obtenida
para la recta de regresión:
l pr i
" ,-l i-l
Con el fin de simplificar los cálculos, vamos a suponer una vez más que la variable
estadística (X,Y) toma los N valores (xi,y,) con frecuencia 1.
Tendremos
si, = TfJjy,-y, t = —1\ v, -y-:(xi -x) =

N ¡.i N i.il s, J
* * -.. _. (Sny»
Yt(yl-yf-2-^Jt(x,-xHyi-y)+ ~^ It(x,-xf
Sx St Sx Sx Sx
Entonces
195
Luego el coeficiente de correlación lineal de Pearson tiene por expresión:
(13)
í,í,
y cumple las propiedades del coeficiente general.

La expresión del coeficiente de determinación lineal es:
.V,
(14)
SxS>
6.5.2. 1 . Interpretación del coeficiente de correlación lineal
Los coeficientes de regresión están relacionados con el coeficiente de correlación.

En efecto:
, s rv s rv s v s xy s v
.?; sx sx sxsy s, st
lo que permite expresar la recta de regresión de Y sobre X en función de r:
s¡
y- y = r—(x-x) (15)
El coeficiente de regresión de X sobre Y en función de r es:
lo que permite expresar la recta de regresión de X sobre Y en función de r:
x-x=r—(y-y) (16)
Sy
Podemos utilizar el coeficiente de correlación para analizar la regresión lineal. En

efecto:
1 ) Si r=0, la correlación es nula, y las rectas son paralelas a cada uno de los ejes y
perpendiculares entre sí:
2) El signo de r señala la dirección de la correlación.

196
3) El valor absoluto de r señala la intensidad de la relación. Irl=l indica una corre

lación perfecta. Un valor absoluto de r grande (próximo a 1) indica una fuerte
correlación.
4) El mayor valor de r es 1. en cuyo caso la varianza residual es cero, por lo que
todos los puntos de la nube están sobre la recta. Se trata de correlación positiva
perfecta.
5) El menor valor de r es -1, en cuyo caso la varianza residual es también nula, pero
ahora las pendientes son negativas. Se trata de correlación perfecta, pero negativa.
La situación de las rectas, cuando r=- 1 o r= 1 , es:
6) Como lrl< 1 , es I l/rl>l . y, por tanto, la recta de regresión de X sobre Y se aproxima

más a la vertical que la de Y sobre X.
Gráficamente, se darán las siguientes situaciones:
6.5.2.2. Cálculo del coeficiente de correlación lineal de Pearson
Las siguientes propiedades facilitan el cálculo del coeficiente de correlación lineal

de Pearson:
I. Si X'=aX+b e Y'=cY+d. el coeficiente de correlación lineal de X' e Y' es igual al
coeficiente de correlación lineal de X e Y.
El coeficiente de correlación lineal es, por tanto, invariante, tanto frente a un
cambio de escala como frente a un cambio de origen.
II. Si la variable aleatoria bidimensional (X,Y) toma los N valores (x^y,) con fre
cuencia absoluta 1, es:
v ív 1ÍV N
=/ /
N ( .V Y ,V ( N V (17)
N%x¡- Xx,
i.i V'=' J
197
La demostración de estas propiedades figura en el apéndice al capítulo 6.

A veces, los pares de valores no vienen dados con frecuencia absoluta igual a 1 .
Supongamos que se trata de una población de N individuos, tal que la variable esta
dística bidimensional (X ,Y ) toma n veces cada valor (x ,y ). donde
i=l,2 p señala las p modalidades del carácter X, y
j=l,2 q señala las q modalidades del carácter Y.
Entonces, si es n la frecuencia absoluta del par (X ,Y ), el coeficiente de correla-
ción lineal se puede calcular a partir de la expresión:
p i ir \(i \
<l-l
III. ( V (18)
N^xin, - Z..x,n,
,-/ \¡.i
Omitimos la demostración, que es un simple ejercicio de desarrollo matemático,

siguiendo el mismo esquema argumental de la anterior.
Ejemplo 6.2
La siguiente tabla recoge la estatura y el peso de 5 personas adultas:
Estatura (X) 1.60 1,65 1,70 1,75 1.80
Peso (Y) M «> 68 70 72
Hallar el coeficiente de correlación lineal de Pearson e interpretar su valor.

Vamos a calcularlo utilizando la propiedad II. Para facilitar los cálculos, dispone
mos los datos en la forma:
X Y X2 Y: XY
1.60 64 2.% 4096 102.4
1,65 « 2,72 4356 108.9
1.70 (vS 2.89 4624 1 15.6
1.75 7() 3.06 4900 1 22.5
1.80 72 3.24 5184 129.6
8.50 340 14.47 13160 579
El coeficiente de correlación lineal es. por tanto:

5x579 -8'5x340
y¡ [5xl4'475 - 8'52}[5x23160 - 340:\
198
Luego hay correlación positiva perfecta entre la estatura y el peso.
6.5.3. Variables incorreladas
El coeficiente de correlación de Pearson es un valor adimensional, que da una

medida del grado de relación entre dos variables, bien entendido que la correlación se
refiere únicamente a una relación de dependencia lineal.
Definición: Las variables estadísticas X e Y se dicen incorreladas cuando el

coeficiente de correlación es cero.
El hecho de que dos variables sean incorreladas significa que entre ellas no hay
ninguna relación de dependencia lineal, pero puede haber otro tipo de dependencia.
La relación entre dependencia y correlación la establece la siguiente proposición:
Proposición 6.1: Si X e Y son dos variables independientes, X e Y están

incorreladas.
En efecto, como consecuencia de la proposición 4.2, si X e Y son independientes,

su covarianza es cero, luego
ntn 0
=0
SxSy S,Sy
La recíproca de esta proposición no es cierta. Ya decíamos en el capítulo 5 que la

covarianza de dos variables aleatorias X e Y puede ser cero, y no ser éstas independien
tes. Los conceptos de independencia y ausencia de correlación no son equivalentes.
Ejemplo 6.3
Dada la variable estadística bidimensional (X,Y), cuya distribución de frecuencias

viene dada por la siguiente tabla
Y 4 7 10 13 16 17
X
1 3 4 3 0 0 0
2 0 7 9 4 0 0
3 0 0 4 12 4 0
4 0 0 4 2 4 0
5 0 7 9 4 0 0
6 3 4 3 0 0 0
199
se trata de obtener: 1 ) las ecuaciones de las rectas de regresión; 2) el coeficiente de

correlación lineal de Pearson.
Solución: Para mayor comodidad en los cálculos, completemos la tabla de doble

entrada con las distribuciones marginales:
Y 4 7 10 13 16 17
X
1 3 4 3 0 " 0 10
2 0 7 9 4 0 0 20
3 0 0 4 12 4 0 20
4 0 0 4 2 4 0 20
5 0 7 9 4 0 0 20
6 3 4 3 0 0 0 10
6 22 32 32 8 0 100
Serán entonces:
— 350 , _, 1450
12.25 = 2,25; s, = 1,5
1042 , -, 11830
Y = ^rr = ¡0,42; s\ = am - Y' = —rz^r - 108,5764 = 9,7236; s, = 3,1182
100 100
3647
an , = 36,47; in„ = a„-XY = 36,47 - 36,47 = 0
100
Luego K=-jT = ñs
Las rectas de regresión son:

y-IO,42 = 0 y x-3,5=0
ni 0
Como r = —- = = 0, las variables son incorreladas.
s.í. 1,5x3.1182
6.5.4. Correlación y causalidad
Establecida la relación de dependencia entre las variables X e Y, y, suponiendo

que el valor del coeficiente de correlación es, en valor absoluto, próximo a 1. no
podemos concluir, sin embargo, que haya una relación de causalidad entre las varia
bles, afirmando que una de las variables es causante de los efectos de la otra.
200
El coeficiente de correlación sólo da una medida de la covariación entre ambas

variables.
Es conocida la anécdota narrada por Joan Welkowitz sobre el estudio de la corre
lación entre el número de cigüeñas y el número de nacimientos de niños en algunas
ciudades europeas, que dio como resultado una correlación positiva alta. Alguien
interpretó este resultado afirmando el influjo que ejercían las cigüeñas en el número
de niños que nacían.
La realidad es más prosaica: el alto número de nacimientos no es debido al mayor
número de cigüeñas, sino al mayor número de habitantes de las ciudades de mayor
extensión y, por tanto, con más chimeneas y torres donde anidar.
6.6. Otros coeficientes de correlación
Cuando las variables cuya relación de dependencia tratamos de averiguar, no son

continuas, bien porque lo sea una sola de ellas, bien porque no lo sea ninguna, o
porque realmente lo que interesa no es tanto la relación entre dichas variables, sino
entre el orden en que aparecen sus valores, se utilizan otros coeficientes de correla
ción.
Estos otros coeficientes de correlación están basados en el mismo fundamento
conceptual.
6.6.1. Coeficiente de correlación de Spearman
Cuando los datos proporcionados por los valores de las variables no vienen da
dos por sus frecuencias absolutas, sino por el orden que éstas ocupan en la observa
ción, resulta más difícil medir la intensidad de la relación, puesto que se posee menos
información sobre las variables. Consideremos el siguiente ejemplo:
Ejemplo 6.4
Cinco alumnos son evaluados en Física y Química por dos profesores. Estos, en
lugar de dar las calificaciones, han facilitado el lugar que ocupan en las respectivas
asignaturas:
Física Química
Luis 2 2
Carlos 5 4
Pedro 3 3
Manuel 1 1
Julián 4 5
201
Manuel es el alumno que mejor calificación ha obtenido en Física. Aunque su

calificación es mejor que la de Luis, no es posible saber, con los datos que proporcio
na el enunciado, si las calificaciones de Manuel y de Luis son próximas o no.
En este caso, para medir el grado de relación, se utiliza el coeficiente de correla
ción gradual o de Spearman, rs, que viene dado por:
(19)
donde d. es la diferencia entre el orden obtenido por el i-ésimo individuo en ambas

series de datos.
El coeficiente de Spearman, rs, varía entre -1 y 1.
Un valor positivo alto de rs indica una fuerte tendencia hacia la igualdad de los
números de orden asociados, mientras que un valor muy negativo de rs indica una
fuerte tendencia hacia la desigualdad de los ordinales asociados.
El valor cero significa que no existe relación entre los dos conjuntos de números
ordinales.
Volviendo al ejemplo 6.4., el coeficiente de Spearman será:
6[(2-2f + (5-4f + (3-3f + (l-lf + (4-5f] 12
s 5(25-l) 120
El valor obtenido, 0'9, es muy próximo a 1, lo que indica que los profesores han
dado calificaciones similares.
Un valor muy próximo a -1 habría indicado que los alumnos mejor calificados por
un profesor, serían los peor calificados por el otro.
6.6.2. Coeficiente de correlación biserial puntual
Cuando se dispone de dos variables, una de las cuales es continua y la otra

dicotómica, se utiliza el coeficiente de correlación biserial puntual. Este coeficiente no
es sino un caso particular del coeficiente de Pearson, que se obtiene de asignar un
número fijo (el cero o el uno) a una de las dos categorías que presenta la variable
dicotómica, y cualquier otro número a su alternativa. Estos dos números son conside
rados como los valores que toma la variable dicotómica.
Los números que se asignan a las categorías de la variable dicotómica no influyen
en el valor del coeficiente, puesto que en él los valores de las variables se dan
tipificados.
El coeficiente de correlación biserial puntual se representa por rh .
Si designamos por X a la variable dicotómica, siendo Y la variable continua, y
202
asignamos a X los valores 0 y 1, se obtiene el coeficiente de correlación biserial

puntual evaluando la expresión:
NlY,-N,lY
(20)
^/^[/vlr-d>f
siendo:
N ^número de observaciones en las que X=l,
N, =número de observaciones en las que X=0,
N=N,+Nn=número total de observaciones,
ZY=suma de observaciones Y asociadas a una X con valor 1,
ZY=suma de todos los valores de Y.
ZY:=suma de los cuadrados de todos los valores de Y.
Una aplicación típica es la relación existente entre el sexo y las aptitudes para
determinados estudios, como puede ser la aptitud para el conocimiento de un idioma
que se plantea en el siguiente ejemplo.
Ejemplo 6.5
Un centro escolar ha seleccionado al azar a 1 6 alumnos de COU, a los que se les

ha pasado un test de aptitud para el conocimiento del idioma inglés. De los 16 alum
nos, 9 resultaron ser chicos y 7 chicas.
La siguiente tabla recoge los resultados obtenidos después de haber asignado a la
variable dicotómica sexo los valores 1 y 0 para chico y chica, respectivamente.
Sexo 1 0 0101 1 100101101

Puntuación 24 17 8 31 24 16 25 30 31 17 14 16 20 8 16 24
Si efectuamos los cálculos necesarios, resulta:

N =9, N0=7, N=9+7=16,ZY=192,ZY=321,ZY:=7245.
16x192-9x321 183
Luego: *" = J9x7[,6x7245-32í] =^6=°'2°
El valor obtenido, 0'20, nos indica una correlación muy débil entre el sexo y la
aptitud para el idioma inglés.
6.6.3. Coeficiente 0
Si las dos variables son dicotómicas por su propia naturaleza, se utiliza el coefi
ciente <t>. cuyo fundamento se estudia en el capítulo 15.
203
Supongamos que las variables dicotómicas admiten las dos modalidades A (acier
to) y E (error), y designemos por:
a=número de individuos con la modalidad A de X y la A de Y.
b=número de individuos con la modalidad E de X y la E de Y.
c=número de individuos con la modalidad A de X y la E de Y,
d=número de individuos con la modalidad E de X y la A de Y.
según se recoge en la siguiente tabla
Y
A | E
v A a c
X E d b
Entonces, el coeficiente <I> viene dado por la expresión:
cd-ab
<l>; (21)
yj(a + c)(d + b)(a + d)(c + b)
Ejemplo 6.6
Supongamos que se realiza una prueba a 80 estudiantes con dos tandas de pre
guntas, y se pretende averiguar si existe correlación entre las dos tandas de pregun
tas a la vista de las respuestas dadas por los estudiantes: 1 8 respondieron con acierto
a las dos tandas de preguntas. 16 contestaron erróneamente a ambas, 20 respondieron
con acierto a la primera y erróneamente a la segunda, y 26 respondieron erróneamente
a la primera y con acierto a la segunda. El siguiente cuadro recoge los resultados:
i '
A E
A 18 20
X
E 26 16
El coeficiente <I> correspondiente a estos datos es:
20x26-18x16
: 075
y¡( 18 + 20)(26 + 16)( 18 + 26)(20 + 16)
lo que supone una correlación muy débil.
204
6.6.4. Correlación tetracórica o de atributos
Surgen, a veces, situaciones, en que, siendo continuas por su naturaleza las varia
bles, sus resultados se dan dicotomizados. Es éste el caso en que, tras someter a un
conjunto de personas a una serie de pruebas, se les asigna la calificación final de
«apto» o «no apto».
Cuando deseemos estudiar la relación entre dos variables de naturaleza continua,
cuyos valores se han dicotomizado, si estamos interesados en la relación existente
entre las variables representadas por los datos dicotomizados, se utiliza el coeficiente
de correlación tetracórica o de atributos, que designamos por rr
La expresión de este coeficiente es muy compleja. Vamos a utilizar una expresión
que da una aproximación bastante buena:
(22,
Los valores a, b, c y d se asignan del mismo modo que en el apartado 6.6.3.

Por tratarse del coseno de un ángulo, este coeficiente varía de -1 a 1, y tiene una
interpretación análoga a la del coeficiente de Pearson.
El coseno se evalúa en grados sexagesimales.
El coeficiente O debe ser utilizado con una cierta cautela, ya que el cambio en la
escala de medida que implica «dicotomizar» las variables lleva consigo una pérdida
importante en la información.
Ejemplo 6. 7
Los 20 empleados de una oficina que tienen relación directa de trato con el público
han sido evaluados a través de una encuesta que ha permitido clasificarlos según su
trato B(bueno) o M(malo) con los clientes.
Un directivo de la empresa piensa que existe una relación entre la forma en que un
empleado trata a los clientes y su dimensión humana. Atendiendo a este criterio, los
empleados han sido clasificados en gruesos(G) y delgados(D). según pasen o no de
55 kgs. de peso.
Se trata de estudiar la correlación entre estas variables, cuyos resultados
dicotomizados se recogen en la siguiente tabla:
Y
G D
B 7 3
X
M 4 6
205
Solución: Se debe utilizar el coeficiente de correlación tetracórica. cuyo valor aproxi

mado es:
ISO 180
rT = eos
3,6 ™ñ-™
Este resultado indica una correlación negativa muy débil entre el peso de los
empleados y su forma de tratar al público.
6.7. Regresión y series de tiempo
Cuando la variable independiente es el tiempo, los datos de la variable bidimensional

nos muestran los valores de Y en diferentes instantes. Al conjunto de los datos
ordenados en relación al tiempo se le denomina serie de tiempo.
En este caso, la recta de regresión de Y sobre X se llama recta de tendencia, que
se utiliza para hacer predicciones o pronósticos temporales.
Ejemplo 6.8
La siguiente tabla nos muestra el censo de trabajadores (en millones de personas)

del sector primario en Francia durante el período de 1981 a 1988.
Año I9K1 1982 1983 1984 1985 1986 1987 1988
Trabajadores 3,1 3.0 2,9 18 Z6 16 15 14
Se trata de: 1) hallar la ecuación de la recta de tendencia; 2) dibujar la recta de

tendencia; 3) predecir el censo de trabajadores del sector primario en el año 2000,
suponiendo que se mantiene la tendencia.
X Y X: Y: XY
1981 3.1 3924361 9,61 6141.1
1982 3.0 3928324 9.00 5946,0
1983 19 3932289 8.41 5750.7
1984 2.8 3936256 7.84 5555.2
1985 2.6 3940225 6,76 5161.0
1986 2,6 3944186 6,76 5163.6
1987 15 3948169 6,25 4%7.5
1988 2,4 3952144 5.76 47712
15876 21'9 31505964 6039 434563

206
Figura 6.6: Recta de tendencia.
- 15876 , -, 31505964
x = —— = 1984,5; sx = a20 - x = 3938240,3 = 5,25; sx = 2,29
S
- 21,9 -, 60.J9
v = —— = 2, 7375; j' = a„, - y 7,4939 = 0,0548; sy = 0,23
8 8
43456,3
ÍJ/, = = 5432,04; mu = a,i-awa0i = 5432,04 - 5432,57 = -0,53
8
- mu -0,53
El coeficiente de regresión es p ,, = ~~r = . -. = -0, /
j, 5,25
y la recta de tendencia es, por tanto:
y -2,7375 = -0,l(x- 1984,5)

Previsión para el año 2000:
y-2,7375 = -0,1(2000- 1984,5) = 2,7375-1,55 = 1,1875

Si la tendencia no varía, en el año 2000, habrá 1.187.500 trabajadores del sector
primario en Francia.
6.8. Regresión parabólica
Supongamos que, observada la nube de puntos, la curva que mejor se adapta es

una parábola. El procedimiento que se utiliza para ajustar una parábola y=ax2+bx+c a
la nube de puntos consiste también en determinar los coeficientes a, b y c, utilizando
el método de mínimos cuadrados.
Si suponemos que cada par de valores de la variable estadística (X,Y) se da una
sola vez, se trata de hacer mínima la expresión:
207
1 N
D = — ^(ax-+bx,+c-yi)2
Derivando con respecto a las tres variables e igualando a cero, se tiene:
3D 2i ,
da N^t
dD 2i .
T7" = T, ¿Jax, +bx, +c-y,)x¡ = 0
dD 2£ .
Aplicando las propiedades de la suma indicada, las ecuaciones anteriores quedan

en la forma:
N N
OL^xi + b^xí + c¿,xa = Xx.\v,
l-l i=l ¡-l i=l
N N K N
a^,xi+b^xf + c^x¡ = ¿,x¡y¡

/=/ l-l i, l ¡=i
,V \ N
a¿,x¡ + b^x, + cN = X y,
Resolviendo este sistema, se obtienen los valores de a, b y c, que proporcionan la

ecuación de la parábola.
Ejemplo 6.9
La siguiente tabla muestra los porcentajes de niños fallecidos durante los seis
meses que duró una epidemia:
Mes 12 3 4 5 6
Porcentaje 2'2 3'3 5'5 9'4 14'4 22' 1
Si se dibuja la nube de puntos, parece lógico ajustar una parábola. Vamos a cons
truir una tabla para facilitar los cálculos:
208
X Y X2 X3 X4 XY X**7
1 2'2 1 1 1 2'2 2'2
2 3'3 4 8 16 6'6 13'2
3 5'5 9 27 81 16'5 49'5
4 9'4 16 64 256 37'6 150'4
5 14'4 25 125 625 72'0 360'0
6 22' 1 36 216 12% 132'6 795'6
21 56'9 91 441 2275 2675 1370'9
Se llega al sistema:
2275a + 441b + 91c = 1370 9

441a + 91b + 21c = 267 5
91a + 21b + 6c = 56'9
Resolviéndolo, se obtiene: a=0' 789, b=- 1 ' 6 1 9 y c=3 ' 1 8

Luego la parábola ajustada es:
y=0'79xM'62x+3'18
6.9. Regresión exponencial y geométrica
En numerosos fenómenos del campo de las Ciencias Experimentales, se da una

cierta dependencia entre las variables de tipo exponencial o potencial. Interesa, por
tanto, ajustar a la nube de puntos una curva de uno de los siguientes tipos:
A) u = rp (23) B) u = kt" (24)
donde p>0. (Suele tomarse p=e) Tomando logaritmos, se tiene:
Tomando logaritmos de base p, se tiene
logw = \ogk+b\ogt
\ogpu = \ogPr+bx\ogpp
de donde, si llamamos
de donde, si llamamos
y = logw, x = logí, a = \ogk,
y = log/U, a = logpr,
resulta:
resulta: y = a + bx (26)
y = a + bx (25)
con lo cual ambos problemas quedan reducidos al caso de regresión lineal, ya que las
ecuaciones (25) y (26) son las ecuaciones de una recta.
209
Se procede entonces de modo análogo al caso de regresión lineal, con lo que se

obtienen los valores de a y b. Conocidos a y b, se determina la ecuación (23) o (24) de
la función dada.
Para detectar cuándo se deben utilizar estos tipos de curvas, conviene representar
la nube de puntos de las variables en un papel funcional.
Así, cuando se trata de una relación exponencial (u=rpbx), la nube de puntos es
lineal en papel semilogarítmico. La transformación adecuada es (X. logU).
En cambio, si la relación es de tipo geométrico (u=kth), la nube de puntos es lineal
en papel logarítmico. La transformación adecuada es (logT. logU).
Ejemplo 6.10
La siguiente tabla muestra los valores experimentales de la presión P (expresada en

kilogramos por centímetro cuadrado) de una masa de gas y los valores correspondien
tes del volumen que ocupa (expresados en centímetros cúbicos):
Volumen(V) (cmJ) 950 1081 1267 1552 2075 2386
Presión(P) (Kg/cm2) 45 3.7 2.8 2.1 1,4 1.1
Se trata de: 1 ) ajustar una recta de mínimos cuadrados; 2) determinar la ecuación

que relaciona P con V; 3) estimar el valor de la presión correspondiente a un volumen
V=1750cm'.
Solución: Se puede resolver este ejercicio de dos formas:

I. Haciendo un cambio de variables y tomando logaritmos, con lo que se consigue
una relación lineal, cuya recta de mínimos cuadrados hay que determinar;
II. Representando los datos directamente sobre papel logarítmico, y ajustando
manualmente una recta a la nube de puntos.
Lo vamos a resolver mediante un cambio de variables:
La ley que relaciona la presión P con el volumen V de un gas es:
PV" =k
donde B y k son constantes.
Tomando logaritmos, resulta logf+ P log V = log A-
de donde se deduce logP = log^- p logV (*)
El cambio de variables consiste en hacer
x = logV, y = log P, a = log k, b = -P,
con lo cual, la relación (*) se transforma en

210
y = a + bx
1) Vamos a determinar la recta de mínimos cuadrados de Y sobre X; para ello,
disponemos los valores necesarios en la siguiente tabla:
X=logV Y=logP X2 Y: XY
2.9777 0.6532 8.8666 0.4266 1.9450
3.0338 05682 92039 03228 1.7238
3,1027 0.4471 9,6267 0.1998 1,3872
3.1908 0,3222 10.1812 0,1038 1.0280
33170 0.1461 11.0024 0.0213 1.4846
3,3776 0,0413 11.4081 0,0017 0,1394
18.99% 2.1781 603892 1.0762 6,7082
- 18,9996 60,2892
= 3,1666; s\ = a:o-x' 10,0273 = 0,0208; s, = 0,1444
6
2,1781 1.0762
y= 0.3630; sl = a02-y = 0.1317 = 0.0476; s, =0.2181
6
6,70)
au , = 1,11804; mn = an-awam= 1,1 1804- 1,14947 = -0.03143
El coeficiente de regresión de Y sobre X será:

mu -0.03143
Pv.= -1.51
v, 0,0208
Luego la recta de regresión de Y sobre X es:

y-0.3630 = -1,51(x- 3,1666)
de donde resulta: y = 5,1 44566 - 1,5 1 x
2) Determinación de la ecuación que relaciona P con V:

Como a=5 ' 1 44566=logk, es k= 1 39497. y, al ser b=-B=- 1 .5 1 , es B= 1 .5 1 .
Si deshacemos el cambio de variables, la ecuación que relaciona P con V será:
PV' 139497
3) Estimación de la presión correspondiente al volumen V=1750 cm':
Si V=1750 cm\ será log/J+ llogV = log 139497, de donde:
logP = \ogl39497-l,51 \ogl750 = 5,1445-4.8969 = 0,2476

Tomando antilogaritmos, se obtiene como valor de la presión:
P=l,768Kg/cm:
211
6. 1 . Para los datos de los ejercicios 5. 1 y 5.2, 1 ) hallar la recta de regresión de Y sobre
X; 2) calcular el coeficiente de correlación, dando una interpretación del valor obteni
do.
6.2. Calcular el coeficiente de correlación de las variables X e Y, cuyos valores están

recogidos en la siguiente tabla:
X 3 5 7 8 12
Y 24 20 12 10 4
6.3. Hallar la recta de regresión de Y sobre X y de X sobre Y para los datos del
ejercicio 5.12. Hacer una predicción de los gastos superfluos que tendrá una familia
cuyos gastos totales son de 85000 ptas.
6.4. El equipo directivo de un banco ha impartido un cursillo a 10 de sus agentes

encargados del servicio de promoción de nuevos clientes, evaluando al final el nivel
de aprovechamiento adquirido. Transcurrido un período de tiempo, se ha puntuado la
capacidad de captación de nuevos clientes. La siguiente tabla recoge las puntuacio
nes de los 10 agentes en la evaluación del cursillo junto con el baremo por su capaci
dad de captación posterior:
Nivel cursillo (X) 7 4 19 13 25 16 22 12 10 15

Escala posterior (Y) 3 7 8 17 4 7 6 20 16 20
1) Hallar las desviaciones típicas marginales, la covarianza y el coeficiente de

correlación de X e Y. 2) ¿Desarrolla el cursillo la capacidad de captación de nuevos
clientes?
6.5. La siguiente tabla contiene el número de meses que lleva entrenando un jugador
de golf y el número de golpes que necesita para hacer el recorrido de un determinado
campo:
Tiempo (X) 1 2 3 4 5 6 7 8 9
N" de golpes (Y) 80 77 74 71 69 68 68 65 63
1) ¿Están correlacionados el tiempo de entrenamiento y el número de golpes en

que se hace el recorrido? 2) ¿De qué tipo de correlación se trata? 3) ¿Qué se puede
esperar cuando el jugador lleve 12 meses de entrenamiento?
212
6.6. Si, en el ejercicio 6.4, se multiplica cada valor de X por 3 y se le suma 8, y se

multiplica cada valor de Y por 4 y se le resta 1 0, hallar las desviaciones típicas margi
nales, la covarianza y el coeficiente de correlación de las nuevas variables. Comparar
el resultado obtenido con el que se obtuvo en el ejercicio 6.4., dando una explicación
de lo ocurrido.
6.7. El coeficiente de correlación entre dos variables X e Y es r=0'56, y se conocen las

medias, que son 12 y 24, respectivamente, así como las varianzas, que son sx2=3'6 y
sY2=2'5. Determinar las ecuaciones de las rectas de regresión de Y sobre X y de X
sobre Y.
6.8. Cien personas son sometidas a dos pruebas, una física y otra de tipo psicotécnico.
Veinticinco personas superaron correctamente ambas pruebas, veinte fallaron en las
dos, dieciocho superaron la prueba física y fallaron en la prueba psicotécnica, y
treinta y siete superaron la prueba psicotécnica y no pasaron la prueba física. Para
estudiar la correlación entre ambas pruebas, ¿qué coeficiente de correlación se debe
usar? Calcularlo.
6.9. Con los datos del ejercicio 5.1 1, 1) ajustar la recta de regresión por el método de
mínimos cuadrados y por el método gráfico; 2) hacer una estimación del número de
bacterias que habrá al cabo de 12 horas.
6.10. Las calificaciones en Estadística de 12 alumnos, de los cuales 7 son varones y 5

mujeres, son:
Sexo V V M M V V M M M V V V
Calificación 7 8 6 7 9 5 3 4 6 4 3 6
Averiguar si hay correlación entre el sexo y la calificación obtenida en Estadística.
6. 1 1 . La siguiente tabla contiene la distribución de 200 familias según los ingresos totales
(X) y los gastos que por término medio dedican a transporte (Y) (en miles de pesetas):
X\Y 0-2 2-4 4-6 6-8 8-10 10-12 12-14 14-16

0-50 3 4 5 4
50-60 2 4 4 6 4
60-70 3 6 8 8 3
70-80 5 8 9 8
80-90 2 5 10 10 6 2
90-100 3 4 s s 10 6
100-110 4 6 10 8 4
213
1 ) Hallar los coeficientes de regresión de Y sobre X y de X sobre Y. 2) Hallar el

coeficiente de correlación.
6.12. Pensando que hay una cierta relación entre el peso y las calificaciones, se han
clasificado los alumnos de una clase de 40 en gordos(G), si pesan más de 50 kgs. y
delgados(D), si pesan menos, y en aplicados(A), si su calificación supera el 5, y no
aplicados(N), en otro caso. Los resultados están recogidos en la siguiente tabla:
G D
A 12 10
N 11 7
¿Qué coeficiente de correlación hay que aplicar? ¿Hay alguna relación entre el
peso y las calificaciones?
6.13. Se ha realizado un cultivo artificial en una incubadora a 30°C y 210 r.p.m. Partien
do de un pH inicial de 2'5 y un tanto por ciento de oxígeno variable, se mide la
concentración en levadura y glucosa en función del tiempo, obteniéndose los si
guientes resultados:
Tiempo (horas) 0 12 3 4 5 6 8 12 13
C. Ievadura(g/1) OMOO'15 015 0M7 0'21 0-2I 0-26 0'26 0'35 r03 rio
C. glucosa* g/1) 10 10 10 8'3 8'3 8'3 8'3 6'3 6'3 5'5 5'5
1 ) Representar el crecimiento de la concentración de la levadura (Y) en función del

tiempo (X). 2) Analizar el tipo de ajuste, determinando la curva de regresión de Y
sobre X más adecuada.
6.14. Se pretende averiguar si los ingresos familiares influyen en el éxito o fracaso

escolar de un niño. Para ello, se escogen 12 alumnos al azar, cuyos ingresos familiares
en miles de pesetas por cada miembro de la unidad familiar junto con el éxito(E) o
fracaso(F) al final de curso, son recogidos en la siguiente tabla:
Ingresos 3 10 9 3 8 9 3 7 7 4 3 2
Calificación F E F F E E F F E F F F
¿De qué tipo de correlación se trata? Hallar el coeficiente de correlación que co

rresponda, y analizar la posible dependencia.
214
6. 15. Para los datos del ejercicio 6. 1 3, representar la curva de regresión de crecimiento
de la concentración de glucosa (Z), y estudiar el tipo de ajuste que conviene, hallando
la curva de regresión de Z sobre X.
6. 1 6. Para los datos del ejercicio 6. 1 1 , 1 ) determinar la recta de regresión de Y sobre X;

2) ¿cuánto se espera que dedique a transporte una familia que tiene unos ingresos
totales de 150000 ptas. al mes?
6.17. El mismo tipo de cultivo artificial y con los mismos datos iniciales del ejercicio
6.13, se llevó a cabo en un fermentador, obteniéndose los siguientes resultados para
la concentración de glucosa:
Tiempo (horas) 0 1 2 3 4 5 6 7
C. glucosa(g/I) 4 2"5 3'1 5.2 8'6 14'2 21'0 29'4
1) Representar el crecimiento de la concentración de glucosa (Z) en función del

tiempo (X).
2) Estudiar el tipo de ajuste que conviene, y hallar la curva de regresión de Z sobre
X
6.18. Diez alumnos del Curso de Orientación Universitaria han sido evaluados por sus
respectivos profesores de Matemáticas y de Física, quienes han facilitado el listado
de los alumnos ordenados atendiendo a la calificación, pero sin especificarla, siendo:
Nombres Carlos Luis Juan José Mario Pedro Antonio Julián Alberto Felipe
Matemáticas fi 1 3 7 8 5 2 10 4 9
Física 8 7 6 4 5 9 10 1 3 2
¿Qué coeficiente se debe utilizar para estudiar la relación entre las calificaciones de
los dos profesores? Calcularlo.
215
Demostración de las propiedades del coeficiente de correlación de Pearson
I. Llamemos m'n a la covarianza de X' e Y', y a' y a'o, a las medias de X' e Y',
respectivamente. Entonces:
m'u = X(í)x, + £-í)'/„)(cy. + í/-í)'o,)/* = YXaXi + b-ax-bt,cy, + d-cy-d)f o =
N N
= YÁflx,-ax\cyrcy)f H = acL{x,-'x\yi.-y)fu = acmu

/=/ i./
Ahora bien, por las propiedades de la desviación típica, es
s.V= dSx y Sy= CSy
m'n acmu mu ,
luego r = = = , c. q. d.
Sx-Sr asx cs, sxsr
II. Para demostrar esta propiedad, partimos del segundo miembro de la expresión
(13), y desarrollamos por separado numerador y denominador:
Desarrollando el numerador multiplicado por N, se obtiene:
,v N
Ns„ = Nmn= ^(x,-x)(yry) = ^/x,y, - x,y -x y,+ xy) =
N \ N
= X*' y - y 5**' - x¿,y, + Nxy =

i.l ;=/
Teniendo en cuenta que x = —— ey = ~ , resulta
( N \
1>' I* l \ \ ,,±yl
x, y, —+ N
N N NN
( N (N \ N \ (N )f
lx,
V"1 )
I* X.v N
lx, X*
lx,y,-2^ N N N
Desarrollando ahora el denominador de (13) multiplicado por N, y, teniendo en

cuenta las definiciones de s y de s , se tiene
216
N Y (N V
¿gXi S.v,
Ns.sy=N
,v
Iv;- v=/A7 /
N Y
I*
i=l
S.v,
Lrf. N (=/ A7
Por lo tanto, será
Nm,i
N sKs,
a7
/
Multiplicando por ,— , queda finalmente
y[N2
N í N >
I.v,
,c.q.d.
N (N Y N (N Y
M \M )
SEGUNDA PARTE
NOCIONES DE CÁLCULO DE PROBABILIDADES

CAPITULO 7
PROBABILIDAD Y VARIABLE ALEATORIA
7. 1 . Experimentos aleatorios
Llamamos experimento a cualquier proceso que genera un conjunto de datos. En

numerosas ocasiones, los resultados de un experimento dependen del azar, no siendo
posible predecir el resultado que va a tener lugar antes de realizarse.
Un ejemplo típico de experimento dependiente del azar es el lanzamiento de un
dado regular sobre el tablero de la mesa; el número que aparecerá en la cara superior
del dado no puede predecirse.
Precisando algo más. un experimento se dice aleatorio cuando se puede repetir en
las mismas condiciones, sus posibles resultados son conocidos previamente, y el
resultado de cada prueba depende del azar.
En un experimento aleatorio, no suele conocerse la población directamente, sino
que se estudian sus propiedades a partir de una muestra representativa de la misma.
Un problema que se presenta frecuentemente en la investigación científica es el de
tener que decidir a partir de los datos aportados por un experimento sobre la validez
o no de un planteamiento previamente establecido. Este podría ser el caso del peda
gogo que pretende averiguar si un nuevo método de estudio mejora el rendimiento de
los alumnos a partir de una experiencia con un grupo.
Para ello, el investigador necesita establecer un postulado (hipótesis nula). Ante
este postulado inicial, plantea otro alternativo (hipótesis alternativa) y realiza una
prueba o experiencia con una muestra representativa de la población.
A la vista del resultado de la prueba, el investigador tiene que decidir si acepta la
hipótesis nula o, por el contrario, la rechaza, aceptando en su lugar la hipótesis alter
nativa.
La decisión está basada en un conjunto de cálculos que le proporcionan la probabi
lidad de obtener el resultado si se cumple la hipótesis nula. Cuando esta probabilidad, de
verificarse la hipótesis nula, es «suficientemente pequeña», se rechaza la hipótesis nula.
El concepto de probabilidad es la base que permite adoptar la decisión adecuada.
220
7.2. Operaciones con sucesos
Vamos a llamar espacio muestral, en principio, al conjunto de todos los resultados

posibles de un experimento aleatorio, y lo vamos a representar por E. Más adelante
precisaremos este concepto.
Cuando lanzamos un dado, el espacio muestral está formado por los seis resulta
dos posibles
E={1,2,3,4,5,6}
y, cuando el químico hace sus mediciones, el espacio muestral está formado por todas
las medidas posibles.
Llamaremos suceso a cada uno de los subconjuntos del espacio muestral. Así,
hablaremos del suceso «obtener par en el lanzamiento de un dado», que estará forma
do por
P={2,4,6}
Aquellos sucesos que no se pueden descomponer en otros sucesos más simples
serán llamados sucesos elementales. El suceso «obtener 2» es un suceso elemental
del experimento que consiste en «lanzar el dado».
Sea E el espacio muestral asociado a un experimento aleatorio. Los sucesos aso
ciados a este experimento se comportan del mismo modo que los conjuntos, admitien
do las operaciones de unión e intersección, con respecto de las cuales los sucesos
van a tener también una estructura de álgebra de Boole.
Intersección de sucesos: La intersección de dos sucesos A y B, que represen

taremos por Ar\B' es el suceso que tiene lugar si se verifican a la vez A y B.
En el experimento del lanzamiento de un dado sobre el tablero de la mesa, si

consideramos el suceso A={ obtener número par} y el suceso B={ obtener un número
mayor que 3 } , el suceso intersección será:
AnB = {4,6}
Si hay dos sucesos de un mismo experimento que no pueden tener lugar simul
táneamente, como es el caso de los sucesos P={ obtener número par} e I={ obtener núme
ro impar} cuando se lanza el dado, se dice que los sucesos PeI son incompatibles.
La intersección de dos sucesos incompatibles, en principio, carece de sentido. Por
ello, se define el suceso imposible como aquel suceso que no puede tener lugar
nunca; de este tipo es el suceso «obtener un número mayor que 6».
Representaremos al suceso imposible por el símbolo 0, y consideraremos que
forma parte de todo experimento. De esta forma, la intersección de dos sucesos in
compatibles es el suceso imposible.
221
Unión de sucesos: La unión de dos sucesos A y B, que vamos a representar

por AuB, es el suceso que tiene lugar siempre que se verifica A, B o ambos
a la vez.
En el lanzamiento de un dado, si consideramos los sucesos A={ obtener número

par} y B={obtener un múltiplo de 3}. el suceso unión de A y B es:
AuB = {2.3.4.6}
Suceso contrario: Se llama suceso contrario del suceso A. y se representa por

A', a aquel suceso que tiene lugar siempre que no se verifica A.
El suceso contrario del suceso A={ obtener número par} es A'={ obtener número
impar}.
La unión de un suceso con su suceso contrario es un suceso que siempre tiene
lugar. A tal suceso le llamamos suceso seguro.
Relación de contenido: Se dice que el suceso A está contenido en el suceso

B, y se representa por ^ c B. cuando siempre que tiene lugar A se verifica B.
Esto sucede cuando todo elemento de A está en B.

Cualquier suceso A está contenido en el suceso seguro:
AcE.VA
y también se cumple que el suceso imposible está contenido en todo suceso:
0cA,V¿
Igualdad de sucesos: Los sucesos A y B son iguales, y lo representamos por

A=B. si A<zBy B<zA.
7.2.1. Propiedades de la unión e intersección de sucesos
Las operaciones de unión e intersección de sucesos

1. Son idempotentes: AnA= A y A u A = A. yA
2. Son asociativas: An(finC) = (AnB)nC vAu(BkjC) = Uufl)uC, VA.B.C
3. Son conmutativas: AnB = BnAyAuB= Bu A. V/4.fi
4. Poseen elemento neutro:
El elemento neutro para la intersección es E: Ar\E = A, VA
El elemento neutro para la unión es 0: /4u0 = A, VA
222
5. Cada operación es distributiva respecto de la otra:
An(BuC) = (AnB)u(AnC) y Au(BnC) = (AuB)n(AuC), \/A,B,C

6. Se cumplen las leyes de Morgan:
(AnB) = A'uB'y (AuB) =A'nB',VA,B

Algunas de las demostraciones de estas propiedades son inmediatas. Como ejem
plo, vamos a demostrar una de ellas: la distributiva de la unión con respecto de la
intersección:
Au(finC) = (AuB)n(AuC)
El proceso de demostración es el que se utiliza para demostrar una igualdad entre
conjuntos, que consiste en demostrar la doble inclusión. Veamos, en primer lugar que
jMfinC)c(AuB)nUuC)
Sea x un suceso elemental cualquiera perteneciente al primer miembro:
xe Au(BnC)
Entonces, por la definición de la unión de sucesos, se tiene:
xe Au(BnC) => xe A ó xe BnC

Si x e A => x e AuBv.r e AuC, y, por tanto xe (Aufi)n(AuC)
Si xe BnC => xe Byxe C, luego xe AuByxe AuC, y, por tanto
xe (AuB)n(AuC)
Demostremos ahora la relación de contenido recíproca:
(Aufi)n(AuC)cAu(finC)
Sea x un elemento cualquiera perteneciente al primer miembro:
xe (AuS)n(AuC)
Por la definición de la intersección, se tiene:
xe AuByxe AuC
Entonces, puede suceder que xe A, en cuyo caso jce Au(SnC), y estaría de
mostrado, o bien xe A, en cuyo caso, como xe AuByxe AuC, se verifica que
xe Byxe C, y, por tanto, x e Au(BnC), lo que completa la demostración.
223
7.2.2. Otras operaciones y relaciones entre sucesos
Diferencia de sucesos: La diferencia de dos sucesos A y B, que vamos a

representar por A-B, es el suceso que tiene lugar cuando se verifica A y no
tiene lugar B.
La diferencia de sucesos A-B se puede expresar en la forma:
A-B = AnB'
Utilizando un diagrama de Venn para representarlos gráficamente, en la figura 7.1,
observamos cómo la diferencia A-B viene dada por los sucesos elementales de A que
no están en B (zona rayada).
Cuando lanzamos el dado, si A={2, 4, 6} y B={ 1, 2, 4, 5}, es A-B={6}.
Diferencia simétrica: La diferencia simétrica de los sucesos A y B, que repre

sentamos por AAB, se define como el suceso que tiene lugar cuando se veri
fica uno sólo de los dos A, B.
Figura 7.1: Diferencia de sucesos (A-B). Figura 7.2: Diferencia simétrica.
La diferencia simétrica se puede expresar por la igualdad:
AAB = (A-B)u(B-A)
Sistema completo de sucesos: Los sucesos A ,A,,...,A forman un sistema

completo de sucesos si verifican las dos siguientes condiciones:
A,r\Ai = ®, si i * j UA,=E
224
7.2.3. a-álgebra de sucesos
A una colección de sucesos le llamamos clase o familia de sucesos. Dado un

suceso C, la clase de todos los sucesos contenidos en C es llamada clase de las
partes de C, y se representa por P(C).
Sea U una clase de sucesos. Se dice que U es cerrada para una operación * si se
verifica la siguiente condición:
V A, e U => A,* A2* A¡*...e U

Se dice que U es cerrada para contrarios si
VA e U => A' e V
a-álgebra: La clase U es una a-álgebra si verifica las siguientes condiciones:

1. U es cerrada para la unión numerable.
2. U es cerrada para contrarios.
3. U contiene al suceso imposible.
El álgebra de Boole es un caso particular de a-álgebra, que sólo exige que se cumpla
el primer axioma para la unión finita. La clase de las partes de C es una a-álgebra.
Con estas definiciones, es posible precisar algunos de los conceptos que hemos
introducido de una manera intuitiva.
Espacio muestral: Dado un experimento S, el espacio muestral asociado es un

par (E.U). donde E es el conjunto de todos los resultados posibles asociados
al experimento, y U es una a-álgebra de sucesos de E.
A los elementos de U se les llama sucesos, y a los elementos de E se les llama

puntos muestrales. Si un suceso está formado por un único punto muestral, se le
llama suceso elemental.
Cuando hablamos de E como espacio muestral, estamos dando por supuesto que
E lleva asociada una clase de sucesos, que es una a-álgebra.
Los espacios muestrales pueden ser de tipo discreto o continuo, según el número
de puntos muestrales que contengan.
Un espacio muestral se dice que es de tipo discreto si contiene, a lo sumo, una
infinidad numerable de puntos muestrales. La clase asociada es la clase de las partes
P(E).
Ejemplo 7.1
La medida del número de piezas defectuosas que produce una máquina es un

ejemplo de espacio muestral discreto, que está formado por el par (E,U), siendo
225
E={0.1,2,3,4,...}yU=P(E)
Un espacio muestral es de tipo continuo si contiene una infinidad no numerable
de puntos muestrales.
Ejemplo 7.2
La selección al azar de un punto del segmento [0,1] es un ejemplo de espacio

muestral continuo, que está formado por el par (E,U), donde
E = {xeyi\0<x<l}
lin un espacio muestral de Upo continuo, la a-álgebra no nene por que coincidir
con P(E).
Un caso particular de espacio muestral discreto se tiene cuando el número de
puntos muestrales es finito. Entonces se dice también que es de tipo finito. La clase
P(E) es un álgebra de Boole.
Ejemplo 7.3
El espacio muestral asociado al experimento consistente en lanzar una moneda al

aire y observar el resultado es un espacio muestral finito, que está formado por el par
(E,U), siendo:
E = {C.X} y U = P(E)= {0.C.X,{C,X}}
Para definir el espacio muestral de tipo finito, hemos podido hacerlo por exten
sión, es decir, enumerando todos y cada uno de los elementos que lo componen.
Cuando se trata de espacios muestrales no finitos, se suelen definir por comprensión,
es decir, enunciando una propiedad característica de todos los puntos muestrales, tal
como acabamos de hacer en el ejemplo 7.3.
A veces, resulta interesante la descripción de los puntos muestrales por medio de un
diagrama de árbol, lo que también resulta útil para asignar probabilidades a los sucesos.
Ejemplo 7.4 AA
A
A ^^ B AB
Un experimento compuesto consis / ~-~ AB
' R
te en sacar una bola de una urna que / ^^ C BC
*- B C
contiene tres bolas: azul(A), blanca (B) \ —— x Bx
y roja(R). Si la bola extraída es azul, se \ R

- c RC
introduce de nuevo en la urna y se vuel x Rx
ve a sacar una bola, mientras que, si no

es azul, se lanza una moneda al aire, ob Figura 7.3: Diagrama de árbol con los puntos
servando si sale cara(C) o cruz(X). muestrales del ejemplo 7.4.
226
En la figura 7.3, se observa cómo las distintas trayectorias del diagrama de árbol
proporcionan los diferentes puntos muestrales.
7.3. Frecuencia de un suceso
El concepto de frecuencia de un suceso nos va a conducir a la idea de probabili

dad, que nos permitirá establecer una medida de la incertidumbre de que ocurra un
suceso asociado a un determinado experimento aleatorio.
Sea (E,U) el espacio muestral asociado a un experimento aleatorio, y sea A un
suceso de dicho espacio.
Se llama frecuencia absoluta del suceso A, y la representamos por nA, al número
de veces que tiene lugar A en una serie de n pruebas o repeticiones del experimento
en las mismas condiciones.
Se llama frecuencia relativa del suceso A, que representamos por f(A), al cociente
de dividir la frecuencia absoluta del suceso A por el número de pruebas realizadas:
f(A) = ^
n
Propiedades de las frecuencias:
1. Cualquiera que sea el suceso A, f(A)>0 y f(A)<1.

En efecto, la frecuencia relativa es un cociente de dos números no negativos,
donde el numerador es siempre menor o igual que el denominador.
2.fl0) = O
Esta propiedad es evidente, puesto que el suceso imposible nunca puede tener
lugar.
3.f(E)=1.
Resulta también evidente, ya que el suceso seguro siempre tiene lugar, por lo que
la frecuencia absoluta coincidirá con el número de pruebas.
4. Si A y B son dos sucesos incompatibles, f(AuB) = f(A) + f(B)
En efecto, por ser A y B incompatibles, no pueden darse a la vez, por lo que el
número de veces que se da la unión es igual a la suma de las veces que tiene lugar A
más las veces que se da B, luego
f(AuB) = = = — + — = f(A) + f(B)

n ii n n
Estas propiedades que se dan entre las frecuencias de los sucesos aleatorios se
generalizan, dando lugar a la definición axiomática de la probabilidad, establecida por
Kolmogorov en 1933, cuyos axiomas son el fundamento del modelo matemático gene
ralmente aceptado para estudiar las probabilidades.
227
7.4. Definición de Probabilidad
Consideremos un experimento aleatorio, al que tenemos asociado un espacio

muestral (E,U), siendo U una a-álgebra de sucesos de E. Se define la probabilidad
como una aplicación P de U en el conjunto de los números reales
P:U->3i
que verifica los tres siguientes axiomas:
I. P(A)>0,VAeU (1)
II. Si Ai,A2,...e U, siendo los A incompatibles dos a dos, se verifica
P\yiA;\=XP(Ai) (2)
m.P(E)=1. 0)
En esta definición intervienen tres elementos fundamentales: el suceso seguro E,
la a-álgebra U de sucesos de E y la aplicación P. A la terna (E,U,P) formada por estos
tres elementos se le denomina espacio probabilístico o espacio de probabilidades.
7.4.1. Propiedades de la probabilidad
Como consecuencia de los axiomas que acabamos de definir, se deducen las pro
piedades que van a permitir calcular la probabilidad de un suceso cualquiera.
1 . Si A' es el suceso contrario de A, esP(A') = 1 - P(A), VA e V (4)
En efecto, por el tercer axioma, es
P(A\jA') = P(E) = 1
y, por el segundo axioma, al ser A y A' incompatibles,
P(AuA') = P(A) + P(A')
luego P(A)+P(A')=1, de donde resulta P(A')=1-P(A).
2. P(0) = 0 (5)
En efecto, 0 = £", y, por la propiedad 2, esP(0) = 1 - P(E) = 1-1 = 0
3.SiA,BeUyAczB^>P(A)<P(B) (6)
En efecto, si A c B, B = A u {B - Á) , siendo A y B-A incompatibles. Por el axioma
2, será P(B) = P(Á) + P(B - A) , y, como P(B-A)>0 por el primer axioma, debe ser
P(A)<P(B).
4. P(A)<1, cualquiera que sea A. (7)
En efecto, cualquiera que sea A, A está contenido en E, luego P(A)<P(E)=1.
228
5. Dados dos sucesos cualesquiera A y B de U, se verifica

P(AuB) = P(A) + P(B)-P(AnB) (8)
En efecto, el suceso AuB se puede poner como la unión de tres sucesos incom
patibles:
Aufi = (A- B)u(B- A)u(AnB)

de modo que
(*) P(AuB) = P(A - B) + P(B-A) + P(AnB)
También los sucesos A y B se pueden poner como unión de dos sucesos incom
patibles:
A = (A - B)u(A n B) y B = (B - A)u(A n B)
según puede apreciarse en la figura 7.4.

Entonces
P(A) = P(A - B) + P(A nB)y P(B) = P(B-A)+ P(An B)
Sumando miembro a miembro estas dos últimas
igualdades, resulta:
P(A) + P(B) = P(A-B) + P(AnB) + P(B-A) + P(AnB)
Figura 7.4: Unión de dos sucesos.
Restando P{AnB) en los dos miembros, queda:
(**) P(A) + P(B)-P(AnB) = P(A-B) + P(B- A) + P(AnB)
Si comparamos (*) y (**), tenemos
P(AuB) = P(A) + P(B)-P(AnB), c.q.d.
6. P(AuB) < P(A) + P(B), \/A,BeU (9)
Esta propiedad es una consecuencia inmediata de la anterior.
7. Si el espacio muestral está formado por un número finito de sucesos elementa
les, E={a,,a,,.. .,a },será
P{aWP{aJ+...+P{a}=1. (10)
Los sucesos elementales son incompatibles dos a dos, luego
P(E) = P{{a,}u{a2}v...u{a„}) = P{a,} + P{a2}+...+P{aJ = 1
8. Sea E={a.,a,,...,a }, donde son conocidas P{aJ, P{a2},...,P{an}. Entonces, si un
suceso A está formado por k sucesos elementales, A={a,,a,,...,ak}, se verifica:
k
P(A) = ^P(a,) (11)

229
En efecto, al ser los sucesos elementales incompatibles dos a dos, la probabilidad

de la unión es la suma de las probabilidades de cada uno de ellos.
7.4.2. Asignación de probabilidades
El tipo de sucesos más frecuente en la práctica diaria nos obliga a hacer una
restricción, que nos va a conducir a la definición clásica de probabilidad o regla de
Laplace.
Sea un espacio muestral finito, donde E={ara: an} y la s-álgebra de sucesos es
la clase de las partes de E, U=P(E). Si es admisible el axioma adicional de que «todos
los sucesos elementales son equiprobables», es decir
P{a,}=P{a:}=...=P{an}
será: P(E)=P{a¡}+P{a,}+...+P{a„}=nP{a}=l
y, por tanto P{a}=l/n, para i=l,2 n.
Entonces, si un suceso A de P(E) está formado por k sucesos elementales, será:
• / ¿
7r¡ « «
donde k es el número de veces que se da el suceso A (casos favorables), en tanto que
n es el número de pruebas realizadas (casos posibles).
Podemos expresar la relación anterior en la forma:
k n° . de casos favorables (12)

P(A) = - =
n n . de casos posibles
Este resultado se conoce como «regla de Laplace», y nos dice que «la probabili
dad de un suceso es el cociente de dividir el número de casos favorables a dicho
suceso entre el número de casos posibles», siempre que los sucesos elementales se
puedan considerar todos con la misma probabilidad.
La regla de Laplace permite asignar probabilidades en una gran parte de las situa
ciones que se presentan: suele tratarse de espacios muestrales finitos, en que los
sucesos elementales son equiprobables.
Ejemplo 7.5
Consideremos el experimento consistente en lanzar una moneda trucada de tal

forma que la probabilidad de cara es el triple que la de cruz.
En este caso, no es aplicable la regla de Laplace, puesto que los sucesos elemen
tales no tienen la misma probabilidad. Ahora bien, si denotamos por C(cara) y X(cruz)
a los sucesos elementales, en virtud de la propiedad 7 de la probabilidad, se tiene:
P(C)+P(X)=1
230
Como P(C)=3P(X), será 3P(X)+P(X)= 1 , y, por tanto 4P(X)= 1 , de donde

P(X)=l/4yP(C)=3/4
Ejemplo 7.6
Se selecciona una carta al azar de una baraja española. Describir el espacio

probabilístico, y hallar la probabilidad de que la carta seleccionada sea un rey.
1) El espacio muestral está formado por el par (E,U), donde E es el conjunto de las
cuarenta cartas que tiene la baraja, y U=P(E).
Todas las cartas de la baraja tienen la misma probabilidad de ser extraídas, luego
podemos hacer uso de la regla de Laplace: 1/40 es la probabilidad de cada uno de los
sucesos elementales, lo que determina la función de probabilidad, y, por consiguiente,
el espacio probabilístico (E,U,P).
2) La probabilidad de obtener rey es
P(rey)=4/40=1/10,
ya que son 40 los casos posibles y 4 los favorables (el n° de reyes de la baraja).
Determinar el número de puntos muestrales en un espacio probabilístico, para
aplicar la regla de Laplace, no siempre resulta fácil. Dependerá, en cada caso, de la
forma en que estén agrupados los puntos muestrales. La teoría combinatoria1 se ocu
pa del estudio de los distintos tipos de agrupaciones que se pueden hacer con los
elementos de un conjunto.
7.5. Ejercicios resueltos
Ejercicio 7.5.1
Consideremos el experimento consistente en lanzar tres monedas al aire.

1) Describir el espacio probabilístico.
2) Hallar la probabilidad de obtener: i) tres cruces; ii) una cruz; iii) al menos una
cruz; iv) obtener más cruces que caras.
Solución: 1) Si designamos por C «cara» y por X «cruz», el suceso seguro E

estará formado por los 8 puntos muestrales:
L^{CCCCCXCXC^CCCXX^CX^ÍXC^XX}
Se trata de un espacio de tipo finito, por lo que la clase asociada a E es la clase de
las partes P(E).
1 El apéndice A contiene los conceptos fundamentales sobre combinatoria.

231
La función de probabilidad estará determinada si se conocen las probabilidades de

los sucesos elementales. Se puede admitir que todos los sucesos elementales son
equiprobables, y, en consecuencia, aplicar la regla de Laplace.
El número de sucesos elementales es igual al de variaciones con repetición de 2
elementos tomados de 3 en 3:
VR23=23=8
luego la probabilidad de cada uno de los sucesos elementales es
P(a)=l/8
2) Probabilidad de los sucesos A=«obtener tres cruces», B=«obtener una cruz»,
C=«obtener al menos una cruz» y D=«obtener más cruces que caras»:
El número de casos posibles a los cuatro sucesos es 8. Veamos los casos favora
bles a cada uno de los sucesos considerados:
i) hay 1 caso favorable al suceso A: XXX; luego
P(A)=l/8
ii) hay 3 casos favorables al suceso B: CCX, CXC y XCC; por lo tanto:
P(B)=3/8
iii) La probabilidad del suceso C, como sucede en general siempre que figura la
condición «al menos», se halla mejor pasando al suceso contrario, y utilizando la
primera de las propiedades de la probabilidad. Así, el suceso contrario de C es C'=«no
obtener ninguna cruz», para el que sólo hay un caso favorable: CCC; luego:
P(C)=l-P(C')=l-1/8=7/8
iv) El suceso D se da cuando hay dos o más cruces, por lo que son 4 los casos
favorables: CXX, XCX, XXC y XXX; la probabilidad es:
P(D)=4/8=l/2
Ejercicio 7.5.2
En una determinada ciudad se publican dos periódicos, P y Q. Se estima que, de la

población adulta, el 54 por ciento lee P, el 30 por ciento lee Q y el 9 por ciento lee P y
Q. Hallar la probabilidad de que un ciudadano adulto cualquiera, elegido al azar: 1) lea
alguno de los periódicos; 2) no lea ninguno; 3) lea sólo uno de los dos.
Solución: Designemos por A al suceso «ser lector de P» y por B al suceso «ser
lector de Q».
1) El suceso «leer alguno de los periódicos» es la unión de los sucesos A y B,
que, al no ser incompatibles, habrá que utilizar la expresión (8) para hallar su probabi
lidad:
232
P(AuB) = P(A) + P(B)-P(AnB) =

0'54 + 0'30-0'09 = 0'75
2) «No leer ningún periódico» es el
suceso A'r&', 1uego, utilizando una de las
leyes de Morgan y la primera propiedad
de la probabilidad, resulta:
P(A'r\B') = P[(AuB)'] = l-P(AuB) =

= l-0'75 = 0'25 Figura 7.5: Porcentaje de lectores.
3) El suceso «leer sólo uno de los

periódicos» es la diferencia simétrica de los sucesos A y B. Entonces:
P(AAB) = P[{A- B)u(B- A)] = P(A- B) + P(B - A)
Ahora bien, P(A - B) = P(A ) - P(A r\B) = 0'54 - 0'09 = 0'45

y P(B-A) = P(B)-P(AnB) = 0'30-0'09 = 0'21
luego P(AAB) = 0'45 + 0'21 = 0'66
7.6. Probabilidad condicionada
Sea (E,U,P) un espacio probabilístico y A un suceso de U tal que P(A)>0.

Entonces, para todo suceso B de U se define la «probabilidad del suceso B con
dicionado por A», y se representa por P(B/A), como
P(AnB) (13)
P(B/A)
P(A)
Proposición 7.1: Dado un espacio probabilístico (E,U,P), para cada suceso A

de U tal que P(A)>0, (E,U,P(./A)) es un espacio probabilístico.
Demostración:
1. P(B/A)>0, cualquiera que sea B perteneciente a U.

En efecto,
P(Ar\B)
P(B/A): >0
P(A)
2. Si B ,B,,... son sucesos de U, incompatibles dos a dos, entonces
P(B,^jB2v... / A)= P(B,/ A)+ P(B,/ A)+.

233
En efecto:
P(B,uB^../A) = P- — : -=— — .-^-J-=

P(A) P(A)
Como Br B„ ... son incompatibles dos a dos, también lo son los sucesos
AnBi,AnB.. ... y, Por tanto, el último miembro de la última igualdad anterior es
P(AnB,)+ P(AnB:)+... P(AnB,) P(AnB:)

P(A) P(A) + P(A)
Enefecto, W^-^j- = — = '
Cuando se condiciona la probabilidad de que ocurra un suceso B a la realización

de otro suceso dado A, en realidad se está restringiendo el espacio muestral original
(E,U) a un espacio muestral (A,UA), donde UA es la a-álgebra que constituyen los
sucesos de la forma BnA.
P(./A) es una función de probabilidad sobre UA.
Cuando evaluamos la probabilidad condicionada, podemos hacerlo utilizando la
definición o razonando desde el espacio restringido, en cuyo caso, se simplifican
notablemente los razonamientos.
Propiedades:
1. P(AnB)= P(A)P(B/A), P(A)>0 (14)
Esta propiedad se obtiene de despejar P(A) en (13).
2. P(Ar\Br\C) = P(A)P(B/ A)P(C / Ar>B) (15)
En efecto, P(AnBnC) = P(AnB)P(C/ AnB) = P(A)P(B/ A)P(C / AnB)
Ejemplo 7.7
Una urna contiene 4 bolas blancas y dos rojas. Se extraen dos bolas consecutiva
mente sin devolución. Si la primera bola extraída resultó blanca, ¿cuál es la probabili
dad de que la segunda bola también sea blanca?
Solución: Llamemos A al suceso «la primera bola extraída es blanca» y B al suce

so «la segunda bola extraída es blanca». Nos piden la probabilidad de B condicionado
por A.
Si aplicamos la definición, resulta:
P(A)=4/6
234
El suceso Ar\B es el suceso «obtener dos bolas blancas». El número de casos

posibles es el de las combinaciones de 6 elementos tomados de 2 en 2, mientras que
los casos favorables son las combinaciones de 4 elementos tomados de 2 en 2; por lo
tanto
Cl 2
P(Ar\B) = -
Luego la probabilidad pedida es
P(AnB) cWcl 2/5

P(B/A) =
P(A) ~ 4/6 2/3
• o o • o
• o o • o o
Figura 7.6: Espacio muestra! original y restringido.
A este resultado podríamos llegar, de modo más sencillo, si trabajáramos en el

espacio muestral restringido, que tiene 3 bolas blancas y 2 rojas. La probabilidad de
dos blancas en este espacio es 3/5, ya que son 5 los casos posibles y 3 los favora
bles.
7.6.1. Sucesos dependientes e independientes
En el ejemplo 7.7, la probabilidad de que tenga lugar B no es la misma que la

probabilidad de ese mismo suceso si se le condiciona a que se haya verificado A.
Se dan también ocasiones en que la condición de que haya tenido lugar un suceso
A no modifica la probabilidad de que se verifique otro suceso B. Cuando P(B/A) es
distinta de P(B), se dice que B depende de A.
Independencia de sucesos: Dados dos sucesos A y B de un espacio

probabilístico (E,U,P), se dice que el suceso B es independiente de A si
P(B/A) = P(B)
235
Propiedades
1 . Si B es independiente de A, P(AnB) = P(A)P(B) (16)

En efecto, P(AnB) = P(A)P(B/A) = P(A)P(B)
al ser B independiente de A.
2. Si B es independiente de A, también A es independiente de B.

P(AnB)
En efecto, P(A /B) = — -, con P(B)>0. (*)
Pero, al ser B independiente de A, es P(Ar\B) = P(A)P(B).

Sustituyendo en (*), se obtiene:
P(AnB) P(A)P(B)
P(A/B) = — = = P(A)
P(B) P(B)
Este resultado permite decir que A y B son independientes.
3. Si A y B son independientes, son también independientes A y B, A y B', A y B'.
En efecto, por ser A y B independientes, se verifica
P(A/B)=P(A) y P(B/A)=P(B)
Entonces:
i) P(A/B)=1-P(A/B)=1-P(A)=P(A), luego A' y B son independientes.
ii) P(B7A)=1-P(B/A)=1-P(B)=P(B'), luego B'yA son independientes.
ffi) P(A'/B') - P(A'nB'J p[(A^B>'J ~ 1-ñAuB)

P(B') P(B') P(B')
l-P(A)-P(B) + P(AnB) 1-P(A)-P(B) + P(A)P(B)

P(B') P(B')
(1-P(A))(1-P(B)) P(A')P(B')
= P(A')
P(B') P(B')
luego A'yB' son independientes.
Sucesos independientes dos a dos: Los sucesos de una familia S se dice que
son independientes dos a dos cuando VA, Be S=> A y B son independien-
tes.
Para la generalización del concepto de independencia a más de dos sucesos, se

establece la siguiente definición:
236
Sucesos mutuamente independientes: Los sucesos de una familia S se dice

que son mutuamente independientes si para toda subfamilia finita { A ,A ....,AiJ
de sucesos de S, se verifica que
P(A,nA2r\.nAt) = P( A,)P( A2)...P( Ak)
Es evidente que, si los sucesos de una familia son mutuamente independientes,

son independientes dos a dos.
Ejemplo 7.8
En una escuela universitaria, el 55 por ciento de los estudiantes son chicos y el

resto chicas. Se sabe que el 40 por ciento de los estudiantes de la escuela son fuma
dores, y que el 25 por ciento de los fumadores son chicas. Se selecciona una chica al
azar. 1) ¿Cuál es la probabilidad de que sea fumadora? 2) ¿Es independiente el suceso
«ser fumador» del suceso «ser chica»?
Solución: Designemos por A al suceso «ser chica» y por B al suceso «ser fuma
dor».
1) Con los datos del enunciado, tenemos:
P(A) = 0'45, P(B) = O1 40, P(Ar\B) = 0' 10
P(Ar\B) a10
luego P(B/A)- ,C22
P(A) 0'45
2) Como P(B/A)=0'22 y P(B)=0'4, el suceso B depende de A, y los sucesos «ser
fumador» y «ser chica» no son independientes.
7.7. Teoremas de la probabilidad total y de Bayes
Sea (E,U,P) un espacio probabilístico, { A,,A2,...,An} un sistema completo de suce

sos, donde son conocidas las probabilidades P(A^, y sea B un suceso tal que también
son conocidas las probabilidades P(B/A). Con estas hipótesis, se verifica:
P(B) = J,P(A,)P(B/A,) (17)
P(A)P(B/A.) (18)
P(A,/B),
^P(AJP(B/A.)
237
La expresión (17) se conoce como teorema de la probabilidad total, y la expre

sión ( 18) es el teorema de Bayes.
Las probabilidades P(A ) son llamadas «probabilidades a priori» o «causas», las
probabilidades P(A/B) «probabilidades a posteriori», y las probabilidades P(B/A)
«verosimilitudes».
Demostración:
I. P(B)= P(BnE) = p\Bn(KjA,)\=P[(Br\A,)v(BnA:KJ...]=
como los sucesos A, constituyen un sistema completo, son incompatibles dos a dos,
y, por tanto, los sucesos BnA, también son incompatibles dos a dos; luego, en virtud
del segundo axioma de la probabilidad, la expresión anterior es igual a
= P(Br\A,)+ P(Bn A: )+...= 5,P(BnA,)= ¿P( A,)P(B / A,)

,-i i-i
la última igualdad se deduce de la definición de probabilidad condicionada.

II. Por la definición de probabilidad condicionada, se tiene
P(A,r\B) = P(A,)P(B / A,) = P(B)P(A, / B)
luego P(A,/B) = P(AJP(B/AJ P(A,)P(B/AJ

P(B) ^
donde la última igualdad surge de aplicar el teorema de la probabilidad total.
Ejemplo 7.9
En una ciudad hay tantos hombres como mujeres. El 30 por ciento de los hombres
son universitarios y el 20 por ciento de las mujeres también lo son. Se elige una
persona al azar que resulta ser universitaria. Hallar la probabilidad de que se trate de
una mujer.
Solución: Designemos por A, al suceso «ser hombre», por A, al suceso «ser

mujer» y por B al suceso «ser universitario». Por los datos del enunciado, se tiene:
P(A,)=l/2. P(A,)=l/2, P(B/A,)^^ y P(B/A,)=0'2
Entonces
P(A^)p(B/A') as o?
P( A./ B)= '——— — = 0'4
P( A,)P(B / A,)+ P(A: )P(B / A: ) 0'5 . 0'3 + 05 . 0'2
238
7.8. Variable estadística y variable aleatoria
Cuando se lleva a cabo un experimento aleatorio, es interesante la construcción de

ciertas funciones numéricas de sus resultados.
Si lanzamos dos monedas al aire, los posibles resultados están formados por el
conjunto de los puntos muestrales
E={cc,c+,+c,++}
Sin embargo, nos interesa conocer, no el resultado en sí de cada prueba, sino el
número de caras que resultan. Así obtenemos la función numérica que a cada suceso
elemental le asigna un número:
X(cc)=2, X(c+)=1, X(+c)=1, X(++)=0
Si realizamos un cierto número de pruebas, el conjunto de los valores numéricos
asignados a cada uno de los resultados del experimento, acompañados de sus fre
cuencias, es lo que constituye una distribución estadística de frecuencias, a cuyo
estudio hemos dedicado los seis primeros capítulos.
Si suponemos una infinidad de pruebas del experimento, la infinidad de resultados
posibles, si éstos son numéricos, o una función numérica de los mismos, define una
variable asociada al experimento, que llamaremos variable aleatoria.
Además, esta variable tomará esos posibles valores con unas probabilidades, que
corresponden a los valores límites a que tienden las frecuencias cuando el número de
pruebas es muy grande.
De esta forma, mediante un proceso de abstracción, que hay que precisar, pasa
mos de los conceptos de variable estadística y frecuencia a los conceptos de variable
aleatoria y probabilidad.
El concepto de variable aleatoria permite definir determinadas funciones reales de
variable real, que conducen a modelos matemáticos que se adaptan a los diversos
fenómenos aleatorios.
7.9. Concepto de variable aleatoria
Una variable aleatoria es una aplicación que asocia a cada suceso elemental un
número real. Conviene definir este concepto con precisión, puesto que es la idea
fundamental que permite dar un tratamiento riguroso a los fenómenos aleatorios.
Variable aleatoria: Sea (E.U.P) un espacio probabilístico asociado a un expe

rimento aleatorio. Una variable aleatoria es una aplicación X definida sobre E y
que toma valores en el conjunto de los números reales
X:E->3Í\a -> X(a)e "R
si se verifica que v* e % el conjunto {a e E\ X(a) < x) e U
239
Ejemplo 7.10
Consideremos el experimento consistente en lanzar dos monedas al aire. El espacio

muestral está formado por el par (E,U). donde
E={cc,c+,-k:.++} y U=P(E)
La aplicación que a cada suceso elemental le asocia el número de caras viene dada
por
X(cc)=2, X(c+)=1, X(+c)=l, X(++)=0
Veamos que se trata de una variable aleatoria. Para ello, tenemos que hallar las
imágenes recíprocas de los intervalos de la forma (-oo,x], y comprobar que pertenecen
aU.
Síx<O.x/r.ooxy=0e{/.
si 0<x<1, x i(*o¡x] = /.++; 6 l/'
si l^<2. x ' (-°°,.x] = {c+,+c. + +} e U.
six£2, )cl(-oo,x] = {cc,c+,+c,++}sU.
Luego la aplicación que a cada suceso elemental le asocia el número de caras es
una variable aleatoria.
7.9.1. Variable aleatoria discreta v continua
Una variable aleatoria X puede tomar un conjunto de valores finito, infinito nume
rable o una infinidad no numerable de valores reales. Será discreta o continua, por
tanto, según sea su contradominio o imagen.
Variable aleatoria discreta: La variable aleatoria X es discreta cuando toma

un conjunto finito o infinito numerable de valores reales.
La variable aleatoria definida por el número de caras que salen cuando se lanzan
dos monedas es una variable discreta; su contradominio está formado por los puntos
del conjunto:
C={0,U}
Hay variables aleatorias que tienen por imagen toda la recta real o algún intervalo
de la misma
(a,b), [a.b), (a,b), (-oo,a), [a,+oo),...
A este tipo de variable aleatoria, que no toma valores aislados, le llamamos varia
ble aleatoria continua, esto es:
240
Variable aleatoria continua: La variable aleatoria X es continua cuando toma

valores en una escala continua.
Habitualmente, la variable aleatoria continua corresponde a datos medidos, como

distancias, pesos, temperaturas,... En cambio, la variable aleatoria discreta representa
datos contados, como el número de hijos, el número de piezas defectuosas en un lote,
el número de caras cuando se lanzan varias monedas,...
7. 10. Distribuciones discretas
Si tenemos una variable aleatoria discreta, como puede ser el número de caras que
aparecen al lanzar dos monedas, es conveniente representar las probabilidades con
que toma la variable aleatoria cada uno de los valores numéricos x, por una fórmula.
Esta fórmula debe ser una función de x, f(x), esto es
flx) = P(X = x) = P{{a e E\X(a) = x})

Al conjunto de los pares ordenados (x,f(x)) le llamaremos distribución de probabi
lidad o función masa de probabilidad de la variable aleatoria X. Precisando el con
cepto, establecemos la definición:
Distribución de probabilidad: El conjunto de pares ordenados (x,f(x)) es una

distribución de probabilidad o función masa de probabilidad de la variable
aleatoria X si, para cada valor posible x, se verifica
1.f(x)>0,
2.Sf(x)=l,
3. P(X=xK(x).
Ahora estamos en condiciones de asociar a la variable aleatoria X una función real

de una variable real, que permite construir los modelos matemáticos adecuados para
tratar los problemas originados por fenómenos que se rigen por la ley del azar.
Función de distribución: Sea X una variable aleatoria con distribución de

probabilidad f(x). Se llama función de distribución de la variable aleatoria X a la
función real de una variable real F
tal que F(x) = P(X <x) = ^f(r), Vx e 9Í (19)

241
Ejemplo 7.11
Consideremos, una vez más, el experimento consistente en lanzar dos monedas.

Asociada a este experimento tenemos la variable aleatoria X, que hace corresponder a
cada suceso elemental el número de caras.
La distribución está recogida en la siguiente tabla:
X 0 1 2
fíx) 1/4 1/2 1/4
puesto que la variable X toma los valores 0, 1 y 2 con probabilidades:

f(0)=P(X=0)=P{++}=l/4,f(l)=P(X=l)=P{c+,-K;}=2/4=l/2,f(2)=P(X=2)=P{cc}=l/4
La distribución de probabilidad de X está representada en la figura 7.7, que recoge
los puntos (x,f(x)). Si se unen los puntos por medio de segmentos verticales con el eje
de abscisas, se obtiene un diagrama de barras, gráfico que utilizamos en la primera
parte. También se podrían dibujar rectángulos de la misma base en lugar de segmen
tos, y se obtendría un diagrama rectangular.
La función de distribución correspondiente a la variable aleatoria X viene dada
por:
f °. six <0
1
s¡0< x < 1
4
F(x) = 3
si 1 <x< 2
4
1. si x>2
La gráfica de la función de distribución de la variable aleatoria X está dibujada en

la figura 7.8. Corresponde a la curva de frecuencias acumuladas, que estudiamos en la
primera parte, cuando tratábamos con variables estadísticas.
Podemos observar, en la gráfica 7.8, que se trata de una función en escalera,
monótona no decreciente y acotada entre 0 y 1 .
En efecto, la función de distribución verifica las siguientes propiedades:
1 . Está acotada entre 0 y 1 : 0 < F(x) < 1, Vjc e 9Í
2. Es monótona no decreciente, es decir si x, < x2 => F( x,) < F(x2)
3. Si la variable aleatoria X toma valores en un intervalo acotado (a,b), es:
F(x)=0, para x<a y F(x)= 1 , para x>b.
242
T t . -i-
O I 2 D I 2
Figura 7.7: Distribución de probabilidad. Figura 7.8: Función de distribución.
7.11. Distribuciones continuas
Si X es una variable aleatoria continua, la probabilidad de que X tome un valor

concreto es cero. En efecto, pensemos en un experimento consistente en medir la
longitud de ciertas plantas, y supongamos que estamos considerando medidas entre
2' 30 dm. y 2'40 dm. Entre estas dos medidas hay infinitas, por ello es cero la probabi
lidad de encontrar una planta que mida exactamente 2'325 dm., ya que se trata de un
solo caso favorable entre infinitos casos posibles.
Se habla, por esto, en el caso de variable aleatoria continua, de la probabilidad de
que tome valores en un intervalo, como puede ser P(a<X<b), siendo a y b números
reales, a<b.
La distribución de probabilidad de una variable aleatoria continua se llamafunción
de densidad, y vamos a representarla también por f(x).
Función de densidad: La función real de una variable real f(x) es una función
de densidad de la variable aleatoria X si verifica
1. f(x)>oyxe(X (20)
2 í^f(x)dx = / (21)
3. P(a<X <b)= }'f(x)dx (22)
Utilizamos el término de «distribución de probabilidad» cuando nos referimos in

distintamente a variables aleatorias discretas o continuas, reservando el de «función
masa de probabilidad» o «función de densidad» cuando queremos destacar la dife
rencia entre el carácter discreto o continuo de la variable aleatoria.
La segunda condición nos dice que el área total bajo la gráfica de f(x) y sobre el
eje de abscisas es igual a 1 . El área es utilizada así para representar probabilidades, y
la suma de todas las probabilidades es 1.
243
Consecuencia inmediata de la definición anterior son las siguientes propiedades:

1 ) Si X es una variable aleatoria continua, es P(X=a)=0.
2) Si a y b son dos números reales tales que a<b. se verifica:
P(a<X<b)=P(a<X<b)=P(a<X<b)=P(a<X<b)
Función de distribución de una variable aleatoria continua: Sea X una va

riable aleatoria continua con función de densidad f(x). Se llama función de
distribución de la variable aleatoria X a la función real de una variable real F(x)
tal que
F(x) = P(X < x) = J ' ftthlt, Vjc e 9i (23)
Dos propiedades que se deducen inmediatamente de esta definición son:
1 . P(ci<X <b)= )f(x)dx = F(b)- F(a) (24)

dF(x)
2. Si F(x) es derivable. f(x) = —— (25)
Es conveniente resaltar tres aspectos:

1 ) La función de densidad desempeña, en el caso continuo, el mismo papel que la
función masa de probabilidad en el caso discreto.
2) En el caso continuo, la integral sustituye a la suma.
3) Cuando la variable aleatoria X es continua, la probabilidad de que X tome un
valor aislado es cero.
Ejemplo 7.12
Si la variable aleatoria X tiene como función de densidad
K(x + 2), siO<x<l

f(x) =
0, resto
1) ¿Qué valor debe tener k? 2) ¿Cuál es la función de distribución?
Solución:
1) Como fes una función de densidad, debe cumplir (21), luego:

/ , 1(1)5
]j(x)dx = ]'k(x + 2)dx = k
de donde resulta k=2/5.

244
La función de densidad es, por tanto
2/5(x+2). siO<x<l
0, resto
2) La función de distribución se obtiene integrando f(x) en los distintos intervalos

en que está definida:
0. si x < 0
1 , 4
F(x):
— x' + — x, si 0 < x < 1
1, six>l
Observemos, una vez más, el paralelismo con el estudio de la variable estadística.

La gráfica de la función de densidad (figura 7.9) corresponde a la curva de frecuen
cias, y la gráfica de la función de distribución (figura 7.10) corresponde a la curva
acumulativa de frecuencias u ojiva.
7.12. Esperanza matemática
Figura 7.9. Función de densidad Figura 7. 10. Función de distribución

del ejemplo 7.12. del ejemplo 7.12.
El papel que, en la primera parte, desempeñaba la media aritmética ponderada,

como característica más importante de localización, lo va a desempeñar ahora la espe
ranza matemática? de una variable aleatoria.
2 Este término tan expresivo para designar el valor medio se establece en los orígenes del
"Cálculo de Probabilidades", hacia el sigo XVII. en que los juegos de azar eran el campo de
aplicación de la Estadística, y el interés del jugador se centraba en la "esperanza" de conseguir un
premio.
245
Esperanza matemática: Sea X una variable aleatoria con distribución de pro

babilidad f(x). La esperanza matemática o media de X que denotamos por |ix,
(26)
\lx = E(X): - 5>«.
si X es discreta; y, si X es continua, es
(27)
\iX = E(X) = J xf(x)dx,
Se supone la convergencia absoluta de la serie y de la integral. Cuando no haya

lugar para la confusión, la esperanza matemática de X se denotará por \i en lugar de
ux.
Veamos cómo la esperanza matemática generaliza el concepto de media aritmética.
Para ello, consideremos un experimento aleatorio en el que se han realizado n pruebas,
habiéndose obtenido n, veces el valor x,, n, veces el valor x,,..., nk veces el valor xk,
siendo n1+n,+...+nk=n.
Entonces, la media aritmética ponderada es:
- x,n, + x2n2+...+ xknk
A = = XlJ ,+ X2J 2 + —+XkJ k
n
donde t ~ Ü. es la frecuencia relativa del valor x , i=l ,2,...,k.
Si suponemos que el número de pruebas es muy grande, la frecuencia relativa
tiende a la probabilidad, es decir:
f = p,=P(X = x,),i=l2,...X
y, por tanto, la media tiende al valor
X,P, + X2P2 + -+xkPl
que es la esperanza matemática de la variable aleatoria X.
Ejemplo 7.13
Vamos a calcular la esperanza matemática de las variables aleatorias de los ejem

plos 7.10y 7.12.
„ 11112
1) E(X)=^xf(x) = 0-- + l-- + 2-- = - + - = l
Este resultado se interpreta en el siguiente sentido: si lanzamos dos monedas,

como promedio, obtendremos una cara cada vez.
2) 1 *x >
E(X)=)~xflx)dx = \'ox-(x + 2)dx=- l~3X+X
ir1!- 1
246
7.12.1. Esperanza de una función de una variable aleatoria
Sea (E,U,P) un espacio probabilístico, y sea X una variable aleatoria definida en él.
Consideremos la función real de una variable real /i:9í —» 91 tal que la imagen de la
variable aleatoria X está contenida en el dominio de h.
Podemos hablar entonces de la función compuesta h-X=h(X), que es una aplica
ción de E en 9? tal que
(h-X)(a)=(h(X))(a)=h(X(a)), para a perteneciente a E.
Si la imagen inversa por h(X) de cualquier intervalo de la forma (-lx,,x] es un suceso
de U, h(X) será una variable aleatoria. Una condición suficiente para que h(X) sea una
variable aleatoria es que h sea uniforme y continua.
Dada una variable aleatoria X, si h(X) es una variable aleatoria, se puede hablar de
la esperanza matemática de h(X):
Proposición 7.2: Sea X una variable aleatoria con distribución de probabilidad

f(x) y sea h(X) una variable aleatoria. Entonces la esperanza matemática de
h(X) es
íi.,v, = E[/iW] = 5>M/W, (28)
si X es discreta; y, si X es continua, es
uM.J = E[h(X)] = ¡'~h(x)f(x)d* (29)
Ejemplo 7.14
Si, para la variable aleatoria X del ejemplo 7.12, definimos la función h(X)=2X+l, la
esperanza matemática de esta nueva variable aleatoria será:
V 2 2(i , 31
E(2X + l) = ]o(2x+l)-(x + 2)dx = -)J2xr + 5x + 2)dx = —
7.12.2. Propiedades de la esperanza matemática
1. Sea X una variable aleatoria. Si las funciones de X, g(X) y h(X), son dos varia
bles aleatorias tales que existen E[g(X)] y E[h(X)], entonces existe también E[g(X)±h(X)]
y es
E[g(X)±h(X)]=E[g(X)]±E[h(X)] (30)
247
2. Si g(X) es una función de la variable aleatoria X tal que existe E[g(X)] y es a un

número real cualquiera, existe E[ag(X)] y es
E[ag(X)]=aE[g(X)] (31)
Las propiedades 1 y 2 nos dicen que la esperanza matemática es un operador
lineal, y se deducen inmediatamente de la definición, puesto que la integral y la suma
indicada son dos operadores lineales. En efecto, si la variable aleatoria es continua,
tendremos:
E[g(X)± h(X)} = í"Jg(X)±h(x)]f¡x)dx =
= £*W/W<fr ±\ZhMfíx)dx = E[g(X)]±E[h(Y)]
y E[ag(X)] = Sjag(x)]f(x)dx = a[~g(x)f(x)dx = aE[g(X)]
3. En particular, si a y b son dos números reales y X una variable aleatoria, se

verifica:
E[aX±b]=aE[X]±b (32)
E[aX]=aE[X] (33)
E[b]=b (34)
7.13. Varianza y desviación típica
La varianza de la variable aleatoria X es una buena medida de la dispersión. No

obstante, esta medida no está dada en las mismas unidades que X, por lo que se
utiliza su raíz cuadrada positiva, que conocemos como desviación típica. Para varia
bles aleatorias, se define:
Varianza: Sea X una variable aleatoria con distribución de probabilidad f(x). La

varianza de X. que representaremos por ax: es la esperanza matemática de la
variable aleatoria (X-|i):.
De acuerdo con la definición, si X es una variable aleatoria discreta, es
ov = E[(X - u f\ = ¿> - u ff(x) (35)
y, si X es una variable aleatoria continua, es
ai = E[(X - u f] = ¡Jx - u / flx)dx (36)

248
También aquí se supone la convergencia absoluta de la serie y de la integral. Si no

hay lugar para la confusión, se escribe a2 en vez de ox2, para designar la varianza de X.
Desviación típica: La desviación típica de la variable aleatoria X, que se

representa por O ó ox, es la raíz cuadrada positiva de la varianza de X.
Ejemplo 7.15
Las varianzas y desviaciones típicas correspondientes a las variables aleatorias de

los ejemplos 7.10 y 7.12 son:
n , V" ! 1 1 1 1 ,1111
i ri
a=r2'2
o =-
7 , 14 , 208 2 128 37
2) o2 = ¡Jx-\iff(x)dx = ^ 4X + 15 x ' 225 x + 225 X. 450
y ^=\\-^=0,28
\450
7.13.1. Propiedades de la varianza
1. Si X es una variable aleatoria, o2x = E(X2)- \lx (37)
Demostración: Lo demostramos para el caso continuo. (Si la variable fuese discre

ta, se seguiría el mismo proceso, pero con sumas indicadas).
oi = E[(X - U /] = ¡Jx - U f f(x)dx = ¡Jx2 -2\ix-\i2 )f(x)dx =
= \Z*2fMdx - 2\ilZrfx)dx + "2£ñx)dx
Como J xf(x)dx =u y J_ f(x)dx = 1 , resulta:
O2 = í'"x2f(x)dx-2]i2 + \i2 = )x2f(x)dx-\l2 = E(X2)-H2

249
2. Sea X una variable aleatoria con distribución de probabilidad f(x), y sea g(X)
una función de la variable aleatoria X. Entonces la varianza de la variable aleatoria
g(X) es:
<&„ = E^g(X) - \isJ] = J\g(X) - V-Jfl.x) (38)
si X es una variable aleatoria discreta, y
<¿* = E\g(X) - iiJ] = £[«W - tJf(xHlx (39)
si X es una variable aleatoria continua.

La demostración es inmediata. Por ser g(X) una variable aleatoria, basta con apli
car la proposición 7.2.
3. Si a y b son dos números reales, se verifica:
—2 2 > (40)
Demostración: oivw, = £'{[(aX + b) - u aX^\

Como u.rf+,, = E(aX + b) = aE(X) + b = a\i+b
es alx^t = E[(aX + ¿-au -bf] = E[(aX-a\i f] = a2E[(X- u f] = flV*
4. Si hacemos a=l en (40), resulta aL* = 0~* (41)
5. Si hacemos b=0 en (40), resulta olx = í)oí (42)
7.14. Teorema de Tchebycheff
La varianza y su raíz cuadrada, la desviación típica, son medidas de la dispersión

de los datos de una dis
tribución con respecto a
su media. Una desviación
típica pequeña indica una
mayor agrupación de los
valores alrededor de la
media
Por otra parte, esta
mos utilizando el área
como una medida de la -2o n 20
probabilidad. Esto supo
ne que una desviación tí- Figura 7.11: El área entre -2a y 2a es al menos 3/4.
250
pica pequeña corresponde a un área comprimida alrededor de la media, mientras que a

una desviación típica grande le va a corresponder un área más expandida.
El teorema de Tchebycheff proporciona una relación entre el valor de la desviación
típica y la fracción de área comprendida entre dos ordenadas simétricas respecto de la
media, lo cual es una razón poderosa para usar la desviación típica como medida de la
dispersión.
Teorema de Tchebycheff: La probabilidad de que una variable aleatoria X tome

un valor que diste de la media menos de k desviaciones típicas, siendo k>0, es
al menos 1-l/k2 , esto es:
P(\í-ha <X<\i+ko)>1-— (43)

k~
Demostración: Haremos la demostración para una variable aleatoria continua. (Si

se tratara de una variable aleatoria discreta, el proceso sería el mismo, pero utilizando
sumas indicadas).
Partimos de la definición de varianza de una variable aleatoria X, que es una
integral que vamos a descomponer en suma de tres integrales:
oi = E[(X - u f] = íjx - u f f(x)dx =
= ttC(x - H f f(x)dx + Jf-Jx - u f f(x)dx + fcjx - u f f(x)dx >
> f~*°fx - u f f(x)dx + J~ (x - u / f(x)dx i*)

\i+ka
por ser J (x-\iff[x)dx > 0-
Si x<n-ko ó x>u+ko, es \x - u| > ka , y, por lo tanto, (x-^)2>k2a2 en las dos integra

les de (*). Tenemos, por una parte, que:
a > t""(x - u f f(x)dx + ¡~Jx - u f f(x)dx > t^k'a f(x)dx + j^k'cr f(x)dx
Ahora bien, como
ttak2crf(x)dx + í^ k2crf(x)dx = k2a\ tk°f(x)dx + t f(x)dx

251
resulta que
ct > k2a[tk°flx)dx + i~koflx)dx]
de donde se deduce que
El primer miembro de la última desigualdad es la probabilidad de que X tome

valores fuera del intervalo (u-kg, |i+ko), que es menor que _, luego pasando al
complementario, será: *
P(\i-ko<X<\i+ka)Zl--j ,c1d.
En el caso particular en que k=2, 1-1/4=3/4, lo que significa que la probabilidad de

que X esté en el intervalo (|i-2a, |i+2a) es al menos 3/4; en otras palabras, las tres
cuartas partes de las observaciones o quizá más caen en el intervalo (u-2o, u+2a).
Si k=3, es 1-1/9=8/9. luego por lo menos los 8/9 de las observaciones están en el
intervalo (u-3a, |i+3ct).
A pesar de todo, el teorema de Tchebycheff no es preciso; nos dice que la proba
bilidad de que una variable aleatoria caiga dentro del intervalo (|i-2a, |i+2a) no es
menor de 3/4, pero no nos dice cuál es esa probabilidad.
Ejemplo 7.17
Una variable aleatoria X tiene de media u= 1 0 y como varianza a:=4, siendo desco
nocida su distribución de probabilidad. Queremos hallar: 1) P(5<X<15); 2) P(IX-1I<3);
3)P(IX-10I>3).
Solución: 1 ) Utilizando el teorema de Tchebycheff, tomando k=5/2, resulta:
5 5 "| / 4 21
P(5 < X < 15) = P 10-- 2< X <10 + - 2 \>1- r= 1-— = —
2 2 ) (5/ 2 y 25 25
Luego P(5<X<15)>21/25.
< 3 3)45
2)p{\X-ia<3) = P(-3<X-10<3)=P(10-3<X<10+3)=P 10--.2<X<10+-.2\> /--=-
2 2 4 9
3 3)14
3) P(\X-10\>3) = 1- P{\X-10\<3) = 1- P 10--.2<X<10+-.2\< ;=-
2 2 ) (3/2 r 9
4
luego H\X-10\>3)<-
252
7. 1 5. Cambio de variable
Dada una variable aleatoria X con distribución de probabilidad f(x), si Y=h(X) es

una variable aleatoria, también Y tiene una distribución de probabilidad. El problema
de encontrar la distribución de esta nueva variable lo vamos a tratar distinguiendo
dos situaciones posibles, según se trate de una variable aleatoria discreta o continua.
7.15.1. Cambio de variables aleatorias discretas
Consideremos una variable aleatoria discreta X, cuya función masa de probabili

dad es f(x), y sea Y=h(X) una transformación biyectiva, de la que pretendemos hallar
su distribución de probabilidad.
Por ser Y=h(X) biyectiva, a cada valor x de X le corresponde un único valor y=h(x)
de Y, y, a cada valor y de Y le corresponde un único valor de X, que se obtiene
resolviendo la ecuación y=h(x), es decir x=h '(y)=g(y).
Entonces se verifica la siguiente proposición:
Proposición 7.3: Sea X una variable aleatoria discreta con función masa de
probabilidad f(x). Si Y=h(X) es una variable aleatoria que define una transfor
mación biyectiva entre los valores de X e Y de tal forma que la ecuación y=h(x)
puede resolverse en función de y, siendo x=g(y), entonces la distribución de la
variable aleatoria Y es
t(y)=flg(y)] (44)
En efecto: t(y)=P(Y=y)=P[X=g(y)]=f[g(y)]
Ejemplo 7.18
Tratamos de determinar la distribución de Y=3X+1, siendo X la variable aleatoria

discreta dada por la siguiente tabla:
X 6 10 21
Rx) 0'3 O'l 0'6
La variable aleatoria Y puede tomar los valores 19, 31 y 64.

Y-l
La inversa es X = —— , y la probabilidad con que Y toma sus valores es:
19-1
g(19) = P(Y = 19). P(X =6) = 0.3
3 )
253
31-l)
g(3l) = P(Y=3l), ,P(X = 10)=0,1
g(64) = P(Y=64) = Áx = ^\=P(X = 2l) = 0,6
La función masa de probabilidad de Y=3X+1 es, por tanto:
Y 19 31 64
«yi 0'3 O'l 0'6
7.15.2. Cambio de variables aleatorias continuas
La siguiente proposición establece cuál es la función de densidad de una función

de una variable aleatoria continua:
Proposición 7.4: Sea X una variable aleatoria continua con función de densi
dad f(x). Si Y=h(X) define una transformación biyectiva entre los valores de X
e Y de tal forma que existe y es única la transformación inversa x=h '(y)=g(y),
entonces la función de densidad de la variable aleatoria Y es
t(yHlg(y)P (45)
donde J=g'(y) es el Jacobiano de la transformación.
Ejemplo 7.19
Sea X una variable aleatoria continua, cuya función de densidad es
/
flx) = , si a < x < b
b -a
Vamos a determinar la función de densidad de la variable aleatoria Y=-3X.
Aplicando el resultado anterior, es:
/
,íu / --y l/í-í-7^-
3 b-a 3(b-a)
si -3b < y < -3a
254
7. 16. Momentos
Momento de orden r respecto de un punto: Sea X una variable aleatoria, r un

número natural y C un número real cualquiera. Se llama momento de orden r
respecto a C, y se denota por M (C) a la esperanza matemática de (X-C)r, esto es:
M(C)=E[(X-Cfl (46)
Si la variable aleatoria X es discreta, será:
Mr(Q^(x-CfJ(x) (47)
y, si X es una variable aleatoria continua:
Mr(C)=)(x-Cff(x)dx (48)
Cuando C=0, se tienen los momentos respecto al origen, que se denotan por ar.
ar = Zx'f(x) (49)
+ 00
a, = ¡ xrf(x)dx (50)
Como casos particulares, están:

a =1 y a=u
7.16.2. Momentos centrales
Cuando C=fl, se tienen los momentos centrales o momentos respecto de la media,

que se denotan por |i.
"r = I>-u/./W (51)

\ir=)(x-\i)rf(x)dx (52)
255
Como casos particulares, están:

u=l,u=0yn=ox
7. 17. Función generadora de momentos
Los momentos de una variable aleatoria pueden ser evaluados directamente, a

partir de sus definiciones. Existe, sin embargo, un procedimiento indirecto para eva
luarlos, por medio de la función generadora de momentos.
Función generadora de momentos: Dada una variable aleatoria X, se define la

función generadora de momentos, y se denota por Mx(t), como la función real
de una variable real que, a cada número real t le hace corresponder
Mv(t)=E[e'x] (53)
Para la existencia de la función generadora de momentos, se supone la convergen

cia de la serie o integral de la definición.
Las proposiciones 7.5 y 7.6. que enunciamos a continuación, tienen un interés
especial, ya que permiten hallar el momento de orden r respecto al origen e identificar
una distribución por su función generadora de momentos.
Proposición 7.5: Si X es una variable aleatoria cuya función generadora de

momentos es Mx(t), entonces
/drMx(t)y
(54)
, di i =0
Esta proposición nos indica que el momento de orden r respecto al origen coincide
con el valor de la derivada de orden r de Mx(t) en el punto t=0.
Ejemplo 7.20
Sea X una variable aleatoria con función generadora de momentos

Mx(t) = {pe +q)', donde 0<p<l, q=l-p, y n un número natural.
Vamos a hallar la media y la varianza.

1) La media es u=a =M'X(0)
M'x(t)=n(pe' + q)"' pe', luego M'x(0) = n(p + q)" p = np,
ya que p+q=1.
256
2) Para hallar la varianza. necesitamos la derivada segunda de la función generado

ra de momentos:
M"x(t)= np\e'(n-1)(pe' + q) pe' + (pe' + q) c\

luego M "x(0) = np[(n - 1 )p + /] = a:
y por tanto, será:
<T = \i 2 =a 2-a2, = np[(n - ] )p + 1]- n2 p' =np[(n-1)p + 1-np] =
= np[np - p + I - np\ = np( I - p) = npq
Proposición 7.6: Sean X e Y dos variables aleatorias cuyas funciones

generadoras de momentos son Mx(t) y My(t), respectivamente. Entonces,
si Mx(t)=My(t), para todo valor de t, X e Y tienen la misma distribución de
probabilidad.
Esta proposición no sólo permite identificar una distribución por su función gene
radora de momentos, sino que proporciona un método para hallar la distribución de
importantes estadísticos.
7. 1 8. Ejercicios propuestos
7.1. Se selecciona una carta de una baraja de 52 cartas. Llamemos A al suceso «obte
ner espadas» y B al suceso «obtener as». Calcular: P(A). P(B) y P(AnB)
7.2. Consideremos un dado cargado de tal forma que la probabilidad de que salga un
número es proporcional a dicho número.
1 ) Describir el espacio probabilístico. 2) Hallar la probabilidad de que salga un
número impar. 3) Hallar la probabilidad de que salga un número mayor que 2. 4) Hallar
la probabilidad de que salga un número impar mayor que 2.
7.3. De un lote que contiene 10 piezas, de las cuales cuatro tienen defecto, se extraen
dos al azar. Hallar la probabilidad de que:
1 ) las dos piezas tengan defecto; 2) ninguna de las dos piezas tenga defecto; 3) al
menos una de las piezas tenga defecto.
7.4. En una ciudad se publican 3 periódicos. A, B y C. Por una encuesta realizada, se

estima que, de las personas adultas, el 20% lee A, el 16% lee B, el 14% lee C, el 8% lee
A y B, el 5% lee A y C, el 4% lee B y C, y el 2% lee los tres periódicos.
1) ¿Cuál es el porcentaje de los que leen al menos uno de los tres periódicos?
2) ¿Qué porcentaje no lee ningún periódico?
257
7.5. Sea E un espacio muestral que consta de tres puntos muestrales, E={a,,a,,a,}.
Averiguar si las funciones siguientes definen un espacio de probabilidades:
1) P(a,)=l/2, P(a>l/3, P(a,)=l/3.
2) P(a,)=l/2, P(a>-1/4, P(a,)=l/2.
3) P(a,)=l/3, P(a2)=l/3, P(a,)=l/3.
7.6. Se sacan tres cartas simultáneamente de una baraja española. Hallar la probabili
dad de que:
1) las tres cartas sean reyes; 2) dos sean rey y otra caballo; 3) las tres cartas sean
de distinto palo.
7.7. Un experimento consiste en lanzar dos dados y anotar la suma de puntos de sus
caras superiores. Hallar la probabilidad de:
1) obtener una suma igual a 13; 2) obtener una suma igual a 10; 3) obtener suma
mayor que 5.
7.8. Una urna contiene 10 bolas blancas y 6 rojas. Si se extraen sucesivamente dos
bolas, hallar la probabilidad de que:
1) las dos bolas sean rojas; 2) la primera bola sea blanca y la segunda roja; 3) una
bola sea blanca y la otra roja.
7.9. En una facultad universitaria, el 30 por ciento de los estudiantes son extranjeros.
De ellos, el 20 por ciento disfrutan de beca. También son becados el 10 por ciento de
los estudiantes nacionales. Hallar la probabilidad de que un estudiante elegido al azar
tenga beca.
7. 10. Tres matrimonios salen a cenar juntos. El camarero del restaurante les asigna un
puesto al azar en la mesa. Hallar la probabilidad de que:
1) se sienten juntas las mujeres; 2) coincida un matrimonio concreto; 3) no coinci
da un matrimonio concreto.
7.11. Un submarino dispone de 9 misiles, siendo 3/5 la probabilidad de hacer blanco

con uno cualquiera de ellos. Si lanza 5 misiles sobre un portaaviones, hallar la proba
bilidad de:
1) hacer blanco con dos misiles; 2) acertar al menos con uno.
7.12. Un experimento consiste en lanzar un dado y una moneda al aire. Hallar la

probabilidad de obtener:
1 ) cara en la moneda y 5 ó 6 en el dado; 2) cara en la moneda y cualquier resultado
en el dado; 3) 1 , 2 ó 3 en el dado y cualquier resultado en la moneda.
258
7.13. Dos urnas tienen las siguientes composiciones: la primera tiene 8 bolas azules, 6
blancas y 4 rojas, y la segunda tiene 12 azules, 6 blancas y 8 rojas. Se saca una bola
al azar de la primera urna y se traslada a la segunda. A continuación se extrae una bola
al azar de la segunda urna, que resulta ser roja. ¿Cuál es la probabilidad de que la bola
que se traspasó de la primera a la segunda urna sea azul?
7.14. Tres cazadores, disparando a la vez, matan un león, acertándole con dos impac
tos. La probabilidad de que el primer cazador haga blanco es de 5/6, la del segundo es
de 4/6 y la del tercer cazador es de 3/6. ¿Cuál es la probabilidad de que sean los dos
últimos los que han acertado?
7.15. En una factoría hay dos máquinas que fabrican la misma pieza. Se sabe que la
primera produce un 5% de las piezas con defecto, y la segunda un 6%. Un cierto día,
en que se han producido 100 piezas con la primera de las máquinas y 200 con la
segunda, se realiza una inspección, que consiste en elegir una pieza al azar.
1) Hallar la probabilidad de que la pieza elegida tenga defecto. 2) Si la pieza selec
cionada es defectuosa, ¿cuál es la probabilidad de que haya sido fabricada con la
primera de las máquinas?
7.16. Un vendedor llama al domicilio de una familia que tiene dos hijos. Le abre la
puerta uno de los hijos, que resulta ser varón. ¿Cuál es la probabilidad de que los dos
hijos sean varones?
7. 17. Carlos y Luis juegan una partida de dados. Comienza Carlos lanzando un dado,
luego lo lanza Luis, y se repite el proceso hasta que uno de los dos gana. Ganará
Carlos si sale un 2, sin haber salido 4, y ganará Luis si sale 4 sin que haya salido el 2.
¿Cuál es la probabilidad de que gane Carlos?
7.18. Disponemos de 20 urnas, seis de las cuales tienen 3 bolas blancas y 6 rojas,
cinco tienen 4 blancas y 4 rojas, siete tienen 5 blancas y 5 rojas, y dos tienen 6
blancas y 4 rojas. Se elige una urna al azar y se saca una bola que resulta ser blanca.
Hallar la probabilidad de que la urna elegida tenga 5 bolas blancas y 5 rojas.
7.19. La distribución de probabilidad de una variable aleatoria discreta viene dada por
la siguiente tabla
X 1 3 5 7 9 11
fU) 0'05 0'25 O'IO 0'30 OTO 0'20
1) Hacer la representación gráfica de la distribución de probabilidad. 2) Hallar la
función de distribución y representarla gráficamente. 3) Hallar la media, la varianza y la
desviación típica.
259
7.20. La variable aleatoria X tiene como distribución de probabilidad
f(x) = ~x,x=l,2 20
Hallar: 1 ) P(X=6); 2) P(5<X<12); 3) P(X2<64).
7.21. Una urna contiene 4 bolas, y se sabe que dos de ellas son rojas. Se realiza una
prueba que consiste en sacar las bolas una a una de la urna hasta encontrar las dos
rojas. Si llamamos X al número de pruebas necesarias, encontrar la distribución de
probabilidad de X.
7.22. La variable aleatoria X tiene como distribución de probabilidad
X -10 12
«x) 1/4 1/4 1/3 1/6
Determinar su función de distribución.
7.23. La variable aleatoria X tiene como función de distribución

I 0, si x<2
I
F(X)-- x- 1, si 2 < x <4
1, six>4
1) Determinar su función de densidad. 2) Hallar P(2<X<3).
7.24. La variable aleatoria X tiene como función de densidad
0, si x<0
F(X)-- - . si 0 < x < n

0, si x > n
1 ) Determinar la función de distribución. 2) Hallar P(0<X<7i/4).
7.25. Un experimento consiste en hacer tres disparos. Se sabe que las probabilidades
de hacer blanco con el primero, segundo y tercer disparo son:
p=0'l,p2=0'3yp=0'6
Se define la variable aleatoria X = «número total de impactos». Hallar: 1) la espe
ranza matemática de X; 2) la varianza de X.
260
7.26. Un juego consiste en sacar una carta de una baraja española, de modo que, si la
carta extraída es un caballo o un rey, el jugador percibe 500 ptas., y, si se trata de un
as o un tres, percibe 1000 ptas.; en cambio, si se extrae otra carta diferente de las
anteriores, el jugador tiene que pagar 400 ptas. Hallar: 1) la ganancia media esperada;
2) la varianza de la ganancia.
7.27. Una variable aleatoria, cuya distribución de probabilidad es desconocida, tiene

como varianza s2=0'004. Determinar el valor que debe tener r para que se verifique que
P[\X-E(X)\<r]>0,9
7.28. Sea X una variable aleatoria, cuya distribución de probabilidad viene dada por la
siguiente tabla:
X ti/4 7t/2 3ji/4

Rx) 0'3 0'5 0'2
Determinar la distribución de probabilidad de la variable Y=senX.
7.29. Dada la variable aleatoria X con función de distribución

0, six<2
I
F(x) = ;x - 1, si 2 < x <4
1, six>4
Hallar: 1) P(X<0,3); 2) P(X<3); 3) P(X>5).
7.30. La variable aleatoria discreta X tiene como distribución de probabilidad:
X 0.1 0.4 0.6
f(x) 0'2 0'3 0'5
Estimar la probabilidad de que IX- ul<C5, utilizando el teorema de Tchebycheff.
7.31. El tiempo de espera (en días) para conseguir una exploración con un «scanner»
en un hospital sigue una ley que viene dada por la distribución de probabilidad
1 *
-es, sit>0
F(x):
0, resto
261
Hallar: 1 ) El tiempo medio de espera; 2) la probabilidad de que un enfermo tenga

que esperar más de 10 días.
7.32. La variable aleatoria discreta X tiene como distribución de probabilidad:
X 5 2 4
fix) O'l 0'3 0'6
Hallar los momentos centrales de segundo, tercero y cuarto orden.

CAPITULO 8
MODELOS DE DISTRIBUCIONES
8. 1 . Distribuciones probabilísticas
La necesidad de inferir los valores de los parámetros de una población a partir de

una muestra exige el conocimiento de la distribución de la muestra.
Algunas de estas muestras poseen una distribución de frecuencias que se aproxi
ma a una de las distribuciones teóricas mediante las cuales se describen ciertas pobla
ciones naturales.
A dichas poblaciones se les denomina «poblaciones aleatorias», y son descritas
por medio de las distribuciones probabilísticas teóricas que sirven de modelos para
numerosos fenómenos naturales.
Con frecuencia nos encontramos con muestras, cuyas observaciones, procedien
do de distintos experimentos, se comportan de igual forma. Las variables aleatorias a
que dan lugar dichas observaciones tienen idéntica distribución, por lo que se expre
san mediante la misma fórmula.
En realidad, la mayoría de las variables aleatorias que se dan en la práctica, pueden
ser descritas por medio de unas pocas distribuciones de probabilidad.
Analizaremos tres de las más importantes distribuciones discretas: la distribución
uniforme, la de Poisson y la binomial. Esta última se aplica siempre que aparecen sucesos
del tipo «éxito-fracaso», como sucede en el control de calidad de un proceso, «curar-no
curar» a un enfermo en Medicina, obtener «cara-cruz» al lanzar una moneda,...
Especial atención merece la distribución normal o de Gauss, modelo de distribu
ción continua al que se adaptan gran parte de los fenómenos empíricos.
La distribución normal es además el fundamento sobre el que se construye la
Inferencia Estadística, que nos va a permitir sacar conclusiones acerca de los parámetros
de la población a partir de los datos de una muestra. Además, la distribución de
algunos estadísticos muestrales tiende a la normal cuando el tamaño de la muestra es
suficientemente grande.
Otras distribuciones discretas y continuas pueden verse en el apéndice B.
264
8.2. Distribuciones discretas
Una variable discreta X está determinada por su distribución de probabilidad:

P(X = x,)=p„i = l,2,...
que cumple la condición
Una variable aleatoria discreta también queda determinada por su función de dis
tribución:
F(x) = P(X < x)
8.2.1. Distribución uniforme
Cuando una variable aleatoria discreta toma cada uno de sus valores con la misma
probabilidad, se dice que sigue la distribución uniforme.
Así sucede cuando lanzamos un dado regular sobre un tablero y observamos el
número que aparece en la cara superior. Cada uno de los resultados posibles {1,2,3,4,5,6}
tiene la misma probabilidad de salir.
Siendo más precisos, diremos:
Definición 8.1: Si la variable aleatoria X toma los valores x,,x2,...,x con la

misma probabilidad, se dice que sigue la distribución discreta uniforme:
1
P(X = x)=-,x = x,,x2 xn (1)
n
Utilizaremos la notación U(x;n) para designarla, indicando que la distribución uni

forme depende del parámetro n.
Proposición 8.1: La media y la varianza de la distribución discreta uniforme

vienen dadas por
l "
V- = n ,•„/
y<f = 7.f -n/ (2)
Demostración:
U = E[X] = YjX.Uixiin) = £x,- = -£x¡

i.i i.i n n¡,¡
265
i.I n n ,=i
Ejemplo 8.1
Consideremos el lanzamiento de un dado regular sobre el tablero. En este caso, la

probabilidad de cada uno de los resultados posibles es 1/6. Luego:
/
E[XJ = -(l + 2 + 3 + 4+5 + 6) = 3'5
6
a\ = -[(l-3'5f + (2-3'5f+...+(6-3'5f]= — = 2'9I66
o '12
8.2.2. Distribución binomial
Consideremos un experimento aleatorio tal que cada vez que tiene lugar, pueden
darse dos resultados: A (al que llamaremos éxito) o su contrario A' (fracaso), de modo
que la probabilidad de éxito es:
P(A)=p
y la probabilidad de fracaso:
P(A')=q=l-p
permaneciendo invariables dichas probabilidades durante toda la experiencia.
Un experimento con estas características se conoce como experimento de Bernoulli.
Supongamos que se realizan dos pruebas consecutivas e independientes. Enton
ces el espacio muestral estará formado por los cuatro sucesos:
AA, AA, A A, A A
a los que corresponden, respectivamente, las probabilidades:
p2, pq, qp. q2

Si definimos la variable aleatoria
X= «número de éxitos en dos pruebas consecutivas»
la distribución de probabilidad de X viene dada por la siguiente tabla:
X 0 1 2
p, q2 2pq p2
266
Generalizando el experimento para n pruebas, tendremos el proceso de Bernoulli,

que se caracteriza por:
I. La realización de n pruebas sucesivas independientes.
II. Los resultados de cada una de las pruebas pueden ser calificados como éxito o
fracaso.
III. La probabilidad de éxito permanece constante para todas las pruebas.
La variable aleatoria
X= «número de éxitos en n pruebas consecutivas independientes»
recibe el nombre de variable aleatoria binomial, y la distribución de probabilidades
de esta variable aleatoria discreta es llamada distribución binomial; la representare
mos por B(x;n,p).
El espacio muestral E se obtiene asignando los valores A y A' de todas las formas
posibles a las componentes de la n-upla (x,,x2,...,xn), lo que supone 2n elementos (varia
ciones con repetición de dos elementos, A y A', tomados de n en n).
Al ser p la probabilidad de éxito y q=l-p la probabilidad de fracaso en una prueba
particular, será:
p'q"'
la probabilidad de un suceso de r éxitos y n-r fracasos.
Ahora bien, el suceso «obtener r éxitos y n-r fracasos» se puede dar de
n!
r!(n-r)!
formas distintas, que coinciden con las permutaciones con repetición de n elementos
en que r son A y n-r son A':
AA...r.AAA\.."r.A'
La probabilidad de que X=r será:
r!(n-r)!
Definición 8.2: Consideremos un proceso de Bernoulli, en el que la probabili

dad de éxito en una prueba particular es p, siendo q=l-p la probabilidad de
fracaso. Entonces la distribución de probabilidad de la variable aleatoria
X=«número de éxitos en un suceso compuesto de n pruebas particulares» es
llamada distribución binomial, siendo
B(x;n,p) = P(X = x) = \x \p' q" ' , x = 0,1,2 n (3)

267
El nombre de binomial se debe a que las probabilidades B(x;n,p) corresponden a

los n+1 términos del desarrollo del binomio (p+q)n:
= B(0;n,p) + B(l;n,p) + B(2;n,p)+...+B(n;n,p) =
Proposición 8.2: La distribución B(x:n,p) es una distribución de probabilidad.
En efecto: (p + q)"=l
!(">,
ya que p+q=l.
La función de distribución de la binomial será
F(x) = P(X < x)

i("K'
Una población se dice que es binomial respecto a un carácter cuando la distribu
ción de frecuencias respecto a dicho carácter de una muestra aleatoria suficientemen
te grande de individuos de dicha población, se puede superponer a la distribución
binomial teórica.
o ~L L-L
0 12 3 4 5 0)23456789 )0
Figura 8.1: Distribuciones binomiales para n=5 y n=IO, con p=0'5.
En otras palabras, una población sigue una distribución binomial respecto a un

carácter cuando los valores que toma la variable estadística correspondiente pueden
ser considerados el resultado de la repetición de un proceso de Bernoulli.
La población de moscas Drosophila Melanogaster sigue una distribución binomial
268
cuando se atiende al carácter «tener alas vestigiales». La extracción de n bolas conse

cutivas de una urna que contiene bolas de dos colores, cuando se extraen con reem
plazamiento, es otro ejemplo de distribución binomial.
Proposición 8.3: La media y la varianza de la distribución binomial B(x ;n,p)

vienen dadas por
H =np y ct:=npq (4)
Demostración: Vamos a determinar la función generatriz de momentos para obte

ner la media y la varianza:
Mx(t) = E(e")
T=0 Vr /
l(fjl
Derivando con respecto a t, se tiene:
dMy(t)
= n(pe'+q)" pe'
dt
d:Mx(t)
~'— = np\e(pe +q) +(n- l)(pe +q] pe e'\
dt
Para t=0. resulta: a¡ = np y a: = np[l + (n - l)p]

Luego la media es u v = a, = np
y la varianza o- = a, - a] = np[l + (n-¡ )p] - n~ p2 =np(l-q) = npq
Ejemplo 8.2
La población de moscas Drosophila Melanogaster. cuando se considera el carác

ter «tener alas vestigiales» sigue una distribución binomial B(x;n,l/4). Para una mues
tra de 10 moscas, hallar: a) la media de moscas de alas vestigiales: b) la desviación
típica: c) la probabilidad de que haya menos de 3 moscas de alas vestigiales.
a) La media es: I
u =np = 10-=25
b) la desviación típica:
a=Jn~p~q=JlO.-.-=¡'875
c) la probabilidad de que de alas vestigiales es
te haya menos de 3 moscas de
P(X < 3) - ¿I x O'25'075' ' = tT5256

269
Estas probabilidades están tabuladas para distintos valores de n y p. Ver tabla A. 1

del apéndice A.
8.2.2.1. Ajuste de una distribución de frecuencias por una binomial
Una variable estadística puede satisfacer las condiciones para ser considerada
binomial. Sin embargo, su distribución se separa del modelo teórico a causa de las
fluctuaciones del muestreo, según veremos en el próximo capítulo.
Para que una distribución empírica coincida con la distribución teórica, habría que
realizar infinitas experiencias.
Cuando una distribución de frecuencias satisface las condiciones necesarias para
ser considerada binomial, la distribución teórica que mejor se ajusta es la que tiene la
misma media que la distribución empírica.
Por ello, para efectuar el ajuste, se calcula la media de la distribución empírica de
frecuencias, x, y se utiliza la binomial de parámetro p = xln, ya que la media de la
binomial B(n,p) es x = np.
Una cuestión importante es establecer una medida de la bondad del ajuste, pero
esta cuestión se aborda en el capítulo 1 2.
Ejemplo 8.3
Consultados 100 grupos de 50 jóvenes sobre el tema de la eutanasia activa, se

obtuvieron las siguientes respuestas:
N° de jóvenes favorables 5 9 10 11 13 14 16 17 18 19
N° de grupos 2 6 13 14 25 16 12 7 3 2
Para ajustar la binomial. hay que identificar la media de la distribución, que viene dada
por el cociente de dividir el número de jóvenes ( 1 300) entre el número de grupos ( 1 00):
-A 1300
/00 ,
luego 1 3 jóvenes de cada 50 son favorables a la eutanasia activa por término medio.
Si suponemos que la probabilidad de que un joven sea partidario de la eutanasia
activa es p, como cada grupo de jóvenes se compone de 50, se trata de una binomial
B(50,p), siendo
x 13
P=- n =—50 = 0'26
Por tanto, admitimos que la opinión de los jóvenes sobre el tema de la eutanasia
activa sigue una distribución binomial B(50,0'26).
270
8.2.3. Distribución de Poisson
Aquellos experimentos en que una variable aleatoria representa el número de su

cesos independientes que tienen lugar en un intervalo de tiempo dado o en una
región específica del espacio se conocen como experimentos de Poisson.
Un ejemplo típico es el número de llamadas que atiende una central telefónica en
un cierto período de tiempo.
Otro ejemplo de experimento de Poisson es el número de partículas que emite una
porción de material radioactivo.
Un experimento de Poisson viene caracterizado por cumplir las siguientes condi
ciones:
A) La probabilidad de que un suceso tenga lugar en un intervalo de tiempo o en una
región es proporcional a la amplitud de dicho intervalo o región.
B) El número de sucesos que tienen lugar en un intervalo o región es independiente
del número de sucesos que tienen lugar en otro intervalo o región.
Definición 8.3: La variable aleatoria X que re presenta el número de sucesos

que tienen lugar en un intervalo de tiempo o en una región específica t. se
llama variable aleatoria de Poisson, cuya distribución de probabilidad repre-
sentaremos por
P(x;h) = P(X = x) = e x! ,x = 0,1,2... (5)
siendo A>0 una constante que representa el número promedio de resultados por uni
dad de tiempo o región.
El número promedio de resultados se calcula a partir de u=Xj. donde t es el tiempo
o región específica, con lo que la distribución de probabilidad es de la forma
x!
La variable aleatoria de Poisson teóricamente puede tomar cualquier valor entero,
I ,.
0 1 2 3 4 5 6 01 2 3 45678 01234 56789 10
Figura 8.2: Distribuciones de Poisson para valores I. 5 v 10 del parámetro.

271
pero la probabilidad de que tome un valor alto disminuye rápidamente cuando x toma
un valor superior a \i.
Proposición 8.4: La distribución de Poisson es una distribución de probabili

dad.
En efecto, veamos que ¿,P(X, HJ = 1
r ili:
Si tenemos en cuenta que Y ü- es el desarrollo de &. se tiene

Sí x!
Proposición 8.5: La media y la varianza de la distribución de Poisson P( x;u)

vienen dadas por
E(X)-- = H = Xty var(X) = u = Xt (6)
En efecto:
ya que el primer término de la suma es nulo. Entonces se tiene:
E(X)=pe^^=t^^ = ^p^^l
Haciendo y=x-1, se tiene la última igualdad, pues
„, (x-l)! ,.o y!
Por lo tanto:
E(X)=\il=\l
Veamos ahora el cálculo de la varianza. Para ello, utilizaremos la expresión
var(X) = E{x2)-[E(X)]2
272
Ahora bien
y teniendo en cuenta que x~ =x(x- l) + x, resulta
E(x2) = ÍUx-l) + x\e»^- = Yéx(x-l)e»^- + Y<xé»^- =

x-0 .*" x=O A>' J-0 .*'
Como los dos primeros sumandos del anterior sumatorio son nulos, se tiene
La igualdad anterior es evidente si se pone z=x-2. Luego

£(XJ)=|iJ+u
con lo que
var(X) = £U-) - [E(X)\ = u : + u - u * = H
Ejemplo 8.3
Se sabe que es 8 el número promedio de llamadas telefónicas que atiende una

central telefónica por minuto. Con los medios técnicos de que dispone la central, se
pueden atender como máximo 12 llamadas por minuto, produciéndose una
sobresaturación en la línea si se sobrepasa dicho número. Hallar la probabilidad de
que, en un determinado minuto, haya sobresaturación en las líneas.
Si representamos por X el número de llamadas que se reciben por minuto, se trata
de hallar:
P(X>12) = l-P(X<12) = l-Yé Pfo*} = / - 0'9362 = 0'0638
En este ejemplo, la media de llamadas por minuto y la varianza valen 8. Utilizando
la desigualdad de Tchebycheff, podemos llegar a ver que, con una probabilidad de al
menos 0'75. el número de llamadas que se reciben por minuto está comprendido entre
)i-2o y n+2o. es decir, entre 2'34 y 13'65.
Luego las tres cuartas partes del tiempo, la central telefónica atiende entre 3 y 1 3
llamadas.
273
Cuando una distribución de frecuencias cumple las condiciones que permiten con
siderar que sigue la ley de Poisson, la distribución que mejor se ajusta es aquella que
tiene la misma media que la distribución empírica.
Para efectuar el ajuste, se calcula la media de la distribución empírica, y se utiliza la
distribución de Poisson de parámetro igual a dicha media.
La distribución de Poisson puede utilizarse para aproximar distribuciones binomiales
cuando la probabilidad p de éxito es próxima a 0 y el número de pruebas muy grande.
La siguiente proposición, cuya demostración omitimos, establece las condiciones para
que la aproximación sea buena.
Proposición 8.6: Sea X una variable aleatoria con distribución de probabilidad

B(x;n,p). Cuando n—>°° p—>0 y n=np permanece constante, se verifica
B(x;n,p)->P(x;u,) (7)
Como consecuencia de esta proposición, la distribución de Poisson puede ser

interpretada como límite de la binomial cuando n es suficientemente grande y p sufi
cientemente pequeño. En la práctica, la aproximación es buena cuando n>30 y np<5.
Ejemplo 8.4
La probabilidad de que una persona muera debido a un cierto virus es de 0'001.

¿Cuál es la probabilidad de que mueran al menos 3 personas en una población de 3000
personas afectadas por dicho virus?
El número de personas afectadas es de n=3000>30, y la probabilidad de que una
persona afectada muera es de p=0'001, luego np=3000x0'001=3<5. Por tanto, la aproxi
mación por la distribución de Poisson de parámetro u=np=3 es buena, siendo la pro
babilidad pedida:
P(X>3)=1 -P(X<3)=l-0'4232=0'5768
8.3. Distribución normal general
Abrahan De Moivre, en 1733, desarrolló la ecuación de la curva normal. Después,

Gauss llegó a ella estudiando los errores en las mediciones de una misma magnitud.
Desde entonces, la distribución normal es conocida como «distribución de Gauss» y
su gráfica como «curva de Gauss».
La distribución normal depende de dos parámetros, la media m y la desviación
típica s. y se representa por N(x;u.,a). Tiene especial interés el caso particular en que
u.=0 y a=1, que se conoce como «normal reducida» o «normal tipificada», y que
representaremos por N(z;0,l).
274
Definición 8.4: Una variable aleatoria X sigue una distribución normal con
parámetros |i y o, siendo |i un número real cualquiera y o>0, cuando su fun
ción de densidad es
f(x) = —p-éFT , Vx € 9? (8)
oV27t
Esta definición proporciona una familia de distribuciones normales, de modo que,
para cada pareja de valores que asignemos a los parámetros |i y o, tendremos una
distribución diferente.
Fijados los valores de |i y o, queda perfectamente determinada la distribución
normal.
Proposición 8.7: La función (8) es una función de densidad.
En efecto, esta función satisface las dos condiciones necesarias para ser una
función de densidad:
1) f(x)>Oyxeft
2) jfMdx = /
Demostración
1 ) Que f(x)>0 es inmediato, ya que se trata de una función exponencial.

2) Veamos que se cumple la segunda condición:
x- M 1
Si hacemos el cambio y = , se tiene dv = —dx, con lo cual
o o
J flx)dx = J -fE=e Trfv = -?== J eldy

, .- V27t V2Jt o
2
Tomando ahora ; = '—, será dz = ydy, de donde se deduce
. dz dz
Luego
7 2 7 r 2 7 / / Jl\ 1 ,-
ífix)dx = 72i l e7dy = im ! z:e^dz - iz\ir ^rn - '
275
Para deducir la última igualdad, hemos utilizado la propiedad de la función matemática P :
= Vrc
a¡
8.3.1. Propiedades
La función de densidad de una variable aleatoria X, cuya distribución es normal

N(x;u,o), cumple las propiedades:
I. El dominio de f es todo el campo real y su imagen está contenida en el conjun
to de los números reales positivos.
II. Es simétrica respecto de la recta x=|i.
III. Tiene una asíntota horizontal, y=0.
/
IV Alcanza un máximo absoluto en el punto M-
oJJk
Y Es creciente en el intervalo (-°°,n) y decreciente en (n,-H!°).
VI Posee dos puntos de inflexión en x=|i-a y x=|i+a.
VIL La función generatriz de momentos viene dada por
g(t) = em~2~yte'X
VIH. Los parámetros |i y o son, respectivamente, la media y la desviación típica de
la distribución normal.
Pasamos la demostración de las propiedades al apéndice de este capítulo.
8.3.2. Representación gráfica de la normal general
Las propiedades anteriores nos permiten trazar la gráfica de la curva normal de

media u y desviación típica o. Por su forma
acampanada, es conocida como campana de ,,„.
Gauss.
Sobre el eje de abscisas, se representan
los valores observados (valores de la varia
ble x) y, sobre el eje de ordenadas, las fre
cuencias (valores que toma la función).
Todos los posibles valores que toma la
función están bajo la curva, por lo que se
puede decir que el área total comprendida
entre la curva y el eje de abscisas contiene Figura 8.3: Gráfica de la normal general.
1 La función Y se define en el apéndice B.

276
el 100% de los individuos de la población (si las frecuencias se expresan en porcenta

jes).
Si dibujamos dos curvas normales con la misma desviación típica, pero distintas
medias, |ll[ y u,2, las dos curvas tienen la misma forma, aunque están situadas en
distintas posiciones con respecto al eje de abscisas: la primera centrada en \i y la
segunda centrada en uv
m=m
Figura 8.4: Curvas normales con la misma Figura 8.5: Curvas normales de igual
varianza y distintas medias. inedia v distintas varianzas.
En cambio, dos curvas normales con la misma media y distintas varianzas estarán
situadas en la misma posición sobre el eje de abscisas; la curva con mayor desviación
típica será más baja y dispersa. Esto es así, porque el área bajo las dos curvas tiene
que ser igual a 1 .
La proporción de la población, cuyos valores están comprendidos entre dos pun
tos x, y x2, es el área bajo la curva y sobre el eje de abscisas comprendida entre las
ordenadas correspondientes a dichos puntos, que, en otras palabras, es la probabili
dad de que la variable aleatoria X tome cualquier valor entre x, y x,.
El cálculo de dicha probabilidad o área se realiza por medio de integrales definidas:
P(x,<X<x2)= íf(x)dx
Estas integrales han sido tabuladas, pero es necesario tipificar la variable antes, ya
que los datos tabulados corresponden a la normal tipificada.
Figura 8.6: Área comprendida entre xi v xr

277
1.4. Distribución normal tipificada
Dada la variable aleatoria X de distribución normal N(x;u,o). la variable
es también una variable aleatoria cuya distribución es normal de parámetros |i=0 yo=1.
Al cambio de variable
X-u
Z= -
a
que permite pasar de X a Z, se le llama tipificación de la variable, según hemos visto

en capítulos anteriores. La nueva variable Z es llamada variable tipificada y su distri
bución, distribución normal tipificada.
La función de densidad de la nueva variable Z viene dada por:
f(z)=êí''yze* (9)
8.4.1. Propiedades de la normal tipificada
A) Su dominio de definición es todo el campo real y su imagen está contenida en

el conjunto de los números reales positivos.
B) Es simétrica respecto del eje de ordenadas.
C) Tiene una asíntota horizontal, y=0.
( 1
D) Alcanza un máximo absoluto en el punto 0, r—
V V27I
E) Es creciente en el intervalo (-°°.0) y decreciente en (0,+°°).
F) Posee dos puntos de inflexión en x=-1 y x=1.
G) La función generatriz es „(t) ~ e\ yre <^.
H) Su media es 0 y su desviación típica 1 .
8.4.2. Representación gráfica de la normal tipificada
Las propiedades que acabamos de ver nos permiten trazar la gráfica correspon
diente a la función de densidad de la normal tipificada N(x;0,l ).
En la figura 8.7, se observa la simetría con respecto al eje de ordenadas, el valor
máximo que corresponde a x=0, y cuya ordenada es aproximadamente 0'4, así como
los puntos de inflexión para x=-1 y x=1.
278
El área bajo la normal compren

dida entre las ordenadas z=-2 y z=2
es 0'9544. lo que supone que el
95'44% del total se sitúe entre -2
y 2 desviaciones típicas de la me
dia, quedando en ambos extremos
dos colas, cada una con el 2'28%
del total del área.
Precisando más. entre las orde
nadas correspondientes a -1'96 y
1'96 está el 95% del área bajo la
Figura 8.7: Función de densidad de la normal tipificada. curva normal tipificada, quedando
un 2'5% de la misma en cada una
de las colas.
8.4.3. Función de distribución
La función de distribución de la normal tipificada viene dada por la expresión
F(z)= ]-¡=eí'!dt,VzeX (10)
Esta integral proporciona el área que hay bajo la curva normal tipificada y sobre el
eje de abscisas en el intervalo (-°°,z\.
La función de distribución da la probabilidad de que la variable tipificada Z tome
un valor menor o igual que z.
F(z) = P(Z<z)
La representación gráfica de la función de distribución es la curva de distribución.

Se trata de la curva
acumulativa de frecuencias, que
estudiamos en el capítulo 1. que
es monótona no decreciente, está
acotada entre 0 y 1 , y pasa por el
punto P(0, 1/2).
La función de distribución ve
rifica la siguiente propiedad:
Figura 8.8: Cuna de distribución de (11)

F(-z) = l-F(z),Vze 9?
la normal tipificada.
279
Esta propiedad resulta evidente por

la simetría de la gráfica de la función
de densidad de la normal tipificada.
Nos dice que el área bajo la curva
de la normal tipificada a la izquierda
del valor -z es igual al área que queda
a la derecha de z.
8.4.4. Áreas bajo la curva normal Figura 8.9: Áreas iguales por simetría.
Si X es una variable aleatoria normal con función de densidad N(x;|i,a), la proba

bilidad de que X tome un valor comprendido entre x=x, y x=x, es igual al área bajo la
curva de la función de densidad y sobre el eje de abscisas, comprendida entre las
ordenadas x=x, y x=x,. Este valor nos lo proporciona la integral
1 U-n\2
P(x, < X < x,) = J N(x;\i,o)dx = U
&j2n ,,
~dx
M M
Figura 8.10: Áreas de diferente tamaño entre c, y t,.
Esta área depende de los valores de |i y o. La figura 8.10 nos muestra el área bajo
dos curvas normales, N(x^^) y N(x;|i,,o\). comprendida entre dos valores x, y x,. Se
puede apreciar cómo las dos regiones son de distinto tamaño.
Este resultado parece indicar la necesidad de elaborar infinitas tablas, una por
cada media y cada desviación típica, para calcular el área comprendida entre los valo
res x, y xr
El siguiente resultado, sin embargo, nos va a permitir calcular el área bajo una
curva normal cualquiera comprendida entre dos valores, por medio del área bajo la
normal tipificada comprendida entre los valores transformados de los anteriores.
280
Proposición 8.8: Sea X una variable aleatoria normal, cuya función de distri
bución es Fx(x) y sea F?(z) la función de distribución de la variable aleatoria
tipificada Z=(X-u.)/a. Entonces se verifica que
En efecto, de la igualdad de los conjuntos
{x<x}Jz = ^<^.z
se deduce Fx(x) = P(X<x)-- JLfj<fjQ P(Z<z) = Fz(z)
Esta proposición nos permite relacionar áreas bajo una curva normal general con
áreas bajo la normal tipificada.
En efecto, acabamos de demostrar la siguiente igualdad:
P(a, <X<a2) = P\ — - < Z < (12)
Por tanto, el área bajo la curva normal general comprendida entre las ordenadas
x=a, y x=a2 es igual al área bajo la curva normal tipificada comprendida entre sus
transformadas z=b y z=bv
f (z)
Figura 8.11: El área bajo la normal general es igual al área transformada

bajo la normal tipificada.
La distribución normal N(z;0.1) está tabulada. Las tablas A. 3 del apéndice propor
cionan el área bajo la curva normal tipificada correspondiente a P(Z<z). La tabla A. 3.1
da áreas para valores negativos de la variable, comenzando en -3 '49 y terminando en
281
0. La tabla A.3.2 proporciona áreas

correspondientes a valores positivos
de la variable, comenzando en cero
y terminando en 3'49.
Para cada valor de z, las tablas
A. 3.1 y A.3.2 dan el área desde el
comienzo de la curva hasta la orde
nada que corresponde a z.
Así: F(1'34) = P(Z < 1'34)
proporciona el área de la parte raya Figura 8.12: Área correspondiente a F(l'34).
da de la figura 8.12.
Las tablas A. 3 dan probabilidades redondeadas a 4 y 5 cifras decimales, para
valores de z con 2 decimales.
Si queremos hallar P(Z<1'34), se mira en la columna de la izquierda el valor de z
igual a 1'3. Avanzando horizontal mente hacia la derecha hasta llegar a la columna
encabezada por 0'04 (columna que señala las centésimas), se encuentra el valor 0'90988
que corresponde a la probabilidad buscada.
0,00 0,01 0,02 0,03 0,04 0,09

0,0 03000 03040 03080 03120 0.5160 0,5359
1,2 0,8849 0.8869 0,8888 0,8907 0,8925 0.90147

1.3 0.90320 0.90490 0.90658 0,90824 0.90988 0,91774
Ejemplo 8.5
Sabiendo que la variable aleatoria X sigue una distribución normal de media u=10
y desviación típica a=2'5, vamos a calcular:
a) la probabilidad de que la variable aleatoria X tome un valor menor o igual que
12; b) la probabilidad de que X tome un valor comprendido entre 9 y 12; c) la proba
bilidad de que X sea mayor que 12.
Solución: a) Para calcular P(X<12), tipificando la variable, resulta:
12-10'
P(X < 12) : P(Z < 07}) = (Y7881
t 2'5 2'5
282
I ¡ x l
10 12 0 O'B
Figura 8.13: Región original v región transformada.
Í9-10 X-10 12-10}

b) P(9<X<12)=¡ -<- -< P(-0'4 <Z<0'8) =
25 2'5 2'5
0'8) - P(Z < -ff4) = (Y7881 - O'3446 = 0'4435
X-10 12-10"
c) P(X>12) = 1-P(X<12) = 1 < = /-P(Z<C8):
25 " 25
= 1-0'7881 = 0'2119
Ejemplo 8.6
Una empresa que tiene 2000 empleados paga a éstos un salario cuya media es de
800 ptas. por hora de trabajo, con una desviación típica de 75 ptas.
Si los salarios están distribuidos normalmente, se trata de hallar:
a) el porcentaje de empleados que cobra menos de 650 ptas. a la hora:
b) el porcentaje de empleados que ganan más de 900 ptas. a la hora:
c) el porcentaje de empleados que ganan un salario comprendido entre 700 y 900
ptas. por hora de trabajo;
d) la probabilidad de que un empleado elegido al azar gane un salario inferior a 750
ptas. por hora de trabajo;
e) el número de empleados que ganan por debajo de las 750 ptas. a la hora;
f) el valor del salario por hora de trabajo, por encima del cual se encuentran el 20%
de los empleados que más ganan.
Solución: a) El porcentaje de empleados con salario inferior a 650 ptas. se obtiene

de multiplicar por 100 la probabilidad de que la variable aleatoria X tome un valor
menor o igual que 650.
Para calcular esta probabilidad, tenemos que tipificar la variable, haciendo
X-800
283
'X-800 650 -800 a

con lo que P(X < 650) = P P(Z < -2) = 0'02275
7?
Por tanto, un 2'27% de los emplea
dos percibe un salario menor de 650
ptas.
b) Para hallar el porcentaje de em

pleados que cobran un salario superior
a 900 ptas. por hora de trabajo, hay que
calcular la probabilidad de que la varia
ble aleatoria X tome un valor mayor Figura 8.14: Empleados con salario superior
que 900, y esta probabilidad es: a 900 pías.
P(X>900) = 1-P(X<900):
900-800
*
1-P\Z<
75
= 1-P(Z<¡'33).
1-0'9082 = 0'0918
lo que supone un 97c de los emplea
dos.
c) Calculamos, en primer lugar, la
probabilidad de que un empleado ele
Figura 8.15: Empleados que cobran entre
gido al azar gane un salario comprendi 700 y 900 ptas.
do entre 700 y 900 ptas.
P(700<X<900) =
(700-800 900-800
= p\ <z<
{ 75 75
= P(-1'33 <Z< ¡'33) = P(Z < 1'33)-P(Z < -1'33) = 0'9082 - 0'091 8 = 0'8164
lo que supone el 81% de los empleados.

750-800]
d) P(X < 750) : Z< = P(Z < -O'66) = 0'2546
75
e) Acabamos de encontrar que la probabilidad de que un empleado perciba un
salario inferior a 750 ptas. a la hora es 0'2546. lo que supone un porcentaje del 25'46%
de los empleados de la empresa.
Dado que la empresa cuenta con 2000 empleados, el 25'46% de 2000 supone unos
509 empleados.
284
O El valor, por encima del cual se encuentran el 20% de los empleados que más
ganan, coincide con el valor por debajo del cual se encuentran el 80% de los emplea
dos que menos ganan.
Luego se trata de hallar, en primer lugar, el valor de la variable tipificada z, tal que
P(Z<z,)=0'80.
La tabla A. 3. 2 del apéndice nos proporciona el valor z =0'84. Este valor correspon
de a la variable tipificada. Deshaciendo el cambio, resulta:
x,-800
«84 = —
de donde x =800+0" 84x75=863.

Luego el 20% de los empleados que más ganan perciben un salario superior a 863
ptas. por cada hora de trabajo.
8.5. Aproximación de la binomial
En el apartado 8.2.3, hemos visto cómo la distribución de Poisson aproxima a la

binomial cuando n es grande y p próximo a 0 ó a 1 . La distribución normal proporciona
una buena aproximación de la binomial cuando n es grande y p no muy próximo a 0 ó
a 1, y, a veces también cuando n es pequeño si p se aproxima a 1/2.
Es correcto utilizar la distribución normal como aproximación de la binomial cuan
do np>5 y nq>5. Si p es muy próximo a 0'5, la aproximación es válida si np>3, aún
cuando n sea pequeño.
La siguiente proposición, conocida como teorema de Laplace-De Moivre, que enun
ciamos sin demostración, permite la aproximación de una distribución discreta (la
binomial) por una distribución continua (la normal).
Proposición 8.8: Sea X una variable aleatoria binomial de media |i=np y varianza
(T=npq. Cuando n tiende a °°, la variable aleatoria
X-np
.Jripq
sigue una distribución normal tipificada N(z;0,l).
Un gráfico nos ayudará a entender el proceso que se sigue para aproximar una
distribución binomial por una normal:
A) Se dibuja el histograma correspondiente a la binomial.
B) Se superpone la curva normal con la misma media y varianza que la binomial.
La probabilidad de que la variable aleatoria binomial X tome un valor concreto xo
es igual al área del rectángulo del histograma cuya base contiene el valor xo.
285
Cuando se realiza la aproximación, hay que tener en cuenta que se está aproximan
do una variable discreta por una variable continua, lo que exige una corrección de
continuidad, que consiste en utilizar la siguiente igualdad:
P(a <X<b) = P(a-O'05 < X <b + 0'05) (13)
Esta igualdad nos indica que, para calcular la probabilidad de que la variable
binomial tome valores enteros mayores o iguales que a y menores o iguales que b. se
aproxima por el área bajo la normal comprendida entre a-0'5 y b+0'5, lo que supone
añadir la mitad de las áreas de los rectángulos extremos, que, de otro modo, se perde
rían.
En el caso particular en que X tome un determinado valor entero r, la corrección de
continuidad viene dada por la igualdad (14). Se aproxima por el área bajo la normal
comprendida entre los valores r-0'05 y r+0'05, que es una aproximación del área del
rectángulo cuya base está centrada en r.
P(X =r) = P(r-0'05 <X< r + 0'05) (14)
Ejemplo 8.7
Una variable aleatoria X sigue una distribución binomial B(x;n,p) con n=10 y p=0'4.
Veamos la aproximación que se consigue con la normal, calculando las probabilidades
P(X=5) y P(3<X<6) mediante:
a) la tabla de la binomial;
b) la aproximación por la normal.
Solución:
Dibujaremos el histograma correspondiente a la binomial B(x;10,0'4), superponien
do después la curva normal de media |i=np=4 y varianza o:=npq=2'4.
Esta gráfica nos facilita una primera panorámica de la bondad del ajuste.
Figura 8.16: Aproximación de la binomial.

286
a) Las tablas de la binomial nos proporcionan, para n=10, r=5 y p=0'4, el valor
0'2007.
Si aproximamos el valor de P(X=5) por la normal, hay que evaluar el área bajo la
normal de media n=10x0'4=4 y varianza a2=10x0'4x0'6=2'4, comprendida entre los va
lores 4'5 y 5'5:
Í4'5-4 5'5-4)
P(4'5<X<5'5) = P\ —— <Z<—— =P((y32<Z <0'96) =
= P(Z < (Y96) - P(Z < (Y32) = (Y8315 - (y6255 = (72060

Se obtiene 0'2060, que es un valor muy próximo al valor 0'2007 que se obtuvo por
medio de la binomial.
b) Calculemos P(3<X<6), en primer lugar, por la binomial:
P(3<X<6)=0'21 50+0'2508+0'2007-tO' 1 1 15=0'7780
Utilizando la normal:
(25-4 6'5-4)
P(3<X<6) = P(2'5 <X<6'5) = fí <Z< : P(-ff96 <Z< 1'61) :
l 1'55 1'55 ,
= P(Z < l'61)-P(Z<-ff96) = 0'9463-0'16S5 = 0'7778
Resulta así el valor 0'7778, que es próximo al valor que se obtuvo mediante la
binomial, 0'7780.
En el siguiente ejemplo, al ser n bastante grande, es preciso aproximar la binomial
por la normal.
Ejemplo 8.8
Un profesor decide hacer un examen en forma de test con un cuestionario de 100

preguntas. Cada pregunta va acompañada de 5 respuestas, de las cuales una sola es
la correcta.
El profesor está interesado en averiguar la probabilidad de que un alumno, que
responde eligiendo al azar una de las 5 respuestas, obtenga entre 10 y 30 respuestas
correctas.
Solución:
Se trata de una distribución binomial, donde el número de preguntas es n=100 y la
probabilidad de responder correctamente a cada una de las preguntas es p=l/5=0'2.
Al ser np=100x0'2=20>5 y nq=100x0'8=80>0, se puede aproximar por una normal
N(x;20,4).
Entonces
Í9'5-20 T0S -20'
P(10 < X <20)= P(9'5 < X < 2'05) = P\ <Z<
\ 4 4
287
: P(-7625 <Z< 0'125) = P(Z < 0'125)-P(Z < -2?625)

= 0'5478 - 0'0044 = 0'5434
8.6. Ejercicios Propuestos
8.1. La probabilidad de que un enfermo se recupere tomando un nuevo fármaco es

0'95. Si se les administra a 8 enfermos, hallar:
A) La probabilidad de que se recuperen 6 de los 8 enfermos. B ) La probabilidad de
que se recuperen al menos 5 de los enfermos.
8.2. La probabilidad de que una persona muera a causa de un virus es 1/250. Hallar la
probabilidad de que mueran seis de las 1000 personas siguientes que sean contagia
das por el virus.
8.3. Un examen se compone de 12 preguntas con cinco opciones de respuesta cada

una, de las cuales una sola es correcta. Si un alumno realiza el examen respondiendo
al azar, hallar:
1 ) la probabilidad de que responda correctamente más de 5 preguntas; 2) la proba
bilidad de que acierte al menos una: 3) la probabilidad de que no acierte ninguna; 4)
el número medio esperado de respuestas acertadas.
8.4. La probabilidad de que una válvula cardíaca funcione al cabo de dos años es 0'75.
Hallar la probabilidad de que, de las 3500 válvulas colocadas, 2600 estén funcionando
al cabo de 2 años.
8.5. Se sabe que el 0'002 por ciento de los terremotos que se dan en una zona propen
sa a los seísmos es superior al índice 6 de la escala de Richter. Si se producen 500
temblores de tierra en un año, 1 ) hallar la probabilidad de que más de dos tengan una
intensidad superior a 6 en dicha escala. 2) ¿Cuál es el número de terremotos de inten
sidad superior a 6 esperado?
8.6. El número medio de aviones que piden pista para aterrizar en un aeropuerto es de
tres por minuto. Si la torre de control puede atender a ocho aviones por minuto como
máximo, ¿cuál es la probabilidad de que, en un determinado minuto, el número de
aviones sea tal que no puedan ser controlados?
8.7. Una industria de electrónica ha adquirido un robot para montar sus productos.
Durante el mes de prueba, se ha comprobado que 14 días no hubo ningún fallo, 12
días hubo un solo fallo, 3 días se dieron 2 fallos y un solo día se produjeron 3 fallos.
288
1) Ajustar una distribución binomial a la distribución empírica observada. 2) Hallar

la probabilidad de que un día determinado se dé un fallo, usando la distribución
teórica.
8.8. Se sabe que el 25% de los estudiantes de una universidad son fumadores. Se
selecciona al azar una muestra de ocho estudiantes. 1) ¿Cuántos de ellos se espera
que sean fumadores? 2) Hallar la probabilidad de que ninguno sea fumador. 3) Hallar
la probabilidad de que tres sean fumadores.
8.9. Una factoría del automóviles adquiere 500 componentes para montar en sus co
ches. La empresa suministradora le comunica que uno de cada 100 componentes tiene
defecto. Calcular: 1 ) la probabilidad de que 5, 6 ó 7 sean defectuosos; 2) la media y la
desviación típica de la variable X= «número de componentes defectuosos»; 3) los
extremos del intervalo entre los que se encuentran las 3/4 partes del número de com
ponentes defectuosos (utilizar la desigualdad de Tchebycheff); 4) la probabilidad co
rrespondiente al intervalo del apartado anterior.
8.10. De una urna, que contiene 15 bolas rojas y 20 blancas, se extraen seis bolas con
reemplazamiento. Si se define la variable X = «número de bolas rojas extraídas», 1)
¿qué distribución sigue la variable X?; 2) ¿cuál es el número medio de bolas rojas
extraídas?
8.11. La llegada de aviones a un aeropuerto sigue una distribución de Poisson de

parámetro 1 '4. Hallar las probabilidades de los siguientes sucesos:
1 ) Que el número de aviones que lleguen sea mayor que cuatro.
2) Que lleguen entre tres y cinco aviones.
3) Que llegue algún avión.
8.12. Una máquina saca con defecto un 20% de las piezas que fabrica. Si se seleccio
nan seis piezas fabricadas por la máquina, hallar la probabilidad de que: 1 ) dos de ellas
tengan defecto; 2) tengan defecto más de dos; 3) ninguna tenga defecto.
8.13. En un paquete de 25 lámparas hay tres que están fundidas. Hallar la probabilidad
de que, al sacar 3 al azar, una al menos de las tres esté fundida.
8.14. Dada una distribución normal N(z;0,l), calcular las siguientes probabilidades:
1) P(Z<2'25); 2) P(Z>0'35); 3) P(Z<-1 '34); 4) P(Z£2'28); 5) P(-1'5<Z<0,96)
8.15. Dada una distribución normal N(x;l,2), calcular las siguientes probabilidades:
1) P(X<2'35); 2) P(X<-2'35); 3) P(X<5'56)
289
8.16. Dada una distribución normal N(z;0,l ), calcular el valor de a tal que:
1 ) P(Z<a)=0'9798 2) P(Z<a)=0' 1 762
3)P(0'34^<a)=0'1664 4) P(a<Z<r%)=0'6765
8.17. Una variable aleatoria X. que sigue una distribución normal, es tal que
P(X>4)=0'3085 y P(X<7'5)=0'8944
Hallar su media y su desviación típica.
8.18. Se sabe que la estatura de los jóvenes españoles en edad de cumplir el servicio
militar sigue una distribución normal de media 1 '69 m. y desviación típica 0'08 m. Si se
incorporan al ejército 10000 jóvenes, hallar:
1 ) El número de reclutas cuya estatura está comprendida entre 1 '60 y 1 '70 cm.
2) El número de reclutas que miden menos de 1 '60 m.
3) El número de reclutas que miden más de 1 '70 m.
8. 19. Se sabe que la talla de una población de pigmeos se distribuye según una normal
de media 1,35 y desviación típica 0'6. Hallar:
1 ) Entre qué valores en torno a la media de la población se encontrarán el 80% de
los pigmeos.
2) La altura, por encima de la cual, se halla el 15% de los más altos.
8.20. Si se lanza un dado 400 veces, ¿cuál es la probabilidad de que salga un 3 ó un 4

más de 1 00 veces, pero menos de 1 30?
8.21. Un equipo de biólogos midió la longitud de 365 arbustos de una determinada

especie, obteniendo los siguientes resultados:
Longitud (cm.) 15-16 16-17 17-18 18-19 19-3) 31-21 21-22 22-13 23-24 24-15 15-26 26-27
N° arbustos 4 6 17 22 59 78 62 53 34 20 7 3
1 ) Dibujar el polígono de frecuencias. 2) Calcular la media y la desviación típica. 5)

Aproximar mediante una distribución normal que tenga la media y la desviación típi
cas calculadas. 6) Si el número total de arbustos se sabe que es de 5000, ¿cuántos
habrá que midan entre 18 y 21 cm.?
8.22. En una clase de 60 alumnos, se sabe que cada uno falta el 4 por ciento de los
días. Hallar la probabilidad de que un día determinado: 1) estén todos los alumnos en
clase; 2) Falten 10 alumnos: 3) falten más de 10 alumnos.
290
Demostración de las propiedades de la distribución normal
I. Se trata de una función exponencial, que está definida para todo número real y
toma valores estrictamente positivos.
II. La simetría respecto de x=u resulta evidente, puesto que
f(u-x)=f(M+x)-
III. y=0 es una asíntota horizontal, ya que ümf(x) = 0
IV. La derivada primera es
Si igualamos a cero la derivada primera, se tiene
0 de donde resulta x - u = 0 => x = u.

o
La derivada segunda es
1-5 fî44*»ffl-4».-
Como/Tu ) = -—r/(|i)< 0. queda probado que f alcanza su máximo en x=u. Ade-

°~ 1
más f toma, para x=u, el valor /(u ) =
cW27i .
Y Si x<u, es f'(x)>0, luego f es creciente en (-°°,|i) y
si x>n, es f'(x)<0, luego fes decreciente en (|i, +<*,).
VI. Igualando a cero la derivada segunda, se tiene:

x-\l V
.1=0
de donde se deduce: / => (X - u Y = cr

o
y, por tanto: x - u = o y x - u = -o => x = u + o y x = u - o

291
luego los puntos de abscisa x=|i-s y x=|i+s pueden ser dos puntos de inflexión. Los
intervalos de concavidad y convexidad se obtienen fácilmente:
Si -°°<x<u-o, es f"(x)>0 y la curva es cóncava,
si |i-o<x<|i+o, es f"(x)<0 y la curva es convexa,
si n+0<x<+°°, es f'(x)>0 y la curva es cóncava.
Esto corrobora que en x=n~o y x=n+o hay dos puntos de inflexión.
VII. Por definición, la función generatriz de momentos es

t vi 7)e"-ê~-^rdx
g(t)=E[e,x]= 1 iV'rf
Si hacemos el cambio . - r~ u , es x=u+oz y dx=odz

y, por tanto °
g(t) = í ¿">«*'-l=eLTadz = e» í ~¡= e"* r dz
1 , 2taz-z: -(z2-2taz) -(z2-2taz+a:r-a:r)

Pero taz--z= —= ~ = =
2 2 2 2
-(z2-2taz+a2r). oY -(z-atf (atf
+ —— = —-— + -
2 2 2 2
Í¡ g iz.aír
~7=e -(z-aif
2 ' (oír
? dz = el"e (oír
-' "T
J ~7=] dz
Haciendo ahora el cambio y=z-ot, con lo que dy=dz, queda
\-j=eldy = e¡'
ya que Jí T—' e 2 d\ = I .
- \27t
VIII. Si utilizamos la función generatriz de momentos, resulta:
i) g'(t) = e»'--r(Vi+tdl)
Entonces E(X)=g'(0)=|i.
ü) g'(t)=e,u-~h(\l+tat r + crV"*^
luego e(x:) = g"(0) = u" +o:. y, por lo tanto, la varianza será

var(X) = E[X:] - [E(X)f = u : +a: - |i 2 = O"'
TERCERA PARTE
ESTADÍSTICA INFERENCIAL
CAPITULO 9
INFERENCIA ESTADÍSTICA
9. 1 . Fundamento teórico
Las poblaciones, con cuyos datos trabaja el estadístico, son habitualmente dema
siado amplias, de tal forma que no suele ser posible recoger la información de todos
sus elementos, ni siquiera de una parte importante de los mismos.
Incluso en poblaciones menos numerosas, la recogida de datos no siempre es
fácil, unas veces porque lo impide el coste de la propia toma de la información y otras
porque la información lleva consigo la destrucción de los individuos que la compo
nen.
Ante estas situaciones, el investigador puede optar por la selección de un
subconjunto de elementos de la población (muestra), del que recopilará la información
que necesita.
El estadístico, por lo tanto, sólo utiliza los datos que le proporciona la muestra
seleccionada, y, sin embargo, las conclusiones que obtiene deben ser válidas para
toda la población.
Conseguir las técnicas necesarias para realizar inferencias acerca de una población
completa a partir de los datos de una muestra de la misma es el objeto de la «Estadís
tica Inferencial», cuyo fundamento teórico está basado en el modelo matemático del
«Cálculo de Probabilidades».
9.2. Objetivos
La Estadística Inferencial posee múltiples aplicaciones en todos los campos de la

investigación, por lo que sus métodos se describen de forma genérica.
En la práctica diaria, el investigador lo que desea es sacar conclusiones para toda
la población a partir del conocimiento de una parte de la misma.
296
Ejemplo 9.1
Supongamos el caso de un fabricante de lámparas que quiere ensayar un nuevo

método de producción que supone una importante inversión económica para su in
dustria.
Considera que dicho método es interesante para la empresa si mejora la vida media
de las lámparas en un cierto número de horas. Para ello, tiene la posibilidad de expe
rimentar con una muestra de 60 lámparas elaboradas previamente según los nuevos
criterios.
El interés del fabricante, en un principio, está en hacer una estimación de la vida
media de todas las lámparas que vaya a producir a partir del resultado que le propor
cionarán las 60 lámparas de que dispone. La vida media de las lámparas de la muestra
de 60 le permite acceder a una primera estimación de la vida media de la población.
Pero a nuestro fabricante le gustaría tener una idea más precisa de la proximidad
entre el valor estimado y el valor real de la media de la población; está interesado en
obtener un intervalo pequeño, que incluya el valor de la duración media real de las
nuevas lámparas con una probabilidad alta.
Suponiendo que la muestra le proporciona una duración media superior a la de las
lámparas que ya produce, sería muy interesante saber si la ganancia en horas obteni
da es una garantía que le permite concluir que las nuevas lámparas forman parte de
una población cuya vida media es distinta de la vida media de la población actual.
Estos objetivos se corresponden con las tres categorías de problemas que aborda
la «Estadística Inferencial»:
A) La estimación de los valores de los parámetros de la población.
B) La determinación de un conjunto de valores (suele ser un intervalo) con una
probabilidad alta, dada, de contener al verdadero valor del parámetro.
C) La evaluación de ciertos resultados cuando se cumplen determinados valo
res de los parámetros de una población.
El conjunto de métodos utilizados para la estimación de un parámetro de la pobla
ción a partir de la información que proporcionan los datos de la muestra constituye la
«estimación puntual».
La «estimación por intervalo» da respuesta al segundo de los objetivos plantea
dos.
Estos dos métodos son el objeto de la «Estadística Inferencial Inductiva», que
desarrolla técnicas para la estimación de los parámetros de la población:
a) bien a partir de los datos de una muestra, proporcionando una medida de la
incertidumbre de la propia inducción, como actúan los métodos clásicos de esti
mación.
b) bien combinando la información muestral con una información previa, como
hacen los métodos bayesianos.
La respuesta a la tercera de las alternativas la proporciona la "Estadística Inferencial
297
Hipotético-Deductiva", que facilita procedimientos para aceptar o rechazar una hipó

tesis, generalmente sobre un parámetro desconocido de la población, dando una me
dida del posible error cometido.
Hemos de señalar también que, para que las conclusiones de la "Estadística
Inferencial" sean válidas, las muestras seleccionadas deben ser aleatorias y represen
tativas de la población. La "Teoría de Muestras" y el "Diseño de Experimentos" son
dos ramas de la "Estadística" que tienen por objeto el estudio de la selección y
representatividad de las muestras.
Las consideraciones anteriores ponen de manifiesto la necesidad de introducirnos
en el conocimiento de algunas técnicas basadas en estas disciplinas, que permiten
obtener las distribuciones muestrales de los estadísticos y encontrar una medida del
error debido al muestreo.
9.3. Población y muestra
Cuando hablamos de estimar un parámetro de la población a partir de los datos

proporcionados por una muestra, estamos manejando unos conceptos que conviene
precisar.
Entendemos por población el conjunto de todos los elementos que van a ser
objeto de un experimento aleatorio. Estos elementos están representados a veces por
una variable.
Una muestra es un subconjunto de elementos de la población. Hay, sin embargo,
distintas formas o métodos de seleccionar una muestra, que dependen, en general, de
las características de la población que se va a estudiar.
Las poblaciones pueden ser finitas o infinitas, según apuntábamos en el capítulo
primero.
Sin embargo, en la mayoría de los casos que se presentan en la práctica, poblacio
nes con un número finito de individuos pueden ser consideradas infinitas. Así, cuan
do una muestra contiene un número de individuos menor o igual al 5% de los indivi
duos de la población, ésta se considera infinita.
9.4. Muestreo aleatorio
El muestreo aleatorio es un proceso de selección de muestras, mediante el cual se

garantiza que todos los elementos de la población tienen la misma probabilidad de ser
elegidos para formar parte de la muestra. A la muestra seleccionada de este modo se
le llama muestra aleatoria.
Este tipo de muestreo es el procedimiento habitual que utiliza la Estadística para
seleccionar una muestra.
298
En el proceso de selección de una muestra, puede suceder que, una vez seleccio
nado y computado un elemento, éste sea devuelto a la población, pudiendo ser selec
cionado de nuevo para formar parte de la misma muestra. En tal caso, se habla de
muestreo con reemplazamiento.
En cambio, si una vez seleccionado un elemento, no puede volver a formar parte
de la misma muestra, se habla de muestreo sin reemplazamiento.
Cuando utilizamos el método de muestreo con reemplazamiento, el resultado de la
extracción de cada elemento es independiente de los resultados anteriores. Además,
en el muestreo con reemplazamiento, el número de individuos de la población no se
acaba nunca, por lo que se puede dar el hecho de muestras con tamaño mayor que el
número de individuos de la población.
En poblaciones finitas, si el muestreo es sin reemplazamiento, el resultado de una
extracción depende de los resultados de las anteriores.
9.5. Muestreo aleatorio simple
Un experimento aleatorio se caracteriza por el hecho de que, a pesar de no ser

predecible el resultado de una realización particular del mismo, sí es posible tener una
idea de los resultados globales cuando el número de realizaciones es grande.
Si consideramos a los individuos de la población como un conjunto de elementos
que presentan un carácter medible y ordenamos las medidas de dichos elementos
acompañadas de sus respectivas frecuencias, tenemos lo que hemos llamado una
distribución de frecuencias.
Las frecuencias de estas medidas tienden a mostrar una cierta regularidad, por lo
que se pueden describir por medio de un modelo probabilístico. Por ello, las variables
que intervienen pueden ser consideradas como variables aleatorias, recibiendo el nom
bre de "variables de respuesta" del modelo correspondiente.
Una muestra aleatoria de tamaño n consiste en n realizaciones independientes de
un experimento aleatorio. Se obtiene así un conjunto de n medidas con sus correspon
dientes frecuencias, lo que proporciona la distribución frecuencial de la muestra.
El conjunto de todos los valores posibles, que pueden representarse por un punto
(X,,X,,..., Xn) del espacio n-dimensional, se denomina espacio muestral asociado al
modelo probabilístico.
El conjunto de n valores particulares (x,,x2,...,xn) observados constituye la realiza
ción de la muestra.
Podemos establecer como definición formal de muestra aleatoria simple de tamaño
n la siguiente:
Sean X , X ,...,X n variables aleatorias independientes, cada una con la misma distri
bución de probabilidad f(x). Una muestra aleatoria simple de tamaño n de la población
cuya distribución es f(x), es una variable aleatoria n-dimensional (X^,,...^).
299
La distribución de probabilidad conjunta de la muestra, al ser las variables inde

pendientes, viene dada por
f(x„x x>f(x,)fiX)...fiX)
9.6. Estadístico
Sea (X,,X2,...,Xn) una muestra aleatoria simple. Si ahora, para cada muestra posible,
definimos una función numérica de sus datos:
l(X,,X2,...,Xn)
los valores así obtenidos junto con las probabilidades de obtener las respectivas
muestras constituyen una distribución del estadístico 1 en el muestreo.
El estadístico 1(X .Xy...X ) es, por tanto, una variable aleatoria. A este estadístico
nos referíamos en el apartado 1 .2.3, llamándolo entonces estadístico inferencial para
indicar que se trataba de un estadístico cuya función es la de inferir o estimar el valor
de algún parámetro de la población; en adelante, le llamaremos estadístico solamente.
Si el estadístico 1 sirve para estimar el parámetro poblacional L, se dice que 1 es un
estimador' de L.
La notación más frecuente consiste en designar al parámetro de la población por
una letra del alfabeto griego (n será la media, O la desviación típica,...) y al estadístico
que se utiliza como estimador de dicho parámetro con la misma letra sobre la que se
coloca el acento circunflejo:
ÍMT,...
Una estimación puntual de algún parámetro de la población X es un valor particu
lar X del estadístico X.
Así, por ejemplo, un valor particular del estadístico media muestral, calculado desde
una muestra de tamaño n, es una estimación puntual del parámetro poblacional u.
Entre los estadísticos de uso más frecuente se encuentran:
A) La media, mediana y moda, como estimadores de parámetros de tendencia
central.
B) La cuasivarianza y la desviación típica muestral, como estimadores de los
parámetros de variabilidad.
Las definiciones de estos estadísticos coinciden con las que se dieron en los
primeros capítulos para las características de una variable estadística. Aparecen aho
ra, como novedad, la cuasivarianza y la desviación típica muestral.
1 Un estimador también recibe el nombre función de decisión, siendo la estimación particular

la decisión que se toma.
300
Definición 9.1: Si (XrX ,X ,r) es una muestra aleatoria de tamaño n, se define

la cuasivarianza2 como
n
J - „-/
siendo X la media muestraI
La desviación típica muestral es, por definición, la raíz cuadrada positiva de la

cuasivarianza, y se representa por s.
Proposición 9.1: La cuasivarianza de ul ía muestra aleatoria de tamaño n se

puede expresar como
n
i-i
%x] (2)
n(n - ¡)
Demostración: Desarrollando el cuadrado, resulta:
1 " I "
s~ = :¿Á.x,-xf = -¿Xx2,-2xxl + x:) =
n-li, n-li.i
I n n
¿jrf -2x^x, + nx:

n-1
14
Teniendo en cuenta que x ■- J,*, si se multiplica y divide por n, se tiene:
"~
n¿,jn-n ¡
Y.x¡-2nx~ + nx~ =
Mn-lKZ n(n-l)
n^x,'- Xr
- ,.i V.w ¡
n(n-l)
El conocimiento de la distribución de un estadístico es un problema que resuelve

el «Cálculo de Probabilidades».
2 En el apartado 9.12.1 se ve que la cuasivarianza es un esimador insesgado de la varianza

poblacional. lo que justifica el uso de la cuasivarianza en el muestreo.
3JM
9.7. Distribución de los estimadores
La distribución muestral del estadístico 1 (X,,X, Xn) depende de los parámetros

de la variable aleatoria poblacional X, y estos parámetros son generalmente descono
cidos.
Consideremos una población cuya distribución tiene de media |i, sea (X,,X ,...,X )
una muestra aleatoria de tamaño n, y sea
- X, + X2+... + X.
A —
la media muestral.
Para cada muestra particular k, tenemos un valor particular de la media muestral
— x¡ + xi+... + x„
x,= n
Con estos valores j podemos construir una distribución de frecuencias, con lo
que tendríamos la distribución muestral de la media.
Ejemplo 9.2
Consideremos el experimento aleatorio consistente en lanzar un dado sobre el

tablero y observar el número que aparece en su cara superior. Podemos admitir que la
probabilidad de cada uno de los seis sucesos posibles (obtener 1 . 2. 3, 4, 5, 6) es de
1/6.
Si imaginamos todos los pares de valores que se pueden obtener cuando realiza
mos dos lanzamientos independientes, tenemos definida la muestra (X^X,). Se trata
de una variable aleatoria bidimensional.
Cada uno de los pares de valores particulares obtenidos, por ejemplo (3.5). es una
realización de la muestra.
La variable aleatoria bidimensional (X|5X2) tiene una distribución de probabilidad,
dada por los 36 sucesos elementales formados por todos los pares posibles:
E={(1,1),(1,2) (1,6) (6.6)}
todos ellos con probabilidad igual a 1/36, al ser independiente el resultado de cada
una de las pruebas, por tratarse de muestreo aleatorio.
Si consideramos la media muestral de los pares de valores obtenidos en cada
muestra, tenemos el estadístico
y Xl + X2
X= 2
Se trata de una variable aleatoria bidimensional. que puede tomar los valores 1;
1'5; 2; 2'5; 3; 3'5; 4; 4'5; 5; 5'5 y 6, cuyas probabilidades se pueden obtener a partir
de la distribución de (X ,X,).
302
Así, por ejemplo:
= P{X, = l,X: = 3) + P(xl=2,X: = 2) + P{xl = 3,X: = l) = ^- = ^-

JO 12
9.8. Error típico
Si el tamaño de la muestra coincidiera con el número de individuos de la pobla

ción, el valor del estimador coincidiría con el valor del parámetro. Sin embargo, esta
situación no se da, y se producen diferencias entre el parámetro poblacional y su
estimador.
Estas diferencias pueden ser debidas a una elección defectuosa de la muestra, en
cuyo caso se conocen como errores muestrales, pero también pueden ser debidas a
fenómenos de puro azar, y, en tal caso, son llamadas errores aleatorios.
Si los elementos de la muestra han sido seleccionados aleatoriamente, el error
aleatorio puede ser estimado gracias a las técnicas del «Cálculo de Probabilidades» a
partir de una muestra elegida aleatoriamente de la población.
Definición 9.2: Se llama error típico de un estadístico 1 (XrX, Xn) a la des

viación típica de la distribución de dicho estadístico en el muestreo.
9.9. Propiedades de los estimadores
La estimación que hace un estimador del parámetro poblacional no está carente de

error.
Cuando se trata de hacer una estimación de un parámetro, como puede ser la
media de la población, podemos optar entre diversos estimadores: la media muestral o
alguna de las otras medidas de tendencia central: la mediana de la muestra a veces
proporciona una mejor estimación que la propia media.
Son diversas las condiciones que se pueden exigir a un estimador para que sea
preferible a otro:
A) Estimador insesgado:
Es conveniente que la distribución muestral de un estimador tenga una media

igual al parámetro poblacional que trata de estimar. A un estimador que cumple esta
propiedad se le llama insesgado o centrado. En otro caso, se dice que es sesgado.
303
Definición 9.3: Se dice que un estadístico A, es un estimador insesgado del

parámetro X si |i;=EA¿=A.
B) Estimador más eficiente:
Si tenemos dos estimadores insesgados de un mismo parámetro, será preferible

aquel de los dos cuya distribución muestral tenga la menor varianza.
Definición 9.4: Dados dos estimadores insesgados A, y X de un mismo parámetro

X, se dice que X es más eficiente que /L, si
or <or
C) Estimador de mínima varianza:
Definición 9.5: Si se consideran todos los estimadores insesgados de un

parámetro, se llama estimador más eficiente (o de mínima varianza) a aquel
que tiene menor varianza.
9. 10. Distribución de la media muestral
La distribución de una muestra es, en general, distinta de la distribución de la

población de que procede; la muestra suele tener distinta media, distinta mediana, ...
Esto es debido, fundamentalmente, al error que producen las fluctuaciones del
muestreo, es decir, a los datos que se introducen en la muestra por puro azar. El error
de muestreo disminuye a medida que aumenta el tamaño de la muestra.
Ejemplo 9.3
Un equipo de profesores de Educación Física está interesado en el estudio del

salto de longitud de los jóvenes de edades comprendidas entre 14 y 16 años. La
variable salto se puede considerar normalmente distribuida.
La selección de un número considerable de muestras de cuarenta alumnos permi
tiría analizar la distribución empírica de las medias muestrales, que, si el número de
muestras fuera suficientemente grande, estarían distribuidas normalmente, aún en el
caso de que la distribución de la población no fuera normal.
Para sacar conclusiones acerca de la media poblacional, es necesario tener una medi
da de la dispersión de la muestra, que no coincide con la dispersión de la población.
En efecto, supongamos que es conocida la media poblacional de saltos de longi
tud y que ésta es u=4'85, siendo la desviación típica de la población G=1'3. Será
304
entonces poco probable un salto de 7'50 metros, pero mucho menos probable será
obtener una muestra completa de 40 jóvenes cuyo salto medio sea de 7'50 metros.
Es menos probable obtener un valor extremo de la media muestral que obtener el
mismo valor extremo en un salto particular.
Este razonamiento nos lleva a pensar que será menor la dispersión de la media
muestral que la de la distribución de la población, disminuyendo la dispersión muestral
a medida que aumenta el tamaño de la muestra.
El teorema central del límite permite estimar la dispersión de la distribución de las
medias muestrales a partir de una muestra.
Teorema central del límite: Dada una población de media \i y varianza finita
O2, la distribución en el muestreo de la media tiende, cuando aumenta el tama
ño n de la muestra, a la distribución normal
N (3)
V VnJ
Por tanto, en las hipótesis del teorema1, la media muestral será u- = u y la varianza
de la media muestral a-r = —
n .
En la práctica, si n>30, se considera válido el uso de este teorema. Cuando la

población es normal, el teorema también es válido para n<30.
La desviación típica de la media muestral proporciona una medida de la calidad de
la estimación del parámetro; es igual a
a,--?-
v«
(4)
y se conoce como error típico de la media.
La desviación típica de la población a suele ser desconocida. En este caso se toma
la desviación típica muestral s como estimación de a, quedando como error típico
estimado de la media:
a, --L (5)
Vn
En general, se llama error típico de un estadístico* a la desviación típica de su
distribución muestral.
3 El teorema central del límite es válido en el caso discreto y en el caso continuo (sólo exige
que la varianza sea finita), dependiendo el grado de aproximación del tamaño de la muestra y del
tipo de población.
4 La mayoría de los autores al «error típico estimado» le llaman «error típico» únicamente.
305
9.11. Grados de libertad de un estadístico
Si en el cálculo de un estadístico intervienen r valores independientes de la varia

ble, se dice que r es el número de grados de libertad (gl) del mismo.
Cuando un estadístico se obtiene sólo a partir de los n datos de una muestra, el
número de grados de libertad del estadístico coincide con el tamaño de la muestra.
Sin embargo, hay ocasiones en que un estadístico es función de algún parámetro
de la población, que, al ser desconocido, debe ser estimado con valores de la propia
muestra.
Ejemplo 9.4
Supongamos la distribución de una población de la que se conoce su media u,

pero de la que se desconoce su desviación típica o. En este caso, se utiliza, como
estimador de la desviación típica poblacional. la desviación típica muestral s.
Entonces el estadístico —
donde x es la media muestral, u es la media de la población y s- = s es la desviación

típica de la muestra, tiene n-1 grados de libertad.
En efecto, para calcular la desviación típica de la muestra, se utilizan n desviacio
nes respecto a la media, pero no todas ellas varían libremente: como la suma de todas
las desviaciones a la media debe ser cero, el último de los valores queda determinado
por los n-1 primeros. Por lo tanto, el estadístico t posee n-1 grados de libertad.
Cada vez que, para calcular un estadístico, necesitamos estimar un parámetro de la
población, se reduce en 1 el número de grados de libertad. Luego, si son k los
parámetros que se deben estimar, a partir de una muestra de tamaño n, para construir
un estadístico, el número de grados de libertad de éste será:
r=n-k
9. 1 2. Estimación puntual
Las técnicas para realizar inferencias acerca de los parámetros de la población

están basadas en el conocimiento de los diferentes estadísticos que se utilizan para
estimar dichos parámetros.
Los estadísticos son variables aleatorias que dependen de la muestra y que tienen
una distribución de probabilidad, a la que hemos llamado distribución muestral del
estadístico. Esta distribución depende de la población, del tipo de muestreo que se
realiza y del tamaño de la muestra, según acabamos de comprobar en el teorema
central del límite.
306
Para seguir haciendo inferencias, es necesario conocer las distribuciones muestrales

de los estadísticos que se emplean en cada situación.
No es objeto de este libro hacer un estudio de los diferentes métodos que se
utilizan para conocer las diversas distribuciones muestrales. Para ello, se puede con
sultar cualquier tratado sobre «Cálculo de Probabilidades» de los que figuran en el
apéndice bibliográfico.
Recogemos a continuación las distribuciones de los estadísticos más usuales con
sus propiedades fundamentales, que serán utilizadas en los próximos capítulos. En
ellos haremos un estudio de los contrastes de hipótesis, estableciendo la relación
entre este método de inducción y los intervalos de confianza.
9.12.1. Estimadores para una distribución normal
Consideremos una población que tiene una distribución normal N(|i.o). donde u. es
la media y a la desviación típica, y sea (XrX, Xn) una muestra aleatoria simple de
dicha población. Entonces:
A) Un estimador puntual de la media poblacional |i es la media maestral:
B) Un estimador puntual de la varianza poblacional & es la cuasivarianza muestral:
C) Como estimador puntual de la desviación típica o se tiene:

s= a
Propiedades:
1. ft es un estimador insesgado y de mínima varianza.

2. Ó"2 es un estimador insesgado y de mínima varianza.
n
a *
3. La distribución de ji es N
4. La distribución de ;— es unaxcon (n-1) gl.

o"
5. Las variables tipificadas siguientes son:

£i-|i
a) Z= —t= normal N(0. 1 ) cuando a es conocida.
o I yin
307
b) Z- r- aproximadamente normal N(0,1 ) cuando a es desconocida y n>30.

s/ Jn
c) ( = " " una t de Student con (n-1) gl, cuandon< jq.
s / -Jn ~
Ejemplo 9.5
Los siguientes datos corresponden al número de flexiones que realizan 80 alumnos

de primero de Bachillerato elegidos al azar de entre los distintos centros de la provin
cia de Toledo. Suponiendo la normalidad de la característica «número de flexiones»,
hacer una estimación de la media y de la varianza de la población de todos los alum
nos de la provincia.
N" flexiones 35 41 46 48 50 52 53 54 56 60
N° alumnos 5 6 2 10 15 6 11 10 5 5
Una estimación de la media es \in=xn=-^?ix¡ni=—^-=49'79
y una estimación de la varianza es <$;,=—2Jx¡~xo)~n,=5' 92

'" ¡,i
9.12.2. Estimadores para una población binomio!
Consideremos una población constituida por individuos que presentan un carác

ter dicotómico, que puede tomar las modalidades A y B, de modo que la probabilidad
de que un individuo de la población tenga la modalidad A del carácter es p=P(A) y la
de la modalidad B es q=l-p.
La distribución muestral de la proporción de individuos que presentan la modali
dad A del carácter en una muestra de n individuos es una binomial de media p.
La proporción de individuos que poseen la modalidad A del carácter en una mues
tra de tamaño n es
n° de veces que aparece A
P=-
A) p es un estimador insesgado de p.
\ ri( I n )
B) p es de mínima varianza, siendo op =J (6)
C) Si n es suficientemente grande, p sigue una distribución normal

(
N
pMi-v)
308
Ejemplo 9.6
Se han cruzado dos moscas «Drosophila melanogaster», obteniéndose 189 mos--

cas, de las cuales 101 tienen los ojos blancos. Dar una estimación de la proporción de
moscas de ojos blancos para un gran número de cruces, así como de la desviación
típica de la distribución muestral de la proporción de moscas con ojos blancos.
Una estimación de la proporción será:
A 101
-189-0'54
y una estimación de la desviación típica:
0'54x0'46 0,Q45
120
9.12.3. Estimadores para una distribución de Poisson
Supongamos una población tal que las modalidades del carácter siguen una distri
bución de Poisson de parámetro \l, y sea (X ,X,,..., X ) una muestra aleatoria simple.
Entonces, un estimador puntual del parámetro es la media muestral:
i "
Propiedades:
1. |1 es un estimador insesgado de u.
2. \i es un estimador de mínima varianza, siendo o^J— • (7)
3. Si el tamaño de la muestra n es suficientemente grande, (i sigue una distribución

normal
Ejemplo 9.7
Se han llenado 95 cámaras de recuento con un cultivo bacteriano diluido,

obteniéndose los números de bacterias por cuadrícula que figuran en la siguiente
tabla. Sabiendo que sigue una distribución de Poisson, hallar una estimación del
parámetro.
309
Número de bacterias 0 1 2 3 4 5 6 7 8 9 10 11
Número de cámaras (1 2 7 16 16 18 13 8 7 3 3 2
487
La estimación es u>-jr=-=J' 13
9.12.4. Estimadores de la diferencia de medias
Sean dos poblaciones independientes y distribuidas normalmente. Designemos

por X e Y las variables aleatorias correspondientes a las modalidades del carácter en
estudio, respectivamente.
Supongamos que X sigue una distribución normal N(uô,) y que Y sigue una
distribución normal N(|i,,G,), y tomemos una muestra aleatoria simple de la primera
población (X,, X, X ) , y otra (Y,, Y,, .... Y ) de la segunda.
Tenemos entonces como estadísticos: las dos' medias muestrales. x e p', y las dos
cuasivarianzas, s 2 y s,2.
Conocemos las distribuciones de las medias muestrales, pero nos interesa conocer
la distribución de x - Y , que va a depender del hecho de que sean o no conocidas las
desviaciones típicas poblacionales.
A) Las varianzas poblacionales son conocidas:
El estadístico^ .p tiene una distribución normal
a/ O2 (Si
¡V
v ni ni
X-Y-(\l,-\l2)
Entonces Z sigue una distribución normal N(0.1).
a,
—+— a^
II I II2
B) Las varianzas son desconocidas:
Pueden darse dos situaciones:

i) la suma de los tamaños de ambas muestras es mayor que 30, siendo los tamaños
muestrales próximos;
ii) la suma de tamaños muestrales es menor o igual que 30.
i) n +n,>30y n =n,
310
El estadístico^,, y es normal Wj \l,- \íi,J— + — (?)
X - Y -( u - u )
Entonces Z = , ' es normal N(0, 1 ).
Si S2
—+—
n, ri2
ii) n +nn<30
En esta situación, debemos considerar dos posibles alternativas, según sean las
varianzas poblacionales desconocidas íguales o distintas:
a) Varianzas iguales:
X-Y-(y*r\i2)
El estadístico f - r~. j sigue una t de Student con n^n^-2 gl,
s¡— + —
V n, ri2
siendo s la raíz cuadrada positiva de la media ponderada de las cuasivarianzas
muestrales:
(n,-l)s] + (n2-l)s22 (10)

ni +n2-2
B) Varianzas distintas:
X - Y - ( u - u ,)
El estadístico Z = , ~- sigue una t de Student con w gl,
II I II2
( 2 2Y
Si S2
\nl "-V
siendo f 2V ( 'V
(11)
S, S
n, + 1 n2 + /
Ejemplo 9.8
Un laboratorio quiere determinar si dos métodos de análisis producen los mismos

resultados, lo que será cierto si las medias de las determinaciones con los dos méto
dos son iguales. Para ello, se hacen 10 determinaciones con el primer método y 12 con
el segundo de un mismo compuesto, obteniéndose los siguientes resultados:
311
Primera muestra 8'2 83 8'4 8"4 8'5 8'6 8'6 8'6 87 8'8
Segunda muestra 8'1 8'2 8'2 8'3 8'4 8'4 8'5 8'5 8'5 87 8'8 8'9
Suponiendo que las dos poblaciones se distribuyen normalmente con la misma

desviación típica, aunque desconocida, se trata de hallar una estimación para la des
viación típica de la diferencia de medias.
Las cuasivarianzas muestrales son:
si = 0'003S
í3 = 0'0055
Como n,+n,= 10+12=22<30 y las varianzas poblacionales son desconocidas, pero
iguales, la estimación que tomaremos de la desviación típica de la diferencia de medias
es:
a,,=sj—+— =0029
9.12.5. Estimaciones del cociente de varianzas
En ocasiones, es necesario hacer una estimación de la razón de las varianzas de

dos poblaciones para decidir, por ejemplo, si son iguales.
Consideremos dos poblaciones independientes y distribuidas normalmente y de
signemos por X e Y las variables aleatorias correspondientes.
Supongamos que X sigue una distribución normal N(^.o,) y que Y sigue una
distribución normal N(u„a,), y tomemos una muestra aleatoria simple de la primera
población (Xr X, Xn ). y otra (Yr Y„ .... Yn ) de la segunda. Entonces:
1. El estadístico ÍL es un estimador insesgado de la razón de varianzas de la

población. í¡
2. El estadístico F = , , sigue una F de Fisher-Snedecor con (n,-1 ) y (n,-1) gl.
Ejemplo 9.9
Un equipo de cardiólogos trata de decidir sobre la eficacia de dos tipos de

marcapasos con el fin de establecer las pautas de revisión de sus pacientes.
Para ello, disponen de los resultados experimentales obtenidos a partir de sendas
312
muestras que han dado los siguientes resultados en cuanto al número de horas con
tinuadas de funcionamiento correcto:
Tamaño Media muestra! Varianza muestral

Ia muestra 35 26500 2100
2a muestra 40 32760 2650
Para tomar una decisión, los cirujanos necesitan hacer una estimación del cociente
de las varianzas de la población.
Suponiendo que las dos poblaciones sean normales, una estimación de la razón de
las varianzas viene dada por el cociente de las varianzas muestrales:
s) 2100
-, = = 079
s\ 2650
9. 1 2.6. Estimadores de la diferencia de datos apareados
Consideremos ahora dos poblaciones dependientes en que las variables aleatorias

X e Y correspondientes a las modalidades del carácter en estudio están distribuidas
normalmente, la primera con una distribución normal N(u,,a ) y la segunda con una
distribución normal N(u.,,a,). pero que no sean independientes.
Un ejemplo de uso frecuente es el caso en que se asignan pares de valores a los
mismos individuos, como puede ser la evaluación de las reacciones de las mismas
personas antes(X) y después(Y) de un cierto acontecimiento.
El estadístico / = —¡=^ sigue una t de Student con n-1 gl.
siendo D = -£d, , D = X - Y y 4 = rXv0, ~d)' (12)
Ejemplo 9.10
El candidato número uno de un determinado partido político desea conocer la

influencia del mensaje electoral que va a transmitir a través de la televisión. Para ello,
selecciona una muestra aleatoria de 15 telespectadores de quienes solicita que evalúen
de 0 a 100 el programa electoral de su partido antes de pronunciar el mensaje y
después de hacerlo. Los resultados son:
Telespectadores 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Punt. antes 48 56 65 60 43 28 62 39 70 29 31 57 51 18 54
l'iint. después 41 59 70 60 49 50 50 50 75 15 40 57 60 30 61
313
Se trata de hacer una estimación de la media de las diferencias de valoraciones, así

como de la desviación típica de la distribución muestral de la media de dichas diferen
cias.
Al ser las puntuaciones apareadas tomadas del mismo sujeto, las muestras son
dependientes. Una estimación de la media de las diferencias es
D Í,D, = —(-66)=-4'4
y una estimación de la varianza es
sí = —- X( D, - D)~ = — 125V9 = 8'935
luego una estimación de la desviación típica es
sD = j8'935=2'98
9.12.7. Estimación de la diferencia de proporciones
Consideremos ahora dos poblaciones formadas por individuos que presentan un

carácter dicotómico, y sean p, y p, las probabilidades respectivas de que se presente
la modalidad A del carácter dicotómico en dichas poblaciones.
Supongamos que disponemos de una muestra de tamaño n, de la primera pobla
ción y otra de tamaño n, de la segunda.
Designemos por /?, la proporción de individuos de la primera población que po
seen la modalidad A del carácter en una muestra de tamaño n , y designemos por /;,
la proporción de individuos de la segunda población que poseen la modalidad A del
carácter en una muestra de tamaño nv
Si el tamaño de las muestras es mayor que 30. el estadístico p - p2
sigue una distribución normal
"i(!-Pi) P2O-P2) (13)

N P,-P2.
IIi II .
por lo que la variable z= (PrP, Hp-P, ) es normal N(0,1).

Pi(l-Pt) P2(l-P2)
n, «,
Ejemplo 9.11
Para conocer la eficacia de una vacuna anticatarral, se suministra ésta a una mues
tra aleatoria de 50 personas. Se observa que sólo 4 de ellas se han acatarrado.
314
Se selecciona asimismo otra nueva muestra aleatoria de 50 personas a quienes no

se les suministra la vacuna, observando que 9 de ellas se han acatarrado.
Se trata de hacer una estimación de la diferencia de proporciones de individuos
vacunados y no vacunados de la población que sufren un catarro.
El número de personas vacunadas sigue una binomial B(p ,n ) y el de personas no
vacunadas sigue una binomial B(p,,n,).
P, es un estimador de p, y p2 es un estimador de p,, por lo que una estimación de
» a 9 4 5 1
P,-P2 es P,-P2=5o-JorlT10-
La estimación de la desviación típica dep - £>,es:
4(,-4-)
50)
=0'066
9.13. Estimación por intervalos
Sucede que, al estimar un parámetro, incluso utilizando un estimador insesgado de

mínima varianza, no se obtiene una estimación exacta del mismo. A no ser que conoz
camos la población en su totalidad, no podemos estar seguros de que la estimación
puntual de una muestra proporcione el verdadero valor del parámetro.
Por ello, son muchas las situaciones en las que interesa encontrar un intervalo
entre cuyos valores extremos se espera que esté el valor del parámetro.
Un intervalo así representa una estimación de la distancia probable entre el valor
del parámetro y el valor del estimador que se utiliza para su estimación. Por este
motivo, se le llama intervalo de confianza, ya que habrá una confianza razonable de
que contenga el valor del parámetro.
Las estimaciones por intervalo se basan en las estimaciones puntuales, por lo que
su estudio se apoya en el conocimiento de los estimadores y el tipo de distribución de
éstos.
En numerosas situaciones es conveniente, por tanto, determinar un intervalo que
cubra el valor del parámetro con una cierta probabilidad. Este es el caso que se
plantea en el siguiente ejemplo:
Ejemplo 9.12
Un equipo de profesores de Educación Física está interesado en conocer el núme

ro medio de flexiones continuadas que realizan sus alumnos. Para ello, seleccionan
una muestra aleatoria de 80 estudiantes, que realizan una prueba cuyos resultados
figuran en la siguiente tabla:
315
N° de flexiones 35 41 45 46 48 50 52 53 54 56 60
N" de alumnos 5 6 5 2 10 15 6 11 10 5 5
Una primera estimación la proporciona el valor particular de la media muestral:
En principio, este valor de aproximadamente 50 flexiones será tomado como esti

mación de la media de la población.
Los profesores saben que esta estimación no tiene por qué coincidir con el verda
dero valor del parámetro, debido fundamentalmente al error de muestreo. Por ello,
desean estimar un intervalo de valores en el que haya una probabilidad alta de que se
encuentre el valor que tratan de estimar.
Les interesa, por lo tanto, encontrar un intervalo que les permita conocer el grado
de aproximación al verdadero valor del número medio de flexiones de la población y
que les proporcione una cierta garantía o confianza de que contenga dicho valor. Tal
intervalo recibe el nombre de intervalo de confianza.
9. 14. Planteamiento general de un intervalo de confianza
La estimación por intervalo de un parámetro poblacional X consiste en hallar un

par de estadísticos ÍA,,A,), que van a corresponder a los extremos del intervalo, a los
que se les llama límites de confianza.
Se trata, por tanto, de una variable aleatoria bidimensional (A,,A,), cuya distribu
ción depende de la distribución del estimador A, del parámetro poblacional.
Por tratarse de una variable aleatoria, tiene sentido hablar de probabilidad de
que el intervalo cubra el verdadero valor del parámetro
P(X, <X< X2)

donde A., y A, son los límites aleatorios inferior y superior.
A esta probabilidad se le llama coeficiente de confianza, y se denota por 1-a,
siendo a un número real comprendido entre cero y uno, al que se le llama nivel de
significación.
A los extremos del intervalo se les llama límites de confianza (inferior y superior).
Si a=0'05, es l-a=0'95, y se habla, en este caso, de un intervalo de confianza del
95%. Si a=0'01, es l-a=0'99, y se habla de un intervalo de confianza del 99%.
Un intervalo de confianza del 99% resulta más amplio que un intervalo del 95%, y,
por lo tanto, ofrece mayor garantía de contener al verdadero valor del parámetro. Sin
embargo, lo que se gana en amplitud se pierde en precisión.
316
En efecto, si tomamos a=0, el intervalo estará formado por la recta real completa,
pero no hemos conseguido información alguna; ya sabíamos que el parámetro era un
número real.
Los valores más usuales para a son a=0'05 ó a=0'01, siendo preferible el valor
0'05 que proporciona un intervalo de confianza del 95%; pero la elección dependerá,
en cada caso, de las necesidades y exigencias del investigador.
Una vez seleccionado el nivel de significación a, hay que determinar a partir de la
distribución del estadístico A, dos valores X y X , que dependen de a, tales que
P(X,<X<X2) = l-a (14)

La construcción de un intervalo de confianza depende de la distribución del esta
dístico y, por tanto, del parámetro.
Conviene aclarar, antes de continuar con el proceso, que, una vez seleccionada la
muestra y obtenido un intervalo particular, no tiene sentido decir que hay una proba
bilidad de que el intervalo particular cubra el verdadero valor del parámetro. El interva
lo particular es posible que cubra o no el verdadero valor del parámetro.
9.14.1. Intervalo de confianza para la media de una distribución normal de varianza

conocida
Se trata de encontrar un intervalo aleatorio para la media de una distribución

normal N(u.,a2).
Como estimador, tomamos la media de una muestra de tamaño n.
Sabemos, por el teorema central del límite, que la media muestral y tiene una
( o A
distribución normal N
X— u
Por tanto, la variable tipificada Z = —-— se distribuye según una normal N(0, 1 ).
A/ñ
Si elegimos un nivel de significación a=0'05, tendremos que hallar dos valores Xi
y X2 tales que
P(Xi<Z<X2) = l-a (15>
En el caso de la normal N(0,1), sabemos encontrar estos valores críticos, que

vienen tabulados y que representamos por -7. y z , ya que determinan el área de la
función de densidad comprendida entre ambos, dejando fuera dos colas correspon
dientes cada una a un área de a/2, según puede apreciarse en la figura 9. 1 .
317
Ot/2.0025
a/2.0'02b
Figura 9.1: Intervalo de confianza del 95% para la media.
Por lo tanto, debe verificarse
P = l-a
Multiplicando cada término de las desigualdades por a/ O, se obtiene:
o — a
i -za/2-r<X-n<za/,^
V/I v«
/-a
Si se resta y a cada uno de los términos, resulta:

— o -o
/-a
Multiplicando ahora por -1 cada uno de los términos, se invierte el orden de las
desigualdades, resultando:
a a
4 V» \n
= l-a
Se obtiene así el intervalo de confianza aleatorio
— a ~ o 1 (16)
X ~ Zn /z ~7= , X + za 12 ~7=
Este intervalo es tal que contiene el valor del parámetro con una probabilidad igual
al-a.
Una vez realizado el experimento, para una muestra concreta, se obtiene un valor
particular de la media muestral xo.
318
Para este valor, se obtiene el intervalo no aleatorio
(17)
h V'i \rt.
Este intervalo particular, según señalamos antes, puede cubrir o no el verdadero

valor del parámetro. No se puede decir que este intervalo contiene el valor del parámetro
con una probabilidad de 0'95.
Lo que sí tendría sentido es afirmar que, a construyéramos 100 intervalos igua
les, probablemente 95 de ellos cubrirían el valor del parámetro.
Volvamos sobre el ejemplo 9.13. La distribución del número de flexiones se sabe
que es normal. Si los profesores conocen el valor de la varianza poblacional, y éste es
o:=7'5, eligiendo un nivel de significación a=0'05. la tabla de la normal N(0, 1 ) propor
ciona como valor crítico
y, como el tamaño de la muestra es n=80, se tienen los datos necesarios para hallar un
intervalo confidencial:
2'75 2'75
4978 - 1'96 -r= < u < 4978 + 1'96 -¡=
y¡80 yÍ80
4978 - 0'60 < n < 4978 + 0'60
49']8 < n < 50'38

El intervalo de confianza del 95% para la media del número de flexiones es
/ = [49'18.50'38J
que, al ser un intervalo particular, podrá cubrir o no el verdadero valor del parámetro.
Figura 9.2: Intervalos de confianza para un mismo parámetro.

319
Distintas muestras darán diferentes valores de la media y, por tanto, darán lugar a
distintos intervalos de confianza. Así pueden observarse los intervalos de la figura
9.3; todos ellos son de la misma amplitud, ya que ésta depende únicamente del valor
crítico, una vez se ha fijado el tamaño de la muestra.
Los centros de los intervalos señalan las diferentes estimaciones puntuales. No
todos los intervalos cubren el valor del parámetro.
9.14.2. Intervalo de confianza para la media de una distribución normal de varianza

desconocida
Cuando se desconoce la varianza de la población, es necesario estimarla a partir

de la muestra. Como estimador de la misma se utiliza la cuasivarianza.
Por el «Cálculo de Probabilidades», sabemos que:
A) La cuasivarianza, s2, es un estimador insesgado de la varianza poblacional.
B) La desviación típica muestral, s, es un estimador insesgado de la desviación
típica de la población.
X- u.
C) La distribución de la variable t = j= es una t de Student con n-1 gl.
s / V'/
Utilizando s como estimador de la desviación típica poblacional, podemos determi
nar un intervalo con un coeficiente de confianza 1-a. La tabla de la distribución t de
Student, para n-1 gl y un nivel de significación a nos proporciona un valor crítico
fot/2
tal que P{-ta./2<t <ta/2) = l-a (18)

í — \
X-ti X-ti
Como t = t=, sera P -ta/2< , r<ta/2 = /-c(
s/Vn
Multiplicando cada miembro de las desigualdades por /4ñ, restando después
jf , y, multiplicando finalmente por -1 para cambiar de sentido las desigualdades, se
obtiene:
X-ta/2-¡=< ti <X + tan-¡= \=1-a
con lo que se consigue el intervalo de confianza aleatorio
— í — s (19)
/= X-ta/2 r~ , X + ta/2 r'
Vn y1n
320
Para una muestra particular, se tendrán los valores Xa y sa que darán lugar al
intervalo particular
— Jlo- — ~So- (20)

Io = X-o-ta/2 ¡— ,X-o + ta/2 r~
Ejemplo 9.13
Se trata de hallar un intervalo de confianza del 95% para cubrir la vida media de
una población de lámparas halógenas a partir de los resultados que se han obtenido
en una muestra de 20 lámparas, cuyos períodos de duración (expresados en horas)
han sido:
480 345 427 386 432 429 378 440 434 503
436 451 466 394 422 412 507 433 480 429
Se supone que la duración de las lámparas sigue una distribución normal, pero se
desconocen la media y la varianza de la población.
Como estimador de la media, se toma la media muestral, y, como estimador de la
varianza, la cuasivarianza. Calculando sus valores, resulta:
Yo = 434'2
so = 40'63
Si fijamos un nivel de significación a=0'05, al ser n=20, la variable
s / yjn
sigue una distribución de Student con 19 gl. El nivel a=0'05 proporciona en las tablas
un valor crítico t0,o2j=2'093.
El intervalo de confianza del 95% es, por lo tanto:
40'63 40'63
1„ 434'2 - 2'093 434'2 + 2'093
420
es decir:
I=[415'18,453'21]
Este intervalo puede cubrir o no el verdadero valor del parámetro (vida media de
las lámparas).
}2\
9.15. Relación entre la estimación puntual y por intervalo
La estimación por punto proporciona un único valor que se obtiene a partir de la

muestra, en tanto que la estimación por intervalo facilita, también a partir de los datos
de la muestra, un intervalo que cubre el valor del parámetro con una probabilidad alta,
una vez elegido el nivel de significación.
En otras palabras, fijado el nivel de significación a, el 100x(1-a)% de los intervalos
que se obtengan a partir de diversas muestras cubrirá el verdadero valor del parámetro.
Sin embargo, los dos métodos de estimación están íntimamente relacionados, ya
que ambos se basan en la distribución muestral de un estadístico, como es la media
muestral en el caso que acabamos de tratar.
En efecto, si se realiza una estimación puntual a través de la media muestral, una
medida de la precisión de su estima la proporciona su desviación típica muestral:
o
Tn
cuando la varianza de la población o: es conocida.
La estimación por intervalo de la media poblacional, en este caso, se basa en la
misma distribución, obteniéndose como límites de confianza:
— o v — o
V« v71
donde se puede observar cómo la amplitud del intervalo depende también del error
típico de la media muestral.
En el caso de que la varianza de la población sea desconocida, se actúa de modo
similar, salvo que es necesario utilizar la cuasivarianza como estimador de la varianza
poblacional.
Entonces se toma como medida estimada de la precisión en la estimación por
punto
s
y el intervalo tiene como límites de confianza
yin yin
y la amplitud del intervalo depende del error típico (ahora estimado) de la distribución
de la media muestral.
Hablando, por tanto, en sentido de amplitud, no se puede afirmar que el intervalo
de confianza proporcione mayor calidad que la estimación por punto.
322
9. 16. Selección del tamaño de la muestra
Una muestra pequeña puede proporcionar resultados poco fiables, mientras que
una muestra grande puede resultar demasiado costosa. Por ello, en numerosas ocasio
nes, interesa determinar previamente el tamaño de la muestra.
Se trata de determinar el tamaño n que debe tener una muestra para que la distan
cia entre la media poblacional y la media muestral sea menor que un cierto valor e al
que llamaremos error.
Debe ser, por lo tanto
\X-\i\<e
o, lo que es equivalente
X-e< u <X+e (21)
Ahora bien, el intervalo de confianza para la media de una distribución normal,

cuya varianza es conocida, es
- o - 0
X-za/2-r<\i<X + za/2-r
Si igualamos los límites de confianza a los límites del intervalo, tenemos:

- O
X-e .X-Za,2-T
V/l
a
X+E =X + za/2
fn
de donde se obtiene
e =za/2-¡=
Despejando n en la igualdad anterior, resulta:
(22)
e
Ejemplo 9.14
El contenido en glucosa de los frutos de una determinada especie sigue una

distribución normal, cuya varianza o2=0,2 es conocida. ¿Cuántas observaciones son
necesarias para tener una confianza del 95% de que el error máximo cometido cuando
se estima la media poblacional por medio de la media muestral es 0' 1 ?
Solución
Por tratarse de una distribución normal, sabemos que, al ser l-a=0'95, es a=0'05,
y el valor crítico que proporciona la tabla de la normal N(0, 1 ) es z .= 1 '96. Luego
323
, V2 a2 (1'96?0'2
»-(**) 7—^7—™» «77
La muestra debe tener, por consiguiente, 77 elementos.
9.17. Intervalo de confianza para la varíanza
La varianza poblacional suele ser desconocida. Para estimarla, se utiliza la

cuasivarianza muestral, que es un estimador insesgado de la varianza de la población.
Si se pretende hallar un intervalo de confianza para la varianza, cuando la muestra
se obtiene a partir de una población normal, sabemos que el estadístico
(n-l)s' (23)
X =
se distribuye según una X ' de Pearson con n- 1 grados de libertad.
Figura 9.3: Intervalo del il-a)-1009c.
Por consiguiente, fijado un nivel de significación a, se tiene que
p(xL,2<x2<xí,2) = i-u
siendo Xa/2 el valor de la X ~ con n-1 gl. que deja un área de ot/2 unidades a la derecha
y X ,.o^ el valor de la X ' con n-1 gl., que deja un área de l-a/2 a la izquierda.
Sustituyendo el valor de X ' , resulta:
J 2 (n-l)s2 ,
1-a
\
Si dividimos cada término de las desigualdades por (n-1)s2, al tratarse de una
cantidad positiva, se mantiene el orden de las mismas:
324
X'l-a/2 . (n-l)s2<<T<Xa,2'(n-l)s2 = l-a
Inviniendo cada uno de los términos de las desigualdades, se invierte el sentido

de éstas, quedando , ^
(n-l)s , (n-1)s2
«j <-
^ Xa/2 % l-a/2 >
Se obtiene, de esta forma, el intervalo de confianza del (l-a)xl00% para la varianza:
(24)
Ejemplo 9.15
En una prueba efectuada a 25 animales de una determinada especie, cuya pobla

ción está distribuida normalmente, se obtuvo una media de 82 y una desviación típica
muestral de 0'85. Vamos a construir un intervalo de confianza del 90% para la varianza
de la población.
Solución:
La cuasivarianza es s2=0'852=0'7225
Entonces, para oc=0' 10, es a/2=0'05 y l-a/2=0'95.
Las tablas de la X ' para 24 gl y a=0'05, nos proporcionan los valores
%los.24 = 36'415 y J¿w.» = 1'3848

El intervalo de confianza para a2 vendrá dado, por consiguiente por:
' 24 07225 24.0'7225\
I (P'47,1'25)
36'415 13'848 )
Si extraemos las raíces cuadradas de los extremos del intervalo, se obtiene un
intervalo para la desviación típica a:
1 = {0'68,ril)
9. 1 8. Intervalo para la razón de varianzas
Si s,2 y s,2 son las cuasivarianzas de dos muestras independientes de tamaños n,

y n,, respectivamente, procedentes de poblaciones normales, el estadístico
O' 2 s]
02s22 (25)
se distribuye según una F de Fisher-Snedecor con n,-1 y n,-1 gl.

325
Este estadístico nos permite construir un intervalo de confianza para el cociente

de varianzas. En efecto, será:
Gisl
i F I-a/2. m-l. n2-l < ~^T^¡ < Fa/2 ,n,-l. n2,l
05 s2
= /-a
donde F2-a/2. „r/. n2-, es el valor de la abscisa que deja a la izquierda un área de aJ2, y
f es el valor de la F que deja a su derecha un área de l-a/2.
/7,n,-U,-l
Multiplicando cada uno de los términos de las desigualdades por s22/s,2, e invir-
tiendo el sentido de éstas, queda:
O] Si /
Ái '
^S2 r a/2.nrlMrl
<-7<— .
®2 ^2 * I-a I2.nrl.nrl J
1-a
I
Teniendo en cuenta que — *'a/2,nr/,nr,
Fl-a/2.nrl.n2-l
( 2 I
5/
resulta < ~2 < 2 ra/2.n2-l.ni-l 1-a
\S2 fa/2.nrl.n2-l O? S
quedando finalmente como intervalo de confianza del (1-a) 100% para el cociente de
las varianzas a,/CJ2:
. ,, (26)
$2 Fa/2.nrl.ni-1 í
°/2,n -l,n -1
Figura 9.4: Valores de F de Fisher-Snedecor.
Ejemplo 9.16
Para probar el gasto de combustible de dos marcas de coches A y B, se seleccionan

al azar 9 coches de la marca A, que proporcionan una media de 18 km. recorridos por
326
cada litro de combustible, con una cuasivarianza de l'l km. por litro, y otros 12
coches de la marca B, que proporcionan una media de 15 km. recorridos por litro, con
una cuasivarianza de 2'9 km. por litro.
Si se supone que la distancia recorrida por cada litro de combustible sigue una
distribución normal en ambas marcas, hallar un intervalo de confianza para el cociente
de varianzas.
Solución: Si a=0' 10,

Fa/lnrlxrl = FffoS.S.u =2 95-1 Fa/2.n¡-l.n, I = Fffo5.II.K = 3 31
Entonces
síFov5.s.,i 2'9 2'95 v- 2v

con lo que se obtiene el intervalo
1 = (VI3,1'25)
Un intervalo de confianza para el cociente de los errores típicos ojo, se obtiene
del anterior extrayendo la raíz cuadrada de los extremos:
/ =((T36,1'12)
9. 1 . Hallar la media y la cuasivarianza de la distribución de la muestra de tamaño n=100

dada por la siguiente tabla:
1
1350 1480 1610 1740
". 24 30 40 6
9.2. Una población se compone de los números 1, 2, 3 y 4. Si se consideran todas las

muestras posibles de tamaño 2, hallar la media y la desviación típica de la distribución
de la media muestral.
9.3. Los pesos de los alumnos de una escuela universitaria están distribuidos normal
mente con media |i=51,5 kgs. y desviación típica a=2,8 kgs. Si se selecciona una
muestra de tamaño n=50, hallar la media y la desviación típica muestrales.
9.4. Se sabe que el peso medio de los alumnos de una universidad es de 50'3 kgs. con
una desviación típica de 2,4 kgs. Si se selecciona una muestra de 40 alumnos, hallar:
327
1 ) la probabilidad de que el peso total de los alumnos esté comprendido entre 1960 y
2000 kgs.; 2) la probabilidad de que el peso total sea superior a 2000 kgs.
9.5. Una máquina produce 200 piezas diarias, siendo 0,2 la probabilidad de que una
pieza salga con defecto. Hallar: 1) la probabilidad de que 70 de las piezas fabricadas en
un día sean defectuosas; 2) la probabilidad de que las 3/4 partes de las piezas no
tengan defecto.
9.6. La calificación media de los 2200 alumnos de Bioestadística de una facultad de

Ciencias Biológicas es de 5'5 puntos con una desviación típica de 2'3 puntos. Si se
selecciona una muestra aleatoria de 50 alumnos, hallar la probabilidad de que la media
muestral:
1) sea mayor o igual que 6; 2) sea menor o igual que 5; 3) esté comprendida entre
5 y 6.
9.7. Una población se compone de los números 3, 4, 6, 8 y 10. Consideremos todas las
muestras posibles que se pueden formar de tamaño 2, con reposición. Hallar: 1) la
media y la desviación típica de la población; 2) la media y la desviación típica de la
media en el muestreo.
9.8. Se ha medido la duración (en horas) de 36 pilas producidas en una fábrica,

13 19 12 16 13 7 8 15 16 7 19 27 10 4 10 15 7 5
3 10 7 10 18 5 13 6 10 7 13 7 9 13 22 18 25 14
1 ) Hallar la media y la cuasivarianza de la muestra, y estimar la media y la varianza

de la población.
9.9. Los pesos de 4500 estudiantes de bachillerato de una ciudad están distribuidos
normalmente con una media de 56' 5 kgs. y una desviación típica de 2' 5 kgs. Si se
seleccionan 40 muestras con reposición de 20 estudiantes cada una, hallar la media y
la desviación típica de la distribución de las medias muestrales.
9.10. De una población distribuida normalmente con media 40 y desviación típica 2'5
se extrae una muestra de tamaño 8, y, de otra población también distribuida normal
mente, con media 35 y desviación típica 2, se extrae una muestra de tamaño 6. Hallar
la probabilidad de que la diferencia de las medias muestrales sea menor que 7.
9.11. Se extrae una muestra de tamaño n=20 de una población normal con varianza
conocida a2=5. Hallar la probabilidad de que la cuasivarianza muestral: 1) sea mayor
que 8' 5; 2) sea mayor que 3 y menor que 5.
328
9.12. Se sabe que los alumnos de la universidad A tienen un cociente de inteligencia

medio de 1 15, con una desviación típica de 5'2, mientras que los alumnos de la univer
sidad B tienen un cociente de inteligencia medio de 110, con una desviación típica de
3'6. Si se seleccionan al azar 40 alumnos de cada universidad, ¿cuál es la probabilidad
de que los alumnos seleccionados de la universidad A den un cociente de inteligencia
medio que supere en 6 puntos al de los alumnos de la universidad B?
9.13. Se extraen dos muestras aleatorias de tamaños 10 y 15, de dos poblaciones

distribuidas normalmente y con la misma varianza. Si s,2 es la cuasivarianza de la
primera muestra, y s,2 es la cuasivarianza de la segunda, hallar la probabilidad de que
el cociente de cuasivarianzas s^/s,2 sea menor que 5.
9.14. Un almacenista ha adquirido de una fábrica 100 lámparas, cuya duración media
ha sido de 1000 horas. Sabiendo que la desviación típica de la producción de lámparas
de la fábrica es de 40 horas, hallar un intervalo de confianza del 99% para la duración
media de la población.
9.15. Un científico está interesado en conocer la media poblacional de una variable

aleatoria a partir de una muestra extraída de la misma. ¿Qué tamaño debe tener la
muestra para que la probabilidad de que la media muestral difiera de la media de la
población en más del 20% de la desviación típica, sea 0'95?
9. 1 6. La calificación media de una muestra aleatoria de 30 alumnos de primer curso de

una facultad es 5'2. Suponiendo una desviación típica poblacional a=0'7, encontrar
dos intervalos de confianza, uno del 95%, y otro del 99% que contengan la califica
ción media de todos los alumnos de primer curso.
9.17. Si se desea que la estimación de la media poblacional difiera de ésta en menos de

0'05, ¿cuál debe ser el tamaño muestral para construir un intervalo de confianza del
95% para los datos del ejercicio 9.16?
9. 1 8. Una batería de campaña dispone de un aparato capaz de medir el alcance del

cañón con una desviación típica a=40 m. Se realizan 5 disparos en las mismas condi
ciones, obteniéndose un alcance medio de 2000 m. Hallar un intervalo de confianza del
95% que contenga el alcance real del cañón en las condiciones dadas.
9. 19. Una muestra aleatoria de 100 automovilistas consultados por el servicio nacional
de tráfico ha dado como resultado que un automóvil recorre por término medio 1 6400
km. al año con una desviación típica muestral de 2300 km. Hallar un intervalo de
confianza del 95% para el recorrido medio de un automóvil en España.
329
9.20. ¿Cuál debe ser el tamaño de la muestra para el ejercicio anterior si se quiere tener
una confianza del 95% de que la media muestral difiera menos de 400 kilómetros de la
media real?
9.21. Suponiendo que la estatura media de los estudiantes de la universidad de Castilla-

La Mancha está distribuida normalmente con media de 1 '71 m. y desviación típica de
0'35 m., hallar los límites entre los que se encontrará la estatura del 90% de los
estudiantes de dicha universidad.
9.22. De una población normalmente distribuida con desviación típica conocida o=3'5,
se quiere extraer una muestra. ¿Qué tamaño debe tener si la probabilidad de que la
media muestral diste de la media poblacional más de 1 '5 debe ser igual a 0'05?
9.23. En un centro escolar, se sabe que el número de faltas de ortografía que cometen
los alumnos está distribuido normalmente. Se seleccionan dos muestras al azar, una de
8 alumnos de un grupo, y otra de 10 alumnos de otro grupo, a quienes se les hace un
dictado, que da los siguientes resultados:
Grupo 1 9 7 9 11 11 12 12 15
Grupo 2 7 9 9 11 11 11 11 13 13 14
Construir un intervalo de confianza del 95% para la diferencia de medias.
9.24. La desviación típica de la duración media de una muestra de 25 pilas alcalinas es

de 6 horas. Hallar un intervalo de confianza del 95% para la desviación típica de la
población.
9.25. Se conoce, por sondeos previos, que el 80% de los 1000 alumnos de una univer
sidad son partidarios de hacer huelga. ¿Cuál debe ser el tamaño de la muestra para
que, con un nivel de significación del 5%, la proporción de alumnos partidarios de la
huelga diste menos de 0'02 de la proporción de la población?
9.26. El tiempo que un niño está ante el televisor sigue una distribución normal. Una
muestra de 90 niños dio una media de 8 horas semanales con una desviación típica de
2'5 horas. Hallar un intervalo de confianza del 95% para la media de horas que un niño
está ante el televisor.
9.27. Una población se distribuye normalmente con media 30 y desviación típica 6'5.
Si se extraen muestras de tamaño 20, hallar un intervalo de confianza para la desvia
ción típica muestral.
CAPITULO 10
CONTRASTES DE HIPÓTESIS
10. 1 . Consideraciones previas
Un problema que se presenta frecuentemente en la investigación científica es el de

tener que decidir a partir de los datos aportados por un experimento sobre la validez
o no de un planteamiento previamente establecido. Este podría ser el caso del peda
gogo que pretende averiguar si un nuevo método de estudio mejora el rendimiento de
los alumnos a partir de una experiencia con un grupo.
Para ello, el investigador necesita establecer un postulado (hipótesis nula). Ante
este postulado inicial, plantea otro alternativo (hipótesis alternativa) y realiza una
prueba o experiencia con una muestra representativa de la población.
A la vista del resultado de la prueba, el investigador tiene que decidir si acepta la
hipótesis nula o, por el contrario, la rechaza, asumiendo en su lugar la hipótesis
alternativa. Por muy poderosas que sean las razones que le inclinen en uno u otro
sentido, el investigador debe tener siempre claro que, a no ser que examine toda la
población, no hay certeza de que su decisión sea correcta, puesto que siempre existe
la posibilidad de cometer un error.
En los siguientes apartados, se irán precisando estos conceptos. Antes conviene
resaltar que, para apoyar una nueva teoría, el método más adecuado consiste en encon
trar razones para el rechazo de la teoría en uso. Por tanto, el interés debe centrarse en
encontrar razones poderosas para rechazar la hipótesis nula. De este modo, el pedagogo,
para apoyar su teoría, debería establecer la hipótesis nula de que «no hay diferencia en
el rendimiento medio de los alumnos que utilizan los dos métodos de estudio».
10.2. Contraste de hipótesis sobre la media de una distribución
Se trata ahora de hacer un contraste acerca de la media de una población de la que

se sabe que sigue una distribución normal.
332
Pueden presentarse dos situaciones:

1 ) La desviación típica o de la población es conocida.
2) Se desconoce la desviación típica de la población.
Un ejemplo sencillo nos va a servir para ilustrar la primera de las situaciones e ir
precisando, a la vez. los conceptos que intervienen en un contraste de hipótesis. Este
mismo ejemplo, con unas modificaciones, será utilizado para ilustrar la segunda alter
nativa.
10.2.1. La desviación típica es conocida
Ejemplo ¡0.1
Un fabricante de baterías recibe la oferta de la patente de un nuevo proceso de

fabricación, que le permitirá mejorar notablemente la vida media de las mismas y, por
tanto, su calidad. El fabricante es conocedor de la vida media de las baterías que
produce su empresa, es más, sabe que sigue una distribución normal de media n=4950
horas y desviación típica o=350 horas.
Para decidir si el nuevo proceso de producción supone una mejoría en la calidad,
ha dispuesto de una muestra de 100 de las nuevas baterías que, una vez probadas,
han dado una duración media de 5025 horas.
Por lo tanto, el problema que se le plantea al fabricante es el de averiguar si el
valor de 5025 horas puede ser debido únicamente al error propio del muestreo, en
cuyo caso no se podría concluir que la vida media de las baterías en el nuevo proceso
es diferente de la que obtiene con el proceso tradicional, o bien, si el resultado de
5025 horas es suficiente garantía para invertir en la patente que le ofrecen.
La estrategia que sugiere La Estadística Inferencial es la siguiente:
/. Establecimiento de las hipótesis nula y alternativa:
Establecer la hipótesis de trabajo de que «la vida media de la población de baterías

con el nuevo proceso no varía». Esta hipótesis de trabajo se denomina «hipótesis
nula» y se denota por Hn. En términos estadísticos, se formula como sigue:
H„ = u = 4950
Aceptar esta hipótesis supone admitir que la muestra, cuya media es igual a 5025,
es una muestra que procede de una población de media 4950, de forma que la diferen
cia entre el valor estimado 5025 y el valor del parámetro es debida al error del muestreo.
Frente a esta hipótesis, se plantea otra, llamada «hipótesis alternativa» y denota
da por H , que, en nuestro caso va a ser
H, = u * 4950
333
El significado de esta alternativa supone admitir que la diferencia entre el valor del
estimador y el valor del parámetro no se debe a un error de muestreo, sino a que la
hipótesis nula no es correcta. En otras palabras, si la hipótesis nula fuera correcta, se
habría producido un suceso «suficientemente improbable» como para rechazar dicha
hipótesis, lo cual supone admitir que la muestra seleccionada pertenece a otra pobla
ción con una media distinta de 4950.
//. Decisiones posibles:
Fijadas las hipótesis nula y alternativa, al fabricante de baterías se le ofrecen las

siguientes opciones:
A) Aceptar la hipótesis nula H :
Entonces puede suceder que:

1) La vida media de la nueva producción sea 4950. Al aceptar Ho, el fabricante
habrá procedido correctamente.
2) La vida media de la nueva producción no sea 4950. Aceptando Ho, el fabri
cante habrá cometido un error (error de tipo II), que ocasiona las pérdidas que
suponen la inversión en una nueva patente más el coste de adaptación de la
maquinaria,...
B) Rechazar la hipótesis nula Ho:
Esto equivale a aceptar la hipótesis alternativa Hr Ahora puede suceder que:

3) La vida media de la nueva producción sea 4950. Rechazando Ho, se habría
cometido un error (error de tipo /), pues favorece a la competencia, que tendría la
posibilidad de adquirir la patente.
4) La media de la nueva producción no sea 4950. La decisión de rechazar H0 es
acertada, suponiendo una situación de ventaja en el mercado.
El siguiente cuadro recoge las distintas alternativas con los posibles resultados:
Situación real
H es cierta H, es cierta
Decisión Acepta H0 Decisión correcta Error de tipo II
del
fabricante Rechaza Ho Error de tipo I Decisión correcta
334
///. Nivel de significación
El problema se centra ahora en averiguar cuándo se puede afirmar que el suceso

«obtener un valor de la media muestral de 5025 siendo la media de la población
u=4950» es «suficientemente improbable».
Se utilizan diferentes criterios para medir cuándo un suceso es «suficientemente
improbable», dependiendo de la importancia que se quiera dar al riesgo de cometer un
error de tipo I. Se suelen establecer tres valores, que reciben el nombre de nivel de
significación y que corresponden al valor de la probabilidad por debajo del cual un
suceso se considera «suficientemente improbable»:
1 ) a=0'005, y se dice que el resultado ha sido muy significativo.
2) a=0'05. y se dice que el resultado ha sido significativo.
3) a=0'01, y se dice que el resultado ha sido casi significativo.
El nivel de significación especifica, por tanto, la probabilidad de cometer un
error de tipo I (rechazar la hipótesis nula, siendo cierta). Este nivel se fija previa
mente, teniendo en cuenta, en el momento de fijarlo, que cuando disminuye la
probabilidad de cometer un error de tipo I, aumenta la probabilidad de cometer un
error de tipo II1.
El nivel de significación más generalmente utilizado en la investigación científica
es0'05.
Se debe aclarar que el criterio estadístico que ha llevado a tomar esta decisión no
garantiza que dicha decisión sea correcta, ya que una garantía total sólo se tendría si
se pudieran probar todas las baterías que se van a producir. Cabe, según señalamos
antes, la posibilidad de cometer un error que favorecería a la competencia.
Sin embargo, la Estadística indica cuál es el modo de tomar la mejor decisión sobre
una población a partir de
los resultados obtenidos
en una muestra de la mis
ma.
Vamos a utilizar un ni
vel de significación
a=0'05. con lo que, si se
ha de rechazar la hipóte
sis nula, el resultado será
«significativo».
Las áreas de rechazo
Figura 10.1: Colas o áreas de rechazo. de la hipótesis nula co
1 La probabilidad de cometer un error de tipo II no se fija previamente. Será analizada

cuando se estudie la potencia de un contraste en el apartado 10.5.
335
rresponden a las dos colas de la figura 10.1. El área de cada cola es a/2=0'025, y el área
total de rechazo, también llamada «región crítica», es la suma de las áreas de ambas colas:
0'025-tO'025=0'05
que es el valor del nivel de significación elegido.
IV. Selección del estadístico adecuado
Para poder adoptar una decisión, se necesita conocer la distribución del estadísti
co adecuado, que, en nuestro ejemplo, es la media muestral.
Sabemos que la media muestral X sigue una distribución normal
.V
Por lo tanto, la variable tipificada Z = es normal N(0,1).

o/Vñ
El conocimiento de la normal tipificada, cuyos valores límites están tabulados,
permitirá encontrar la región crítica o área de rechazo, que llevará a rechazar la
hipótesis nula cuando el valor de la media muestral caiga en ella.
V. Determinación del valor crítico
Si el valor de la variable tipificada Z obtenido se encuentra fuera del intervalo

(-1 '96, l'96), estará en el área de rechazo.
En efecto, para un nivel de significación a=0'05. hay un área de 0'025 en cada una
de las colas de la normal N(0,1 ), lo que supone un área de 0'975 a la izquierda del valor
correspondiente a la variable tipificada z , si dicho valor es positivo.
Para una probabilidad de 0'975 la tabla A.3.2 de la normal tipificada N(0, 1 ) propor
ciona un valor de la variable z„/,= l'96, denominado valor crítico, ya que determina la
región crítica, zona de rechazo de los valores de la variable tipificada. En nuestro
caso, la región crítica, en virtud de la simetría de la gráfica, está formada por los
valores Z menores de -1'96 o mayores de 1 '96.
Figura 10.2: Valor crítico para un área de 0'975 y región critica.

336
VI. Decisión final
Volviendo al ejemplo de las baterías, para el valor de la media muestral 5025 y el

valor de la desviación típica poblacional ct=350, que se supone conocido, se obtiene
una estimación de la variable tipificada:
X-u 5025-4950 75
Z= = = — = 2 14
<3/4n 350/JWÓ 35
Al ser 2' 14>1'96=zoy2 , la decisión adecuada es la de rechazar la hipótesis nula. El
fabricante de baterías, a la vista del resultado, consideraría que ha tenido lugar un
suceso «suficientemente improbable» (de probabilidad menor de 0'05), por lo que
rechazaría la hipótesis nula, adoptando el nuevo proceso de producción, lo que se
expresa diciendo que «el contraste es significativo al nivel del 5%».
10.2.2. La desviación típica no es conocida
Son numerosas las situaciones que se presentan en las que se desconoce la

desviación típica de la población, por lo que hay que hacer una estimación de la
misma a partir de la desviación típica de la muestra:
Se toma la cuasivarianza como estimador de la varianza poblacional en lugar de la

varianza muestral por ser ésta un estimador sesgado. En cambio, la cuasivarianza es
un estimador insesgado de la varianza de la población.
El planteamiento general del contraste de hipótesis es el mismo que hemos diseña
do en el apartado anterior con la diferencia de que, para determinar el valor crítico,
hemos de utilizar ahora la variable tipificada
X-\i
que no sigue una distribución normal. La distribución normal es una buena aproxima
ción cuando el tamaño de la muestra es mayor que 30.
La distribución de la variable t, válida para todos los tamaños de la muestra, es
una t de Student con n-1 grados de libertad.
Para hallar la cuasivarianza muestral, hay que calcular las n diferencias a la media
X, -X.
Como la suma de todas las diferencias es cero, en virtud de esta relación, la n-
ésima diferencia queda determinada cuando se han evaluado las n-1 primeras. Luego,
337
en el cálculo de la cuasivarianza sólo vanan libremente n-1 valores, lo que significa

que son n-1 los grados de libertad.
La distribución t de Student viene tabulada para diferentes grados de libertad
(tabla A.4 del apéndice A); cada fila se refiere a una distribución distinta, correspon
diente a un determinado número de grados de libertad.
Ejemplo 10.2
Consideremos la situación planteada en el ejemplo 10.1, pero modificada en el

sentido de que el fabricante desconoce la desviación típica de la población, y ahora
dispone de una muestra de 20 baterías elaboradas según el nuevo proceso de produc
ción, que han sido probadas, dando unos períodos de duración (en horas) de:
4917 4948 5082 5105 4865 5068 4935 5090 5045 5080
5136 5084 4909 4935 5120 4936 5014 5125 4933 5088
Con estos datos, los valores obtenidos para la media y la desviación típica
muestrales son:
X = 502075 Y s = 87'94
luego el error típico de la media es:
S 87'94
a-x = -¡= = —f— = 87'94
4n V20
Como la media de la población establecida en la hipótesis nula es u=4950, será:
X-u. 502075-4950 7075
t= = = = 3'59
s/Jn 19'66 1966
El valor crítico que corresponde, en la tabla, a la t con 19 gl al nivel 0'025=0'05/2 es
ta/2„=2'093
El valor estimado t=3'59 es mayor que el valor crítico 2'093, por lo que el suceso es lo
«sufientemente improbable» como para rechazar la hipótesis nula Ho y llegar a la conclu
sión de que no se puede admitir que la duración media de las baterías sea de 4950 horas.
10.3. Contraste de hipótesis unilateral
Los contrastes de hipótesis que hemos planteado hasta aquí se caracterizan por el
hecho de existir dos colas o áreas de rechazo de la hipótesis nula, una en un sentido
y otra en el lado opuesto de la curva.
338
Contrastábamos H0 = \i =X0 con //, = u *Xn, lo que caracteriza a los tests de

hipótesis bilaterales.
El siguiente ejemplo plantea una situación en que el investigador no está interesa
do en un contraste bilateral.
Ejemplo 10.3
Supongamos el caso de un profesor que pretende ver si mejora el rendimiento en

las calificaciones de sus alumnos después de realizar una serie de prácticas con me
dios audiovisuales.
El profesor conoce la calificación media de los alumnos en este tema, 55 puntos, y
piensa que la realización de las prácticas no puede rebajar la nota media, por lo que no
está dispuesto a realizar un contraste bilateral que le obligaría a reservar la mitad de la
región crítica (2,5% si utiliza un nivel a=0'05) para valores extremos menores que la
media y que son descartados por él.
Quiere, por lo tanto, dedicar toda la región crítica al extremo superior, ya que está
convencido de que, con las prácticas audiovisuales, la calificación media de sus alum
nos no puede bajar.
Se trata de contrastar la hipótesis nula Hn = \i < 55 con la hipótesis alternativa
H¡ =\l > 55 al nivel de significación a=0'05.
Vamos a considerar dos situaciones, según sea el tamaño de la muestra:
A) Muestras pequeñas (n<30)
Si el tamaño de la muestra
(número de alumnos) es 26, el
valor de la t de Student con 25 gl
que deja el 5% de las calificacio
nes medias por encima del valor
crítico, (es decir, en la cola supe
rior de la distribución), corres
ponde al valor crítico
W=1'708
Luego la hipótesis nula será
Figura 10.3: Contraste unilateral (n<30).
rechazada si la variable tipificada
toma un valor superior a 1 '708.

339
De esta forma, resulta más fácil rechazar la hipótesis nula para el profesor cuando
los resultados se producen en el sentido por él previsto, ya que un contraste bilateral
exigiría un valor de t superior: t,5nn,5=2'060.
B) Muestras grandes (n>30)
Si el número de alumnos cali

ficados es mayor o igual que 30.
se puede utilizar la distribución
normal. En este caso, el valor crí
tico para la variable tipificada
Z=
O /4ñ
que deja el 57c de las calificacio
nes por encima corresponde al
valor
Figura 10.4: Contraste unilateral (n>30).
W1'»
La hipótesis nula será rechazada si la variable toma un valor superior a 1 '65, en
lugar de 1 '96, como sucedía en el caso bilateral.
Valoración crítica del contraste unilateral:
Las pruebas unilaterales, aunque el investigador puede utilizarlas en algún caso,

no son recomendables en la práctica general de la investigación científica. Mediante
un contraste unilateral, el investigador consigue una mayor probabilidad de rechazar
la hipótesis nula y confirmar así su teoría; sin embargo, se vería en una situación
difícil si le apareciera un valor extremo en la dirección contraria.
En el apartado B). no sería válido rechazar la hipótesis nula si ese valor extremo en
el sentido contrario fuese menor que - 1 '44, ya que, en tal caso, el profesor estaría
trabajando con un nivel de significación a=0'075 (59f para valores positivos y 2'5%
para valores negativos de t).
En la práctica de la investigación, se recomienda repetir el experimento si. al ensa
yar un contraste unilateral, se obtienen resultados extremos en el sentido opuesto.
10.4. Relación entre contrastes e intervalos de confianza
En el capítulo 9. al analizar el planteamiento general de un intervalo de confianza

para un parámetro de la población, se trataba de encontrar dos funciones de los
valores de la muestra
340
h(X,,X2 XJy \2(XhX2 X.)

tales que
PÍh(X,,X2 XJ<X<X2(X,.X: X„)]>l-a

cualquiera que sea el parámetro \.
Una vez seleccionada una muestra particular X0=(xrx„...,xn), se tiene el intervalo
particular
In=(\l(xi,x2 x„),X2(xi,x2 x„j)
que puede cubrir o no el valor del parámetro.

Establecida la hipótesis nula //„ = X = \, si, para una muestra particular, el interva
lo I0 no cubre el valor del parámetro, estaríamos ante un suceso de probabilidad muy
pequeña, menor que a, y rechazaríamos la hipótesis nula.
De este modo, se establece un paralelismo entre la estimación por intervalos de
confianza y los contrastes de hipótesis.
Si el valor del parámetro expresado por la hipótesis nula Hn cae dentro del interva
lo, se acepta dicha hipótesis.
Determinar el intervalo de confianza supone una ventaja, ya que se especifican los
valores del parámetro para los que se debe aceptar la hipótesis nula, lo cual permite
hacer el contraste de diferentes valores hipotéticos del parámetro a la vez.
Ejemplo 10.4
Supongamos que, en el ejemplo 10.2., el fabricante desea contrastar distintos valo

res para la vida media de baterías, ya que está interesado en otros tantos nuevos
procesos de fabricación:
\)H,= \í=5000 2)//,= u=5050
3)//,= u.=5700 4)H,= n=5300
Se puede realizar un nuevo contraste para cada uno de los valores, pero resulta
más interesante y cómodo construir un intervalo de confianza y comprobar si cada
uno de estos valores hipotéticos del parámetro caen dentro o fuera de dicho intervalo.
Para la construcción del intervalo, se parte de una muestra teórica de 20 baterías.
Fijado un nivel de significación cc=0'05, para 19 grados de libertad y un contraste
bilateral, la tabla de la t de Student proporciona un valor crítico ^=2'093, lo que
indica que el valor más alejado de la media muestral con respecto a la media de la
población es de -2'093 s/Jñ hacia abajo y de 2'093 sl4n hacia arriba.
En efecto, al ser —
341
los valores más alejados inferior y superiormente se obtienen para:
-7093 = í/Vn
r= y 7093 = s/yjn
£
Despejando u. en ambas ecuaciones, resulta:
\i=X±7093
4~n
Luego los límites del intervalo son:
límite inferior: X-7093-¡=
límite superior: X + 7093-^
Por lo tanto, el intervalo de confianza será:
X-7093-r<\i<X + 7093-¡=
•Jn vn
Figura 10.5: Intervalo de confianza del 95% para la vida media de baterías.
Este es un intervalo aleatorio tal que la probabilidad de que cubra el valor de la media
de la población es 0'95. Ahora bien, el fabricante dispone de una única muestra y, para
esa muestra particular, el valor de la media muestral es en el ejemplo que nos ocupa:
X„=5020'75
y el valor de la desviación típica muestral:
so = 8794
So
luego = 1966
420
y, por lo tanto, se tiene el intervalo particular
342
502075 - 2'093x19'66 < u < 502075 + 2'093x19'66

4979W < u < 506F90
El intervalo de confianza del 95% es:
(497960, 5061'90)
Este es el intervalo, a partir del cual se toma la decisión de aceptar o rechazar la
hipótesis nula. Si un valor hipotético de |i cae dentro de este intervalo, se aceptará la
hipótesis nula, mientras que será rechazada si cae fuera del mismo.
Los valores 5000 y 5050 caen dentro de este intervalo particular. En cambio, los
valores 5100 y 5300 caen fuera, por lo que, en estas dos situaciones, el fabricante
rechazaría la hipótesis nula y optaría por iniciar un nuevo proceso de producción.
Una vez tomada la decisión, el investigador no puede garantizar que dicha elec
ción sea la correcta (para ello, habría sido necesario estudiar toda la población), por lo
que cabe la posibilidad de cometer un error.
Hay un paralelismo de lenguaje, según se hable en términos de intervalo de con
fianza o de contraste de hipótesis. Así:
«el intervalo no cubre el parámetro» equivale a «cometer error de tipo I»
«el intervalo cubre valores erróneos» equivale a «cometer error de tipo II»
10.5. Potencia de un contraste de hipótesis
Quien utiliza las técnicas de los contrastes de hipótesis, generalmente está intere
sado en que la hipótesis alternativa sea aceptada, ya que suele ser ésta su hipótesis
de trabajo.
Por este motivo, es importante, al plantear un contraste de hipótesis, que haya una
probabilidad alta de aceptar la hipótesis alternativa cuando ésta sea correcta.
10.5.1. Idea de potencia
Hemos llamado error de tipo II a la probabilidad de aceptar la hipótesis nula

cuando ésta es falsa. El error de tipo II se designa con la letra B. En relación con este
concepto, surge el de potencia.
Se Lama potencia de un contraste de hipótesis a la «probabilidad de rechazar la
hipótesis nula cuando es falsa», es decir, de obtener un resultado significativo.
La potencia de un contraste es, por tanto, la probabilidad del suceso contrario de
cometer un error de tipo II, que viene dada por
l-B
343
Resulta evidente que el interés del investigador, además de trabajar con un nivel
de significación pequeño, está en que el contraste tenga la mayor potencia posible, de
tal modo que se disponga de una probabilidad alta de que sea aceptada la hipótesis
alternativa (que es la hipótesis de trabajo), cuando ésta sea correcta.
10.5.2. Variables que intervienen para fijar la potencia
La potencia de un contraste depende de tres factores: el nivel de significación

elegido, el tamaño de la muestra y el índice de discrepancia (medida del grado de
falsedad de la hipótesis nula en el caso de que ésta sea falsa).
A) Nivel de significación:
Resulta evidente que cuanto menor sea el nivel de significación (probabilidad de

cometer un error de tipo I, es decir, de rechazar la hipótesis nula siendo cierta), habrá
una mayor dificultad para aceptar la hipótesis alternativa, en el supuesto de que
permanezcan constantes el resto de las variables que intervienen.
Esto significa que, si disminuye el nivel de significación, decrece la potencia. Por
este motivo, en todo contraste de hipótesis, es necesario conjugar un nivel de signi
ficación lo más pequeño posible con una potencia lo más alta posible.
B) Tamaño de la muestra:
Se ha podido ver cómo el error típico de cada estadístico depende del tamaño n de
la muestra, que aparece en el denominador como raíz cuadrada de n, raíz cuadrada de
n-1,... lo que confirma que la significación de un contraste, que está en función del
estadístico elegido, depende del tamaño de la muestra a partir de la cual éste ha sido
evaluado.
Por tanto, si permanecen constantes las restantes variables, cuando el tamaño
muestral aumenta, disminuye el error típico del estadístico y, en consecuencia, crece la
potencia.
C) Indice de discrepancia de la hipótesis nula:
Cuando una hipótesis nula es falsa, puede serlo en un grado más o menos alto. No
es posible conseguir apreciar la intensidad de su grado de falsedad comparándola con
una hipótesis alternativa genérica, como sucede al contrastar las hipótesis
El grado de falsedad de la hipótesis nula se puede determinar si se compara ésta

344
con una hipótesis alternativa específica, en que se fija un valor concreto del parámetro,
como puede ser:
H,= n = li0+2
Como medida del grado de falsedad de la hipótesis nula se utiliza el índice de
discrepancia, T, que proporciona una medida de la diferencia entre las hipótesis nula
y alternativa, y que se expresa como un valor tipificado.
r=d-
o
siendo d = u - u0
El índice de discrepancia señala la diferencia entre los valores postulados en las
hipótesis, medida en desviaciones típicas.
Este factor Y está relacionado con las restantes variables que intervienen en la
determinación de la potencia, de forma que, si se aumenta el índice de discrepancia,
crece la potencia, ya que resulta más probable rechazar la hipótesis nula cuando
aumenta el grado de falsedad.
Por otra parte, si se mantienen constantes el resto de los factores, cuanto mayor
sea el índice de discrepancia, menor es el tamaño de la muestra necesario para obtener
un contraste significativo.
En la práctica, a veces no resulta fácil determinar el índice de discrepancia más
adecuado; en estas situaciones, se toma algún valor convencional de modo similar a
la forma en que se procede para fijar el nivel de significación. Los valores que habi-
tualmente se toman en estas situaciones son específicos de cada prueba. En el con
traste de la media, se suelen tomar los valores: r=0'2, T=0'5 ó T=0'8, según se desee
una potencia pequeña, media o alta.
10.5.3. Cálculo de la potencia
Supongamos una población de la que conocemos su varianza s-. Estamos intere

sados en contrastar la hipótesis nula
con la hipótesis alternativa //, = u = u ,

siendo H, = u0 +d.
Planteamos una prueba unilateral, con un nivel de significación a y un tamaño de
la muestra n.
La potencia de la prueba, de la que conocemos las tres variables a, n y la distancia
entre los valores de la hipótesis nula y de la hipótesis alternativa específica, viene
dada, según su definición, por:
345
1 -B=P(rechazar Hn, cuando H, es verdadera)=

=P( rechazar Hn, cuando u=|i,)
Bajo las condiciones establecidas, será:
7-(3= P{x>a, u = u,, + d)
o
donde a = un + z^ —j=, siendo z el valor crítico correspondiente al nivel de significa-
V«
ción a para una prueba unilateral.
Cuando tiene lugar la hipótesis alternativa, la variable
X-(\i„+d)
z=
a/Vñ
sigue una distribución normal tipificada N(z;0,l).
Entonces, la probabilidad de cometer error de tipo II es:
X-(\i„+d) a-(&,+d)
P= P(x >a, u = uo + d)= P —¡^,\i= \í„+d
J a-(\l»+d) ) J a-\l„ d
p\z< '7r> = n„+j = p\z<—ff H-llg+tl -
/Vn
= P Z<za- H = |i„ + ¿ (li
o/Vn
De ( 1 ) se deduce que
"¿P ~ <Kt (2)
a / 4ñ
de donde se obtiene
2a +; V¿ (3)
Cuando el tipo de prueba es bilateral, la ecuación (2) queda en la forma:
~Zp - Za (4,
a / 4ñ
de donde resulta
, /r + z» =-V« (5)
Las ecuaciones (3) y (5) relacionan los errores de tipo I y de tipo II con el tamaño
de la muestra y la distancia entre los valores del parámetro en la hipótesis nula y en la
hipótesis alternativa específica.
346
y» - , M
Figura 10.6: Probabilidades de cometer Figura 10.7: Potencia del contraste.

error de tipo I y error de tipo II.
10.5.4. Factor de equilibrio
En la práctica, no es necesario recurrir al «Cálculo de Probabilidades» para hallar la

potencia de un contraste.
El nivel de significación, el índice de discrepancia y el tamaño de la muestra están
relacionados entre sí por medio de una función 8, a la que llamamos «factor de equi
librio», cuyos valores están tabulados.
Se define el factor de equilibrio 8 como el producto del índice de discrepancia, T,
por una función del tamaño de la muestra
8=T f(n) (6)
El factor de equilibrio coincide con el primer miembro de las expresiones (3) ó (5),
según el tipo de prueba:
para una prueba unilateral (7)
y para una prueba bilateral : Za /2 + Zp (S)
El factor de equilibrio relaciona la probabilidad de cometer error de tipo I con la

probabilidad de cometer error de tipo II, manteniendo el «equilibrio» entre el nivel de
significación, a, y la potencia del contraste, 1 -B.
10.5.5. Cálculo práctico de la potencia
Los valores de la potencia están tabulados. La tabla A.7 del apéndice A propor
ciona los valores de la potencia en función del factor de equilibrio 8, del nivel de
significación a y del tipo de prueba (bilateral o unilateral).
El índice de discrepancia, T, y la función del tamaño de la muestra, f(n), son
específicas de cada prueba.
347
El índice de discrepancia, que mide la diferencia entre los valores del parámetro en
ambas hipótesis, viene dado en unidades de desviación típica. Así, en la prueba
anterior:
r=d/a
La función f(n) depende del papel que n desempeña en la expresión del error típico
del estadístico que se utiliza para cada prueba. En el contraste anterior:
fin) = 4n~
Ejemplo 10.5
Supongamos que el fabricante de baterías de los ejemplos anteriores desea con

trastar la hipótesis nula H,=|i=4950 con la hipótesis alternativa específica H =u=5000,
siendo u la media de una población cuya desviación típica o=350 es conocida. Se trata
de hallar la potencia del contraste si el tamaño de la muestra es n=100.
Solución: Si tomamos a=0'05, es z a/2, =1 '96,' Jy
á 50
/-(3 Z>: ,u =n„+d\=P Z>1'96--
/4n~ 350 /V 100 )
= P(Z> (Y53) = 1-P(Z< 0'53) = 1 - (Y701 9 = (Y2981
Por tanto, la potencia del
contraste es aproximadamente
0'3.
Resulta más cómodo traba
jar con el factor de equilibrio,
puesto que la tabla A.7 nos
da directamente el valor de la
potencia en función de 5, para
el nivel de significación y el
tipo de prueba elegidos.
El factor de equilibrio, Figura 10.8: Potencia del contraste de il-4950 con
para los datos del ejemplo M=5000 (l-fi=0 3).
10.5, es
50
5= r-fin) = —yfñ- 1100 = 1'42
350 '
Para 8=1 '42, a=0'05 y una prueba bilateral, la tabla A.7 proporciona, para la poten
cia, un valor de 0'3, que coincide con el resultado que acabamos de obtener.
Si se quiere una mayor potencia, habrá que modificar alguna de las variables. Así,
348
aumentando el tamaño de la
muestra, aumentaría la poten
cia del contraste.
Rechazo
En cambio, la potencia
disminuye si, manteniendo fi
jas las restantes variables,
tomamos un valor específico
de la hipótesis alternativa más
próximo al valor del parámetro
de la hipótesis nula, 4950,
como puede ser u=4975. Figura 10.9: Potencia del contraste de |t=.í950 con
La hipótesis alternativa es 11=4975 (l-fi=0ll).
ahora:
H,= \i =4975= \ln + 25
Entonces:
u» + 25-u„ 4975-4950 25
r=— —= = — = O'o7
a 350 350
y, por tanto
8 = Vf(n) = ff074wb = &7
Si o=0'7, para una prueba bilateral y un nivel de significación a=0'05, la tabla A.7
proporciona un valor de la potencia
1-B=0'11
Observamos cómo, al acercarnos al valor real del parámetro, la potencia disminu
ye, mientras que la probabilidad de error de tipo II aumenta:
B=1-011=0'89
10.5.6. Curva de potencia
Cuando se plantea un contraste de hipótesis, es conveniente determinar la

potencia del mismo para distintos valores del parámetro. De esta forma, para
cada valor |i que asignemos al parámetro en la hipótesis alternativa, se obtendrá
un valor para la potencia. Si se representan gráficamente los valores así obteni
dos, se consigue una curva, llamada curva de potencia del contraste, que pro
porciona una panorámica de la probabilidad de rechazar la hipótesis nula para los
diferentes valores del parámetro.
La curva de potencia pasa por el punto (|in,a), donde |i0 es el valor del parámetro
349
correspondiente a la hipótesis
nula y a el nivel de significación.
Cuanto más se aproxima el valor
específico del parámetro en la
hipótesis alternativa al valor de
la hipótesis nula, mayor es el
error de tipo II y, en consecuen
cia, menor es la potencia. Para
un contraste bilateral, la poten |J = Ho
cia es simétrica respecto de la
recta u=H0 y alcanza su valor Figura 10.10: Curva de potencia.
mínimo para 1-P=^,.
Para el nivel de significación prefijado a=0'05 y muestras de tamaño 100, si con
trastamos diferentes pares de

valores, obtendremos distin
tos puntos, cuya representa
ción gráfica nos dará la po
tencia correspondiente a
n=100ya=0'05.
Si trazamos las curvas de
potencia de un contraste para
diferentes valores de n, éstas
se van cerrando según au
menta n, ya que la potencia
aumenta al aumentar el tama
ño de la muestra. Figura 10.11: Curvas de potencia de nivel a=0'05 para
n = 100 y n = 120.
10.5.7. Selección del tamaño de la muestra
En el análisis que venimos haciendo, las variables a, T, n y la potencia del con

traste 1-B están relacionadas entre sí. Por ello, a la hora de diseñar un contraste de
hipótesis, es importante hacer un estudio previo acerca del tamaño más adecuado de
la muestra.
En primer lugar hay que fijar el nivel de significación y la potencia del contraste
con que se desea trabajar. Estos dos factores se deben seleccionar de modo que haya
un cierto equilibrio.
Hemos visto cómo el nivel de significación más recomendable es a=0'05. Del
mismo modo, se suele recomendar que se trabaje con una potencia 1-B=0'80, o lo que
es igual, que se trabaje con una probabilidad B=0' 20 de cometer un error de tipo II.
Una potencia superior a 0'80 suele llevar a la necesidad de aumentar considerable
350
mente el tamaño de la muestra. Por otra parte, es de desear una probabilidad alta,
como B=0'20, de cometer un error de tipo II, si se tiene en cuenta que el investigador
debe ser cauto a la hora de rechazar una hipótesis nula cuando ésta sea verdadera,
pues ello le podría causar una notable falta de prestigio profesional.
Supongamos que, en lugar de predeterminar el tamaño de la muestra, quisiéramos
averiguar cuál debe de ser el tamaño adecuado de la misma en función de la potencia
y del nivel de significación, para una prueba bilateral.
Las relaciones (3) y (5) nos permiten evaluar el tamaño de la muestra en función
del nivel de significación, de la potencia y de la distancia entre los valores del parámetro
correspondientes a las hipótesis nula y alternativa específica, obteniéndose:
(9)
para una prueba unilateral, donde 8=za+z„.

Para una prueba bilateral, se obtiene la expresión:
n
tu '2+za)~ a 5-V 8- (10)
d2 d2 " r2
donde ahora es 8=z ¡x/2„+z„.(i
Ejemplo 10.6
Se trata de determinar el tamaño de la muestra más adecuado para contrastar las

hipótesis del ejemplo 10.5 para una prueba bilateral, con un nivel de significación
a=0'05 y una potencia l-B=0'95.
Solución: Si a=0'05 y 1-B=0'95, para una prueba bilateral, la tabla 1.7 proporciona
el valor 8=3 '6.
50 50
Como T = — = — = 0.143
a 350
3'6
resulta: = 634
(y143
Se necesita una muestra de 634 baterías para conseguir una potencia de 0'95 con
un nivel de significación del 5% en una prueba bilateral.
351
10.1. De una población normalmente distribuida con desviación típica a=4,3, se extrae
una muestra de tamaño n=100, cuya media es 27,6. Efectuar el contraste de H,=|i=26
con H = n * 26 al nivel de significación del 5%.
10.2. Un laboratorio farmacéutico ha elaborado un fármaco en forma de comprimidos

cuyo peso está distribuido normalmente con una desviación típica de 0" 1 2 mg. Se
sabe que una dosis de comprimidos cuyo peso medio sea superior a 0'60 mg. produce
efectos muy perjudiciales. Por este motivo, el hospital comprueba el peso medio de
una partida de 150 comprimidos, que resulta ser de 0'64 mg. Hacer un contraste de
hipótesis con un nivel de significación del 0'05 para averiguar si es posible adminis
trar la medicación al enfermo sin riesgo.
10.3. La estatura media de las mujeres de Castilla-La Mancha se estima que es de 1 '65
m. con una desviación típica de 0'68 m. Se selecciona aleatoriamente una muestra de
60 mujeres de la provincia de Toledo, que da una estatura media de 1 '67 m. ¿Se puede
sacar la conclusión de que las mujeres de Toledo son más altas que las del resto de la
comunidad?
10.4. Una máquina, que llena botes de refrescos, se ajusta de modo que la cantidad de
refresco que deja en cada bote siga una distribución normal de media 250 mi. y con
una desviación típica de 20 mi. Se realiza una prueba de inspección para ver si la
cantidad servida por la máquina está de acuerdo con la programación establecida. La
prueba consiste en tomar una muestra aleatoria de 25 refrescos y medir su contenido,
resultando una media de 236 mi. A la vista del resultado, ¿se puede llegar a la conclu
sión de que la máquina se ajusta a la programación?
10.5. De una población normalmente distribuida se ha extraído una muestra de tamaño

n=20, obteniéndose una media de 1 10 y una desviación típica muestral de 3,4. Con
trastar la hipótesis H,=|i=1 15 con Hi = u * 1 15 al nivel de significación del 1%.
10.6. Con los datos del ejercicio 10.5, hacer el contraste de H,=u=l 15 con H =H<1 15.
10.7. De una población normalmente distribuida con desviación típica conocida a=3'6,
se extrae una muestra de tamaño 20, que da una media de 25 '4. Para un nivel de
significación del 5% y una prueba bilateral, hallar la potencia del contraste de H, =H=27
con IL=ií=30.
10.8. Con los datos del ejercicio 10.7, hallar el tamaño mínimo que debe tener una
muestra si se quiere conseguir una potencia del 80%.
352
10.9. ¿Cuál debe ser el tamaño mínimo muestra1, en el ejercicio 10.4, para conseguir un
nivel de significación del 5% y una potencia del 80%, si se quiere contrastar la hipó
tesis nula Hn:u=250 con la hipótesis alternativa específica H,:n=240?
10.10. En una determinada región de España, se ha hallado que la vida media de una
muestra aleatoria de 90 personas que han fallecido en los tres últimos meses, es de 71
años. Si suponemos que la vida media de los españoles sigue una distribución normal
de media 69 años y desviación típica 8'5 años, ¿se puede afirmar que la vida media en
esa región es mayor?
10. 1 1 . La duración de cierto modelo de neumáticos de automóvil es de 49000 km. con una
desviación típica de 3400 km. Un inventor presenta una patente asegurando que la
duración media aumenta considerablemente. Para contrastar esta afirmación, se prueban
15 neumáticos fabricados con la nueva patente, obteniéndose los siguientes resultados:
49500, 52000, 57000, 60000, 45000, 45000, 5 1000, 56000, 58000, 61000, 46000, 57000,
54000, 58000 y 55000.
1) Plantear el contraste de hipótesis adecuado. 2) Averiguar si el contraste es

significativo.
10.12. Se supone que el recorrido medio anual de un automóvil en España es de 16000

km. al año. Para rebatir este aserto, una compañía de seguros, consulta a 20 automo
vilistas elegidos al azar, que le proporcionan una media de 17000 km. con una desvia
ción típica muestral de 2400 km. ¿Al nivel del 5%, puede llegar la compañía de seguros
a la conclusión de que la media en kilómetros recorridos por un automóvil es superior
a los 16000?
10.13. La longitud de una población de mazorcas sigue una distribución normal de

media 26 cm. con una desviación típica de 4'5 cm. De una finca tratada con un nuevo
tipo de abono, se obtuvo una muestra de 60 mazorcas que dio una longitud media de
27'5 cm. ¿Se puede asegurar al nivel del 5% que el abono es efectivo?
10.14. Construir un intervalo de confianza del 95% para el ejercicio 10.13, y hallar la
potencia del contraste para una hipótesis alternativa específica H :H=27 cm. en una
prueba bilateral con un nivel de significación del 5%.
10.15. Se sabe que una población está distribuida normalmente con media |1=12 y
desviación típica a=30. Determinar el tamaño que debe tener una muestra para efec
tuar el contraste de H,=u=12 con H=u=6, si se quiere conseguir una potencia de 0'95
y un nivel de significación o(=0'05.
353
10.16. Un industrial de la rama del frío quiere demostrar que la vida media de sus
motores para frigoríficos es superior a las 90000 horas. Para ello dispone de una
muestra de 35 frigoríficos.
1 ) ¿Qué tipo de contraste debe formular? 2) ¿Cómo cometería un error de tipo I?

3) ¿Cómo cometería un error de tipo II?
10.17. Un fabricante de hilo de acero afirma que el hilo fabricado por su empresa tiene
un coeficiente de ruptura de 120 Kgs. con una desviación típica de 4'5 Kgs. Se
selecciona una muestra de 40 hilos de acero y se miden los coeficientes de ruptura,
dando una media de 1 1 5 kgs.
1) Diseñar una prueba para contrastar la hipótesis H=|i=120 con la hipótesis

alternativa H =u<120. 2) Si se establece la hipótesis alternativa H,=ii=l 18, determi
nar la potencia del contraste para a=0'05.
CAPITULO 1 1
DIFERENCIAS DE MEDIAS Y PORCENTAJES
11.1. Método de trabajo
En el capítulo anterior, se ha analizado la estrategia que utiliza la Estadística

Inferencial Hipotético-Deductiva. partiendo, en cada situación, de un ejemplo típico.
Por motivos metodológicos, se seguirá este mismo tratamiento, procurando facilitar
las técnicas necesarias a cada situación.
Los diversos tipos de contrastes utilizados se basan en el conocimiento de las
distribuciones de los estadísticos que se precisan en cada caso, cuyas propiedades
fueron tratadas en el capítulo 9.
Para el contraste de la diferencia de medias es necesario seleccionar dos muestras.
La independencia y el tamaño de las mismas son los condicionantes que determinan
la elección de uno u otro estadístico, y han condicionado también el desarrollo
expositivo del capítulo.
Dada la relación entre intervalos de confianza y contrastes de hipótesis y, para
poner de relieve la relación existente entre ambas técnicas de trabajo, en lugar de
hacer un estudio separado, se presenta, en la mayoría de las situaciones, el intervalo
asociado a un determinado contraste.
Se analizan, en primer lugar, los contrastes de diferencias de medias para muestras
independientes, distinguiendo según se trate de grandes o pequeñas muestras.
Pronto surge la necesidad de contrastar la homogeneidad de las varianzas, para
seleccionar uno u otro tipo de prueba cuando se trabaja con pequeñas muestras. Se
incluye, por ello, la prueba de Fisher-Snedecor.
Sigue el estudio de la diferencia de medias para muestras dependientes, lo que
sucede cuando los datos se dan en forma de pares.
Por último, se estudian las inferencias sobre proporciones y diferencias de propor
ciones, construyendo los intervalos de confianza relacionados con estas pruebas, y
desarrollando el concepto de potencia.
356
1 1 .2. Inferencias sobre diferencias de medias
El contraste de la diferencia de medias de dos poblaciones es un problema muy

frecuente en todas las áreas que se sirven de la estadística como instrumento de
trabajo. Así, un ingeniero puede estar interesado en averiguar la diferencia en la
precisión de dos aparatos de medida, lo que conseguirá contrastando la diferencia de
las medias de dos conjuntos de mediciones realizadas con cada uno de ellos; un
pedagogo puede estar interesado en la eficacia de un nuevo método de enseñanza,
para lo cual ensayará la diferencia de las medias de las calificaciones obtenidas por un
grupo de alumnos a los que ha aplicado las técnicas del nuevo método y otro grupo
de alumnos con los que utilizó un método clásico de enseñanza.
En todos estos casos, hay un modelo común de trabajo, que consiste en seleccio
nar dos muestras, una formada por individuos de la población en los que se va a
ensayar la nueva experiencia, por lo que recibe el nombre de grupo experimental, y
otra segunda muestra a la se aplica el método clásico y que se utiliza para contrastar
los resultados, por lo que se le llama grupo de contraste.
Cuando se efectúa el contraste de la diferencia de medias de dos poblaciones, se
han de tener en cuenta tres aspectos fundamentales:
a) la normalidad de las poblaciones,
b) la homogeneidad de las poblaciones,
c) el tamaño de los grupos experimental y de contraste.
La normalidad de las poblaciones se refiere al hecho de que éstas sigan o no una
distribución normal, mientras que la homogeneidad hace referencia a la igualdad de
las varianzas de ambas poblaciones. Más adelante veremos cómo es posible contras
tar la homogeneidad de las varianzas así como la bondad de ajuste de los datos a un
tipo de distribución.
Por ahora, baste con decir que, cuando nos planteamos un contraste de este tipo,
admitimos, como hipótesis de trabajo, que las muestras que van a formar los grupos
experimental y de contraste son aleatorias y tales que:
1) las poblaciones de donde son extraídas tienen una distribución normal.
2) las varianzas de ambas poblaciones son iguales (aôV).
Otro factor importante que interviene en el contraste de la diferencia de medias es
la independencia o dependencia de las muestras. Los métodos que se utilizan cuan
do las muestras son independientes no son válidos cuando hay una relación de
dependencia entre los datos.
En cuanto al tamaño de las muestras, es conveniente que ambas tengan el mismo
tamaño, aunque no siempre esto va a ser posible. En cualquier caso, cuanto mayores
sean los tamaños de las muestras, más correctos serán los resultados del contraste.
Hablaremos de muestras grandes, cuando su tamaño sea mayor o igual que 30, y de
muestras pequeñas, cuando su tamaño sea inferior a 30.
Sin embargo, para obtener un resultado satisfactorio, no siempre es imprescindible
357
el cumplimiento de las hipótesis de homogeneidad y normalidad. Tras los trabajos

publicados por Boneau en 1960 y las aportaciones posteriores de estadísticos como
Edwards, las conclusiones sobre las condiciones exigibles para que un contraste de
diferencia de medias produzca un buen resultado son:
/. Muestras grandes:
A) La distribución t de Student produce buenos resultados en general, incluso

cuando no se satisfacen las condiciones de homogeneidad y normalidad. Se utiliza
el estimador
(x-r)-(nrn.)
t=
Sx-r
que se distribuye según una t de Student con n +n,-2 grados de libertad, donde
(n,-l)s)+(n2-l)s]¡ 1 1
Sxr = i' 1 7 1 +_
B) Si las varianzas de las poblaciones son conocidas, se utiliza la variable tipificada
(x-y)-(n,-l0
z=
—+ —
til n2
que sigue una distribución normal N(0,1).
//. Pequeñas muestras:
Cuando se trabaja con pequeñas muestras, se deben hacer las siguientes precisio
nes:
A) Si las dos muestras tienen el mismo tamaño o un tamaño muy próximo y las
poblaciones tienen la misma forma o una forma muy parecida, el contraste de la t
de Student produce resultados correctos.
B) Si los tamaños muestrales son distintos, pero las varianzas poblacionales, aun
que desconocidas, son iguales, el uso de la t de Student es correcto.
C) Si los tamaños muestrales son distintos y las varianzas de las poblaciones
también son diferentes, no es correcto el uso de la t de Student. En este caso, se
debe intentar seleccionar muestras del mismo tamaño; si esto no fuera posible,
hay pruebas especialmente diseñadas.
Vamos a estudiar, en primer lugar, el contraste de diferencia de medias en el caso
de muestras independientes, haciendo dos apartados según se trate de grandes o
pequeñas muestras.
358
11.3. Muestras independientes
11.3.1. Contraste de diferencias con muestras grandes
Entendemos por muestras grandes aquellas cuyo tamaño es mayor o igual que 30,
para las cuales son válidos los contrastes de diferencias de medias que se basan
tanto en la t de Student como en la distribución normal.
Ambos métodos dan un buen resultado; su finalidad es comprobar si la diferencia
entre los resultados de las medias muestrales es un reflejo de una situación real en las
poblaciones o se trata de una diferencia debida al azar.
En todos los campos de la investigación se presentan a menudo situaciones simi
lares a la que plantea el siguiente ejemplo:
Ejemplo 11.1
Un profesor de Matemáticas realiza un programa de ordenador, en que se simula un

modelo para estudiar los conceptos de Estadística Descriptiva de primero de Bachillerato.
La finalidad del modelo es la de afianzar los conocimientos y agilizar los cálculos
de las principales medidas de centralización y de dispersión.
Para comprobar la eficacia del programa, el profesor elige al azar un grupo formado
por 38 alumnos (grupo experimental) con el que va a ensayar el programa. Del mismo
modo, selecciona un segundo grupo en el que hay 32 alumnos (grupo de contraste)
para comparar los resultados.
Después de trabajar el tema en los dos grupos, se hace pasar a todos los alumnos
por el ordenador, desarrollando con el primer grupo el programa de simulación, en
tanto que los alumnos del grupo de contraste trabajan con un programa no relaciona
do con el tema de estudio. De este modo, el profesor trata de evitar la influencia
psicológica que pueda ejercer el hecho de trabajar con el ordenador.
Finalizada la experiencia, los alumnos son evaluados obteniendo los siguientes
resultados:
Calificaciones N° alumnos G.E. Na alumnos G.C.
1 0 1
2 0 1
3 1 1
4 3 2
5 7 7
6 8 6
7 5 4
8 6 6
9 7 4
10 1 0
359
Efectuados los cálculos, las medias y cuasivarianzas de ambas muestras con sus
tamaños figuran en el siguiente cuadro:
G. experimental G. de contraste
Media 6'68 6' 15
Cuasivarianza 3' 10 4'00
Tamaño muestral 38 32
Por medio de esta prueba, el profesor quiere saber si el incremento que se observa
en la nota media del grupo experimental es una garantía de que el modelo de simula
ción supone una mejora en el rendimiento escolar de los alumnos.
En otras palabras, hay que conocer si la diferencia entre las calificaciones medias
de ambas muestras es motivo suficiente para afirmar que las medias de las respectivas
poblaciones son también diferentes y, por tanto, lo son las propias poblaciones, o
bien, si dicha diferencia se debe únicamente al error que introduce el azar al seleccio
nar cada muestra.
El interés se centra en discernir si la diferencia H, - n, entre las medias de las dos
poblaciones, que se suponen distribuidas normalmente, es igual a cero', o lo que es
igual, si |i, = |i, .
Luego las hipótesis nula y alternativa para un contraste bilateral son:
Por tratarse de muestras grandes de dos poblaciones cuyas varianzas son desco
nocidas, se realiza el contraste por medio de la t de Student.
Bajo la hipótesis nula, el estadístico
X-Y
/=-
Sx-Y
sigue una t de Student con n +n¡-2 grados de libertad, donde
(n,-1)s]+(n,-l)S2 (1
Sxr — — + —I
n¡ + ri2-2
Hay que evaluar
s= ~
n¡ + n2 - ¿
1 También podría contrastarse la hipótesis de que la diferencia de medias tome otro valor
distinto de cero.
360
que es la media ponderada de las cuasivarianzas muestrales, y proporciona el error

típico de la diferencia de medias:
En efecto, sustituyendo s: en esta expresión, resulta:
¡(n,-I)s;+(n2-l)s-; í —
I — 1)
S,y = , ~ +
El número de grados de libertad es n,+n,-2, puesto que, al estimar la varianza con

la primera muestra, se utilizan n^l gl, y se usan otros n,-1 gl para estimar la varianza
con la segunda muestra.
Si, en el ejemplo del modelo de simulación, se realiza el contraste bilateral para un
nivel de significación a=0'05. se obtiene, para los datos de las muestras, el valor
X -Y 6'68-6'15
(n,-l)sl+(n2-l)sl( 1 1- 37 3'10 + 3I 4( 1 I
+
ni + ti2 -2 \n¡ n? , 68 (38 32
0'53 0'53
= 1'18
40'202 0'45
La tabla de la t de Student para una prueba bilateral con a=0'05 y 68 gl da un valor
crítico t =1'99. Como el valor obtenido, 1'1 8. es menor que 1'99, el profesor se ve
obligado a aceptar la hipótesis nula, lo que seguramente le decepcionará, ya que tiene
que admitir que el programa que ha elaborado no influye en el rendimiento del alumno
en la forma que él esperaba.
1 1 .3. 1 . 1 . Análisis de los resultados
A) Hemos de advertir que, aún cuando los resultados del contraste conducen a la
aceptación de la hipótesis nula, no debemos inferir que se haya demostrado que las
medias de ambas poblaciones son iguales, pues, aunque no estuviera determinada,
había una probabilidad de cometer un error de tipo II.
La conclusión que se debe sacar es similar a ésta: «no se ha encontrado una razón
suficiente para aceptar la hipótesis de que el modelo de simulación influya en el
rendimiento académico del alumno».
B) Si, por el contrario, el resultado del contraste hubiera dado un valor superior al
valor crítico, por ejemplo, t=2'03; en otras palabras, si el contraste hubiera resultado
significativo, habríamos tenido que rechazar la hipótesis nula, aceptando, por consi
361
guíente, la hipótesis alternativa. Tampoco, en este caso, se debe tomar el resultado

como decisivo, puesto que existía una probabilidad de cometer un error de tipo I.
Sería conveniente que el investigador (en este caso, el pedagogo) repitiera el
experimento para ratificar que el modelo de simulación ejerce influencia en el rendi
miento del alumno.
C) En el caso de que se hubiera producido un resultado estadísticamente significa
tivo, surge el problema de averiguar cuál es la intensidad de la relación entre las dos
variables.
Interesa también dar una medida de dicha intensidad para saber si el paso de los
alumnos por el ordenador tiene una influencia grande, moderada o débil en su rendi
miento.
Una medida de esta intensidad la proporciona el coeficiente de correlación, según
vimos en el capítulo sexto y, cuyo valor en la población debe ser inferido a partir de la
muestra.
1 1 .3. 1 .2. Intervalo de confianza
Vamos a tratar de construir un intervalo de confianza para la diferencia de medias

del ejemplo 11.1. Para ello, disponemos del estimador
(X-Y)-{\ir\i,)
Sx-r
que se distribuye según una t de Student con ^+^-2 grados de libertad.
Este estadístico da lugar al intervalo de confianza aleatorio del 95% dado por
X - Y - 1'99 s¡ , < u, - u , < X - Y + Y99 . sxj

Para las muestras del ejemplo, se tiene:
X =6'68, F = 675 y sü-Y = 0'45

y, para a=0'05, las tablas de la t proporcionan un valor crítico t680025=l'99. Sustitu
yendo estos valores, resulta el intervalo:
6'68 - 675 - Y99 . 0'45 < u, - u, < 6'68 - 675 + Y99 . 0'45
0'53-0'89< \i,-\i,<0'53 + 0'89
-C56< \i,-\i2<l'42
Se obtiene, de este modo, el intervalo particular:

I0 = [-(T36,l'42]
362
que contiene el valor 0 correspondiente a la hipótesis nula |1 - |L .= 0 según era de

esperar.
11.3.1 .3. Potencia del contraste
Para hacer un estudio de la potencia, es necesario plantear una hipótesis alterna

tiva concreta y específica, como puede ser el contraste de
Hn=\lr\í2 = 0 con H,= \xr\i: = J
Entonces, la potencia del contraste, para una prueba unilateral, viene dada por
7-P =p(xrX:>a.nr\i: = d)
siendo a = /aíx,.*,, y Ia probabilidad de cometer error de tipo II:
' XrX2-d a-d }

P =P(XrX2<a,\i,-\i:=d) = P
\ *x).x2 *i,% J
donde
-- \(nrl)s] + (n,-l)s::(l + 1 \
\ 71/ +712 -2 \rti n: )
Bajo la hipótesis alternativa específica, sabemos que el estadístico
X~i-X~2-d
t =.
SxTxi
se distribuye según una t de Student con n,+n,-2 grados de libertad. Luego, para una
prueba unilateral, se tiene
( d, \ f \
a
P-Jh -,uru,=</ .P\t<ta- ,|ir|i, = </
de donde se deduce que
-t9 = r„
Sx,x:
y, por tanto
tu +/p =. (I)
íFi-F,
363
Para una prueba bilateral, se obtendría la expresión
/a/2 + f3 (2)
S.V Y.
Teniendo en cuenta que

/ /
I n, m
resulta
di di n¡n.
S I—
1 —1 S V«/ + «'
+
Se tiene, por tanto, la relación
í/ «i/fc
/„ +/u (3)
i V «/+«:
Si la prueba es bilateral, se obtiene la relación
í/ n¡n2
fa/.' + fp (4)
S V /// + B2
M,-n.= 0 M, . M,= d H,-H,»0 H,- m- d
Figura 1 1 . 1 : Errores de tipo 1 y //. Figura 11.2: Potencia del contraste.
Cuando los tamaños de las muestras son distintos, se toma como tamaño común
a ambas muestras la media armónica de sus tamaños:
2 2it/7i2
]- ]- n¡ + n.2
fl i ll:
de donde resulta
n¡ + ll: 2
364
Las expresiones (3) y (4) quedan entonces en la forma:
(5)
'"+'9=7\ §
t„,2+h =-
1
Según este resultado, el índice de discrepancia y la función del tamaño muestral
(6)
vienen dados por

d ¡ü
siendo
(ni-Dsl+(n2-l)s2
n¡ +n.2-2
El factor de equilibrio será:
8=t¡+tB, si el tipo de prueba es unilateral
8=t -+L, si el tipo de prueba es bilateral
Las expresiones (5) y (6) permiten determinar el tamaño de cada una de las mues
tras, una vez han sido fijados el nivel de significación y la potencia del contraste. En
efecto, despejando n, se obtiene
2(ta+tfj)'s
(7)
2(ta/2 + t»)'s2
(Si
d
según el tipo de prueba.
Como 8=t. +t , para una prueba unilateral y 8=t„/,+tB, si el tipo de prueba es bilate
ral, sustituyendo 8 y V en (7) y (8), llegamos a la misma expresión:
(8^
(9)
Ejemplo 11.2
En el ejemplo 11.1, queremos contrastar la hipótesis nula H^)^-uÔ con la hipó

tesis alternativa específica H,^1,-^=0'S.
1 ) ¿Cuál será la potencia del contraste para un nivel de significación a=0'05 y una
prueba bilateral?
365
2) ¿Qué tamaño deben tener las muestras experimental y de contraste para conse
guir una potencia de 0'90 con un nivel de significación del 5%?
Solución
I) Potencia del contraste: Vamos a calcular la potencia por los dos métodos que
discutimos en el capítulo anterior.
A) Método directo: Utilizando el «Cálculo de Probabilidades», sabemos que la
probabilidad de cometer error de tipo II es
a Á d d
P =P-ta,2- -<'</«/2—^
\ Sxix2 Sxrx:
Al ser n,+n,-2=68, la t de Student tiende a la normal tipificada, y podemos

tomar t^^z^. Para un contraste bilateral, si a=0'05, es z =1'96, quedando
* C5 0'5
P=f .¡'96- , <Z<1'96- P(-3'07<Z<0'85)
4&202 ' 40'202 , '
= P(Z < 0'85) - P(Z < -3'07) = a8023 - 0'00l 1 = 0'8012
La potencia será, por tanto:
/-P= 1-0'8012 = 0'1968=0'2

B) Utilizando la tabla A.7 del apéndice A: Debemos calcular el factor de equilibrio,
para lo cual, hallamos el valor de s:
37. 310 + 31 .4
—« = 1'87
Entonces resulta:
. d n 0'5 35
La tabla A.7, para a=0'05 y un valor del factor de equilibrio de 1 '087 en una prueba
bilateral, proporciona un valor de la potencia de 0'2, que coincide con el que acaba
mos de obtener por el método directo.
2) Determinación del tamaño muestral:
Si a=0'05 y 1 -B=0'90, la tabla 1 .7 proporciona el valor 8=3'25.

d (.T5
Entonces r= —= = ff267
s V 87
366
con lo que (3'25

2 148 = 296
Se necesitan, por lo tanto, dos muestras de tamaño 296 para obtener un nivel de
significación del 5% y una potencia del 90%.
11.3.1.4. Gráfico de caja y extensión múltiple
¡jí
Figura 11.3: Gráfico de cajas hemliitus
Cuando los grupos de datos estadísticos presentan alguna anomalía, la mediana

es más adecuada que la media para realizar comparaciones. La mediana se puede
utilizar, en una expresión gráfica, para detectar e incluso confirmar la diferencia en la
localización de los datos.
El gráfico más idóneo es el «gráfico de cajas hendidas» o «gráfico de caja y
extensión múltiple», que presenta una hendidura en torno a la mediana, que sirve
para marcar un intervalo de confianza del 95% con el centro en ésta. Los extremos del
intervalo son: A\
Md-1'57x-fir yM,i + 1'57x
,Jn S
donde M es la mediana, Rsl es el valor del rango semiintercuartílico, n el tamaño
muestral y 1'57 una constante.
Se trata de un gráfico con carácter confirmatorio tal que, si se comparan dos
grupos de datos, el criterio que se sigue consiste en admitir que los datos proceden
de la misma distribución cuando los intervalos marcados en los gráficos se solapan.
367
En la figura 11.3, puede apreciarse cómo la diferencia en la localización de los

grupos experimental y de contraste del ejemplo 11.1 no es significativa.
11.3.2. Contraste de diferencia de medias con pequeñas muestras
Cuando el número de grados de libertad es grande, la distribución de la t de

Student tiende a confundirse con la normal N(0,1). El uso de cualquiera de las dos
variables, Z ó t, para realizar el contraste, conduce al mismo resultado si el número de
grados de libertad es alto.
El límite a partir del cual se considera que la t de Student marca diferencias aprecia-
bles con respecto a la variable Z se sitúa en torno a los 30 grados de libertad. Desde
30 grados de libertad hacia abajo la t difiere notablemente de la normal, y es cuando la
t produce resultados más fiables que aquella.
11.3.2.1. Contraste de diferencia de medias cuando las varianzas poblacionales son

conocidas
Ejemplo 11.3
De una población normal con desviación típica a=2'l se extrae una muestra
aleatoria de tamaño ^=20, cuya media muestral es 7'4. Se extrae una segunda muestra
aleatoria de tamaño n,=24 de una población normal diferente con desviación típica
a2=1'5, dando una media de 6'9. Ensayar la hipótesis de que las medias poblacionales
son iguales.
Al ser conocidas las varian
zas de las poblaciones, la dife
rencia de medias muestrales
X -Y es un estimador inses-
gado de la diferencia de medias
p,-p, de la población, que sigue
una distribución normal
(
N u,-u. / \ 2 5%
n, ll2
Se trata de contrastar la hi fírfrrrrTr,-

pótesis nula H^|i^|iÔ con la
hipótesis alternativa H ^|i^|iÔ.
Entonces, si elegimos el ni
vel de significación a=0'05, bajo Figura 1 1 .4: Región crítica para la diferencia de medias.
368
la hipótesis nula, se obtiene como valor de la variable tipificada
A Y 7'5-6'S
/= = ¡'25
(y¡~4= i4'41 2'25
n, + n2 1 20 + 24
que, comparado con el valor crítico, 1 '96, correspondiente a la normal N(0,1 ) para un
contraste bilateral con un nivel de significación a=0'05, conduce al mismo resultado
que la t de Student. Ya vimos que la t, cuando el número de 'grados de libertad es
grande, tiende a confundirse con la normal N(0.1 ).
1 1.3.2.2. Potencia del contraste
Se trata de contrastar la hipótesis nula //„ = u / = u , =0 con la hipótesis alternati

va específica //, = u ( - u , = d para la diferencia de medias de dos poblaciones, de las
que se conocen sus desviaciones típicas G¡ y a,.
La potencia del contraste viene dada por
/-P =i>(\xrY¡>a,nr\ií-d)
siendo a = ;o/2-sj¡.j},
y la probabilidad de cometer error de tipo II:
P =P(-a<~X,-~X2<a,\ir\l2 = d) =
.-a-d XrX.-d a-d

= < , = < .V,-V2 = d
O'i
— o}
— o} o} — +—
+
tl¡ B2
Bajo la hipótesis alternativa específica, sabemos que el estadístico

X -X d
Z=
o o
«/ tl:
se distribuye según una normal N(z;0.1 ), por lo que, para una prueba bilateral, resulta:
d d
P=/> .z*,r <Z<za/2-
n¡ n: Tt/ it: )
369
Por tanto
"Zli "Mt/
de donde se llega a la expresión

</
Za/2 +Zp -
(10)
Si los tamaños de ambas muestras fuesen iguales, n,=n,=n, la relación anterior

quedaría en la forma
Za/2 + Z|J - fn (11)

Vo/+oÍ
Cuando los tamaños muestrales son distintos, se puede tomar como tamaño co
mún de ambas muestras la media de n, y n,.
La expresión (11) nos indica que podemos tomar como índice de discrepancia
d
r=
Vo/+o:
y como función del tamaño muestral
f(n) = V77
donde n es la media de n, y n„ cuando las muestras experimental y de contraste
tienen distinto tamaño, quedando como factor de equilibrio
X d
.j¡
Si despejamos n en la expresión ( 1 1 ), se obtiene la relación
n =
u, ..+2n)"(cr; + cr:) (12)
d2
que nos proporciona el tamaño que deben de tener las muestras experimental y de
contraste para un nivel de significación a y una potencia dada 1-B.
Si el contraste es unilateral, la expresión (11) toma la forma
¿u T «.p V^ (13)
Vo/+o;'
370
y la expresión (12) quedaría
(za + zpHcrJ + ai)

(14)
Ejemplo 11.4
Si, en el ejemplo 1 1 .3, queremos contrastar la hipótesis nula H0=n -|i =0 con la
alternativa específica HMi -h2=0'5, veamos cuál es la potencia del contraste para una
prueba bilateral y a=0'05. También vamos a calcular el tamaño que deberían de
tener ambas muestras para conseguir un nivel de significación oc=0'05 y una
potencia l-B=0'95.
1) Cálculo de la potencia
A) Método directo: Utilizando el «Cálculo de Probabilidades», al ser conocidas las

varianzas poblacionales, el estadístico
Xi-X.-ffS
Z=
4'41 725
20 + 24
se distribuye según una normal N(z;0, 1 ).
Entonces
(*=/i -Y96- V5 0'5

<Z<1'96-
4'41 725 4'41 725
20 + 24 20 * 24 )
= P(-785 <Z< 1'06) = P(Z < 1'06)- P(Z < -785) = 0'8532
Luego la potencia del contraste es
/ - p = 7 - 0'8532 = 0'1468 = 0'15

B) Utilizando la tabla A.7 del apéndice A: Calculamos el factor de equilibrio
0'5
fn
J4'41 + 725
que depende del tamaño de las muestras. Al ser los tamaños distintos, tomando como
tamaño de ambas la media de n y n.,, resulta
20 + 24
n = —-— = 22
371
Luego
o <y5 i—
Para 8 = 0'90, a = 0'05 y una prueba bilateral, la tabla A.7 proporciona una potencia
de 0' 15, que coincide con el valor que acabamos de encontrar.
2) Tamaño de la muestra
Si a=0'05 y l-B=0'95, será B=0'05, luego

zaQ=l'96yze=l'65
Por tanto
(l'96 + r65f(4'41 + 2'25)
n= = 347'12 = 347
0'5-
El tamaño que deben de tener las muestras experimental y de contraste es n=347.
11.3.2.3. Contraste de homogeneidad de varianzas para muestras independientes
Con frecuencia, desconocemos si las varianzas poblacionales son iguales o dife

rentes. Así sucede en el siguiente ejemplo:
Ejemplo 11.5
Para probar la eficacia de un nuevo fertilizante en la producción de trigo, se selec

cionan 26 parcelas de igual tamaño y de características similares. Se siembran todas
con el mismo tipo de trigo, siendo tratadas la mitad de las parcelas con el nuevo
fertilizante y la otra mitad con el fertilizante tradicional.
Efectuada la recolección de la cosecha, las parcelas tratadas con el nuevo fertili
zante produjeron una media de 10'8 fanegas, con una cuasivarianza de 1'7, y las 13
parcelas que no fueron tratadas con el nuevo fertilizante produjeron una media de 9'4
fanegas, con una cuasivarianza de 1 '4.
¿Se puede inferir, a partir de estos resultados, que el nuevo fertilizante incrementa
de una manera significativa la producción de trigo?
Para comprobar la homogeneidad de las varianzas de la población, necesitamos
hacer un contraste previo sirviéndonos de los valores particulares obtenidos para las
cuasivarianzas de las muestras.
La prueba que se utiliza con mayor frecuencia para comparar las varianzas
poblacionales a partir del conocimiento de las cuasivarianzas de las muestras se cono
ce como prueba F de Fisher-Snedecor. Esta prueba se basa en el cociente entre la
372
mayor y la menor de las cuasivarianzas; un cociente grande o pequeño señala una

diferencia notable entre las cuasivarianzas, en cambio, un cociente próximo a uno es
señal de una diferencia pequeña.
Las condiciones en que se puede aplicar este contraste de homogeneidad vienen
dadas en las hipótesis de la siguiente proposición, y son la independencia de las
muestras y la normalidad de las poblaciones.
Proposición 11.1: Si s{2 y s,2 son las cuasivarianzas de dos muestras indepen
dientes de tamaños n, y n,, respectivamente, procedentes de poblaciones dis
tribuidas normalmente, el estadístico
s]/a2,
S2/O2
sigue la distribución F de Fisher-Snedecor con (n,-1) gl de la cuasivarianza

mayor, s,2, y (n,-1) gl de la cuasivarianza menor, s22.
Las hipótesis nula y alternativa son:
Bajo la hipótesis nula, la variable F es:
El valor que se obtiene para F se compara con el valor crítico de la tabla de la

distribución F de Fisher-Snedecor; este valor se encuentra en la intersección de la
columna de los n,-1 gl de la cuasivarianza del numerador con la fila que contiene los
n,-1 gl de la cuasivarianza del denominador de la tabla de la F.
En el apéndice A, se incluyen cuatro tablas de la F: dos con los valores correspon
dientes al nivel de significación a=0'05 y otras dos para a=0'01.
Si el valor de la F que se obtiene en la fórmula del cociente de cuasivarianzas es
menor que el valor de la tabla para a=0'05 (o a=0'01), se acepta la hipótesis nula al
nivel 0'05 (ó 0'Ol), y, en caso contrario, la hipótesis nula es rechazada.
En el ejemplo 1 1.5, las cuasivarianzas muestrales son
S|2=l'7y s,2=l'4
con lo que la F de Fisher-Snedecor toma el valor
sj 1'7
El valor crítico lo proporcionan las intersecciones de la columna 1 2 con la fila 1 2 de

las tablas, cuyos valores son
373
F,2.12.oo5=2,6866yF,,,,»ol=4'1553
Entonces, al ser el valor F=l '21 menor que los valores críticos a los niveles 0'05 y
0'O1, aceptamos la hipótesis nula, o lo que es igual, la igualdad de las varianzas
poblacionales.
11.3.2.4. Contraste de diferencia de medias procedentes de poblaciones homogéneas
Una vez ha sido aceptada la homogeneidad de las varianzas de la población, se

puede realizar el contraste de diferencia de medias a partir de los datos de que dispo
nemos.
Tenemos los resultados de dos pequeñas muestras del mismo tamaño, 13.
//H=|i, = p., y H,3\i,*\i2
Para llevar a cabo el contraste, sabemos que, bajo la hipótesis nula, la variable
X-Y
t =
Sx-r
es una t de Student con n +n.,-2 grados de libertad, donde
¡(ni-l)sl + (n2-l)s2 (1
— + —'
Sxy
nl + n2-2
Con los datos del ejemplo 1 1.5, resulta:
10'8 - 9'4 1'4

ros
12 1'72 + I2 1'4 Y / 1\
24 13 + 13
Para un contraste bilateral y un nivel de significación a=0'05, la tabla de la t de

Student proporciona un valor crítico, para 24 gl, de
t24.0023=2'064
El valor obtenido en el contraste. 2'03, es menor que el valor crítico, 2'064, por lo
que el contraste no es significativo y podemos concluir que «no hay motivo suficien
te para pensar que el nuevo fertilizante mejora la producción de trigo».
Sin embargo, el valor obtenido para t es muy próximo al valor crítico, por lo que
sería aconsejable repetir la experiencia antes de tomar una decisión definitiva.
374
11.3.3. Contraste de diferencia de medias procedentes de poblaciones no homogé

neas
Cuando las muestras son pequeñas y las varianzas distintas, ciertas modificacio
nes en la t de Student conducen a un resultado fiable.
Vamos a exponer dos métodos que exigen, para su aplicación, que las muestras
sean independientes y las distribuciones de las poblaciones normales o aproximada
mente normales. Más adelante veremos cómo se puede inferir la normalidad de una
población a partir de los datos aportados por la muestra.
/. Método de Cochran-Cox:
Este método compara la variable t, no con el valor que se obtiene de la tabla de la

t de Student, sino con el valor crítico que proporciona la fórmula de Cochran-Cox,
que, para un nivel del 0'05 y una prueba bilateral, es:
t¡S'- +?.'Sf
tims = 2 '
donde
t, es el valor de la t de Student con n,-1 gl y nivel a=0'05
t2 es el valor de la t de Student con n,-1 gl y nivel a=0'05
X es la media del grupo experimental.
Y es la media del grupo de contraste.
S. = es el cuadrado del error típico de la media para el grupo experimental.

n,-l
es el cuadrado del error típico de la media para el grupo de contraste.
' n¡ - 1
El contraste se realiza evaluando el valor de la variable
X-Y
t =.
v4 + Si
que se compara con el valor t0 proporcionado por la fórmula de Cochran-Cox, de
forma que, si el valor de la variable t es menor que el valor que proporciona la fórmula,
se acepta la hipótesis, y si es mayor, se rechaza.
Ejemplo 11.6
Un laboratorio farmacéutico pretende averiguar si un nuevo fármaco detiene una

cierta enfermedad. Dispone de 1 9 cobayas en las que acaban de provocar la enferme
dad. Se seleccionan 10 de ellas al azar y se les administra el nuevo fármaco, compro
375
bando los días de supervivencia del grupo de estas 10 cobayas y de las 9 restantes,
a las que se les administra el fármaco tradicional. Los resultados obtenidos (expresa
dos en horas) son los siguientes:
Tratados 1503 620 752 1215 1890 340 1670 1256 1887 1310
No tratados 790 3% 681 630 1030 898 1024 745 910
Con los datos del ejemplo, para un nivel del 0'05, se obtienen los siguientes
valores:
n=10, X = 1244'3, s=530'54, s,2=281479'7

n2=9, Y = 789'33, s2=204'07, s22=41644'7
Las muestras son independientes y también se admite la normalidad de las dos

poblaciones. En cambio, necesitamos comprobar si son iguales o no las varianzas.
Para ello, utilizamos la F de Fisher-Snedecor para hacer un contraste de homogenei
dad.
El estadístico que se utiliza para realizar el contraste es

sj 2814797
F=4= = 675
s2 416447
Las tablas de la F para 9 gl de la cuasivarianza mayor y 8 gl de la menor proporcio
na los valores críticos:
F9. 8. oo5 =3'39vF
J '), 8, O'Oi =5'91
El valor obtenido en el contraste , F=6'75, es superior a los valores de la F para 9

gl y 8 gl a los niveles 5% y 1%, por lo que se rechaza la hipótesis nula, concluyendo
que las varianzas de ambas poblaciones son distintas.
Por tratarse de poblaciones con varianzas distintas, pero que se pueden conside
rar normalmente distribuidas, es posible aplicar el método de Cochran-Cox.
Para usar la fórmula de Cochran-Cox, debemos hallar los valores t. y t,, que son
los valores críticos de la t de Student para (n^1) gl y (n,-1) gl, respectivamente, y un
nivel a=0'05.
La tabla de la t proporciona los valores:
376
Los cuadrados de los errores típicos de las medias muestrales son:
s2, 2814797
s\x = n,-l7 = 9 = 31275'52
s¡ 416447
r m-1 8 5205'58
Sustituyendo los valores obtenidos en la fórmula de Cochran-Cox, resulta:
f
2'262 . 31275'52 + 2'306 . 5205'58 7962174 y ]5i
31275'52 + 5205'58 36481'! 1~
Este es el valor crítico, al nivel del 5%, que se toma para comparar el valor de la
variable t, que, para los datos del ejemplo 1 1.6, es:
X-Y 1244'3 -789 33 454'97

t= i , = , = = 2'38
t]s2x + s¡ J31275'52 + 5205'58 191
Este valor de t=2'38 es mayor que el valor t005=2' 1 8 que proporciona la fórmula de
Cochran-Cox para un nivel a=0'05, por lo que se rechaza la hipótesis nula, llegando a
la conclusión de que el nuevo fármaco es efectivo para detener la enfermedad.
//. Método de los grados de libertad:
Se basa en la siguiente propiedad:

Si las muestras son independientes y las distribuciones de las poblaciones norma
les o aproximadamente normales, siendo las varianzas poblacionales distintas y des
conocidas, el estadístico
(x-y)-(ivu.,)
r=
n, n,
sigue una distribución t de Student con
(s2, I ni + si I n2)'
v=
[(s2,/n,f/(n,-l)] + [(sl/n2f/(n2-l)]
grados de libertad.
Aplicando este tipo de contraste al ejemplo 11.6, que satisface las condiciones
exigidas, se tiene:
(530322 /10 + 204'072 / 9)2
v=r 2 ^~T~f , , |= 1184 = 12
( 530'32' / 10)' /9\ + [( 204'07' / 9J / 8\
377
El valor de la variable t, para los datos del ejemplo, es:

1244'3 -789'33 454'94
t= , = = 2'51
\530'542 204'072 18V04
10 + 9
La tabla de la t de Student, para una prueba bilateral con 12 gl y un nivel a=0'05,
da un valor crítico t -=2' 179. Como el valor de t=2'5 1 es superior a 2' 179, el contraste
es significativo al nivel 0'05, luego rechazamos la hipótesis nula, admitiendo que el
nuevo fármaco es eficiente y alarga la vida media de los cobayas.
1 1 .4. Diferencia de medias para muestras dependientes
El estudio que acabamos de realizar para contrastar la diferencia de medias no es

válido cuando los datos están correlacionados. Así sucede cuando se toman medidas
en situaciones diferentes sobre el mismo conjunto de individuos.
Tenemos un ejemplo cuando se mide la actitud de un grupo de personas antes y
después de recibir un mensaje disuasorio.
Otra situación de este tipo se produce cuando se seleccionan las muestras por pares
de individuos con propiedades equivalentes en las características que se estudian.
Ejemplos clásicos son las muestras formadas por pares de hermano y hermana
para hacer algún tipo de estudio comparativo sobre una cualidad en el hombre y la
mujer, así como las muestras formadas también por pares de hermanos (primero y
segundo en edad) para analizar un factor psicológico como puede ser el grado de
introversión del primogénito,...
Son múltiples las situaciones análogas a éstas que se presentan en los diversos
campos de la investigación. Como punto de partida, vamos a estudiar la situación
originada por el siguiente ejemplo, que ya se nos planteó en el capítulo 9:
Ejemplo 11.7
El candidato número uno de un determinado partido político desea conocer la

influencia del mensaje electoral que va a transmitir a través de la televisión. Para ello,
selecciona una muestra aleatoria de 15 telespectadores de quienes solicita que evalúen
de 0 a 100 el programa electoral de su partido antes de pronunciar el mensaje y
después de hacerlo. Los resultados son:
Telespectadores 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Puntuaciones antes 48 56 65 60 43 28 62 39 70 29 31 57 51 18 54
Puntuaciones después 41 59 70 60 49 50 50 50 75 25 40 57 60 30 61
378
1 1 .4. 1 . Contraste de hipótesis
Los datos se dan apareados, no habiendo independencia entre las muestras, ya

que cada par de valores proceden de la misma persona.
El estadístico que se utiliza, según se vio en el capítulo 9, es:
t=
¡Sn
que sigue una t de Studenl con n-1 gl.

/
siendo /> ±D. ,
ni=l
D,=
n el número de pares y sb = ~. ¿¿{D, - D)
Como hipótesis nula se establece que la diferencia de las medias de las valoracio
nes antes y después de la recepción del mensaje es cero. Si se pretende hacer un
contraste bilateral, las hipótesis nula y alternativa son:
Entonces, bajo la hipótesis nula, el estadístico

D
¡sb
V«
sigue una t de Student con n-1 gl.
Con los datos de la muestras, resulta:
- /¿ 66
n l=l 15
s:n=^-¡yÍD-D)'=-l-¡973'6=69'54
Luego
D 4'4 4'4 4'4
~ [si~ ¡69'54 ~ 4*64 ~ 2'15 '
/, v 15
Si elegimos el nivel de significación a=0'05, el valor crítico de la t de Student con
14 gl para un contraste bilateral es:
379
Como el valor obtenido t=2'04 es menor que 2' 145, se acepta la hipótesis nula,
concluyendo que el mensaje no ha ejercido influencia en el electorado.
11.4.2. Intervalo de confianza
En el caso de dos muestras dependientes, el estadístico

f~P-H0
¡Sd
V n
acabamos de recordar que se distribuye según una t de Student con n-1 gl. Luego el
intervalo de confianza aleatorio del 95% será:
Comot a/2,14
,,, =T 145, será:
D - 2'145-1— < H D < D + 7145,1—

V n \ n
Si se toman los valores proporcionados por las muestras, se tiene el intervalo
particular:
4'4 - 71454^64 < u „ < 4'4 + 7145^64
4'4-4'62<\iD<4'4 + 4'62
-0'22<\in<9'02
que contiene el valor 0 correspondiente a la hipótesis nula del contraste que se hacía
en el apartado anterior, según era de esperar, puesto que el contraste no resultó
significativo.
1 1 .5. Inferencias sobre proporciones y porcentajes
Problemas similares al que plantea el ejemplo que se propone a continuación son

habituales en cualquier campo de investigación. En un principio puede parecer un
problema de inferencia sobre la media de una población. No obstante, hay un matiz
nuevo: los datos vienen dados ahora en forma de proporciones.
Ejemplo 11.8
El gobierno de una nación desea someter a referéndum una ley fundamental que,
para ser aprobada, necesita de la mayoría absoluta de los sufragios emitidos.
380
Antes de someterla a referéndum, el gobierno encarga un sondeo de opinión, que

produce el siguiente resultado: de las 350 personas consultadas, 1 89 son favorables a
la nueva ley, mientras que 161 manifiestan que votarán en contra.
A la vista de estos datos, ¿puede el gobierno tener una garantía suficiente de que
saldrá adelante la mencionada ley?
La aprobación de la ley es fundamental para la continuidad del gobierno, que la
someterá a referéndum si los resultados del sondeo le garantizan que la ley será
votada por un porcentaje superior al 50% de la población.
La decisión que tome el gobierno se debe basar en el conocimiento de que:
a) dispone de una muestra aleatoria de 350 personas que han manifestado su
intención de voto.
b) el 54% de las personas consultadas ha manifestado que votará afirmativamente.
c) el 46% de los consultados votará «no» a la ley.
Para simplificar, se han eliminado los casos de votos indecisos y las abstenciones.
El problema estadístico consiste en la realización de un contraste de hipótesis
sobre proporciones.
Un estimador insesgado de la proporción de individuos de una población es la
proporción de individuos de la muestra, que, según vimos, sigue una distribución
normal
Y
P(l-P)
Por lo tanto, la variable tipificada

P-P
P(l-P)
es normal N(0, 1 ).
Se puede plantear un contraste de hipótesis bilateral:
Hipótesis nula: //o = p = 05
Hipótesis alternativa: H, = p±05
Si se elige un nivel de significación del 5%, al ser p=0'54, tendremos:
0'54-0'5 0'04
V49
05,05 00267
350
Como el valor de Z=1'49 es inferior al valor crítico correspondiente a la normal

N(0,1) para a=0'05, que es z =1'96, no se puede rechazar la hipótesis nula, y, por
tanto, no es improbable que la encuesta haya dado un 54% de partidarios del «sí»,
siendo así que votará «sí» el 50% de la población.
381
1 1.5.1. Intervalo de confianza
Si se quiere un intervalo de confianza que contenga todos los valores probables

de la proporción p de la población, habrá que utilizar el valor particular del parámetro
para hacer una estimación del verdadero valor de p.
Esto es posible siempre que el tamaño de la muestra sea suficientemente grande
para que la estimación que se hace de p no afecte mucho al error típico de la propor-
ción -¡P(1-P)
En el caso particular de nuestro ejemplo, el tamaño de la muestra es suficientemen

te grande. Luego, tomando p=0'54, tendremos el siguiente intervalo de confianza al
nivel del 5%:
p-r96ah <p<p+V96ah
que, al ser p=O'54 y tomar p=p, será:
con lo que el intervalo resultará:

w a 54(1-0' 54)
350
=0026
0'54 - 1'96 0'026 <p< 0'54 + 1'96 0'026

Luego:
I0 = (0'49,0'59)
es el intervalo particular que contiene el valor 0'5, correspondiente a la hipótesis nula,
como era previsible tal como hemos estimado el valor del parámetro.
Inconvenientes:
Cuando el valor de la proporción es pequeño o bastante grande y el tamaño de la

muestra es pequeño, la distribución del estadístico p no es normal. La práctica esta
dística recomienda no utilizar este procedimiento cuando np ó n( 1-p) sea inferior a 5.
En estos casos, es conveniente tomar una muestra de mayor tamaño o usar la distri
bución de Poisson como aproximación de la binomial.
1 1.5.2. Potencia del contraste
Para determinar la potencia, es necesario concretar la hipótesis alternativa.

La hipótesis nula que se trata de contrastar consiste en admitir que la ley sometida
a referéndum va a ser votada afirmativamente por un 50% de los votantes, es decir:
382
H,FP„=0.5
Supongamos que se desea contrastar con la hipótesis alternativa de que hay una
diferencia de 5 centésimas, utilizando una prueba bilateral:
Si se elige un nivel de significación a=0'05 y una muestra de tamaño 350, el índice

de discrepancia será:
r- prP, - 0'55-0'50 -0'05-0,¡
yjpji-PJ Jff50.(l-ff50) 0'5 '
El factor de equilibrio, 8, viene dado, del mismo modo que en el caso del contraste
de la media, por
5 =rV^
por lo que
8 =07 4350 = J'87
Llevando este valor a la tabla de potencias, para 6=1 "87 y a=0'05, se obtiene el
correspondiente valor de la potencia:
1-B=0'44
Una potencia de 0'44 debe hacer pensar que, aunque el resultado del contraste fue
no significativo, esta conclusión no se puede considerar determinante, ya que supone
una probabilidad de cometer error de tipo II bastante alta:
B=0'56
1 1 .5.3. Determinación del tamaño de la muestra
La agencia encargada de hacer el sondeo, antes de proceder a su realización,

podría haber planteado la necesidad de determinar previamente el tamaño necesario
de la muestra para conseguir una potencia de 0'80. trabajando con un nivel de signi
ficación de 0'05, utilizando el mismo índice de discrepancia r=0' 1, para contrastar las
hipótesis:
H.FP.r0'5
383
Como 8 = rv« , será:
"ÍT¡
Para determinar n, se busca, en la tabla A.7, el valor de 8 correspondiente a una
potencia 1-B=0'80 y un nivel de significación a=0'05. resultando:
6=2'8
Entonces
(2'sY
n=[—j=28- = 784
Como puede apreciarse, para conseguir en las mismas condiciones, una potencia
de 0'80, se necesita una muestra de tamaño mucho mayor.
1 1.6. Contraste de la diferencia de proporciones
Para contrastar la diferencia de medias, nos hemos servido de un estadístico que,

según el tamaño de la muestra, seguía una t de Student o la normal tipificada.
En ambas situaciones, el proceso consistía en elegir como hipótesis nula el co
ciente de dividir la diferencia de dos estadísticos entre el error típico de dicha diferen
cia.
Este mismo método va a ser el que utilizaremos para efectuar el contraste de la
diferencia de dos proporciones o tantos por ciento.
Se trata, en definitiva, de contrastar la diferencia entre dos parámetros, p¡ y p, de
poblaciones binomiales. Para ello, se seleccionan dos muestras, una experimental y
otra de contraste, de tamaños n, y n„ respectivamente.
Si es x, el número de éxitos de la primera muestra y x, el número de éxitos de la
segunda, tenemos las proporciones
Sabemos que un estimador puntual de la diferencia de proporciones es £,-/>,.

Entonces, si las muestras son independientes, el estadístico p-p, se distribuye aproxi
madamente según una normal de media p,-p, y varianza
P,1, P,<¡,
iti n2
Podemos servirnos, para hacer el contraste, del estadístico

384
z=:ÍPrPzHPrP2)
PAijP2l2
Se trata de contrastar la hipótesis nula Ht=p-p=0 con la hipótesis alternativa
Bajo la hipótesis nula, serán p^p^p y q,=q.=q, y, por tanto
(PrP2)
/=
/"/ '.''
que se distribuye según una normal N(z;0,l).

En la práctica, para calcular el valor de Z, hay que estimar los parámetros p y q.
Para ello, se usa la siguiente estimación combinada de la proporción
„ xi+x2 n,p,+n,p,
P= n,+n,
Si sustituimos p por/? y q por q=l-p, el valor del estadístico Z viene determina

do por la expresión A A
(PrP,)
z=
itt\
El contraste se realiza por medio de la normal tipificada, de modo que, fijado un
nivel de significación a, para una prueba bilateral, si el valor de la estimación del
estadístico Z es mayor que el valor crítico z o menor que -z^, se rechaza la hipóte
sis nula, aceptándose en caso contrario.
Ejemplo 11.9
El equipo rector de una universidad planteó una consulta sobre la necesidad de

una asignatura de Cálculo Automático en los planes de estudios de las licenciaturas
en Ciencias Geológicas y Biológicas. Con este motivo, se elaboró un cuestionario, al
que contestaron 1 10 geólogos y 95 biólogos; 50 geólogos y 62 biólogos respondieron
que consideraban necesaria dicha disciplina.
Se trata de contrastar la significación de la diferencia de proporciones de las
respuestas de cada uno de los grupos consultados.
Solución:
Proporción de geólogos que ven la necesidad: /?,=yr-r=0'45

385
Proporción de biólogos que ven la necesidad: p,=-^=0'65
Entonces la estimación combinada de la proporción es

. 50+62 „■-.
p=7m95=0 54
y q=14)'54=0'46
Por lo tanto, la estimación del estadístico es
ff45-0'65
Z= , = -789
Si elegimos un nivel de significación a=0'05 y una prueba bilateral, es z^l '96 y

-za/2 =-1'96.
Como el valor de la estimación z=-2' 89<- 1'96, se rechaza la hipótesis nula, conclu
yendo que es mayor la proporción de los biólogos que ven la necesidad de una
asignatura de Cálculo Automático en sus planes de estudio.
1 1 .7. Ejercicios propuestos
11.1. Una muestra aleatoria de tamaño n=24, seleccionada de una población normal
con una desviación típica a,=4'9, dio una media x = 78. Extraída una segunda muestra
de tamaño n,=34 de otra población también normal con desviación típica o\=3'2, dio
como media 3c =70. Realizar un contraste para la igualdad de las medias de ambas
poblaciones.
1 1.2. Una muestra aleatoria de 36 estudiantes de una universidad A dio un cociente de

inteligencia medio de 120, mientras que otra muestra de 36 estudiantes de la universi
dad B dio una media de cociente de inteligencia de 110. Suponiendo que el cociente
de inteligencia de los estudiantes universitarios se distribuye normalmente con una
desviación típica conocida a=32, ¿se puede afirmar que hay una diferencia significati
va entre la media de los cocientes intelectuales de los estudiantes de las dos univer
sidades al nivel del 5%?
1 1.3. La presión arterial de 15 enfermos es controlada antes y después de que les sea
administrado un medicamento, dando los siguientes resultados:
Antes 9 7 8 11 10 8 9 10 11 8 9 10 7 9 10
Después 9 6 9 9 9 6 8 9 10 8 6 S X 7 9
386
Realizar un contraste para la media de las diferencias en la presión arterial antes y

después de tomar el medicamento, y construir un intervalo de confianza del 95%.
1 1.4. Una factoría de automóviles quiere decidir si, con un nuevo tipo de neumáticos,
se logra reducir el consumo de combustible. Para ello, realiza dos pruebas con 15 de
sus coches: una, con los neumáticos habituales y la otra, con el nuevo tipo de neumá
ticos en las mismas condiciones de recorrido y con los mismos conductores.
Los resultados de ambas pruebas fueron los siguientes (expresados en kilómetros
recorridos por litro de combustible consumido):
Nuevo 5*3 6'1 4'8 5'2 71 4'9 5'3 5'1 5*3 67 6'8 6'6 5'8 4'9 6'3
Habitual 5'1 5'9 47 5'3 6'8 47 5'4 4'9 5'0 6'4 67 6'4 5'9 57 5'9
Suponiendo que las dos poblaciones se distribuyen normalmente, ¿se puede con
cluir que. con el nuevo tipo de neumáticos, el consumo es menor? Utilizar un nivel de
significación de 0'05.
1 1.5. En un grupo de 2000, se han contabilizado 2 personas daltónicas, mientras que,

en un segundo grupo de 2400, hay 4 daltónicas. ¿Se puede afirmar que, en el segundo
grupo, es mayor la probabilidad de que una persona sea daltónica al nivel 0'05?
11.6. ¿Qué tamaño deberían tener las muestras del ejercicio 1 1.4 para conseguir una
potencia de 0'90, si se quiere contrastar una diferencia entre las medias de 200 metros
en una prueba bilateral al nivel de significación del 5%?
1 1.7. Para estudiar la influencia de determinados mensajes subliminares, un psicólogo

plantea un test de actitudes a un grupo de 12 personas. Después de proyectar una
película con una serie de mensajes en imágenes subliminares, les propone de nuevo el
mismo test de actitudes. Las puntuaciones obtenidas en ambas pruebas fueron las
siguientes:
Antes 21 18 9 20 16 25 10 17 26 23 25 20 I8
Después 20 22 18 25 21 29 16 21 29 22 27 23 21
Definir la hipótesis adecuada y realizar el contraste.
1 1.8. El servicio de abastecimiento de agua de una ciudad ha observado una concen

tración de nitritos superior al nivel máximo permitido. Dos industrias de productos
químicos le ofrecen sendos tratamientos. Para decidir sobre el mejor de los tratamien
tos, se recogen 1 5 botellas de agua tratada con el primero, que, analizadas, dan una
387
media de 26 mg. por litro con una desviación típica de 4 mg. por litro. Una segunda
muestra de 20 botellas de agua tratada con los productos de la otra industria da una
media de 24 mg. por litro con una desviación típica de 2'5 mg. por litro.
Suponiendo que la concentración de nitritos en el agua sigue una distribución
normal, se pide:
1 ) Realizar un contraste de homogeneidad de varianzas al nivel de significación del
0'05.
2) Hacer un contraste para averiguar si el segundo método es más eficaz que el
primero con un nivel de significación a=0'05.
1 1.9. Determinar el tamaño que deben tener dos muestras procedentes de poblaciones
independientes y homogéneas, de las que desconocemos su varianza. para contrastar
una diferencia entre las medias de 3 unidades, con un nivel de significación a=0'05 y
una potencia de 0'80 en una prueba bilateral. Se dispone de una estimación de la
varianza de 10'3.
1 1.10. Una cadena de televisión realizó una encuesta para averiguar las preferencias
de programación entre sus telespectadores, a la que respondieron 180 mujeres y 134
hombres. 64 mujeres y 30 hombres mostraron su preferencia por uno de los progra
mas. ¿Se puede concluir, con un nivel de significación del 0'05, que hay una preferen
cia en cuanto al sexo por ese programa?
11.11. De los 50 alumnos consultados de primero de Bachillerato de un centro de

Madrid, han aprobado 5 en la convocatoria de junio. En otro centro, de 36 alumnos de
primero consultados, aprobaron 3.
1 ) ¿Hay una diferencia significativa entre el número de alumnos de primero que
aprueban en junio en ambos centros?
2) Hallar un intervalo de confianza para el porcentaje de aprobados en el primero
de los centros.
1 1 . 1 2. Un grupo de 1 2 alumnos que trabaja con un programa de ordenador especialmente

diseñado para adquirir destreza en el cálculo, realiza una serie de ejercicios antes y
después de trabajar con el programa. Los tiempos invertidos en su resolución fueron:
Previo 30 41 44 36 25 37 22 46 32 44 15 38
Posterior 27 36 37 33 26 38 20 44 26 40 25 33
¿Se puede decir que hay una diferencia significativa entre los tiempos empleados
antes y después de utilizar el programa?
11.13. Se han seleccionado dos muestras, de tamaños 132 y 166, de estudiantes de

tercero de Ciencias Químicas de dos Universidades A y B, a quienes se les ha pro
388
puesto una prueba de conocimientos. Los estudiantes de la universidad A han ob

tenido, en la prueba, una calificación media de 58 puntos con una desviación típica de 4,
y los de la universidad B han obtenido una media de 53 con una desviación típica de 5'7.
1 ) ¿Puede inferirse de estos resultados que los alumnos de la universidad A están
mejor preparados en conocimientos que los de la universidad B? 2) ¿Se puede
concluir que los estudiantes de A superan a los de B en 7 puntos en la media de
conocimientos? 3) Hallar los límites del intervalo entre los que estará la diferencia
entre las puntuaciones medias de ambas universidades.
11.14. En una ciudad, se han seleccionado dos muestras aleatorias de 180 y 90 jóve
nes. El 18% de los jóvenes de la primera muestra y el 23% de la segunda resultaron
fumadores.
1 ) ¿Se puede decir que hay una diferencia significativa entre las dos muestras en
cuanto al número de fumadores?
11.15. Se pretende demostrar la hipótesis de que, en una determinada especie animal,

la proporción de machos es mayor que la de hembras. Para ello, se selecciona una
muestra aleatoria de 35 individuos, resultando 22 machos y 13 hembras. ¿Qué conclu
sión se puede sacar a partir de estos datos?
11.16. Un hospital materno-infantil ha facilitado la talla media de los 12 últimos niños

nacidos en él, que ha sido de 50'63 cm. con una desviación típica de 2' 87 cm. También
dispone de las tallas de las 12 últimas niñas que han nacido, con una media de 49'68
cm. y una desviación típica de 3'02 cm.
¿Existe una diferencia significativa en el tamaño de los recién nacidos de ambos
sexos?
11.17. Se ha medido la fluidez verbal de los jóvenes de dos zonas de una ciudad. Una
muestra de 18 jóvenes de la primera zona dio una fluidez verbal media de 30 palabras
con una desviación típica de 3.5. Una muestra de 16 jóvenes de la otra zona dio una
media de 27 palabras con una desviación típica de 4,1. ¿Se puede decir que hay una
diferencia significativa entre la fluidez verbal de los jóvenes de ambas zonas al nivel
de significación del 5%?
1 1.18. Se han seleccionado 18 personas de una zona rural y 12 de una zona urbana, a
quienes se les ha pasado un test preparado para medir el nivel de conciencia frente al
problema de la droga. La zona rural ha dado una puntuación media de 38 con una
desviación típica de 7'2, mientras que la media de la zona rural ha sido de 39' 1 con una
desviación típica de 3'2.
1 ) Hacer un contraste para la homogeneidad de varianzas. 2) ¿Se puede sacar la
conclusión, al nivel de significación del 0'05. de que los habitantes de la zona rural
están más mentalizados frente al problema de la droga que los de la zona urbana?
CAPITULO 12
AJUSTE, INDEPENDENCIA Y HOMOGENEIDAD
12.1. Contrastes con frecuencias
Hasta ahora hemos venido realizando contrastes de hipótesis sobre la magnitud

de determinadas características, como la vida media de una población de baterías, la
diferencia entre las calificaciones medias de dos grupos de alumnos, la diferencia en
días de la supervivencia de dos grupos de animales enfermos tratados con un fárma
co,... Se trataba de pruebas acerca de los valores de determinados parámetros de la
población.
Sin embargo, son numerosas las ocasiones en que los datos de que disponemos
se refieren únicamente al número de individuos que cumplen una determinada carac
terística, sin que haya información sobre la magnitud de la misma.
Conocidas las frecuencias con que se presentan los datos de una muestra (fre
cuencias observadas), tenemos que inferir si es cierta o no la hipótesis nula, compa
rando dichas frecuencias con aquellas frecuencias teóricas (frecuencias esperadas),
que se darían si la hipótesis nula fuera verdadera.
Vamos a analizar tres situaciones que se presentan habitualmente, y que son co
nocidas como contraste de bondad de ajuste, que trata de determinar si una pobla
ción tiene una distribución específica, prueba de independencia, que pretende poner
de manifiesto la independencia de dos variables, y la prueba de homogeneidad, que
intenta demostrar que las categorías o proporciones en que se divide la población son
homogéneas.
También veremos una generalización del contraste de la diferencia de dos propor
ciones tratado en el capítulo anterior, ensayando la hipótesis de igualdad de k
parámetros de una distribución binomial.
La estrategia que vamos a seguir es la misma que hemos venido desarrollando,
con la diferencia de que en todas estas pruebas utilizaremos el estadístico %2.
390
12.2. Test de bondad de ajuste
Esta prueba tiene una aplicación fundamental cuando se pretende determinar la

bondad o calidad del ajuste de una distribución empírica por medio de una distribu
ción teórica.
Tiene especial interés la prueba de normalidad, en que se trata de averiguar si la
distribución empírica que resulta de cuantificar los datos de una muestra se aproxima
a la distribución normal, condición que es requerida en numerosas situaciones.
En una prueba de bondad de ajuste interviene una única variable que presenta
diversas categorías o niveles, de modo que. observada una muestra, se contabiliza el
número de individuos que presentan cada una de dichas categorías y se compara con
el número de individuos que presentarían esa misma categoría en una distribución
hipotética.
Ejemplo 12.1
Consideremos el experimento consistente en lanzar un dado sobre el tablero y

observar el número que aparece en su cara superior. Para que el experimento tenga
éxito, necesitamos saber que el dado es regular, es decir, que los resultados que se
obtienen al lanzarlo sobre el tablero siguen la distribución uniforme, teniendo, por
tanto, cada uno de los seis resultados posibles una probabilidad de 1/6.
Se realizan 240 lanzamientos con el dado y se registran sus resultados, que son:
Resultados (X) 12 3 4 5 6
Frecuencias (O) 42 40 43 38 37 35
De acuerdo con estos datos, ¿se puede inferir que las discrepancias con respecto
a los valores esperados son debidas a las fluctuaciones en el muestreo?, o ¿debería
mos concluir que el dado está cargado y la distribución resultante no es uniforme?
En el problema interviene una variable, que es el número que aparece en la cara
superior del dado. Las categorías o niveles son los seis posibles valores: 1 , 2, 3, 4, 5, 6.
Los resultados obtenidos nos muestran las frecuencias observadas, que represen
taremos por CL Así:
0=42 es el número de veces que salió el número 1.
Establecida la hipótesis nula, que consiste en suponer que «cada uno de los
resultados tiene una probabilidad de salir igual a 1/6», se obtienen las frecuencias
esperadas, que representaremos por E, y son:
E1 =240/6=40
para cada una de las categorías.

391
El estadístico que se utiliza para el contraste de la bondad de ajuste es la variable
(1)
cuya distribución muestral es aproximadamente la de una y- con k-1 gl, donde O y Et

representan las frecuencias observadas y esperadas, respectivamente.
Cuando las diferencias entre las frecuencias observadas y esperadas son peque
ñas, es pequeño el valor de la y2. Cuando las diferencias son grandes, lo es también
el valor de y-.
Entonces, si las diferencias fueran tan grandes que sólo pudieran darse en el 5%
o menos de los casos, cuando la hipótesis nula fuera cierta, se rechazaría dicha hipó
tesis; en caso contrario, se aceptaría.
En la práctica, la significación del contraste se comprueba eligiendo previamente
un nivel, como puede ser a=0'05, y comparando el valor obtenido en la expresión de
y- con el valor crítico que proporciona la tabla A. 5 del apéndice A.
La y1 es una familia de distribuciones que depende del número de grados de
libertad, y éstos del número de categorías, no del tamaño de la muestra.
Si se dispone de una variable que presenta k categorías o niveles, el número de
grados de libertad es k-1, ya que, una vez ha sido determinada la frecuencia de k-1 de
las categorías, la frecuencia de la k-ésima categoría queda perfectamente determinada.
Volviendo a nuestro ejemplo, si se tabulan los datos según aparecen en el siguien
te cuadro, el cálculo de la y} se simplifica:
Número O i
E OrE ((W (CW/E,
1 44 40 4 16 0.400
2 37 40 -3 9 0,225
3 43 40 3 9 0,225
4 38 40 -2 4 0,100
5 40 40 0 0 0,000
6 35 40 -5 25 0,625
1,575
El valor que se obtiene para la variable es
X2= 1,575
Para un nivel de significación a=0'05 y 5 gl, la tabla A.5 proporciona el valor
crítico:
Y2
A. 005.5 = "'"'
1 1 07
392
Como 1'575 es menor

que el valor crítico, se acep
ta Ho, concluyendo que no
hay razón para pensar que
el dado está cargado.
Vamos a analizar un
segundo ejemplo que
plantea un tipo de prueba
habitual en nuestros días,
como es una encuesta de
opinión. Se hace patente
el contraste de las fre
cuencias de unos datos Figura 12.1: Valor critico para 5 gl v nivel a=0.05
empíricos obtenidos por
medio de una muestra con las frecuencias teóricas que se darían si se acepta la
hipótesis de que los datos de la población se distribuyen de una determinada forma.
Ejemplo 12.2
El alcalde de una ciudad quiere saber el estado de opinión de los ciudadanos

sobre tres posibles proyectos alternativos de remodelación para la ciudad. Con este
fin. una agencia se encarga de seleccionar una muestra aleatoria de 200 personas a
quienes se les pide que manifiesten su preferencia al respecto. El resultado fue de 74
respuestas favorables al primero de los proyectos, 64 al segundo y 62 al tercero.
A la vista de estos datos, el alcalde debe decidir si la opinión de los ciudadanos
está dividida en tres partes iguales, como pensaba en un principio.
En el problema aparece una variable, la opinión favorable de los ciudadanos, que
se reparte en tres categorías, según sea favorable al primero, segundo o tercero de los
proyectos.
La hipótesis nula establece que «los tres proyectos gozan de las mismas preferen
cias por parte de los ciudadanos». Luego, si se cumple la hipótesis nula, las frecuen
cias esperadas serán todas iguales a 200/3=66'6. (Se utiliza una cifra decimal por
tratarse de frecuencias teóricas).
Las operaciones necesarias para calcular el valor de la x2 vienen dadas en la
siguiente tabla:
O, *¡ 0,-E, ((W (OrE^

Proyecto 1 74 66"6 74 5476 0'82
Proyecto 2 64 66"6 -2'6 6'76 0'I0
Proyecto 3 62 66-6 -46 3116 0"31
1'23
393
A partir de los datos se

obtiene, para el estadístico, el
valor:
r = ¡'23
La tabla A.5. para a=0'05
y 2 gl. da un valor crítico:
Como la estimación del

estadístico, 1'23, es menor
que el valor crítico, 5 '99. el Figura 12.2: Valor crítico para 2 gl v nivel a-0'05.
alcalde puede aceptar la hi
pótesis nula de que la opinión de los ciudadanos está dividida en tres partes iguales
con relación a los proyectos que les presenta, y actuar en consecuencia.
1 2.2. 1 . Restricciones en el uso de la X
El uso del estadístico X" en un contraste de hipótesis exige unas determinadas

condiciones para que su aplicación dé resultados satisfactorios:
1 . Las categorías que presenta la variable deben ser incompatibles y exhaustivas.
es decir, todos los individuos de la muestra deben formar parte de una categoría, y no
puede haber un individuo que forme parte de dos categorías distintas a la vez.
2. La suma de frecuencias observadas debe ser igual a la suma de las frecuencias
esperadas.
3. Las observaciones efectuadas deben ser independientes, o lo que es igual, las
respuestas que se den no pueden estar relacionadas unas con otras.
4. En cuanto al valor de las frecuencias, nos debemos atener a los siguientes
criterios:
a) las frecuencias esperadas, para cada categoría, deben ser mayores o iguales que 5.
b) si varias categorías contiguas tienen una frecuencia esperada menor que 5, se
pueden agrupar en una sola. En este caso, debe tenerse en cuenta que se pierden
grados de libertad.
En efecto, el uso de la X" se basa en el hecho de que las frecuencias de la muestra,
para cada categoría, están normalmente distribuidas en torno al valor esperado de la
población.
Por este motivo, cuando el valor esperado es próximo a cero, al no poder ser
negativas las frecuencias, la distribución no puede ser normal.
La hipótesis de normalidad crea, por tanto, problemas cuando las frecuencias
esperadas son pequeñas.
394
Cuanto mayor sea el número de grados de libertad de la X. menor será la exigencia

en cuanto al valor mínimo de la frecuencia.
12.2.2. Pruebas de normalidad
Hemos podido comprobar que son numerosos los procedimientos estadísticos

que dependen del supuesto teórico de que los datos procedan de una distribución
normal.
Por este motivo, incluimos un ejemplo detallado del proceso que se sigue para
contrastar la normalidad de una distribución específica siguiendo la prueba x .
También incluimos un apartado en el que se expone una prueba sencilla basada en
el estudio de los residuales como ejemplo del carácter comprobatorio de los métodos
exploratorios.
12.2.2.1. Prueba de normalidad basada en la x2
Ejemplo 12.3
Se ha seleccionado una muestra aleatoria de 60 estudiantes del Curso de Orienta

ción Universitaria, a quienes se les ha aplicado un test de aptitudes, cuyas puntuacio
nes han sido:
Puntuación Frecuencia
15-20 1
20-25 3
25-30 3
30-35 5
35-40 6
4045 15
45-50 11
50-55 6
55-60 5
60-65 3
65-70 2
¿Se puede afirmar que la distribución de frecuencias de las puntuaciones del test
puede ser aproximada por una distribución normal de media u=43 y desviación típica
o=ll?
Se trata de realizar un contraste de bondad de ajuste de una variable (la puntua
395
ción obtenida por cada uno de los alumnos), que presenta 1 1 categorías (los interva
los de clase).
Las tres primeras categorías tienen una frecuencia menor de 5, por lo que se
agrupan en una sola categoría, así como las dos últimas. Quedan 8 categorías y, por
tanto, serán 7 los grados de libertad.
La siguiente tabla recoge las nuevas categorías y sus frecuencias observadas y
esperadas más las columnas adicionales con los cálculos necesarios para obtener el
valor del estadístico:
Puntuación o,, e¡ 0,E, (OrE,): (0,-E.)7E.
15-30 7 7'1 -O'l 0'01 0001

30-35 5 7 -13 4"00 0'57
35 - 40 6 9'6 -3'6 12"% 1'35
40 - 45 15 106 4'4 19\36 1'82
45-50 11 9"9 n T21 0'12
50-55 6 7'6 -T6 2'56 0'34
55 - 60 5 4'5 0'5 0'25 0.06
60-70 5 37 n T69 O'45
4711
Las frecuencias esperadas se han obtenido calculando el área que corresponde en

la curva normal a cada una de las categorías o clases. Para ello, se tipifican los límites
de los intervalos de cada clase, y se evalúa el área correspondiente utilizando las
tablas A. 3 de la normal N(0,1 ) que figuran en el apéndice A.
La primera categoría viene dada por todos los alumnos con una puntuación menor
de 30. La frecuencia relativa esperada coincide con la probabilidad de obtener una
puntuación menor que 30:
P(X < 30)
Teniendo en cuenta la hipótesis nula, que asegura que la distribución teórica es
normal N(43,l 1 ), se tipifica la variable, obteniéndose:
(X-43 30-43]
P(X <30) = P < P(Z<-1'18)
\ 11 11
La tabla de la normal N( 0. 1 ) nos da el valor 0' 1 1 90:
P(Z<-1'18) = 0'¡190
Si 0' 1 190 es la frecuencia relativa correspondiente a la primera clase, será:
E=0.1190x60=7.l
su frecuencia absoluta, ya que 60 es el tamaño de la muestra.
396
Para hallar la frecuencia correspondiente a la segunda categoría, [30,35), se debe

calcular:
(30-43 X-43 35-43\
= p(-ri8<z<-0'72) =
: P(Z < -0'72) - P(Z < -1'18) = 0*2358 -ff1190 = 0'I 168
Luego
Ev=0' II 68x60=7
De modo análogo se cal
culan las frecuencias espera
das de las restantes catego
rías.
El valor que resulta para
el estadístico es:
-118 -072 -0'27 0't8 063 109 1.54
X:=4'714
Figura I2..V Área correspondiente a cada categoría. Como las categorías se
han reducido a 8 al combinar
las frecuencias de clases contiguas, el número de grados de libertad es 7.
La tabla A.5. para 7 gl y un nivel de significación a=0'05, proporciona un valor
crítico
ran5: = 1'4067
Puesto que el valor del estadístico, 4714, es menor que el valor crítico, 14'067, se
acepta la hipótesis, y, por consiguiente, que las puntuaciones del test se ajustan a
una distribución normal de media 43 y desviación típica 1 1 .
12.2.2.2. Prueba de normalidad basada en los residuales
Los métodos exploratorios, además de ayudar a conocer la estructura de una serie

de datos estadísticos, tienen un carácter confirmatorio. Así, la transformación de «do
ble raíz cuadrada», aplicada a los residuales, puede ser utilizada para comprobar la
bondad del ajuste de la distribución empírica a una distribución teórica.
Veamos cómo se puede aplicar la transformación de doble raíz para comprobar la
normalidad de la serie de datos. Se trata de aplicarla a los «residuales».
Entendemos por residuales las diferencias que se dan entre los valores reales
(observados) de los datos y los valores teóricos (de la distribución que se trata de
ajustar), es decir:
R. =Do-DK d
397
donde DQ es el valor del dato observado, DA el valor del dato ajustado y R el

residual. En concreto, vamos a trabajar con la expresión del residual en función de las
frecuencias:
R, = X,-X'i (3)
siendo X el valor de la frecuencia observada y X' el valor de la frecuencia teórica

(ajustada) según el modelo elegido.
En lugar de trabajar directamente con los datos X y X', se realiza una transforma
ción previa tanto de los datos observados como de los teóricos.
Sobre los datos observados se aplica la siguiente transformación:
yl2 + 4X, si X*0

T,(X) ,
1, si X =0
Sobre los datos teóricos se aplica la transformación:
T2(X) = Jl + 4X' (5)
Se obtiene así, para los residuales, el valor:
J2 + 4X, - yll + 4X'i, si Xi * 0

DRR, (6)
l-yll + 4X',, si X, = 0
que se conocen como «residuales de doble raíz» (Double Root Residual).

Estos residuales siguen una distribución normal N(0,1), por lo que se puede apli
car un test de hipótesis, que consiste en contrastar la hipótesis nula Hn:DRR=0 con la
hipótesis alternativa H1:DRR*0.
Para un nivel de significación a=0'05 y una prueba bilateral, si los residuales de
doble raíz caen dentro del intervalo (-1'96, 1 '96), se acepta la hipótesis, mientras que,
si alguno de los valores cae fuera de dicho intervalo, se rechaza la hipótesis nula, y,
en consecuencia, la bondad del ajuste.
Ejemplo 12.4
Vamos a aplicar la prueba de doble raíz para estudiar si se ajusta a la normal la

distribución de las puntuaciones obtenidas por 500 estudiantes en una prueba de
velocidad lectora, cuyos resultados son:
398
Puntuación \" estudiantes

40-50 82
50-60 108
60-70 123
70-80 115
80-90 46
90-100 16
100-110 10
La media de la distribución empírica es 65'46 y la desviación típica 14'4. Tenemos

que hallar las probabilidades que corresponderían en la distribución normal de media
6546 y desviación típica 14'4.
La siguiente tabla recoge los distintos cálculos:
X X' J2 + 4X y/l + 4X' DRR

0164 0"1096 1'629 1'286 0.343
0'216 0'2154 T692 1'364 0'328
0'246 02699 1'727 1'408 0319
0'230 0'2140 1708 1'385 0323
O092 01073 T538 ri69 0'369
0'032 0'0342 1458 T062 03%
0'020 O0074 1442 1'099 0403
En la última columna de la tabla figuran los residuales de doble raíz. Como ninguno
de los valores cae fuera del intervalo (-T96, 1,96), aceptamos la hipótesis nula y. en
consecuencia, que la distribución empírica de los datos se ajusta a la normal.
12.3. Pruebas de independencia
Hemos utilizado el estadístico y£- para contrastar una hipótesis sobre las frecuen
cias teóricas esperadas de datos referidos a una sola variable. Vamos a ver ahora que
también es posible utilizar este estadístico para hacer un contraste sobre la relación
entre dos variables cuando se conocen las frecuencias conjuntas de sus datos.
Cada una de las variables puede presentar dos o más categorías, cuyas frecuen
cias se presentan en una tabla de doble entrada, que recibe el nombre de tabla de
contingencia.
Las categorías de una de las variables se sitúan en las filas y las categorías de la
otra en las columnas.
399
En la celda intersección de la fila i y de la columna j se sitúa la frecuencia conjunta

(número de individuos que forman parte de la categoría i de la primera variable y de la
categoría j de la segunda.
Las sumas de las frecuencias de cada fila y de cada columna corresponden a las
frecuencias marginales de las diferentes categorías de cada variable.
La hipótesis nula Ho establece «la independencia de ambas variables».
Ejemplo 12.5
Se desea comprobar si las calificaciones en las asignaturas de Física y Química del

Curso de Orientación Universitaria de un determinado centro son independientes.
Para ello, se selecciona una muestra de 155 alumnos que cursan dichas asignatu
ras. Las calificaciones se dividen en tres categorías: suspensos, calificaciones medias
(aprobados y bien) y calificaciones altas (notables y sobresalientes).
Hecho el recuento de datos, las frecuencias observadas aparecen reflejadas en la
siguiente tabla de contingencia:
Calificaciones en Química
Suspensos C. medias C. altas
Calificaciones Suspensos 32 21 4 57
en C. medias 15 40 22 77
Física C. altas 6 11 14 31
53 72 40 155
La prueba se basa en las diferencias entre los valores de las frecuencias observa
das y de las frecuencias esperadas. Las frecuencias esperadas son las que tendrían
lugar si H„ fuera verdadera; se obtienen fácilmente si se estiman las probabilidades de
que se den simultáneamente las categorías A y B de ambas variables a partir de las
frecuencias marginales.
Consideremos los siguientes sucesos:
A=tener suspenso en Física, B =tener suspenso en Química,
A,=tener calificación media en Física, B,=tener calificación media en Química,
A,=tener calificación alta en Física, B,=tener calificación alta en Química.
Las probabilidades de cada uno de los sucesos se estiman a partir de las frecuen
cias marginales:
P(A,)=57/155. P(A>77/155. P(A,)=31/155
P(B,)=53/155. P(B,)=72/155. P(B,)=40/155
Consideremos ahora los sucesos:
400
AiOB^tener suspenso en Física y en Química,

A^B^tener suspenso en Física y calificación media en Química,
AiOB^tener suspenso en Física y calificación alta en Química,
Como las variables se consideran independientes, al suponer cierta la hipótesis
nula, la probabilidad de la intersección de dos sucesos es igual al producto de sus
probabilidades. Se obtiene, de este modo, una estimación de la probabilidad de cada
una de las celdas de la tabla de contingencia:
P(A,nB,)=P(A,)P(B,)=(57/155)x(53/155)
P(A,nBJ=P(A,)P(B,)=(57/155)x(72/155)
P(A,nB,)=P(A,)P(B,)=(57/155)x(40/155)
P(A2nB,)=P(A,)P(B,)=(77/155)x(53/155)
P(A2nB,)=P(AJP(BJ=(77/155)x(72/155)
P(A2nB,)=P(A2)P(B,)=(77/155)x(40/155)
P(A,nB,)=P(A,)P(B,)=(31/155)x(53/155)
P(A,nB,)=P(A,)P(B,)=(31/155)x(72/155)
P(A,nB,)=P(A,)P(B,)=(3 1/1 55)x(40/l 55)
Multiplicando la probabilidad de cada celda por el número total de alumnos califi
cados, se obtienen las frecuencias esperadas:
Fr. esperada de (A,nB,)=(57/155)x(53/155)xl55=(57x53)/(155)=15'8,
Fr. esperada de (A,nB>(57/155)x(72/155)xl55=(57x72)/(155)=26,5,
Llegamos, en cada caso, a expresar la frecuencia esperada de una celda como el

producto de las frecuencias marginales comunes dividido por el total de los individuos:
(total de fila i)x(total de columna j) (7)

Frec. esperada de A, n Bi =
N
La siguiente tabla de contingencia recoge todas las frecuencias; en cada celda, las
frecuencias esperadas figuran entre paréntesis junto a las observadas:
Calificaciones en Química
Suspensos C. medias C. altas
Calificaciones Suspensos 32 (15'8) 21 (26'5) 4 (14'7) 57
en C. medias 15 (21 '4) 40 (35'8) 22 (19'9) 77
Física C. altas 6 (8'6) 11 (14'4) 14 (8) 31
53 72 40 155
401
El estadístico que se utiliza es también la variable

2 v(Q,-£,):
X =1
donde k=rs. siendo r el número de filas y s el número de columnas.
La distribución de este estadístico es aproximadamente la de una ^con
(r-D(s-1)gl.
Para efectuar los cálculos, dispondremos los datos en la forma:
0, E (X-E «w (O.-e^/E,
22 158 6'2 38'44 743

21 26'5 -5'5 30'25 ri4
4 147 -107 1 14'49 779
15 2T4 -6'4 40'% T91
40 35'8 4'2 17"64 0'49
22 199 2'1 4'41 0'22
6 8'6 -2'6 6'76 0'79
11 14'4 -3'4 11 "56 0'80
14 8 6 36 4'5
20'07
Se obtiene, para el estadístico, el valor:
X = 2O07
Los grados de libertad son: (3-1 )x(3-1 )=2x2=4.

En efecto, si nos fijamos en los 53 suspensos de Química, el número de suspensos
en Física es 32 y el de calificaciones medias 15. lo que suma 47; luego la siguiente
categoría debe ser necesariamente 53-47=6, lo que significa que no hay libertad para
cambiar. Análogamente sucede con las calificaciones medias y altas de Químicas. Por
tanto, los grados de libertad son 2x2=4.
La tabla A.5 nos proporciona, para 4 gl y un nivel de significación a=0'05. un
valor crítico:
XL,=^49
Como el valor del estadístico, 20'07. es mayor que el valor crítico, se rechaza la
hipótesis nula, aceptando, por consiguiente, la hipótesis alternativa de que «hay una
relación de dependencia entre las calificaciones en Física y en Química.
402
12.3.1. Corrección de Yates
La distribución x2 es continua, y, sin embargo, estamos aplicando sus resultados

a datos discretos, como son las frecuencias de cada una de las celdas, a partir de las
cuales evaluamos el estadístico.
La distribución continua de X2 proporciona una aproximación bastante buena del
estadístico x2 cuando el número de grados de libertad es mayor que 1 . En cambio, si
la tabla de contingencia es de dimensiones 2x2, solamente se dispone de un grado de
libertad, en cuya situación el valor del estadístico está sobreestimado.
En tal caso, se aplica una corrección en la fórmula del cálculo de x2, que se
denomina corrección de Yates para la continuidad, quedando la fórmula en la forma:
(8)
Esta corrección consiste en restar el valor 0'5 cuando la frecuencia observada es

mayor que la esperada, y sumar el valor 0'5 en caso contrario.
Hay quienes opinan que, cuando el número de grados de libertad es 1, se debe
utilizar siempre la corrección de Yates. En realidad, lo que sucede es que, para mues
tras grandes, los resultados son prácticamente iguales cuando se usa la fórmula con
corrección o sin ella.
Pero, cuando se trabaja con pequeñas muestras, si la frecuencia esperada tiene un
valor entre 5 y 10, es conveniente utilizar ambas fórmulas y comparar sus resultados.
Si los valores obtenidos conducen a la misma conclusión al nivel de significación
a=0'05. la conclusión es correcta; si no es así, se debe incrementar el tamaño de la
muestra o utilizar otro tipo de contraste.
12.4. Pruebas de homogeneidad
Al realizar la prueba de independencia de dos variables, seleccionamos una mues

tra de N individuos. A partir de dicha muestra, determinamos las diferentes frecuen
cias, obteniéndose así los totales por filas y columnas.
Si fijamos los totales de las filas o de las columnas, es decir, si seleccionamos
previamente las frecuencias de las categorías de una de las variables (por ejemplo,
fijamos los totales de las columnas), y las clasificamos con respecto a las categorías
de la otra variable, aceptando como hipótesis nula que «las proporciones de la pobla
ción dentro de cada fila son iguales», se obtiene un tipo particular de prueba, llamada
de homogeneidad de las variables.
403
Ejemplo 12.6
El Seminario de Matemáticas de un Instituto de Bachillerato desea comprobar la

homogeneidad a la hora de calificar de tres profesores Bl, B2 y B3, que imparten una
misma asignatura.
Con este fin, se seleccionan tres muestras aleatorias de 38, 40 y 32 alumnos que
han sido calificados respectivamente por cada uno de los profesores. Se tendrá en
cuenta únicamente si la calificación es positiva o negativa.
Contabilizados los resultados, se obtuvo la siguiente tabla de contingencia:
Prof. Bl Prof. B2 Prof. B3

C. negativa 17 15 20 52
C. positiva 21 25 12 58
38 40 32 110
Se asume como hipótesis nula que la proporción de suspensos de cada uno de los
profesores es la misma, así como la proporción de aprobados.
En definitiva, se trata de probar si las calificaciones dadas por los tres profesores
son homogéneas con respecto al número de alumnos que suspende o aprueba cada
uno de ellos.
La asunción de la homogeneidad como hipótesis nula supone que las frecuencias
estimadas se deben obtener de la misma forma que en la prueba de independencia, es
decir:
(total de fila i)x(total de columna j) (9)

Frec. esperada de A, n B, =
N
donde
Ai es el suceso «suspender»
A, es el suceso «aprobar»
B¡ es el suceso «ser calificado por el profesor B 1.
B, es el suceso «ser calificado por el profesor B2.
B es el suceso «ser calificado por el profesor B3.
AinB, es «suspender con el profesor Bl»
AinB, es «suspender con el profesor B2»
AnB es «suspender con el profesor B3»
A,nB i es «aprobar con el profesor B 1 »
A,nB, es «aprobar con el profesor B2»
A,nB, es «aprobar con el profesor B3»
404
Hechos los cálculos, la siguiente tabla de contingencia recoge las frecuencias

esperadas entre paréntesis junto a las frecuencias observadas:
Prof. Bl Prof. B2 Prof. B3

C. negativa 17 (18) 15 (18*9) 20 (15'1) 52
C. positiva 21 (20) 25 (21'1) 12 (16'9) 58
38 40 32 110
Dispuestos los datos para efectuar los cálculos, se tiene:
o, «i O.E «w (O.-E^/E
17 18 -1 1 0,05
15 18,9 -3,9 15,21 0,80
20 15,1 4.9 24,01 1,59
21 20 1 1 0,05
25 21,1 3.9 15,21 0,72
12 16,9 .4$ 24,01 1,42
4'63
Luego, el valor del estadístico es:

. 4'63
Los grados de libertad son: (3-1)x(2-1)=2xl=2.
La tabla A.5, para a=0'05 y 2 gl, proporciona un valor crítico
Como el valor obtenido, 4'63, es menor que el valor crítico, 5'99, se acepta la
hipótesis nula, y, por tanto, la homogeneidad de las calificaciones de los tres profeso
res en cuanto al número de alumnos que aprueban y suspenden.
12.5. Prueba de igualdad de proporciones
Esta prueba es una generalización del contraste de diferencia de proporciones que

se estudió en el capítulo 1 1 , donde se trataba de contrastar la igualdad de dos propor
ciones pt y pr Ahora generalizaremos la prueba al caso de r proporciones.
La hipótesis nula es:
H0:p=p,=...=pr
donde p ,p,,...,pr son los parámetros de r distribuciones binomiales B(p.,q.).
405
Hay que contrastarla con la hipótesis alternativa

H,: «no todas las proporciones de la población son iguales».
El contrate se verifica seleccionando r muestras aleatorias independientes de ta
maños nr n, nr, respectivamente.
Como estadístico, se utiliza también la variable
= 1 (0,-E.):
cuya distribución es aproximadamente una x2 con (r-1)x(2-1)=r-1 gl. El criterio, para
valorar las frecuencias esperadas, es análogo al que hemos empleado para las pruebas
de independencia y homogeneidad.
Ejemplo 12.7
Una factoría de electrónica se sirve, para elaborar sus productos, de circuitos

integrados que encarga a tres compañías ubicadas en Taiwan, Tokio y Hong-Kong.
La dirección de la empresa está interesada en conocer la proporción de circuitos
defectuosos que se producen en cada una de las empresas subsidiarias. Con este fin,
analiza una muestra aleatoria de 600 circuitos que le han sido suministrados por las
tres factorías. Los datos están recogidos en la siguiente tabla de contingencia:
Taiwan Hong-Kong Tokio

Con defecto 7 10 9 26
Sin defecto 180 194 200 574
187 204 209 600
La tabla de contingencia, con las frecuencias esperadas entre paréntesis, es:
Taiwan Hong-Kong Tokio

Con defecto 7 (8.1) 10 (8'8) 9 (9M) 26
Sin defecto 180 (187"9) 194 (195"2) 200(199"9) 574
187 2(W 209 600
Dispuestos los operandos para efectuar el cálculo del estadístico, se tiene:

406
o, E 0,-E «W (O.-E^/E.
ir i
7 8,1 -1.1 1,21 0,15

10 S.S 1.2 1,44 0,16
9 9,1 -0,1 0,01 0,01
180 178,9 1.1 121 0,01
194 1952 -1.2 1,44 0,01
200 199,9 0,1 0,01 0,00
0,34
Luego, el valor del estadístico es:
.0'34
Los grados de libertad son: (3-1)x(2-1)=2xl=2.
La tabla A.5 del apéndice A. para a=0'05 y 2 gl, proporciona un valor crítico
La estimación del estadístico es 0'34, que es menor que el valor crítico, 5'99, por lo
que se acepta la hipótesis nula, admitiendo que la proporción de circuitos integrados
defectuosos que suministran las tres factorías es la misma.
12.6. Coeficientes de contingencia
La prueba sobre independencia nos permite averiguar si hay algún tipo de depen
dencia entre dos variables a partir del conocimiento de las frecuencias.
Sin embargo, aún cuando el contraste de independencia resulte significativo, no
podemos sacar ninguna conclusión acerca de la magnitud de la intensidad de la
relación entre las dos variables.
Se utilizan habitualmente tres tipos de medidas, llamadas coeficientes de contin
gencia, para evaluar el grado de relación: el coeficiente O, que se utiliza cuando la
tabla de contingencia es de dimensión 2x2, y los coeficientes C y O de Cramer, que
se usan con tablas de dimensiones superiores a 2x2.
12.6.1. Coeficiente 0
El coeficiente de contingencia O consiste fundamentalmente en convertir el esta

dístico x2 en un coeficiente de correlación. Sólo es válido para tablas de dimensio
nes 2x2, y se define por:
407
O! (10)
y tiene una interpretación análoga al coeficiente de correlación de Pearson. Varía de 0

a 1, de forma que, cuanto mayor es su valor, más intensa es la relación entre las
variables.
Este coeficiente se da sin signo, por lo que hay que analizar los datos para poder
interpretar el sentido de la intensidad.
12.6.2. Coeficiente C
El coeficiente C se utiliza cuando la tabla de contingencia es superior a 2x2, y se

define como
(11)
Este coeficiente tiene la dificultad de que no se puede interpretar como un coefi

ciente de correlación de Pearson, puesto que el valor máximo que puede alcanzar
depende, en cada caso, del número de filas y columnas de la tabla.
Se demuestra que el valor máximo que puede tomar es:
Cm . (12)
donde k=mín(r,s), siendo r el número de filas y s el número de columnas de la tabla de

contingencia.
Si calculamos el valor de C para el ejemplo 12.4, se obtiene:
20'07
= 0'34
155+20W
que indica una relación más bien pequeña en las calificaciones de Física y Química.
El valor máximo, en este ejemplo, sería:
A pesar de la dificultad de su interpretación, se utiliza con bastante frecuencia.
12.6.3. Coeficiente <P¡ de Cramer
El coeficiente <&c de Cramer se define como:

408
O, = (13)
N(h-l)
donde h=mín(r,s), siendo r el número de filas y s el número de columnas.

El coeficiente 4>c de Cramer es independiente del tamaño de la tabla y, por tanto,
se puede utilizar con tablas superiores a 2x2.
Este coeficiente varía de 0 a 1, resolviendo los problemas de interpretación que
originaba el coeficiente C.
Para el ejemplo 12.4, el valor del coeficiente Oc de Cramer es:
20'07
O, = 0'25
155(3-1)
que confirma la relación más bien débil entre las calificaciones en Física y Química.
El coeficiente C es más usado que el coeficiente <P de Cramer; esto es así por la
fuerza de la tradición en el uso de C.
1 2.7. Ejercicios propuestos
12.1. Un especialista en medicina ha preparado tres tratamientos distintos para atacar un

nuevo virus, que ha aplicado a 100 enfermos, obteniendo los siguientes resultados:
Curados No curados
Tratamiento 1 18 10
Tratamiento 2 24 8
Tratamiento 3 28 12
¿Se pueden considerar igualmente eficaces los tres tratamientos al nivel del 0'05?
12.2. Tres clases de individuos están localizados geográficamente según se muestra

en la siguiente tabla:
Clase 1 Clase 2 Clase 3 Total

Zona A 30 44 3 77
Zona H 6 49 15 70
ZonaC 41 18 7 66
ZonaD 12 3 4 19
Total 89 114 29 232
409
¿Es independiente el hecho de pertenecer a una de las clases sociales de la loca-

lización geográfica?
12.3. Un equipo de médicos ha ensayado cinco tratamientos diferentes con 460 enfer
mos, observando si los pacientes mejoraban o no. Los resultados obtenidos figuran
en la siguiente tabla:
Tratamiento A B C 1) E Total
N" de enfermos 95 108 82 90 85 460
N° enfermos curados 17 10 13 20 7 67
Al nivel de significación del 5%, ¿se puede llegar a la conclusión de que existe
diferencia significativa entre la eficacia de los medicamentos?
12.4. Se quiere averiguar si la práctica religiosa está relacionada con el nivel de ingre
sos de una familia. Consultadas mil familias, se obtuvieron los siguientes resultados:
Nivel de ingresos
Bajo Medio Alto
Práctica Sí 215 206 180
Religiosa No 136 107 156
Según estos resultados, ¿es correcto afirmar que la práctica religiosa es indepen
diente del nivel de ingresos de las familias?
12.5. Se lanza un dado 200 veces, obteniéndose los siguientes resultados:
X 1 2 3 4 5 6
n¡ 26 30 37 34 39 31
Al nivel del 5%. ¿se puede asegurar que se trata de un dado equilibrado?
12.6. Se lanza una moneda 200 veces, obteniéndose 136 caras y 64 cruces. Con un
nivel de significación de 0'05, ¿se puede garantizar que la moneda no está cargada en
una de sus caras?
12.7. Se ha seleccionado aleatoriamente una muestra de 100 alumnos de una facultad

universitaria para estudiar la dependencia entre el hábito de fumar y el sexo. Consul
tados los alumnos, se obtuvo el siguiente resultado:
410
Fumador No fumador
H 19 31
Sexo
M 20 28
Con un nivel de significación del 0'05, ¿se puede afirmar que el hecho de ser
fumador es independiente del sexo?
12.8. Las calificaciones en Matemáticas de los alumnos de primer curso de Ciencias

Químicas han sido:
Calificación 1-2 2-3 34 4-5 5-6 6-7 7-8 8-9 9-10

N° de alumnos 3 8 15 31 40 26 10 20 2
¿Se puede considerar que estos datos proceden de una población normal de media
6 y desviación típica 1 '2, al nivel de significación del 0'05?
CAPITULO 13
ANÁLISIS DE LA VARIANZA
13.1. Técnica del análisis de la varianza
En los contrastes de diferencias de medias, las técnicas utilizadas permitían deter

minar el efecto de una variable sobre la media de otra variable, por ejemplo, el efecto
de haber realizado prácticas de ordenador sobre la calificación media obtenida.
Se trataba de estudiar el efecto de una variable independiente sobre la que actúa una
única causa (que los alumnos refuercen sus conocimientos con un programa de orde
nador) más el azar.
En la práctica, sin embargo, es frecuente que sobre la variable independiente influ
yan una serie de causas asignables distintas A. B. C... además del azar (causa no
asignable, 8). Este modelo, llamado lineal por admitir que el resultado de los efectos
de las causas es aditivo
R=A+B-^+...+o
fue estudiado por Fisher. quien utilizó unas técnicas que consisten fundamentalmente
en separar las componentes de las variaciones que aparecen en el conjunto de los
datos, por lo que les llamó «Análisis de la varianza1».
El «Análisis de la varianza» se incluye dentro del ámbito del «Diseño de experi
mentos», que engloba tres grandes apartados o diseños generales: el «diseño com
pletamente aleatorio», el «diseño de bloque aleatorio» y el «diseño factorial».
1 3.2. Tipos de diseño
FJ diseño completamente aleatorio es el diseño más básico, utilizado cuando
1 El análisis de la varian/u es también conocido como ANOVA. contracción del inglés

Analysis of Variance. Algunos autores españoles utilizan la expresión AVAR.
412
interviene una única variable independiente, que presenta diversos niveles de trata
miento o causas asignables. Es también llamado «análisis de la varianza
unidireccional» o «diseño de factor único».
El diseño completamente aleatorio se basa en la aplicación de cada nivel de trata
miento a un grupo de unidades o sujetos experimentales, de modo que las unidades
se asignan a los grupos aleatoriamente, y los tratamientos son asignados también de
forma aleatoria a cada uno de los grupos.
La variable independiente puede ser causa de diferencias apreciables en la varia
ble dependiente, en cuyo caso se hace necesario controlar la variable independiente.
El control se puede ejercer clasificando los sujetos en bloques o grupos homogéneos
con respecto a la variable independiente. La asignación de los sujetos a cada bloque
se hace de forma aleatoria, y también los bloques son asignados aleatoriamente a
cada nivel de tratamiento. Este tipo de diseño se conoce como «diseño de bloque
aleatorio».
Cuando el diseño completamente aleatorio incluye dos o más variables experimen
tales independientes, presentando cada una de ellas dos o más niveles de tratamien
tos, se tiene el «diseño factorial» o «diseño de factor múltiple».
El diseño factorial se utiliza para estudiar los efectos que producen dos o más
niveles de tratamientos.
Con el fin de optimizar los diseños generales, hay una serie de procedimientos,
como la replicación o el equilibrio de los efectos, cuyo uso da lugar a diseños especia
les cuales son el diseño «de bloques incompletos», el de «parcela dividida» y el
diseño «jerárquico».
Nos vamos a limitar al estudio de los diseños generales, siguiendo la metodología
habitual, partiendo, en cada situación, de un ejemplo tipo.
13.3. Análisis de varianza unidireccional
El análisis de varianza unidireccional (experimento de factor único o diseño com

pletamente aleatorio) considera una variable experimental o factor independiente,
que presenta varios niveles o tratamientos, los cuales se asignan a las unidades
experimentales, cuya heterogeneidad es la causa de los errores que se presentan en
todo experimento.
La técnica seguida por Fisher se fundamenta en la posibilidad de construir dos
estimadores insesgados de la varianza de una misma población cuando se tienen en
cuenta tres condiciones:
/. Normalidad: Los n grupos corresponden a n poblaciones distribuidas normal
mente.
//. Homogeneidad: Las n distribuciones tienen la misma varianza o2.
///. Independencia: Las n muestras elegidas son independientes.
413
En estas condiciones, se formula la hipótesis nula de que «las medias de las

poblaciones son todas iguales», es decir:
Ho:u=u2=...=u„
Como hipótesis alternativa, se establece la negación de la hipótesis nula:
H.: «al menos dos de las medias no son iguales».
Se parte, pues, de n poblaciones diferentes, que se suponen independientes y
normalmente distribuidas con medias u.,,u.,,..,u.n y la misma varianza a2.
Estas poblaciones se clasifican de acuerdo con los diferentes niveles de tratamiento,
formándose, de este modo, n grupos o muestras de tamaño m de cada una de las
poblaciones. Hablaremos de n grupos o niveles de tratamiento (j=1,2,...,n) con m ob
servaciones o réplicas en cada uno, siendo mn=N.
Muestras
1 2 j n
XTI X 12 X Ii X In
X X X X
Unidades
Xmi X m2 Xmi X mn
Partiendo de un ejemplo concreto, vamos a analizar la estrategia que sigue el

análisis de la varianza.
Ejemplo 13.1
Un profesor de Matemáticas desea contrastar cuatro métodos distintos de ense

ñanza. Con este fin, selecciona al azar 4 grupos de 5 estudiantes cada uno, aplicando
a cada grupo un método distinto. Finalizada la experiencia, propone el mismo examen
a todos los grupos, obteniendo las siguientes calificaciones:
Método 1 Método 2 Método 3 Método 4

65 82 71 59
72 SO 72 63
59 91 80 70
70 89 62 58
64 67 69 65
414
Se trata de determinar si hay diferencia significativa entre los cuatro métodos de

enseñanza, una vez elegido un nivel de significación a.
El problema se podría abordar contrastando la diferencia entre cada dos muestras,
lo que supondría 6 pruebas diferentes. Esto, además de la laboriosidad que supone,
implica un incremento notable del error de tipo I.
En efecto, si hay h medias, se pueden hacer r=h(h-1)/2 comparaciones pareadas.
Entonces, si es a la probabilidad de cometer error de tipo I en una de las pruebas, «la
probabilidad de rechazar al menos una de las hipótesis, siendo verdadera», es l-(l-a)'; a
esta probabilidad se le llama probabilidad de error de tipo experimental.
La probabilidad de error de tipo experimental en el caso de 4 medias, para un nivel
de significación cc=0'05, es l-0'956=0'26.
Analicemos lo que sucede si comparamos la variación que experimenta una de las
calificaciones con respecto a la media de su grupo y a la media global:
A) Medias correspondientes a cada grupo:

X, = 66, X2 = V16 . Xj = 7'08, X4 = 63
B) Media global:
X = 704
Si elegimos una de las calificaciones, por ejemplo, la cuarta de la segunda muestra,
89, su variación respecto de la media global es:
89-70'4=18'6
Esta variación es la suma de la variación con respecto a la media de la segunda
muestra, a la cual pertenece, más la variación de la media global con respecto a la
media de la segunda muestra:
89-70'4=(89-8 1 '6H<8 rf>70'4)=74+ 1 1'2= 1 8'6
-11,2- -7
70'4 81 '6 89
La igualdad anterior es cierta para cada puntuación con respecto a la media de su
correspondiente muestra:
X¡¡ - X = (X¡¡- Xj + (X.¡ - X.) (1)
donde X es la media del i-ésimo nivel de tratamiento, X .. la media global y X una

calificación cualquiera,
La igualdad ( 1 ) permite dar una explicación sencilla de lo que sucede:
La calificación seleccionada se desvía de la media de su grupo en 7'4 unidades.
415
Esta diferencia no puede deberse a la influencia del método utilizado por el profesor,
puesto que se siguió el mismo método con todos los alumnos del grupo 2; se trata,
por tanto, de una diferencia que no tiene explicación a no ser que se haya producido
un error a causa del mismo proceso de muestreo.
La diferencia entre la media global y la media del grupo aporta, en cambio, la
influencia del método seguido en cada muestra más la parte de error que corresponda
al propio muestreo.
La igualdad (1 ) surge de admitir un modelo matemático lineal, que supone aceptar
la aditividad de los efectos de las causas asignables y no asignables.
13.3.1. Modelo matemático
Cualquier puntuación observable X diferirá de la media de la población corres

pondiente, para cada tratamiento j, en 8., que es un elemento o error experimental
aleatorio:
Xv=\íi+bv (2)
Se supone que los errores se distribuyen normalmente con media cero y varianza a2.
Si u es la media de la población para todos los tratamientos, es decir:
1 "
y llamamos
a la diferencia entre la media de cada tratamiento y la media de la población, será:

u,= u+a,
Entonces, sustituyendo este valor en (2), resulta:
Xy = li +a ,+8« (3)
o, lo que es igual:
X* .u = a, +§o (4)
donde Xa i = 0,
,. -i
En efecto: £or, = £(u, - u) = £u .- £u = «u -,,u = 0

/./ i-i i-i i.i
416
La ecuación (3) corresponde a un modelo matemático teórico, donde:

1 ) u. es la media de todas las observaciones, y representa la parte de actuación que
se puede atribuir al hecho de ser un miembro de la población (un estudiante) de la
que se extraen las muestras;
2) a representa el efecto debido al tratamiento j;
3) 8i es una medida de la observación j-ésima del grupo i-ésimo, y representa la
parte de actuación que corresponde al hecho de que se trata de un individuo
único, cuya actuación no se ha explicado, por lo que se le llama error.
El único elemento de la expresión (3) que podemos observar realmente es X; los
otros elementos representan componentes del modelo hipotético que hemos elegido.
Si se repite el experimento, haciendo observaciones sobre un cierto número de
sujetos (estudiantes) de cada grupo, se pueden obtener estimaciones empíricas de las
componentes del modelo teórico:
X es un estimador de |i,
X , - X es un estimador de a ,
Xn . X , es un estimador de 8i ,
siendo x = — XXx„ la media global y x, ■— ^X„ la media de cada grupo j.

" M M m 1=
Como los errores 8 se distribuyen según una normal N(0,o:), los Xi siguen una
distribución normal N(|i,a).
Se establece la hipótesis nula Hn de que «las medias de todos los tratamientos son
iguales», es decir
H„= |i, = n, para j= 1,2 n
o lo que es equivalente
H„ = a, =0, paraj=l,2 n
Si Hn es verdadera, las poblaciones de los tratamientos seguirán todas la misma
distribución (normal con la misma media y la misma varianza). En tal hipótesis, no hay
diferencia significativa entre los tratamientos.
La hipótesis alternativa es:
H, = a,*0, para algún j.
13.3.2. Variaciones intragrupo e intergrupos
El modelo matemático que acabamos de diseñar, permite separar las componentes

de las variaciones de los datos y construir dos estimadores independientes de la
417
varianza poblacional: estimador de la varianza «intragrupo» y estimador de la

varianza «intergrupos».
En efecto, si partimos del modelo dado por la ecuación (4), utilizando los estimadores
de las componentes del modelo, se obtiene la igualdad
x,1-x=(xo-x,) + (x,-x)
en que se basa la construcción de estos estimadores.
El estimador intragrupo es una medida de la dispersión de los datos de cada
muestra o grupo con respecto a los restantes datos del propio grupo.
El estimador intragrupo viene dado en función de las diferencias de las observa
ciones y la media de cada grupo; a la suma de estas diferencias se le llama suma de
cuadrados «intragrupo» o debidos al tratamiento (SCA):
(5)
donde x.i es Ia media del j-ésimo grupo y X son las distintas observaciones. Al
tratarse de n grupos, una vez evaluadas n-1 diferencias, la siguiente es obligada,
luego a la suma de cuadrados intragrupo corresponden
gla=n- 1 grados de libertad.
El estimador «intergrupos» es una medida de la dispersión de las medias de los
diferentes grupos.
El estimador intergrupos, por tanto, viene dado en función de las diferencias de
las medias de los distintos grupos y la media global X.,-X
A la suma de los cuadrados de dichas diferencias le llamamos suma de cuadrados
intergrupos o suma de cuadrados debidos al error (SCE):
SCE = ¿¿tt, ~ X. f = 2>U, ~ xj (6)
En cada grupo hemos supuesto m réplicas u observaciones, por lo que hay m-1
grados de libertad para cada grupo; como son n grupos, a la suma de cuadrados
intergrupos le corresponden
gle=n(m-1)=nm-n=N-n grados de libertad.
Proposición 13.1: Cuando se cumple la hipótesis nula, los estimadores

SCA .^ SCE
MCA = y MCE = — - (7)
n-l n(m-l)
son dos estimadores insesgados de la varianza de la población.
418
MCA es la «media cuadrática intragrupo o media cuadrática debida al trata

miento» y MCE es la «media cuadrática intergrupos o media cuadrática debida al
error».
El análisis de la varianza se basa en que el estadístico
MCA
(8)
MCE
se distribuye, cuando la hipótesis nula es cierta, según una F de Fisher-Snedecor con
n-1 y n(m-1) grados de libertad.
La variación total corresponde a la suma de las desviaciones intragrupo más las
desviaciones intergrupos, según prueba la siguiente proposición:
Proposición 13.2: «La suma de los cuadrados de las desviaciones con respec
to a la media global es igual a la suma de los cuadrados de las desviaciones
intragrupo más la suma de las desviaciones intergrupos»:
m n m n m n
(9)
donde X,=—aX¡ y X = ¿¿¿¿X¡¡

=/ i=1
Demostración: En efecto, partiendo del primer miembro de la igualdad (9), al que

designamos por SCT, restando y sumando X , resulta:
m n m n
SCT = X XUr xf = X X (Xa - xi + X.i - X f

i.1 i.1 lW H
Desarrollando el cuadrado del último sumando, se obtiene:
SCT = XX (Xii - xj + 2(X, - X.iXX., - X) + (X.i - X t

i.1 /=/
m n m n ni n
Hll[X„-x1)' + 2j,J,(X„-XJ)(xi-x.)+Il(x,-l).'
.i J.1 i.1 i.1
Pero, como X . - X.. no depende de i, es:

m n n m
Y£(XirxiX%-x) = %(xrX)%\Xv-xi)
¡,i i.i ¡,i ¡,i
Ahora bien,
XU,rxJ = o
419
por ser la suma de las desviaciones de los elementos de cada grupo respecto a su
media. „ „,
Por consiguiente 'L(xi-Xj^L[Xii-xJ) = 0
i=i
m n in n m n
quedando XXUr X). =II(XrXy)2 + II(xy-X.).,c.q.d.
Llamamos suma de cuadrados total (SCT) a la suma de los cuadrados de las

desviaciones con respecto a la media global:
(10)
A la suma de cuadrados total le corresponden

glt=N-1 grados de libertad.
Podemos observar cómo la igualdad (9) no sólo descompone la variabilidad total
de las observaciones en dos sumandos, sino que también descompone el número de
grados de libertad:
glt = gla + gle ' (11)
En efecto: gla+gle=n- 1 +n(m- 1 )=n- 1 +nm-n=nm- 1 =N- 1 .
13.3.3. Contraste de la F de Fisher-Snedecor
El estimador de la varianza intergrupos recoge únicamente el error debido al uso del

muestreo, en tanto que el estimador de la varianza intragrupo contiene el error del muestreo
así como el efecto debido al tratamiento (método de enseñanza, en el ejemplo).
Si fuera cierta la hipótesis nula de que «todas las muestras proceden de una
misma población que sigue una distribución normal, o incluso de poblaciones dife
rentes, pero todas ellas con la misma media y desviación típica», no habría influjo
debido al tratamiento, y ambos estimadores serian aproximadamente iguales.
En cambio, si el efecto debido al tratamiento fuera grande, el estimador de la
varianza intragrupo sería sensiblemente mayor que el estimador de la varianza
intergrupos.
Por ello, cabe pensar que un estadístico adecuado para efectuar el contraste, es el
cociente entre el estimador de la varianza intragrupo y el estimador de la varianza
intergrupos. En esta idea se basa el uso de la F de Fisher-Snedecor como estadístico
adecuado para realizar el contraste.
420
Ya hemos señalado, en efecto, que el estadístico

MCA
F=
MCE
sigue una distribución F de Fisher-Snedecor con n-1 y n(m-1) grados de libertad.
La distribución F presenta una asimetría acusada hacia la derecha en las distintas
combinaciones según las diferentes parejas de grados de libertad.
Para hallar el valor crítico necesario para rechazar Hn, se entra en una de las tablas
A.6 del apéndice A, que corresponden a la distribución F de Fisher-Snedecor, consul
tando la intersección de la columna en que figuran los grados de libertad del numera
dor y la fila con los grados de libertad del denominador. Se obtiene así el valor crítico
para el nivel de significación elegido (a=0'05 ó a=0'01 ).
Si el valor de la estimación obtenida para F en (8) es inferior al valor crítico al nivel
de significación elegido, se acepta la hipótesis nula. (Esto sucederá también siempre
que el valor obtenido sea menor o igual que 1 , según el razonamiento anterior). En
caso contrario, se rechaza la hipótesis nula.
13.3.4. Cálculos y tabla resumen
Los cálculos del estimador F se efectúan de acuerdo con las definiciones conoci
das. Sin embargo, éstos resultan más cómodos si se utilizan métodos abreviados para
evaluar las varianzas, y se sigue un cierto orden.
Para obtener las variaciones, se procede del siguiente modo:
/) Suma de cuadrados:
A) Suma de cuadrados total (SCT):

m n
SCT = J,^(xrx):
Para su cálculo, es más cómodo utilizar la expresión equivalente:
\'m " T
XI>. (12)
donde N=mn es el número total de observaciones. Veamos el proceso para computar

(12):
a) se suman todas las observaciones(S):
S=65+72+...-fó5=1408
422
b) se suman los cuadrados de todas las observaciones(C):

C=65:+72:+...+65:= 1 00870
c) se divide el cuadrado de la suma de todas las observaciones entre el número
total de observaciones(D):
D=1408720=99123'2
d) la suma de cuadrados total es:
SCT=C-D=100870-54915,2=1746,8
B) Suma de cuadrados intragrupo (SCA):

m n
scx=2ux¡-x)
Para el cálculo, es más cómodo utilizar la expresión equivalente:
(13)
donde m es el número de observaciones de cada grupo y N el número total de obser

vaciones. El último término de ( 13) coincide con el último término de (12): lo hemos
designado por D. Entonces:
a) se suman los cuadrados de los totales de cada grupo dividividos por el número
de observaciones de cada grupo(E).
330: 409: 354: 3152

E= + + —— + = 1001 44'4
b) la suma de cuadrados intragrupo es SCA=E-D:

SCA=E-D=100144'4-991 23'2=102l'2
C) Suma de cuadrados intergrupos (SCE):

En la proposición anterior, hemos demostrado que
SCT=SCA+SCE
luego, para calcular SCE, basta con despejar:
SCE=SCT-SCA
SCE=1746'8-1021.2=725.6
422
2) Grados de libertad:
A) Grados de libertad intragrupo (gla):

gla=n-1=4-1=3
B) Grados de libertad intergrupos (gle):
gle=n(m- 1 )=nm-n=N-n=20-4= 1 6
C) Grados de libertad totales (glt):
glt=20-1=19
Se puede comprobar que no hay error, teniendo en cuenta que:
glt=gla+gle=3+16=19
3) Medias cuadráticas:
A) Media cuadrática intragrupo (MCA):

MCA=SCA/gla= 1 02 1 ' 2/3=340'4
B) Media cuadrática intergrupos (MCE):

MCE=SCE/gle=725'4/l 6=45'35
4) Estimación del estadístico (F):
El valor del estadístico F es:

F=MCA/MCE=340'4/45'35=7'5
Para la distribución F con 3 y 1 6 grados de libertad, la tabla correspondiente nos
proporciona, para niveles 0'05 y 0'Ol, los valores:
F =3'24
'005. 3. 16 J "
F =V>9
Como F=7'5>3'24 y F=7'5>5'29, el contraste es significativo tanto al nivel a=0'05

como al nivel a=0'01. Luego se rechaza la hipótesis nula, y se acepta que «hay
diferencia significativa entre algunas de las medias».
Una vez realizados los cálculos, los datos fundamentales se recogen en una tabla
similar a la siguiente:
423
Origen de la variación SC gl MC F
Intragrupo (Tratamiento) 10212 3 340-4 7-5
Intergrupos (Error) 725'6 16 45'35
Totales 1746'8 19
13.3.5. Comparaciones múltiples
El análisis de la varianza aplicado al ejemplo 13.1 ha resultado significativo. El

profesor debe rechazar naturalmente la hipótesis nula, pero necesita establecer compara
ciones entre las distintas medias, para averiguar cuáles son las que difieren entre sí.
Se abre un abanico amplio de posibilidades, según el planteamiento del experimen
to, que puede requerir el contraste de las distintas parejas de medias, de sólo algunas
de ellas, o puede ser que haya que agrupar algunas para compararlas con otras. La
complejidad de las distintas necesidades ha dado lugar a diversos contrastes adecua
dos a cada caso.
Vamos a exponer algunas de las pruebas más usuales, como son la prueba LSD de
Fisher, la prueba de Tukey, la de Duncan y la de Scheffé. Gracias a los paquetes
integrados, su uso se ha generalizado.
13.3.5.1. Prueba LSD ó t protegida
Se trata de una de las pruebas más sencillas en su aplicación y, a la vez, más

adaptable a las diferentes posibilidades. Se conoce con el nombre de «contraste de
mínima diferencia significativa (LSD)» de Fisher, aunque también es conocida como
«prueba t protegida».
La prueba t protegida es, como el resto de las pruebas que vamos a analizar, una
prueba «a posteriori»; se utiliza una vez el contraste de análisis de varianza ha resul
tado significativo, y se basa en el uso de la t de Student, pero empleando la media
cuadrática intergrupos como estimador de la varianza poblacional. De este modo se
aprovecha el agrupamiento de las varianzas de todas las muestras y de los grados de
libertad que se combinan por medio de las muestras.
Al exigir que el contraste de la F haya resultado significativo, se «protegen» las
distintas t de Student de los errores de tipo experimental.
Dadas dos medias muestrales \ . y y., el estadístico
Xh ~ Xk
t= (14)
JMCE
424
sigue una distribución t de Student con N-n grados de libertad, donde N es el número
total de observaciones, n el número de grupos, mh el número de observaciones de la
h-ésima muestra y m^ es el número de observaciones de la k-ésima muestra.
Utilizando este estadístico, se pueden ir contrastando cada pareja de medias por
separado, rechazando aquellas parejas que den un resultado significativo al nivel de
significación elegido previamente.
En el caso particular de que todas las muestras tengan el mismo número de ele
mentos (mh=mk=m), se puede determinar, para un nivel de significación a, «la menor
de las diferencias significativas (LSD: Least Significant Difference) entre las medias,
necesaria para que el contraste dé un resultado significativo». En efecto, basta con
hallar
LSD =U MCE (15)
donde t es el valor de la t de Student con N-n gl. que corresponde a un nivel de

significación a, y m el número de elementos de cada una de las muestras.
En el ejemplo 13.1, para una prueba bilateral, con un nivel de significación a=0'05,
como N-n=16, se tiene
tVoS, 16 =2' 12
^ í¿-
luego: "'.i i4535- = 2'12-4'26 = 9'03
Entonces todos los pares de medias que difieran en más de 9'03, serán
significativamente diferentes al nivel 0'05.
El resultado se suele disponer en una tabla de doble entrada, marcando con un *
la diferencia cuyo contraste resulta significativo. Así, para el ejemplo 13.1, si ordena
mos las medias de menor a mayor, para evitar valores negativos, resulta:
X.4 X, X.3 X.i
X.J 0 3 7,8 18,8*

X, 0 4.8 15,8*
X.} 0 11,0*
X.2 0
Según la prueba t protegida, resultan significativas, al nivel 0'05, las diferencias

entre la primera y segunda muestra, entre la segunda y tercera y entre la segunda y
cuarta.
425
13.3.5.2. Prueba de Scheffe
La prueba anterior se podía haber realizado elevando t al cuadrado, con lo que

(Xk-Xkf
I 1
MCE — + —
^nth ml J
sería una F de Fisher-Snedecor con gla y gle grados de libertad.

Sobre esta idea, se define el rango de Scheffe
*s = y¡(p-l)F,
donde p es el número de medias y Fa ¡a h es el valor crítico que proporciona la tabla
de la F de Fisher-Snedecor para un nivel de significación a con los grados de libertad
de la media cuadrática intragrupo y los grados de libertad de la media cuadrática
intergrupos.
La prueba de Scheffe consiste en comparar cada diferencia de medias con el valor
que se obtiene de multiplicar el rango de Scheffe rs por la desviación típica de las
diferencias o :
Rs=rs°,
Si el valor absoluto de la diferencia entre dos medias es mayor que Rs, se conside
ran las medias correspondientes significativamente diferentes.
Vamos aplicar la prueba de Scheffe al problema planteado en el ejemplo 13.1.:
Tenemos ya calculada ^=4'26, y la tabla de la F nos proporciona el valor FffQ5 , ¡í=3'24,
con lo que el rango de Scheffe es:
's = y¡(p-¡) F„ .„,.,„ = V'3x3-24 =? 11
LuegoRs=3,llx4,26=13'25.
Comparando las diferencias entre las distintas medias después de ordenarlas de
mayor a menor, y disponiéndolas en una tabla, resulta:
Y X Y A' .
xj 0 3 7,8 18,8*
X, 0 4,8 15,8*
X, 0 11.0
x2 0
De la prueba de Scheffe se deduce que las diferencias significativas se dan entre

la primera y segunda muestra, y entre la segunda y cuarta.
426
13.3.5.4. Prueba de Duncan
Esta prueba se basa en la noción de rango «estudentizado», cuya idea es que el

rango de cualquier subconjunto de h medias debe sobrepasar un cierto valor antes de
que se encuentre que cualesquiera de las h medias son diferentes.
Este valor es el «rango menos significativo» para las h medias, y lo designaremos
por RD en el caso de la prueba de Duncan.
El rango menos significativo es el producto del rango «estudentizado» menos
significativo de Duncan, rD, por la desviación típica de la diferencia de medias, oD:
siendo on ,
El rango «estudentizado» de Duncan depende del nivel de significación a, del

número de grados de libertad, de la media cuadrática del error y del número de medias
que se comparen.
Los valores de rD vienen tabulados en las tablas A.8 del apéndice A. Si el valor
absoluto de una de las diferencias es mayor que RD, se consideran dichas medias
significativamente diferentes.
Apliquemos la prueba de Duncan al problema planteado en el ejemplo 13.1.:
La desviación típica de la diferencia de medias es, como en las anteriores pruebas,
aD=4'26.
Para el nivel de significación a=0'05 y gle= 16 grados de libertad, según el número
de medias que se comparen, la tabla A.8. 1 nos da como valores de rD:
para p=2, es r =2'99 y R2=2'99x4'26= 1 2'73
para p=3, es r =3' 14 y RJ=3' 14x4'26=13'37
parap=4,esr4=3'23yR4=3'23x4'26=13'75
Ordenamos las medias de menor a mayor y comparamos:
1) Comparando X2-X< con R4l es 18'6>9'72, luego j, resulta mayor que ~x 4
de modo significativo.
2) Comparando x 3- X^ yx,-j[, conR,, resulta 7'8<9'45 y 15'6>9'45, luego x2
es significativamente mayor que ~x ,
3) Comparando xV^j- Í¡-X, y X,~X , con R,. resulta 3<8'73, 4'8<8'73 y
10'8>8'73, luego \ 2 es significativamente mayor que x,
De la prueba de Duncan se deduce, por tanto, que las diferencias significativas se
dan entre la segunda y cuarta, entre la segunda y primera, y entre la segunda y tercera
de las medias.
427
Xa X, Xj x2
X.4 0 3 7,8 18,8*
X, 0 4.8 15,8*
X.} 0 11,0*
x2 0
13.3.5.3. Prueba de Tukey
La prueba de Tukey también se basa en la noción de rango «estudentizado».

El rango «estudentizado» de Tukey rT es una función de a, k y gle:
rT=T(a.k,gle)
siendo a el nivel de significación elegido, k el número de tratamientos y gle el número
de grados de libertad de la media cuadrática del error.
La prueba de Tukey consiste en comparar el valor absoluto de las diferencias
entre las medias con el rango menos significativo de Tukey, RJ. que es el producto del
rango «estudentizado» de Tukey, rT, por la desviación típica de las diferencias, aT:
MCE
siendo a, =
Los valores del rango estudentizado de Tukey vienen tabulados en la tabla A.9
del apéndice A. Si el valor absoluto de una de las diferencias es mayor que RT, se
consideran las medias correspondientes significativamente diferentes.
Apliquemos la prueba de Tukey al problema planteado en el ejemplo 13.1.:
El valor del rango de Tukey, para a=0'05, k=4 y gle=16, nos lo da la tabla A. 9, y es
r=4'05
Como la desviación típica de las diferencias es oT=4'26, el rango menos significa
tivo de Tukey es
Comparando las diferencias entre las distintas medias y disponiéndolas en una tabla,
se obtiene el mismo resultado que daba la prueba de Scheffé (ver tabla pág. 428).
De la prueba de Tukey se deduce, por tanto, que las diferencias significativas se
dan entre la primera y segunda, y entre la segunda y cuarta medias.
Observamos cómo la diferencia entre la segunda y tercera medias no es detectada
como significativa por las pruebas de Scheffé y de Tukey, mientras que sí es detecta
da esta diferencia por la prueba de Duncan y la prueba t protegida.
428
X.4 X, x¿ X2
x4 0 3 7,8 18,8*
Xj 0 4,8 15,8*
X.i 0 11,0
X.i 0
13.3.6. Intensidad de la relación
El hecho de que el contraste de la igualdad de medias resulte significativo sólo

significa que hay alguna relación entre las variables independiente y dependiente,
pero no dice nada acerca de la intensidad de dicha relación.
Una medida de la intensidad de la relación entre las variables viene dada por el
índice r
I ela(F-l)
(16)
El coeficiente r, se comporta como una r de Pearson. En el ejemplo 13.1, se tiene:
I 3(7'5-l)
Este valor nos indica que hay una relación bastante fuerte entre los distintos
métodos de enseñanza y las calificaciones del alumno.
13.4. Diseño factorial
Hemos estudiado el tipo de diseño utilizado cuando los grupos que se comparan
se clasifican atendiendo a un único criterio, es decir, cuando interviene una única
variable independiente.
Si se considera una segunda variable independiente o factor, éste puede tener única
mente el carácter de control de la variable independiente, en cuyo caso tenemos el diseño
de bloque aleatorio. En cambio, si la segunda variable independiente es una variable de
tratamiento, cuyos efectos deseamos conocer, se trata de diseño factorial. Ambos tipos
de diseño son estudiados como «análisis de varianza doble», y sólo difieren en el modo
de interpretar el análisis. Nos limitaremos al estudio del diseño factorial.
Cuando son más de dos las variables independientes, se habla de «análisis de
varianza multidireccional». No hay limitación teórica en cuanto al número de variables
independientes, aunque, en la práctica, existen limitaciones a la hora de obtener el
429
A,III'
. ,, A.,, .,...,' A mil, .
211'
v // —7/ y
/ /
Al co c„ c,, c
A? c. c- c c
Hl B2 B3 IW
Figura 13.1: Diseño de dos factores.
número de sujetos adecuado para los diferentes niveles de tratamiento de cada varia
ble, así como en el momento de hacer una interpretación de los resultados.
Con el fin de facilitar las fórmulas generales, vamos a considerar un experimento de
dos factores A y B, en el que las observaciones se asignan de modo aleatorio. Se
consideran n niveles de tratamiento para el factor A y p niveles de tratamiento para el
factor B, obteniéndose así np celdas de tratamiento, distribuidas en n filas y p columnas.
Cada una de las celdas contiene m observaciones, que constituyen m réplicas de
combinaciones de tratamientos de los diversos niveles de cada factor.
En concreto, trabajaremos sobre un ejemplo tipo, con dos variables independien
tes (dos factores A y B), presentando el primer factor dos niveles de tratamientos (Al
y A2), y el segundo, cuatro niveles (B1, B2, B3, B4). Tenemos así 2x4=8 celdas.
El diagrama de la figura nos puede ayudar a comprender el diseño.
En la celda Cn están las m observaciones o réplicas Xn,,X,n,...,Xml,, que correspon
den a la combinación de los tratamientos Al y B1.
Ejemplo 13.2
Un agricultor dispone de dos tipos de fertilizantes (Al y A2) y de semillas de trigo

de cuatro variedades distintas (B1, B2, B3, B4), y desea contrastar la eficacia de las
distintas semillas tratadas con cada uno de los fertilizantes.
Para ello, cuenta con 40 parcelas de características similares para realizar el experi
mento, y decide tratar la mitad de las parcelas con cada uno de los fertilizantes.
Divide las 20 parcelas tratadas con el fertilizante Al en 4 grupos de 5 parcelas
cada uno, sembrando en cada uno de los grupos una variedad de trigo. En las 20
parcelas tratadas con el fertilizante A2, repite el mismo proceso.
430
Realizada la cosecha, se obtuvieron los siguientes resultados (expresados en fane

cas por hectárea):
Variedades
Bl B2 B3 B4
8 11 7 14
10 8 13 7
Al 13 9 13 11
11 6 11 11
8 6 6 12
Fertilizantes
10 3 9 4
12 8 10 3
A2 11 8 16 8
13 5 11 7
11 6 14 8
Por tratarse de dos factores independientes (los fertilizantes, que presentan 2

niveles de tratamientos y la variedad del trigo, que presenta 4 niveles), se habla de
diseño factorial 2x4. Hablaremos de 2 filas por 4 columnas, lo que supone 8 celdas,
en cada una de las cuales hay 5 réplicas.
1 3.4. 1 . Modelo matemático
El modelo matemático teórico, al cual se debe ajustar cualquier puntuación obser

vable X- v viene dado ahora por la expresión:
A^ = u+a, + p\+Y,i+5^ (17)
o, lo que es igual:
Xyt-\i =a, + p\+Y,i+8, (18)
La ecuación (17) corresponde a un modelo matemático teórico, donde:
1) (a es la media de las poblaciones de todos los tratamientos;
2) a es el efecto correspondiente al tratamiento del primer factor, que es constante
para todos los sujetos que reciben el tratamiento j del mismo;
3) Bk es el efecto que corresponde al tratamiento del segundo factor, que es cons
tante para todos los sujetos que reciben el tratamiento k del mismo;
4) yk es el efecto debido a la interacción de los dos factores (columna-fila), por lo
que afecta a la parte no aditiva de los efectos a y Bk;
5) 8. . es el efecto error, que se supone independiente y distribuido normalmente
con media cero y varianza a2.
431
Se admite la homogeneidad entre todas las varianzas de las np poblaciones.

Las restricciones del modelo vienen dadas por:
Xrk es el único elemento observable, que corresponde a la i-ésima repetición de la

fila j-ésima (tratamiento j del factor A), columna k-ésima (tratamiento k del factor B).
Si se repite el experimento, observando un cierto número de individuos de cada
celda, se obtienen las estimaciones empíricas de las componentes del modelo teórico:
X, - X es un estimador de a ,
X k - X es un estimador de Bk,
X.,k-X.¡-X¡l + X- es un estimador de yik,
Xiik-X.ik es un estimador de 8,v
donde
¿^¿^¿jX^ es la media global,

mnp ,m, ,m, M
1 A
yk es la media de cada celda.
ni
- 1 », P J P
X , = — Z,ljXiik = — ¿i X a es la media de las filas,
mp„,M pk=,
X k= Áj^LXiik = ~ 2-,X n es la media de las columnas.
13.4.2. Establecimiento de las hipótesis
Tres son las hipótesis nulas que se pueden establecer:

H ': «Todas las medias de los tratamientos del primer factor son iguales», es decir:
H,í:a=0,j=1.2 n.
Esta hipótesis se contrasta con la alternativa:

H,': a. * 0, para algún j.
Ho2: «Todas las medias de los tratamientos del segundo factor son iguales», es
decir:
H02:Bk=0,k=1,2,...,p.
H 2: Bk £ 0, para algún k.
432
H0': «Las interacciones entre los tratamientos debidos al primero y segundo factor
son nulas», es decir:
H„':Ylk=0,j=1.2 nyk=1.2 p.
Hi': Yk*0, Para algún par de valores j,k.
Las dos primeras hipótesis se refieren a la no existencia de diferencias entre las
medias de la población. La tercera hipótesis contrasta la interacción debida a los dos
factores.
13.4.3. Descomposición de las variaciones
Utilizando los estimadores de las componentes del modelo teórico dado por la
ecuación (18). se obtiene la igualdad:
x,,í - x = [xi - x) +0f,. -x)+{xlk- X, - Xk + x) +(x* - *j (19)
Esta igualdad permite descomponer la variación total en la suma de las variaciones

debidas a cada uno de los factores más la interacción de los dos más el error residual.
La suma de cuadrados totales se descompone así en las sumas de los cuadrados
del primero y segundo factor más la suma de los cuadrados debida a la interacción de
ambos factores más la suma de los cuadrados intergrupos.
Designemos por:
SCT a la suma de cuadrados totales:
sc,-XXXta-xJ2 (20)
a la que corresponden glt=N-1=mnp-1 grados de libertad.

SCE a la suma de cuadrados intergrupos:
(21)
¡-/ /./ l=í
a la que corresponden gle=N-np grados de libertad.

SCI ala suma de cuadrados para el factor 1 :
SCI = tí£(XrXy (22)

,=l i-1 k-l
a la que corresponden gll=n-1 grados de libertad.

433
SC2 a la suma de cuadrados para el factor 2:
«2-SZZU-*-*-)2 (23)
a la que corresponden gl2=p-1 grados de libertad.

SCI 2 a la suma de cuadrados para la interacción de ambos factores:
SC72 = ¿¿¿(*.,-X.rX.í +*~)"' (24)
a laque corresponden gll2=gllxgl2=(n-1)(p-1) grados de libertad, siendo n el número

de niveles del primer factor y p el número de niveles del segundo factor.
Proposición 13.3: La descomposición de la variación total viene dada por la

igualdad:
SCT=SC1+SC2+SC12+SCE (25)
13.4.4. Medias cuadráticas y contrastes
Dividiendo las sumas de los cuadrados por el correspondiente número de grados

de libertad, se obtienen las medias cuadráticas:
A) Media cuadrática del primer factor (MCI ):
SCI
MCI (26)
,11
B) Media cuadrática del segundo factor (MC2):
SC2
MC2. (27)
g'2
C) Media cuadrática de la interacción (MCJ2):
SC12
MC12 = (28)
gll2
D) Media cuadrática intergrupos (MCE):
SCE
MCE = (29)
gle
434
En el caso concreto del diseño 2x4, se comprueban tres hipótesis nulas que hacen
referencia al primero y segundo factor y al efecto conjunto de ambos factores.
La primera prueba trata de comprobar el efecto del primer factor (tipo de fertilizan
te) sobre la cosecha. Se utiliza el estadístico
MCI
F= (30)
MCE
que sigue una F de Fisher-Snedecor con gil y gle grados de libertad.
La segunda prueba contrasta el efecto del segundo factor (variedad de trigo)
sobre la cosecha. Se utiliza el estadístico
MC2
(31)
MCE
que sigue una F de Fisher-Snedecor con gl2 y gle grados de libertad.
La tercera de las pruebas contrasta el efecto de interacción. Se utiliza el estadístico
MC12
F= (32)
MCE
que sigue una F de Fisher-Snedecor con gl 1 2 y gle grados de libertad.
13.4.5. Cálculos y tabla resumen
Para efectuar los contrastes, en primer lugar tenemos que calcular las sumas de los
cuadrados, que, divididas por los respectivos grados de libertad, conducen a las
medias cuadráticas y éstas a los estadísticos de cada una de las pruebas.
Construimos la tabla de totales, a partir de la cual se evalúan fácilmente las sumas
de cuadrados:
Bl B2 B3 B4 Suma filas
Al 50 40 50 55 195
A2 57 30 60 30 177
Suma columnas 107 7(1 110 85 Total=372
1) Sumas de cuadrados:
A) Suma de cuadrados total (SCT): Se calcula del mismo modo que en el análisis
unidireccional, utilizando la igualdad:
435
. IÍ¿x„
N
donde N=mnp es el número total de observaciones. Entonces:

a) se halla la suma(R) de los cuadrados de todas las observaciones:
R=82+...+82+ll2+...+62+...+42+...+82=3840
b) se halla el cociente(D) de dividir el cuadrado de la suma de todas las observa
ciones entre el número total de observaciones:
D=372V40=3459'6
d) la suma de cuadrados total es: SCT=R-D
SCT=R-D=384O-3459'6=380'4
B) Suma de cuadrados para el primer factor: La suma de cuadrados para el primer
factor (tipo de fertilizante), sin tener en cuenta el segundo, se calcula usando la
siguiente expresión:
£]>>,« £l>, im
/ , / . xod 2^2-,2^ ^'Jk
) \m i.l M J
SC1 = -+...+-
mp mp mp N
cuyo proceso de cálculo consiste en:

a) hallar la suma(S) de los cuadrados de los totales de cada fila divididos por el
número de elementos de cada fila:
1952 1772
S = —- + -— = 3467 7
20 20
b) restar de S el valor D. ya evaluado para el cálculo de SCT:
SCl=S-D=3467'7-3459'6=8' 1
C) Suma de cuadrados para el segundo factor: La suma de cuadrados para el
segundo factor (variedad de trigo), cuando no se tiene en cuenta el primero, se evalúa
usando la siguiente expresión:
m , Sí „, P
\,=i i-i )
SC2 = +... + -
mu mu mn N
436
a) hallar la suma(T) de los cuadrados de los totales de cada columna divididos por
el número de elementos de cada columna:
1072 702 11O2 852
T = -,o-+w+lo- + Jo-356T4
b) restar de T el valor D, ya evaluado para el cálculo de SCT:
SC2=T-D=3567'4-3459'6=107'8
D) Suma de cuadrados para la interacción: La suma de cuadrados para la interacción
se obtiene, en la práctica, utilizando la expresión:
( '" Y fm Y fm
SC12 = y-' ) . -+...+ .S-T+L

a) hallar la suma(U) de los cuadrados de los totales de cada celda divididos por el
número de elementos de cada una:
502 402 502 552 572 302 602 302
U = — + -T + T + — + — + — + T + — = 3654'8
b) restar de U los valores de S y T, y sumarle el valor de D evaluado para el cálculo

de SCT:
SC12=U-S-T+D=3654'8-3467'7-3567'4+3459'6=79'3
E) Suma de cuadrados intergrupos (SCE): Teniendo en cuenta que

SCT=SC1+SC2+SC12+SCE
para calcular SCE, basta con despejar:
SCE=SCT-SC1-SC2-SC12
Entonces: SCE=380'4-8' 1-107'8-79'3=185'2
2) Grados de libertad:
Los grados de libertad que corresponden a cada suma de cuadrados, según he

mos ido viendo, son:
A) Grados de libertad del primer factor (gil): Vienen dados por el número de
niveles del primer factor menos 1 :
gll=n-1
437
En el ejemplo: gl 1=2- 1=1
B) Grados de libertad del segundo factor (gl2): Vienen dados por el número de
niveles del segundo factor menos 1 :
gl2=P-1
En el ejemplo: gl2=4- 1 =3
C) Grados de libertad de la interacción (gil 2): Los grados de libertad para la

interacción de ambos factores son el producto de los grados de libertad de los dos
factores:
gll2=gllxgl2=(n-1)(p-1)
En el ejemplo: gll2=lx3=3.
D) Grados de libertad totales (glt): El número total de grados de libertad es N-1:
En el ejemplo: glt=40-1=39
E) Grados de libertad intergrupos (gle): Los grados de libertad intergrupos vienen

dados por el número total de sujetos menos el número de grupos: gle=N-np. En
efecto:
gle=glt-gll-gl2-gll2=N-1-(n-1)-(p-1)-(n-1)(p-1)=N-np
En el ejemplo: gle=40-8=32
3) Medias cuadráticas:
Conocidas las sumas de cuadrados y los correspondientes grados de libertad, las

medias cuadráticas son evaluadas sin más que hallar sus cocientes respectivos:
A) Media cuadrática para el primer factor (MCI ):
MCl=SCl/gll=8' 1/1=8' 1
B) Media cuadrática para el segundo factor (MC2):
MC2=SC2/gl2=107'8/3=35'93
C) Media cuadrática para la interacción (MCI 2):
MC 1 2=SC 1 2/gl 12=79'3/3=26'43
D) Media cuadrática intergrupos (MCE):
MCE=SCE/gle=l 85'2/32=5'78
438
Los contrastes dan los siguientes resultados:
/. Primera prueba:
F=MC1/MCE=8' 1/5'78=1'40
Para la distribución F con 1 y 32 grados de libertad, la tabla correspondiente nos
proporciona, para un nivel 0'05, el valor:
1 0'05. 1.32
=4' 15
Como F=l'40<4' 15, el contraste no es significativo al nivel a=0'05, y se acepta la
hipótesis nula a dicho nivel.
//. Segunda prueba:

F=MC2/MCE=35,93/578=6'21
proporciona, para el nivel 0'05, el valor:
F =2'90
1 0'05. 3. 32 * *"
Como F=6'21>2'90, el contraste es significativo al nivel a=0'05, y se rechaza la

///. Tercera prueba:

F=MC12/MCE=26,43/578=4,57
proporciona, para el nivel 0'05, el valor:
F
1 005. 3. 32 =2'90
Como F=4'57>2'90, el contraste es significativo al nivel a=0'05, y se rechaza la
Los datos se recogen también en una tabla resumen:
Origen de la variación SC gl MC F
Primer factor (fertilizante) 8'1 1 8' 10 1'4
Segundo factor (variedad) 10T8 3 35'93 6'21
Interacción 79'3 3 26'43 4.57
Variación intergrupos 185'2 32 578
Totales 380'4 39
439
1 3.4.6. Pruebas de comparaciones múltiples
De modo similar al proceso seguido en el análisis de la varianza, si el resultado del

contraste de la F es significativo, se deben realizar pruebas adicionales para especifi
car cuáles son las medias que difieren entre sí y cuál es la influencia de la interacción
de los factores.
Según sean los resultados del contraste de la interacción (resultado de la tercera
prueba), tenemos dos alternativas:
/. El resultado de la interacción es significativo:
Si la interacción es significativa, los efectos de los factores no pueden ser analiza

dos aisladamente. Para hacer un análisis conjunto, se debe realizar una prueba adicio
nal, como la prueba de «efectos principales simples».
//. El resultado de la interacción no es significativo:
Al ser nulo el efecto de la interacción, se considera cada uno de los factores como
si se tratara de análisis de la varianza unidireccional. Pueden presentarse, en este
caso, las siguientes situaciones:
1 ) Una de las dos primeras pruebas no es significativa: El factor correspondiente
a la prueba no significativa no ejerce efecto alguno sobre los resultados, por lo
que no se deben hacer comparaciones múltiples.
2) Uno de los factores significativos sólo tiene dos niveles: No es necesario
realizar la prueba de comparaciones múltiples, puesto que ya se sabe que la dife
rencia entre las dos medias es significativa.
3) Una de las dos primeras pruebas es significativa y el factor correspondiente
tiene más de dos niveles: En este caso, se realizan las pruebas de comparaciones
múltiples para las distintas medias.
En el ejemplo 13.2. han resultado significativas la prueba de interacción y la del
segundo factor.
13.4.7. Prueba de los efectos principales simples
La interacción de los tratamientos de ambos factores significa que el tratamiento

de un factor se comporta de distinto modo ante los diferentes niveles de tratamiento
del otro factor.
Cuando el resultado de la interacción es significativo, no es posible hacer una
interpretación aislada de los resultados de cada uno de los factores.
La prueba de los «efectos principales simples» está diseñada para conseguir una
440
interpretación de los efectos de la interacción. Consiste esencialmente en contrastar

las siguientes hipótesis nulas:
Hn: a=0, para todo tratamiento j al nivel B1.
Hn: a=0. para todo tratamiento j al nivel B3,
Hn: Bk=0. para todo tratamiento k al nivel A1,

Hn: Bk=0. para todo tratamiento k al nivel A2,
Se trata de aplicar la técnica del ANOVA para analizar los efectos de cada trata
miento del primer factor en cada uno de los niveles del segundo factor, y a la inversa.
Designaremos por SCA(Bk) a la suma de cuadrados del factor A para el nivel k
del factor B y por SCB( Aj) a la suma de los cuadrados del factor B para el nivel j del
factor A.
El proceso de cálculo es análogo al que hemos seguido antes, y partiremos tam
bién de la tabla de totales (T , ):
Bl B2 Bk Total
Al T T
A2 T T T:
Ap T, T
p1 p2 p
Total T, T, T\ T
La tabla de totales correspondiente al ejemplo 13.2 es:
Bl B2 B3 B4 Tot. filas
Al 50 40 50 55 195
A2 57 30 60 30 177
T. columnas 107 70 110 85 Total=372
A) Suma de cuadrados de A a los distintos niveles de B:
( " V
r-l 50- 57- 107-
SCA(B¡)= = 4,9
5 5 10
441
SCA(B2) = 40- 30- ~ 70- w

11I mu 5 5 10
( n
1t¡3 ln
~H ~\£¿ J 50- 60- 110- 10
SCA(B3) :
m mn 5 5 10
( n
55- 30- 85'

SCA(B4) = = 62,5
ni mu 5 5 10
La suma de estos cuatro sumandos debe ser igual a la suma de cuadrados del
primer factor más la suma de los cuadrados de la interacción:
SC1+SC12=SCA(B1)+SCA(B2)+SCA(B3)+SCA(B4)=87'4
lo que puede servir de comprobante de las operaciones.
A) Suma de cuadrados de B a los distintos niveles de A:
SCB(Al)-.
ín f^ 50- 402 502 552 1952 ? ?, .,.-
5 5 5 5 ~20
v
X lT2• 572 302 602 302 ~1772
SCB(A2) = = 163' 35
ni mu 5555 "20
La suma de estos dos sumandos debe ser igual a la suma de cuadrados del segun
do factor más la suma de los cuadrados de la interacción:
SC2+SC12=SCB(A1)+SCB(A2)=187'1
lo que sirve de comprobación.

Al hacer los diferentes contrastes con la F de Fisher-Snedecor, hemos de tener en
cuenta que el factor A se ha dividido en 2 niveles, por lo que debemos dividir el nivel
de significación a en dos partes, de modo que, para encontrar el valor crítico en la
tabla de la F, hay que buscar el valor correspondiente a
a/2=0'05/2=0'025
442
Del mismo modo, el factor B se ha dividido en 4 niveles, por lo que el nivel de

significación correspondiente será
a/4=0'05/4=0'0125
El valor de la F para estos niveles no está tabulado, por lo que se debe calcular por
aproximación, interpolando con los valores de la tabla para a=0'05 y a=0'01.
El valor crítico de F para las cuatro primeras pruebas es
Fmas ,i,32 =7'29
puesto que, a un incremento negativo de 0'04 en el nivel, corresponde un incremento
en el valor de F de 3'35, a un incremento negativo de 0'0375 en el nivel, corresponde
un incremento del valor de F de 3'35x0'0375/0'04=3' 14.
Como F0.05 , ,2=4' 15, será Fo,„25 ,,2=4' 15+3' 14=7' 29.
De modo análogo se obtiene el valor crítico de F para las otras dos pruebas:
0'025. 3, 32
Con los datos obtenidos, construimos la tabla resumen del ANOVA:
Origen de la variación SC Si MC F
A en nivel Bl 4.9 1 4,9 0,86
A en nivel B2 10 I 10 1,73
A en nivel B3 10 1 10 1,73
A en nivel B4 62,5 1 623 10,81
B en nivel Al 23,75 3 7,91 136
B en nivel A2 1633 3 54,45 9,42
Variación interceldas 1852 32 5,78
Totales 459,7 40
Han resultado significativas la cuarta y la sexta de las pruebas.
13.4.8. Interpretación de los resultados
El factor A (tipo de fertilizante) tiene una incidencia significativa en el rendimiento

de la cosecha sobre la variedad B4 de trigo.
Se puede concluir, a la vista del rendimiento medio, que el tipo de fertilizante Al
incide positivamente en el rendimiento de la cosecha cuando se aplica a la variedad B4.
Se comprueba, en efecto, que el fertilizante Al aplicado a la variedad B4 produce
una media de 1 1 , muy superior a la media 6 que se obtiene de aplicar el fertilizante A2
a la misma variedad.
443
Bl B2 B3 B4 Bl B2 B.1 B4
Figura 13.2: Interacción nula Figura 13.3: Interacción para el ejemplo 13.2
El efecto de la interacción puede apreciarse gráficamente si se marcan las medias

de cada celda, y se unen mediante segmentos, de una parte, las medias correspon
dientes al primer nivel (fertilizante A), y, de otra parte, las medias correspondientes al
segundo nivel (fertilizante B).
Si el efecto de la interacción fuera nulo, la distancia entre los segmentos de las
poligonales que se obtienen permanecería constante (éste es el caso de la figura 13.1).
En cambio, cuando el efecto de la interacción existe, los segmentos no son parale
los, llegando incluso a cortarse cuando el efecto es inverso, como sucede en la figura
13.2, que corresponde al ejemplo que venimos analizando. Observamos cómo el tipo
de fertilizante incide en el rendimiento cuando se le aplica a la variedad de trigo B4.
Los efectos de la interacción son independientes de los efectos de los factores.
Puede suceder que los efectos de la interacción sean significativos, no siéndolo los
efectos de uno de los factores, e incluso no siéndolo los efectos de ninguno de los
factores.
Al analizar los efectos del factor B, los resultados obtenidos nos señalan que hay
diferencias significativas entre las medias de algunos de sus niveles y también que el
factor B incide de modo significativo en el nivel A2 del factor A. Sin embargo, el
factor B tiene 4 niveles, y las pruebas realizadas no indican entre qué niveles se dan
las diferencias.
Necesitamos, por tanto, servirnos de una prueba de comparación múltiple, y va
mos a utilizar la prueba t protegida, buscando «la menor de las diferencias significati
vas» para comparar con ella las medias de los distintos niveles de B.
Vamos a contrastar:
1) las medias de los 4 niveles (columnas) del factor B entre sí.
2) las medias del factor B en el nivel A2.
/) Contraste de las medias de las columnas:
Las medias de las columnas son:

X.., = 107, X..,= 7. X..,= 11.X..4 = 8,5
444
Debemos hallar el valor de «la menor de las diferencias significativas (LSD)». Para
ello, utilizaremos la fórmula (15), en donde MCE=5'78. m=10 y t005 ,,=2'037; luego
MCE- = 2'037J5'78— = 279

m V 10
Si restamos cada una de las parejas de medias después de ordenarlas de menor a
mayor, se obtiene:
X: X, X, X ,
sK 0 1"5
0
37*
2'2
4*
2'5*
0 0'3
'H*1^ 0
Resultan significativas las diferencias de las medias de Bl con B2, B2 con B3 y B3

con B4.
2) Contraste de las medias del factor B en el nivel A2 (interacción):
Las medias del factor B en el nivel A2 son:

X.2¡= 11'4. X.., = 6, X ,,= 12. A\4 = 6
Debemos hallar el valor de «la menor de las diferencias significativas (LSD)», Para
ello, utilizaremos la fórmula (15). donde MCE=5'78 y m=5. pero, al estar dividido el
factor B en 4 niveles, el nivel de significación será:
a/4=0.05/4=0'0125
Interpolando, llegamos al valor t0n¡,, ,2=2'66; luego
MCE— = 766J5'78- = 4'04
Si restamos cada una de las parejas de medias después de ordenarlas de menor a

mayor, se obtiene:
X-21 X '24 A".,, x.„

x.2. 0 0 5.4 6*
x .24 0 5,4* 6*
x.„ 0 0,6
x.2. 0
445
Resultan significativas, en el nivel A2. las diferencias de las medias de Bl con B2,
B 1 con B4. B2 con B3 y B3 con B4.
Como resumen final, podemos concluir:
A) Si se siembra la variedad de trigo B4, se debe utilizar el tipo de fertilizante Al .
ya que Al incide de modo positivamente significativo en la variedad B4.
B) Si se utiliza el fertilizante A2. es preferible sembrar las variedades Bl ó B3.
C) Si se actúa con independencia del fertilizante, con las variedades B 1 ó B3 se
obtiene una mejor producción.
1 3.5. Ejercicios propuestos
13.1. Las calificaciones obtenidas por cuatro estudiantes en Matemáticas, Física. Quí
mica y Dibujo han sido:
Matemáticas Física Química Dibujo
IM lidiante 1 6.2 7.3 6.8 5.8

Estudiante 2 8.5 9,0 8.2 9.6
Estudiante 3 6.0 6.4 73 8.0
Estudiante 4 8.6 7.5 9.1 6,7
Con un nivel de significación del 0'05, ¿se puede llegar a la conclusión de que las
cuatro asignaturas tienen el mismo grado de dificultad?
13.2. Con el fin reforzar el crecimiento de un cierto tipo de planta, un equipo de

biólogos utiliza cinco concentraciones diferentes de un determinado elemento. Se
seleccionan 30 plantas al azar, que se distribuyen en 5 grupos de 6 plantas cada uno.
Después de aplicar un tipo distinto de concentración a cada uno de los grupos, se
midieron las plantas, obteniéndose los siguientes resultados:
Grupo 1 Grupo 2 Grupo 3 Grupo 4 Grupo 5
1T4 10'3 129 8'6 107

117 107 íri 10'2 10'5
12'3 9'3 10'2 10'5 10'2
12'6 10'5 10'0 11'2 97
ll'l 107 10'9 10'3 11'6
12'3 10'8 11'6 9'5 11'3
1 ) ¿De qué tipo de análisis de la varianza se trata? 2) Contrastar la igualdad de las

medias. 3)¿Existe diferencia entre las medias del primero y del tercer grupo?
446
13.3. Para probar la eficacia de cuatro tratamientos distintos sobre tres tipos diferentes
de enfermedades, se confeccionaron aleatoriamente 4 grupos, a cada uno de los cua
les se asignaron al azar 9 pacientes con el mismo tipo de enfermedad.
Tres de los pacientes de cada grupo fueron tratados con una terapia distinta. Los
resultados de los distintos tratamientos se evaluaron de 0 (mínima efectividad) a 5
(efectividad máxima), según recoge el siguiente cuadro:
Enfermedad
Bl B2 B3 B4
0 2 2 3
Al 0 1 0 2
1 1 2 4
Tipo 2 1 3 0
de A2 1 0 4 1
Terapia 0 1 5 0
1 0 1 0
A3 4 0 1 2
4 0 2 0
Realizar la prueba de análisis de varianza adecuada, analizando su resultado.
13.4. Con el fin de evaluar los efectos de las distintas formas de administrar un nuevo
fármaco para regular la hipertensión arterial, se ha seleccionado al azar una muestra de
20 enfermos, a los que se les ha distribuido en cuatro grupos también aleatoriamente.
El primero de los grupos será tratado con una dosis que debe tomar una vez al día,
el segundo con la misma dosis administrada dos veces al día, el tercero tomará doble
dosis cada dos días y el cuarto tomará la dosis equivalente cada tres días.
Después de dos meses de tratamiento, se hizo un control de la tensión a todos los
enfermos, obteniéndose los siguientes resultados:
Grupo 1 Grupo 2 Grupo 3 Grupo 4

14'5 173 159 16'6
14'2 16'8 14.8 16'2
14'7 16'3 16'2 14'6
15'3 15'9 170 16'8
16-1 167 15'9 157
1 ) Realizar el contraste para ver que no hay diferencia significativa en las distintas
formas de administrar el tratamiento. 2) Si el contraste resulta significativo, aplicar
447
alguna de las pruebas pareadas para detectar dónde se dan unas diferencias significa
tivas.
13.5. Se han preparado tres tipos de piensos compuestos para alimento del ganado
vacuno, que se administra a vacas de tres razas distintas, anotando la ganancia media
en peso al cabo de un mes:
Tipo de pienso
ABC
Raza 1 21 20 15
Raza 2 20 26 21
Raza 3 18 28 15
1) ¿Se puede asegurar que la ganancia en peso es la misma para cada tipo de
pienso? 2) ¿Influye el tipo de pienso en la ganancia de peso en una determinada raza?
13.6. En un análisis sobre los efectos del tiempo que se dedica diariamente al estudio
de una determinada asignatura y el rendimiento, se seleccionaron al azar 30 estudian
tes, a los que se distribuyó en cinco grupos de modo que: los estudiantes del primer
grupo dedicaron una hora, los del segundo, una hora y media, los del tercero, tres, y
los otros dos grupos, cuatro y cinco horas de estudio, respectivamente.
Transcurridos tres meses, se les hizo una evaluación, que dio los siguientes resul
tados:
Grupo 1 Grupo 2 Grupo 3 Grupo 4 Grupo 5
4 3 6 9 9
5 5 7 10 10
3 6 5 s 9
3 4 7 8 8
5 4 9 9 9
4 5 8 9 9
1) Efectuar el tipo de análisis de varianza que corresponda. 2) Si el resultado es

significativo, aplicar las pruebas de Tukey. de Scheffé, de Duncan y la t protegida.
13.7. Se han aplicado 4 tratamientos de abonos diferentes a una misma variedad de

trigo, pero sembrada en tres parcelas de diferente tipo de suelo. Realizada la cosecha,
se obtuvo el resultado que muestra la tabla de contingencia que sigue:
448
Abono A Abono B Abono C Abono D

Parcela 1 12 9.5 14.5 8
Parcela 2 9,5 7,6 82 9
Parcela 3 6 8 7 7,5
Realizar un análisis de la varianza, analizando los resultados.
13.8. Una compañía de autobuses desea saber el efecto que produce en sus conduc
tores el número de horas de servicio continuado. Selecciona 24 conductores, a los que
distribuye en cuatro grupos. Somete a cada uno de los grupos a una prueba después de
haber realizado un servicio continuado de 4, 6, 8 y 10 horas de conducción. Los resulta
dos de la prueba sobre los efectos negativos de la conducción (reflejos, percepción
visual, somnolencia,...) están resumidos en los datos del siguiente cuadro:
Grupo 1 Grupo 2 Grupo 3 Grupo

5 7 9 14
6 6 8 12
4 6 X 14
4 8 4 15
5 7 10 16
4 8 9 16
Estudiar la incidencia del número seguido de horas de conducción en la falta de

reflejos.
13.9. Plantea el ANOVA correspondiente al ejercicio 13.8, si cada uno de los grupos se
divide en dos niveles atendiendo a la edad de los conductores, de forma que los tres
primeros resultados de cada uno de los grupos correspondiera a conductores con
edad inferior a 40 años, y los tres últimos a conductores de 40 años de edad en
adelante.
13.10. Un equipo de profesores, que ensaya cuatro métodos diferentes de enseñanza,

piensa que, en los resultados, tiene gran influencia el factor memorístico. Por este
motivo, selecciona 48 alumnos, a los que divide aleatoriamente en 4 grupos, a cada
uno de los cuales se les aplica un método diferente de enseñanza.
Para analizar el influjo del factor memorístico, se decide que la mitad de los alum
nos de cada uno de los grupos responda a las cuestiones de examen con libros o
apuntes, mientras que al resto no les está permitido. Los resultados que obtuvieron
los 48 alumnos quedan recogidos en la tabla siguiente.
449
Enfermedad
Bl B2 B3 m
37 27 30 44
31 24 33 44
Al 35 29 28 47
29 32 22 39
43 28 29 33
Tipo 39 33 35 31
de
examen 21 22 29 32
23 21 26 37
A2 25 19 22 40
20 25 31 37
27 26 23 32
24 22 26 27
Realizar la prueba de ANOVA adecuada, y analizar su resultado, estudiando los

efectos de las posibles interacciones.
CAPITULO 14
INFERENCIAS SOBRE REGRESIÓN LINEAL
Y CORRELACIÓN
14.1. Fases del modelo de regresión lineal
La recta de regresión y el coeficiente de correlación tienen sentido en tanto en

cuanto son un instrumento para inferir la relación de las variables en la población. De
ahí la necesidad de este nuevo capítulo en el que profundizamos algo más en el
análisis del modelo de regresión lineal.
El conocimiento exacto del coeficiente de correlación sólo es posible si analizamos
la totalidad de la población. Sin embargo, a la hora de evaluarlo, nos encontramos con
el problema habitual de tener que inferirlo desde la estimación que proporcionan los
datos de una muestra.
La recta de regresión lineal y=a+bx, que deducíamos en el capítulo 6. es también
una estimación de la recta de regresión de la población y=a+Bx. Los parámetros a y (3
son evaluados a partir de los datos de una muestra, y es fundamental tener unas
garantías de que los valores a y b estimados no difieren significativamente de los
parámetros poblacionales a y B.
El proceso que se sigue en la construcción del modelo de regresión se compone
de tres fases o etapas. En la primera fase, se comprueba si la relación entre las varia
bles que componen el modelo está de acuerdo con la propia forma del modelo.
La segunda fase consiste en la estimación de los parámetros de acuerdo con el
criterio elegido (en nuestro caso, el método de mínimos cuadrados).
Estas dos etapas han sido tratadas en el capítulo 6. Falta la última fase, fundamen
tal para el investigador, que debe comprobar si las inferencias o pronósticos que se
pueden hacer de la relación encontrada entre las variables se ajustan a los datos
empíricos.
La tercera fase lleva consigo la verificación del ajuste del modelo de forma que
tengan consistencia las inferencias que se saquen para la población.
452
14.2. El modelo de regresión lineal
El modelo de regresión lineal simple es un proceso experimental en el que intervie

nen dos variables: una variable dependiente Y, que no es controlada por el experimen
to, y que depende de otra variable independiente X, que sí es controlada por el
experimento, por lo que ésta no es una variable aleatoria.
Para estudiar la relación de dependencia entre estas variables, se dispone de una
muestra aleatoria de tamaño N, que vamos a representar por {(X,Y)}i=, , N
Cuando tomamos distintas muestras para un mismo valor de X, es de esperar que
varíen los correspondientes valores de Y; por ello, el valor y del par (x,y ) se puede
considerar como valor de una variable aleatoria Y que corresponde al valor fijado x.
Vamos a representar a esta variable aleatoria por Y , que tendrá una media M(Yx) y
una varianza V(Y ).
Por lo tanto, para x=x., tenemos una variable aleatoria a la que vamos a designar
por Y, que tendrá una media M(Y) y una varianza V(Y).
Admitir el modelo de regresión lineal supone aceptar que la media de la variable
aleatoria M(Y^) está relacionada linealmente con la variable x por medio de la ecuación
de la regresión de la población, es decir:
M(YJ=a + (k (1)
donde ayB son los parámetros de la población.

M(Yx) es la respuesta promedio; para simplificar la terminología, vamos a desig
narla por P
Los parámetros de la recta de regresión poblacional, a y B, son desconocidos, y
deben ser estimados mediante los valores de a y b en la recta de regresión muestral,
que se obtienen a partir de los datos de la muestra de acuerdo con las fórmulas
desarrolladas en el capítulo 6.
Una vez evaluadas a y b, una estimación de la respuesta promedio P es:
p=a+bx (2)
que es la recta de regresión muestral o linea de regresión ajustada; p es una estima

ción particular de la respuesta promedio P.
14.3. Elección del modelo de regresión lineal
Nuestro problema es encontrar una recta de ecuación y=a+By que nos de la mejor
estimación posible de la relación entre las variables X e Y.
453
Sea {(X,,Y1),(X2,Y2),...,(XN,YN)} una muestra aleatoria de tamaño N. Entonces, para

cada valor x. tenemos una variable aleatoria Y , según acabamos de ver. Si admitimos
que todas las medias M(Y.) caen sobre la línea recta, cada variable aleatoria Y puede
ser descrita por la expresión
y,=a+P X,+E, (3)
llamada modelo de regresión lineal simple, donde E es el error del modelo, que debe
tener necesariamente media cero.
Cada una de las observaciones particulares de la muestra debe verificar la ecua
ción (3):
v =a + (3 x¡+bi
donde 8 es el valor particular del error cuando Y=y .
P = tt + I3 x
Figura 14.1: Error del modelo (8¡) y error residual (eI).
Por otra parte, cada una de las observaciones particulares de la muestra verifica la
relación
y¡ = a + bx¡ + e¡
donde e es el valor del error en el ajuste de la recta de regresión muestral en el punto

i. Este error se conoce como residuo, y viene dado por la diferencia
e = y.-y.
Si se tiene en cuenta que e = y.-y. = y.-a-bxr la suma de los cuadrados de los
residuos viene dada por:
SCE = 'Z(y¡-a-bx¡i ,4,

454
Haciendo mínima esta expresión, en el capítulo 6, encontramos las fórmulas para

obtener las estimaciones a y b:
Nlx,y,-{lx,tLy,
b (5)
Nlx;-(lx.f
5>,-b?.x, (6)
a-
N
14.4. Estimadores de los parámetros de regresión
Los valores a y b que proporcionan las fórmulas (5) y (6) son sólo estimaciones
particulares de los parámetros poblacionales a y B.
Ahora bien, si pudiéramos repetir el experimento, para los mismos valores de x, en
cada repetición se obtendrían distintas estimaciones de a y B. Estas estimaciones
pueden ser tomadas como posibles valores que tomarían dos variables aleatorias A y
B, que son los estimadores de a y B.
De acuerdo con el modelo de regresión planteado, los valores de x permanecen
fijos, variando únicamente los valores de y, lo que implica que los estimadores A y B
dependen sólo de los valores que tomen las variables aleatorias Y., que a su vez
dependen del modelo elegido
Y,=a + B X, + E,
Pues bien, si se admite que, para cada experiencia particular, las variables aleatorias
E. son independientes y, además de tener media cero, tienen la misma varianza a2, las
variables aleatorias Y. serán también independientes con media a+Bxi y varianzas
iguales a a2.
Para poder hacer un contraste de hipótesis sobre los parámetros poblacionales a
y B, es necesario admitir además la hipótesis de normalidad de las E., i=l,2 N.
Bajo estas hipótesis, se demuestran fácilmente las dos siguientes propiedades:
Nlx.Y.-jlxXlY.) tiene una distribución normal de media

I. El estimador b .
Nl.xf-{lxif
CT
|is=B y varianza o"„
2b
II. El estimador A = — - tiene una distribución normal de media u a -a y
N
Sxf
varianza a; = cr.
.VSU - x)
455
Acabamos de ver que A y B son dos estimadores insesgados de a y B, respecti

vamente. Ahora bien, para hacer inferencias acerca de a y B, hemos de conocer la
varianza a2 del error del modelo, parámetro que aparece en el cálculo de las varianzas
de A y B.
El parámetro o2 es habitualmente desconocido, por lo que tendrá que ser estimado
a partir de los momentos muestrales.
En lugar de utilizar promedios en las variaciones, vamos a utilizar las sumas de los
cuadrados de las desviaciones sin promediar, con el fin de preparar una descomposi
ción de la variación de los valores que toma la variable aleatoria Y en dos componen
tes, que nos servirán para utilizar las técnicas del análisis de la varianza.
Tendremos, de este modo, los totales de las desviaciones de las x así como los de
las y con respecto a su media, y los totales de la covarianza:
ti= su -*)'= ixf. í%£ (7)

N
r; = I(v-y)2=Iv , (M. (8)

A'
III. Entre la suma de los cuadrados de los residuos, se da la relación:
SCE = T;-bT„ (10)
Demostración: SCE = ¿¿(y,.- a - b x,)
Sumando y restando y = a + bx . queda:

SCE = X(.v, - y + a + bx - a -bx,)' = L[(v - y)-b(x¡ - x)f =
= Z[( y, - y )2 - 2b( x, - x)( y, - y) + b2( x, - x f] =
= I/.v, - y f^bY/xi-xHy, - y) + b2ljx, -xf =
= 7';-2fc7„ + b2Tl
Ahora bien. teniendo en cuenta que
1
N .* x\
s] 1 „2 " T\
NTx
456
T T~
resulta: SCE = 7"; - 2-^T„ +^7; = T; - bT„, cqd.
Con las mismas hipótesis que las propiedades I y II, se verifica:

B- B
IV. El estadístico T = ¡= se distribuye según una t de Student con n-2 grados
de libertad.
14.4.1. Comprobación de hipótesis
El proceso que se sigue, en la comprobación de hipótesis, es doble. De una parte,

hay que comprobar las hipótesis del modelo, y, de otra, se debe comprobar la estima
ción de los parámetros.
Las hipótesis exigidas al modelo son:
1) «Los errores son mutuamente independientes», lo que se puede formular como:
Cov(E,,E,)=0, i* j.
2) «La esperanza matemática de los errores es cero»
E(X,) = 0, i = 1,2 N.
3) «La varianza de los errores es constante»:
Var(X,)=a, i = 1,2,...N.
4) «Cada variable aleatoria E sigue una distribución normal».
La comprobación de estas hipótesis de independencia, homogeneidad y normali

dad se pueden realizar mediante las pruebas de la yj que analizamos en el capítulo 12.
Para la normalidad, puede utilizarse la prueba de residuales.
14.4.2. Contraste sobre el coeficiente de regresión mediante análisis de la varianza
Utilizamos la recta de regresión para predecir el valor de la variable dependiente, y

nos interesa frecuentemente obtener una medida de la precisión de tal predicción.
La varianza de la variable aleatoria Y. proporciona una medida de dicha precisión,
ya que cuantifica la variación total de la variable dependiente.
La variación que proporciona la varianza de la variable dependiente Y se puede
descomponer en dos partes, y utilizar así las técnicas del análisis de la varianza.
457
La relación ( 10) se puede poner en la forma

Tl = bT„+SCE
que, a su vez, si se desarrollan las expresiones que definen a T \ bT y SCE, se llega
a la relación
di)
Yíy-y?=2í$¡-y?+Eí:y, -y, )'
El primer miembro de esta igualdad es la variación total de la variable dependiente
Y, que se puede descomponer en dos sumandos: el primero recoge la variación de los
valores de Y debida a la elección del modelo, o lo que es igual, a la recta de regresión
que se ha postulado; el segundo recoge la variación alrededor de la recta de regresión
muestral.
El último de los sumandos del segundo miembro es la suma de los errores o suma
de cuadrados residuales, que hemos representado por SCE (suma de cuadrados de los
errores):
SCE=Jjy,-y,f
Designaremos a la suma de los cuadrados del primer sumando del segundo miem
bro por SCR (suma de cuadrados debida a la regresión):
SCR=Jjy,-y,)?
y a la suma de cuadrados del primer miembro le designaremos por SCT (suma de
cuadrados totales):
La expresión ( 1 1 ) se puede poner, por consiguiente, en la forma
SCT = SCR + SCE (12)
que permite calcular SCE en función de SCT y SCR.

Estamos ya en condiciones de efectuar el contraste de la hipótesis nula H{l = [} =0
con la hipótesis alternativa H = fj *0.
La hipótesis nula consiste en aceptar que el modelo de regresión viene dado por
P=a. lo que supone una recta de regresión horizontal, y, por tanto, que Y es indepen
diente de los valores de x.
Bajo la hipótesis nula, se verifican:
I. ±>CR y S£R son dos estimadores independientes, que siguen una X con 1 y
cr <r
n-2 grados de libertad, respectivamente.
458
SCR/1
II. El estimador F = sigue una distribución F de Fisher-Snedecor con
SCE/(n-2)
1 y n-2 grados de libertad.
Designaremos por MCR (media cuadrática de la regresión) al cociente de dividir la
suma de cuadrados debida a la regresión (SCR) por su número de grados de libertad ( 1 ):
SCR
MCR =
I
El cociente de dividir la suma de cuadrados residuales (SCE) por su número de
grados de libertad (n-2) es la media cuadrática residual, que designaremos por MCE:
SCE
MCE.
n-2
El estimador para el contraste es:
MCR
(13)
MCE
El contraste se realiza calculando una estimación de F. Entonces, fijado el nivel de
significación a, si el valor de la estimación dada por F es mayor que el valor crítico
F^ , que proporciona la tabla de la F de Fisher-Snedecor, se rechaza la hipótesis
nula, y, si es menor, se acepta.
Los cálculos se suelen disponer en una tabla de varianza que recoge las fuentes
de variación, las sumas de cuadrados, los grados de libertad y las medias cuadráticas:
Fuente de Suma de Grados de Cuadrados Contraste

Variación Cuadrados libertad medios
Regresión SCR 1 MCR
F=MCR/MCE
Error SCE n-2 MCE
Total SCT n-1
Ejemplo 14.1
En un laboratorio de análisis químicos, se han obtenido los siguientes valores de

la capacidad calorífica de la plata metálica:
T("K) 15 30 50 70 90 110 130 150 170 190 210 230 270 290 300
Cp(J/mol) 0.7 4.7 11,6 16,3 19.1 20.9 22,1 22,9 23,7 24,1 21,4 24,2 25,3 25,4 25,5
Se trata de efectuar un contraste de hipótesis para ver si se puede aceptar la

459
existencia de una relación lineal entre la capacidad calorífica de la plata y la tempera

tura.
Solución: Tenemos que hacer el contraste de la hipótesis nula Ha = P =0 con la
hipótesis alternativa H, = (3 * 0 .
Siguiendo la técnica del análisis de la varianza, debemos calcular las sumas de
cuadrados, sus grados de libertad y los cuadrados medios.
A) Sumas de cuadrados:
^ , ( !y,)" 287, 92
SCT = lyj - — = 6358,87 = 833, 1 1
N 15
WXX,y,-(IjO(S.v,) 15x52713,5-2305x287,9
b= '—;—V^ = ^— = 0,069
Nlx;-(I.x,)~ 15x477125-2305-
(Ix,)(lv) 2305x287,9
T„ = Ix,y,- = 52713,5- — = 8472,87
N 15
SCR = bT„ = 0,069x8472,87 = 584,63
SCE = SCT - SCR = 833, 1 1 - 584, 63 = 248,48

B) Cuadrados medios:
SCR
MCR = —— =584,63
SCE 248,48
MCE = = = 19,11
n-2 13
C) Estimador:
MCR 584,63
F= = — = 30,59
MCE 19,11
Si elegimos un nivel de significación a=0'05, el valor crítico es F , =4'67.
Como F=30'59>4'67, el contraste resulta significativo, luego rechazamos la hipóte
sis nula y admitimos, por lo tanto, la existencia de una relación lineal entre la tempera
tura y la capacidad calorífica de la plata, de acuerdo con los datos de la muestra.
Los datos se recogen en la siguiente tabla resumen:
460

Regresión 584.63 1 584,63
F=30.59
Error 248,48 13 19,11
Total 833.1 1 14
14.4.3. Inferencias mediante la t de Studeni
En el apartado 14.4. 1 ., hemos utilizado las técnicas del análisis de la varianza para
contrastar la hipótesis nula H„ ■ P =0 con la hipótesis alternativa H¡ = P *0. Este
contraste se podía haber realizado también haciendo uso de las propiedades del esta
dístico B. cuando se admite que~
en el modelo Y iir
=a+BX +E , los errores E i están distri-
buidos normalmente.
Ahora vamos a servirnos del estimador T .
B-P
¡/yfti
Como T sigue una distribución t de Student con n-2 grados de libertad, bajo la
hipótesis nula H„ ■ p = 0, se evalúa el valor que toma
b
T=
TJr!
para la estimación de B proporcionada por la muestra.
Elegido un nivel de significación a, para una prueba bilateral, si T<-t„/, o TVt^, se
rechaza la hipótesis nula. En otro caso, se acepta.
El estadístico T permite también la construcción de un intervalo de confianza para
B. que vendrá dado por
^,,^<P<fl + ,„,-^
y, para una muestra particular, se tendrá el intervalo
s s
/ =
Ejemplo 14.2
Con los datos del ejemplo 14.1, se trata de: i) contrastar la hipótesis nula H„ u p =0
con la hipótesis alternativa H = P * 0 utilizando el estimador T; ii) hallar un intervalo
de confianza para B.
461
Solución:
i) Contraste: Hemos evaluado antes b=0'069. Necesitamos calcular:
, v , (Ix.)' 23052
T\ = Lx- - = 477125 = 1229233
N 15
r-r , , SCE 25171
luego jT\ = J122923'3 = 350'6 y s2 = = => s = 4'4
n-2 13
„ , 0V69
Por lo tanto t= = 5'49
4'4/350'6
Si elegimos un nivel de significación a=0'05, para una prueba bilateral, la tabla de

la t de Student nos da un valor crítico t . , =2' 16.
Como t=5'49>2' 16, se rechaza la hipótesis nula.
Este resultado coincide con el que habíamos obtenido en el apartado anterior. En
realidad, estamos utilizando el mismo procedimiento.
En efecto, si elevamos al cuadrado el estadístico t, resulta:
b' b2T\ bT„ SCR SCR
sT/Tl s' s' s' SCE /(n-2)
que es el estadístico utilizado para el análisis de la varianza.
ii) Intervalo de confianza para B:
Tenemos calculados los datos necesarios: b=0'069, s=4'4, -Jt] = 350'6 y t^=2'16.
El intervalo particular del 95% de confianza será:
( 4'4 4'4 \
I = 0'069 . 2'16 ,0'069 + 2' 16 + = (0'04,0'09)
{ 350'6 350'6 I
14.4.4. Inferencias acerca de a
Si aceptamos la hipótesis de normalidad de la distribución de errores, podemos

utilizar la distribución del estadístico
A-a
que sigue una t de Student con n-2 grados de libertad, para realizar el contraste de la
hipótesis nula H„ = a =0 con la hipótesis alternativa H, = a * 0 . Este estadístico
también permite construir un intervalo de confianza para a, que vendría dado por:
462
a-t„/2—i==-<a <a + ta/2-
Ejemplo 14.3
Con los datos del Ejemplo 14.1: i) contrastar la hipótesis nula Ha=a = 0 con la
hipótesis alternativa Hl = a * 0. ii) hallar, para a, un intervalo de confianza del 95%.
Solución: Además de los datos que ya hemos evaluado, necesitamos
Xy,-¿iX*- 288' 8-0' 069x2305

= 8' 65
N 15
a-0 8' 65-0
Entonces / = —iys = , = = 3' 93
.XI 477125
4'4J
NT. V 15x122923'3
Como t=3'93>2' 16, rechazamos la hipótesis nula,

ii) Intervalo de confianza del 95%:
' 4'4^477125 4'4J477125

/ = 8'65 - 2'16 , ,8'65 + 276 , . (3'32,13'48)
415x122923^3 Jl5xl229233
14.5. Intervalos para la respuesta media y para una sola respuesta
La recta de regresión muestral se utiliza para hacer predicciones, que pueden ser
de dos tipos. Fijado un valor concreto xo de la variable independiente X, podemos:
a) hallar o predecir la respuesta media Po;
b) predecir un valor particular y0 de Y0 cuando x=x0.
14.5.1. Intervalo para la respuesta media
Para construir un intervalo de confianza para la respuesta media Pn=a+Bx0, se

puede utilizar el estimador
Y=A + Bxn
que sigue una distribución normal de media Pi =a+Bxo y varianza
j- (x0-xY
oi=<r
N T2
463
Entonces, si aproximamos a2 por

s2, el estimador
Y -P ,
T-
I (x0-x) v-
10
sigue una t de Student con n-2 gra

dos de libertad. 100 20C
Este estimador nos permite cons

truir un intervalo de confianza del Figura 14.2: Intervalo para la respuesta media.
(l-a)100% para la respuesta media Pn,
que vendrá dado por:
/ , (x0-xf 1 M0-xY
siendo t- el valor crítico de la t de Student con n-2 grados de libertad para un nivel
de significación a y una prueba bilateral.
Ejemplo 14.4
Con los datos del ejemplo 14. 1 . queremos determinar un intervalo de confianza del
95% para la respuesta media Po correspondiente a un valor de la temperatura x, = 100°K.
Solución: Por los cálculos realizados antes, sabemos que b=0'069 y a=8'65, luego
la ecuación de la recta de regresión muestral es
y=8'65+0'069x
Entonces, para xQ=100, se obtiene y =8'65+0?069- 100= 15'55
Disponemos de los datos:
s=4'4, TsM22923'3, \lP , =2' 16 y = = — X* = 153'66.
N
Luego un intervalo de confianza del 95% para PQ es:
, 1 100 - 1537 ' 1 (100 - 1537 y

/ = 15'6-2'16-4'4-l— + - ,15'6 + 2'16-4'4,— + -
15 122923'3 \ 15 122923'3
= (13,18'4)
Si repetimos los cálculos para cada uno de los distintos valores que le podemos
asignar a xo, se irán obteniendo los correspondientes límites de los intervalos de
confianza para cada respuesta media Po.
464
De este modo, se obtienen, para la recta de regresión estimada, los límites de

confianza superior e inferior de la respuesta media P0, según puede apreciarse en la
figura 14.2.
14.5.2. Intervalo de predicción para una respuesta
El intervalo de predicción de una respuesta es el intervalo correspondiente a un

solo valor y0 de la variable Yo, que difiere del intervalo de confianza para la respuesta
media.
El intervalo de predicción de una respuesta se obtiene a partir del estimador y0-Yg,
que nos permite estimar la varianza de las diferencias que hay entre las ordenadas yg
que nos da la recta de regresión y las ordenadas reales y0.
El estimador y0-Yg sigue una distribución normal de media cero y varianza
/ (x0-x)
=cr
N T2
Si se toma s2 como estimación de a2, el estimador y0-Yg que se obtiene, se distri
buye aproximadamente según una t de Student con n-2 grados de libertad.
El intervalo de predicción para una sola respuesta yo es, por lo tanto:
a , /, 1 ,(x„-x)T „ ¡ ] (x,-xf
/=
El intervalo de predicción de (l-a)100% de confianza se debe interpretar como un

intervalo con una probabilidad 1-a de contener, no un parámetro de la población
como es Pn, sino un valor futuro de la variable Y¡i.
Ejemplo 14.5
Con los datos del ejemplo 14.1, determinemos un intervalo de predicción del 95%
de confianza para yo cuando xn=100.
Solución: Tenemos ya los datos necesarios calculados:
s=4'4, n=15, t.,2=2' 16, T¿=122923'3,x=153'66ey0=15'55.
El intervalo será:
r
1 (100-1537 y 1 (100-1537 f
5'6-2'16-4'4,l + — + - ,15'6 + 2'16-4'4,1 + — +-
1 15 122923'3 V 15 122923'3
= (5'63,25'47)
465
Podemos observar cómo este intervalo es más amplio que el intervalo para la
respuesta media, como era de esperar, ya que el error de predicción es mayor cuando
se predice un solo valor que cuando se predice una media de valores.
14.6. Contraste sobre la linealidad del modelo de regresión
En la selección del modelo de regresión lineal, hemos supuesto que no hay térmi
nos de grado superior al primero, por lo que, en la suma de los cuadrados de los
errores, sólo influyen las fluctuaciones propias debidas al error de muestreo.
Sin embargo, cuando es admisible realizar repeticiones del experimento y observar
las distintas respuestas a un mismo valor de la variable independiente X, la suma de
cuadrados de los errores se puede descomponer en dos sumandos, uno de los cuales
contiene la variación de Y en función de los valores asignados a X, es decir, la
variación debida únicamente al azar, el segundo sumando contiene la variación
debida a los términos de orden superior al primero, por lo que se conoce como varia
ción debida a la falta de ajuste.
Supongamos, por tanto, que se pueden realizar distintas observaciones para un
mismo valor x de la variable X. En concreto, vamos a suponer que disponemos de una
muestra aleatoria de tamaño N. en la que se dan k valores distintos de x, de modo que
«para cada valor x de x se han realizado n observaciones de la variable Y .
Para cada uno de los k valores x de la variable X, tenemos n observaciones
i i
yn,y,:,...,yu de Y., de modo que
N = 2>,
Si designamos por
i- i
es decir, la suma de los n valores que toma la variable Y, correspondiente a x=x , la

media que corresponde a las observaciones de Y para x=x será:
y¡ = — (14)
Para conseguir la descomposición de la suma de los cuadrados de los errores, se

calculan las cuasivarianzas correspondientes a cada uno de los valores de x:
fli ~ ' i=l

(15)
466
Una combinación lineal de éstos viene dada por
(16)
cuyo numerador es una medida de la variación debida únicamente al azar, ó suma de

cuadrados debida al error puro, que denotaremos por SCEP.
Esta suma de cuadrados se evalúa fácilmente si se desarrolla:
SCEP = I(«, - /) s? = X(,., - /) — £(y - y. f =

í=i í=i n¡ ~ l i=í
k n, k nl
i.i i.i ¡,i i.i
k n¡ k n, k n,
k n¡ k Rr
R
La última igualdad surge de hacer la sustitución y¡ = — teniendo en cuenta que
¡=1
Finalmente queda:
k n, k R;
(17)
A la suma de cuadrados del error puro le corresponden n-k grados de libertad.

Si restamos la suma de cuadrados debida al error puro (SCEP) de la suma de
cuadrados debida al error (SCE), se obtiene la suma de cuadrados debida a la falta
de ajuste (SCA):
SCA = SCE -SCEP (18)
A la suma de cuadrados debida a la falta de ajuste le corresponden, por tanto,

n-2-(n-k)=k-2 grados de libertad.
Para llevar a cabo el contraste de falta de ajuste, se evalúan, en primer lugar, los
cuadrados medios:
467
SCE-SCEP (19)
MCA
k-2
es la media cuadrática debida a la falta de ajuste.
SCEP (20)
MCEP-
n-k
es la media cuadrática debida al error puro.
Entonces el contraste se lleva a cabo por medio del estimador:
MCA (21)
MCEP
Si la estimación que da F es superior al valor crítico que proporciona la tabla de la

F de Fisher-Snedecor para un nivel de significación a con k-2 y n-k grados de libertad,
es decir
si F>fa. ,k-2., n.k,
se rechaza la hipótesis nula. y, por tanto, el modelo de regresión lineal.
Los datos se recogen en una tabla de análisis de la varianza, en la que se suele
incluir el contraste de B=0.

Regresión SCR 1 MCR
Error SCE N-2 MCE F=MCR/MCE
Falta Ajuste SCA k-2 MCA
Error puro SCEP N-k MCEP F=MCA/MCEP
Total SCT N-l
Ejemplo 14.6
Para una serie de disoluciones acuosas de etanol, se han determinado los volúme
nes específicos(Y) para las fracciones(X) de masa de etanol. controlando éstas a tres
niveles, cuyos resultados figuran a continuación. Se trata de:
1 ) Ajustar una recta de regresión de Y sobre X.
2) Realizar un contraste para la falta de ajuste.
468
Prueba Fracción de masa de etanol Vol. específico/cnv1 g"1

1 02 roo9
2 0'2 ron
3 07 roi8
4 0'3 ro30
5 07 1'025
6 0'3 T023
7 0'4 ro6o
8 0'4 T053
9 0'4 ro70
10 0'5 1'076
11 0'5 row
12 0'5 T099
13 0'6 noi
14 0'6 ri3o
15 0'6 ri25
16 07 1'180
17 07 ri53
18 07 1'171
19 0'8 1701
20 0'8 1195
21 0'8 ri83
22 0'9 1'194
23 0'9 1710
24 0.9 1728
Solución: 1 ) Recta de regresión muestral:
Tenemos: N=24, k=8 y n =n,=...=n8=3
Las medias de ambas variables son: x = 0'55 y y= l'l 1
X«,í, =75'2.X«,-«-: =«'52. ZX.v„ =2&64ly X£.v,; = 29693145

k-l ,=l i=l l=l
Por tanto T\ = 1'26, T\ = 0'12052 y T„ = 0'38375
Los coeficientes de regresión son:

.
b = —t = 0'30456 y a = JzlJ=i—¡r-^ = 0'94253

469
Luego la recta de regresión muestral es:

y=0'9425+0'3045x
2) Contraste sobre falta de ajuste:

Se trata de contrastar Hi= «la regresión es lineal» con la hipótesis alternativa H =
«la regresión no es lineal».
Calculamos, en primer lugar, las sumas de cuadrados:
SCT = Ti = 0'12052, SCR = bT„ = 0'l 1687, SCE = Ti - bT„ = 0W365

Para calcular la suma de cuadrados del error puro, necesitamos los R:
Para x,=0'2, es R=3'044 y R,2=9'26593
Para x,=0'3. es R =3'078 y R,2=9'47408
Para x =0'4, es R =3' 183 y R,2=10' 13 148
Para x 4=0'5, es R 4=3'265 yJ R,2=10'66028
4
Para x,=0'6, es Rs=3'356 y R^l 1 '26273

Para x =0'7, es R =3'504 y R 2=1 1 '27801
Para x7=0'8, es R7=3'579 y R72=12'80924
Para x8=0'9, es R8=3'637 y R82=13' 19142
con lo cual, es:
SCEP = X £ yl - Z ' = 29'693145 - 29'691055 = 0'002089
La suma de cuadrados debida a la falta de ajuste es. por tanto:

SCA=SCE-SCEP=0'00365-0'00209=0'00 1 56
Las medias cuadráticas son
MCR=0' 11687/1=0' 11687
MCE=0'004/22='00181
MCA=0'00 1 56/6=0'00026
MCEP=0'00209/1 6=0'000 1 3
La estimación para el contraste de la falta de ajuste es
F,=2.
Al ser los grados de libertad debidos a la falta de ajuste k-2=8-2=6 y los grados de
libertad del error puro N-k=24-8=16, para el nivel de significación a=0'05, el valor
crítico de F es
470
La siguiente tabla de ANOVA recoge todos los datos:

Regresión 0' 11687 1 0' 11687
Error 0'004 22 0'00181
Falta Ajuste 0'00156 6 0'00026

F=2
Error puro 0'00209 16 0'000B
Total 0' 12052 23
Como la estimación de F es 2<2'74, se acepta la hipótesis nula.

La conclusión a que hemos llegado, a partir de los datos, es que no hay necesidad
de considerar términos de grado superior al primero, sino que se debe aceptar la
linealidad del modelo. Podemos observar cómo la variación debida a la falta de ajuste
es muy pequeña.
Dejamos para el lector el estudio del contraste de B.
14.7. Estimación del coeficiente de correlación de Pearson
Cuando se plantea un problema de relación entre dos variables de una población,

es importante conocer su coeficiente de correlación.
Si el coeficiente de correlación poblacional es cero, no habrá una relación de
dependencia lineal entre ambas variables. En cambio, si dicho coeficiente es 1 ó -1, se
dará una relación lineal perfecta entre las mismas.
Sin embargo, según hemos repetido en varias ocasiones, el coeficiente de correla
ción de la población no suele ser conocido, ya que ello exigiría examinar todos los
datos. Debemos contentarnos con estimar el coeficiente de correlación poblacional a
partir de los datos de una muestra.
Sabemos que el estadístico
que aprendimos a calcular en el capítulo 6, es un estimador del coeficiente de correla

ción de la población, y conocemos también los siguientes resultados, en que nos
apoyaremos para sacar inferencias:
1 ) El estadístico r se distribuye según una normal
471
N
4n~i
2) El estadístico t = "' se distribuye según una t de Student con (n-2) gl.
14.7.1. Contraste basado en la t de Student
Habitualmente, el interés del investigador se centra en averiguar si la correlación

proporcionada por la muestra es significativa o sólo se debe a fluctuaciones del
muestreo debidas al azar.
Se trata de hacer el contraste de la hipótesis nula H„ = p = 0 con la hipótesis
alternativa //, = p *0.
Utilizaremos el estadístico / que se distribuye según una t de Student con

-ir?
n-2 grados de libertad.
Consideremos el siguiente ejemplo:
Ejemplo 14.7
Un empresario realiza un estudio comparativo de los gastos que ha venido reali

zando en publicidad en las distintas cadenas de televisión y de las ventas de sus
productos durante diez semanas, obteniendo los siguientes resultados (expresados
en miles de pesetas):
Publicidad Ventas
25 450
30 500
20 430
25 480
35 520
40 550
45 600
30 460
25 460
40 500
Al empresario le interesa averiguar si existe alguna relación de tipo lineal entre las
472
inversiones en publicidad y el incremento de ingresos por ventas a partir de lo que ha

sucedido durante las diez semanas, y, en el caso de que exista esa relación, desearía
conocer cuál es el grado de intensidad de la misma.
Para ello, partiendo de los resultados que acabamos de enunciar, podemos utilizar
el estadístico
para contrastar la hipótesis nula

H„=p=0
con la hipótesis alternativa
H,= p*0
Con los datos de la muestra, se obtiene una estimación del coeficiente de correla
ción
m„ 342'5
0V1
s,s> ~776-48'6
Este resultado señala una fuerte correlación lineal en el caso de la muestra. A
partir de él, hay que averiguar si se puede concluir lo mismo para toda la población, es
decir, si la inversión en publicidad en televisión lleva consigo un incremento en las
ventas de los productos anunciados.
Para el valor de r=0'91. el estadístico t toma el valor particular
rj^2 2'574
14'97
4U? 0'172
Las tablas de la t de Student. para una prueba bilateral, con 8 gl y un nivel de

significación a=0'05. proporciona un valor crítico
Ws=2'306
Como t=14'97>2'306. se rechaza la hipótesis nula, aceptando que hay razones para
pensar que el coeficiente de correlación lineal de la población es distinto de cero, o lo
que es igual, que existe correlación entre la inversión en publicidad y las ventas de los
productos anunciados.
Hemos utilizado el hecho de que el estadístico t sigue una distribución t de Student.
Sin embargo, para realizar el contraste del coeficiente de correlación lineal, no
necesitamos hacer uso del estadístico, ya que existen unas tablas de correlación
debidas a Pearson (A. 10 en el apéndice A). Para N-2 gl y un nivel de significación a,
proporcionan el valor crítico, con el que se debe comparar el valor r obtenido a partir
de la muestra. Si el valor absoluto de r es mayor que el valor crítico, se rechaza la
hipótesis nula; en otro caso, se acepta.
473
Volviendo al ejemplo 14.7, si tomamos un nivel de significación a=0'05. la tabla

A. 10. para una prueba bilateral y N-2=8 gl. proporciona un valor crítico r=0'632.
Como el valor de la estimación del coeficiente de correlación es r=0'91>0'632, se
rechaza la hipótesis nula, aceptando que efectivamente se da en la población una
correlación lineal entre la cantidad que se invierte en publicidad y la recaudación por
ventas, que coincide con el resultado que hemos obtenido antes.
14.7.1.1. Potencia del contraste
Para determinar la potencia del contraste, debemos establecer una hipótesis alter
nativa específica.
Consideremos como hipótesis nula H„ = p =0 y como hipótesis alternativa
H,=p=pr
Como índice de discrepancia, sirve el propio valor específico del coeficiente de
correlación, p,. Si tomamos como función del tamaño de la muestra
f(n) = yÍfTl
el factor de equilibrio será:
5 =Vf(n)= p,y[Ñl
Supongamos que, en el ejemplo 14.7, contrastamos el valor específico concreto

para la hipótesis alternativa
Entonces, el valor del factor de equilibrio es

8 = 0'7S'j8 = 272
Al valor 8=2'12. para una prueba bilateral y un nivel de significación a=0'05,

corresponde, en la tabla A.7. un valor de la potencia de 0'57.
La potencia obtenida supone que es 0'57 la probabilidad de rechazar la hipótesis
nula, o lo que es igual, la probabilidad de cometer error de tipo II es 0'43.
Un valor de la potencia de 0'57 para contrastar el coeficiente de correlación lineal,
es considerado suficientemente grande en la mayoría de los campos de la investiga
ción. Si se desea aumentar la potencia, habrá que modificar alguna de las variables,
como puede ser el tamaño de la muestra.
474
14.7.1.2. Determinación del tamaño de la muestra
Si estamos interesados en determinar el tamaño muestral más adecuado para con

trastar la hipótesis nula con la alternativa
H,= p,=0'80
con el fin de conseguir una potencia de 0'70, en una prueba bilateral con un nivel de
significación a=0'05. teniendo en cuenta que
5 = p,JÑ^H
resulta
/ 5 8-
Pl Pi
La tabla A. 7, para a=0'05 y una potencia de 0'70, nos proporciona el valor 8=2'5.
Entonces
2'52
N = -—;+I = lI
0'8-
Luego se necesita una muestra de tamaño 1 1 para conseguir una probabilidad 0'70
de rechazar la hipótesis nula, si el valor de p, es 0'8 (ó -0'8, puesto que el contraste
es bilateral).
14.7.2. Coeficientes de determinación y de no alineación
El coeficiente de correlación lineal p nos proporciona una medida de la relación

lineal entre dos variables X e Y, que se estima a partir del coeficiente de correlación
muestral r.
Cuando r toma valores entre - 1 y 0 ó entre 0 y 1 , por ejemplo 0'4 y 0'8, no se puede
interpretar este valor diciendo que 0'8 señala una correlación dos veces mayor que
0'4; sólo se puede afirmar que, en ambos casos, hay correlación positiva, siendo algo
mayor en el segundo.
En cambio, el cuadrado del coeficiente de correlación muestral, r, que recibe el
nombre de coeficiente de determinación muestral. sí representa la proporción de la
variación debida a la regresión de Y en x.
En efecto:
,- s'„ s'„ 1 SCR
S',s'v í"¡ íi «i
Esta expresión nos muestra cómo el coeficiente de determinación muestral repre

senta la proporción de la variación total de los valores de Y que se pueden explicar
por una relación lineal con los valores de X.
475
Por lo tanto, si r=0'8, es r=0'64, y podemos afirmar que el 64% de la variación total de
los valores de Y en la muestra se debe a una relación lineal entre los valores de X e Y.
También es útil su complemento, 1-r, llamado varianza residual o coeficiente de
no alineación, que representa la proporción de la variación de Y que no es explicada
por la relación lineal con los valores de X.
14.7.3. Contraste del coeficiente de correlación basado en el análisis de la varianza
Realizar el contraste de la hipótesis nula Ho = p, = p, con la hipótesis alternativa

//, = p, * p2 es equivalente a realizar el contraste de la hipótesis Ho m p =0 con la
alternativa //, = (3 * 0 .
Podemos utilizar, por lo tanto, los métodos empleados para estudiar la linealidad
del modelo.
Además, si tenemos en cuenta la relación:
SCR/I r2sl/l r
SCE/(n-2) (l-r)s;/(n-2) (l-r)/(n-2)
llegamos al contraste
(22)
(l-r)/(n-2)
que coincide con el que encontramos para el coeficiente de regresión, aunque ahora
aparece como cociente del coeficiente de determinación (dividido por 1 gl) entre la
varianza de los residuos (dividida por n-2 gl).
Se utiliza, por tanto, para contrastar la variación debida al modelo postulado con la
variación debida al error.
Ejemplo 14.8
La siguiente tabla recoge las puntuaciones (X) obtenidas por 12 alumnos en un

test de inteligencia y sus calificaciones medias (Y) de final de curso.
Test (X) 7 9 4 7 4 6 9 5 2 3 4 6
C. final (Y) 4 4 3 6 2 8 6 7 3 6 5 6
Veamos si se puede aceptar la hipótesis de que no hay una relación lineal entre las
dos variables.
Solución: Se trata de contrastar la hipótesis nula H. = p=p, con la hipótesis

alternativa Ho = p, * p2.
476
Siguiendo la técnica del análisis de la varianza, debemos calcular las sumas de cuadra
dos, sus grados de libertad y los cuadrados medios.
A) Sumas de cuadrados:
SCT = S y, - -—— =356- — = 35'66

' N 12
Nlx,yr(lx,){ly) 12x361-66x62
b= ; --,— = — = (Y36
Nlx:-{Ix,y 12x418-66-
(Ix,)(lv) 66x62
T„ = lx,yr- - = 361—^ = 20
N 12
SCR = bT„=0'36x20 = 72
SCE = SCT - SCR = 35'66 - 77 = 28'46
B) Cuadrados medios:
SCR
MCR = = 7'2
SCE 2'846
MCE = —- = —— = 2'846
n-2 10
C) Estimador:
MCR 72
F= : 2'529
MCE 2'846
Si elegimos un nivel de significación a=0'05, el valor crítico es FooS i M =4'96.
Como F=2'529<4'96, se acepta la hipótesis nula, y, por tanto, que el coeficiente de
correlación es cero, lo que supone que no existe una relación lineal entre las puntua
ciones del test de inteligencia y las calificaciones finales.
Los datos se recogen en la siguiente tabla resumen:

Regresión 72 1 72
F=2'529
Error 28'46 10 2'846
Total 35'66 12
477
14.8. Contraste de la diferencia de coeficientes de correlación
Hay situaciones en que el investigador tiene la necesidad de contrastar la signifi

cación de la diferencia entre dos valores del coeficiente de correlación obtenidos a
partir de dos muestras independientes.
La hipótesis nula consiste en establecer que no hay diferencia alguna entre los
parámetros de las poblaciones:
y la hipótesis alternativa será:

H,= p,* p.
El contraste se lleva a cabo utilizando la transformación Z de Fisher, que es un
estadístico obtenido a partir de r mediante una transformación, cuyos valores apare
cen tabulados en la tabla A.1 1 del apéndice A.
El error típico del estadístico Z de Fisher es estimado por
/
Ejemplo 14.9
Supongamos que hemos extraído muestras independientes para estudiar la rela

ción entre dos variables X e Y. La primera muestra, de tamaño 100, nos proporciona un
coeficiente de correlación ^=0'8. y la segunda, de tamaño 130. da un coeficiente de
correlación r,=0'7. ¿Se puede concluir que hay una diferencia significativa entre los
dos coeficientes?
Solución: Para contrastar la hipótesis nula //„ = p, = p , de que «no hay diferencia
alguna entre los dos parámetros poblacionales», tenemos que transformar cada coefi
ciente en el correspondiente estadístico Z de Fisher.
La tabla A. 1 1 nos proporciona:
parar^S. Z=1'099
parar,=0'7. Z,=0'867
El error típico de la diferencia Z,-Z, viene dado por
SzrZi = \S/' + S/:
1
ComO Sy = r——
resulta:
rr—í H T
\lh-3 ti2-.
478
Entonces, el estadístico que se utiliza para el contraste es:

Z,-Z¡
z=
1 . - 1
+
\n.i-3 n:-3
En el ejemplo que nos ocupa, se obtiene:
1'099- 0'867 0'232
\97 + 127
Por ser Z=1'72 menor que 1 '96, que es el valor crítico de la normal para un nivel de
significación a=0'05 y una prueba bilateral, la conclusión es que la diferencia no es
significativa.
14.1. Se pretende averiguar la relación existente entre la riqueza de lenguaje de los

jóvenes y los ingresos económicos (en miles de ptas.) de sus padres. En una muestra
seleccionada al azar de 13 jóvenes, se obtuvieron los siguientes resultados:
Palabras X 36 18 15 13 26 26 28 13 31 13 38 18 40
Ingresos Y 190 155 190 160 180 165 175 170 185 140 205 155 215
1 ) Ajustar la recta de regresión muestral. 2) Realizar un contraste sobre la linealidad

del modelo.
14.2. Se han medido las alturas (X) de 15 padres y las alturas (Y) de sus primogénitos.
La siguiente tabla recoge los resultados (expresados en centímetros):
Altura padre X 182 172 177 165 160 170 162 165 187 175 167 162 185 182 167 162
Altura hijo Y 177 167 172 167 170 177 167 172 182 170 177 160 182 177 167 167
1 ) Ajustar la recta de regresión de Y sobre X. 2) Hallar el coeficiente de correla

ción. 3) Realizar un contraste para ver si es posible aceptar la existencia de una
relación lineal entre las alturas de padres e hijos.
14.3. Con los datos del ejercicio 14.2., hallar: 1) un intervalo de confianza para el
coeficiente de regresión; 2) un intervalo de confianza para el término independiente
479
(a) de la recta de regresión; 3) los límites del intervalo de predicción de una respuesta
para las alturas de los hijos cuyos padres midan 162 cm.
14.4. El gabinete psicopedagógico de un centro escolar estudia la relación entre las

calificaciones medias(Y) de los alumnos del centro y su grado de ansiedad(X). Una
muestra de alumnos del centro elegida al azar ha proporcionado los siguientes datos:
Grado de ansiedad 37 30 26 23 18 16 10 10 12 14 22 19 28 27 16 22 18
Calificación media 5 6765997865 8 3 6566
1 ) Ajustar la recta de regresión muestral de Y sobre X. 2) Estimar la calificación

que se puede esperar en un alumno con 17 puntos de ansiedad. 3) Determinar un
intervalo de confianza del 95% para la respuesta media a una puntuación 17 en
ansiedad.
14.5. Con los datos del ejercicio 14.2., contrastar la hipótesis de que el coeficiente de
correlación de la población es 0'7.
14.6. Se calculó el coeficiente de correlación de las calificaciones en Latín y Griego de

un grupo de 30 alumnos, resultando ser 0'40. ¿Se puede llegar a la conclusión de que
el coeficiente de correlación poblacional es distinto de cero al nivel de significación
del 0'05? (Utilizar el contraste de la t).
14.7 Dos muestras de tamaños n,=25 y n,=32 han dado como coeficientes de correla
ción r^0'6 y r,=0'45. ¿Se puede decir que hay una diferencia significativa entre los
dos coeficientes de correlación al nivel del 1%?
14.8 Una muestra de tamaño 24 ha dado como coeficiente de correlación un valor de

0'3. ¿Es posible deducir que el coeficiente de correlación de la población es cero al
nivel del 5%? (Utilizar la tabla de valores críticos de Pearson).
14.9. Determinar el tamaño mínimo que debe tener una muestra para poder afirmar que
un coeficiente de correlación de 0'4 difiere de cero significativamente para un nivel de
0'05 y una potencia de 0'75?
14.10. Una sustancia química, al ser sometida mediante un proceso industrial a dife
rentes temperaturas, dio las siguientes cantidades:
Temperatura IX) l'O TI 1'2 1'3 1'4 1'5 1'6 17 1'8 1'9 2'0 2'1 2'2 2'3
Cantidad (Y) 103 9'0 107 ll'O 117 11'1 10'8 12'4 1T5 11'4 127 12'9 13'4 127
480
1) Determinar la ecuación de la recta de regresión de Y sobre X. 2) Hallar la

cantidad promedio que se producirá cuando la temperatura sea de 1 '75. 3) Median
te el análisis de la varianza, realizar el contraste H„ = P =0 frente a la hipótesis
alternativa H m p *0.
14.1 1. Para los datos del ejercicio 14.10., dibujar la línea de regresión y las bandas de
confianza del 95% para la respuesta media.
14.12. En un laboratorio de Química, se llevó a cabo un experimento consistente en

medir las cantidades de una sustancia compuesta que se disuelven en 100 cm' de
agua a diferentes temperaturas, obteniéndose los siguientes resultados:
Temperatura (X) Cantidad (Y)

10 13 14 12 14
20 26 24 27 23
30 35 33 33 37
40 40 46 45 45
50 49 51 48 52
60 57 57 59 61
70 67 59 66 68
1) Determinar la recta de regresión. 2) Estimar la cantidad que se disolverá en

100 cm' de agua a 45°C.
3) Determinar un intervalo de confianza del 95% para la respuesta media a una
temperatura de 45°C. 4) Determinar el intervalo de predicción del 95% para la
cantidad que se disolverá a una temperatura de 45°C.
14.13. Estudios sobre la posible relación entre la riqueza de léxico de los jóvenes y los
ingresos familiares han proporcionado para una muestra de 120, un coeficiente de
correlación de 0'45, y, para otra muestra de 230, un coeficiente de correlación de 0'3 1 .
1) ¿Se puede concluir que hay una diferencia significativa entre los dos coeficien
tes de correlación? 2) ¿Puede admitirse como cierto el valor que proporciona la
primera muestra?
14.14. Con los datos del ejercicio 14.12. hacer un contraste sobre la linealidad del
modelo.
14.15. El coeficiente de correlación de una muestra de tamaño 25 es r=0'8. Con un

nivel de significación del 5%, ¿se puede rechazar la hipótesis de que el coeficiente de
correlación de la población sea 0'55?
481
14.16. Para los datos del ejercicio 14.10.. determinar un intervalo de confianza del 957c
para la cantidad correspondiente a una temperatura de 1 '75.
14.17. Controlando la densidad de corriente de un cátodo y modificándola en tres

niveles, se midió la presión electrolítica del hidrógeno, obteniéndose los siguientes
resultados:
Densidad (mA/cnr) Presión (atm)
0'5 85'6
0'5 77'5
0'5 9T8
ro 140'4
ro 118'3
ro 155'9
1'5 209"8
T5 156'9
1'5 2017
2'0 251'4
2'0 272'6
2'0 199'5
2'5 357'8
2'5 405.8
2'5 366'2
1) Determinar la ecuación de la recta de regresión de Y sobre X. 2) Realizar un

contraste sobre la falta de ajuste.
CAPITULO 15
CONTRASTES NO PARAMÉTRICOS Y
DE DISTRIBUCIÓN LIBRE
15. 1 . Consideraciones previas
Los contrastes paramétricos tratan de estimar algún parámetro de la población, y

su fundamento radica en la suposición de que la muestra que se utiliza para la estima
ción, procede de una población normal.
Existen otros métodos estadísticos alternativos que. bien porque no requieren una
tal estimación del parámetro, bien porque no suponen la normalidad de la población,
reciben el nombre de métodos no paramétricos o de distribución libre.
Aunque se puede precisar la diferencia entre métodos no paramétricos y métodos
de distribución libre, sin embargo no se suelen hacer distinciones entre uno y otro.
En realidad, la mayor parte de las pruebas no paramétricas son de distribución
libre y, recíprocamente, la mayoría de las pruebas de distribución libre son pruebas no
paramétricas.
Hemos realizado ya alguna prueba de distribución libre en aplicaciones de la dis
tribución X2 para resolver problemas de bondad de ajuste, independencia y homoge
neidad.
Los métodos no paramétricos se utilizan fundamentalmente cuando los datos se
dan en una escala ordinal o por rangos, que es una forma muy habitual de facilitar los
resultados en algunas investigaciones científicas y técnicas.
15.2. Ventajas e inconvenientes de las pruebas no paramétricas
El uso de los métodos no paramétricos tiene ciertas ventajas y también sus incon
venientes, que conviene tener presentes, principalmente en aquellas situaciones en
que son aplicables ambos.
484
Recordemos que, cuando las muestras son grandes, los métodos paramétricos se
pueden aplicar aún en el caso en que la población no sea normal, dando resultados
fiables.
Analicemos algunas de las ventajas e inconvenientes que se aprecian en los mé
todos no paramétricos:
1) No se exige la normalidad de la distribución de la población de donde se extrae
la muestra.
2) Las pruebas no paramétricas son más simples y fáciles de aplicar. Los estimadores
que se utilizan requieren un nivel menos amplio de conocimientos matemáticos, y
sólo son necesarios cálculos muy sencillos como ordenar, contar o sumar.
3) Cuando el tamaño de la muestra no es muy grande, los cálculos en las pruebas
no paramétricas son más rápidos.
4) Los contrastes no paramétricos son aplicables a una clase más amplia de pobla
ciones, pues requieren menos precisión en las hipótesis.
5) La dificultad más importante que presentan los métodos no paramétricos es que
no aprovechan toda la información que proporciona la muestra, por lo que una
prueba no paramétrica resulta menos eficiente que la correspondiente prueba
paramétrica.
6) Cuando los dos métodos son aplicables, la prueba paramétrica resulta más
potente que la correspondiente prueba no paramétrica. Una prueba no paramétrica
requiere un tamaño muestral mayor que una prueba paramétrica.
Con relación a este último aspecto, se introduce el concepto de eficiencia de la
potencia de la prueba no paramétrica (Ep) como la razón entre el tamaño muestral de
la prueba paramétrica (Np) y el tamaño muestral de la prueba libre (N, ), expresado en
porcentaje, es decir:
Er = 100— (1)
Supongamos que, para realizar un contraste sobre diferencia de medias, podemos

aplicar una prueba de distribución libre además de la prueba paramétrica.
Si, para un nivel de significación a y una potencia 1-B predeterminados, la prueba
paramétrica requiere un tamaño muestral de Np=125 y la prueba no paramétrica un
tamaño muestral de NL = 150, la eficiencia de la potencia de la prueba no paramétrica es
125
EP = 100jJq=83%
Cuando se cumple la condición de normalidad, la eficiencia de las pruebas no

paramétricas es inferior al 100%.
Como consecuencia de estos razonamientos, podemos hacer el siguiente resumen:
A) Cuando sea aplicable a un mismo número de datos tanto una prueba paramétrica
como una no paramétrica, se debe utilizar la prueba paramétrica.
485
B) Si se cree que la población no es normal, se debe emplear la prueba no

paramétrica.
C) Cuando se necesite una aproximación rápida o no haya necesidad de tener en
cuenta la potencia de la prueba, se puede elegir una prueba no paramétrica.
15.3. Pruebas basadas en rangos
Las pruebas basadas en rangos se utilizan cuando los datos reflejan la posición
relativa de los individuos de la población, dando su número de orden con respecto a
dos variables, sin dar los valores que toman éstas.
El problema que se plantea es el de estudiar las diferencias de localización entre
las poblaciones a partir, no del conocimiento de los valores que toman las variables,
sino del orden en que están dados sus valores.
En los contrastes paramétricos, cuando hablábamos de localización, nos refería
mos al valor de la media de forma que, al afirmar que «las puntuaciones de una
distribución eran mayores que las de otra», se entendía que la media de la primera era
mayor que la media de la segunda.
En cambio, cuando los datos vienen dados por rangos, decir que «las puntuacio
nes de una distribución son mayores que las de otra», significa que, si vamos obte
niendo, uno a uno, datos de ambas poblaciones, más de la mitad de las veces, el valor
del dato que se obtiene en la primera será mayor que el correspondiente de la segun
da.
En el estudio de las pruebas basadas en rangos, vamos a distinguir dos posibles
situaciones, según sean las muestras independientes o no.
Para muestras independientes, estudiaremos la prueba de la suma de rangos en el
caso de dos muestras, y la prueba H de Kruskal-Wallis, que se emplea para comparar
la localización de más de dos muestras. Para muestras dependientes, veremos la prue
ba de Wilcoxon.
15.3.1. Prueba de la suma de rangos
La prueba de la suma de rangos es aplicable a muestras extraídas independiente

mente, que pueden ser de diferente tamaño, pero siempre que éste sea mayor o igual
de 6 en una muestra y mayor o igual de 8 en la otra.
Si los tamaños de las muestras son más pequeños, se utiliza la prueba U de Mann-
Whitney, que requiere un método distinto y unas tablas de gran precisión.
La prueba de la suma de rangos es sencilla de aplicar. Al trabajar con números
naturales, se cumplirán las siguientes propiedades que simplifican las operaciones:
I. La suma de los N primeros números naturales (suma de rangos de 1 a N) es
486
* N(N + 1)
X*. = 2 (2)
Esta fórmula es muy conocida; se trata de la suma de los N primeros términos de
una progresión aritmética: 1+2+3+...+N.
Se llama ordinal medio (R) de N observaciones a la media del conjunto de los N
primeros números naturales.
II. El ordinal medio de N observaciones es
- N+l
Enefecto: ^ = ^r = ^- = K±l
Esta última propiedad nos dice que, si hay 18 observaciones, el ordinal medio es
19/2=9'5.
III. Si extraemos Ni datos de un conjunto de N, la suma de ordinales esperada (TE)
eS: - N,(N+1)
TE=N,R = 2 (4)
De este modo, si tenemos N=18 ordinales y elegimos 3 aleatoriamente, la suma de

ordinales esperada es
T, = 3-9'5 = 28'5
Si se tienen N ordinales, y se eligen, de entre ellos, N, al azar, se obtiene la suma
T de los N, ordinales.
Si se eligen otros N, ordinales, se obtendrá otro valor para la suma T,... Luego,
para cada muestra, la suma T de ordinales es un estadístico, para el que se cumple la
siguiente propiedad:
IV. La suma T de ordinales es un estadístico que se distribuye según una normal
de media u=TH y de desviación típica
¡N,N2(N-I)
G'=V—ir~ (5)
siendo N =N-N .
Este último resultado nos permite utilizar el estadístico T, cuya distribución es
normal, para realizar el contraste de hipótesis.
Si nos dan dos muestras independientes, el contraste va a consistir en comparar la
suma de los ordinales de una de ellas (T^ con la suma total esperada (TF).
La estrategia que sigue este contraste consiste en:
1) Seleccionar dos muestras independientes de tamaños N y N .
487
2) Reagrupar las N=N|+N, observaciones en orden ascendente, asignando a cada

observación un rango de 1 a N.
3) Elegir uno cualquiera de los dos grupos, por ejemplo el primero, y establecer la
hipótesis nula
(la suma de los ordinales del grupo elegido es igual a la suma de ordinales espera
da para dicho grupo).
, T,-TE
4) Estimar el valor del estadístico Z =
o,
Fijado un nivel de significación a y un tipo de prueba (bilateral o unilateral), si el
valor que se obtiene para Z cae fuera de la región crítica, se rechaza la hipótesis nula,
y, por tanto, se admite que la suma de los ordinales del primer grupo es distinta de la
suma de los ordinales esperada por azar, lo que nos lleva a la conclusión de que hay
una diferencia significativa en la localización de ambas poblaciones.
Si la estimación de Z fuera positiva y el contraste significativo, llegaríamos a la
conclusión de que los rangos de la primera población serían superiores a los rangos
de la segunda, lo que significa que la mediana de la primera población es superior a la
mediana de la segunda. Aquí, por tanto, la mediana juega un papel importante como
medida de la localización.
Ejemplo 15.1
La siguiente tabla contiene las puntuaciones obtenidas por 25 estudiantes en un

test, las cuales se han acomodado al azar en dos grupos, de 11 y 14 puntuaciones,
respectivamente:
Grupo 1 51 76 54 55 80 60 71 76 57 74 60 63 82 52
Grupo 2 63 54 85 98 % 77 78 66 97 91 91
Vamos a realizar un contraste para averiguar si las dos muestras proceden de la

misma población.
Solución:
Si observamos los datos de ambas muestras, cabe pensar que las poblaciones no
son normales. De ahí que nos planteemos un contraste no paramétrico como la prueba
de la suma de rangos.
Para realizarlo, ordenamos las N=N +N =14+1 1=25 observaciones por rangos, asig
nando a la puntuación más baja el rango 1, y el rango 25 a la más alta. Si aparecen
observaciones repetidas, se reemplazan éstas por su rango medio.
488
Después de ordenar por rangos, tenemos el siguiente cuadro, en el que los rangos
14'5, 3'5, 7'5 y 9'5 no vienen expresados por números naturales, ya que corresponden
a observaciones repetidas, que han sido reemplazadas por su rango medio:
Grupo 1 Grupo 2
X R Y R
51 1 63 95
76 145 54 35
54 35 85 20
55 5 98 15
80 18 96 23
60 75 77 16
71 12 78 17
76 145 66 11
57 6 97 24
74 13 91 215
60 75 91 215
63 95
82 19
52 2
Haciendo operaciones, resulta:

N.=14. T,=133. N =11. T=192. N= 14+ 11=25,
T+T =133+192=325. que coincide con N(N+1 )/2=325.
Vamos a realizar el contraste utilizando la suma de rangos del primer grupo, T=l 33.
La suma de ordinales esperada para el primer grupo es:
N,(N + 1) 14 26
Tf = 2 = ~~2- = l82
y la desviación típica de la suma de ordinales del primer grupo (que coincide siempre
con la del segundo) es:
¡14 II 24
= .J308 = 17'55
La estimación del estadístico utilizado para el contraste es:
T, - T, 133 - 182
Z =
o 17'55 = -2'79
489
Para un nivel de significación a=0'05 y una prueba bilateral, el valor crítico de la

normal tipificada es z^l '96.
Como el valor estimado de Z es -2'79 < -1 '96, se rechaza la hipótesis nula, conclu
yendo que las dos muestras proceden de poblaciones distintas.
El contraste se podría haber llevado a cabo utilizando la suma de ordinales del otro
grupo, Tr El resultado habría sido el mismo, puesto que ahora
T2=192yTE=(llx26)/2=143
192 - 143
con lo cual z= ]7'55 = 2'79
es decir, se obtiene el valor opuesto al que teníamos antes, lo que conduce a la misma
solución. La diferencia está en que ahora hemos utilizado el grupo de puntuación más
alta.
Eficiencia de la prueba
Cuando las poblaciones son normales, la prueba paramétrica correspondiente a la

que acabamos de realizar, es la prueba t de Student para diferencia de medias, ya que
se trata de pequeñas muestras.
Si las muestras son pequeñas, la eficiencia de la potencia de la suma de ordinales
es de un 92%, lo que significa que, con un 92% de los datos, se llegaría al mismo
resultado en un contraste paramétrico, si las poblaciones se distribuyen normalmente.
Intensidad de la relación
Realizado el contraste, el hecho de que resulte significativo nos dice que hay una
diferencia entre las localizaciones de las dos poblaciones. Sin embargo, nada sabemos
acerca de la intensidad de la relación entre las localizaciones.
Es interesante obtener una medida de dicha intensidad. El coeficiente rf., que
proporciona una medida de la relación entre la variable dicotómica (pertenecer o no al
grupo) y la variable continua, que ha sido ordenada de 1 a N, se define como
2(R,-R.)
(7)
siendo R i la media de los rangos del grupo 1 , R , la media de los rangos del grupo 2,
y N el número de observaciones.
Con los datos del ejemplo 15.1, se obtiene:
2(9'5-17'45)
rl- 25 -°'63
490
15.3.2. Prueba de Kruskal-Wallis
La prueba de Kruskal-Wallis. también conocida como prueba H de Kruskal-Wallis,

se utiliza para comparar la localización de más de dos muestras independientes.
Su fundamento es el mismo del análisis de la varianza unidireccional para contras
tes paramétricos, con la ventaja de que. al trabajar con números enteros, los cálculos
van a resultar más sencillos.
La prueba de suma de rangos, que hemos analizado en el apartado anterior, es el
caso particular de la prueba de Kruskal-Wallis cuando sólo hay dos grupos.
Esta prueba es utilizada con frecuencia, ya que son muchas las ocasiones en que
el investigador no quiere molestarse en hacer una prueba previa de normalidad.
Se pretende contrastar la diferencia de localización de k poblaciones por medio de
k muestras independientes de tamaños respectivos N, i=l,2,....k.
El proceso que se sigue es análogo al de la suma de rangos, y consiste en:
1 ) Acomodar, en primer lugar, las observaciones de todas las muestras en orden
ascendente, sustituyéndolas por el rango correspondiente ( 1 para la observación más
baja y N para la más alta, siendo N=N,+N,+...+Nk).
Cuando aparecen observaciones repetidas, se les asigna a todas ellas su rango
medio.
Vamos a designar por T a la suma de los rangos correspondientes a las N obser
vaciones de la muestra i.
2) Calcular las sumas de los cuadrados intragrupo (SCA) de los rangos. La fórmu
la que conocemos del capítulo 13. se simplifica en el caso de rangos, quedando:
T. T. Tl N(N + ,y
SCA = — + — +...+ — - ,X.
N, N? Nk 4
Se utiliza, para el contraste, el estadístico H de Kruskal-Wallis:
12SCA
La hipótesis nula va a ser:
Hn=«las k poblaciones tienen la misma localización»
Entonces, bajo la hipótesis nula, el estadístico H se distribuye aproximadamente

como una x2 con k-1 grados de libertad.
Fijado un nivel de significación a y elegido el tipo de prueba, si el valor estimado
de H es mayor que el valor crítico x\lV., proporcionado por la tabla A.5 del apéndice,
se rechaza la hipótesis nula, y, en el caso contrario, se acepta.
Para utilizar la prueba de Kruskal-Wallis, habrá que tener en cuenta si el tamaño de
alguno de los grupos es muy pequeño.
491
Como norma, si el número de grupos es 3, cada grupo deberá tener al menos 5

observaciones. Cuando haya más de 3 grupos, se puede aplicar la prueba con 2 ó más
observaciones por grupo.
En cuanto a la eficiencia de la potencia, cuando se pueden utilizar los dos tipos de
pruebas, la eficiencia de la prueba H de Kruskal-Wallis con respecto a su análoga F
del análisis de la varianza unidireccional, es del 95% para muestras grandes y del 90%
para pequeñas muestras.
Ejemplo 15.2
Para probar tres proyectos de motor, una industria del automóvil midió la potencia
media desarrollada por cada uno de ellos a partir de tres muestras, cuyos datos están
recogidos en la siguiente tabla:
Grupo 1 Grupo 2 Grupo 3

34'2 28'9 29'2
29'6 28'2 28'3
33'8 33'2 276
33' 1 279 276
30'5 30'9 33'5
28'4 29'5 30' 1
29'2 28'6
28'8
26'4
276
Se trata de aplicar la prueba de Kruskal-Wallis para ver si se puede considerar que

los tres motores desarrollan la misma potencia.
Solución: La hipótesis nula es

H = «las tres medias son iguales»
Para a=0'05, como k=3, el valor crítico será X 2m5 , = 5'991
Para determinar el valor de la estimación de H, en primer lugar, convertimos las 23
observaciones en ordinales, asignando el rango 1 al valor más pequeño, 26'4, y el
rango 23 al mayor valor, 34' 2, según se recoge en la siguiente tabla:
492
Grupo 1 Grupo 2 Grupo 3

X R \ R X R
342 23 28.9 11 292 12.5
29,6 15 282 6 283 7
33,8 22 332 20 27,6 3
33,1 19 27,9 5 27,6 3
305 18 30.9 17 335 21
28,4 8 29.5 14 30,1 16
292 125 28,6 9
28.8 10
26.4 1
27.6 3
Tenemos, por lo tanto:

N,=6. T=105. N=7, T,=85'5. N=10. T=85'5
23.24
Comprobamos que T=Ti+T2 + T¡ = =276
La suma de cuadrados intragrupo es:
1052 85'52 85'52 23 -242
SCA = + —— +... + = 3612'84-3312 = 300'85
6 7 10 4
Entonces
12.300'85
H= = 6'54
23.24
Como la estimación de H. 6'54, es mayor que el valor crítico. 5'991. se rechaza la
hipótesis nula, y, consecuentemente, que las poblaciones tengan la misma localización.
Cuando la prueba de Kruskal-Wallis resulta significativa, como acaba de suceder,
debemos realizar pruebas adicionales, tal como hacíamos en la prueba F del análisis de
la varianza, para determinar qué poblaciones son las que difieren entre sí.
Vamos a realizar la prueba de suma de rangos para cada pareja de grupos. Esta
prueba es una prueba protegida del tipo de la prueba LSD de Fisher.
En la práctica, cuando comparemos dos grupos, por ejemplo, el 1 y el 2, prescindi
remos del grupo 3. Por tanto, habrá que reasignar de nuevo los rangos, ahora del 1 al
13, en los dos primeros grupos:
493
Grupo 1 Grupo 2
X R X R
34'2 13 28'9 4
29'6 7 28'2 2
33'8 12 33'2 11
33' 1 10 279 1
30'5 9 30'9 8
28'4 3 29'5 6
29"2 5
Tenemos entonces los siguientes datos:

N,=6, T=54, N,=7, T2=37, T,+T2=54+37=91=(13xl4)/2=61
Para el grupo 1, la suma de rangos esperada es TE=(6xl4)/2=42 y la desviación
típica:
¡6-712
. 6'48
Por lo tanto
Ti-Te 54-42
1'85
Ot ' 6'48
Como Z=1'85 es menor que el valor crítico z =1'96, concluimos que entre los
grupos 1 y 2 no hay diferencia significativa.
Si comparamos los grupos 1 y 3, reagrupando los datos, resulta:
Grupo 1 Grupo 3
X R X R
34'2 16 29'2 9
29'6 10 28'3 5
33'8 15 27'6 3
33' 1 13 27'6 3
30'5 12 33'5 14
28'4 6 30'1 11
28'6 7
28'8 8
26'4 1
27'6 3
494
Tenemos ahora los siguientes resultados:

N,=6, T=72. N=10. T=64. T,+T =72+64= 136=(16xl7)/2
Para el grupo 1, la suma de rangos esperada es TE=(6xl7)/2=51 y la desviación
típica:
¡6 10 .75
o, = J — = 8'66
Por lo tanto
Como Z=2'42 es mayor que el valor crítico z¡U= 1 '96. concluimos que resulta signi
ficativa la diferencia entre los grupos 1 y 3.
Dejamos para el lector la comparación de los grupos 2 y 3.
La prueba paramétrica que corresponde a la prueba de Kruskal-Wallis. es la prueba

F del análisis de la varianza unidireccional.
Cuando las muestras son pequeñas, la eficiencia de la prueba H con respecto a la
F es del 90%, llegando a ser del 95% para el caso de muestras grandes.
La medida de la intensidad de la relación entre el hecho de formar parte de uno de

los k grupos y la ordenación de la variable se evalúa mediante el coeficiente
H-k + I
ÜÑT (10)
donde k es el número de grupos y N el número total de observaciones.
En el ejemplo 15.2, la medida de la intensidad de la relación viene dada por
6'54-3+l
15.3.3. Prueba de Wilcoxon para dos muestras dependientes
Cuando comparamos la diferencia de medias de dos muestras dependientes, pro

cedíamos evaluando las diferencias D entre los valores correspondientes, X-Y. de las
495
observaciones, y se contrastaba la hipótesis nula de que «la media de la suma de las

diferencias era cero».
La prueba de Wilcoxon se aplica también cuando las dos muestras son dependien
tes, habiendo, por tanto, una cierta relación entre cada par de observaciones.
El proceso consiste en:
1 ) Establecer, como hipótesis nula, que las dos muestras tienen la misma localiza-
ción.
2) Hallar las diferencias entre cada pareja de observaciones.
3) Eliminar las diferencias que den valor cero, y ordenar de 1 en adelante los
valores absolutos de las diferencias que no se hayan anulado.
4) Construir dos grupos, uno con los rangos de las diferencias que resultaron
positivas, y, otro con los rangos de las que resultaron negativas.
Si las dos poblaciones tuvieran la misma localización, lo que establece la hipótesis
nula, un razonamiento sencillo nos llevaría a la conclusión de que el número de dife
rencias con signo positivo debería ser igual al número de diferencias con signo nega
tivo. Por tanto, bajo la hipótesis nula, la suma esperada de ordinales correspondientes
a las diferencias positivas debe ser igual a la suma esperada de los ordinales corres
pondientes a diferencias negativas.
Ahora bien, como la suma de ordinales esperada es
N(N+1)
con lo que la mitad de la suma será

N(N + 1)
U,= ' (11)
4
Entonces, el procedimiento de Wilcoxon consiste en comparar la suma de los
rangos correspondientes a las diferencias positivas (T,) con UE. También se llega al
mismo resultado si se compara con UH la suma de los rangos que corresponden a las
diferencias negativas.
El fundamento de la prueba está en el hecho de que tanto el estimador T, como T„
cuando la hipótesis nula es cierta, se distribuyen según una normal de media UE y
desviación típica
(2N + 1)UE
í (12)
El último paso consiste en:

5) Hallar una estimación de
z.T-^
496
Fijado un nivel de significación a y un tipo de prueba, se determina el valor crítico

en la tabla A.3 de la normal tipificada.
Si el valor de la estimación de Z cae fuera de la región crítica, se rechaza la
hipótesis nula, y, en caso contrario, se acepta.
Ejemplo 15.3
La siguiente tabla contiene las puntuaciones obtenidas por 12 personas antes y

después de ser sometidas a unas prácticas de adaptabilidad para determinado trabajo:
2a prueba 53 54 40 30 53 60 38
36 59 39 42 40
Ia prueba 47 53 42 26 60 54 38 39 58 36 42 38
Se trata de realizar un contraste para estudiar la influencia de las prácticas de

adaptabilidad.
Solución: Las dos muestras son dependientes, puesto que se trata de las mismas
personas, a quienes se les califica dos veces, luego parece adecuada la prueba de
Wilcoxon.
Para facilitar los cálculos, situamos, en un cuadro, las diferencias en valor absolu
to, la ordenación de éstas por rangos, y los dos subgrupos correspondientes a las
diferencias positivas y negativas con sus rangos.
x2 x, D R|DI R+ R
53 47 6 8.5 8,5
54 53 1 1 1
40 42 -2 3 3
30 26 4 7 7
53 60 -7 10 10
60 54 6 8,5 8.5
36 38 -2 3 3
38 38 0
59 56 3 5.5 5.5
39 36 3 5.5 5.5
42 42 0
40 38 2 3 3
Tenemos los siguientes resultados:
N=7, T=39, N=3, T=16, T,+T=39+16=55=(10x11)/2

497
La mitad de la suma de los ordinales esperada es

t/E=(10xll)/4=27,5
y la desviación típica:
¡(2 10—1)-UE
+
9'81
<H 66
Luego la estimación de Z es
39 -27'5
z= 9'81
=l'n
Si elegimos un nivel de significación a=0'05 y un tipo de prueba bilateral, el valor
crítico es z a/2 =1'96.
Al ser Z=1'17<1'96, el contraste no es significativo, por lo que llegamos a la
conclusión de que las prácticas de adaptabilidad no ejercen una influencia significati
va en los resultados.
Se llegaría al mismo resultado, si se hubiera elegido T,.
La prueba paramétrica que corresponde a la prueba de Wilcoxon es la prueba t

para observaciones apareadas.
Cuando las muestras son pequeñas, la eficiencia de la prueba H con respecto a la
t es del 90%, llegando a ser del 95% para el caso de muestras grandes.
La medida de la intensidad de la relación entre el signo y el ordinal correspondien

te la proporciona el coeficiente
4(T,-T2)
Puesto que la prueba de Wilcoxon no ha resultado significativa, carece de sentido

calcular este coeficiente en el ejemplo 15.3.
15.4. Otras pruebas
Al pasar de una prueba paramétrica a una prueba no paramétrica basada en ran

gos, hemos observado cómo hay una pérdida de información, que lleva consigo una
pérdida de potencia.
498
Por ejemplo, si nos dan las observaciones ...,27,86,87,..., cuando las sustituimos
por sus rangos ...,5,6,7,..., se pierde la información de que la primera observación es
mucho menor que las otras dos y de la proximidad entre éstas.
A pesar de todo, la pérdida de potencia de las pruebas basadas en rangos es
pequeña; varía de un 5% para muestras grandes a un 10% para muestras pequeñas.
Hay otro tipo de pruebas no paramétricas que, aún siendo de uso muy común,
soportan una mayor pérdida de información, teniendo una eficiencia del 70% ó 75%.
Vamos a analizar tres de dichas pruebas, dos para muestras independientes, como
son la prueba de la mediana y la prueba de rachas de Wald-Wolfowit, y estudiare
mos la prueba de los signos para muestras dependientes.
15.4.1. Prueba de la mediana
La prueba de la mediana se utiliza para comparar la diferencia de localización de k

poblaciones a partir de k muestras independientes, una de cada población, que pue
den ser de diferentes tamaños.
En la prueba de la mediana, se establece la hipótesis nula
H¡=«todas las poblaciones tienen la misma mediana»
Se dispone de s muestras independientes, de tamaños respectivos N,,N,,...,N,
siendo s>2 y N +N +...+N =N.
La prueba se basa en el hecho de que, si dos o más muestras proceden de la
misma población, en cada una de ellas la mitad de los valores deben estar por debajo
de la mediana y la otra mitad por encima.
El proceso que se sigue consiste en:
1) Calcular la mediana combinada de la gran muestra de tamaño N, a la que se
denomina gran mediana, y que designaremos por GM.
2) Contabilizar las observaciones que caen por encima de la gran mediana y aque
llas otras que son menores o iguales que GM.
3) Con las frecuencias obtenidas en 2), se construye la tabla de contingencia 2 x s,
y se efectúa una prueba de independencia por medio de la X¿ del mismo modo que
se procedió en el capítulo 12.
Si la prueba de la Xj es significativa, se concluye que las k poblaciones no siguen
la misma distribución.
Ejemplo 15.4
Se ha pasado un test de aptitudes a jóvenes procedentes de tres sectores A, B y

C de la población, diferenciados socialmente, obteniéndose las siguientes puntuacio
nes:
499
A 87 68 77 68 75 69 80 69 82 73 97 93 68 93 76 76 98 7 1 78 89 73 70
B 82 93 96 87 95 99 75 86 70 98 72 75 97 93 85 78 77 75 92 94 83
C 83 76 71 75 94 98 78 77 77 73 72 76 84 83 71 72 93 91
Observamos que las muestras están sesgadas, por lo que vamos a realizar la
prueba de la mediana.
Con este fin, calculamos, en primer lugar, la gran mediana, cuyo valor es:
GM=78
La tabla de contingencia con el número de puntuaciones mayores que 78 y meno
res o iguales que 78 es:
A B C Total
Mayores de 78 13 8 7 28
Menores o iguales de 78 7 14 11 32
Total 20 22 18 60
Completamos la tabla de contingencia situando las frecuencias esperadas entre

paréntesis:
A B C Total
Mayores de 78 13 (9'33) 8(10'26) 7 (8-4) 28
Menores o iguales de 78 7(10'66) 14(1173) 11 (9'6) 32
Total 20 22 18 60
Debemos evaluar el estadístico
donde k=rs, siendo r el número de filas y s el número de columnas, cuya distribución

es aproximadamente la de una x2 con (r- 1 )(s- 1 )= 1 x2=2 gl.
Para facilitar los cálculos, disponemos los datos en la forma:
500
0¡ * <w (O-E)2
v 1 K (O.-E^/E
13 9\33 3,67 15.46 144
7 10,66 -3,66 1339 T25
8 10,26 -2,26 5,10 0'49
14 11,73 2,27 5,15 0'44
7 8,4 -1,4 1,% 0'23
11 9.6 1.4 1.% 0.20
3'56
Se obtiene así la estimación X = ^56

Para contrastar si las 3 medianas poblacionales difieren de modo significativo, la
tabla A.5 del apéndice C nos proporciona, para un nivel de significación a=0'05, el
valor crítico
A.y - ¡ros.: = .*5'99
Al ser el valor estimado del estadístico, 3'56, menor que el valor crítico, se acepta
la hipótesis nula, y, en consecuencia, que las tres poblaciones tienen la misma locali-
zación.
Cuando la prueba de la mediana produce un resultado significativo, se deben
hacer las comparaciones múltiples necesarias para averiguar entre qué parejas de
poblaciones se da esa diferencia. Para ello, se repetirá la prueba de la mediana para
cada par de grupos, de modo que, en cada una de las comparaciones se va a obtener
un valor distinto para GM.
Aunque teóricamente se dan unos porcentajes más elevados, en la práctica la

prueba de la mediana tiene una eficiencia que va del 65% al 70%, lo cual supone una
gran desventaja con respecto a las correspondientes pruebas paramétricas.
La intensidad de la relación se puede medir con cualquiera de los coeficientes de

contingencia que estudiamos en el capítulo 12. como pueden ser el coeficiente C o el
coeficiente 4>c de Cramer.
El valor del coeficiente C para los datos del ejemplo 15.4 es
JJ6
C= = 0'236
N+X 60 + y56
y el valor del coeficiente <DC de Cramer para los mismos datos es
501
^N(h-l) Í601 J
Los dos coeficientes nos indican que la intensidad de la relación entre la pertenen
cia a un determinado sector social y la actitud hacia el estudio es pequeña.
15.4.2. Prueba de rachas de Wald-Wolfowit
La prueba de rachas se basa en el orden en que se obtienen las observaciones

muestrales. De ahí el interés de la prueba para averiguar si realmente una muestra ha
sido obtenida aleatoriamente.
Con el fin de aclarar los conceptos, vamos a partir de un ejemplo concreto:
Ejemplo 15.5
Supongamos que se selecciona una muestra de 1 1 personas a quienes se les pasa

un cuestionario para que respondan con un SI(V) o un NO(F), y se obtienen las
respuestas en el siguiente orden:
VVFFVFVVVFF
Cada respuesta es una sucesión de símbolos V y F, que pueden agruparse en
subsucesiones formadas por un mismo símbolo de la forma:
VV FF V F VVV FF
Cada una de estas subsucesiones es una racha. Se puede definir la racha como
un conjunto de símbolos idénticos separados por dos símbolos diferentes, o por uno
solo cuando está al comienzo o al final de la sucesión.
Mediante la prueba de rachas, se divide a la población en dos categorías de datos
(SI o NO, VERDADERO o FALSO,...), que son mutuamente excluyentes. Cada catego
ría tendrá N| símbolos VyN, símbolos F, siendo N^N^N.
En la muestra del ejemplo 15.5, con un tamaño 1 1 , hay 6 rachas: la primera con dos
V, la segunda con dos F,...
Esta prueba tiene su fundamento en el número de rachas que cabe esperar que se
den por puro azar, de tal forma que, si el número de rachas es superior o inferior al que
cabría esperar, se rechaza la hipótesis de que la muestra fue seleccionada aleatoriamente.
Supongamos que se forman todas las sucesiones posibles con los N, símbolos V
y los N, símbolos F, para un total de ^r^+N, símbolos.
El conjunto de todas estas sucesiones posibles tiene una distribución muestral, de
modo que, si definimos la variable aleatoria
502
R=«número de rachas que se dan en un experimento»
este estadístico R, cuando N, y N, son ambos mayores o iguales que 8. se distribuye

según una normal de media
2N,N? ,
UK= +] (11)
y vananza
, 2N,N:(2N,N,-N,-N:)
°R~ (N, + N:f(N, + N?-l) (12)
Entonces, el estadístico
(13)
sigue una distribución normal N(z;0,l), que permite construir el contraste de

aleatoriedad.
El proceso que se sigue para determinar si los datos de la muestra son aleatorios,
consiste en:
1 ) Colocar los datos de la muestra en el mismo orden en que fueron tomados.
2) Hallar la mediana y sustituir cada dato por un símbolo (V o F), (+ o -),..., según
que su valor sea mayor o menor que la mediana. Los valores que coincidan con la
mediana se suprimen.
3) Se considera que la muestra es aleatoria o no según lo sea o no la sucesión de
las rachas.
Ejemplo 15.6
Se ha consultado a 19 amas de casa sobre el número de días que les dura una
bombona de gas butano. Las respuestas aparecen en el orden en que se dieron:
20 3033 13 60 55 65 23 1440 58 18 47 45 15 2154 36 24
¿Se puede afirmar que se trata de una muestra elegida aleatoriamente?
Solución: La mediana de la muestra es 33. valor único que coincide con un dato,
por lo que prescindimos de él.
Sustituimos ahora cada dato por el signo +, si es mayor que el valor de la mediana.
y, por el signo -. si es menor. De esta forma, se obtiene la sucesión:
+ + + -- + + - + + -- + + -
El número de rachas es R=9. habiendo 9 símbolos + y 9 símbolos -.
La media y la varianza de R son, por tanto:
503
2-9-9 , . ,„ , 2-9-9(2-9-9-9-9)
La estimación del estadístico es:

9-10
..-0-55
1'79
Para un nivel de significación a=0'05 y una prueba bilateral, el valor crítico es
za/2 =1'96.
Al ser Z=-0'55>-1'96, se acepta la hipótesis nula, y, en consecuencia, se admite
que la muestra ha sido seleccionada aleatoriamente.
La prueba de rachas también se puede utilizar para probar la diferencia de localiza-
ción de dos poblaciones.
En efecto, si consideramos dos muestras de tamaños N, y N,, el proceso que se
sigue para decidir si las muestras proceden o no de la misma población, consiste en
ordenar los N +N valores de las dos muestras en orden creciente. De este modo,
obtenemos una secuencia de N,+N, símbolos.
Puede suceder que algunos de los valores coincidan, en cuyo caso se ordenan
dichos elementos por medio de cualquier procedimiento aleatorio.
Si la secuencia resultante es aleatoria, la conclusión es que las muestras provienen
de la misma población.
15.4.3. Prueba de los signos
La prueba de los signos se utiliza con muestras dependientes, y necesita menos

información aún que la prueba de Wilcoxon. La prueba de Wilcoxon se basaba en los
ordinales de las diferencias entre cada par de valores asociados de la muestra, mien
tras que la prueba de los signos sólo va a tener en cuenta el signo de esas diferencias.
Se prescindirá de aquellos pares cuya diferencia sea cero, con lo que se reduce el
tamaño de la muestra.
Se establece entonces la hipótesis nula:
H, =«la mediana de las diferencias entre cada pareja de valores de las muestras es cero».
Si la hipótesis nula se satisface, el número esperado de signos positivos debería
coincidir con el número esperado de signos negativos.
Para realizar la prueba de los signos, por tanto, necesitamos las frecuencias espe
radas, que, de ser cierta la hipótesis nula, serán N/2, y compararlas con las frecuencias
observadas (número de signos + ó -).
Luego el contraste se lleva a cabo mediante la %2 con una sola variable que
presenta dos modalidades (+ y -). Por ello, se toma como estadístico:
504
X —V (14)
donde f es el número de diferencias positivas, f el número de diferencias negativas,
y N el número total de observaciones, después de haber eliminado los casos en que
las diferencias se anulaban.
Si la estimación que se obtiene para el estadístico es mayor que el valor crítico
X2005 , se rechaza la hipótesis nula, y, por tanto, que las dos muestras tienen distribu
ciones distintas.
Ejemplo 15.7
Un profesor de Estadística piensa que mejorarán las calificaciones SAT de sus

alumnos en 50 puntos si realizan prácticas de ordenador con un paquete informático.
Para realizar el contraste, selecciona una muestra de 16 alumnos, y les hace una
prueba previa y otra posterior a las prácticas de ordenador, obteniendo los siguientes
resultados:
Previa 630 62 1 552 530 742 525 480 545 624 690 750 503 530 730 720 624
Post. 670 702 57 1 584 72 1 570 480 634 624 670 794 58 1 610 725 720 624
Este ejemplo presenta una pequeña variante, ya que la hipótesis nula no es que la
mediana de las diferencias entre pares de datos sea cero, sino que sea 50. Por ello,
hallaremos las diferencias, y restaremos 50. A los valores así obtenidos les aplicare
mos la prueba de los signos en la forma en que ha sido expuesta.
Disponiendo los resultados en una tabla, queda:
»í 40 81 19 54 -21 35 0 89 -20 0 44 7S 80 -5 0 0
n,4>. -10 31 -31 4 -71 -15 39 -70 -6 28 30 -55
Hay 5 diferencias positivas, 7 diferencias negativas y 4 que se anulan, luego el

valor del estadístico es:
, (5-7 f
Para un nivel de significación a=0'05 y 1 gl, la tabla A.5 proporciona el valor

crítico
Puesto que 0'33<3'841. se acepta la hipótesis nula. y, por tanto, que la diferencia
entre las calificaciones medias es de 50 puntos.
505
15.1. Nos dicen que, en 30 lanzamientos de una moneda, se ha obtenido la siguiente

secuencia de resultados:
cxccxcccxxxccxcccxxccxxccccxcx
¿Se puede afirmar que la secuencia es aleatoria?
15.2. Un electricista ha recibido dos partidas de lámparas. Para ver si proceden de la

misma población, selecciona dos muestras, comprobando la duración de las lámparas
de las muestras, que resultan:
Primera muestra 693 660 754 710 647 701 610 721 682 620 685
Segunda muestra 702 640 715 682 670 705 588 683 690
¿Se puede afirmar que las dos muestras proceden de la misma población? (Realizar
el contraste de la suma de rangos).
15.3. Las calificaciones en un test de inteligencia de 30 alumnos elegidos al azar de

una universidad han sido:
83 95 52 60 62 61 48 64 76 79 86 57 86 7 1 67 78
55 46 67 73 95 84 64 82 93 70 40 78 43 72 66 74
Contrastar la hipótesis de que la mediana es 70, al nivel de significación del 5%.
15.4. La siguiente tabla contiene los datos de tres muestras aleatorias de una pobla
ción ordenadas por rangos:
Ia muestra 8 4 7 6 3 9
2a muestra 2 4 5 7 5
3a muestra 10 9 8 6
Al nivel de significación del 5%, ¿existe diferencia significativa entre las tres mues
tras?
15.5. Se han seleccionado cuatro muestras formadas por 5 lámparas de cuatro marcas
diferentes (A, B, C y D). Calculada la duración de las lámparas, se obtuvieron los
siguientes resultados:
506
A 3140 3780 3360 3450 3320

B 3240 2730 2980 3140 3810
C 3830 3690 4010 3550 3830
D 4220 4050 3420 3370 3510
Averiguar si hay diferencia entre las marcas al nivel de significación del 0'O1. En
caso afirmativo, realizar la prueba de suma de rangos para determinar qué marcas
difieren entre sí.
15.6. Se ha hecho una pregunta a 20 personas, que debían responder con V (verdade
ro) o F (falso). La secuencia con las 20 respuestas ha sido:
VVFVVFVVVFVFFVFFVFFV
¿Se puede considerar que las respuestas han sido aleatorias? Utilizar los niveles
de significación del 1% y del 5%.
15.7. Una compañía de seguros imparte un cursillo a 20 agentes domiciliarios con el fin
de incrementar el número de pólizas. Al cabo de un mes, se constata que 12 de los
agentes han conseguido incrementar el número de pólizas con respecto a meses ante
riores, 5 han conseguido los mismos resultados, y 3 han bajado. ¿Se puede afirmar
que el cursillo ha sido eficaz?
15.8. Un profesor imparte clase a dos grupos de alumnos. Uno de los grupos es de
tercero de bachillerato diurno y el otro también de tercero, pero de régimen nocturno.
Con el mismo método de enseñanza y el mismo examen, las calificaciones obtenidas
fueron:
Diurno 68745 8437665 7 3 666852
Nocturno 573246567443356
1 ) ¿Se puede afirmar que hay una diferencia significativa entre las calificaciones de
ambos grupos? 2) En caso afirmativo, hallar una medida de la intensidad de la
relación.
15.9. Se ha pasado un test de reflejos a 10 personas en condiciones de reposo y

después de realizar un viaje conduciendo durante 4 horas, obteniéndose los siguien
tes resultados:
Condiciones de reposo 60 45 38 42 50 58 63 62 28 34
Después de conducir 41 35 29 36 32 50 46 33 29 30
507
Contrastar, mediante la prueba de Wilcoxon, la hipótesis de que no hay diferencia

significativa entre las puntuaciones de los dos grupos. Si el resultado es significativo,
hallar una medida de la intensidad de la relación.
15.10. Un topógrafo realiza 10 mediciones con dos instrumentos de medida distintos,

obteniendo los siguientes resultados:
Instrumento I 91 94 59 77 81 64 89 75 82 %
Instrumento II 84 79 51 68 69 70 76 88 74 87
Averiguar si los instrumentos dan los mismos resultados.

APÉNDICE A
TABLAS ESTADÍSTICAS
511
TABLA A.l
Distribución binomial1
P(X
B(n,p) «-(1)^
0.01 0.05 0.10 0.15 0.20 0.25 0.30 1/3 0.35 0.40 0.45 0.49 0.5
.9801 .9026.8100.7225 .6400.5625 4900 4444 4225 3600 3025 .2601 .2500
.0198 .0950.1800.25 50 .3 200.3750 4200 4444 4550 4800 4950 .4998 .5000
.0001 .0025 .0100.0225 .0400.0625 0900 1111 1225 1600 2025 .2401 .2500
.9703 .8574 .7290.6141 .5120.3219 .3430.2963 .2746 .2 160 . 1664 . 1 327 . 1 250
.0294.1354.2430.3251 .3840.4219.4410.4444.4436.4320.4084.3823.3750
.0003 .007 1 .0270 .05 74 .0960.1406 . 1 890 .2222 .2389 .2880 .3 34 1 .3674 .3750
.0000.0001 .0010.0034.0080.0156.0270.0370.0429.0640.091 1 .1 176.1250
.9606 .8145 .656 1 .5 220 .4096 .3 164 .2401 . 1 975 . 1 785 . 1 296 .09 1 5 .0677 .0625
.0388 .1715 .2916.3685 .4096.4219 .4 1 1 6 .395 1 .3 845 .3456 .2995 .2600.2500
.0006 .0135 .0486.0975 .1536 .2109 .2646.2963 .3105 .3456 .3675 .3747 .3750
.0000.0005 .0036.01 15 .0256.0469 .0756.0988 .1115 .1536.2005 .2400.2500
.0000.0000.0001 .0005 .0016.0039 .0081 .0123 .0150.0256.0410.0576.0625
.9510.7738 .5905 .4437 .3 277 .2373 .1681 .1317 .1 160.07 7 8 .0503 .0345 .0312
.0480.2036.3280.3915 .4096.3955 .3602 .3292 .3 I 24 .2592 .2059 . 1 657 . 1 562
.0010.0214 .0729.1382 .2048 .2637 .3087 .3292 .3364 .3456.3369.3185 .3125
.0000.0011 .0081 .0244 .0512 .0879.1323 . 1 646 . 1 8 1 1 .2304 .2757 .3060 .3 1 25
.0000.0000.0004.0022 .0064.0146.0284.0412.0488.0768 . 1 1 28 . 1470 . 1562
.0000.0000.0000.0001 .0003 .0010.0024.0041 .005 3 .0 1 02 .0 1 85 .0283 .03 12
.9415 .7351 .5314.3771 .2621 .1780.1 176.0878 .0754 .0467 .0277 .0 1 76 .0 1 56

.0571 .2321 .3 543 .3 993 .3932.3560.3025 .2634.2437 .1866.1359.1014.0938
.0014.0305 .0984.1762 .2458 .2966 .324 1 .3292 .3280 .3 1 10.2780.2437.2344
.0000.0021 .0146.0415 .0819 .1318 .1852.2195 .2355 .2765 .3032 .3121 .3125
.0000.0001 .0012 .0055 .0 1 54 .0330 .0595 .0823 .095 1 .1382 .1861 .2249 .2344
.0000 .0000 .0001 .0004 .0015 .0044 .0102 .0165 .0205 .0369 .0609 .0864 .0938
.0000 .0000 .0000 .0000 .0001 .0002 .0007 .0014 .0018 .0041 .0083 .0139 .0156
.9321 .6983 .4783 .3206 .2097 .1335 .0824 .0585 .0490.0280.0152 .0090.0078
.0659.25 73 .3720 .3960 .3670 .3 1 1 5 .247 1 .2048 . 1 848 . 1 306 .087 2 .0603 .0547
.0020.0406.1240.2097 .2753 .3 1 1 5 .3 1 77 .3073 .2985 .261 3 .2 1 40 . 1 740 . 1 64 1
.0000.0036.0230.0617 .1 147 .1730.2269 .2561 .2679 .2903 .1918 .2786.2734
.0000 .0002 .0026 .0109 .0287 .05 77 .0972 . 1 280 . 1442 . 1 935 .2388 .2676 .2734
.0000.0000.0002.0012 .0043 .0115 .0250.0384.0466.0774.1 1 72 . 1 543 . 1 64 1
.0000.0000.0000.0001 .0004.0013 .0036.0064.0084.0172 .0320 .0494.0547
.0000 .0000 .0000 .0000 .0000 .0001 .0002 .0005 .0006 .0016 .0037 .0068 .0078
1 Adaptada de «Tables of Cumulative Binomial Probability Distribution». Harvard University

Press, Cambridge. Massachussetts, 1955.
512
n k 0.01 0.0 5 0.10 0.15 0.20 0.25 0.30 1/3 0.35 0.40 0.45 0.49 0.5
8 0 .9227 6634 4305 2725 1678 1001 0576 0390 0319 0168 0084 0046 0039
1 .0746 2793 3826 3847 3555 2670 1977 1561 1373 0896 0548 0352 0312
2 .0026 .0515 1488 2376 2936 3115 2965 2731 2587 2090 1569 1183 1094
3 .0001 0054 0331 0839 1468 2076 2541 2731 2786 2787 2568 2273 2188
4 .0000 0004 0046 0158 0459 0865 1361 1707 1875 2322 2627 2730 2734
5 .0000 0000 0004 0026 0092 0231 0467 0683 0808 1239 1719 2098 2188
6 .0000 0000 0000 0002 0011 0038 0100 0171 0217 0413 0703 1008 1094
7 .0000 0000 0000 0000 0001 0004 0012 0024 0033 0079 0164 0277 0312
g .0000 0000 0000 0000 0000 0000 0001 0002 0002 0007 0017 0033 0039
9 0 .9135 6302 3874 2316 1342 0751 0404 0260 0207 0101 0046 0023 0020
1 .0830 2985 3874 3679 3020 2253 1556 1171 1004 0605 0339 0202 .0176
2 .0034 0629 1722 2597 3020 3003 2668 .2341 2162 1612 1110 0776 0703
3 .0001 0077 0446 1069 1762 2336 2668 .2731 2716 2508 2119 1739 1641
4 .0000 .0006 .0074 0283 0661 1168 1715 2048 2194 2508 2600 2506 2461
5 .0000 .0000 .0008 0050 .0165 0389 .0735 1024 1181 1672 2128 2408 2461
6 .0000 .0000 0001 0006 0028 0087 0210 0341 0424 0743 1 160 .1542 1641
7 .0000 .0000 .0000 0000 0003 0012 0039 0073 0098 0212 0407 0636 0703
S .0000 .0000 .0000 0000 0000 0001 0004 0009 0013 0035 0083 0153 0176
9 .0000 .0000 .0000 0000 0000 0000 0000 0001 0001 0003 0008 0016 0020
10 0 .9044 .5987 .3487 .1969 1074 .0563 .0282 0173 .0135 0060 0025 .0012 .0010
1 .0914 .315 1 .3874 .3474 2684 .1877 .1211 0867 .0725 0403 0207 .0114 0098
2 .0042 .0746 .1937 2759 3020 2816 .2335 1951 .1757 1209 0763 .0495 0439
3 .0001 .0105 .0574 1298 .2013 2503 2668 .2601 .2522 2150 1665 .1267 1 172
4 .0000 .0010 .01 12 0401 0881 1460 .2001 .2276 .2377 2508 2384 .2130 .2051
5 .0000 .0001 .0015 0085 .0264 0584 .1029 .1366 .1536 2007 2340 .2456 .2461
6 .0000 .0000 .0001 .0012 .0055 .0162 .0368 .0569 .0689 1115 .1596 .1966 .2051
7 .0000 .0000 .0000 .0001 .0008 0031 .0090 .0163 .0212 .0425 .0746 .1080 .1172
8 .0000 .0000 .0000 .0000 .0001 0004 .0014 .0030 .0043 .0106 .0229 .0389 .0439
9 .0000 .0000 .0000 .0000 .0000 0000 .0001 .0003 .0005 .0016 .0042 .0083 .0098
10 .0000 .0000 .0000 .0000 .0000 .0000 .0000 .0000 .0000 .0001 .0003 .0008 .0010
513
TABLA A.2
Distribución de Poisson2
P(\l) P(X = k) .«,-

k!
p. 0 1 2 3 4 5 6 7 8 9 10 1 1 12
0.1 .9048 0905 .0045 0002 0000

0.2 .8187 1637 .0164 001 1 0001 0000
0.3 .7408 2222.0333 0033 0002 0000
0.4 .6703 2681 .0536 0072 0007 0001 .0000
0.5 .6065 3033.0758 0126 0016 .0002 .0000
0.6 .5488 3293 .0988 0198 0030 .0004 .0000.0000

0.7 .4966 3476.1217 0284 0050 .0007 .0001 .0000
0.8 .4493 3595 .1438 0383 0077 .0012 .0002 .0000
0.9 .4066 3659.1647 0494 01 1 1 .0020 .0003 .0001 0000
1.0 .3679 3679.1839 0613 0153 .0031 .0005 .0000 0000
1.1 .3329 3662 .2014 0738 0203 .0045 .0008.0001 0000

1.2 .3012 3614.2169 0867 0260 .0062 .0012.0002 0000
1.3 .2725 3543.2303 0998 0324 .0084 .0018.0003 0001 .0000
1.4 .2466 3452.2417 1 128 0395 .01 1 1 .0026.0005 0001 .0000
1 .5 .2231 3347 .2510 1255 0471 .0141 .0035 .0008 0001 .0000
1.6 .2019 3230.2584 1378 0551 .0176 .0047.0011 0002 .0000

1 .7 .1827 3106.2640 1496 0636 .0216 .0061 .0015 0003 .0001 .0000
1 .8 .1653 2975 .2678 1607 0723 .0260 .0078.0020 0005 .0001 .0000
1.9 .1496 2842 .2700 1710 0812 .0309 .0098.0027 0006 .0001 .0000
2.0 .1353 2707 .2707 1804 0902 .0361 .0120.0034 0009 .0002 .0000
2.2 .1 108 2438.2681 1966 1082 .0476 .0174.0055 0015 .0004 .0001 0000
2.4 .0907 2177.2613 2090 1254 .0602 .0241 .0083 0025 .0007 .0002 0000
2.6 .0743 1931 .2510 2176 1414 .0735 .0.3 19 .0118 00.38 .00 1 1 .0003 OOOI OOOO
2.8 .0608 1703 .2384 2225 1557 .0872 .0407 .0163 0057 .0018 .0005 0001 0000
3.0 .0498 1494.2240 2240 1680 .1008 .0504.0216 0081 .0027 .0008 0002 0001
3.2 .0408 1304.2087 2226 1781 . 1 140 .0608.0278 0111 .0040 .0013 0004 .0001
3.4 .0334 1 135 .1929 2186 1858 .1264 .0176.0348 0148 .0056 .0019 0006 .0002
3.6 .0273 0984 .1771 2125 1912 .1.377 .0826.0425 .0191 .0076 .0028 0009 .0003
3.8 .0224 0850.1615 2046 1944 .1477 .0936.0508 0241 .0102 .0039 0013 0004
4.0 .0183 0733 .1465 1954 1954 .1563 .1042.0595 0298 .0132 .0053 0019 0006
2 Adaptada de «Poisson's Exponential Binomial Limit», de E.C. Molina. .Wadsworth

Publishing Company», Belmonl. California, 1942.
514
k
0 1 i 3 4 5 6 7 8 9 10 1 1 1 2
1»
5.0 .0067 .0337 .0842 1404 .1755 1755 1462 1044 0653 0363 0181 .0082 0034
6.0 .0025 .0149 .0446 .0892 .1339 1606 1606 1377 1033 0688 0413 .0225 0113
7.0 .0009 .0064 .0223 0521 .0912 1277 1490 1490 1304 1014 0710 .0452 0264
8.0 .0003 .0027 .0107 .0286 .0573 0916 1221 1396 1396 1241 0993 .0722 0481
9.0 .0001 .001 1 .0050 0157 .0337 0607 091 1 1171 1318 1318 1 186 .0970 0728
10.0 .0000 .0005 .0023 0076 .0189 0378 0631 0901 1 126 1251 1251 . 1 137 0948
n 0 1 2 3 4 5 6 7 8 9 10 1 1 1 2
5.0 .0013 .0005 .0002

6.0 .0052 .0022 .0009 0003 .0001
7.0 .0142 .0071 .0033 0014 .0006 0002 .0001
8.0 .0296 .0169 .0090 0045 .0021 0009 0004 0002 0001
9.0 .0504 .0324 .0193 .0109 .0058 0029 0014 0006 0003 0001
10.0 .0729 .0512 .0347 0217 .0128 0071 .0037 0019 0009 0004 .0002 .0001
515
TABLA A3.1
Distribución normal N(0,1)3
P(Z<-z„.)-- T¿ dz
.00 .01 .02 .03 .04 .05 .06 .07 .08 .09
-0.0 .5000 .4960 .4920 .4880 .4840 .4801 .4761 .4721 .4681 .4641
-0.1 .4602 .4562 .4522 .4483 .4443 .4404 .4364 .4325 .4286 .4247
-0.2 .4207 .4168 .4129 .4090 .4052 .4013 .3974 .3936 .3897 .3859
-0.3 .3821 .3783 .3745 .3707 .3669 .3632 .3594 .3557 .3520 .3483
-0.4 .3446 .3409 .3372 .3336 .3300 .3264 .3228 .3192 .3156 .3121
-0.5 .3085 .3050 .3015 .2981 .2946 .2912 .2877 .2843 .2810 .2776
-0.6 .2743 .2709 .2676 .2643 .2611 .2578 .2546 .2514 .2483 .2451
-0.7 .2420 .2389 .2358 .2327 .2297 .2266 .2236 .2206 .2177 .2148
-0.8 .2119 .2090 .2061 .2063 .2005 .1977 .1949 .1922 .1894 .1867
-0.9 .1841 .1814 .1788 .1762 .1736 .1711 .1685 .1660 .1635 .1611
-1.0 .1587 .1562 .1539 .1515 .1492 .1469 .1446 .1423 .1401 .1379
-1.1 .1357 .1335 .1314 .1292 .1271 .1251 .1230 .1210 .1190 .1170
-1.2 .1151 .1131 .1112 .1093 .1075 .1056 .1038 .1020 .1003 .09853
-1.3 .09680 .09510 .09342 .09176 .09012 .08851 .08691 .08534 .08379 .08226
-1.4 .08076 .07927 .07780 .07636 .07493 .07353 .07215 .07078 .06944 .06811
-1.5 .06681 .06552 .06426 .06301 .06178 .06057 .05938 .05821 .05705 .05592
-1.6 .05480 .05370 .05262 .05155 .05050 .04947 .04846 .04746 .04648 .04551
-1.7 .04457 .04363 .04272 .04182 .04093 .04006 .03920 .03836 .03754 .03673
-1.8 .03593 .03515 .03438 .03362 .03288 .03216 .03144 .03074 .03005 .02938
-1.9 .02872 .02807 .02743 .02680 .02619 .02559 .02500 .02442 .02385 .02330
-2.0 .02275 .02222 .02169 .02118 .02068 .02018 .01970 .01923 .01876 .01831
-2.1 .01786 .01743 .01700 .01659 .01616 .01578 .01539 .01500 .01463 .01426
-2.2 .01390 .01355 .01321 .01287 .01255 .01222 .01191 .01160 .01130 .01101
-2.3 .01072 .01044 .01017 .009903 .009642 .009387 .009137 .008894 .008656 .008424
-2.4 .008198 .007976 .007760 .007549 .007344 .007143 .006947 .006956 .006569 .006387
-2.5 .006210 .006037 .005868 .005703 .005543 .005386 .005234 .005085 .004940 .004799
-2.6 .004661 .004527 .004396 .004269 .004145 .004025 .003907 .003793 .003681 .003573
-2.7 .003467 .003364 .003264 .003167 .003072 .002980 .002890 .002803 .002718 .002635
-2.8 .002555 .002477 .002401 .002327 .002256 .002186 .002118 .002052 .001988 .001926
-2.9 .001866 .001807 .001750 .001695 .001641 .001589 .001538 .001489 .001441 .001395
-3.0 .001350 .001306 .001264 .001223 .001183 .001114 .001107 .001070 .001035 .001001
3 Adaptada de «Introduction to Mathematical Statistics». de P.G. Hoel, «John Wiley»

Nueva York, 1971.
516
TABLA A3.2
Distribución normal N(0,1) (Continuación)
P(Z<za) = J e~2~ dz
.00 .01 .02 .03 .04 .05 .06 .07 .08 .09
0.0 .5000 .5040 .5080 .5120 .5160 .5199 .5239 .5279 .5319 .5359
0.1 .5398 .5438 .5478 .5517 .5557 .5596 .5636 .5675 .5714 .5753
0.2 .5793 .5832 .5871 .5910 .5948 .5987 .6026 .6064 .6103 .6141
0.3 .6179 .6217 .6255 .6293 .6331 .6368 .6406 .6443 .6480 .6517
0.4 .6554 .6591 .6628 .6664 .6700 .6736 .6772 .6808 .6844 .6879
0.5 .69 1 5 .6950 .6985 .7019 .7054 .7088 .7123 .7157 .7190 .7224
0.6 .7257 .7291 .7324 .7357 .7389 .7422 .7454 .7486 .7517 .7549
0.7 .7580 .7611 .7642 .7673 .7703 .7734 .7764 .7794 .7823 .7852
0.8 .7881 .7910 .7939 .7967 .7995 .8023 .8051 .8078 .8106 .8133
0.9 .8159 .8186 .8212 .8238 .8264 .8289 .8315 .8340 .8365 .8389
1.0 .8413 .8438 .8461 .8485 .8508 .8531 .8554 .8577 .8599 .8661
1.1 .8643 .8665 .8686 .8708 .8729 .8749 .8770 .8790 .8810 .8830
1.2 .8849 .8869 .8888 .8907 .8925 .8944 .8962 .8980 .8997 .90147
1.3 .90320 .90490 .90658 .90824 .90988 .91149 .91309 .91466 .91621 .91774
1.4 .91924 .92073 .92220 .92.364 .92507 .92647 .92785 .92922 .93056 .93189
1.5 .93319 .93448 .93574 .93669 .93822 .93943 .94062 .94179 .94295 .94408
1.6 .94520 .94630 .94738 .94845 .94950 .95053 .95154 .95254 .95352 .95449
1.7 .95543 .95637 .95728 .95818 .95907 .95994 .96080 .96164 .96246 .96327
1.8 .96407 .96485 .96562 .96638 .96712 .96784 .96856 .96926 .96995 .97062
1.9 .97128 .97193 .97257 .97320 .97381 .97441 .97500 .97558 .97615 .97670
2.0 .97725 .97778 .97831 .97882 .97932 .97982 .98030 .98077 .98124 .98169
2.1 .98214 .98257 .98300 .98341 .98382 .98422 .98461 .98500 .98537 .98574
2.2 .98610 .98645 .98679 .98713 .98745 .98778 .98809 .98840 .98870 .98899
2.3 .98928 .98956 .98983 .990097 .990358 .990613 .990863 .991106 .991344 .991576
2.4 .991802 .992024 .992240 .992451 .992656 .992857 .993053 .993244 .993431 .993613
2.5 .993790 .993963 .994132 .994297 .994457 .994614 .994766 .994915 .995060 .995201
2.6 .995339 .995473 .995604 .995731 .995855 .995975 .996093 .996207 .996319 .996427
2.7 .996533 .996636 .996736 .996736 .996928 .997020 .997110 .997197 .997282 .997365
2.8 .997445 .997523 .997599 .997673 .997744 .997814 .997882 .997948 .998012 .998074
2.9 .998134 .998193 .998250 .998305 .998359 .998411 .998462 .998511 .998559 .998605
3.0 .998650 .998694 .998736 .998777 .998817 .998856 .998893 .998930 .998965 .998999
517
TABLA A.4
Distribución t de Student4
litZta»)
n/p .40 .30 .20 . 10 n5 .025 (110 .005 .001 .0005
1 .325 727 1.376 3.078 6.314 12.71 31.82 63.66 318.3 636.6
2 .289 617 1.061 1.886 2.920 4.303 6.965 9.925 22.33 31.60
3 .277 584 .978 1 .638 2.353 3.182 4.541 5.841 10.22 12.94
4 .271 569 .941 1.533 2.132 2.776 3.747 4.604 7.173 8.610
5 .267 559 .920 1.476 2.015 2.571 3.365 4.032 5.893 5.859
6 .265 553 .906 1.440 1.943 2.447 3.143 3.707 5.208 5.959
7 .263 549 .896 1.415 1.895 2.365 2.998 3.499 4.785 5.405
g .262 546 .889 1.397 1.860 2.306 2.896 3.355 4.501 5.041
9 .261 543 .883 1.383 1 .833 2.262 2.821 3.250 4.297 4.781
10 .260 542 .879 1.372 1.812 2.228 2.764 3.169 4.144 4.587
11 .260 540 .876 1.363 1.796 2.201 2.718 3.106 4.025 4.437
12 .259 539 .873 1 .356 1.782 2.179 2.681 3.055 3.930 4.318
13 .259 538 .870 1 .350 1.771 2.160 2.650 3.012 3.852 4.221
14 .258 537 .868 1 .345 1.761 2.145 2.624 2.977 3.787 4.140
15 .258 536 .866 1.341 1.753 2.131 2.602 2.947 3.733 4.073
16 .258 535 .865 1.337 1.746 2.120 2.583 2.921 3.686 4.015
17 .257 534 .863 1 .333 1.740 2.110 2.567 2.898 3.646 3.965
18 .257 534 .862 1 .330 1 .734 2.101 2.552 2.878 3.611 3.922
19 .257 533 .861 1.328 1.729 2.093 2.539 2.861 3.579 3.883
20 .257 533 .860 1 .325 1.725 2.086 2.528 2.845 3.552 3.850
21 .257 532 .859 1.323 1.721 2.080 2.518 2.831 3.527 3.819
22 .256 532 .858 1.321 1.717 2.074 2.508 2.819 3.505 3.792
23 .256 532 .858 1.319 1.714 2.069 2.500 2.807 3.485 3.767
24 .256 531 .857 1.318 1 711 2.064 2.492 2.797 3.467 3.745
25 .256 531 .856 1.316 1.708 2.060 2.485 2.787 3.450 3.725
26 .256 531 .856 1.315 1.706 2.056 2.479 2.779 3.435 3.707
27 .256 531 .855 1.314 1 .703 2.052 2.473 2.771 3.421 3.690
28 .256 530 .855 i Ji3 1.701 2.048 2.467 2.763 3.408 3.674
29 .256 530 .854 1.311 1.699 2.045 2.462 2.756 3.396 3.659
30 .256 530 .854 1.310 1.697 2.042 2.457 2.750 3.385 3.646
40 .255 529 .851 1 .303 1.684 2.021 2.423 2.704 3.307 3.551
50 .255 528 .849 1.298 1.676 2.009 2.403 2.678 3.362 3.495
60 .254 527 .848 1.296 1.671 2.000 2.390 2.660 3.232 3.460
80 .254 527 .846 1.292 1.664 1.990 2.374 2.639 3.195 3.415
100 .254 526 .845 1.290 1.660 1.984 2.365 2.626 3.174 3.389
200 .254 526 .845 1.286 1 .653 1.972 2.345 2.601 3.131 3.339
500 .253 525 .842 1.283 1.648 1 .965 2.334 2.586 3.106 3.310
oo .253 525 .842 1.282 1.645 1.960 2.326 2.576 3.090 3.291
4 Adaptada de «Statistical Tables for Biological. Agricultural and Medical Research», de R.A.
Fisher y F. Yates, Oliver and Boyd. Edimburgo, 1963.
518
TABLA A.5
Distribución y - de Pearson5
p{x2zxU
n/a 0.995 0.99 0.98 0.975 0.95 0.90 0.10 0.05 0.025 0.02 0.01
1 .000039 ,00015 .00062 0.00098 0.00393 0.0158 2.706 3.841 5.024 5.412 6.635
2 0.0100 0.0201 0.0404 0.0506 0. 1 03 0.211 4.605 5.991 7.378 7.824 9.210
3 0.0717 0.115 0.185 0.216 0.352 0.584 6.251 7.815 9.348 9.837 11.345
4 0.207 0.297 0.429 0.484 0.711 1.610 7.779 9.488 11.143 11.668 13.277
5 0.412 0.554 0.752 0.831 1.145 1.610 9.236 11.070 12.832 13.388 15.086
6 0.676 0.872 1.134 1.237 1 .635 2.204 10.645 12.592 14.449 15.033 16.812
" 0.989 1.239 1.564 1.690 2.167 2.833 12.017 14.067 16.013 16.622 18.475
8 1.344 1.646 2.032 2.180 2.733 3.490 13.362 15.507 17.535 18.168 20.090
9 1.735 2.088 2.532 2.700 3.325 4.168 14.684 16.919 19.023 19.679 2 1 .666
10 2.156 2.558 3.059 3.247 3.940 4.865 15.987 18.307 20.483 21.161 23.209
1 1 2.603 3.053 3.609 3.816 4.575 5.578 17.275 19.675 21.920 22.618 24.725
12 3.074 3.571 4.178 4.404 5.226 6.304 18.549 21.026 23.337 24.054 26.217
13 3.565 4.107 4.765 5.009 5.892 7.042 19.812 22.362 24.736 25.472 27.688
14 4.075 4.660 5.368 5.629 6.571 7.790 21.064 23.685 26.1 19 26.873 29.141
15 4.601 5.229 5.985 6.262 7.261 8.547 22.307 24.996 27.488 28.259 30.578
16 5.142 5.812 6.614 6.908 7.962 10.312 23.542 26.296 28.845 29.633 32.000
17 5.687 6.408 7.255 7.564 8.672 10.085 24.769 27.587 30.191 30.995 33.409
18 6.265 6.408 7.906 8.231 9.390 10.865 25.989 28.869 31.526 32.346 34.805
19 6.844 7.633 8.567 8.907 10.117 11.651 27.204 30.144 32.852 33.687 36.191
20 7.434 8.260 9.237 9.591 10.851 12.443 28.412 31.410 34.170 55.020 37.566
21 8.034 8.897 9.915 10.283 11.591 13.240 29.615 32.671 35.479 36.343 38.932
22 8.643 9.542 10.600 10.982 12.338 14.041 30.813 33.924 36.781 37.659 40.289
23 9.260 10.196 11.293 11.688 13.091 14.041 32.007 35.172 38.076 38.968 41.638
24 9.886 10.856 11.992 12.401 13.848 15.659 33.196 36.415 39.364 40.270 42.980
25 10.520 11.524 12.697 13.120 14.611 16.473 34.382 37.652 40.646 41.566 44.314
26 11.160 12.198 13.409 13.844 15.379 17.292 35.563 38.885 41.923 42.856 45.642
27 11.808 12.879 14.125 14.573 16.151 18.114 36.741 40.113 43.194 44.140 46.963
28 12.461 13.565 14.847 15.308 16.928 18.939 37.916 41.337 44.461 45.419 48.278
29 13.121 14.256 15.574 16.047 17.708 19.768 39.078 42.557 45.722 46.693 49.588
30 13.787 14.953 16.306 16.791 18.493 20.599 40.256 43.773 46.979 47.962 50.892
5 Adaptada de «Table of percentage points of the x~ distribution», de C.M. Thompson.

«Biometrica». vol. 32, 1941.
519
TABLA A.6.1
Distribución F de Fisher-Snedecor6
p{f>F,wx„iM) = 0'05
a=0.05
n/n, 1 2 3 4 5 6 7 8 9
1 161.45 199.50 215.71 224.58 230.16 233.99 236.77 238.88 240.54

2 18.513 19.000 19.164 19.247 19.296 19.330 19.353 19.371 19.385
3 10.128 9.5521 9.2766 9.1 172 9.0135 8.9406 8.8868 8.8452 8.8123
4 7.7086 6.9443 6.5914 6.3883 6.2560 6.1631 6.0942 6.0410 5.9988
5 6.6079 5.7861 5.4095 5.1922 5.0503 4.9503 4.8759 4.8183 4.7725
6 5.9874 5.1433 5.757 1 5.5337 4.3874 4.2839 4.2066 4.1468 4.0990

7 5.5914 4.7374 4.3468 4.1203 3.9715 3.8660 3.7870 3.7257 3.6767
8 5.3177 5.4590 4.0662 3.8378 3.6875 3.5806 3.5005 3.4281 3.3881
9 5.1 174 4.2565 3.8626 3.6331 3.4817 3.3738 3.2927 3.2296 3.1789
10 4.9646 4.1028 3.7083 3.4780 3.3258 3.2172 3.1355 3.0717 3.0204
1 1 4.8443 3.9823 3.5874 3.5874 3.3567 3.2039 3.0123 2.9480 2.8962

12 4.7472 3.8853 3.4903 3.2592 3.1059 2.9961 2.9134 2.8486 2.7964
13 4.6672 3.8056 3.4105 3.1791 3.0254 2.9153 2.8321 2.7669 2.7144
14 4.6001 3.7389 3.3439 3.1 122 2.9582 2.8477 2.7642 2.6987 2.6458
15 5.5431 3.6823 3.2874 3.0556 2.9013 2.7905 2.7066 2.6408 2.5876
16 4.4940 3.6337 3.2389 3.0069 2.8524 2.74 13 2.6572 2.591 1 2.5377

17 4.4513 3.5915 3.1968 2.9647 2.8100 2.6987 2.6143 2.5480 2.4943
18 4.4139 3.5546 3.1599 2.9277 2.7729 2.6613 2.5767 2.5102 2.4563
19 4.3808 3.5219 3.1274 2.8951 2.7401 2.6283 2.5435 2.4768 2.4227
20 4.3513 3.4928 3.0984 2.8661 2.7109 2.5900 2.5140 2.4471 2.3928
21 4.3248 3.4928 3.0725 2.8401 2.6848 2.5727 2.4976 2.4205 2.3661

22 4.3009 3.4434 3.0491 2.8167 2.6613 2.5491 2.4638 2.3965 2.3419
23 4.2793 3.4221 3.0280 2.7955 2.6400 2.5277 2.4422 2.3748 2.3201
24 4.2597 3.4028 3.0088 2.7763 2.6207 2.5082 2.4226 2.3551 2.3002
25 4.2417 3.3852 2.9912 2.7587 2.6030 2.4904 2.4047 2.3371 2.2821
26 4.2252 3.3690 2.9751 2.7426 2.5868 2.4741 2.3883 2.3205 2.2655

27 4.2100 3.3541 2.9604 2.7278 2.5719 2.4591 2.3732 2.3053 2.2501
28 4.1960 3.3404 2.9467 2.7141 2.5581 2.4453 2.3593 2.2913 2.2360
29 4.1830 3.3277 2.9340 2.7014 2.5454 2.4324 2.3463 2.2782 2.2229
30 4.1709 3.3158 2.9223 2.6896 2.5336 2.4205 2.3343 2.2662 2.2107
40 4.0848 3.2317 2.8387 2.6060 2.4495 2.3359 2.2490 2.1802 2.1240

60 4.0012 3.1504 2.7581 2.5252 2.3683 2.2540 2.1665 2.0970 2.0401
120 3.9201 3.0718 2.6802 2.4472 2.2900 2.1750 2.0867 2.0164 1.8588
oo 2.8415 2.9957 2.6049 2.3719 2.2141 2.0986 2.0096 1.9384 1.8799
6 Adaptada de «Biometrica Tables for Slatisticians». de E.S. Pearson y H.O. Harley. 1954.
520
TABLA A.6.1
Distribución F de Fisher-Snedecor (Continuación)
a=0.05
n/n, 10 12 15 20 24 30 40 60 120 OO
1 241.88 243.91 245.85 248.01 249.05 250.09 251.14 252.20 253.25 254.32
2 19.396 19.413 19.429 19.446 19.454 19.462 19.471 19.479 19.487 19.496
3 8.7855 8.7446 8.7029 8.6602 8.6385 8.6166 8.5944 8.5720 8.5494 8.5265
4 5.9644 5.9117 5.8578 5.8025 5.7744 5.7459 5.7170 5.6878 5.6581 5.6281
5 4.7351 4.6777 4.6188 4.5581 4.5272 4.4957 4.4638 4.4314 4.3984 4.3650
6 4.0600 3.9999 3.9381 3.8742 3.8415 3.8082 3.7743 3.7398 3.7047 3.6688
7 3.6365 3.5747 3.5108 3.4445 3.4105 3.3758 3.3404 3.3043 3.2674 3.2298
8 4.3472 3.2840 3.2184 3.1503 3.1152 3.0794 3.0428 3.0053 2.9669 2.9276
9 3.1373 3.0729 3.0061 2.9365 3.9005 2.8637 2.8259 2.7872 2.7475 2.7067
10 3.9782 3.9130 3.8450 2.7740 3.7372 2.6996 2.6609 2.621 1 2.5801 2.5379
1 1 2.8536 2.7876 2.7186 2.6464 2.6090 2.5705 2.5309 2.4901 2.4480 2.4045
12 2.7534 2.6866 2.6169 2.5436 2.5055 2.4663 2.4259 2.3842 2.3410 2.2962
13 2.6710 2.6037 2.5331 2.4589 2.4202 2.3803 2.3392 2.2966 2.2524 2.2064
14 2.6021 2.5342 2.4630 2.3879 2.3487 2.3082 2.2664 2.2230 2.1778 2.1307
15 2.5437 2.4753 2.4035 2.3275 2.2878 2.2468 2.2043 2.1601 2.1 141 2.0658
16 2.4935 2.4247 2.3522 2.2756 2.2354 2.1938 2.1507 2.1058 2.0589 2.0096
17 2.4499 2.3807 2.3077 2.2304 2.1898 2.1477 2.1040 2.0584 2.0107 1.9604
18 2.4117 2.3421 2.2686 2.1906 2.1497 2.1071 2.0629 2.0166 1.9681 1.9168
19 2.3779 2.3080 2.2341 2.1555 2.1141 2.0712 2.0264 1.9796 1.9302 1.8780
20 2.3479 2.2776 2.2033 2.1242 2.0825 2.0391 1.9938 1.9464 1.8963 1.8432
21 2.3210 2.2504 2.1757 2.0960 2.0540 2.0102 1.9645 1.9165 1.8657 1.8178
22 2.2967 2.2258 2.1508 2.0707 2.0283 1.9842 1.9380 1.8895 1.8380 1.7831
23 2.2747 2.2036 2.1882 2.0476 2.0050 1.9605 1.9139 1.8649 1.8128 1.7570
24 2.2547 2.1834 2.1077 2.0267 1.9838 1.9390 1.8920 1.8424 1.7897 1.7331
25 2.2365 2.1649 2.0889 2.0075 1.9643 1.9192 1.8718 1.8217 1.7684 1.71 10
26 2.2197 2.1479 2.0716 1.9898 1.9464 1.9010 1.8533 1.8027 1.7684 1.7110
27 2.2043 2.1323 2.0558 1.9736 1.9299 1.8842 1.8361 1.7851 1.7307 1.6717
28 2.1900 2.1179 2.0411 1.9586 1.9147 1.8687 1.8203 1.7689 1.7138 1.6541
29 2.1768 2.1045 2.0275 1.9446 1.9005 1.8543 1.8055 1.7537 1.6981 1.6377
30 2.1646 2.0921 2.0148 1.9317 1.8874 1.8409 1.7918 1.7396 1.6835 1.6223
40 2.0772 2.0035 1.9245 1.8389 1.7929 1.7444 1.6928 1.6373 1.5766 1.5089
60 1.9926 1.9174 1.8364 1.7480 1.7001 1.6491 1.5943 1.5343 1.4673 1.3893
120 1.9105 1.8337 1.7505 1.6587 1.6084 1.5543 1.4952 1.4290 1.3519 1.2539
oo 1.8307 1.7522 1.6664 1.5705 1.5173 1.4591 1.3940 1.3180 1.2214 1.0000
521
TABLA A.6.2
Distribución F de Fisher-Snedecor
P[F>Fmuni.n) = 0'01
a=0,01
1
n,/n, ' 3 4 5 6 7 8 9
1 4052.2 4999.5 5403.3 5624.6 5763.7 5859.0 5.928.3 5981.6 6022.5

2 98.503 99.000 99.166 99.249 99.299 99.332 99.356 99.374 99.388
3 34.1 16 30.817 29.457 28.710 28.237 27.91 1 27.672 27.489 27.345
4 21.198 18.000 16.694 15.977 15.222 15.207 14.976 14.799 14.659
5 16.258 13.274 12.060 11.392 10.967 10.672 10.456 10.289 10.158
6 13.745 10.925 9.7795 9.1483 9.7459 8.4661 8.2600 8.1016 8.9761

7 12.246 9.5466 8.4513 7.8467 7.4604 7.1914 6.9928 6.8401 6.7188
8 1 1.259 8.6491 7.5910 7.0060 6.6318 6.3707 6.1776 6.0289 6.9106
9 10.561 8.0215 6.9919 6.4221 6.0569 5.8018 5.6129 5.4071 5.351 1
10 10.044 7.5194 6.5523 5.9943 5.6363 5.3858 5.2001 5.0567 5.9424
1 1 9.6400 7.2057 6.2167 5.6683 5.3160 5.0692 4.8861 4.7445 4.6315

12 9.3302 6.9266 5.9526 5.41 19 5.0643 4.8206 4.6395 4.4994 4.3875
13 5.0708 6.7010 5.7394 5.2053 4.8616 4.6204 4.4410 4.3021 4.191 1
14 8.8616 6.5149 5.5639 5.0354 4.6950 4.4558 4.2779 4.1399 4.0297
15 8.5310 6.3589 5.4170 4.8932 4.5556 4.3183 4.1415 4.0045 3.8948
16 8.5310 6.2262 5.2922 4.7726 4.4374 4.2016 4.2059 3.8896 3.7804

17 8.3997 6.1 121 5.1850 4.6690 4.3359 4.1015 3.9267 3.7910 3.6822
18 8.2854 6.0129 5.0919 4.5790 4.2479 4.0146 3.8406 3.7054 3.5971
19 8.1850 5.9259 5.0103 4.5003 4.1704 3.9386 3.7653 3.6305 3.5225
20 8.0960 5.8489 5.9382 4.4307 4.1027 3.8714 3.6987 3.5644 3.4567
21 8.0166 5.7804 4.8740 4.3688 4.0421 3.81 17 3.6396 3.5056 3.3981

22 7.9454 5.7190 4.8166 4.3134 3.9880 3.7583 3.5867 3.4530 3.3458
23 7.8811 5.6637 4.7649 4.2635 3.9392 3.7102 3.5390 3.4057 3.2986
24 7.8229 5.6136 4.7181 4.2184 3.8951 3.6667 3.4959 3.3679 3.2560
25 7.7698 5.5680 4.6755 4.1774 3.8550 3.6272 3.4568 3.3239 3.2172
26 7.7213 5.5263 4.6166 4.1400 3.8183 3.5911 3.4210 3.2884 3.1818

27 7.6767 5.4881 4.6009 4.1056 3.7848 3.5580 3.3882 3.2558 3.1494
28 7.6356 5.4529 4.5681 4.0740 3.7539 3.5276 3.3581 3.2259 3.1195
29 7.5976 5.4205 4.5378 4.0449 3.7254 3.4995 3.3302 3.1982 3.0920
30 7.5625 5.3904 4.5097 4.0179 3.6990 3.4735 3.3045 3.1726 3.0665
40 7.3141 5.1785 4.3126 3.8283 3.5138 3.2910 3.1238 2.9930 2.8876

60 7.0771 4.9774 4.1259 3.6491 3.3389 3.1187 2.9530 2.8233 2.7185
120 6.8510 4.7865 3.9493 3.4796 3.1735 2.9559 2.7918 2.6629 2.5586
oo 6.6349 4.6052 3.7816 3.3192 3.0173 2.8020 2.6393 2.51 13 2.4073
522
TABLA A.6.2
Distribución F de Fisher-Snedecor (Continuación)
a=0.01
10 12 20 24 30 40 60 120
i 6055.8 6106.3 6157.3 6708.7 6234.6 6260.7 6286.8 6313.0 6339.4 6366.0
2 99.399 99.416 99.432 99.449 99.458 99.466 99.474 99.483 99.491 99.501
3 27.229 27.052 26.872 26.690 26.598 26.505 26.411 26.316 26.221 26.125
4 14.546 14.374 14.198 14.020 13.929 13.838 13.745 13.652 13.558 13.463
5 10.051 9.8883 9.7222 9.5527 9.4665 9.3793 9.2912 9.2020 9.1 1 18 9.0204
6 7.8741 7.7183 7.5590 7.3958 7.3127 7.2285 7.1432 7.0568 7.9690 7.8801
7 6.6201 6.4691 6.3143 6.1554 6.0743 5.9921 5.9084 5.8236 5.7372 5.6495
8 5.8143 5.6668 5.5151 5.3591 5.2793 5.1980 5.1156 5.0316 4.9460 4.8588
9 5.2565 5.1114 4.9621 4.8080 4.7290 4.6486 4.5667 4.4831 4.3978 4.3105
Id 4.0492 4.7059 4.5582 4.4054 4.3269 4.2469 4.1653 4.0819 3.9965 3.9090
1 1 4.5393 4.3974 4.2509 4.0990 4.0209 3.9411 3.8596 3.7761 3.6904 3.6025
12 4.2961 4.1553 4.0096 3.8584 3.7805 3.7008 3.6192 3.5355 3.4494 3.3608
13 4.1003 3.9603 3.8154 3.6646 3.5868 3.5070 3.4253 3.3413 3.2548 3.1654
14 3.9394 3.8001 3.6557 3.5052 3.4274 3.3476 3.2656 3.1813 3.0942 3.0040
15 3.8049 3.6662 3.5222 3.3719 3.2940 3.2141 3.1319 3.0471 2.9595 2.8684
16 3.6909 3.5527 3.4089 3.2588 3.1808 3.1007 3.0182 2.9330 2.8447 2.7528
17 3.5931 3.4552 3.31 17 3.1615 3.0835 3.0032 2.9205 2.8348 2.7459 2.6530
18 3.5082 3.3706 3.2273 3.0771 2.9990 2.9185 2.8354 2.7493 2.6597 2.5660
19 3.4338 3.2965 3.1533 3.0031 2.9249 2.8442 2.7608 2.6742 2.5839 2.4893
20 3.3682 3.231 1 3.0880 2.9377 2.8594 2.7785 2.6847 2.6077 2.5168 2.4212
21 3.3098 3.1729 3.0299 2.8796 2.8011 2.7200 2.6359 2.5484 2.4568 2.3603
22 3.2576 3.1209 2.9780 2.8274 2.7488 2.6675 2.5831 2.4951 2.4029 2.3055
23 3.2106 3.0740 2.9311 2.7805 2.7017 2.6202 2.5355 2.4471 2.3542 2.2559
24 3.1681 3.0316 2.8887 2.7380 2.6591 2.5773 2.4923 2.4035 2.3099 2.2107
25 3.1294 2.9931 2.8502 2.6993 2.6203 2.5383 2.4530 2.3637 2.2695 2.1694
26 3.0941 2.9579 2.8150 2.6640 2.5848 2.5026 2.4170 2.3273 2.2325 2.1315
27 3.0618 2.9256 2.7827 2.6316 2.5522 2.4699 2.3840 2.2938 2.1984 2.0965
2S 3.0320 2.8959 2.7530 2.6017 2.5223 2.4397 2.3535 2.2629 2.1670 2.0642
29 3.0045 2.8685 2.7256 2.5742 2.4946 2.4118 2.3253 2.2344 2.1378 2.0342
30 2.9791 2.8431 2.7002 2.5487 2.4689 2.3860 2.2992 2.2079 2.1107 2.0062
40 2.8005 2.6648 2.5216 2.3689 2.2880 2.2034 2.1162 2.0194 1.9172 1.8047
60 2.6318 2.4961 2.3523 2.1978 2.1154 2.0285 1.9360 1.8363 1.7263 1.6006
120 2.4721 2.3363 2.1915 2.0346 1.9500 1.8600 1.7628 1.6557 1.5530 1.3805
2.3209 2.1848 2.0385 1.8783 1.7908 1.6964 1.5923 1.4730 1.3246 1.0000
523
TABLA A.7
Potencia de un contraste en función de a y 5
Contraste unilateral iai ( ontras e unilateral i¡X)
0.05 0.04 0.025 0.02 0,01 0.005 0.05 0.04 0.025 0.02 0.01 0.005
ContrasU bilateral (a) Contraste bilateral (a)
8 (1.10 0.08 0.05 (1.02 0,02 0.01 o 0.10 0.08 0.05 0.04 0.02 0.01
0.(1 0,05 0.04 0,02 0.01 0.09 0.01 2.4 0,78 0,74 0,67 0,63 0,53 0,43
0,1 0.06 0,05 0.03 0,02 0.01 0.01 2.5 0,78 0.77 0.67 0.57 0.55 0,51
0.2 0.07 0.05 0.04 0,02 0.02 0.01 2.6 0.83 0.80 0.74 0.71 0,61 0,51
0.3 0.08 0.05 0.05 0.04 o.o: 0.01 2.7 0.85 0.83 0.77 0.74 0.64 0,55
0.4 0.10 0.08 0.06 0.05 0.02 0.02 2,8 0.87 0.85 0,80 0,77 0.68 0,59
0.5 0.12 0,10 0.07 0.06 0.03 0.02 2.9 0.89 0.87 0.83 0.80 0.72 0.63
0.6 0,14 0.07 0.09 0.07 0.04 0.02 3.0 0.91 0.90 0.85 0.83 0,75 0.70
0.7 0,17 0.15 0.10 0.09 0.05 0.03 3,1 0.93 0.91 0.87 0,85 0,78 0,70
0.8 0.19 0.17 0.12 0.1 1 0.06 0.04 3.2 0.94 0.93 0.90 0.87 0,81 0.73
0.9 0,22 0.19 0.14 II. 1 í 0.08 0.05 3.3 0.95 0,94 0,91 0.89 0,83 0.76
1.0 0,25 0,23 0.17 0,15 0.09 0.06 3,4 0.96 0.95 0.93 0.91 0.86 0.79
1.1 0,29 0.26 0,19 0,17 0,11 0.07 3.5 0.97 0.96 0.94 0.93 0.88 0.82
1.2 0,33 0.30 0,22 0.20 0, 1 3 0.09 3.6 0.97 0.96 0.95 0.94 0.90 0.85
1.3 0,36 0.33 0,25 0.23 0,15 0.10 3.7 0.98 0.97 0.96 0.95 0.91 0.87
1,4 0.40 0,36 0.29 0.26 0.18 0.12 3.8 0,98 0.98 0.97 0.96 0.94 0,91
1.5 0.44 0,50 0.32 0.30 0.21 0.14 3.9 0.99 0.98 0.97 0.96 0.94 0,91
1.6 0.48 0,44 0.36 0.33 0.24 0.16 l.ll 0.99 0.99 0.98 0.97 0.95 0,92
1.7 0.52 0.48 0.40 0.36 0.27 0.19 4,1 0.99 0.99 0.98 0.98 0.97 0,96
1.8 0.56 0.52 0.44 0.40 0.30 0.22 4.2 0.99 0.99 0.99 0.98 0.97 0,95
1.9 0.60 0.56 0.48 0.44 0.34 0.25 4,3 0.99 0.99 0.99 0.99 0.96 0,96
2.0 0.63 0.59 0.52 0.48 0.37 0.28 4.4 0.99 0.99 0.99 0.99 0.98 0.97
2,1 0.67 0,63 0.55 0.5 1 0.41 0.32 4,5 0.99 0.99 0.99 0.99 0.99 0,97
2 2 0.71 0,67 0.59 0,56 0,45 0.35 4,6 0,99 0.99 0.99 0.99 0.99 0.98
2,3 0,74 0,71 0.63 0,60 0.49 0.39 4.7 0,99 0,99 0.99 0,99 0.99 0,98
Factor de equilibrio en función de la potencia y a
Unilateral (a)
0.05 0.04 0.025 0.02 0.01 0.005
Bilateral (a)
l-B 0.10 0.08 0.05 0.04 0.02 0.01
0.30 1.13 1.13 1.44 1.53 1.81 2.06
0.35 1.27 1.37 1.58 1.67 1.95 2.20
0.40 1.40 1.50 1.71 1.80 2.08 2.33
0,45 1,53 1.63 1.84 1.93 2,21 2,46
0,50 1.65 1.75 1.96 2.05 2.33 2,58
0.55 1,78 1.88 2.09 2.18 2.46 2.71
0.60 1.91 2.01 2.22 2.31 2.59 2,84
0,65 2.04 2,14 2.35 2.44 2.72 2,97
0.70 2.18 2.28 2.49 2.58 2.86 3.11
0,75 2.33 2.43 2.64 2.73 3.01 3.26
0.80 2.50 2.60 2.81 2.90 3.18 3,43
0.85 2.69 2.79 3.00 3.09 3.37 3.62
0.90 2.94 3.04 3.25 3.34 3.62 3,87
0.95 3.30 3.40 3.61 3.70 3,98 4,23
0.99 1.98 4.08 4.29 4.38 4.66 4.91
0.999 4.74 4.84 5.05 5.14 5.42 5.67
524
TABLA A.8.1
Rangos «studentizados» de Duncan (rl¡)7
ct=0.01
V 2 3 4 5 6 7 s 9 10
1 90.03 90.03 90,03 90.03 90.03 90.03 90.03 90,03 90,03

2 14,04 14,04 14.04 14,04 14.04 14.04 14.04 14.04 14,04
3 8.261 8,321 8.321 8.321 8.321 8.321 8,321 8.321 8,321
4 6.512 6.677 6.740 6.756 6.756 6.756 6.756 6.756 6.756
5 5.702 5.893 5.989 6.040 6.065 6.074 6,074 6.074 6,074
6 5.243 5,439 5.549 5,614 5.655 5,680 5.694 5,701 5,703

7 4,949 5,145 5.260 5.334 5,383 5,416 5.439 5.454 5.464
8 4,746 4.939 5.057 5.135 5.189 5.227 5,256 5.276 5.291
9 4,596 4.787 4,906 4.986 5.043 5.086 5,118 5.142 5,160
10 4,482 4,671 4,790 4.871 4.931 4,975 5.010 5.037 5.058
1 1 4,392 4.579 4.697 4.780 4,841 4,887 4.924 4,952 4.975

12 4.320 4.504 4.622 4.706 4.767 4.815 4.852 4,883 4,907
13 4.260 4,442 4,560 4.644 4.706 4,755 4.793 4.824 4,850
14 4,210 4,391 4,508 4,591 4.654 4.704 4.743 4,775 4,802
15 4,168 4,347 4,463 4,547 4,610 4.660 4,700 4,733 4,760
16 4.131 4.309 4.425 4,509 4,572 4.622 4,663 4.696 4,724

17 4.099 4.275 4,391 4,475 4,539 4.589 4.630 4,664 4,693
18 4,071 4.246 4.362 4,445 4.509 4.560 4.601 4,635 4.664
19 4,046 4.220 4.335 4,419 4.483 4.534 4.575 4,610 4,639
20 4,024 4,197 4,312 4.395 4.459 4.510 4.552 4.587 4,617
24 3,956 4.126 4.239 4,322 4,386 4.437 4.480 4,516 4,546

30 3,889 4.056 4.168 4.250 4,314 4,366 4.409 4,445 4,477
40 3,825 3.988 4.098 4,180 4.244 4.296 4,339 4.376 4.408
60 3,762 3.922 4.031 4.1 1 1 4.174 4.226 4,270 4,307 4,340
120 3,720 3.858 3.965 4,044 3.107 4.158 4.202 4,239 4.272
oo 3,643 3.796 3.900 3.978 3,040 4.091 4.135 4.172 4.205
7 Adaptada de «New Tables for Multiple Comparison with a Control», de Ch.W. Dunnet.
«Biometrica», vol. 20. 1964.
525
TABLA A.8.2
Rangos «studentizados» de Duncan (rn) (Continuación)"
0=0.05
p
V 2 3 4 5 6 7 8 9 10
1 17,97 17.97 17.97 17.97 17,97 17.97 17.97 17.97 17.97

2 6,085 6.085 6.085 6.085 6.085 6.085 6.085 6.085 6.085
3 4.501 4,516 4.516 4.516 4,516 4.516 4.516 4.516 4,516
4 3,927 4.013 4.033 4,033 4,033 4.033 4.033 4.033 4.033
5 3.635 3.749 3.797 3.814 3,814 3.814 3.814 3.814 3,814
6 3.461 3.587 3,649 3,680 3,694 3.697 3.697 3.697 3,697

7 3,344 3.477 3,548 3.588 3,611 v62: 3,626 3.626 3,626
8 3,261 3.399 3.475 3.521 3.549 3.566 3.575 3.579 3,579
9 3,199 3.339 3,420 3.470 3.502 3.523 3.536 3.516 3.522
10 3,151 3.293 3.376 3.430 3.465 3.489 3.505 3.516 3.522
1 1 3,1 13 3.256 3,342 3,397 3,435 3.462 3.480 3.493 3,501

12 3,082 3.225 3.313 3.370 3.410 3.439 3.459 3,474 3,484
13 3.055 3.200 3.289 3.348 3.389 3,419 1,442 3.458 3,470
14 3,033 3.178 3.268 3.329 3.372 3,403 3.426 3,444 3,457
15 3.014 3.160 3.250 3.312 3.356 3.389 3.413 3.432 3.446
16 2,998 3.144 3.235 3.298 3.343 3.376 3.402 3.422 3,437

17 2,984 3.130 3.222 3.285 3.331 3.366 3.392 3.412 3,429
18 2.971 3.1 18 3.210 3.274 3.321 3.356 3.383 3.405 3,421
19 2.960 3,107 3.199 3.264 3.311 3.347 3.375 3,397 3,415
20 2.950 3.097 3.190 3.255 3.303 3.339 3.368 3,391 3,409
24 2,919 3.066 3.160 3.226 3,276 3.315 3.345 3.370 3.390

30 2,888 3,035 3,131 3.199 3.250 3.290 3,322 3.349 3.371
40 2.858 3.006 3,102 3,171 3.224 3.166 3,300 3.328 3.352
60 2.829 2.976 3,073 3,143 3,198 3,241 3.277 3.307 3,333
120 2.800 2.974 3,045 3.116 3.172 3.217 3.254 3.287 3,314
Do 2.772 2.918 3.017 3.089 3,146 3.193 3.232 3.265 3.294
8 Adaptada de . Critical Values lor Duncan's New Multiple Range Test», de H.L. Harter.
«Bimetrics», 1960.
526
TABLA A.9
Percentiles superiores de rangos de Tukey:í/(O'05, ¿,v )
cfc=0.05
Número de tratamientos ikl
V 2 3 4 5 6 7 8 9 10
1 18.00 27.00 32.80 37.20 40.50 43,10 45.40 47.30 49,10

.y 6.09 8,33 9.80 10.89 11.73 12.43 13.03 13.54 13.99
3 4.50 5.91 6.83 7.51 8,04 8.47 8.85 9,18 9,46
4 3.93 5.04 5,76 6.29 6.71 7.06 7,35 7.60 7.83
5 3.64 4.60 5.22 5.67 6.03 6.33 6.58 6.80 6.99
6 3.46 4,34 4.90 5.31 5,63 5.89 6.12 6.32 6.49

7 3.34 4,16 4.68 5.06 5,35 5,59 5.80 5.99 6.15
8 3.26 4,04 4,53 4,89 5,17 5.40 5.60 5,77 5.92
9 3.20 3.95 4.42 4.76 5.02 5.24 5,43 5.60 5.74
10 3.15 3,88 4,33 4,66 4.91 5,12 5.30 5.46 5,60
1 1 3.11 3.82 4.26 4.58 4.82 5.03 5.20 5,35 5.49

12 3,08 3,77 4.20 4,51 4,75 4.95 5,12 5,27 5.40
1.1 3,06 3,73 4,15 4,46 4,69 4.88 5.05 5,19 5,32
14 3.03 3,70 4,11 4.41 4,64 4.83 4.99 5,13 5.25
15 3.01 3,67 4.08 4,37 4,59 4.87 4.94 5.08 5.20
16 3,00 3,65 4.05 4.34 4,56 4.74 4.90 5.03 5.15

17 2,98 3,62 4.02 4,31 4,52 4.70 4.86 4.99 5.1 1
18 2,97 3,61 4.00 4.28 4.49 4,67 4.83 4.96 5.07
19 2,96 3.59 3.98 4.26 4.47 4.64 4.79 4.92 5.04
20 2,95 3.58 3.96 4,24 4,45 4.62 4,77 4,90 5.01
24 2,92 3.53 3.90 4.17 4.37 4,54 4,68 4.81 4.92

30 2.89 3.48 3.84 4.1 1 4.30 4.46 4.60 4,72 4.83
40 2,86 3.44 3.79 4.04 4.23 4.39 4.52 4.63 4,74
60 2,83 2.40 3.74 3.98 4,16 4.31 4.44 4,55 4,65
120 2,80 2.36 3.69 3.92 4,10 4,24 4.36 4,47 4,56
oo 2.77 2.32 Vfl < 3.86 4.03 4.17 4.29 4.39 4.47
527
TABLA A.10
Valores críticos del coeficiente r de Pearson'
Nivel de significación para una prueba unilateral (a)

0.05 0.025 0.01 0,005
Nivel de significación para una prueba bilateral (a)
gl=N-2 0.10 0.05 0.02 0.01
1 0,988 0.997 0.9995 0.9999
2 0.900 0.950 0.98(1 0,990
3 0.805 0.878 0.934 0,959
4 0,729 0.811 0,882 0,917
5 0,669 0.754 0,883 0.874
6 0.622 0,707 0,789 0,834
7 0,582 0.666 0.750 0,798
8 0,549 0.632 0,716 0,765
9 0,521 0.602 0.685 0.735
10 0,497 0.576 0.658 0,708
1 1 0.476 0.553 0,634 0,684
12 0.458 0.532 0.612 0,661
13 0,441 0,514 0.592 0,641
14 0,426 0.497 0.574 0,623
15 0.412 0.482 0,558 0,606
16 0.400 0.468 0,542 0,590
17 0,389 0.456 0.528 0,575
18 0,378 0.444 0.516 0.561
19 0,369 0,433 0.503 0,549
20 0.360 0,423 0.492 0.537
21 0.352 0,413 0,482 0.526
22 0,344 0,404 0,472 0,515
23 0,337 0.396 0,462 0,505
24 0,330 0.388 0.453 0,496
25 0.323 0,381 0,445 0,487
26 0.317 0,374 0,437 0.479
27 0,311 0,367 0,430 0.471
28 0,306 0,361 0,423 0,463
29 0,301 0.355 0,416 0,456
30 0,296 0,349 0,409 0,449
35 0,275 0,325 0,381 0,418
40 0,257 0.304 0.358 0,393
45 0,243 0,288 0.338 0,372
50 0,231 0,273 0.322 0,354
60 0.211 0,250 0,295 0,325
70 0,195 0,232 0,274 0,302
80 0,183 0,217 0,256 0,283
90 0.173 0,205 0,242 0,267
100 0.164 0.195 0,230 0,254
9 Adaptada de «Statistical Tables for Biological, Agricultural and Medical Research», de R.A.
Fisher y F. Yates. «Oliver and Boyd», Edimburgo, 1962.
528
TABLA A.11
Valores del estadístico de Fisher en función de r1"

r X r X r X r X r X
.000 .000 .200 203 .400 .424 .600 .693 .800 1.099
.005 .005 .205 208 .405 .430 .605 .701 .805 1.113
.010 .010 .210 213 .410 .436 .610 .709 .810 1.127
.015 .015 .215 218 .415 .442 .615 .717 .815 1.142
.020 .020 .220 224 .420 .448 .620 .725 .820 1.157
.025 .025 .225 229 .425 .454 .625 .633 .825 1.172
.030 .030 .230 234 .430 .460 .630 .741 .830 1.183
.035 .035 .235 239 .435 .466 .635 .750 .835 1.204
.040 .040 .240 245 .440 .472 .640 .758 .840 1.221
.045 .045 .245 250 .445 .478 .645 .767 .845 1.238
.050 .050 .250 255 .450 .485 .650 .775 .850 1.256
.055 .055 .255 261 .455 .491 .655 .784 .855 1.274
.060 .060 .260 266 .460 .497 .660 .793 .860 1.293
.065 .065 .265 271 .465 .504 .665 .802 .865 1.313
.070 .070 .270 277 .470 .510 .670 .811 .870 1.333
.075 .075 .275 282 .475 .517 .675 .820 .875 1.354
.080 .080 .280 2SS .480 .523 .680 .829 .880 1.376
.085 .085 .285 293 .485 .530 .685 .838 .885 1.398
.090 .090 .290 299 .490 .536 .690 .848 .890 1.422
.095 .095 .295 304 .495 .543 .695 .858 .895 1.447
.100 .100 .300 310 .500 .549 .700 .867 .900 1.472
.105 .105 .305 315 .505 .556 .705 .877 .905 1.499
.110 .110 .310 321 .510 .563 .710 .887 .910 1.528
.115 .115 .315 326 .515 .570 .715 .897 .915 1.557
.120 .120 .320 332 .520 .576 .720 .908 .920 1.589
.125 .125 .325 337 .525 .583 .725 .918 .925 1.623
.130 .130 .330 343 .530 .590 .730 .929 .930 1.658
.135 .135 .335 348 .535 .597 .735 .940 .935 1.697
.140 .140 .340 354 .540 .604 .740 .950 .940 1.738
.145 .145 .345 360 .545 .611 .745 .962 .945 1.783
.150 .150 .350 365 .550 .618 .750 .973 .950 1.832
.155 .155 .355 371 .555 .626 .755 .984 .955 1.886
.160 .160 .360 377 .560 .633 .760 .996 .960 1.946
.165 .165 .365 383 .565 .640 .765 1.008 .965 2.014
.170 .170 .370 388 .570 .648 .770 1.020 .970 2.092
.175 .175 .375 394 .575 .655 .775 1.333 .975 2.185
.180 .180 .380 400 .580 .662 .780 1.045 .980 2.298
.185 .185 .385 406 .585 .670 .785 1.058 .985 2.443
.190 .190 .390 412 .590 .678 .790 1.071 .990 2.647
.195 .195 .395 418 .595 .685 .795 1.085 .995 2.994
10 Adaptada de «S1atistical Tables for Biological. Agricultural and Medical Research», de R.A.
Fisher y F. Yates, «Oliver and Boyd», Edimburgo, 1962.
APENDICE B
TEORÍA COMBINATORIA
COMBINATORIA
La aplicación de la regla de Laplace depende, en cada caso, de la forma en que están

agrupados los puntos muestrales. La combinatoria se ocupa del estudio de los distintos
tipos de agrupaciones que se pueden hacer con los elementos de un conjunto.
Estas agrupaciones pueden llevarse a cabo atendiendo a dos criterios: la naturaleza
de los elementos que se van a agrupar y el orden en que van a ser seleccionados.
Cuando, en una agrupación de elementos sólo interviene la naturaleza de éstos, se
forman las combinaciones; cuando además interviene el orden, se tienen las variaciones.
B.1. Variaciones ordinarias (o sin repetición)
Se llaman variaciones ordinarias de m elementos tomados de n en n a las diferen

tes agrupaciones que se pueden formar con los m elementos de un conjunto, de tal
forma que, en cada agrupación entren n elementos distintos, diferenciándose una
agrupación de otra, bien por la naturaleza de alguno de sus elementos, bien por el
orden de colocación de los mismos.
B.1.1. Formación de las variaciones ordinarias
Si disponemos de los guarismos 1 , 2, 3 y 4, y queremos formar las variaciones de

estos cuatro elementos tomados de dos en dos, nos podemos servir de un diagrama
de árbol.
Partimos de las cuatro variaciones monarias (de una sola cifra).
Si añadimos a la derecha de cada variación de orden 1 los tres elementos que
quedan, se forman las variaciones de orden 2, que son 4x3= 1 2.
Las variaciones de orden 3 se obtendrán añadiendo a la derecha de cada variación
de orden dos los elementos que falten. Habrá 4x3x2=24.
532
2
1 3
, 4
' 1 1
T ' -, 2 3
2
' 4 3 4
1 4 1
. 2
3
Figura B.I.: Formación de variaciones binarias.
B.1.2. Número de variaciones ordinarias
El número de variaciones ordinarias de m elementos tomados de n en n es el

producto de n números enteros consecutivos, donde m es el primer factor y (m-n+1)
el último:
V;i, = m(m -l)(m-2)-(m-n + l) (1)
Para expresar el número de variaciones ordinarias, se emplea el símbolo V', el

número m se conoce como base y el número n se llama orden.
El proceso de formación de las variaciones nos sirve de ayuda para deducir la
expresión (1). En efecto, tenemos:
1) m variaciones monarias:
V'-, = m
2) m(m-1) variaciones binarias, ya que, por cada variación monaria, se pueden
formar m-1 binarias añadiendo a la monaria los m-1 elementos que quedan:
V2„, = V'jm-l) = m(m-l)
3) Por cada una de las m(m-1) binarias, se pueden formar m-2 ternarias, añadiendo
a cada una de las binarias los m-2 elementos que quedan:
Vi = VÍ (m-2) = m(m -l)(m- 2)

4) Para formar las variaciones de orden n, por cada variación de orden n-1, se
pueden formar m-(n-1)=m-n+1, que son los elementos que quedan, luego hemos dedu
cido que
VI = Vm'[m-(n - l)] = m(m - l)(m -2)-(m-n+ I)
533
Ejemplo B. 1
En una carrera compiten 10 caballos. En los boletos de apuestas hay que poner el
nombre del primero, segundo, tercero y cuarto caballo. ¿Cuántos boletos hay que
rellenar, como mínimo, para estar seguros de acertar?
Solución: Cada agrupación diferirá de la otra por el orden en que coloquemos los
4 caballos o por la naturaleza de uno de los caballos, y no puede haber elementos
repetidos. Se trata de variaciones ordinarias de 10 elementos tomados de 4 en 4.
Luego el resultado es:
Vn = 10 9 8 7= 5040 boletos.
B.2. Variaciones con repetición
Cuando, en las distintas agrupaciones de las variaciones ordinarias puede haber

elementos repetidos, tenemos las variaciones con repetición.
Si utilizamos también un diagrama de árbol para formar las variaciones con repeti
ción, la cifra que ahora tenemos que añadir a la derecha de cada variación del orden
inferior, puede ser alguna de las que figuran en dicha agrupación.
De este modo, el número de variaciones con repetición de orden n se obtiene de
multiplicar por m el número de variaciones con repetición de orden n-1:
VR"m = VR"m'm
Tenemos, por tanto: y^ - m
VRÍ = VRÍ,m = m:
VRm = VR'm m = m: m = m '
(2)
VRl = VR"Jm = m"'m = m"
Ejemplo B.2
Para acertar con seguridad una quiniela de fútbol de 14 resultados, ¿cuántos co

lumnas hay que rellenar?
Por cada apuesta, con los tres signos (1, X, 2) hay que rellenar las catorce celdas
de cada columna: luego hay elementos que se van a repetir. Se trata de variaciones
con repetición de 3 elementos tomados de 14 en 14, y su número es:
VR'J = 3N = 4782969 columnas
534
B.3. Permutaciones
Se llaman permutaciones de n elementos a las distintas agrupaciones que se pue

den formar con los n elementos, de tal forma que una agrupación difiera de otra
solamente por el orden de colocación de los elementos.
Las permutaciones de n elementos pueden ser consideradas como caso particular
de variaciones de n elementos tomadas de n en n.
Al número de permutaciones de n elementos se le representa con el símbolo P , y
es: P„ = V';, = n(n-l)(n-2)---3-2-l
El producto n(n-1)(n-2)...1 es también llamado factorial de n, y se representa por n!.

Por tanto
P„ = n! = n(n - l)(n -!).. -3 -21 (3)
Ejemplo B.3
¿De cuántas maneras pueden sentarse seis personas en un banco?, ¿y en una

mesa camilla?
Hay tantas formas de sentarse seis personas en un banco como ordenaciones
posibles de seis elementos distintos. Se trata de permutaciones de 6 elementos:
P6=6!=720.
Cuando las seis personas se sientan en una mesa camilla, observamos que, si
trasladamos a cada persona un asiento a la derecha (o a la izquierda), se obtiene una
situación idéntica a la anterior. Entonces, si se fija una persona, y se permuta el resto,
se tienen todas las formas posibles:
P=5!=120
B.4. Permutaciones con repetición
Se llama permutaciones con repetición de n elementos a las distintas agrupaciones

que se pueden formar con los n elementos de modo que se cumplan las condiciones:
1) en toda agrupación figuran todos los elementos; 2) entre los elementos de cada
agrupación los hay que son iguales entre sí.
El número de permutaciones con repetición se denota por P J-b-, donde m es el
índice inferior, que indica el número de elementos de que consta cada agrupación, y
a,b,... son los índices superiores, que señalan el número de veces que se repite cada
elemento.
Para determinar cuántas son, pensemos sobre un ejemplo concreto:
535
Ejemplo B.4
Queremos hacer quinielas de fútbol que contengan 7 signos 1, cuatro X y tres 2.

Con estas condiciones, ¿cuántas columnas distintas se pueden rellenar?
Una posible combinación es
1111111 XXXX222
Si se permutan entre sí los siete unos, las 4 X y los 3 signos 2, se tienen 7!4!3!
agrupaciones, que corresponden a la misma apuesta.
Luego el número de agrupaciones distintas es el cociente de dividir el número de
permutaciones ordinarias de 14 elementos entre 7!4!3!:
p7A.i .
14'
ru . 120120
P7P4P} 7!4!3!
Generalizando este resultado, el número de permutaciones con repetición de m
elementos, en donde uno de ellos se repite a veces, otro b veces,..., otro c veces,
siendo m=a+b+...+c, es
r m! (a + b+. (4)
Pt
" p„p„. Pe " a!b!...c! a!b!. .c!
B.5. Combinaciones
Se llama combinaciones de m elementos tomadas de n en n a las distintas agrupa

ciones que se pueden formar tomando n elementos de los m de tal forma que una
agrupación difiera de otra por la naturaleza de algún elemento.
Representaremos por Cmn al número de combinaciones de m elementos tomados de
n en n. Este número coincide con el número de subconjuntos de n elementos que se
pueden obtener de un conjunto de m elementos.
Para hallarlo, se pueden formar las variaciones de los m elementos tomados de n
en n. Fijada una de éstas, hay, con los mismos elementos pero en distinto orden,
tantas variaciones como permutaciones de n elementos. Luego el número de combi
naciones de m elementos tomados de n en n es igual al número de variaciones de m
elementos tomados de n en n dividido por el número de permutaciones de n elementos:
Y.
(' Ó)
A este número se le llama número combinatorio, se le denota por ('» ], y se lee «m

sobre n». "' '
Teniendo en cuenta las definiciones y propiedades de variaciones y permutaciones,
resulta:
536
(6)
En efecto:
V"„, m(m- l)-(m-n+ l) m(m- 1 ). . (m-n + l)(m- n)!
\n) P„ n!(m - n)! n!(m - n)!
Ejemplo B.5
¿De cuántas maneras se pueden extraer tres cartas a la vez de una baraja española?
La solución es equivalente a contabilizar el número de subconjuntos posibles de 3
elementos de un conjunto de 40; son, pues, combinaciones de 40 elementos tomados
de 3 en 3: . % Am
40 \ 40!
- 9880
\?)
3 / " 3!37!
B.6. Combinaciones con repetición
Se llama combinaciones con repetición de m elementos tomados de n en n al

número de agrupaciones distintas que se pueden formar con n elementos de entre los
m, en las que pueden aparecer elementos repetidos, y donde dos agrupaciones son
diferentes exclusivamente si tienen algún elemento distinto.
El número de combinaciones con repetición de m elementos tomados de n en n se
representa por CRm", y viene dado por la expresión:
CR','„ = Cm-n., = I I f7)
Ejemplo B.6
Disponemos de varios recipientes de 1 litro de las bebidas A, B y C. y nos dispo

nemos a experimentar cócteles en envases de 4 litros. ¿Cuántos cócteles distintos
podemos hacer?
Se trata de las combinaciones con repetición de 4 elementos tomados de 3 en 3:
CRÍ=Ct = (l)=Y = 15
APÉNDICE C
OTROS MODELOS DE DISTRIBUCIÓN

C. 1 . Función r (gamma)
Además de la distribución normal, cuyo papel relevante en los problemas de

inferencias resulta evidente, es conveniente conocer otras distribuciones, en las que
se basa gran parte de la estrategia de la Estadística Inferencial.
Estas distribuciones se pueden introducir a partir de la distribución p (gamma),
que toma su nombre de la función del mismo nombre, de gran interés en el análisis
matemático.
La distribución gamma sirve además de modelo para numerosos experimentos en
los que interviene el tiempo, como sucede en las llegadas de aviones a un aeropuerto
y, en general, en los problemas de teoría de colas.
Las distribuciones exponencial y la X2 de Pearson son casos particulares de la
distribución gamma; la primera se aplica a la resolución de problemas de fiabilidad y
de procesos de Poisson, y la segunda tiene especial importancia en la construcción
de test de hipótesis.
Definición C. I: Se llama función T (gamma) ala aplicación

r..9T -» 9T dada Por V(a ) = ]xa Vdc.Vcc e 9í (1)
Esta función cumple las siguientes propiedades:

I. V(l) = ]e'dx=l D. r(l/2) = ]x":eKdx = Jñ
ÜI. r(z) = (z-I)r(z-D IV r(n) = (n-l)!, V« € N
C.1.1. Distribución r (gamma)
Definición C.2r. La variable aleatoria X se dice que tiene una distribución

gamma, de parámetros a y B, si su función de densidad es:
-xa'e'Ksix>0
/To P'T(ar (2)
0 , resto
siendo coO y B>0.
540
A partir de las propiedades de la función gamma, se demuestra que es una función

de densidad, así como la siguiente proposición:
Proposición C.l: La media y la varianza de la distribución gamma son:

u = ceS y cr = rxB-
C.1.2. Distribución exponencial
La función exponencial es el caso particular de la función gamma en que a=l . Por

lo tanto, se puede definir:
Definición C.3: La variable aleatoria X tiene una distribución exponencial de

parámetro B si su función de densidad viene dada por:
-e~>,six>0 (3)
f(x)='
0 , resto
siendo B>0.
Por tratarse de un caso particular de la distribución gamma, la media y la varianza

de la distribución exponencial se determinan inmediatamente:
L La media de la distribución exponencial es u=B.
II. La varianza de la distribución exponencial es a2=BA
C.1. 3. Distribución %2
La distribución X ' es otro caso particular de distribución gamma; se obtiene

cuando a=n/2 y B=2.
Esta distribución desempeña un papel fundamental en los problemas de inferencia
estadística, sobre todo, los problemas referentes a bondad de ajuste, independencia y
homogeneidad.
Definición C.4: La variable aleatoria X tiene una distribución X ' con n gra
dos de libertad, si su función de densidad viene dada por:
7 *
x'2~' e p , si x > 0
"'" \22r(f2> (4)
0 , resto
siendo n un número entero positivo.
541
Por tratarse de un caso parti

cular de la distribución gamma, re
sultan evidentes las siguientes
propiedades:
I. La media de la distribución
X es n=n.
II. La varianza de la distribu-
Figura C.I: Graficas de la X2 con 2 y 5 gl.
ción X ' es a2=2n.
También se verifican las siguientes proposiciones, cuyas demostraciones omiti
mos:
1. Sean las n variables aleatorias Z,,Z,,...,Zn independientes entre sí y todas ellas
con distribución normal N(0,1). Entonces la variable aleatoria
X2=Zf+- + Z2K
se distribuye según una X ' con n grados de libertad.
Un caso particular de éste es Z2 cuando Z es una variable aleatoria con una
distribución normal N(0,1). Z2 es una X ' con 1 grado de libertad. En la figura C.I
tenemos las gráficas de la X ' con n=l y n=6.
Para n>2, las curvas correspondientes tienen forma algo parecida a la de la normal,
pero con sesgo hacia la derecha.
Esta distribución está tabulada para distintos valores de n (tabla A.5 del apéndice A).
Para el uso de la tabla, se consi
deran áreas a la derecha del punto
r 0 2
crítico j£a2n, que representa el valor

de la abscisa que deja a su derecha,
bajo la curva, un área igual a a:
P{x2^XÍ„)=a
La tabla A.5 proporciona valores
de Xñ.„ en función de a y n. Cada Figura C.2: Área y valor critico de la X2.
columna, a partir de la segunda, está encabezada por los valores a de las áreas. La
primera columna tiene los grados de libertad n, y, en el cuerpo de la tabla, figuran los
valores de X 2-
Así, por ejemplo, el valor de la X ' con 6 grados de libertad, que deja a la derecha
un área de 0'05, es
X0205.6 = 12592
El 95% del área de una X ' se encuentra entre Xows y X0025.

542
Proposición C.2: Si x ' y x l son dos variables aleatorias con distribución

X ' con r y p grados de libertad, respectivamente, entonces
X r + /» Ai r Ai p
La proposición C.2. nos indica que la suma de dos y2. es otra %2 que tiene, como
grados de libertad, la suma de los grados de las otras dos.
C.2. Distribución t de Student'
Otra distribución continua que desempeña un papel fundamental en la inferencia

estadística, sobre todo cuando se trabaja con pequeñas muestras, es conocida como
t de Student.
Figura C.3: Gráficas de la 1 con 2 y 5 gl.
Definición C.5: Si Y es una variable aleatoria que sigue una distribución nor
mal N(0,1) y Xn2 otra variable aleatoria independiente de Y, que se distribuye
según una X2 con n grados de libertad, la variable aleatoria
Y
Vx;/«
es una variable aleatoria, cuya distribución es conocida como t de Student con
n grados de libertad, siendo n un número entero positivo.
La distribución t de Student representa una familia de funciones que depende del

parámetro n.
La función de densidad de la distribución t está definida en todo el campo real, su
gráfica es simétrica con respecto al eje de ordenadas y se asemeja a la normal tipificada,
a la que converge cuando n crece.
La figura C.3 nos muestra dos de las funciones de la familia de las t (con 2 y 5 gl).
1 Student es el seudónimo que utilizó W.S. Gossei cuando publicó, en 1908. la distribución que
lleva este nombre, para evitar que el dueño de la cervecería donde trabajaba conociera su identidad.
543
En la tabla A.4 del apéndice A, están tabulados los diferentes valores de la t para
distinto número de grados de libertad.
Para utilizar la tabla A.4, se consideran áreas a la derecha de un punto t (punto
crítico), que corresponde al valor de la abscisa que deja a su derecha un área igual a
a en una t con n grados de libertad, es decir:
P(t>ta.„)=a
La tabla A.4 difiere de la tabla de la normal en que las áreas, en la t, son los
encabezamientos de las columnas y los valores de t figuran en el cuerpo de la tabla, al
contrario de la normal.
Media y varianza de la t de Student:
I. La distribución t de Student con n grados de libertad tiene como media u=0, si n>1.
II. La distribución t de Student con n grados de libertad tiene como varianza
i n
cr = , si n > 2
n-2
C.3. Distribución F de Fisher-Snedecor
La distribución F de Fisher-Snedecor también va a desempeñar un papel funda

mental en los problemas de inferencia, sobre todo en los relativos al análisis de la
varianza.
La definición de la distribución F se puede introducir a partir de la Xj.
Definición C.6: Si xl y Z„ son dos variables aleatorias independientes, que

siguen una distribución %2 con ni y n, grados de libertad, respectivamente,
entonces la variable aleatoria X„,'/ni
F=
x„;/n2
tiene una distribución F con n y n, grados de libertad.
Se trata también de una familia de

distribuciones, que dependen de los
parámetros n, y n,, donde ni es el nú
mero de grados asociados a la fun
ción del numerador y n, el número de
grados asociados al denominador.
Por consiguiente, la gráfica de F
va a depender del orden en que se
dan los parámetros n y nv Figura C.4: Gráfica de la F de Fisher-Snedecor.
544
La distribución F está también tabulada para distintos valores de los parámetros y

distintos niveles de significación (tablas A.6 del apéndice A; se incluyen cuatro ta
blas: dos para a=0'05 y dos para a=0'01).
Las tablas nos proporcionan el valor de la abscisa, Fa , que deja a su derecha
un área igual a a en una F con n, y n2 grados de libertad:
P{F„,.„2>Ftt,„,„)=a
La propiedad que enunciamos a continuación relaciona los valores de la F con
los de la F , que permite evaluar los valores de la F para a=0'95 y a=0'99.
Proposición: En una distribución F con ni y n, grados de libertad, se verifica
/
* /-« ,n,.n2 ~ rp
* a .n2.n1
RESPUESTA A LOS EJERCICIOS
DE NÚMERO PAR
547
CAPITULO 1
1.2. La tabla de frecuencias es: y el perfil radial:
Clases n1 «I »1 lOOfj
2' 5-2'75 27 0'054 5'4

2' 75iS3 — 27 -
36 0'072 7'2
— 63 -
85 0'170
3-3 '25 — 148 - 17
3' 25-3' 5 144 0' 288 28' 8
— 292-
3' 5-3' 75 98 0' 196 19' 6
-390-
3' 75-4 56 0' 112 11' 2
— 446-
4-4'25 32 0' 064 6' 4
-47B-
4' 25-4'5 22 0' 044 — 500- 4' 4
Total 500 l'DO 100

1 .6. Los polígonos de frecuencias de las
dos distribuciones son:
Se trata de una distribución continua,
cuya representación más adecuada es el
histograma: 0' 15 -
0' 30 0' 05
0. 20 1 .8. La siguiente tabla contiene las distri

buciones del trigo y de la cebada:
0' 10 -
Ano n1
'l
n'l fi
1 407 0' 106 458 0'058
2 546 0'119 730 0'093
2'5 3'25 3'5 3 434 0'094 095 0' 114
4 465 0' 101 978 0' 125
5 503 0' 110 80Z 0'102
6 388 0084 630 0085
7 405 cose 754 0'096
1 .4. El perfil ortogonal es: B 298 0065 790 O'IOO
9 600 0' 131 878 0' 112
10 446 0' 097 910 O' 165
Total 457Z 1- 000 7825 1' 000
Los polígonos de frecuencias del tri

go y de la cebada son:
..a \ \
HLCIFHREDMU
123456 7 99 10
548
1 . 1 0. El diagrama correspondiente a la dis 1 . 1 6. Un posible pictograma es:

tribución del empleo es: Pitner u Inestre Segundo t t inest re
Induttrla Construcción
CM
Agricultura
Otro»
d¡5É ■■■"
Servicios
1 . 12. La tabla de frecuencias es:

1.18. 1 ). El histograma correspondiente es:
20-30 7
30-40 6
40-50 11
50-60 8
60-70 7
70-BO 6
80-90 5
90-100 4
200 300 400 500 600 700 800

1.14. 1 ). Diagrama de barras vertical:
2) Curva acumulativa de frecuencias:
,1 Mw i 4 • ti 10
2). Diagrama de frecuencias acumuladas:

—i t 1 1 1 1—
i ¡ 250 350 450 550 650 750
U'5 - I
1 i—i i i , »
549
CAPITULO 2
2.2. Media : 7'941. mediana = 7'82, moda m. cuadrática=l 1 '427; m. armónica=7'0088.

= 8'01. Es 7'008<8'574<10'136<11'427, lo que
comprueba la relación conocida entre las
2.4. Media=3'333, mediana=3, moda=3. 4 medias.
2.6. Mediana = 6, moda = 6, P = 3'75, 2.14. 1) Media=37'777 ptas., media-

P„, = 6'75 na=34'l1.
Rango=33%. 2) Que la mediana es igual a 34' 1 1 signifi
ca que la mitad de los clientes retiraron
2.8. Q, = 50'82.Q, = 62,84. Rango : 44'95 ■ una cantidad inferior a 341 10 ptas. y la
45%. otra mitad una cantidad superior.
3) Rango=84'4%.
2. 10. Media=250791'66. mediana=l 28900;
todos los valores se dan una sola vez: 2.16.Q,=4r46,Q=67'96.
carece de moda. Por encima de la media: La cuarta parte de los alumnos tiene
Alemania, Francia. Italia y Reino Unido. una calificación inferior a 41'46 y otra
Bajo la mediana: Bélgica. Dinamarca. Gre cuarta parte de los alumnos una califica
cia. Irlanda. Luxemburgo y Portugal. ción superior a 67'96.
2. 1 2. M. aritmética = 10' 1 36; m. geométrica 2.18. Mediana=77'5, Q=58. Q =95, Ran-

= 8'574: go=43%.
CAPÍTULO 3
3.2. 1) a,=4'372, a =24' 139. 3.6. a=33'33, a=1280'5, a =54888'8,

a,=152'139. a4=1040'79. a4=2550069'4.
2» m,=0,
m=2'66. m4=52'53. 3.8. l)o=8O'9O.a=8'99.
2) A^'28. Ap=0'33.
3.4. 1) M,=6'06.
d
Media=6'12. 3)g4=2'41-3=-0'59<0, luego es
Desviación mediana=0'44, platicúrtica.
D.a.m. respecto de la media
na^' 84, 3.10. m,=0, nv=0'014. m =-1'25, m=6'07.
D.m. respecto de la media=0'837.
2l R2=6,Rl=6'62-5'41=r21. 3.12. a,=100'1,o:=274'99,a=16'58,
R.=0'605. A,.=0'067. Ap=0'06.
3) o:=ri9,a=r09.
550
3.14. 1) Media=17'891. 3.16. a=3'981;a=15'851;a=63'13;

Varianza=13'61. a4=25'14.
Desviación típica=3'69. AJH)'64;Ap=-0'154.
2) R=20'75-15'7=5'05. Los dos coeficientes señalan que hay

^=2-525. simetría negativa.
CAPITULO 4
4.2. 4.S
i 6 8 e
G f. 7 o
100 300 500

ru
700
4.4.
M=16
Bd=350
,190 H,=770
HM80
E,=9S E^920
L, = 70 É=507-S
i!IEi-2 L =980
100 300
4.10. Las puntuaciones que separan cada

una de las categorías son la mediana y
los dos cuartiles, que son: Q,=355,
Md=481 yQ=630.
Pertenecen a D los que puntúan por de
bajo de 355; a la categoría C los que
puntúan de 355 a 48 1 ; a la categoría B los
que puntúan de 481 a 630, y forman parte
4.6. de la categoría A los que puntúan por
12 oo
13 000
encima de 630.
14 ooo
15 00 4. 1 2.Para el trigo es CV =0' 1 6.
16 ooooooooo Para el maíz es CV =0' 10.
1? ooo La distribución del maíz es más homogé
líi 00000
nea.
19 00
Luego, aunque poco, es más homogénea
la producción de maíz.
551
4.14.
CAPITULO 5
5.2. 1) Características de las distribucio La distribución de la capacidad

nes marginales: psicomotora condicionada por una edad
a» = 18'4,sx:=7,84,sx=2'8, de 10 años es:
an,=60, s;=774'99, sY=27"83.
2) Características de la condicionada: 10-16 0
Media=33,33,Var=138'88, 17-23 0
D.u'pica=11'78. 24-30 1
31-37 9
5.4. X depende funcionalmente de Y; en 38-44 5
cambio, Y no depende funcionalmente de X. 45-51 6
52-58 3
5.6. a,,=7,84,an=774,99.a,=1060.
a„=6659,2.an =365625.
5.12. mn=665. Hay una relación de depen
dencia funcional entre las dos variables.
5.8. a,l=155'5, a„ =8'3, a2n=2307'45,
a0,=7'41,m,=92,05."
5. 14. 1 ) La distribución marginal de X vie
ne dada por la tabla:
5.10. La distribución marginal del avance
de la capacidad psicomotora viene dada rr.o rss r55-ri.o rdn-r65 i'G5-r7o i'7o-i'75
por la tabla:
10-16 6
17-23 13
24-30 20 La distribución marginal de Y viene dada
31-37 por:
24
50-55 3
38-44 28
55-60 21
45-51 32
60-65 50
52-58 22 65-70 101
La distribución marginal de la edad es: 70-75 59

75-80 39
7 8 9 10 11 12 13 14
80-85 17
11 22 14 24 30 26 14 .1
552
2) La distribución de X condicionada por 5.18. Una representación adecuada de la

Y=l '625 es: distribución conjunta es mediante círculos:
55-60 4
I- 76 w
60-65 22
65-70 63
1'72
1'70
o"
70-75 28 I" 68 —i»
i
75-80
80-85
10
14
Ul
73 76 78 80 82
3) La distribución de Y condicionada por 5.20. La producción según el país es:

X=62'5 es: ****-^l pa ¡a b«¿.&»¿
Canadá
r50-l'55 1' 55-1' 60 I'601'65 l'65-r70 T70-r75
EE UU
II 1 I 1 I
Austral!a
4) No hay relación de dependencia fun

cional.
m18 A lg od 6 n Tabaco Todos
\///A
franela
5.16. Se trata de una población descrita

individuo por individuo, por lo que está
indicado representar la distribución con
junta mediante el diagrama de dispersión:
CAPITULO 6
6.2. r=-0'97. en la capacidad de captación de nuevos

clientes.
6.4. 1) ox=6'19,oY=6,34,m1=-7'84y
r=-0'199. 6.6. sx.= 18'59, sY.=25'34, m', =-94'08,
2) La correlación es muy débil y ne r'=-0'199.
gativa; no parece que el cursillo influya Se observa que los coeficientes de co-
553
rrelación son iguales. Se cumple la pro 6.14. Se trata de dos variables, una conti
piedad I de 6.5.2.2. nua y otra dicotómica, luego se utiliza el
coeficiente de correlación biserial puntual,
6.8. Se debe aplicar el coeficiente <t>. que vale:
<I>=0'069, luego no existe correla
ción. Sí hay correlación.
6.10. Se utiliza el coeficiente de correla 6.16. 1) la recta pedida tiene por ecuación
ción biserial puntual, que es rb =0'21. La y=0'119x-0'668
correlación es muy débil. 2) El gasto estimado en transporte
es de 17182 ptas.
6.12. Se trata de dos variables continuas
dicotomizadas, por lo que se usa el coefi 6. 1 8. El coeficiente de Spearman, que vale:
ciente de correlación tetracórica, que es: rs=0'68.
rT=0'09
lo que indica una relación positiva muy
débil entre el peso y la aplicación en el
estudio.
CAPITULO 7
7.2. l)Es(E,B,P), donde E={ 1.2,3,4,5,6}, 7.14. p=l/18.

B es el conjunto de las partes de E, y P
viene dada por las probabilidades de los 7.16. p=35/92.
sucesos elementales, que son: P(1)=l/21,
P(2)=2/21, P(3)=3/21, P(4)=4/21, P(5)=5/21 7.18. p=3/8.
yP(6)=6/21.
2)P{l,3,5}=3/7; P{3,4,5,6}=6/7; 7.20. l)p=l/35;p=34/105;p=6/35.
P{3.5}=8/21.
0, si x<-1
7.4. 1)E1 35% lee al menos uno de los -.,
periódicos. 2) El 65% no lee ninguno. 4 si -1<x<0
7.22. F(x)= |, si 0<x<l
7.6. 1 ) p= 1 /2470; 2) p=3/ 1 235 ;
3)p=100/247. |, si l<x<2
o
1, si x>2
7.8. l)p=l/8;2)p=l/4;3)p=l/2.
0, six<0
7.10. l)p=3/10; 2) p=2/5; 3) p=3/5.
7.24. F(x) = l (1 -cosx), si0<x<n
2
7.12. l)p=l/6; 2) p=l/2; 3) p=l/2.
1, SÍ x > 71
554
7.26. 1) Ganancia media esperada=60 7.30. p=0'85.

ptas.
2) Varianza=146080. 7.32. m2=l'05; m3=-0'6; m4=2"06.
7.28. Y = {V2.'} con P{j2) = 05y HD = 05.
CAPÍTULO 8
8.2. p=0' 1042. 8. 14. 1 ) p=0'9878; 2) p=0'3632; 3) p=0'0901 ;

4)p=0.0113:5)p=0,7647.
8.4. p=0'83.
8.16. 1) a=2"05; 2) a=-0'93; 3) a=0'84;
8.6. p=0'O039. 4) a=-0'53.
8.8. 1 ) n=2; 2) p=0' 1 00 1 ; p=0' 2076. 8.18. 1) n=4194; 2) n=1303; 3) n=4503.
8.10. 1 ) Binomial B(6,3^7): 2) np=2'57. 8.20. p=0'36.
8.12. l)p=0.2458;2)p=0'0989;3)p=0.2621. 8.22. l)p=0'0907;2)p=0.0002;3)p=0.
CAPITULO 9
9.2. Media=2'5; desviación típica=0'64. 9.18. Intervalo del 95%: I=[ 1965.2035].
9.4. l)p=0'2126;2)p=0,7874. 9.20. El tamaño de la muestra debe ser

n=130.
9.6. 1) p=0'063; 2) p=0.()63; 3) p=0'874.
9.22. El tamaño de la muestra debe ser
9.8. 1) Mediana=l 1 ; Q =7; Q =15'5; R=24. n=21.
9.10.p=0,9934. 9.24. Intervalo para la desviación típica:

I=[2r94,69'67].
9.12.p=0'0125.
9.26. Intervalo del 95% para la media de
9.14. Intervalo para duración media: horas: I=[7'48.8'52].
I=[98972,1010'27].
9.16. 1) Intervalo del 95%: I=[4'95.5'45].

2) Intervalo del 99%: I=[4'87,5'53].
555
CAPITULO 10
10.2. Resulta Z=4'08>1'65, por lo que se 10.12. t=l'86<t¡9 002 =2'093, y se acepta
rechaza la hipótesis nula, tomando la de la hipótesis nula. La compañía asegura
cisión de no administrar el medicamento. dora no puede sacar la conclusión de que
la media que recorre un automóvil sea
10.4. Z=-3'5<-1'96, por lo que se rechaza superior a 16000 km.
la hipótesis nula, concluyendo que la
máquina no se ajusta a la programación. 10.14. 1) El intervalo es: I=[26'36,28'63].
2) La potencia es l-B=0'40.
10.6. t=-6'57<-2'53, luego se rechaza la
hipótesis nula, aceptando que U<1 15. 10.16. 1) Un contraste unilateral de
H0:u=90000 con H,:u>90000, utilizando la
10.8. El tamaño debe ser n=l 1 . t de Student, puesto que se desconoce la
desviación típica muestral.
10.10. Z=2'23>1'96, luego se rechaza la 2) Si admite una duración superior
hipótesis nula, por lo que, en principio se a 90000 horas, y resulta falso.
acepta una vida media superior en dicha 3) Si acepta una media de 90000
región. horas, cuando la media es superior.
CAPÍTULO 11
11.2. Valor estimado de Z=l'32< 1 1 . 1 2. El valor estimado del parámetro es

<z0,025=l'96, luego no es significativa la t=3 ' 82 1 >t , , 0.025=2'20 1 , luego sí es signifi
diferencia entre las medias de los cocien cativa la diferencia entre los tiempos em
tes de las dos universidades. pleados antes y después de utilizar el pro
grama.
11.4. Valor estimado de t=0'457<t,8 u025=
=2 '048, luego no se puede concluir que 1 1.14. Z=-0'97>-1 '96, por lo que se acep
el consumo sea menor con el nuevo tipo ta la hipótesis nula: no hay diferencia sig
de neumático. nificativa al nivel del 0'05.
1 1 .6. El tamaño debería ser n=33.
11.16. t=0'789<t,,0„25=2'047, luego se
11.8. 1) El valor estimado para el contras acepta la hipótesis nula, y, en consecuen
te de varianzas es F=1'638<FU i90.05= cia, que no hay diferencia significativa de
=2 '25 8, por lo que se acepta la homoge talla entre niños y niñas recién nacidos.
neidad de las varianzas.
2) t=l'03<t330.05=2'04, y se admite la 11.18. t=-0'53>- 1 '772, por lo que se acep
hipótesis nula: no se puede afirmar que el ta la hipótesis nula, no apreciándose di
segundo método sea mejor que el primero. ferencia en cuanto a la forma de pensar
frente al problema de la droga.
11.10. Z=4'06>z0.025=l'96, luego resulta
significativa la influencia del sexo.
556
CAPITULO 12
12.2. El valor estimado del estadístico es 12.6. El valor estimado del estadístico es
X2 =12'59>X62oo5=12'59, luego se re % 2 = I095>X¿o« = 5'". luego se recha-
chaza la hipótesis nula, y, por tanto, se za la hipótesis nula, llegando a la conclu
admite una dependencia entre el hecho sión de que la moneda está cargada.
de vivir en una determinada zona y perte
necer a una clase. 12.8. El valor estimado del estadístico es
% 2 = \69'45)xla05 = 15'51, por lo que se
12.4. El valor estimado del estadístico es
X ' = 25'92)xl¡m5 = 5'99' Por lo tanto' se rechaza la hipótesis nula, y no se puede
rechaza la hipótesis nula, y se admite una aceptar que los datos procedan de una
relación de dependencia entre la práctica normal N(6,l '2).
religiosa y el nivel de ingresos de las fa
milias.
CAPITULO 13
13.2. 1) Se trata de análisis de la varianza 2) Las pruebas de comparación múltiples

simple. 2) El contraste resulta significati LSD, de Duncan, Tukey y Scheffé indi
vo. La tabla resumen del ANOVA es: can diferencias significativas entre las
medias de los grupos primero y tercero, y
origen de la variación se 91 nc F
primero y cuarto.
Intragrupo 12' 36 4 3 '092 5'044
Intergrupos ierrori 15'32 25 0'613
13.6. 1) Se trata de análisis de varianza
Total 27' 69 29 simple. El contraste resulta significativo.
La tabla es:
3) Las pruebas LSD, de Tukey, Duncan y
Scheffé dan todas diferencias significati origen de la va laclón SC gl nV F
vas entre las medias del tercero y cuarto Intragrupo i32' 33 4 33'o8 33'9
grupo, y entre las del primero con el se Intergrupos ei rori 24' 33 D 97
gundo, cuarto y quinto. No la hay entre
Total 156' 66 ¡:'.'
el primero y tercer grupo.
1 3.4. 1 ) La prueba del ANOVA simple re 2) Las cuatro pruebas dan diferencias sig
sulta significativa. La tabla resumen es: nificativas entre las medias del grupo ter
cero con el primero y segundo, del grupo
origen de la variación SC gi HC F
cuarto con el primero, segundo y tercero,
Inttagrupo 6'905 3 2.3018 4' 104
Intergrupos ¡error )
y entre la media del quinto con el prime
8' 972 16 Q'5608
ro, segundo y tercero.
Total 15' 877 19
557
13.8. Es un ANOVA simple, cuya tabla Origen de la variación se 91 tte r

resumen es: Prluer factor iaenor la i 567' 18 i 567' 18 30'76
Segundo factor iné todo i 859' 76 3 286'25 i5'52

origen de lo variación se 91 HC F Interacción 133'54 3 M'M 2'4i
Va i lacló n Intergrupos 737' 49 40 i8'43
Intragrupo 3i6'83 3 10561 9746
Intergrupos (error) Total 229696 47

2i' 66 20 roa
Total 238 '50 23
Para el segundo factor realizamos un
La prueba resulta significativa. Las ANOVA simple, cuya tabla resumen es:
pruebas de comparaciones múltiples LSD.
de Tukey, Duncan y Scheffé dan diferen origen de ta variación SC .H HC í
cias significativas entre las medias del Intragrupo 858' 72 3 286' 24 8' 75
grupo primero y segundo, la del grupo Intergrupos ierrori i43825 44 32 '68
tercero con las del primero y segundo, y Total 2296' 97 47
la media del cuarto con las de los otros

tres.
Esta prueba resulta significativa, indi
13.10. 1) Se trata de un ANOVA de dos cando la prueba t protegida una diferen
factores independientes: el método de cia significativa de la media del grupo
enseñanza, que presenta cuatro niveles cuarto con respecto a las medias de los
de tratamiento, y el factor memorístico, otros tres.
con dos niveles. Resumiendo, es un di
seño factorial 2x4. La primera prueba y la
interacción no son significativas. Resulta
significativa la segunda prueba. La tabla
resumen es:
CAPITULO 14
14.2. 1) Recta de regresión: F Variación 5 Cuadrado ¡L C Hedías Contraste

y=0'528x+8r41.
Regresión 3 39' 1 1 339' 1 F=19. 96
2) r=0'76.
Error 237'8 M 16' 98
3) Valor estimado del estadístico:
F=19'96; valor crítico: F™, , 14=4'60; lue Total 576-9 15
go el contraste es significativo, y recha

zamos la hipótesis nula, aceptando una
relación lineal entre las alturas de padres 14.4. 1) Recta de regresión:
e hijos. y=-0'11x+8'66.
2) Calificación estimada: 6' 79.
La tabla resumen del ANOVA para el 3) Intervalo: I=[6'436,7'336].
contraste es:
558
14.6. Para una prueba bilateral, se obtiene La tabla resumen del ANOVA es:
como valor estimarlo: t=2'309; el valor
crítico es: t0.05 ,8=2'048, luego el contras origen de 1 3 variación SC gl nc r
te resulta significativo, por lo que se pue Regresión 13' 93 1 13' 93 36' 65
de admitir que el coeficiente de correla Error 4'58 12 o' 38
ción de la población es distinto de cero.
Total 18' 51 1 i
14.8. Para una prueba bilateral, valor esti

mado: r=0'3, valor crítico: r=0'404; por 14.12. 1) Recta de regresión ajustada:
tanto se acepta la hipótesis nula, y, en y=0'849x+7'5.
consecuencia, que el coeficiente de co 2) Cantidad estimada: 45'705.
rrelación de la población es cero. 3) Intervalo para la respuesta media:
I=[44'59,46'81]
14.10. 1) Recta de regresión: 4) Intervalo para una cantidad:
y=2'4747x+7'459. I=[39'91,51'49]
2) Cantidad promedio a 1'75:
y=11'7897. 14.14. Valor estimado del estadístico:
3) Valor estimado del estadístico: F=2'958; valor crítico: F005 5 ,=2'68; luego
F=36'49, valor crítico: F0.05 , I2=4'75, lue el contraste es significativo, por lo que no
go el contraste resulta significativo, por es posible aceptar la linealidad del modelo.
lo que se admite una relación lineal entre
la temperatura y la cantidad. 14.16. I=[9' 11, 14'46].
CAPITULO 15
15.2. Valor estimado del estadístico: a=0'01 es 2'57; el contraste no es signifi

Z=0'159; valor crítico: Z0.o5=1'96; luego cativo, y se puede admitir que las res
el contraste no resulta significativo. Se puestas han sido aleatorias.
acepta que las dos muestras proceden de
la misma población. 15.8. 1) La prueba de suma de rangos da
un valor estimado del estadístico: Z=9'26;
15.4. Valor estimado del estadístico: el valor crítico es 1'96, para una prueba
H=5'2552; valor crítico: 5'99; el contraste bilateral y a=0'05, luego el contraste es
no es significativo, por lo que se admite significativo, y se admite una diferencia
que no hay diferencia entre las dos mues significativa entre las calificaciones de los
tras. dos grupos.
15.6. La prueba de rachas proporciona un 2) Una medida de la intensidad es:

valor estimado del estadístico: Z=0'975; rG=0'32.
el valor crítico para una prueba bilateral y
559
15.10. El contraste se puede hacer por Se acepta la hipótesis nula, admitiendo

medio de la suma de rangos. El valor es- que los dos instrumentos de medida dan
timado del estadístico es Z=l '35. que es los mismos resultados,
menor que el valor crítico, 1 '96.
BIBLIOGRAFIA
AIZPUN, A. y otros. «Introducción a la Estadística», Ed. U.N.E.D., Madrid 1976.
ALAMINOS. A. «Gráficos», Centro de Investigaciones Sociológicas. Madrid 1993.
ALCAIDE, A.. «Estadística aplicada a las Ciencias Sociales», Ed. Pirámide Madrid 1979.
ANDERSON. T.V.. «An Introduction to Multivariate Statistical Analysis», Ed. John Wiley,
Nueva York 1984.
ARLEY, N. y BUCH, R., «Introducción a la Teoría de la Probabilidad y a la Estadística», Ed.
Alhambra. Madrid 1968.
ARNAIZ, G., «Introducción a la Estadística Teórica», Ed. Lex Nova. Valladolid 1978.
ASH, R., «Real Analysis and Probability», Ed. Academic Press. New York 1972.
ATO. M. y LÓPEZ, J.J.. «Fundamentos de Estadística con SYSTAT», RA-MA. Madrid 1994.
ATO. M. y LÓPEZ PINA. J.A., «Fundamentos de Estadística Inferencial», Yerba. Murcia
1981.
AZORÍN POCH. F.. «Curso de Muestreo y Aplicaciones», Ed. Aguilar. Madrid 1969.
BARÓ LLINAS, J.. «Cálculo de Probabilidades», Parramón Ed.S.A.. Barcelona 1987.
BARÓ LLINAS. J.. «Estadística Descriptiva», Parramón Ed.S.A.. Barcelona 1988.
BERNADET. M., «Manuel de Statistique Descriptive», Ed. P.U. Lyon, Lyon 1981.
CALOT. G. «Curso de Estadística Descriptiva». Ed. Paraninfo, Madrid 1970.
CANO. F.. «Cálculo de Probabilidades y Estadística», Ed. U.N.E.D., Madrid 1976.
CLEVELAND. W.S.. «The Elements of Graphing Data», Wadsworth. Monterey, CA 1985.
COCHRAN. W.G. y COX. G.M., «Experimental Design», Ed. John Wiley, Nueva York 1957.
CRAMER. H., «Elementos de la Teoría de la Probabilidad y algunas de sus aplicaciones», Ed.
Aguilar, Madrid 1970.
CRAMER. H., «Métodos Matemáticos de la Estadística», Ed. Aguilar, Madrid 1963.
CHAO. L.L., «Estadística para las Ciencias Administrativas», Ed. McGraw-Hill, México 1990.
CUADRAS, C.M.. y otros, «Fundamentos de Estadística», PPU. Barcelona 1991.
DE GROOT. M.H.. «Optimal Statistical Decisions», Ed. McGraw-Hill. Nueva York 1970.
DOWNIE. N.M., y otros. «Métodos Estadísticos Aplicados», Ed. del Castillo, Madrid 1983.
EDWARDS. A.L.. «Experimental Design in Psychological Research», Ed. Rinehart. Nueva
York 1960.
EDWARDS, A.L., «Statistical Methods for the Behavioral Sciences», Ed. Rinehart. Nueva
York 1967.
FELLER. W., «Introducción a la Teoría de Probabilidades y sus Aplicaciones», I y II», Ed.
Limusa. México, 1975.
FISHER. R.A. y YATE. E. «Statistical Tables for Biological. Agricultural and Medical Research»,
OH ver and Boyd. Edimburgo 1943.
FTSZ, M.. «Probability Theory and Mathematical Statistics», Ed. John Wiley, Nueva York
1963.
564
FREEMAN, H., «Introducción a la Inferencia Estadística», Ed. Trillas, México 1970.

FREIXA I BLANXART. M. «Análisis Exploratorio de Datos», PPU, Barcelona 1992.
GARC1A HOZ, V. y FERRER, S., «Estadística aplicada a la Educación y Ciencias Humanas»,
Ed. Rialp. Madrid 1966.
GMURMAN. V.E.. «Teoría de las Probabilidades y Estadística Matemática», Ed. MIR, Ma
drid 1974.
GRAIS, B.. «Statistique Descriptive», Ed. Dunod, París 1980.
GUENTIER. W.. «Introducción a la Inferencia Estadística», Ed. del Castillo, Madrid 1978.
GULLON. A.. «Introducción a la Estadística Aplicada», Ed. Alhambra, Madrid 1971.
GUTIÉRREZ CABRIA. S., «Filosofía de la Probabilidad», Ed. Tirant lo Blanch. Valencia
1992.
GUTIÉRREZ JÁIMEZ, R., y otros, «Curso Básico de Probabilidad», Ed. Pirámide. Madrid
1993.
HALMOS, P„ «Measure Theory», Ed. Springer-Verlag. Berlín 1974.
HANSEL, G.. y BERREBI. E., «Elements de Probabilité et de Statistique», tomo I. Ed. Dunod.
París 1980.
HOEL. P.G., «Introducción a la Estadística Matemática», Ed. Ariel. Barcelona 1987.
HORWICCH. P, «Probability and Evidence», Ed. Cambridge Uiversity Press. Cambridge 1982.
KAZMIER. L.J., «Estadística aplicada a la Administración y la Economía», Ed. McGraw-Hill.
México 1981.
KOLMOGOROV. A.N., «Fundations of Theory of Probability», Chelsea Pub., Nueva York
1956.
LARSON. H.J., «Introducción a la Teoría de Probabilidades e Inferencia Estadística», Ed.
Limusa, México 1975.
LINDLEY, D.V., «Introduction to Probability and Statistics from a Bayesian Viewpoint», Ed.
Cambridge University Press. Cambridge 1965.
LIPSCHUTZ, S.. «Probabilidad», Ed. McGraw-Hill. Madrid 1991.
LÓPEZ CACHERO. M.. «Fundamentos y Métodos de Estadística», Ed. Pirámide. Madrid
1976.
LÓPEZ DE LA MANZANARA. J.. «Problemas de Estadística», Ed. Pirámide. Madrid 1992.
LOEVE, M.. «Teoría de la Probabilidad», Ed. Tecnos. Madrid 1976.
MAGNUSSON. D., «Test Theory», Ed. Addison-Wesley, Nueva York 1967.
MARÍN, F. y SÁNCHEZ, J.. «Inferencia Estadística: Aplicaciones», PPU, Barcelona 1991.
MARTÍN-GUZMÁN, MR, y MARTÍN PLIEGO, F.J. «Curso Básico de Estadística y Eco
nomía», Ed. AC, Madrid 1991.
MARTÍN PLIEGO. F.J.. «Curso Práctico de Estadística Económica», Ed. AC, Madrid 1990.
MERRIL. W., «Introducción a la Estadística Económica», Ed. Amorrortu. Buenos Aires 1972.
MILLS. R.L., «Estadística para Economía y Administración», Ed. McGraw-Hill. Bogotá 1980.
MOOD. M.A. y GRAYBILL, F.A., «Introducción a la Teoría Estadística», Ed. Aguilar, Ma
drid 1976.
NEVEU. J., «Bases Mathématiques sur le Calcul des Probabilités», Ed. Masson, París 1970.
NIETO. U., «Introducción a la Estadística», Ed. Aguilar. Madrid 1972.
OSTLE. B., «Estadística Aplicada», Ed. Limusa, México 1976.
PARZEN. E.. «Teoría moderna de Probabilidades y sus aplicaciones», Ed. Limusa, México
1976.
565
PARZEN, E., «Procesos Estocásticos», Ed. Paraninfo. Madrid 1972.

PÉREZ JUSTE. R.. «Estadística Descriptiva», UNED. Madrid 1985.
QUESADA, V. y otros, «Curso y Ejercicios de Estadística», ED. Alhambra. Madrid 1992.
RAO. C.R., «Linear Statistical Inference and its Applications», Ed. John Wiley, Nueva York
1965.
RENYI. A., «Cálculo de Probabilidades», Ed. Reverte. Madrid 1970.
R1OS. S., «Análisis Estadístico Aplicado», Ed. Paraninfo, Madrid 1976.
R1OS. S.. «Iniciación Estadística», Ed. ICE, Madrid 1977.
RÍOS. S„ «Métodos Estadísticos», Ed. del Castillo, Madrid 1977.
ROHATGI. V.K., «An Introduction to Probability Theory and Mathematical Statistics», Ed.
John Wiley, Nueva York 1976.
SAN MARTÍN. R. y PARDO. A.. «Psicoestadística: Contrastes Paramétricos y No
Paramétricos. Pirámide. Madrid 1989.
SCHEFFÉ. H., «The Analysis of Variance», Ed. John Wiley, Nueva York 1957.
SIEGEL, S., «Nomparametric Statistics for the Behavioral Sciences», Ed. McGraw-Hill. Nueva
York, 1956.
SPIEGEL. M.R.. «Estadística», McGraw-Hill. Madrid 1992.
SPIEGEL. MR.. «Probabilidad y Estadística», McGraw-Hill, México, 1976.
TORTRAT. A.. «Calcul des Probabilités et Introduction aux Proceses Aleatoires», Ed. Masson,
París 1971.
TUCKER, H., «Introducción a la Teoría Matemática de las Probabilidades y a la Estadística»,
Ed. Vicens Vives, 1966.
TUKEY, J.W., «Exploratory Data Analysis», Addison-Wesley, Reading. MA 1977.
TURNER. J.C.. «Matemática moderna aplicada. Probabilidades, Estadística e Investigación
Operativa», Ed. Alianza Universidad. Madrid 1979.
VIEDMA, J.A., «Exposición intuitiva y Problemas resueltos de Métodos Estadísticos», Ed.
Castillo. Madrid 1976.
VIZMANOS, J.R., «Curso y Ejercicios de Bioestadística», Ed. Autor. Madrid 1976.
WALPOLE. R.E. y MYERS. R.H.. «Probabilidad y Estadística», McGraw-Hill, México 1992.
WELKOWITZ, J., «Estadística aplicada a las Ciencias de la Educación», Ed. Santillana, Madrid
1986.
WINER. B.J.. «Statistical Principies in Experimental Design», Ed. McGraw-Hill. Nueva York
1962.
YULE. G.U.. y KENDALL. M.G., «Introducción a la Estadística», Ed. Aguilar, Madrid 1957.
ZELNER, A., «An Introduction to Bayesian Inference in Economics», Ed. John Wiley, Nueva
York. 1975.
ÍNDICE ALFABETICO
-Técnicas del ANOVA. 411
-Variaciones intra e intergrupos. 417
Agrupación en clases, 40 Anómalos, datos, 132
Ajuste, bondad de, 390 ANOVA. Ver «Análisis de la varianza»
Ajuste de curvas Aplastamiento. 106
-método de mínimos cuadrados. 185 Aproximación de la binomial. 284
Ajuste de una distribución de frecuencias Apuntamiento. 106
-por una binomial, 269 -coeficiente de. 106
Aleatoria, variable. 238-240 Área de rechazo, 335
Aleatorio Área bajo la curva normal, 279
-experimento, 219 Aritmética, media, 65-70
-suceso, 220 Armónica, media, 72-74
Alfa. Ver «Nivel de significación» Asimetría
Algebra, ó. 224 -coeficiente de Fisher, 1 04
Alineación, coeficiente de no, 474 -coeficiente de Pearson, 105
Altos, valores, 129 -coeficiente de Bowley, 105
Amplitud del intervalo, 40 -coeficiente absoluto, 105
Análisis de dos caracteres, 145 -índices, 123-124
Análisis exploratorio de datos. 1 19 -de Kelly, 124
Análisis de la varianza -de Yule, 123
-Una variable independiente (análisis de -medidas, 104-105
varianza unidireccional), 412-428 Atributos, correlación de. 204
-Cálculos. 420 Azar. 219
-Comparaciones múltiples, 423-428
-Contraste de la F de Fisher-Snedecor. 420 B
-Estimador intragrupo e intergrupo. 419
-Grados de libertad. 422 Bajos, valores, 129
-Intensidad de la relación, 428 Bayes, teorema de, 236
-Medias cuadráticas, 418. 422 Bernoulli. pruebas de, 265
-Modelo matemático, 415 Beta. Ver «Error de tipo II»
-Pruebas de comparaciones múltiples, 423 Bivariantes. distribuciones. 145
-Prueba de Duncan, 426 Bilateral, prueba. Ver «Contraste de hipótesis
-Prueba LSD ó t protegida. 423 sobre la media»
-Prueba de Tukey, 427 Binomial, distribución, 265-269
-Prueba de Scheffe, 425 Biserial, correlación, 201
-Suma de cuadrados, 420 Bondad de ajuste. 390
-Tabla resumen, 423
570
-medias (sobre), 33 1
-selección del estadístico, 335
Caja. Ver «Gráfico en caja» -nivel de significación, 334
Cambio de variable, 252-256 -potencia, 342-350
Caracteres, 34 -no paramétricos. Ver «Distribución libre»
Cartograma, 48 -unilateral, 337
Causalidad, 199 -valoración del contraste, 339
Centrimedia, 122 Corrección de agrupamiento de Sheppard, 1 12
Centro de gravedad de la nube de puntos, 188 Correlación, 184, 192-205
Clase, intervalo de, 40 -al cuadrado (r), 474
Clase modal, 82 -biserial puntual, 201
Cochram-Cox, modelo de, 374 -causalidad (y), 199
Coeficiente -coeficiente de, 193,194
-de apertura, 98 -coeficiente *, 202
-de confianza, 315 -contraste basado en el ANOVA, 456
-de contingencia, 406-408 -contraste de la diferencia, 476
-coeficiente <1>, 406 -contraste basado en la t, 471
-coeficiente C, 407 -datos agrupados, 197
-coeficiente Oc de Cramer, 407 -de Pearson, 193-194
-de correlación. Ver «Correlación» -de Spearman, 200
-de determinación, 193, 195, 474 -demostración de propiedades, 215
-de regresión, 190 -estimación, 470
-de variación de Pearson, 98 -negativa, 194
-de variación media -positiva, 193
-respecto de la media, 99 -potencia y correlación, 476
-respecto de la mediana, 99 -tablas para el contraste, 471, 527
Combinaciones, 535 -tetracórica, 204
-con repetición, 536 -variables incorreladas, 198
-ordinarias, 535 Covarianza, 160
Comparaciones múltiples. Ver «Análisis de Crítica
varianza» -región, 335
Comprobación de hipótesis. Ver «Contrastes -valor, 335
de hipótesis» Cuadrática, media, 72
Condicionada, probabilidad, 232 Cualitativos, caracteres, 35
Contrastes de hipótesis, 331-354 Cuantiles, 75
-bondad de ajuste, de, 390 Cuantitativos, caracteres, 35
-bilateral, 338 Cuartil, 81
-coeficiente de regresión (sobre el), 456 Cuarto, 130
-consideraciones previas, 33 1 Cuasivarianza, 300
-con frecuencias, 389 Curtosis, 105, 125
-decisión final, 336 Curva
-decisiones posibles, 333 -acumulativa de frecuencias, 54
-determinación del valor crítico, 335 -de frecuencias, 52
-diferencia de medias (sobre), 355-388 -de Lorenz, 108
-establecimiento de las hipótesis, 332 -de potencia, 348
571
-de regresión, 184 -muestras dependientes, 377-380

-normal general, 273 -poblaciones homogéneas. 373
-normal tipificada. 277 -poblaciones no homogéneas, 374
Diseño de experimentos, 428-442
-Dos variables independientes (diseño
factorial), 428
Datos agrupados en clases, 40 -Cálculos, 434
Datos anómalos, 132 -Descomposición de las variaciones, 432
-adyacentes, 132 -Establecimiento de las hipótesis, 431
-alejados, 132 -Interpretación de los resultados, 442
-remotos, 132 -Medias cuadráticas, 433
Decil. 81 -Modelo matemático, 429
Decisión, 333 -Pruebas de comparaciones múltiples.
Decisión final en un contraste, 336 439-443
Delta. Ver «Factor de equilibrio» -Prueba de los efectos principales, 442
Dependencia funcional. 155 -Tabla resumen, 443
Descriptiva. Ver «Estadística» Dispersión
Desigualdades de las medias, 74 -concepto, 89
Determinación. Ver «Coeficiente de determi -medidas absolutas, 90-96
nación» -medidas relativas, 97-100
Determinación del valor crítico, 335 Distribución de frecuencias, 35
Desviación típica Distribución libre, contrastes de, 483-505
-definición, 94 -pruebas
-propiedades, 94 -basadas en rangos. 485
Diagrama -de Kruskall-Wallis, 490
-de dispersión, 174 -de rachas, 501
-diferencial. 44 -de signos, 503
-de frecuencias acumuladas. 53 -eficiencia de la potencia, 489, 494,
-integral. 53 497, 500
-de rectángulos, 44 -suma de rangos, 485
-de sectores, 45, 167 -Wilcoxon, 494
-de tronco y hojas, 126 -ventajas e inconvenientes, 483
Diferencia de medias, 353-388 Distribuciones
-contraste con muestras grandes. 358 -condicionadas. 149
-varianzas población conocidas, 367 -continuas
-determinación tamaño muestral. 365 -exponencial. 540
-potencia del contraste. 362 -F de Fisher. 543
-contraste con muestras pequeñas. 367 -Gamma, 539
-potencia del contraste, 368 -normal general, 273-277
-inferencias sobre, 356 -normal tipificada, 277-284
-intervalo de confianza para, 379, 381 -t de Student, 542
-método de Cochram-Cox. 374 -X: de Pearson, 540
-método de los grados de libertad, 376 -discretas
-método de trabajo, 355 -binomial, 265-270
-muestras independientes. 358-376 -de Poisson, 270-273
572
-uniforme. 246 -relativa. 36, 146

-leptocúrticas, 106, 125 Frecuencias
-marginales. 147. 148 -contrastes con, 389
-mesocúrticas, 106. 125 -propiedades de las, 36, 146
-platicúrticas, 106, 125 Función
-simétricas, 56 -de densidad. 242
-de distribución, 240
e -de una variable continua. 243
-de una variable discreta. 239
Eficiencia. Ver «Distribución libre» -Gamma. 527
Eficiente, estimador, 303 -generadora de momentos, 255
Error de -masa de probabilidad. 239
-tipo I. 333
-tipo II. 333
Error típico, 302
Escala de potencias, 137 Gamma
Espacio muestral, 224 -distribución, 539
Esperanza matemática, 244-246 -función, 539
Estadística Geométrica
-Descriptiva, 33 -media, 70
-Exploratoria, 1 19 -regresión, 208
-Hipotético-Deductiva, 33 Gini. índice de, 108
-Inferencial, 33, 295 Grados de libertad. 305
Estadístico. 299 Gráficas
Estereograma, 174 -para distribuciones bivariantes. 163-175
Estimación -para distribuciones simples. 44-56
-por intervalo, 314-320 Gráfico
-puntual, 305-314 -en caja y extensión, 133
Estocástico. suceso, 219 Gran mediana. 498
Experimento aleatorio. Ver «Aleatorio». Grupo
Exponencial -de contraste, 356
-distribución, 540 -experimental, 356
-regresión, 208
Extensión, 133 II
Hipótesis
-aceptar. 333
-alternativa, 331
Factor de equilibrio, 346 -contraste. Ver «Contraste de hipóte
Fisher. Ver «Coeficiente» sis», 331
Formación de las variaciones ordinarias, 531 -nula, 331
Frecuencia -rechazar, 333
-absoluta. 36. 146 Histograma, 49
-acumulada. 36 Homogeneidad de las varianzas. 37 1
-marginal. 147 Homogeneidad, pruebas de, 402
573
I K
Igualdad de proporciones, prueba de, 404 Kolmogoroff. axiomática de. 526

Incompatibles, sucesos, 220 Kruskal-Wallis, prueba de, 490
Incorreladas, variables. 198
Independencia funcional. 161
Independencia, pruebas de, 398
índice de discrepancia de la hipótesis nula, 343 Laplace. regla de. 229
índice de Gini, 108 Límite de confianza, 315
índices Límites
-de cuitóos, 125 -internos
-de forma -interiores, 132
-asimetría -exteriores. 132
-de Kelly, 125 -externos
-de Yule, 124 -interiores. 132
-de dispersión, 1 23 -exteriores. 132
-de localización resistentes. 121 Línea resistente, 130
-de variación cuartílica. 124 Linealidad del modelo, 465
Inferencia, 281 LSD. prueba. Ver «Análisis de la varianza»
Inferencias sobre
-diferencias de medias. 356 M
-diferencias de proporciones, 383
-medias, 373 Media
-proporciones, 379 -aritmética, 65-71
Inferencial. Ver «Estadística» -armónica, 73
Interacción, 443 -contraste sobre la. Ver «Contraste»
Intercuartílico. recorrido. 91 -cuadrática. 72
Intervalo de clase, 40 -geométrica. 70
-amplitud. 40 -global. 414
-extremos, 40 -recortada, 121
-marca de clase, 41 -intercuartílica. 122
Intervalo de confianza Mediala. 109
-para la diferencia de medias, 361 Mediana
-para la media. 331 -cálculo. 76
-varianza conocida. 316 -definición, 75
-varianza desconocida. 3 1 9 -extendida, 122
-para la proporción, 379 -prueba de la, 498
-para la razón de varianzas, 324 Medidas
-para la varianza, 323 -de aplastamiento, 105
-de apuntamiento. 105
-de dispersión, 90
Mínimo cuadrática, recta. 187
Ji cuadrado (X:) Moda
-distribución, 540 -cálculo, 82
-tabla. 518 -definición, 81
574
Modalidad, 56 -ordinarias, 534

Modalidad del carácter. 34 Pictograma, 46
Modelo Población, 33. 297
-lineal, 452 Poisson, distribución de, 270
-matemático. 415. 429 Polígono de frecuencias acumuladas, 54
Momentos Polígono de frecuencias simples, 52
-centrales. 100, 157 Porcentajes. Ver «Proporciones»
-factoriales. 100 Posición, características de. 63
-potenciales. 100 Potencia del contraste sobre
-respecto al origen, 101 -diferencia de medias, 356
Muestra, 297 -media, 342
Muestral. espacio, 224 -coeficiente de correlación, 473
Muestreo -proporciones, 381
-aleatorio, 297 Primeros momentos
-aleatorio simple. 298 -centrales, 100, 157
-respecto al origen, 101, 157
N Probabilidad
-asignación, 229
Nivel de significación, 334 -condicionada, 232
Normal. Ver «Distribuciones» -definición, 227
Normalidad, pruebas de. 394, 396 -propiedades, 227
Nube de puntos. 184 -total, teorema de la, 236
Probabilístico, espacio, 227
Profundidad, 126
Promedio de cuattiles. 121
Octavos, 130 Promedio de cuartos, 131
Ojiva, 55 Promedios de octavos, 131
Operaciones con sucesos, 220 Puntuaciones derivadas, 1 10
-T, 111
-SAT. 111
Paso, 132 R
Pearson, coeficiente de
-asimetría. 105 Raíz, trasformaciones de raíz cuadrada. 140
-correlación general, 193 Recorrido, 90
-correlación lineal, 194 -intercuartílico, 91
-variación, 98 -semiintercuartflico, 91
Parabólica, regresión, 206 Recortadas, medias. 121
Parámetro. 37 Recta. Ver «Regresión»
Patillas, 134 Región de aceptación, 335
Perfil Región crítica, 335
-perfil ortogonal, 47 Regla de Laplace, 229
-perfil radial. 48 Regresión
Permutaciones -exponencial, 208
-con repetición, 534 -geométrica, 208
575
-lineal, 168
-contraste. Ver «Contrastes»
-elección del modelo, 452 t de Student, 542
-inferencias mediante la t, 460 T (puntuaciones), 1 1 1
-modelo de, 452 Tabla
-parámetros, 452 -de contingencia, 391
-parabólica, 206 -de letras-índice, 1 33
-recta de regresión de Y sobre X, 1 87- 1 89 Tablas de distribuciones
-recta de regresión de X sobre Y, 1 89 -de una variable continua, 43
Relación entre contrastes e intervalos, 339 -de una variable discreta, 38
Residuales, 396 Tablas estadísticas, 509
Resistentes, índices de localización, 121 -binomial. 51 1
Respuesta promedio, 462 -Fde Fisher-Snedecor. 519-522
Restricciones en el uso de la X2, 393 -normal. 515. 516
Riesgo de cometer error de tipo I, 334 -percentiles de Tukey, 526
-Poisson. 513-514
-potencia, 523
-rangos studentizados de Duncan. 524. 525
SAT (puntuaciones), 1 1 1 -t de Student. 517
Sectores (diagrama de), 46, 167 -valores críticos del coeficiente r de
Selección del estadístico para un contraste. 335 Pearson. 527
Sesgo, 56 -valores del estadístico de Fisher. 528
Sheppard, corrección de, 112 -X2 de Pearson, 5 1 8
Simetría, 56 Teoremas de
Sistema completo de sucesos, 223 -Bayes, 236
Spearmann (coeficiente de), 200 -central del límite. 304
Sucesos, 220-225 -Tchebycheff, 249
-contrario, 221 -de la probabilidad total. 236
-dependientes, 234 Test. Ver «Contrastes»
-diferencia de, 223 Tetracórica. Ver «Correlación»
-diferencia simétrica de. 223 Transformaciones de potencias, 137
-igualdad de, 221 Trimedia. 121
-incompatibles. 220 Tronco. Ver «diagrama en tronco».
-independientes dos a dos. 235 Tukey, 119
-independientes (mutuamente), 236 -prueba de. 427
-intersección de, 220 -tabla con los percentiles de. 526
-operaciones con, 220
-relación de contenido, 221 l
-unión, 221
Sumas indicadas, 23 Uniforme, distribución. 264
Sumas dobles. 27 Universo. 33
576
Variables que intervienen para la potencia, 343

Variación. Ver «Coeficiente»
Valoración crítica del contraste unilateral, 339 Variaciones
Variabilidad, 89 -con repetición, 533
Variable -ordinarias, 532
-aleatoria, 238 Varianza
-continua, 242 -definición, 94
-discreta, 240 -propiedades, 94
-estadística, 35 Verosimilitudes, 237
-continua, 35
-discreta, 35
-tipificada, 1 10 W
Variables
-cambio de, 252-254 Wald-Wolfowit, prueba de, 501
-incorreladas, 198 Wilcoxon, prueba de, 494
-dependientes, 155
-independientes, 154
Ediciones de la Universidad
de Castilla-La Mancha 9 788488 255877

Estadistica Descriptiva e Inferencial - Vargas Sabadias PDF

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Estadistica Descriptiva e Inferencial - Vargas Sabadias PDF

Cargado por

Copyright:

Formatos disponibles

Antonio Vargas Sabadlas

Catedrático de Matemáticas de I.B.

Universidad de Castilla-La Mancha

Edita: Servicio de Publicaciones de la

Diseño colección: García Jiménez

© Antonio Vargas Sabadías

La investigación, como proceso de resolución de problemas científicos, debe

Las consideraciones que acabo de hacer, mi propia experiencia docente con

Toledo, febrero de 1995. El Autor

PRIMERA PARTE: ESTADÍSTICA DESCRIPTIVA

1.12. Ejercicios propuestos 57

3. CARACTERÍSTICAS DE DISPERSIÓN Y FORMA 89

3.3.3. Coeficiente de variación de Pearson 98

4. ANÁLISIS EXPLORATORIO DE DATOS 119

4.11.1. Transformaciones de potencias 137

5. DISTRIBUCIONES BIVARIANTES 145

5.15. Ejercicios propuestos 175

6. REGRESIÓN Y CORRELACIÓN 183

SEGUNDA PARTE: CÁLCULO DE PROBABILIDADES

7. PROBABILIDAD Y VARIABLE ALEATORIA 219

7.2.2. Otras operaciones y relaciones entre sucesos 223

8. MODELOS DE DISTRIBUCIONES 263

8.4. Distribución normal tipificada 277

TERCERA PARTE: ESTADÍSTICA INFERENCIAL

INFERENCIA ESTADÍSTICA 295

9.18. Intervalo para la razón de varianzas 324

10. CONTRASTES DE HIPÓTESIS 331

11. DIFERENCIAS DE MEDIAS Y PORCENTAJES 355

11.4.2. Intervalo de confianza 379

12. AJUSTE, INDEPENDENCIA Y HOMOGENEIDAD 389

13. ANÁLISIS DE LA VARIANZA 411

13.4.2. Establecimiento de las hipótesis 431

14. INFERENCIAS SOBRE REGRESIÓN LINEAL Y CORRELACIÓN 451

15. CONTRASTES NO PARAMÉTRICOS Y DE DISTRIBUCIÓN

15.4. Otras pruebas 497

APÉNDICE A: Tablas estadísticas 509

APÉNDICE B: Teoría combinatoria 529

APÉNDICE C: Otros modelos de distribución 537

RESPUESTA A LOS EJERCICIOS 545

ÍNDICE ALFABÉTICO 567

1.1. Sumas indicadas

Supongamos que un dependiente de unos grandes almacenes ha ido registrando

Definición 1.1: Dado el conjunto de números reales {A ,A„. ..,An} representa-

lA, = lA,= lAk

Definición 1.2: Consideremos el conjunto de los números reales { ArA„. ...A }.

Esta nueva fórmula permite especificar sumas parciales de cualquier subconjunto

X A. = 1 5500 + 8250 + 25200 = 48950

1. 'Z(X + Y)=^X + ^Y [3]

Valor del artículo (X) 0179 13839 7366 22500 28929

La suma de los valores de los artículos libres de impuesto es:

X^ = 2421 + 1661 + 884 + 2700 + 3471 = 1 1 137

X*,+X^ =92813+ 11 137= 103950 = XA

II. X(x-y) = lx-ly (4)

Xa, -X*;. =103950-11137=92813

X (A, -Y,)= 20179 + 13839 + 7366 + 22500+ 28929 = 92813

III. Si k es una constante

lkA, = klA, (5)

¿2Aí=2A1+2A2+2A3 + 2A4+2A5 = 2(a,+A2+A3+A4+A5) = 2Xa¡

IV. Si k es una constante

Lo comprobamos para k=7:

Como caso particular, tenemos

X(Ai-k) = X,Ai-Nk (8)

La expresión (8) surge de aplicar (4) y luego (6):